Deuxième jour au Hadoop Summit 2016

Notre CTO Charly Clairmont assiste actuellement au Hadoop Summit 2016 à San José. Hier, il nous racontait son arrivée aux Etats-Unis et nous donnait un aperçu du programme qui l’attendait au #HS16SJ. Aujourd’hui, il nous fait part des premières révélations de la keynote !
Durant la keynote d’hier Arun C. Murthy, co-fondateur d’Hortonworks et d’Hadoop, nous faisait part d’une boutade d’Adrian Merv du Gartner, qui lui disait qu’Hadoop entrait dans l’adolescence !

Et pourtant…! Dix ans déjà qu’Hadoop existe, et bien 5 ou 6 ans qu’il a quitté la sphère des grands du web pour conquérir le monde… Une révolution avait ainsi commencé en informatique, suivant finalement une utilisation plus fine des données pour permettre aux organisations une amélioration certaine de leur modèle d’affaire.

Hadoop Summit, concentré de connaissances

Le Hadoop Summit est un véritable concentré de connaissances, très brutes ! Il y a de nombreuses choses que l’on a l’impression de déjà connaître… Des professionnels sur leur stand sont encore étonnés que vous ayez téléchargé leur code depuis GitHub, que vous l’ayez compilé, testé et que vous reveniez les voir avec plus de questions… Les présentations valent vraiment le coup parce que vous avez le sentiment d’avoir réellement appris des nouvelles choses : technologies, méthodologies, possibilité de s’enrichir des expériences des autres…

Durant la Keynote nous avons été assez surpris par l’annonce des YARN Assembly !

Dans la démonstration, on a pu voir que depuis Ambari, il devenait possible de s’appuyer sur un modèle d’application assemblant plusieurs briques de l’écosystème Hadoop pour exécuter son application big data au dessus de YARN ! Ouah… c’est un peu ce que cherche à faire tout le monde ces derniers temps avec Docker, Mesos, Kubernetes.

Ce n’est effectivement pas que l’amélioration de Hive, Spark, HDFS ou autre ! Hadoop permet ainsi de couvrir un autre besoin auquel les entreprises vont avoir à faire face : comment déployer et isoler des applications en production, notamment les applications Big Data !

Hadoop remplace votre datawarehouse

Un tabou est tombé durant ce Hadoop Summit : Hadoop peut réellement remplacer votre data warehouse ! Il était temps que le marché fasse sa mue ! Il existe carrément des solutions pour migrer depuis votre Netezza ou Terradata ! Ces solutions vont lire les métadonnées de vos coûteux datawarehouses pour identifier les requêtes qui mettent le plus de temps à s’exécuter, selon vos seuils, bien entendu. Vous serez en mesure de migrer ou finalement déporter des calculs dans Hadoop pour obtenir une optimisation de votre coût de possession de votre datawarehouse. Intéressant tout ça !

Une adoption massive d’Hadoop

Hadoop est bien adopté, j’en veux pour preuve les chiffres annoncés par Hortonworks, où ils précisent qu’ils ont dans leur portefeuille une bonne partie du Fortune 500 et bien deux tiers de la grande distribution des US. Et tout cela, sans parler des clients de Cloudera, MapR ou IBM ! Une chose est sûr les lacs abondent : les réserves de données grossissent !

Pas si simple de s’y retrouver dans cet amas de données. Il ne faut pas aussi oublier que l’on n’a pas attendu Hadoop pour crouler, non seulement sous les données, mais aussi sous tous les logiciels du système d’information ! On connait bien le terme urbanisation du système d’information – où l’on venait à la manière des urbanistes qui construisent une ville, architecturer l’ensemble des briques logicielles qui forment un système d’information.

Le Catalog, chouchou des éditeurs

C’est avec cette vision que de nombreux éditeurs proposent le “catalog” ! Vous avez dit quoi ? Et bien maintenant que vous disposez d’une grosse masse de données, il faut organiser, tracer le tout. Nombreux sont les éditeurs qui vous proposent donc un super référentiel de toutes vos données, dans tous les formats (fichiers, base de données, mails, archives en tout genre). Vous pourrez même faire de la recherche plein texte ! On peut dire qu’Hadoop prend un visage pour l’ensemble des utilisateurs finaux !

Cette année le mot du #HadoopSummit c'est #Catalog ! #HS16SJ @Aginity @attivio @solixbigdata @collibra

— Charly CLAIRMONT (@egwada) June 28, 2016

Avant de vous laisser, je vous invite à parcourir ces slides qui vous donneront un bon aperçu de l’état de l’art du Big Analytics.
Rendez-vous demain pour la suite du Hadoop Summit 2016 !