Après nous avoir raconté son arrivée sur le sol américain pour assister au Hadoop Summit 2016, Charly Clairmont racontait dans son billet d’hier à quel point Hadoop avait évolué et grandit en 10 ans d’existence. Aujourd’hui, il revient en « brefs » sur les raisons qui font que le Hadoop Summit a un bel avenir devant lui !
Je ne rencontre pas beaucoup de français au Hadoop Summit de San José. Sans doute sont-ils allés à celui qui a eu lieu en Europe plus tôt dans l’année. Il semble effectivement qu’un certain nombre des présentations qui se sont déroulées en Irlande en avril soient les mêmes. Je peux toutefois noter qu’un grand nombre de sessions se déroulent en simultané – au moins 10 – et qui plus est sur 3 jours. Ça vaut quand même toujours le coût d’y venir !
Bien entendu l’important c’est de suivre les différentes sessions, et de capter de nouvelles connaissances. Mais c’est aussi le temps de faire le point avec des personnes qui sont du milieu et avoir leurs opinions sur le big data, Hadoop, le marché…
Avez-vous fait le décompte du nombre de solutions précédemment propriétaires qui ont finalement choisi la voie de l’open source ? Ou encore des nouvelles solutions qui embrassent directement l’open source ? Et je ne peux pas m’empêcher de citer Microsoft qui est carrément devenu un défenseur de l’open source.
Et que dire de Cloudera qui disait que l’on ne pouvait pas tout mettre en open source, qu’il fallait quand même se conserver des solutions qui aident à faire la différence ? Cloudera a choisi l’open source pour Impala. A en croire certains, surtout sur les problématiques de gestion, de stockage pure de la donnée, les clients potentiels leur tournent le dos parce qu’il ne sont pas open source. De la même manière l’open source attire aussi des clients simplement parce que l’on a un repo actif sur Github. En gros la norme est devenue l’open source.
Je citerai aussi Terradata qui a parfaitement compris lui aussi l’intérêt de l’open source car presqu’une trentaine de ces salariés participent à l’éclosion d’un mouvement autour de PrestoDB de Facebook, que les grandes distributions Hadoop boudent pour l’instant !
.@prestoDB gagne de plus en plus d'adeptes #HS16SJ pic.twitter.com/F5PaZ5SwYJ
— Charly CLAIRMONT (@egwada) June 30, 2016
Voilà une petite liste de quelques projets open source initialement issus du propriétaire ou nouvellement open source :
Splice machine, Warp10, Quark (Qubole), Wipro BDRE, Apache Beam (Google), Apache Merton (Hortonworks), EsgynDB, Slamdata, …
Bref pas d’Hadoop ou de Big Data sans l’open source !
Un nouveau visage pour l’utilisateur final
Pour l’utilisateur final Hadoop c’était un gros machin… Aujourd’hui Hadoop présente un visage bien plus attrayant. Il y a de très nombreuses solutions qui facilitent de près ou de loin l’exploitation d’Hadoop : Spark et tout l’écosystème, des jolies interfaces jusqu’aux clics !
Quasiment tous les domaines sont couverts : ingestion des données, traitement, présentation des données, statistiques, machine learning… Prenez un peu la liste des sponsors de ce Hadoop Summit pour vous rendre compte à quel point les interfaces utilisateurs sont partout ! C’est plus que séduisant.
Les premières fois où j’ai manipulé Trifacta, je me suis dit que Hadoop avait enfin un visage pour l’utilisateur amateur d’Excel ! Bien sûr je ne parle même pas de solutions directement en ligne comme Qubole, ou d’autres comme Datameer qui sont là depuis longtemps. Et les grandes distributions qui y vont de leur contribution, Hue d’un côté et Zepplin de l’autre.
Bref Hadoop a désormais des visages et vous ne pourrez plus dire qu’il rebute vos utilisateurs finaux !
Rapprochement des solutions pour le bien commun
Au fil de toutes les sessions d’hier j’ai pu noté qu’il y avait un certain rapprochement des solutions. Surtout entre Hive et HBase qui n’arrêtent plus de s’entraider. HBase est en passe de devenir le métastore de Hive.
De la même manière, Airbnb exploite HBase comme stockage pour avoir de bien meilleures performances. Hortonworks poursuit sa vision quant à faire de Hive la couche SQL defacto pour Hadoop. Ils ont préféré se concentrer à le rendre plus fort au lieu de démarrer un nouveau projet. Le LLAP, déjà intégré à HDP 2.5 sera amélioré dans les versions futures. Ce module plus le CBO (cost based optimizer) préfigurent Hive comme l’une des couches SQL sur Hadoop qui restera.
Les limites de LLAP sur #Hive, bien que les performances sont bien là #HS16SJ pic.twitter.com/rr7mDxQDY4
— Charly CLAIRMONT (@egwada) June 29, 2016
HDFS devrait lui aussi être bigrement optimisé ! Dans sa version 3 on devait gagner en fiabilité et économiser de l’espace disque, ce qui bénéficiera à l’ensemble des projets.
Sujets où les intégrations entre l’ensemble des projets sont encore plus significatifs : la sécurité et la traçabilité. En effet, Ranger qui agit à la manière d’un proxy, dialogue avec l’ensemble des composants pour en gérer l’accès aux utilisateurs autorisés. Le petit dernier n’est pas en reste. En effet, Atlas qui est apparu pour gérer l’ensemble des métadonnées de la plateforme, va pouvoir labelliser toutes les entités qui y sont référencés. Au moyen de ces labels, Ranger va être en mesure de gérer la sécurité sans plus avoir besoin de le faire au niveau de chaque composant.
Depuis #Ranger il est possible de gérer la l'accès au données de manière très fine ! #Hive #Hadoop #HS16SJ pic.twitter.com/kywf4YsKDZ
— Charly CLAIRMONT (@egwada) June 29, 2016
Bref avec la maturité d’Hadoop on a une plateforme de plus en plus consistante.
Le dernier Strataconf / Hadoop World a eu lieu il n’y a pas si longtemps… Et j’ai pu relever un commentaire fort intéressant d’un des papas d’Hadoop, Doug Cutting. Il y notait que l’on aurait toujours autant d’éclectisme dans l’écosystème Hadoop !
Sections commentaires non disponible.