Retour Hadoop Summit San José 2014 - Altic

20
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ HUG France – 11 Juin 2014 Retours du Hadoop Summit 2014 San José Charly CLAIRMONT charly[.]clairmont[@]altic.org @egwada

description

Les éléments intéressants retenus lors du Hadoop Summit de San José en Juin 2014 : Charly Clairmont, d'Altic nous fait un retour.

Transcript of Retour Hadoop Summit San José 2014 - Altic

Page 1: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HUG France – 11 Juin 2014

Retours du HadoopSummit 2014

San José

Charly CLAIRMONTcharly[.]clairmont[@]altic.org@egwada

Page 2: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop, la révolution est toujours en marche !

Plus de 3 000 conférenciersPlus d'exposantsPlus de sessions

Page 3: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Ce qu'il fallait retenir ! ( selon moi ;-) )

● SQL on Hadoop !● Plus de types traitements au dessus d'Hadoop● Simplifier Hadoop !

Page 4: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

SQL on Hadoop !

● Beaucoup d'acteurs traditionnels sont venus à Hadoop !● Et bien sûr ils font avec ce qu'ils savent faire : SQL

● De même beaucoup de couches SQL pour Hadoop existent... ● Trop ??

Page 5: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

SQL on Hadoop !

● Tout le monde cherche à approcher des temps de réponse humainement acceptable

● « Discardable In-Memory Materialized Queries »

● Grâce Optiq de Julian Hyde– Son but ultime : – « faire tourner Mondrian (OLAP) au dessus d'Hadoop »

● Projet à suivre

Page 6: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

SQL on Hadoop !« Discardable In-Memory

Materialized Queries »

Pas que pour Hive !

Pig et les autres composants en

bénéficieront

Page 7: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Plus de types traitements au dessus d'Hadoop

Page 8: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Plus de types traitements au dessus d'Hadoop

● Encrer l'approche● Data Lake● Data Hub

Ou plutôt

● Réservoir– Plus approprié ?!

Page 9: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Plus de types traitements au dessus d'Hadoop

Pour gérer, traiter tous types de formats de données

Page 10: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Simplifier Hadoop !● Rendre Hadoop plus « people ready » !

● Beaucoup d'initiatives en ce sens– Ambari– Falcon– HCatalog / Templeton– OpenStack Sahara– Hadoop telle une plate-forme– JetStream (continuuity, at&t)

– ...

● Tous les projets – qui visent la performance– qui augmentent la productivité

Page 11: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Simplifier Hadoop !

Amabari

● simplifie la gestion du cluster

● devient la porte d'entrée des utilisateurs finaux

Page 12: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Simplifier Hadoop !

Falcon

● Un point unique pour manipuler toutes les données sur tous vos clusters

Page 13: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Simplifier Hadoop !

HCatalog / Templeton : apporter la cohérence dans les données

Page 14: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Simplifier Hadoop !

Hadoop, une plate-forme

Couches logicielles

Technologies

Traitements massivement parallèles

YARN, GiRAPH, MapReduce, HBase, Phoenix, Spark/BDAS, Drill, Impala, Stinger, PrestoDB, STORM ...

Système de fichiers

Azure, CassandraFS, CephFS, CleverSafe, GlusterFS, GridGain, HDFS, LustreMapR FS, S3, SWIFT, Quantcast FS, Symantec VCFS ...

Infrastructures System on a Chip, x86, Virtualization (Savanna, Sorengetti ) and Cloud (Amazon EMR, Rackspace, Enovance, ...)

Distributions Cloudera, Hortonworks, IBM, MapR, Pivotal, WanDisco

Page 15: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Simplifier Hadoop !

Toutes les autres projets...

● Parquet

● Summingbird

● Hivemall

● Kite

● Spring XD

● Reef

● …

● YARN + Docker

● Mesos & co

Page 16: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Simplifier Hadoop !

YARN plus accessible

Page 17: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Conclusion

● Ne pas résumer Hadoop à SQL● Approche trop réducteur qui efface tellement de

possibilités

● Hadoop gagne du terrain● Commencer petit et viser grand

– POC > Production > Plate-forme

● YARN a tout changé

Page 18: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Bonus (1)

● Des rencontres, sans doute des futurs talks au HUG France● Parquet

– Julien Le DEM (Twitter)● Cascasding, Driven● OpenStack Sahara

– Matthew Farrellee (Red Hat)● Spark

– Nathan Paco (Stanford, Databriks)

Page 19: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Bonus (2)

● Altic, LIPEN & Tugdual Sarazin● Thèse : Biclustering en big data

– Cartographier vos données– Implémentation Spark

● On recherche des jeux de données sympas pour tester les algorithmes implémentés à grande échelle.– Si vous en avez, parlons en !

Page 20: Retour Hadoop Summit San José 2014 - Altic

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HUG France - 11 Juin 2014

Retours Hadoop Summit 2014

Merci pour votre attention

Charly CLAIRMONTCharly CLAIRMONT@egwada