Soutenance ysance
-
Upload
nelsonverdier -
Category
Documents
-
view
318 -
download
2
Transcript of Soutenance ysance
SOUTENANCE DE FIN D’ÉTUDE STAGE EN BIG DATA
Nelson Verdier -‐ 5 Septembre 2014
• Ysance
• Big data ?
• Proof of concept -‐ Hadoop
• R&D -‐ Spark
• DVP
• Conclusion
Plan
!
Stratégie digitale & Consulting IT!Conception, mise en œuvre et animation
ebusiness, Business Intelligence, Cloud Computing & Big Data
• 3V • volume • vélocité • variété
• Extraire des données valorisées • Architecture distribuée et extensible
Le big data ?
MapReduce et Hadoop
• MapReduce • processus de traitement parallèle sur cluster • originaire de chez Google en 2004
• Hadoop • implémentation en java du mapreduce • par Yahoo en 2005 • hdfs -‐ hadoop distributed file system • namenode, datanode
Map Reduce -‐ word count
Eco-‐système Hadoop
HDFS -‐ stockage
MapReduce -‐ traitement
Hive sql
Mahout machine learning
HBase clé/valeur
Pig scripts
Proof of concept Hadoop• Mission pour un acteur dans la lunetterie • Contexte :
• Ensemble de serveurs qui communiquent entre eux, produisent des logs
• Extraire de ces logs des informations commerciales • clients, commandes, adresses, quantités…
• Stocker ces données propres dans Amazon S3
Proof of concept Hadoop
• Implémentation du job MapReduce en Java • Déploiement du job sur Amazon EMR • script de lancement de job • Première approche big data intéressante
• api java bas niveau avec des classes Mapper et Reducer
R&D -‐ Spark
• Volonté de maitriser les technologies de demain • Apache Spark
• framework de traitement distribué • chargement des données en mémoire • briques semi-‐temps réel, machine learning, sql
• Plusieurs applications développées pour tester Spark
twitter_pictures
Images les plus populaires sur twitter sur une fenêtre de temps
twitter_streaming
Déceler les utilisateurs les plus influents du moment sur un thème donné.
Applications spark
• sentiment: catégorisation de tweets selon qu’ils soient à connotation positive ou négative
• sql: prise en main de la brique Spark • Livrables:
• codes sources • documentation sur le wiki ysance
DVP -‐ data visualisation platform
Data visualisation platform • Permet de suivre les partages d’urls d’un site web spécifique sur twitter, page par page et sur une fenêtre de temps.
DVP -‐ data visualisation platform
• Développement du backend • Spark Streaming • MongoDB • Hive + user defined function • Hbase • Elasticsearch
• Jusqu’a 200 urls par seconde
Conclusion
• Big data, un environnement riche où tout reste à faire. Des challenges techniques comme fonctionnels
• Volonté de gagner en expertise technique avant d’évoluer vers un poste plus haut niveau
• Ysance, un investissement en R&D pour mieux accueillir les futurs besoins clients
MERCI DE VOTRE ATTENTION DES QUESTIONS?