Soutenance ysance

18
SOUTENANCE DE FIN D’ÉTUDE STAGE EN BIG DATA Nelson Verdier 5 Septembre 2014

Transcript of Soutenance ysance

Page 1: Soutenance ysance

SOUTENANCE  DE  FIN  D’ÉTUDE  STAGE  EN  BIG  DATA

Nelson  Verdier  -­‐  5  Septembre  2014

Page 2: Soutenance ysance

• Ysance  

• Big  data  ?  

• Proof  of  concept  -­‐  Hadoop  

• R&D  -­‐  Spark  

• DVP  

• Conclusion

Plan

Page 3: Soutenance ysance

!

Stratégie digitale & Consulting IT!Conception, mise en œuvre et animation

ebusiness, Business Intelligence, Cloud Computing & Big Data

Page 4: Soutenance ysance
Page 5: Soutenance ysance

• 3V  • volume  • vélocité  • variété  

• Extraire  des  données  valorisées  • Architecture  distribuée  et  extensible

Le  big  data  ?

Page 6: Soutenance ysance

MapReduce  et  Hadoop

• MapReduce  • processus  de  traitement  parallèle  sur  cluster  • originaire  de  chez  Google  en  2004  

• Hadoop  • implémentation  en  java  du  mapreduce  • par  Yahoo  en  2005  • hdfs  -­‐  hadoop  distributed  file  system  • namenode,  datanode

Page 7: Soutenance ysance

Map  Reduce  -­‐  word  count

Page 8: Soutenance ysance

Eco-­‐système  Hadoop

HDFS  -­‐  stockage

MapReduce  -­‐  traitement

Hive  sql

Mahout  machine  learning

HBase  clé/valeur

Pig  scripts

Page 9: Soutenance ysance

Proof  of  concept  Hadoop• Mission  pour  un  acteur  dans  la  lunetterie  • Contexte  :  

• Ensemble  de  serveurs  qui  communiquent  entre  eux,  produisent  des  logs  

• Extraire  de  ces  logs  des  informations  commerciales  • clients,  commandes,  adresses,  quantités…  

• Stocker  ces  données  propres  dans  Amazon  S3

Page 10: Soutenance ysance

Proof  of  concept  Hadoop

• Implémentation  du  job  MapReduce  en  Java  • Déploiement  du  job  sur  Amazon  EMR  • script  de  lancement  de  job  • Première  approche  big  data  intéressante  

• api  java  bas  niveau  avec  des  classes  Mapper  et  Reducer

Page 11: Soutenance ysance

R&D  -­‐  Spark

• Volonté  de  maitriser  les  technologies  de  demain  • Apache  Spark  

• framework  de  traitement  distribué  • chargement  des  données  en  mémoire  • briques  semi-­‐temps  réel,  machine  learning,  sql  

• Plusieurs  applications  développées  pour  tester  Spark

Page 12: Soutenance ysance

twitter_pictures

Images  les  plus  populaires  sur  twitter  sur  une  fenêtre  de  temps

Page 13: Soutenance ysance

twitter_streaming

Déceler  les  utilisateurs  les  plus  influents  du  moment  sur  un  thème  donné.

Page 14: Soutenance ysance

Applications  spark

• sentiment:  catégorisation  de  tweets  selon  qu’ils  soient  à  connotation  positive  ou  négative  

• sql:  prise  en  main  de  la  brique  Spark    • Livrables:  

• codes  sources  • documentation  sur  le  wiki  ysance

Page 15: Soutenance ysance

DVP  -­‐  data  visualisation  platform

Data  visualisation  platform  • Permet  de  suivre  les  partages  d’urls  d’un  site  web  spécifique  sur  twitter,  page  par  page  et  sur  une  fenêtre  de  temps.

Page 16: Soutenance ysance

DVP  -­‐  data  visualisation  platform

• Développement  du  backend  • Spark  Streaming  • MongoDB  • Hive  +  user  defined  function  • Hbase  • Elasticsearch  

• Jusqu’a  200  urls  par  seconde

Page 17: Soutenance ysance

Conclusion

• Big  data,  un  environnement  riche  où  tout  reste  à  faire.  Des  challenges  techniques  comme  fonctionnels  

• Volonté  de  gagner  en  expertise  technique  avant  d’évoluer  vers  un  poste  plus  haut  niveau  

• Ysance,  un  investissement  en  R&D  pour  mieux  accueillir  les  futurs  besoins  clients

Page 18: Soutenance ysance

MERCI  DE  VOTRE  ATTENTION  DES  QUESTIONS?