Meetup intro techno big data

42
BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr Big Data l Analytics l DataViz Introduction aux technologies Big Data

Transcript of Meetup intro techno big data

BIG DATA l ANALYTICS l DATAVIZ

www.data-business.fr

Big Data l Analytics l DataViz

Introduction aux technologiesBig Data

2Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014

Cheminement du cours

Volume

Variété2

Vitesse3

Eco-System Hadoop4

1

3BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Cette année nous fêtons les 80 ans de l’informatique

• 1934 : Alan Turing

• 1968 : Intel

• 1972 : Internet

• 1977 : Oracle

• 1992 : Internet = 1 million de PCs

• 1995 : MySQL / PostGreSQL

• 1996 : Internet = 36 millions de PCs

• 2000 : Internet = 360 millions de Pcs

• 2007 : Iphone

• 2015 : 2 milliards de smartphones

• 2020 : 50 milliards d’objets connectés ?

Limit MySQL PostGreSQL MongoDB OracleDatabase Size Limité par l'OS Unlimited 128 TB

Table Size 16 TB 32 TB Row Size 65 000 bytes 1.6 TB Field Size … 0,06Mb 1 GB 16 Mb

Rows per Table illimiteds Unlimited 4b or illimited Columns per Table 85 250 - 1600 Indexes per Table Unlimited unlimited

4BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

% de personnes se connectant à internet

5BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Où vont les données ? Sur des disques !

6BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

La meilleure config sur Rue du Commerce : 60 To

➢ Les interfaces de connexion au disque dur:• IDE-ATA : 133 Mo/s ( obsolète )• SCSI : de 5 à 600 Mo/s ( intelligent, plus rapide, standardisé )• S-ATA : de 150 à 600 Mo/s ( standard actuel )

➢ Carte mères : 500 eur• 2 x SATA3 6.0 Gb / s• 8 x SAS2/SATA3 6.0 Gb / s

➢ Taille des disques : 6 To – 300 euros

➢ Configuration : 60 To max / 3500 euros

➢ Temps de lecture : • Théorique : 10 000 secondes / 2.7 heures • Pratique : Deux ou trois fois plus lent : environ 9 heures

IDE-ATA

SCSI

S-ATA=> Combien de temps pour tout lire ?

7BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

IBM Benchmark ( 2011) : 480 disques !

480 disques de 146 Gb : 71 Tb

15 K RPM14 Gb / s5 000 secondes pour tout lire : 80 minutes ! => Combien de temps pour tout lire ?

=> A quel prix ?

8BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

MTBF : Mean Time Before Failure

100 disques | MTBF 5 ans = 20 pannes / anSoit un disque à changer toutes les 2 semaines.

Risques :1. Coût2. Instabilité du système3. Perte d’information !

Hadoop résout le MTBF en déduplicant la donnée : replication factor = 3

Si un disque tombe en panne, on retrouve l’information sur un des deux autres disques.

9BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

MTBF : Transformer un problème en atout

Lent (dédié au mode “batch”)

Pas cher(12 Keur/machine)mais redondant !

RapideMap (Sort) Reduce

mais complexe !

10BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Map-Reduce Algorihtm

MAP (MAGIC SORT) REDUCE (RESULT)

11Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014

Cheminement du cours

Volume

Variété2

Vitesse3

Eco-System Hadoop4

1

12BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Des sources de plus en plus diverses

13BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

La fin d’un monde

1950 - 20092015

JSON

14BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Formalisme JSON :

15BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Des caractéristiques différentes ...

1950 - 2009

2015

Online Transaction Processing

Transactions garantiesLecture et écriture

Schéma défini

Banques / Systèmes de sécurité

Oracle / AccessPostGreSQL / MySQL

Online Analytical Processing

Pas de transactionsPrincipalement en lecture

Sans schéma

Sites Web / Applications non critiques

MongoDB / CouchDB HBase / Cassandra

16BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Pour de nouveaux usages :1950 - 2009

2015

Online Transaction Processing

Transactions garantiesLecture et écriture

Schéma défini

Banques / Systèmes de sécurité

Oracle / AccessPostGreSQL / MySQL

Online Analytical Processing

Pas de transactionsPrincipalement en lecture

Sans schéma

Sites Web / Applications non critiques

MongoDB / CouchDB HBase / Cassandra

17BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Un vocabulaire qui change :

1950 - 2009

2015

Online Transaction Processing

MCD / Schéma / RelationnelUML / MERISE

Référentiel / dictionnaires de donnéesSQL Triggers

Silos / Logiciels / Licences / BI

Online Analytical Processing

NoSQL / Schemaless

Machine Learning / PrédictifApprentissage (Non) Supervisé

Partage / API / Open Sources / Dashboard / Data Visualisation

18Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014

Cheminement du cours

Volume

Variété2

Vitesse3

Eco-System Hadoop4

1

19BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Support matters

La RAM est jusqu’à 70 fois plus rapide que le disque en écriture et 50 fois en lecture

20BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Support matters

x 388

21BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Support matters

x 388

x 777

22BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Support matters

x 388

x 777

x 1314

23BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

24BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

25BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

26BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

27BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

20 € / Tb

28BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

9 000 € / Tb

20 € / Tb

29BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Lambda architecture

9 000 € / Tb

20 € / Tb

30Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014

Cheminement du cours

Volume

Variété2

Vitesse3

Eco-système Hadoop 4

1

31BIG DATA – ESILV – Septembre 2014

Coordination complexe dans les Systèmes Parallèles

Loi d’Amdhal :Soit un programme :

• P = % possible en parallèle sans synchronisation (dans [ 0, 1[ )• N = nombre de processeurs• 1 = durée nécessaire pour effectuer l’algorithme avec un processeur

Gain possible en temps : • Gain sur P = P/N < P < 1• Partie sur laquelle on ne peut rien gagner : 1 – P < 1• Durée nécessaire : (1-P) + P/N <1• Accélération possible : 1 / Durée nécessaire > 1

• Exemples :• 95% parallélisable : P = 0.95• 100 processeurs : N = 100• Accélération = 1 / ( 0.05 + 0.95/100) = 16,8 fois plus rapide• Avec 50 processeurs : 1 / (0.05 + 0.95/10) = 14,5 fois plus rapide

32BIG DATA – ESILV – Septembre 2014

Rendez vos codes Parralélisables !

33BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

HADOOP 1.0

34BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

HADOOP 2.0

35BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Zookeeper

36BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Front - End

37BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

D3JS

38BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

Présentation de Memorandum.pro

▪ Fondateur cabinet Mémorandum▪ Alcatel-Lucent, Toshiba Services▪ ESCP, Télécom Paris

Romain Jouin

▪ Développement informatique▪ Développement commercial▪ Stratégie Big Data▪ Analyse de données

COMPÉTENCES

▪ Jaccede.com – gestion d’infrastructure▪ EDF – E-reputation▪ Toshiba –1ère plateforme de Cloud Computing▪ Alcatel – Développement commercial Ex-URSS

SELECTION DE PROJETS RECENTS

• Cabinet de conseil en Stratégie Big Data

• Expertise Usages et Applications Big Data

• Missions de conseil et formations

• Développement logiciel

• Gestion d’industrialisation Big Data

39BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

History

41BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015

La base :

BIG DATA l ANALYTICS l DATAVIZ

www.data-business.fr

[email protected]

06.52.86.87.30