Techday Arrow Group: Conférence Big Data à l'école 42

49
24 mars 2015 TechDay Big Data – Ecole 42 1 TechDay Big Data Philippe Barra & Stéphane Goumard

Transcript of Techday Arrow Group: Conférence Big Data à l'école 42

24 mars 2015 TechDay Big Data – Ecole 42 1

TechDay Big Data

Philippe Barra & Stéphane Goumard

24 mars 2015 TechDay Big Data – Ecole 42 2

Qui est Arrow Group ?

24 mars 2015 TechDay Big Data – Ecole 42 3

www.arrow‐group.eu

24 mars 2015 TechDay Big Data – Ecole 42 4

24 mars 2015 TechDay Big Data – Ecole 42 5

24 mars 2015 TechDay Big Data – Ecole 42 6

Agenda

• Qu’est-ce que le Big Data ?• Méthodologie• Square Predict• Hadoop

24 mars 2015 TechDay Big Data – Ecole 42 7

Agenda

• Qu’est-ce que le Big Data ?

• Méthodologie

• Square Predict

• Hadoop

24 mars 2015 TechDay Big Data – Ecole 42 8

Chaque minute sur Internet…

source: http://pennystocks.la/internet-in-real-time/

24 mars 2015 TechDay Big Data – Ecole 42 9

Evolution du hardware exponentielle

24 mars 2015 TechDay Big Data – Ecole 42 10

Le Big Data, selon un rapport de recherche de Gartner de 2001 est unedémarche consistant à extraire l’information pertinente d’un ensemble dedonnées caractérisées par :

Le Big Data

24 mars 2015 TechDay Big Data – Ecole 42 11

Le Big Data peut améliorer les performances dans ces domaines:

• Recommandations : déjà utilisés par les géants de la vente en ligne

• Analyse de sentiments : analyse des données non structurées pour déterminer le ressenti des utilisateurs face à un produit, une marque…

• Modélisation des risques : meilleure détermination des risques par traitement croisé des données historiques et facteurs environnementaux, et simulation des scenarios potentiels

• Détection de fraudes : détection de comportements inhabituels

• Analyse des graphes sociaux : pour déterminer les clients les plus influents qui ne sont pas forcement ceux qui achètent le plus

• Résiliation clients : détection des comportements amenant à la résiliation et amélioration des relations clients

• …

Que peut apporter le Big Data ?

24 mars 2015 TechDay Big Data – Ecole 42 12

• Un projet Big Data est un projet de R&D appliqué et non un projetd’informatisation de processus métiers.

• Un projet Big Data dépend des données et non de spécifications. Le cahier descharges est remplacé par les cas d’utilisation des données.

• La technologie et les mathématiques statistiques permettent aujourd’hui derendre accessible des traitements en temps réel.

Spécificités d’un projet Big Data

24 mars 2015 TechDay Big Data – Ecole 42 13

MétierMétier

StatistiqueStatistiqueITIT

Un projet Big Data est la mise en commun des trois compétences :

Projet Big Data

Projet Big Data

Compétences indispensables

24 mars 2015 TechDay Big Data – Ecole 42 14

Agenda

• Qu’est-ce que le Big Data ?

• Méthodologie

• Square Predict

• Hadoop

24 mars 2015 TechDay Big Data – Ecole 42 15

Arrow Group a conçu une méthodologie Big Data Analytics conciliant la méthodologie de data mining CRISP-DM et la méthodologie agile Scrum :

Méthodologie Big Data Analytics

24 mars 2015 TechDay Big Data – Ecole 42 16

Processus Big Data Analytics

24 mars 2015 TechDay Big Data – Ecole 42 17

Objectifs

• Définir les objectifs client par cas d’usage

• Identifier le besoin, les conditions de réussite, les données clients

• Construire le périmètre, le cadrage, les conditions de collaboration entre le client et l’équipe projet

Compréhension du Business – Cas d’usage

Métier

StatistiqueIT

24 mars 2015 TechDay Big Data – Ecole 42 18

Métier

StatistiqueIT

Objectifs

• Identifier l’ensemble des données exploitables : données du client, de l’Open Data, des réseaux sociaux, du Web sémantique, des logs, des capteurs…

• Elaborer les méthodes de collecte

• Collecter les données

Compréhension des Données

24 mars 2015 TechDay Big Data – Ecole 42 19

Objectifs

• Auditer et améliorer la qualité des donnée

• Elaborer les méthodes de fusion

• Elaborer les règles de Privacy by Design à appliquer

• Préparer les donner à analyser

Audit des Données

Métier

StatistiqueIT

24 mars 2015 TechDay Big Data – Ecole 42 20

Objectifs

• Sélection des méthodes d’analyse

• Paramétrage des algorithmes

• Application des techniques d’analyse

Modélisation & Analyse

Métier

StatistiqueIT

24 mars 2015 TechDay Big Data – Ecole 42 21

Objectifs

• Analyse des résultats

• Vérification du respect des objectifs business

Métier

StatistiqueIT

Evaluation

24 mars 2015 TechDay Big Data – Ecole 42 22

Objectifs

• Elaboration de la présentation des résultats

• Elaboration du retour d’expérience sur le développement du cas d’usage

Métier

StatistiqueIT

Déploiement

24 mars 2015 TechDay Big Data – Ecole 42 23

Agenda

• Qu’est-ce que le Big Data ?

• Méthodologie

• Square Predict

• Hadoop

24 mars 2015 TechDay Big Data – Ecole 42 24

Square Predict vise à valoriser et monétiser l'énorme quantité de données dontles assureurs disposent depuis des années.

Consortium :

Métier

StatistiqueIT

Assureur français leader mondial

24 mars 2015 TechDay Big Data – Ecole 42 25

Assurance Multi-Risque Habitation : Sinistralité Incendie & Dégât des Eaux

Evaluation en temps réel de la sévérité d’une catastrophe naturelle

Exemples de cas d’usages

24 mars 2015 TechDay Big Data – Ecole 42 26

Compréhension & audit des données:

Evaluation et déploiement:

Assurance Multi-Risque Habitation –Sinistralité Incendie & Dégât des Eaux

24 mars 2015 TechDay Big Data – Ecole 42 27

Compréhension & audit des données• Base sinistres d’origine climatique• Base contrats (clients)• Sites Web alertes météo• Réseaux sociaux• Flux RSS d’information

Evaluation et déploiement:

Sévérité en temps réel d’une catastrophe climatique

24 mars 2015 TechDay Big Data – Ecole 42 28

Agenda

• Qu’est-ce que le Big Data ?

• Méthodologie

• Square Predict

• Hadoop

24 mars 2015 TechDay Big Data – Ecole 42 29

● Qu’est ce que c’est ?● Histoire.● Architecture de référence.● Système d’exploitation de la Donnée.● le Coeur de Hadoop.

o HDFSo Map Reduce.

● Demoo Réaliser un programme MapReduce Hadoop/Java.o Usine Logicielle SF4H.

● En bref : o YARN.o Hive.o Spark.

Hadoop

24 mars 2015 TechDay Big Data – Ecole 42 30

● Solution Open Source Big Data fournissant un socleo Distribué

Stockage. Traitement.

o Scalable Scalabilité linéaire.

● Stockage local => Rapide et peu cher.o SAN => 2-10$ / Goo NAS => 1-5$ / Goo Local => 0.05$ / Go.

● Cluster de “commodity hardware”● Open Source pour éviter le “vendor lock-in”

HadoopQu’est ce que c’est ?

24 mars 2015 TechDay Big Data – Ecole 42 31

HadoopHistorique

24 mars 2015 TechDay Big Data – Ecole 42 32

HadoopArchitecture de référence BI

24 mars 2015 TechDay Big Data – Ecole 42 33

En 10 ans, son adoption ne fait plus aucun doute !

HadoopArchitecture de référence BI

24 mars 2015 TechDay Big Data – Ecole 42 34

HadoopSystème d’exploitation de la donnée

24 mars 2015 TechDay Big Data – Ecole 42 35

● Système de fichier distribué.● Scalable horizontale (ajout de noeuds)● Tolérant aux pannes (réplication)● Full Scan, Gros Fichier (--- lecture aléatoire)

Replication Factor (3)Block Sise (128 Mo)

#NameNode (SPOF, FAT, Master/Slave)

HadoopHDFS (Hadoop Distributed File System)

24 mars 2015 TechDay Big Data – Ecole 42 36

HadoopMapReduce

● Framework de programmationo Parallélisation automatique des jobs Hadoop.o Gestion transparente du mode distribué.o Le traitement est envoyé là où résident les données.

● MapReduce = 2 fonctions.o map()

Convertir les données en entrée en une série de paires clé/valeur.o reduce()

Appliquer un traitement à l’ensemble des valeurs regroupées par leur clé. Consolider les données issues du Mapper.

MapReduce est un Framework=> Structurant en terme de développement / conception.=> Il faut rentrer dans le paradigme.

24 mars 2015 TechDay Big Data – Ecole 42 37

HadoopMap Reduce

24 mars 2015 TechDay Big Data – Ecole 42 38

HadoopDémo (WordCount)

24 mars 2015 TechDay Big Data – Ecole 42 39

HadoopDémo (SF4H)

24 mars 2015 TechDay Big Data – Ecole 42 40

HadoopDémo (Méthode)

1 - Créons.

Créer un projet à l’aide de l’archetype.

- Développer les Fonctions Map / Reduce et le Job.

2 - Développons. 3 - Testons.

- Écrire un Test Unitaire. Simulation Cluster In Memory.

4 - Testons encore.

- Tester dans le HDP en standalone.

- Tester le projet sur la plateforme avec passage à l'échelle.

5 - Testons encore et encore..

- Mettre le projet sur le SCM.

6 - Partageons.

24 mars 2015 TechDay Big Data – Ecole 42 41

Hadoop Démo (Code)

24 mars 2015 TechDay Big Data – Ecole 42 42

Hadoop Démo (Code)

24 mars 2015 TechDay Big Data – Ecole 42 43

Hadoop Démo (Code)

24 mars 2015 TechDay Big Data – Ecole 42 44

Hadoop Démo (Vidéo)

24 mars 2015 TechDay Big Data – Ecole 42 45

HadoopEn Bref : YarnYARN (Yet-Another-Resource-Negotiator) est aussi appelé MapReduce 2.0. Ce n’est pas une refonte

mais une évolution du framework MapReduce.

Des tâches Map sont en attente alors que des slots de tâche reduce sont libres.

Valeurs codées en dur.

JT NN

TE DN TE DN TE DN

ResourceManager

AplicationMaster AM AM

TE DN TE DN TE DN

Avant Après

Problème de limite de “Scalability”

Problème d’allocation des resources

24 mars 2015 TechDay Big Data – Ecole 42 46

Hadoop se transforme en OS de la donnée !● Client et cluster peuvent utiliser des versions différentes.

● Des protocoles de communication standardisés et documentés.

● Évolution du framework progressive avec rétro-compatibilité sans destruction des services.

HadoopEn Bref : Yarn

24 mars 2015 TechDay Big Data – Ecole 42 47

HadoopEn Bref : Hive

● Requêtage SQL sur Hadoop (HiveQL)○ Permet d’accéder simplement aux données○ Ouvre Hadoop aux habitués du SQL○ Propose des drivers xDBC pour brancher des outils externes (Tableau, etc.)

● Origine :○ Facebook (90% des Jobs Hadoop de Facebook sont générés avec Hive)

● Les Requêtes HiveQL sont compilés en jobs Map Reduce○ Lenteur importante (latence des jobs Map Reduce)

● Faibles performances + ● Marché très important du BD SQL.

○ Impala○ Spark SQL○ Drill○ Elatstic Search For Hadoop.

Horton Works pousse à l'optimisation (stringer)

24 mars 2015 TechDay Big Data – Ecole 42 48

HadoopEn Bref : Spark

● Spark est un Moteur Map Reduce + évolué et + Rapide.

● Compatibilité Stockage, Moteur d'exécution

● +Rapide.Utilisation intensive de la mémoire

(RDD)Langage de programmation

fonctionnel orienté opération “lazyless”.

● Un EcoSystéme dédié au traitement analytique.

24 mars 2015 TechDay Big Data – Ecole 42 49

Philippe [email protected]

Stéphane [email protected]

[email protected]

Arrow Financial Consulting

Arrow Group Recrutement

@Arrow_Group1

MerciQuestions ?