Big Data : buzz ou opportunité ?
-
Upload
microsoft-ideas -
Category
Technology
-
view
269 -
download
2
Transcript of Big Data : buzz ou opportunité ?
![Page 1: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/1.jpg)
palais des
congrès
Paris
7, 8 et 9
février 2012
![Page 2: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/2.jpg)
Bernard OurghanlianDirecteur Technique et SécuritéMicrosoft France
Big DataBuzz ou opportunité pour les entreprises ?
Code Session : RDI203
![Page 3: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/3.jpg)
In 2011, the amount of information created and replicated will surpass 1.8 zettabytes (1.8 trillion gigabytes) -growing by a factor of 9 in just five years. […] and more than doubling every two years. That's nearly as many bits of information in the digital universe as stars in our physical universe.
John Gantz and David ReinselExtracting Value from Chaos
![Page 4: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/4.jpg)
Explosion généralisée des
données
―[by 2020] data use is
expected to grow by
as much as 44
times, amounting to
some 35.2ZB
(zettabytes—a billion
terabytes) globally.‖
―We now have well
over a thousand
customers in the ever-
growing EMC
Petabyte Club.
They—or frequently
many more—
petabytes of EMC
storage in production.
By 2012 or so, we're
forecasting that we'll
have to start a
new, informal club—
the EMC Exabyte
Club.‖
―Flickr members
upload more than
3,000 images every
minute, and yesterday
yeoaaron uploaded
the five billionth
photo…‖
―AT&T has about 19
petabytes of data
transferred through
their networks each
day.‖
![Page 5: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/5.jpg)
![Page 6: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/6.jpg)
Des milliers d’années auparavant – Science expérimentale
Description des phénomènes naturels
Les quelques derniers siècles – Science théorique
Lois de Newton, équations de Maxwell
Les dernières décennies – Science computationnelle
Simulation de phénomènes complexes
Aujourd’hui – Science centrée sur les données
Unifier la théorie, l’expérience et la simulation
En utilisant l’exploration et la fouille de données
Données capturées par des instruments
Données générées par des simulations
Données générées par des réseaux de capteurs
Données générées par les humains
La nature changeante de la
recherche
2
2
2.
3
4
a
cG
a
a
![Page 7: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/7.jpg)
Modèles complexes Interactions multidisciplinaires
Larges échelles temporelles et spatiales
Large ensemble de données multidisciplinaires Flux temps réel
Structuré et non structuré
Communautés distribuées Organisations virtuelles
Socialisation et management
Diverses attentes Centrées client ou infrastructure
Le quatrième paradigme
http://research.microsoft.com/en-us/collaboration/fourthparadigm/
![Page 8: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/8.jpg)
Pourtant, Big Data ce n’est pas
que cela…
4/10/2013
Il y d’autres dimensions au phénomène Big Data…
![Page 9: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/9.jpg)
Les besoins en diminution de temps de
latence augmentent de plus en plus
• Le temps effectif pour comprendre a été considérablement réduit
• Poussé par des facteurs réglementaires et de calcul de risque dans de nombreuses industries
0 micro- milli- seconde minute heure jour
Value AtRisk
Contrôle de niveau de service
Transactionnel OLTP
Opérations, Administration et maintenance
Contrôle réglementaire
semaine
Réordonnancer la flotte
![Page 10: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/10.jpg)
Valeur
La hiérarchie de la
connaissance
Effort / Latence
Stru
ctu
re /
Val
eur
Signal
Donnée
Information
Connaissance
Nous voulons transformer le « signal » en « valeur »
Compréhension
Action
![Page 11: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/11.jpg)
Cycle de vie standard de
l’analyse de données (Entrepôt
de données)
Temps
Souvent des semaines voire des mois
![Page 12: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/12.jpg)
Le cycle de vie de l’analyse de
données en environnement Big
Data
Temps
Jours à semaines
![Page 13: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/13.jpg)
La hiérarchie de la
connaissance
Effort / Latence
Stru
ctu
re /
Val
eur
Signal
Connaissance
Donnée
Information
![Page 14: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/14.jpg)
Objectif : Repenser l’équation signal –
valeur
Effort / Latence
Stru
ctu
re /
Val
eur
Signal
Donnée
Information
Connaissance
Valeur
• Trouver une nouvelle valeur• Réduire de façon spectaculaire
le temps de création de valeur
Ceci n’a pas grand-chose à voir avec la taille de la donnée !
… mais … de nouveaux signaux peuvent se trouver dans les « données ambiantes »
![Page 15: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/15.jpg)
Perspicacité et création de sens
Perspicacité1. La capacité à discerner la véritable nature d'une situation ; la pénétration.2. L'acte ou le résultat de saisir la nature intime ou cachée des choses ou de
percevoir d’une manière intuitive.
Création de sensLe processus par lequel les individus (ou les organisations) créent une compréhension afin qu'ils puissent agir de façon raisonnée et éclairée.
![Page 16: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/16.jpg)
Création de sens sur un plus large
spectre
Effort / Latence
Stru
ctu
re /
Val
eur
Signal
Donnée
Information
Connaissance
Les systèmes existants permettentde donner du sens à des données modélisées
Il y a une énorme valeur potentielle dans le fait de donner un sens aux données ambiantes
![Page 17: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/17.jpg)
Les technologies « Big Data » tout à la fois recréent et
complémentent les workflows d’analyse existants en :
Simplifiant la production d’information structurée à partir de
sources de données « ambiantes » émergentes (Signal
Donnée Information)
Permettant rapidement la création de sens à partir de
données non enrichies et non modélisées
Permettant l’analyse à l’échelle sur des données
« ambiantes »
Permettant la création de modèles à partir de données
« ambiantes »
Le rôle des technologies « Big
Data »
![Page 18: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/18.jpg)
Le monde des données
(relationelles) est en train de
changer
Temps réel
Non Scructurées
Passage à l’échelle
Relational Data
![Page 19: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/19.jpg)
Qu’est-ce que Big Data ?
Gros volume de données 100aine TO à 10aine de PO
Traitement à large échelle et
analyse à un coût sans
précédent (hardware et
software)
Nouvelle économie
Cadre de traitement distribué
parallèle
Facile à faire passer à
l’échelle sur du hardware
standard
Modèles de programmation
de style MapReduce
Nouvelles Technologies
Non structurées
Schéma relationnel faible
Texte, Images, Vidéos, Logs
Types de données
non traditionnelles
Capteurs
Terminaux
Applications traditionnelles
Serveurs Web
Données publiques
Nouvelles sources de
données
Quelle est la popularité de mon produit ?
Quelle est la meilleure publicité à servir ?
Est-ce une transaction frauduleuse ?
Nouvelles questions et
nouvelles inférences
Big Data
![Page 20: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/20.jpg)
Big Data consiste avant tout à réduire le temps pour comprendre en permettant aux utilisateurs de
poser des questions ad-hoc sur des donnéesnon structurées et souvent mal
comprises
Qu’est-ce que Big Data ?
![Page 21: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/21.jpg)
Les pionniers de Big Data :
Exemple : Twitter
Stocke 12 TO de données/jour
Analyse pour :
Concepts clés :
Stocke les données telles quelles ;
les conserve comme des fichiers
journaux non structurés, n’essaye
pas de les analyser et de les stocker
dans un entrepôt de données
Traite des très gros volumes de
données rapidement grâce à des
requêtes ad-hoc et programmées
TENDANCES :
Justin Bieber
Egypt
Snowpocalypse
REPERTITION GEOGRAPHIQUE :
QU INFLUENCE RETWEETS?
IDENTIFICATION DES SPAMS :
• Akshf#$/lajsdf
Problème :• Nécessité de stocker de
très grands volumes de nouvelles données tous les jours
• Nécessité de fournir plus de valeur que de seulement stocker et retrouver les tweets Ramifications:
• Dans un mode de tweeters et d’analyse rapide, Twitter peut fournir une meilleure alerte précoce pour un conflit régional ou une épidémie qu’une surveillance classique
![Page 22: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/22.jpg)
Systèmes de gestion des
risquesQUE POUVEZ-VOUS VRAIMENT ESPERER DE VOTRE
PORTEFEUILLE ?
SIMULATION DU
DOMMAGE
PREVISIONNEL
• +20 milliards
d’évaluations de
risque
PERTES FUTURES
ATTENDUES
• Prix des contrats, gestion
de risque, affectation de
capital, structure prix du
transfert de
risque, conformité
réglementaire
• Requêtes complexes
basées sur les contrats
actuels
PORTEFEUILLE
ASSURE
• Millions
d’emplacements
avec des
paramètres
affectant la stabilité
structurelle
MODELE DE CATASTROPHE
Simulations de douzaines de
types de périls dans différentes
zones géographiques
Problème :• La surveillance et les
simulations fournissent une grande quantité de données utiles pour la gestion des risques mais il est impossible de les traiter toutes
Ramifications:• La possibilité d’exécuter des centaines de
simulations sur une douzaine de types de périls et de calculer le risque pour chaque adresse individuelle dans un portefeuille
![Page 23: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/23.jpg)
Analyse de SentimentQUI A DIT QUOI ? QUAND ? OU ? POURQUOI ?
Sentiment
REPARTITION GÉOGRAPHIQUE
REPARTITION DÉMOGRAPHIQUE
Blogs
YouTube
News
Problème :• Les conversations client peuvent
survenir n’importe où et les propos négatifs peuvent rapidement « partir en vrille »
Ramifications :• Une analyse de sentiment en temps réel vous
permet de non seulement connaitre ce qui a été dit mais aussi qui l’a dit, vous fournissant ainsi les informations dont vous avez besoin pour participer à la conversation
![Page 24: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/24.jpg)
Scénarios clients Big DataIndustrie Scénario
Services financiers
Modélisation des risques
Analyse des menaces
Détection des fraudes
Surveillance du trading
Analyse et notation de crédit
Web & E-Tailing
Moteurs de recommandation
Ciblage publicitaire
Qualité de la recherche
Détection des abus et de la fraude au clic
Distribution Analyse des transactions du point de vente
Taux de roulement des clients
Analyse de sentiment
Télécommunications
Prévention des désabonnements
Optimisation des performances réseau
Analyse des détails des appels
Analyse de réseau pour prédire les défaillances
Gouvernement Détection de fraude et cyber-sécurité
Général ETL et moteur de traitement
![Page 25: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/25.jpg)
Stratégie Big Data de Microsoft
Se connecter facilement au monde des données
• Données privées, publiques et dérivées• Données Microsoft
Se connecter aux données structurées et non structurées
• Management intégré, qualité des données, nettoyage, outils ETL
• Connecteurs pour déplacement de données
La BI pour tous • Utilisation des outils BI familiers (Excel, Power*)
Nouvelles expériences d’analyse
• Visualisation des données• Analyse prédictive
![Page 26: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/26.jpg)
Microsoft Big DataAccessible à tous les utilisateurs en
supportant de nouveaux types de données
![Page 27: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/27.jpg)
Hadoop : la face visible de Big Data
33
Permet l’analyse de données semi et non cructurées distribuées sur un cluster standard
Basé sur le papier MapReduce de Google et sur le Google File system (GFS)
Programs = Séquence de tâches « map » et « reduce »
Simplifie l’écriture d’applications distribuées
Hautement tolérante aux pannes – copies multiples
Déplace les calculs au plus près des données
Implémenté en Java et optimisé pour Linux
![Page 28: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/28.jpg)
L’écosystème Hadoop
MapReduce (Ordonnancement des tâches / Système d’Exécusion)
HDFS
(Hadoop Distributed File System)
HBase (Base de données orientée colonne)
Pig (Data Flow)
Hive
(Warehouse and
Data Access)
Oozie
(Workflow)
Sqoop
Outils BI traditionnels
HBase / Cassandra
(Bases de données orientées colonnes
et NoSQL)
Avro
(Séria
lisatio
n)
Zo
ok
eep
er
(Co
ord
inati
on
)
Apache Mahout
Karmasphere
(Outil de
développement)
Hadoop = MapReduce + HDFS
Flume
![Page 29: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/29.jpg)
Stratégie Hadoop Microsoft
Notre propredistribution de Hadoop
Optimisée pour Windows et Azure
Focalisation sur les développeurs .NET
Differentiation à travers le support de l’entreprise
• Performance et passage à l’échelle• Haute disponibilité• Facilité d’utilisation
![Page 30: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/30.jpg)
Facturation basée sur la tâche
Facile à administrer
Pas d’installation
Support d’une large variété de types de jobs
Machine Learning (mahout), Graph Mining (Pegasus),
HIVE, Pig, Java, JS, etc.
IHM grandement simplifiée
Hadoop as a Service : Azure
Elastic Map Reduce
Bon marché Rapide
GO
![Page 31: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/31.jpg)
Hadoop sur Windows et Azure
![Page 32: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/32.jpg)
Exemple : Big Data chez Yahoo!
SSAS Cube de 24 TO
Cas d’usage :
Analyse d’un très gros volume de données non structurées en provenance de journaux Web
Analyse ad hoc des journaux Web pour prototyper des patterns
Les données Hadoop alimentent un gros cube de 24 TO
![Page 33: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/33.jpg)
Hadoop sur Windows
PRÊT POUR L’ENTERPRISE
ACCES PLUS LARGE
BIG DATA POUR TOUS
DIF
FER
ENTI
ATI
ON
Installation et configuration faciles d’Hadoop sur Windows
Programmation simplifiée avec l’intégration de .Net et Javascript
Intégration avec les fonctionnalités de Data Warehousing de SQL
Server
Choix du déploiement sur Windows Server + Windows Azure
Intégration avec les composants Windows (AD, System Center)
Démocratiser Big Data via l’intégration avec l’offre BI de Microsoft
Fournir de nouveaux services Big Data à valeur ajoutée pour les
développeurs
Contributions proposées en retour à la communauté
![Page 34: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/34.jpg)
Driver ODBC pour Hive et Add-in Hive pour Excel
Intégration avec Microsoft PowerPivot
Distribution Hadoop pour Windows Server et Azure
Partenariat stratégique avec Hortonworks
Framework JavaScript pour Hadoop
Disponibilité de la version finale des connecteurs Hadoop pour SQL Server et PDW
Les annonces Big Data lors de
PASS
PRÊT POUR L’ENTERPRISE
ACCES PLUS LARGE
BIG DATA POUR TOUS
![Page 35: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/35.jpg)
Vision : Créer une nouvelle
plateforme de données Big Data
RELATIONNEL MULTIDIMENSIONNELNON RELATIONNEL STREAMING
GESTION DES DONNEES
PARTAGER ET
GOUVERNER
DECOUVRIRET
RECOMMANDER
TRANSFORMERET
NETTOYER
ANALYSE
ENRICHISSEMENT DES DONNEES ET PLACE DE MARCHE
OPERATIONELLE
SELF-SERVICE
MOBILE
PREDICTIVE
TEMPS-REEL
COLLABORATIVE
![Page 36: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/36.jpg)
Solution Big Data de Microsoft
SQL Server
Capteurs Terminaux Bots CrawlersERP CRM LOB APPs
HadoopConnecteurs
Données non structurées et stucturées
SSRS SSAS
Platerfome BI
Outils utilisateur final familiersPower View Excel avec
PowerPivot
BI intégréAnalyse prédictive
![Page 37: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/37.jpg)
Hadoop sur Windows
Coeur d’Hadoop Hadoop HDFSHadoop Common (utilitaires, sécurité, sérialisation des flux)Moteur MapReduce Hadoop
Programmer et requêter
Apache PigApache Hive (y compris le support de Thrift) Framework Javascript et Webshell for HadoopKit Azure (pour Visual Studio)
Clustering & Management
Déploiement Cluster et outil d’installationSurveillance et management du cluster basé web standard d’HadoopPortail Azure pour Elastic Map Reduce (intégré avec le portail Azure)
Drivers &Connectors
Driver ODBC HiveAdd-in Excel Hive pour Microsoft OfficeConnecteur Apache SQOOP pour SQL Server et PDW
Installers & Loaders
MSI pour les composants Serveur (Hadoop et systèmes reliés) (MSI)MSI pour les composants Client (Driver Hive et Add-in, Kit Azure Kit pour VS Moteurs de chargement en volume FTP et HTTP
![Page 38: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/38.jpg)
MERCI !
![Page 39: Big Data : buzz ou opportunité ?](https://reader033.fdocuments.us/reader033/viewer/2022042818/55ac47cb1a28aba2538b47be/html5/thumbnails/39.jpg)
Microsoft France39, quai du président Roosevelt
92130 Issy-Les-Moulineaux
www.microsoft.com/france