Big Data mit Apache Hadoop
-
Upload
alexander-alten-lorenz -
Category
Documents
-
view
1.837 -
download
7
Transcript of Big Data mit Apache Hadoop
“Big Data” mitApache Hadoop
Alexander LorenzCustomer Operations Engineer, Cloudera INC
Muenchen, 18. April 2012
1
Herausforderungen
Größe Veränderungen Struktur
2
Beispiele• Web Logs
• RFID
• Social Networks
• Webseiten
• Dokumente
• Such-Indices
• Verbindungsdaten
• Astronomie
• Genetik
• Überwachung
• Medizin
• Bilder, Videos
3
Datenmengen
• Ebay: 5 PB, Search Optimization
• Facebook: 30 PB, Logs, Reports
• Walmart, 2.5 PB, Customer Transactions
http://wiki.apache.org/hadoop/PoweredByhttp://en.wikipedia.org/wiki/Big_data
4
10 Petabytes
http://blog.backblaze.com/2011/01/05/10-petabytes-visualized/
5
Etwas Geschichte
Dateisystem
Verarbeitung
RealTime
Lizenz
GFS HDFS
MapReduce MapReduce
BigTable HBase
nicht offen Apache
6
Apache Hadoop
• Software Framework für grosse Mengen an unstrukturierten Daten
• Apache-Lizenz
• Zwei Kern-Komponenten
• HDFS: Verteilte Datenspeicherung
• MapReduce: Verteilte Datenverarbeitung
7
Hadoop ClusterData Node
Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
Data Node
8
Wo?• Eigenes Rechenzentrum
• Dienstleister des Vertrauens
• Cloud-Dienstleister
• Amazon
• Rackspace
9
Hadoop Distributed File System
Datei
Block Block Block Block Block Block Block
Data Node Data Node Data Node
10
MapReduceDaten
QueryRDBMS
Daten
QueryHadoop
11
Eigenschaften
HDFS MapReduce
Verteilung
Ausfallsicherheit
Skalierbarkeit
✔ ✔
✔ ✔
✔ ✔
12
Hadoop-Ökosystem
MapReduce
HDFSJava API
RDBMS
Sqoop Flume
Logs
Connectors
...
Pig
Scripts
Hive
SQL HBase
Oozie
Zookeeper
Mahout
Hue
Whirr
Avro
13
Cloudera
• 2009 in Palo Alto gegründet
• Cloudera's Distribution Including Hadoop
• CDH4 Beta 1 verfügbar
• > 200 Angestellte weltweit
• Training, Consulting, Support, Development
• Enterprise Tools
14
Cloudera Manager• Automated Deployment
• Monitoring
• Service Management
• Log Management
• Events and Alerts
• Reporting
• Support Integration
15
Anwendungsbeispiele
16
Risiko Management
• Problem: Bewertung von Kunden und Projekten
• Lösung: Finanzhistorie, Kommunikation, Mustererkennung
• Anwender: Banken, Versicherungen
17
Empfehlungen
• Problem: Passende Produkte für Kunden empfehlen
• Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse
• Anwender: eCommerce, Advertising
18
Graph-Analyse
• Problem: Flaschenhälse oder Fehler in Netzwerken im Voraus erkennen
• Lösung: Netzwerkverkehr auswerten und statistisch aufbereiten
• Anwender: Rechenzentren, Telcos, Multiserverbetreiber, Portale
19
Gefahrenerkennung
• Problem: Spam, Kreditkartenmissbrauch
• Lösung: Mustererkennung, Klassifizierung, heuristische Analyse
• Anwender: ISPs, Banken
20
Textanalysen
• Problem: Bedeutung von Text erkennen
• Lösung: Schlüsselworte, Zusammenhänge erkennen
• Anwender: eCommerce
21
Danke!
• Twitter: @mapredit
• Blog: mapredit.blogspot.com
• http://www.cloudera.com/
• http://apache.hadoop.org/
• http://www.shs-viveon.com
22