Information Management ETL in den Zeiten von Big Data
Transcript of Information Management ETL in den Zeiten von Big Data
© 2013 IBM Corporation
Information Management
1
ETL in den Zeiten von Big Data
Dr Oliver Adamczak, IBM Analytics
© 2015 IBM Corporation2
1 Review – ETL im Datawarehouse
3 Future of ETL
4 Zusammenfassung
2 Aktuelle Herausforderungen
© 2014 IBM Corporation© 2014 IBM Corporation© 2014 IBM Corporation44
ETL – Beispiel
Ziel
Kunde
Konto
R
Entfernung von
Dubletten je
KUNDE
J
Inner Join über
KDNRAggregation der
Salden je Kunde
A
Lookup Schlüssel zu
sprechendem Text:
KONTOART
zu ID
Error / Reject
Aussteuerung von
Konten ohne
gültige ID
Kontoart
L
© 2013 IBM Corporation
Information Management
6
ETL Herausforderungen im DWH
Skalierbarkeit und Pushdown
– Mehrere konsekutive ETL Prozesse
– Beladungszeiten und Latency
Aufwand ETL Entwicklungen
– 50% des DWH Aufwands
– Wiederverwendbarkeit
• Repository & Search
• Module
• Parametrisierung
• Generierung aus Metadaten
Qualitative und fachliche Aufbereitung und Validierung der Daten
Transformation eher Commodity
– Ohne geht es aber nicht (Historisierung, Hierarchiewechsel, Formate, Datenmodelle)
© 2013 IBM Corporation
Information Management
8
Realität und aktuelle Herausforderungen
Diverse Datentöpfe für Analytics
Typisch ein führendes DWH
– SAP BW
– Abteilungslösungen, auf Frontend Basis
– Analytics auf operative Systeme
Challenges
– Agilität, zentrales EDW zu schwerfällig
– Beladungszeiten
Big Data
– Ist Hadoop die Lösung für alles
– Integration neuer Technologien (Hadoop, SPARK)
– Massive Datenmengen
– Stamm- und Referenzdaten Cleansing
© 2013 IBM Corporation
Information Management
9
Umgang mit verteilten Repositories
Konsolidierung
– Extremer fachlicher Aufwand
– Führt zu hoher Komplexität, weniger Agilität
Federation
– Setzt fachliche Vergleichbarkeit voraus
– Stammdaten und Referenzdaten müssen übereinstimmen
Data Lake
– Katalogisierung fachlicher Objekte und wo sie technisch liegen
– Self Service mit simplem click ETL
– Wiederum Stamm- und Referenzdaten
ETL Tool muss Datenqualität, Stammdaten-Bereinigung, Metadaten-Management und Katalog können
Support von Federation
© 2013 IBM Corporation
Information Management
10
Sind die Tage von ETL gezählt ?
In Memory
– „Wir brauchen kein ETL, da virtuelle Views
auf den operativen Originaldaten“
Hadoop
– „Schema after run“
– Flume, Sqoop
Aber
– Historisierungen ??
– Data Cleansing ??
– Back to SQL (views) oder Python (??)
© 2013 IBM Corporation
Information Management
11
Anforderungen aus neuen Architekturen
Katalog der Business Objekte mit Link zu IT Assets
Daten Self-Service für Anwender
DQ für Business UserIntegriert mit ETL
Pushdown für MapReduce
© 2013 IBM Corporation
Information Management
12
Information Server Inhalt letztes Upgrade
Governance
Integration mit neuen Technologien
Data Self Service
Cloud
© 2013 IBM Corporation
Information Management
13
Governance
Governance Catalogue
–umfasst Hadoop / Hive Katalog
Erweiterte Möglichkeiten für Policies
–Governance Dashboard
Exception Stage und DQ Dashboard
© 2013 IBM Corporation
Information Management
14
Integration mit neuen Technologien
Hadoop Stage
–Balanced Optimization für MapReduce
–Unstructured Stage
–Stream Stage
MDM Stage
Connectoren für Amazon, Greenplum
© 2013 IBM Corporation
Information Management
15
Data Self Service
Aktionen aus dem Governance Catalog („Shop for Data“)
DataClick erstellt automatisch Transfer Jobs
© 2013 IBM Corporation
Information Management
16
Cloud
Hypervisor Version
DataWorks
IBM DataWorks™ Data Refinery
Services
• Load data
• Cleanse addresses
• Profile data
• Classify data
© 2013 IBM Corporation
Information Management
17
Zusammenfassung
ETL ist nach wie vor eine Core Competency für Analytics
Das reine ETL tritt in den Hintergrund– Metadaten-Management und Katalog– Stamm- und Referenzdaten– Self Service für Daten
Neue Herausforderungen durch neue Technologien– Hadoop– Cloud
„There is no free lunch“ - Bekannte Konzepte gelten auch für neue Technologien– Datenaufbereitung ist und bleibt ein wesentlicher Aufwandstreiber