Information Management ETL in den Zeiten von Big Data

© 2013 IBM Corporation

Information Management

1

ETL in den Zeiten von Big Data

Dr Oliver Adamczak, IBM Analytics

© 2015 IBM Corporation2

1 Review – ETL im Datawarehouse

3 Future of ETL

4 Zusammenfassung

2 Aktuelle Herausforderungen



3

ETL im Datawarehouse

Extrakt Transform Load

© 2014 IBM Corporation© 2014 IBM Corporation© 2014 IBM Corporation44

ETL – Beispiel

Ziel

Kunde

Konto

R

Entfernung von

Dubletten je

KUNDE

J

Inner Join über

KDNRAggregation der

Salden je Kunde

A

Lookup Schlüssel zu

sprechendem Text:

KONTOART

zu ID

Error / Reject

Aussteuerung von

Konten ohne

gültige ID

Kontoart

L

© 2014 IBM Corporation© 2014 IBM Corporation© 2014 IBM Corporation55

ETL – Ergebnis



6

ETL Herausforderungen im DWH

Skalierbarkeit und Pushdown

– Mehrere konsekutive ETL Prozesse

– Beladungszeiten und Latency

Aufwand ETL Entwicklungen

– 50% des DWH Aufwands

– Wiederverwendbarkeit

• Repository & Search

• Module

• Parametrisierung

• Generierung aus Metadaten

Qualitative und fachliche Aufbereitung und Validierung der Daten

Transformation eher Commodity

– Ohne geht es aber nicht (Historisierung, Hierarchiewechsel, Formate, Datenmodelle)



8

Realität und aktuelle Herausforderungen

Diverse Datentöpfe für Analytics

Typisch ein führendes DWH

– SAP BW

– Abteilungslösungen, auf Frontend Basis

– Analytics auf operative Systeme

Challenges

– Agilität, zentrales EDW zu schwerfällig

– Beladungszeiten

Big Data

– Ist Hadoop die Lösung für alles

– Integration neuer Technologien (Hadoop, SPARK)

– Massive Datenmengen

– Stamm- und Referenzdaten Cleansing



9

Umgang mit verteilten Repositories

Konsolidierung

– Extremer fachlicher Aufwand

– Führt zu hoher Komplexität, weniger Agilität

Federation

– Setzt fachliche Vergleichbarkeit voraus

– Stammdaten und Referenzdaten müssen übereinstimmen

Data Lake

– Katalogisierung fachlicher Objekte und wo sie technisch liegen

– Self Service mit simplem click ETL

– Wiederum Stamm- und Referenzdaten

ETL Tool muss Datenqualität, Stammdaten-Bereinigung, Metadaten-Management und Katalog können

Support von Federation



10

Sind die Tage von ETL gezählt ?

In Memory

– „Wir brauchen kein ETL, da virtuelle Views

auf den operativen Originaldaten“

Hadoop

– „Schema after run“

– Flume, Sqoop

Aber

– Historisierungen ??

– Data Cleansing ??

– Back to SQL (views) oder Python (??)



11

Anforderungen aus neuen Architekturen

Katalog der Business Objekte mit Link zu IT Assets

Daten Self-Service für Anwender

DQ für Business UserIntegriert mit ETL

Pushdown für MapReduce



12

Information Server Inhalt letztes Upgrade

Governance

Integration mit neuen Technologien

Data Self Service

Cloud



13

Governance

Governance Catalogue

–umfasst Hadoop / Hive Katalog

Erweiterte Möglichkeiten für Policies

–Governance Dashboard

Exception Stage und DQ Dashboard



14

Integration mit neuen Technologien

Hadoop Stage

–Balanced Optimization für MapReduce

–Unstructured Stage

–Stream Stage

MDM Stage

Connectoren für Amazon, Greenplum



15

Data Self Service

Aktionen aus dem Governance Catalog („Shop for Data“)

DataClick erstellt automatisch Transfer Jobs



16

Cloud

Hypervisor Version

DataWorks

IBM DataWorks™ Data Refinery

Services

• Load data

• Cleanse addresses

• Profile data

• Classify data



17

Zusammenfassung

ETL ist nach wie vor eine Core Competency für Analytics

Das reine ETL tritt in den Hintergrund– Metadaten-Management und Katalog– Stamm- und Referenzdaten– Self Service für Daten

Neue Herausforderungen durch neue Technologien– Hadoop– Cloud

„There is no free lunch“ - Bekannte Konzepte gelten auch für neue Technologien– Datenaufbereitung ist und bleibt ein wesentlicher Aufwandstreiber

Information Management ETL in den Zeiten von Big Data

Documents

Transcript of Information Management ETL in den Zeiten von Big Data