Data Lake Architektur: Von den Anforderungen zur Technologie

27
Prof. Dr. Jens Albrecht [email protected] Data Lake Architektur Von den Anforderungen zur Technologie

Transcript of Data Lake Architektur: Von den Anforderungen zur Technologie

Page 1: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens [email protected]

Data Lake ArchitekturVon den Anforderungen zur Technologie

Page 2: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 6

www.pixabay.com

Page 3: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 7

www.pixabay.com

Page 4: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 8

>

Data Lake verstehen

Page 5: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 9

Appliance

Systemarchitektur im Wandel

Gestern und heute

Strukturierte Daten

Moderate Größe (S-XL)

"General Purpose"

RDBMS

Heute und morgen

Polystrukturierte Daten

in allen Größen (S-XXXL) {json}

<xml/>

InMemory

RDBMSHadoop

Streaming

NoSQL

Zweckoptimierte

Spezialisten

Page 6: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 10

Business Cases

Requirements of Big Data Technologies

Agility

Data Exploration

Schema-on-Read

Integration

on Demand

Efficient

Development

DataVirtualization

Real-timeDecisions

SimplifiedData Access

AdvancedAnalytics

Cost Efficiency

Scalability

Throughput

(Velocity)

Computing

Power

Data Volume

Page 7: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 11

StorageLayer

IngestionLayer

Serving Layer

Referenzarchitektur für BI

End-UserLayer

Data Sources

Reporting OLAP

OLTP Systems

In-Memory

RDBMSData Marts

Staging Area

Enterprise

DWH

Page 8: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 12

StorageLayer

IngestionLayer

Serving Layer

Referenzarchitektur für BI und Big Data

End-UserLayer

Data Sources

Reporting OLAPOperational

Analytics

Data

Discovery

Data LakeHadoop, NoSQL

Prediction

OLTP Systems

In-Memory

RDBMSData Marts

Staging Area

Enterprise

DWH

Search

Page 9: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 14

Enterprise Data Lake / Hub / Reservoir

Internal

Applications

External

Data Sources0

10

1

0

10

1

01

0

1

0 1

Comprehensive

Data Pool

Business Analytics

Tool

Collect data as it is generated, process data when it is needed.

Page 10: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 15

Wozu ein Data Lake?

� Daten in Originalformat gespeichert

� Datenstrukturen werden erst definiert, wenn Daten benötigt werden (Schema-on-Read)

� Alle Daten werden gespeichert

� Einfache Adaption von Änderungen

� Agile Einbindung neuer Daten

� Einfacher Zugriff für alle Benutzer

Page 11: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 16

>

Anforderungsmuster verstehen

Page 12: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 18

Nifi

Flink Storm

Samza

Apex …Real-Time/Stream

Kafka Spark

Fixing the Requirements: Ingestion

For

ea

ch D

ata

So

urc

eData Types

(Variety)

Frequency (Velocity)

Latency (Batch or Stream)

Volume

Quality (Veracity)

Consistent Timeline

CDCPush/Pull

Hive

Sqoop Spark

Batch

Beam

Page 13: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 19

Lambda und Kappa Architektur

Streaming Data

Speed LayerKafka, Storm

Batch LayerHadoop, Spark

Serving LayerLambda

Streaming DataMessage Buffer

and BrokerKafka

Stream

ProcessorFlink, Spark

Serving Layer

Kappa

Speed Table

Batch Table

Page 14: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 20

Fixing the Requirements: Storage & Process

Sto

rage

3V's

Query Patterns

Update Patterns

SQL Support

Data Linkage

Schema Evolution

Historical Queries (as-is vs. as-was)

Security

Retention Policy

Accumulo

HBase Cassandra

Mongo

Neo4j …

NoSQL

In-Memory

SMP MPP

Open

Source

Kudu …

Relational

Parquet

Flat Files JSON

ORC

Avro …

HDFS+ Hive/Spark

Cloud?

Page 15: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 21

Apache Spark – Swiss Army Knife of Big Data

☛ Agilität und Skalierbarkeit mit und ohne Hadoop▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python)

▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung

▸ Einheitliches System für Batch- und Stream-Processing

Batch Processing

Machine Learning

JavaPython

Scala R

Data Streaming

Graph Processing

SQL

Apache Spark

Page 16: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 22

Fixing the Requirements: Curation & Governance

Cu

rati

on

Quality

Policies & Standards

Security & Privacy

Lifecycle Management

Lineage

Metadata Management

Data Tagging

Data Lake

Landing

ZoneRaw Zone

Discovery

Sandbox

Curated

Zone

Work

Zone

Da

ta I

nve

nto

ry

Se

curity

Sensitive

Zone

Waterline

Atlas

Cloudera

Navigator

Sentry

Ranger

Page 17: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 24

Anwendungsfälle

Data LakeHadoop, NoSQL

EnterpriseDWH

Use

Ca

ses

Advanced Analytics

Self-Service Data Discovery

Stream Processing

ETL Migration

Data Offloading

Virtual Data Hub

Kafka

Sqoop

Spark

Datasource API

SQL, R, ML, StreamingHive, Drill,

Impala

Page 18: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 25

>

Risiken verstehen

Page 19: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 26

Risiken

Wer billig kauft, kauft zweimal

CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)

Page 20: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 27

Risiken

Falsches Werkzeug für die Aufgabe

www.pixabay.com

Page 21: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 28

Risiken

Unterschätzung der technologischen

Komplexität

www.pixabay.com

Page 22: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 29

Risiken

Unterschätzung des Personalbedarfs und

-aufwands

www.pixabay.com

www.pixabay.com

Page 23: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 30

Risiken

Mangelnde Automatisierung

und Wieder-verwendbarkeit

www.pixabay.com

www.pixabay.com

Page 24: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 31

Risiken

Abhängigkeit von der IT

www.pixabay.com

www.pixabay.com

Page 25: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 32

>

Fazit

Page 26: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 33

Fazit

1. Data Warehouse und Data Lake ergänzen sich und werden stärker zusammen wachsen

2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige Technologie-Auswahl

3. Komplexität kontrollieren

4. Gesundes Maß für Data Governance und Security finden

5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts

Page 27: Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 34

>

Vielen [email protected]