Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für...

48
Lehrstuhl für Datenbanken und Informationss Rico Landefeld Architektur von Data Warehouse Systemen Rico Landefeld Blockseminar Data Warehousing Lehrstuhl für Datenbanken und Informationssysteme

Transcript of Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für...

Page 1: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

1

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Architektur von Data Warehouse Systemen

Rico LandefeldBlockseminar Data Warehousing

Lehrstuhl für Datenbanken und Informationssysteme

Page 2: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

2

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

ReferenzarchitekturMotivation, Anforderungen, Aufbau

KomponentenArten, Aufgaben

PhasenMonitoring, Extract,Transform, Load, Analyse

DatenqualitätQualitätsmerkmale, Cleansing

Page 3: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

3

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Motivation, Einführung

eine Architektur sollte: robust gegen Änderungen sein Anforderungen erfüllen unabhängig von der Implementierung sein

Referenzarchitektur ermöglicht Vergleich von DW - Systemen und - Werkzeugen Ausgangspunkt konkreter Implementierung Mittel zur Beschreibung und Visualisierung

Page 4: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

4

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Anforderungen des Data Warehousings

Verfügbarkeit Belastbarkeit Unabhängigkeit Persistenz Flexibilität Skalierbarkeit Mehrfachverwendbarkeit Individuelle Sichten Effizienz

Page 5: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

5

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Aufbau (Bauer, A; Günzel, H.)

Page 6: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

6

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Data WarehouseManager

Page 7: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

7

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Data Warehouse Manager

Zentrale Steuerung der Komponenten Initiierung, Steuerung und Kontrolle der DW – Prozesse

Datenbeschaffungsprozess• periodisch• bei Änderungen• auf Anforderung

überwacht richtige Reihenfolge der ETL Prozesse bei evtl. Abhängigkeiten

Fehlerfall Dokumentation Benachrichtigung Wiederanlaufmechanismen

zur Steuerung verwendet DWM Informationen aus dem Repositorium

Page 8: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

8

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Datenquelle

Page 9: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

9

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Datenquelle 1 Vertreter für ein oder mehrere zu integrierenden, meist heterogene reale

Datenquellen Kein Bestandteil des Data Warehouse – Systems Auswahl der Quellen nach

Zweck des DW Systems Qualität der Quelldaten Verfügbarkeit (organisatorische und technische Voraussetzungen) Kosten

Page 10: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

10

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Datenquelle 2

Klassifikation der Quelldaten Herkunft Zeit Nutzungsebene (Primär- oder Metaebene) Inhalt/ Datentyp nach inhaltl. Aspekten Darstellung / Datentyp nach formalen Aspekten Sprache und Zeichensatz Technischer Zeichensatz Schreiborientierung

Page 11: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

11

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Monitor

Page 12: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

12

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Monitor 1

Datenquellen nach Änderungsoperationen und deren Auswirkungen auf die für die Analyse im Data Warehouse relevanten Daten beobachten

Änderungen müssen propagiert werden Monitor liefert alle relevanten Informationen Monitor liefert nur Hinweis

Realisierung abhängig von Datenquelle Systemgesteuerte Mechanismen

• Aktive Mechanismen • Replikationsmechanismen

– Snapshot basiert – Datenreplikation

• Protokollbasierte Entdeckung

Page 13: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

13

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Monitor 2

Anwendungsgesteuerte Mechanismen• Zeitstempelbasierte Entdeckung • Dateivergleich

Implementierungsaspekte Entdeckung aller Änderungen vs. Nettoeffekt Benachrichtigung vs. Polling Internes vs. externes Monitoring

Page 14: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

14

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Extraktions-komponente

Page 15: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

15

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Extraktionskomponente

Übertragung der Quelldaten in den Arbeitsbereich Extraktionsprozess abhängig von der Monitoringstrategie Festlegung von Zeitpunkten der Extraktionen hängen von Semantik

der Daten ab Strategien

Periodisch Ereignisgesteuert Sofortige Extraktion bei Änderung

technische Realisierung über Schnittstellen (Netzwerk- und Standart Datenbankschnittstellen)

Datenvolumen groß, Kompressionsstrategie und Ausnahmebehandlung wichtig

Page 16: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

16

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Arbeitsbereich

Page 17: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

17

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Arbeitsbereich

Datenhaltungskomponente des Datenbeschaffungsbereich während der Datenbeschaffung werden Daten temporär im

Arbeitsbereich zwischengespeichert Transformationen (Bereinigung, Integration) können ausgeführt

werden ohne das Datenquellen oder Basisdatenbank beeinträchtigt werden

Übertragung der Daten in die Basisdatenbank wenn Verarbeitung abgeschlossen

Page 18: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

18

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Transformations-komponente

Page 19: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

19

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Transformationskomponente 1

Quelldaten werden für die spätere Ablage in der Basisdatenbank oder im Data Warehouse aufbereitet

Daten, Schemata und Datenqualität an Anwendungsanforderungen anpassen

Anpassung umfasst Schemaintegration

• Schemakonflikte: jegliche Inkonsistenzen die bei unterschiedlich modellierten Welten auf Schemaebene auftreten können

• Transformation in (de)normalisierte Datenstrukturen• Schlüsselbehandlung

– lokale Schlüssel werden auf Surrogate abgebildet– Behandlung von impliziter Semantik

Page 20: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

20

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Transformationskomponente 2

Datenintegration• Überführung von Daten aus unterschiedlichen heterogenen Quelle in

ein einheitliches Format durch– Anpassung von Datentypen– Konvertierung von Kodierungen – Vereinheitlichung von Zeichenketten – Vereinheitlichung von Datumsangaben – Umrechnung von Maßeinheiten – Kombination / Separierung von Attributwerte

• Erkennen von zusammengehörigen Datensätzen• Behandlung / Vermeidung von Homonym und Synonymfehlern• Berechnung abgeleiteter Werte • Aggregierung von Werten (z.B. hinsichtlich Lokalität in Raum und Zeit)

Page 21: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

21

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Transformationskomponente 3

Datenbereinigung• Quelldaten durch fehlerhafte, redundante, veraltete oder

fehlende Daten verunreinigt• Komponenten zur Datenbereinigung können in Kategorien

eingeteilt werden– Data Scrubbing: unter Ausnutzung von

domänenspezifischen Informationen (Geschäftsregeln) können Fehler erkannt und bereinigt werden

– Data Auditing: unter Ausnutzung von Data - Mining Techniken wird versucht Zusammenhänge im Datenbestand aufzudecken und daraus Regeln abzuleiten - die Ausreißer von Regeln können potentielle Verunreinigungen sein

Page 22: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

22

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Lade-komponente

Page 23: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

23

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Ladekomponenten 1

nach Datentransformation befinden sich aufbereitete Daten im Arbeitsbereich zwei Komponenten sind für das Weiterleiten zuständig

Ladekomponente Arbeitsbereich -> Basisdatenbank Ladekomponente Basisdatenbank -> Data Warehouse

Basisdatenbank wird zum großen Teil mit Detaildaten gefüllt Aktualisierung der materialisierten Sichten im Data Warehouse

Änderungen in der Basisdatenbank müssen sich auf die materialisierten Sichten des Data Warehouses übertragen

Neuberechnung vs. inkrementelle Aktualisierung selbstwartbare Sichten

Page 24: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

24

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Ladekomponenten 2

Effizienz des Ladens hat eine große Auswirkung auf alle beteiligten Systeme effizientes Laden über Bulk Loader, optimiert auf

Datendurchsatz Ladephasen in einem günstigen Zeitfenster (Nachts,

Wochenende) Belastung der Systeme kann mit Partitionierung, Parallelisierung

und inkrementellen Sichtenaktualisierung begegnet werden Unterscheidung zwischen Offline und Online Ladevorgängen

Page 25: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

25

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Basisdatenbank

Page 26: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

26

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Basisdatenbank

Sammel und Integrationsfunktion (zentrales Datenlager) Distributionsfunktion (Versorgung der Data Warehouses) kann auch zur Analyse eingesetzt werden ermöglicht Mehrfachverwendung der Daten und Flexibilität Verteilungsfunktion kann mit

Nabespeicher – Architektur veranschaulicht werden

Page 27: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

27

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Data Warehouse

Page 28: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

28

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Data Warehouse

für Analysezwecke aufgebaute Datenbank stellt die für die Analysen des Anwenders notwendigen Daten den

Analyseprozessen in geeigneter Form zur Verfügung unterstützt Analyseprozesse auch mit Funktionen zur Verarbeitung

der Daten Realisierung mit DBMS zur Strukturierung der Daten hat sich für viele Problemstellungen

das multidimensionale Datenmodell als zweckmäßig erwiesen

Page 29: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

29

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Data Marts

Integration von Unternehmensdaten (globale Sicht) als zentralistische Lösung problematisch hinsichtlich Skalierung

Grundidee inhaltlich beschränkten Fokus des Unternehmens oder eine Abteilung als Teilsicht eines Data Warehouses abzubilden

Gründe: Datenschutzaspekte durch Teilsicht auf die Daten Organisatorische Aspekte Verringerung des Datenvolumens Performanzgewinn durch Aggregation Verteilung der Last Unabhängigkeit von den Aktualisierungszyklen des Data Warehouse

Unterscheidung in abhängige und unabhängige Data Marts

Page 30: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

30

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Abhängige Data Marts

enthalten nur Extrakte des Data Warehouses

keine Normierung und Datenbereinigung strukturelle Konsistenz mit Data

Warehouse Zusammenschluss von Data Marts zu

einem virtuellen Data Warehouse möglich Unterschiedliche Extrakte möglich:

Struktureller Extrakt Inhaltlicher Extrakt Aggregierter Extrakt

Page 31: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

31

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Unabhängige Data Marts

es wird auf eine Basisdatenbank verzichtet

geringere Komplexität Nachteile:

spätere Data Mart übergreifende Analysen problematisch da keine gemeinsame Sicht auf die Quelldaten

Verschleppung von Konsistenz- und Integrationsproblemen

Page 32: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

32

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Analyse-komponente

Page 33: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

33

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Analysekomponente 1

Anwendung von Analysefunktionen auf ausgewählte Daten zur Generierung von neuen Informationen

Aufbereitung, Veränderung und Bereitstellung der Ergebnisse zwecks Weiterverarbeitung in anderen Systemen oder die Weitergabe an andere Personen oder Instanzen

Ergebnisse von Analysen können wieder in die Basisdatenbank bzw. Data Warehouse zurückgeführt werden die Qualität der Datenbasis erhöht zukünftige Analysen verbessert

Page 34: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

34

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Analysekomponente 2

Analysewerkzeuge (Business Intelligence Tools) dienen der Präsentation der gesammelten Daten mit interaktiven Navigations- und Analysemöglichkeiten

Darstellungsformen: Tabellen Grafiken Text

Funktionen lassen sich hinsichtlich ihrer Komplexität in 3 Kategorien einordnen Data Access (z.B. Reporting)

• zur Ermittlung von Anfrageergebnissen werden Datenmanipulationssprachen eingesetzt

• meist in Informations-, Planungs-, und Berichtssysteme integriert • Anfragekomplexität ähnlich OLTP

Page 35: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

35

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Analysekomponente 3

OLAP• Dynamischer, flexibler und interaktiver Zugriff auf eine

Vielzahl von Einträgen • Multidimensionales Datenmodell

– spezifischen Anfrageoperatoren und –techniken, die den Begriff OLAP charakterisieren, werden in multidimensionalen Datenstrukturen abgebildet

• Grundstein wurde durch Coddsche Regeln von Edgar F. Codd gelegt

Page 36: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

36

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Analysekomponente 4

Data Mining• Ermittlung von Beziehungsmustern• Abbildung durch logische oder funktionale

Beziehungszusammenhänge• Ermittlung und Abbildung von Beziehungszusammenhängen in

Form eines Modells • Verfahren

– Clusterbildung, Klassifikation, Regression, Abhängigkeitsentdeckung und Abweichungsentdeckung

Page 37: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

37

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Metadaten Manager

Page 38: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

38

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Metadaten – Manager

steuert die Metadatenverwaltung des Data Warehouse Systems wird als Datenbankanwendung für Metadaten definiert die

Versions- und Konfigurationsmanagement Integrations-, Zugriffs-, Anfrage-, und Navigationsmöglichkeiten bieten

metadatengetriebener Prozess wenn vollständig ausführbare Spezifikationen (Transformationen,

Abbildungen) der Datenverarbeitungsschritte als Metadaten gespeichert werden und diese von Werkzeugen interpretiert und ausgeführt werden können

Kontrollfluss zwischen Metadaten Manager und Data Warehouse Manager

automatische Aktualisierung der Metadaten sinnvoll damit Datenfluss aus Datenquellen erhalten bleibt

Page 39: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

39

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Repositorium

Page 40: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

40

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Repositorium 1

Ablage der Metadaten des Data – Warehouse – Systems Metadaten:

beschreibende Informationen über Inhalt, Struktur, Kontext und Bedeutung von Daten aber auch prozessbezogene Informationen über die Verarbeitung dieser Daten

Einteilung in • Fachlich:

– dienen dem Endanwender– helfen ihm Daten im DW zu verstehen, relevante Daten zu

finden, Resultate der Auswertungen interpretieren (anwendungsspezifische Dokumentationen, domänenspezifisches Wissen, Thesauri etc.)

Page 41: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

41

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Repositorium 2

• Technisch: – Beschreibung der logischen und physischen Datenbankschemata– Integritätsbedingungen– Implementierungsinformationen der verschiedenen Skripte für

Extraktion, Transformation, Analyse garantieren

• Nachvollziehbarkeit – Woher stammen die Daten im Data Warehouse– Wie und wann wurden Daten geladen

• Überprüfbarkeit– Richtigkeit und Qualität der Auswertung

Änderungen in Quellsystemen und deren Auswirkungen auf die Analysesysteme lassen sich interpretieren und abschätzen

Page 42: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

42

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Phasen

Monitoring Extraktionsphase Transformationsphase Ladephase Analysephase

Page 43: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

43

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Datenqualität

Datenqualität

Glaubwürdigkeit Nützlichkeit Interpretierbarkeit Schlüsselintegrität

Korrektheit

Konsistenz

Zuverlässigkeit

Vollständigkeit

Genauigkeit

Zeitnähe

Redundanzfreiheit

Einheitlichkeit

Eindeutigkeit

Verständlichkeit

Schlüsseleindeutigkeit

referentielle Integrität

Taxonomie der Qualitätsmerkmale

Page 44: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

44

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Datenqualität – Bereinigungsmaßnahmen (Cleansing)

Korrektheit Bei fehlerhaften Werten muss auf Werte aus der Realwelt

zurückgegriffen werden, nur stichprobenartig sinnvoll Statistische Prozesskontrolle

Konsistenz Bewertung erfordert domänenspezifisches Wissen Als Repräsentationsformen des Fachwissens kommen in Frage

• Geschäftsregeln • Reguläre Ausdrücke • Domänenspezifische Funktionen

Page 45: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

45

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Datenqualität - Bereinigungsmaßnahmen (Cleansing)

Vollständigkeit Nutzung domänenspezifischen Wissens zur Verbesserung der

Vollständigkeit fehlende Werte sollten einheitlich repräsentiert werden NULL Werte sind allerdings nicht zwangsläufig ein Indiz für

Datenqualitätsmängel unterschiedliche Semantiken von NULL:

• Es gibt kein Wert für das Attribut • Attributwert ist zur Erfassungszeit nicht bekannt oder wurde

aus bestimmten Gründen nicht erfasst • Attributwert ist nicht bekannt

Page 46: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

46

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Datenqualität - Bereinigungsmaßnahmen (Cleansing)

Redundanzfreiheit Kann nur gemessen werden, wenn die Anzahl der in einem

Datenbestand repräsentierten Entitäten der Realwelt bekannt ist und damit die Anzahl der Duplikate im Datenbestand abschätzbar ist

veraltete Daten erkennen und löschen können bestimmt werden indem materialisierten Sichten

analysiert werden Daten die diese Sichten nicht beeinflussen, können gelöscht

werden

Page 47: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

47

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Datenqualität - Probleme

Page 48: Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für Datenbanken und Informationssysteme Rico Landefeld 1 Architektur.

48

Architektur von Data Warehouse - Systemen

Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld

Zusammenfassung

eine Referenzarchitektur ist idealtypisch, die Architektur realer Systeme weicht zum Teil stark von ihr ab

eine Referenzarchitektur bietet jedoch Vergleichs- und Beschreibungsmöglichkeiten

unter den Architekturansätzen ist insbesondere die Unterscheidung zwischen Data Warehouses und Data Marts wichtig

der Wert von Analyseergebnissen hängt maßgeblich von der Datenqualität ab

unter Cleansing versteht man alle Maßnahmen die der Sicherstellung von Korrektheit, Konsistenz, Vollständigkeit und Redundanzfreiheit von Auswertungsdaten dienen

beim Cleansing ist der Einsatz von domänenspezifischen Wissen unabdingbar