Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für...
-
Upload
sophie-weiner -
Category
Documents
-
view
216 -
download
0
Transcript of Architektur von Data Warehouse - Systemen Blockseminar Data Warehousing 2005 Lehrstuhl für...
1
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Architektur von Data Warehouse Systemen
Rico LandefeldBlockseminar Data Warehousing
Lehrstuhl für Datenbanken und Informationssysteme
2
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
ReferenzarchitekturMotivation, Anforderungen, Aufbau
KomponentenArten, Aufgaben
PhasenMonitoring, Extract,Transform, Load, Analyse
DatenqualitätQualitätsmerkmale, Cleansing
3
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Motivation, Einführung
eine Architektur sollte: robust gegen Änderungen sein Anforderungen erfüllen unabhängig von der Implementierung sein
Referenzarchitektur ermöglicht Vergleich von DW - Systemen und - Werkzeugen Ausgangspunkt konkreter Implementierung Mittel zur Beschreibung und Visualisierung
4
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Anforderungen des Data Warehousings
Verfügbarkeit Belastbarkeit Unabhängigkeit Persistenz Flexibilität Skalierbarkeit Mehrfachverwendbarkeit Individuelle Sichten Effizienz
5
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Aufbau (Bauer, A; Günzel, H.)
6
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Data WarehouseManager
7
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Data Warehouse Manager
Zentrale Steuerung der Komponenten Initiierung, Steuerung und Kontrolle der DW – Prozesse
Datenbeschaffungsprozess• periodisch• bei Änderungen• auf Anforderung
überwacht richtige Reihenfolge der ETL Prozesse bei evtl. Abhängigkeiten
Fehlerfall Dokumentation Benachrichtigung Wiederanlaufmechanismen
zur Steuerung verwendet DWM Informationen aus dem Repositorium
8
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Datenquelle
9
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Datenquelle 1 Vertreter für ein oder mehrere zu integrierenden, meist heterogene reale
Datenquellen Kein Bestandteil des Data Warehouse – Systems Auswahl der Quellen nach
Zweck des DW Systems Qualität der Quelldaten Verfügbarkeit (organisatorische und technische Voraussetzungen) Kosten
10
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Datenquelle 2
Klassifikation der Quelldaten Herkunft Zeit Nutzungsebene (Primär- oder Metaebene) Inhalt/ Datentyp nach inhaltl. Aspekten Darstellung / Datentyp nach formalen Aspekten Sprache und Zeichensatz Technischer Zeichensatz Schreiborientierung
11
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Monitor
12
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Monitor 1
Datenquellen nach Änderungsoperationen und deren Auswirkungen auf die für die Analyse im Data Warehouse relevanten Daten beobachten
Änderungen müssen propagiert werden Monitor liefert alle relevanten Informationen Monitor liefert nur Hinweis
Realisierung abhängig von Datenquelle Systemgesteuerte Mechanismen
• Aktive Mechanismen • Replikationsmechanismen
– Snapshot basiert – Datenreplikation
• Protokollbasierte Entdeckung
13
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Monitor 2
Anwendungsgesteuerte Mechanismen• Zeitstempelbasierte Entdeckung • Dateivergleich
Implementierungsaspekte Entdeckung aller Änderungen vs. Nettoeffekt Benachrichtigung vs. Polling Internes vs. externes Monitoring
14
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Extraktions-komponente
15
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Extraktionskomponente
Übertragung der Quelldaten in den Arbeitsbereich Extraktionsprozess abhängig von der Monitoringstrategie Festlegung von Zeitpunkten der Extraktionen hängen von Semantik
der Daten ab Strategien
Periodisch Ereignisgesteuert Sofortige Extraktion bei Änderung
technische Realisierung über Schnittstellen (Netzwerk- und Standart Datenbankschnittstellen)
Datenvolumen groß, Kompressionsstrategie und Ausnahmebehandlung wichtig
16
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Arbeitsbereich
17
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Arbeitsbereich
Datenhaltungskomponente des Datenbeschaffungsbereich während der Datenbeschaffung werden Daten temporär im
Arbeitsbereich zwischengespeichert Transformationen (Bereinigung, Integration) können ausgeführt
werden ohne das Datenquellen oder Basisdatenbank beeinträchtigt werden
Übertragung der Daten in die Basisdatenbank wenn Verarbeitung abgeschlossen
18
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Transformations-komponente
19
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Transformationskomponente 1
Quelldaten werden für die spätere Ablage in der Basisdatenbank oder im Data Warehouse aufbereitet
Daten, Schemata und Datenqualität an Anwendungsanforderungen anpassen
Anpassung umfasst Schemaintegration
• Schemakonflikte: jegliche Inkonsistenzen die bei unterschiedlich modellierten Welten auf Schemaebene auftreten können
• Transformation in (de)normalisierte Datenstrukturen• Schlüsselbehandlung
– lokale Schlüssel werden auf Surrogate abgebildet– Behandlung von impliziter Semantik
20
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Transformationskomponente 2
Datenintegration• Überführung von Daten aus unterschiedlichen heterogenen Quelle in
ein einheitliches Format durch– Anpassung von Datentypen– Konvertierung von Kodierungen – Vereinheitlichung von Zeichenketten – Vereinheitlichung von Datumsangaben – Umrechnung von Maßeinheiten – Kombination / Separierung von Attributwerte
• Erkennen von zusammengehörigen Datensätzen• Behandlung / Vermeidung von Homonym und Synonymfehlern• Berechnung abgeleiteter Werte • Aggregierung von Werten (z.B. hinsichtlich Lokalität in Raum und Zeit)
21
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Transformationskomponente 3
Datenbereinigung• Quelldaten durch fehlerhafte, redundante, veraltete oder
fehlende Daten verunreinigt• Komponenten zur Datenbereinigung können in Kategorien
eingeteilt werden– Data Scrubbing: unter Ausnutzung von
domänenspezifischen Informationen (Geschäftsregeln) können Fehler erkannt und bereinigt werden
– Data Auditing: unter Ausnutzung von Data - Mining Techniken wird versucht Zusammenhänge im Datenbestand aufzudecken und daraus Regeln abzuleiten - die Ausreißer von Regeln können potentielle Verunreinigungen sein
22
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Lade-komponente
23
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Ladekomponenten 1
nach Datentransformation befinden sich aufbereitete Daten im Arbeitsbereich zwei Komponenten sind für das Weiterleiten zuständig
Ladekomponente Arbeitsbereich -> Basisdatenbank Ladekomponente Basisdatenbank -> Data Warehouse
Basisdatenbank wird zum großen Teil mit Detaildaten gefüllt Aktualisierung der materialisierten Sichten im Data Warehouse
Änderungen in der Basisdatenbank müssen sich auf die materialisierten Sichten des Data Warehouses übertragen
Neuberechnung vs. inkrementelle Aktualisierung selbstwartbare Sichten
24
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Ladekomponenten 2
Effizienz des Ladens hat eine große Auswirkung auf alle beteiligten Systeme effizientes Laden über Bulk Loader, optimiert auf
Datendurchsatz Ladephasen in einem günstigen Zeitfenster (Nachts,
Wochenende) Belastung der Systeme kann mit Partitionierung, Parallelisierung
und inkrementellen Sichtenaktualisierung begegnet werden Unterscheidung zwischen Offline und Online Ladevorgängen
25
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Basisdatenbank
26
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Basisdatenbank
Sammel und Integrationsfunktion (zentrales Datenlager) Distributionsfunktion (Versorgung der Data Warehouses) kann auch zur Analyse eingesetzt werden ermöglicht Mehrfachverwendung der Daten und Flexibilität Verteilungsfunktion kann mit
Nabespeicher – Architektur veranschaulicht werden
27
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Data Warehouse
28
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Data Warehouse
für Analysezwecke aufgebaute Datenbank stellt die für die Analysen des Anwenders notwendigen Daten den
Analyseprozessen in geeigneter Form zur Verfügung unterstützt Analyseprozesse auch mit Funktionen zur Verarbeitung
der Daten Realisierung mit DBMS zur Strukturierung der Daten hat sich für viele Problemstellungen
das multidimensionale Datenmodell als zweckmäßig erwiesen
29
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Data Marts
Integration von Unternehmensdaten (globale Sicht) als zentralistische Lösung problematisch hinsichtlich Skalierung
Grundidee inhaltlich beschränkten Fokus des Unternehmens oder eine Abteilung als Teilsicht eines Data Warehouses abzubilden
Gründe: Datenschutzaspekte durch Teilsicht auf die Daten Organisatorische Aspekte Verringerung des Datenvolumens Performanzgewinn durch Aggregation Verteilung der Last Unabhängigkeit von den Aktualisierungszyklen des Data Warehouse
Unterscheidung in abhängige und unabhängige Data Marts
30
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Abhängige Data Marts
enthalten nur Extrakte des Data Warehouses
keine Normierung und Datenbereinigung strukturelle Konsistenz mit Data
Warehouse Zusammenschluss von Data Marts zu
einem virtuellen Data Warehouse möglich Unterschiedliche Extrakte möglich:
Struktureller Extrakt Inhaltlicher Extrakt Aggregierter Extrakt
31
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Unabhängige Data Marts
es wird auf eine Basisdatenbank verzichtet
geringere Komplexität Nachteile:
spätere Data Mart übergreifende Analysen problematisch da keine gemeinsame Sicht auf die Quelldaten
Verschleppung von Konsistenz- und Integrationsproblemen
32
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Analyse-komponente
33
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Analysekomponente 1
Anwendung von Analysefunktionen auf ausgewählte Daten zur Generierung von neuen Informationen
Aufbereitung, Veränderung und Bereitstellung der Ergebnisse zwecks Weiterverarbeitung in anderen Systemen oder die Weitergabe an andere Personen oder Instanzen
Ergebnisse von Analysen können wieder in die Basisdatenbank bzw. Data Warehouse zurückgeführt werden die Qualität der Datenbasis erhöht zukünftige Analysen verbessert
34
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Analysekomponente 2
Analysewerkzeuge (Business Intelligence Tools) dienen der Präsentation der gesammelten Daten mit interaktiven Navigations- und Analysemöglichkeiten
Darstellungsformen: Tabellen Grafiken Text
Funktionen lassen sich hinsichtlich ihrer Komplexität in 3 Kategorien einordnen Data Access (z.B. Reporting)
• zur Ermittlung von Anfrageergebnissen werden Datenmanipulationssprachen eingesetzt
• meist in Informations-, Planungs-, und Berichtssysteme integriert • Anfragekomplexität ähnlich OLTP
35
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Analysekomponente 3
OLAP• Dynamischer, flexibler und interaktiver Zugriff auf eine
Vielzahl von Einträgen • Multidimensionales Datenmodell
– spezifischen Anfrageoperatoren und –techniken, die den Begriff OLAP charakterisieren, werden in multidimensionalen Datenstrukturen abgebildet
• Grundstein wurde durch Coddsche Regeln von Edgar F. Codd gelegt
36
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Analysekomponente 4
Data Mining• Ermittlung von Beziehungsmustern• Abbildung durch logische oder funktionale
Beziehungszusammenhänge• Ermittlung und Abbildung von Beziehungszusammenhängen in
Form eines Modells • Verfahren
– Clusterbildung, Klassifikation, Regression, Abhängigkeitsentdeckung und Abweichungsentdeckung
37
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Metadaten Manager
38
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Metadaten – Manager
steuert die Metadatenverwaltung des Data Warehouse Systems wird als Datenbankanwendung für Metadaten definiert die
Versions- und Konfigurationsmanagement Integrations-, Zugriffs-, Anfrage-, und Navigationsmöglichkeiten bieten
metadatengetriebener Prozess wenn vollständig ausführbare Spezifikationen (Transformationen,
Abbildungen) der Datenverarbeitungsschritte als Metadaten gespeichert werden und diese von Werkzeugen interpretiert und ausgeführt werden können
Kontrollfluss zwischen Metadaten Manager und Data Warehouse Manager
automatische Aktualisierung der Metadaten sinnvoll damit Datenfluss aus Datenquellen erhalten bleibt
39
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Repositorium
40
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Repositorium 1
Ablage der Metadaten des Data – Warehouse – Systems Metadaten:
beschreibende Informationen über Inhalt, Struktur, Kontext und Bedeutung von Daten aber auch prozessbezogene Informationen über die Verarbeitung dieser Daten
Einteilung in • Fachlich:
– dienen dem Endanwender– helfen ihm Daten im DW zu verstehen, relevante Daten zu
finden, Resultate der Auswertungen interpretieren (anwendungsspezifische Dokumentationen, domänenspezifisches Wissen, Thesauri etc.)
41
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Repositorium 2
• Technisch: – Beschreibung der logischen und physischen Datenbankschemata– Integritätsbedingungen– Implementierungsinformationen der verschiedenen Skripte für
Extraktion, Transformation, Analyse garantieren
• Nachvollziehbarkeit – Woher stammen die Daten im Data Warehouse– Wie und wann wurden Daten geladen
• Überprüfbarkeit– Richtigkeit und Qualität der Auswertung
Änderungen in Quellsystemen und deren Auswirkungen auf die Analysesysteme lassen sich interpretieren und abschätzen
42
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Phasen
Monitoring Extraktionsphase Transformationsphase Ladephase Analysephase
43
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Datenqualität
Datenqualität
Glaubwürdigkeit Nützlichkeit Interpretierbarkeit Schlüsselintegrität
Korrektheit
Konsistenz
Zuverlässigkeit
Vollständigkeit
Genauigkeit
Zeitnähe
Redundanzfreiheit
Einheitlichkeit
Eindeutigkeit
Verständlichkeit
Schlüsseleindeutigkeit
referentielle Integrität
Taxonomie der Qualitätsmerkmale
44
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Datenqualität – Bereinigungsmaßnahmen (Cleansing)
Korrektheit Bei fehlerhaften Werten muss auf Werte aus der Realwelt
zurückgegriffen werden, nur stichprobenartig sinnvoll Statistische Prozesskontrolle
Konsistenz Bewertung erfordert domänenspezifisches Wissen Als Repräsentationsformen des Fachwissens kommen in Frage
• Geschäftsregeln • Reguläre Ausdrücke • Domänenspezifische Funktionen
45
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Datenqualität - Bereinigungsmaßnahmen (Cleansing)
Vollständigkeit Nutzung domänenspezifischen Wissens zur Verbesserung der
Vollständigkeit fehlende Werte sollten einheitlich repräsentiert werden NULL Werte sind allerdings nicht zwangsläufig ein Indiz für
Datenqualitätsmängel unterschiedliche Semantiken von NULL:
• Es gibt kein Wert für das Attribut • Attributwert ist zur Erfassungszeit nicht bekannt oder wurde
aus bestimmten Gründen nicht erfasst • Attributwert ist nicht bekannt
46
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Datenqualität - Bereinigungsmaßnahmen (Cleansing)
Redundanzfreiheit Kann nur gemessen werden, wenn die Anzahl der in einem
Datenbestand repräsentierten Entitäten der Realwelt bekannt ist und damit die Anzahl der Duplikate im Datenbestand abschätzbar ist
veraltete Daten erkennen und löschen können bestimmt werden indem materialisierten Sichten
analysiert werden Daten die diese Sichten nicht beeinflussen, können gelöscht
werden
47
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Datenqualität - Probleme
48
Architektur von Data Warehouse - Systemen
Blockseminar Data Warehousing 2005Lehrstuhl für Datenbanken und InformationssystemeRico Landefeld
Zusammenfassung
eine Referenzarchitektur ist idealtypisch, die Architektur realer Systeme weicht zum Teil stark von ihr ab
eine Referenzarchitektur bietet jedoch Vergleichs- und Beschreibungsmöglichkeiten
unter den Architekturansätzen ist insbesondere die Unterscheidung zwischen Data Warehouses und Data Marts wichtig
der Wert von Analyseergebnissen hängt maßgeblich von der Datenqualität ab
unter Cleansing versteht man alle Maßnahmen die der Sicherstellung von Korrektheit, Konsistenz, Vollständigkeit und Redundanzfreiheit von Auswertungsdaten dienen
beim Cleansing ist der Einsatz von domänenspezifischen Wissen unabdingbar