Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik •...

58
Systeme der Informationsverwaltung Universität Karlsruhe (TH) Vorbesprechung Praktikum: Data Warehousing und Data Mining

Transcript of Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik •...

Page 1: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Vorbesprechung

Praktikum: Data Warehousing und

Data Mining

Page 2: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 2

Team •  Matthias Bracht

•  matthias DOT bracht AT stud DOT uni-karlsruhe DOT de

•  Frank Eichinger •  eichinger AT ipd DOT uka DOT de

•  Matthias Huber •  matthiashuber AT gmx DOT de

•  Steffen Lang •  steffen DOT lang AT stud DOT uni-karlsruhe DOT de

•  Stephan Schosser •  schosser AT ipd DOT uka DOT de

Page 3: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 3

Motivation •  Grosse Datensammlungen in Unternehmen

•  Jede Abteilung hat eigene Datenbestände •  Daten beschreiben alle Aspekte der Organisation

•  Wissen in Daten nicht offensichtlich •  Zu viele Attribute •  Niemand hat Überblick über alle Daten •  Mitarbeiter wechseln, alte Daten werden uninterpretierbar •  Daten im Unternehmen verstreut

•  Thema •  Wie in der Vorlesung:

Wie kommt man in diesem Szenario zu Wissen? •  … praktisch an Beispielen mit marktüblicher Software

Page 4: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 4

Data Warehousing

•  Ziel •  Integration von Unternehmensdaten in zentralen

Datenbestand •  Anfragen / Analysen auf diesem Datenbestand

•  Charakteristika •  Materialisierte Sichten auf unterschiedliche andere Quellen •  Daten aus unterschiedlichen Quellen im Unternehmen •  Daten meist sind aggregiert OLAP (Online Analytical Processing)

Page 5: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 5

OLAP vs. OLTP (Data Warehouse vs. Datenbank)

transaktional analytisch Fokus Lesen, Schreiben,

Modifizieren, Löschen Lesen, periodisches Hinzufügen

Transaktionsdauer und -typ

Kurze Lese- / Schreibtransaktionen

Lange Lesetransaktionen

Anfragestruktur Einfach strukturiert komplex

Datenvolumen einer Anfrage

Wenige Datensätze Viele Datensätze

•  Anfragecharakteristika

nach Bauer, Günzel (Hrsg): Data Warehouse Systeme – Architektur, Entwicklung, Anwendung

Page 6: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 6

Data Warehousing in diesem Praktikum •  Benutzung der Tools

•  Oracle und Cognos ReportStudio

•  Oracle •  Datenwürfel entwerfen •  Anfragen auf dem relationalen Datenbestand •  Datenwürfel erstellen

•  Cognos •  Stellen von Anfragen auf dem Würfel •  Erstellen von Analysen

Page 7: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 7

Data Mining •  Menge von Techniken

•  Klassifikation Ist der Kunde kreditwürdig?

•  Clustering Welche Kundengruppen gibt es?

•  Assoziations Rules Welche Produkte werden zusammen gekauft?

•  Ziel •  Finden interessanter Muster und Eigenschaften in

großen Datenbeständen

Page 8: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 8

Data Mining in diesem Praktikum

•  Benutzung der Tools •  SPSS Clementine •  Weka •  Knime

•  Aufgaben zu •  Datenbereinigung •  Klassifikation •  Optionalem Thema

•  Daten aus dem Data Mining Cup

Page 9: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 9

Synergieeffekte Data Warehousing und Data Mining

•  Aufwändigster Schritt: Datenbereinigung •  Fällt bei Data Warehousing und Data Mining an Daten des Data Warehouse eignen sich für Data Mining

•  Data Mining als Analysekonzept im Data Warehouse

•  Problem: •  Data Mining benötigt operative, transaktionsorientierte Daten

(z. B. Kassenbons) •  Data Warehouse benötigt häufig aggregierte Daten

granulare Informationen gehen verloren

Page 10: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Data Preprocessing

Praktikum: Data Warehousing und

Data Mining

Page 11: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 11

Motivation •  We are drowning in information, but starving

for knowledge! (John Naisbett)

•  Was genau ist Datenanalyse?

•  Was ist Data Mining? •  Techniken zur Mustererkennung •  Ziel: unerwartete Muster •  Beispiele für Muster: Assotiation Rules, Cluster…

Page 12: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 12

Von Daten zur Entscheidung (Gianotti und Pedreschi)

Inspektion

Aggregation (zielgerichtet)

Interpretation Entscheidung •  Sonderangebot für Produkt

A in Gebiet Z •  Mailings an Familien mit

Profil P •  Cross-Selling von Produkt

an Kunden C

Wissen •  Anzahl Y des Produkts A

wird in Gebiet Z verwendet

•  Kunden der Klasse Y verwenden x% von C in Zeitraum D Information

•  X lebt in Z •  S ist Y Jahre alt •  X und S sind umgezogen •  W hat Geld in Z Daten

•  Kundendaten •  Daten aus den Filialen •  Demographische Daten •  Geographische Daten

Page 13: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 13

Knowledge Discovery in Databases

Interpretation

Data Mining

Datenbereinigung

Datenauswahl

Konsolidierung

Zieldefinition

Page 14: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 14

Data Mining Projekt - Zeitaufwand

•  Problemspezifikation: 20% •  Was ist das Problem? •  Wie sollte das Ergebnis aussehen? •  Formale Spezifikation

•  Finden von Wissen: 80% •  Datenbeschaffung •  Datenaufbereitung (Data Preprocessing) 60% •  Data Mining •  Evaluierung •  Weiterführende Massnahmen

Vgl.: Vorlesung „Data Mining for Business Applications“; M. Spiliopoulou

Page 15: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Vorverarbeitung

Page 16: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 16

Teilnehmerliste des Praktikums •  Ziel:

•  Alle Studenten sollen teilnehmen! •  Vorgehen

•  Liste wurde handschriftlich ausgefüllt •  Dann in Teilnehmerdatenbank übertragen

•  Probleme •  Feld männlich/weiblich fehlt

•  Ist Conny männlich oder weiblich? •  Feld Fachsemester ist nicht vielsagend

•  Student ist im 15. Fachsemester, hat aber 5 Jahre davon Data Warehouses administriert

•  Feld Prüfung Datenbankeinsatz Vorlesung fehlt •  Ist Prüfung geplant oder nie angedacht? •  Wurde aus Datenschutzgründen auf Angabe verzichtet?

•  Beim Übertragen in Datenbank treten Fehler auf •  E-Mail Adressen sind undeutlich geschrieben •  Übertragender ist im Stress und liest nur oberflächlich

Page 17: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 17

Teilnehmerliste des Praktikums II •  Probleme (fortges.)

•  Eintrag in der Teilnehmerdatenbank ist 30 Fachsemester •  Gibt es einen gravierenden Unterschied zwischen 25 und 30

Semester? •  Student hat Datenbankeinsatz im „SoSe 2007“ gehört.

•  Suche nach SS05 (Datenbankstandardformat) wirft Datensatz nicht aus

•  Was ist zu tun? •  Hier:

•  Alle Angemeldeten können teilnehmen. •  „Politisch korrekt“

•  Aber: •  Was, wenn Unternehmenserfolg von Prognose abhängt?

•  Dann: •  Datenqualität essentiell •  Daten müssen vorverarbeitet werden

Page 18: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 18

Eigenschaften von Produktivdaten •  Daten sind meist…

•  Unvollständig •  Enthalten NULL-Werte •  Enthalten Aggregate •  Interessante Informationen fehlen

•  Verunreinigt: •  Enthalten Fehler •  Enthalten Ausreißer

•  Inkonsistent: •  Daten in unterschiedlichen Quellen inkonsistent

Page 19: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 19

Data Preprocessing – Vorgehen •  Analyse der Daten

•  „Ansehen“ einzelner Tupel / Aggregate von Tupeln •  Deskriptive Statistik •  Visualisierung der Eingangsdaten

•  Durchführung des Data Preprocessing •  Datenbereinigung •  Datenintegration •  Datentransformation •  Datenreduktion

Page 20: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 20

„Ansehen“ der Daten •  Nutzen:

•  Oft sind Eigenschaften am leichtesten beim direkten Betrachten der Daten zu entdecken

•  Meist erster Schritt des Data Preprocessing

•  Beispiele •  Entdecken von NULL-Werten •  Skalentypen der Werte •  Größe der Wertebereiche •  Diskrepanz zwischen Attributlänge und Datenlänge •  …

Page 21: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 21

Skalentypen

•  Anwendbarkeit der Statistiken abhängig vom Skalentyp •  Mittelwert des Geschlechts •  Modalwert der Prüfungsnoten

Skalentyp Wertebereich Mögliche Operationen Beispiele

Nominale Größen diskret, endlich

Gleichheit Geschlecht Augenfarbe

Ordinale Größen diskret, endlich, Ordnung

Gleichheit, größer / kleiner als

Prüfungsnoten Schulabschluß

Intervallgrößen kontinuierlich bzw. ganzzahlig, unendlich

Gleichheit, größer / kleiner als Differenz

Datum Temperatur

Ratiogrößen kontinuierlich bzw. ganzzahlig, unendlich

Gleichheit größer / kleiner als Differenz Verhältnis

Abstand Alter

Page 22: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 22

Deskriptive Statistik •  Nutzen

•  Identifikation typischer Dateneigenschaften •  Identifikation von Ausreißern und Datenfehlern

•  Wichtige Statistiken •  Masse für die Zentralität

•  Mittelwert •  Median •  Modalwert

•  Masse für die Verteilung •  Interquartilabstand •  Varianz •  Skewness •  …

Page 23: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 23

Masse für Zentralität •  Mittelwert

•  Entspricht average (avg()) in SQL •  Median

•  „Mittlere Wert“ aller sortierten Werte •  Durchschnitt der zwei „mittleren Werte“ bei gerader Wertanzahl

•  Modalwert •  Häufigster Wert •  Abhängig von Anzahl der Werte: unimodal, bimodal, …

Page 24: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 24

Masse für die Verteilung I •  Quartil

•  Seien Daten aufsteigend sortiert •  1. Quartil enthält unterste 25% der sortierten Werte •  2. Quartil enthält untere 25% - 50% der sortierten Werte •  usw.

•  Interquartilabstand •  Abstand zwischen drittem und erstem Quartil •  Einfaches Maß für die Verteilung der Daten

•  Varianz

•  Nur sinnvoll, wenn Mittelwert als Zentrum der Daten •  Maß für die Verteilung der Daten

Page 25: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 25

Masse für die Verteilung II •  Skewness

mit und

•  Mass für Abweichung von symmetrischer Verteilung

rechtssteil symmetrisch linkssteil

Page 26: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 26

Masse für die Verteilung III •  Kurtosis

mit und

•  Mass für Krümmung der Verteilung

leptokurtic Gauss platikurtic

Page 27: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 27

Visualisierung der Eingangsdaten •  Nutzen

•  Menschliches Gehirn ist auf Erfassung graphischer Inhalte optimiert

•  Mehrere Aspekte können simultan untersucht werden

•  Wichtige Visualisierungen •  Boxplot •  Histogram •  Scatterplot •  Web •  Parallelkoordinaten

Page 28: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 28

Visualisierung - Boxplot •  Fasst mehrer statistische Masse zusammen

•  Zeigt •  Mittelwert, Quartile, Minimum

Maximum, Interquartilabstand

•  Nutzen •  Finden der Verteilung •  Finden von Ausreißern

Mittelwert

2. Quartil

1. Quartil

3. Quartil

Minimum

Maximum

Page 29: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 29

Visualisierung - Histogram •  Zeigt die Verteilung einzelner, numerischer Attribute •  Verteilung abhängig von kategorischem Attribut

möglich •  Darstellung der Anzahl •  Prozentsatz interpretierbar •  Kenngröße gegebenenfalls

in Buckets gruppiert

•  Nutzen •  Finden von Ausreisern •  Finden der Verteilung •  Erkennen von Tupel-

charakteristika

Page 30: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 30

Visualisierung – Scatterplot •  Visualisiert einzelne Tupel •  Bis zu drei numerische Attribute angebbar •  Formatierung der Datenpunkte abhängig von

weiteren Attributen

•  Nutzen •  Finden von Korrelationen •  Finden von Clustern •  Finden von Ausreisern

Page 31: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 31

Visualisierung – dreidimensionaler Scatterplot

Page 32: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 32

Visualisierung - Webs •  Visualisiert Beziehungen zwischen zwei

kategorischen Attributen •  „Dicke“ Verbindungslinie zwischen häufig

auftretenden Attributwertkombination

•  Nutzen •  Frequent Itemsets

erkennbar •  Beziehungen auffindbar

Page 33: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 33

Parallelkoordinaten •  Visualisiert unterschiedliche Attribute •  Attributwerte normiert auf einheitliche Skala •  Einfärbung nach Klasse •  Pro Tupel ein Graph

•  Nutzen •  Erkennen von

Tupelcharakteristika •  Finden von Selektionsattributen

Attribut A Attribut B Attribut C Attribut D

Page 34: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 34

Exkurs: Risiken I

Quelle dieser und der folgenden Diagramme: D. Huff: How to Lie with Statistics bzw. W. Krämer: So lügt man mit Statistik. Nach einer Auwahl von C. Borgelt: Inteligent Data Analysis

Page 35: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 35

Exkurs: Risiken II

Page 36: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 36

Data Preprocessing – Vorgehen •  Analyse der Daten

•  „Ansehen“ einzelner Tupel / Aggregate von Tupeln •  Deskriptive Statistik •  Visualisierung der Eingangsdaten

•  Durchführung des Data Preprocessing •  Datenbereinigung •  Datenintegration •  Datentransformation •  Datenreduktion

Page 37: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 37

Datenbereinigung

•  Beseitigung von… •  fehlenden Werten •  verunreinigten Daten

Page 38: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 38

Beseitigung von fehlenden Werten I •  Ignorieren von Tupeln

•  Notgedrungen bei Klassifikation: fehlt Klasse •  Sinnvoll wenn in Tupel viele Werte fehlen •  Sonst vorsichtig:

•  Fehlender Wert kann Logik sein •  Kritisch, wenn Häufigkeit der fehlenden Werte unter Attributen

unterschiedlich •  Beispiele:

•  Beruf: Hausfrau •  Sensor fällt bei großer Kälte aus

•  Manuelles Auffüllen •  Nur bei geringer Zahl fehlender Werte sinnvoll •  Auffüllender muss über Expertenwissen verfügen

•  Ersetzen durch globale Konstante •  Beispiel: Alles durch „unbekannt“ oder „-∞“ •  Aber vorsichtig:

•  Kann als besonderer Wert interpretiert werden

Page 39: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 39

Beseitigung von fehlenden Werten II •  Einsetzen des Mittelwertes

•  Beispiel: Mittelwert des Einkommens •  Aber: nur bei metrischen Attributen sinnvoll •  Vorsicht: Daten werden gebiast

•  Einsetzen des Mittelwertes der Klasse •  Beispiel: Mittelwert des Einkommens über alle in derselben Kreditrisiko-

Klasse •  Aber: nur bei metrischen Attributen sinnvoll •  Vorsicht: Daten werden gebiast

•  Einsetzen des wahrscheinlichsten Wertes •  Finden des Wertes über Modalwert •  Finden mit Klassifikationsalgorithmen •  Vorsicht: Daten werden gebiast

•  Wichtig: •  Einige Algorithmen können mit fehlenden Daten umgehen

Page 40: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 40

Beseitigung von verunreinigten Daten •  Binning

•  …mit gemeinsamer Häufigkeit •  Ersetzen durch Mittelwert •  Ersetzen durch Median •  Ersetzen durch nächste Bucketgrenze

•  …mit gemeinsamer Breite der Buckets •  Hilft bei Glätten der Eingangsdaten

•  Regression •  Daten werden durch Regressionsfunktion beschrieben

•  Clustering •  Daten werden geclustert •  Dabei können Ausreißer identifiziert werden

•  Hinweis: •  Verfahren können auch zur Datenreduktion genutzt werden

Page 41: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 41

Datenintegration

•  Ziel… •  Integration von Daten aus

verschiedenen Quellen

Page 42: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 42

Datenintegration •  Daten aus Unternehmensquellen

•  … ähnlich Data Warehousing •  Jetzt nicht Fokus

•  Daten aus zusätzlichen Quellen •  Frei verfügbar

•  Postleitzahlen zu Adressen •  Umrechnungskurse zwischen Währungen

•  Extern zukaufbar •  Schufa-Daten •  Daten von der Post •  Diverse andere Datenquellen

Page 43: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 43

Datenintegration - Schwierigkeiten •  Entitätsidentifikationsproblem

•  Attributnamen: •  Stimmt „Kunden-ID“ mit „Kundennummer“ überein?

•  Attributwerte: •  Ist „m“ in Geschlecht gleich „männlich“?

•  Korrelationsanalyse •  Finden von Redundanzen:

•  Mehrinformation Jahres- gegenüber Monatseinkommen

•  Skalierungsprobleme •  Beispiele:

•  Temperaturen in Celsius bzw. Fahrenheit •  Einkommen in Dollar bzw. Euro

Page 44: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 44

Datentransformation

•  Ziel •  Vorbereitung der Daten

für das Data Mining

-3; 45; 12,0; 17

-0.03, 0.45, 0.12, 0.17

Page 45: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 45

Datentransformation •  Bereinigung von Daten

•  Wie eben •  Aggregation

•  Aggregat über Tageseinnahmen zu Monatseinnahmen •  Besonders interessant, wenn auch Data Warehouse erstellt wird

•  Generalisierung •  Daten werden auf sinnvolles Niveau aggregiert •  Beispiel: Von Adresse auf Stadt

•  Normalisierung •  Skalierung auf überschaubaren Wertebereich •  Beispiel: auf 0,0 bis 1,0

•  Attributgenerierung •  Zusammenfassen mehrerer Attribute zu einem •  Beispiel: Umrechnung in Vergleichswährung

Page 46: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 46

Datentransformation – Normalisierung (Bsp.)

Page 47: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 47

Datenreduktion

•  Ziel: •  Eingrenzen des

Curse of Dimensionality

B3

A2 A3 … A150 A1

… B200

B2 B1

… B154

B3 B1

A3 … A123 A1

Page 48: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 48

Feature Selection •  Vorteile

•  Gewonnene Regeln sind leichter interpretierbar •  Skalierbarkeit ermöglicht

•  Vorgehen (allgemein) •  Bestimmen des Attributwertes

•  … über statistische Signifikanz •  … über Information Gain

•  Vorgehen (Alternativen) •  Schrittweise Vorwärtsselektion

•  Ausgangssituation: Leere Attributmenge •  Rekursive Erweiterung um je ein Attribut

•  Schrittweise Rückwärtsselektion •  Ausgangssituation: Vollständige Attributmenge •  Rekursive Entfernung um je ein Attribut

•  Entscheidungsbauminduktion •  Entscheidungsbaum wird generiert •  Alle Attribute im Entscheidungsbaum werden genutzt

•  Optional: •  Expertenwissen nutzen

Page 49: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 49

Sampling •  Motivation

•  Zu viele Lerndatensätze •  Balancieren der Klassengröße

•  Vorgehen •  Auswahl einzelner Tupel

•  Einfaches zufälliges Sampling •  Zufälliges Ziehen von Tupeln

•  Stratified Sampling •  Attribut wird gewählt •  Anteil der einzelnen Attributwerte in Ausgangsdaten gleich

dem Anteil im Sample

Page 50: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Organisatorisches

Praktikum: Data Warehousing und

Data Mining

Page 51: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 51

Veranstaltungstermine

Page 52: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 52

Data Mining Cup •  Thema: Lotterielose

•  Fragestellung: Wie lange spielen Kunden? •  Ziel: Kunde soll richtig eingeordnet werden

•  Aufgabenstellung und Anmeldung unter •  http://www.data-mining-cup.de

Page 53: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining

Ausflug – Besuch von IBM in Böblingen •  Programm (für den 16.05.08)

•  7:00 Abfahrt Karlsruhe •  9:30 Welcome und Überblick BB Lab •  10:00 DB2 Warehouse Überblick •  11:00 Kaffeepause •  11:30 Data Mining mit Demo •  12:30 Mittagessen •  13:30 Unstructured Analytics mit Demo •  14:30 Chiptest Demo •  15:30 Karriere bei IBM •  17:00 Ankunft Karlsruhe

53

Page 54: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 54

Scheinvoraussetzungen •  Für jede Leistung sind Punkte erreichbar

•  Zwischenpräsentation Data Mining Cup: 2 Punkte •  Jedes Team präsentiert Lösung in 15 Minuten

•  Ergebnis Data Mining Cup: 7 Punkte •  Lösung unter Top 12,5%: 7 Punkte •  Lösung unter Top 25,0%: 6 Punkte •  Usw.

•  Data Mining (II): 3 Punkte •  Je nach Qualität der Lösung 0 bis 3 Punkte

•  Data Warehousing (I): 3 Punkte •  Je nach Qualität der Lösung 0 bis 3 Punkte

•  Data Warehousing (II): 3 Punkte •  Je nach Qualität der Lösung 0 bis 3 Punkte

•  Summe: 18 Punkte •  Scheinvoraussetzung:

•  Erlangen von 10 Punkten und mehr und Teilnahme am Ausflug!

Page 55: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 55

Tutoren •  Teams

•  Je 4 Studenten •  Geben Lösungen gemeinsam ab

•  Tutorien •  Je 1,5 Stunden pro Team, Woche

•  Tutoren •  Betreuen je 2 Team •  Führen Tutorien durch •  Sind Ansprechpartner nach den Veranstaltungen •  Nehmen auch am Data Mining Cup teil

Page 56: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 56

Was fehlt noch? •  Ausblick auf nächste Woche

•  Klassifikation

•  Bestätigung der Teilnahme

•  Anmeldung beim Data Mining Cup!

•  Accounts beantragen

•  Termin für die folgenden Treffen •  Nächste Woche Montag 9:45 (Wichtig: bis 13:00 Uhr)

•  http://dbis.ipd.uni-karlsruhe.de/dwm2008.php

•  Verteilung auf Tutoren

Page 57: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 57

Quellen

J. Han und M. Kamber: „Data mining : concepts and techniques“, Morgan Kaufmann, 2006.

C. Borgelt: Folien zur Vorlesung „Intelligent Data Analysis“, 2004

F. Klawonn: Folien zur Vorlesung „Data Mining“, 2006.

M. Spiliopoulou: Vorlesung „Data Mining for Business Applications“, 2003.

Page 58: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 58

Tutorentermine

Steffen Lang Montag 11:30 Uhr Christoph, Fabian, Robert, Mirko Dienstag 11:30 Uhr Tilmann, Marcel, Moritz, Mathilde

Matthias Bracht Montag 11:30 Uhr Grigor, Kristina, Hristina, Pierre Dienstag 11:30 Uhr Matthias, Ahmet, Dan, Benjamin

Matthias Huber Montag 14:00 Uhr Martin, Feng, Elena, Kiril Montag 15:45 Uhr Roland, Michael, Alexander