Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik •...

Post on 18-Sep-2018

219 views 0 download

Transcript of Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik •...

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Vorbesprechung

Praktikum: Data Warehousing und

Data Mining

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 2

Team •  Matthias Bracht

•  matthias DOT bracht AT stud DOT uni-karlsruhe DOT de

•  Frank Eichinger •  eichinger AT ipd DOT uka DOT de

•  Matthias Huber •  matthiashuber AT gmx DOT de

•  Steffen Lang •  steffen DOT lang AT stud DOT uni-karlsruhe DOT de

•  Stephan Schosser •  schosser AT ipd DOT uka DOT de

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 3

Motivation •  Grosse Datensammlungen in Unternehmen

•  Jede Abteilung hat eigene Datenbestände •  Daten beschreiben alle Aspekte der Organisation

•  Wissen in Daten nicht offensichtlich •  Zu viele Attribute •  Niemand hat Überblick über alle Daten •  Mitarbeiter wechseln, alte Daten werden uninterpretierbar •  Daten im Unternehmen verstreut

•  Thema •  Wie in der Vorlesung:

Wie kommt man in diesem Szenario zu Wissen? •  … praktisch an Beispielen mit marktüblicher Software

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 4

Data Warehousing

•  Ziel •  Integration von Unternehmensdaten in zentralen

Datenbestand •  Anfragen / Analysen auf diesem Datenbestand

•  Charakteristika •  Materialisierte Sichten auf unterschiedliche andere Quellen •  Daten aus unterschiedlichen Quellen im Unternehmen •  Daten meist sind aggregiert OLAP (Online Analytical Processing)

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 5

OLAP vs. OLTP (Data Warehouse vs. Datenbank)

transaktional analytisch Fokus Lesen, Schreiben,

Modifizieren, Löschen Lesen, periodisches Hinzufügen

Transaktionsdauer und -typ

Kurze Lese- / Schreibtransaktionen

Lange Lesetransaktionen

Anfragestruktur Einfach strukturiert komplex

Datenvolumen einer Anfrage

Wenige Datensätze Viele Datensätze

•  Anfragecharakteristika

nach Bauer, Günzel (Hrsg): Data Warehouse Systeme – Architektur, Entwicklung, Anwendung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 6

Data Warehousing in diesem Praktikum •  Benutzung der Tools

•  Oracle und Cognos ReportStudio

•  Oracle •  Datenwürfel entwerfen •  Anfragen auf dem relationalen Datenbestand •  Datenwürfel erstellen

•  Cognos •  Stellen von Anfragen auf dem Würfel •  Erstellen von Analysen

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 7

Data Mining •  Menge von Techniken

•  Klassifikation Ist der Kunde kreditwürdig?

•  Clustering Welche Kundengruppen gibt es?

•  Assoziations Rules Welche Produkte werden zusammen gekauft?

•  Ziel •  Finden interessanter Muster und Eigenschaften in

großen Datenbeständen

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 8

Data Mining in diesem Praktikum

•  Benutzung der Tools •  SPSS Clementine •  Weka •  Knime

•  Aufgaben zu •  Datenbereinigung •  Klassifikation •  Optionalem Thema

•  Daten aus dem Data Mining Cup

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 9

Synergieeffekte Data Warehousing und Data Mining

•  Aufwändigster Schritt: Datenbereinigung •  Fällt bei Data Warehousing und Data Mining an Daten des Data Warehouse eignen sich für Data Mining

•  Data Mining als Analysekonzept im Data Warehouse

•  Problem: •  Data Mining benötigt operative, transaktionsorientierte Daten

(z. B. Kassenbons) •  Data Warehouse benötigt häufig aggregierte Daten

granulare Informationen gehen verloren

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Data Preprocessing

Praktikum: Data Warehousing und

Data Mining

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 11

Motivation •  We are drowning in information, but starving

for knowledge! (John Naisbett)

•  Was genau ist Datenanalyse?

•  Was ist Data Mining? •  Techniken zur Mustererkennung •  Ziel: unerwartete Muster •  Beispiele für Muster: Assotiation Rules, Cluster…

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 12

Von Daten zur Entscheidung (Gianotti und Pedreschi)

Inspektion

Aggregation (zielgerichtet)

Interpretation Entscheidung •  Sonderangebot für Produkt

A in Gebiet Z •  Mailings an Familien mit

Profil P •  Cross-Selling von Produkt

an Kunden C

Wissen •  Anzahl Y des Produkts A

wird in Gebiet Z verwendet

•  Kunden der Klasse Y verwenden x% von C in Zeitraum D Information

•  X lebt in Z •  S ist Y Jahre alt •  X und S sind umgezogen •  W hat Geld in Z Daten

•  Kundendaten •  Daten aus den Filialen •  Demographische Daten •  Geographische Daten

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 13

Knowledge Discovery in Databases

Interpretation

Data Mining

Datenbereinigung

Datenauswahl

Konsolidierung

Zieldefinition

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 14

Data Mining Projekt - Zeitaufwand

•  Problemspezifikation: 20% •  Was ist das Problem? •  Wie sollte das Ergebnis aussehen? •  Formale Spezifikation

•  Finden von Wissen: 80% •  Datenbeschaffung •  Datenaufbereitung (Data Preprocessing) 60% •  Data Mining •  Evaluierung •  Weiterführende Massnahmen

Vgl.: Vorlesung „Data Mining for Business Applications“; M. Spiliopoulou

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Vorverarbeitung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 16

Teilnehmerliste des Praktikums •  Ziel:

•  Alle Studenten sollen teilnehmen! •  Vorgehen

•  Liste wurde handschriftlich ausgefüllt •  Dann in Teilnehmerdatenbank übertragen

•  Probleme •  Feld männlich/weiblich fehlt

•  Ist Conny männlich oder weiblich? •  Feld Fachsemester ist nicht vielsagend

•  Student ist im 15. Fachsemester, hat aber 5 Jahre davon Data Warehouses administriert

•  Feld Prüfung Datenbankeinsatz Vorlesung fehlt •  Ist Prüfung geplant oder nie angedacht? •  Wurde aus Datenschutzgründen auf Angabe verzichtet?

•  Beim Übertragen in Datenbank treten Fehler auf •  E-Mail Adressen sind undeutlich geschrieben •  Übertragender ist im Stress und liest nur oberflächlich

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 17

Teilnehmerliste des Praktikums II •  Probleme (fortges.)

•  Eintrag in der Teilnehmerdatenbank ist 30 Fachsemester •  Gibt es einen gravierenden Unterschied zwischen 25 und 30

Semester? •  Student hat Datenbankeinsatz im „SoSe 2007“ gehört.

•  Suche nach SS05 (Datenbankstandardformat) wirft Datensatz nicht aus

•  Was ist zu tun? •  Hier:

•  Alle Angemeldeten können teilnehmen. •  „Politisch korrekt“

•  Aber: •  Was, wenn Unternehmenserfolg von Prognose abhängt?

•  Dann: •  Datenqualität essentiell •  Daten müssen vorverarbeitet werden

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 18

Eigenschaften von Produktivdaten •  Daten sind meist…

•  Unvollständig •  Enthalten NULL-Werte •  Enthalten Aggregate •  Interessante Informationen fehlen

•  Verunreinigt: •  Enthalten Fehler •  Enthalten Ausreißer

•  Inkonsistent: •  Daten in unterschiedlichen Quellen inkonsistent

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 19

Data Preprocessing – Vorgehen •  Analyse der Daten

•  „Ansehen“ einzelner Tupel / Aggregate von Tupeln •  Deskriptive Statistik •  Visualisierung der Eingangsdaten

•  Durchführung des Data Preprocessing •  Datenbereinigung •  Datenintegration •  Datentransformation •  Datenreduktion

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 20

„Ansehen“ der Daten •  Nutzen:

•  Oft sind Eigenschaften am leichtesten beim direkten Betrachten der Daten zu entdecken

•  Meist erster Schritt des Data Preprocessing

•  Beispiele •  Entdecken von NULL-Werten •  Skalentypen der Werte •  Größe der Wertebereiche •  Diskrepanz zwischen Attributlänge und Datenlänge •  …

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 21

Skalentypen

•  Anwendbarkeit der Statistiken abhängig vom Skalentyp •  Mittelwert des Geschlechts •  Modalwert der Prüfungsnoten

Skalentyp Wertebereich Mögliche Operationen Beispiele

Nominale Größen diskret, endlich

Gleichheit Geschlecht Augenfarbe

Ordinale Größen diskret, endlich, Ordnung

Gleichheit, größer / kleiner als

Prüfungsnoten Schulabschluß

Intervallgrößen kontinuierlich bzw. ganzzahlig, unendlich

Gleichheit, größer / kleiner als Differenz

Datum Temperatur

Ratiogrößen kontinuierlich bzw. ganzzahlig, unendlich

Gleichheit größer / kleiner als Differenz Verhältnis

Abstand Alter

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 22

Deskriptive Statistik •  Nutzen

•  Identifikation typischer Dateneigenschaften •  Identifikation von Ausreißern und Datenfehlern

•  Wichtige Statistiken •  Masse für die Zentralität

•  Mittelwert •  Median •  Modalwert

•  Masse für die Verteilung •  Interquartilabstand •  Varianz •  Skewness •  …

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 23

Masse für Zentralität •  Mittelwert

•  Entspricht average (avg()) in SQL •  Median

•  „Mittlere Wert“ aller sortierten Werte •  Durchschnitt der zwei „mittleren Werte“ bei gerader Wertanzahl

•  Modalwert •  Häufigster Wert •  Abhängig von Anzahl der Werte: unimodal, bimodal, …

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 24

Masse für die Verteilung I •  Quartil

•  Seien Daten aufsteigend sortiert •  1. Quartil enthält unterste 25% der sortierten Werte •  2. Quartil enthält untere 25% - 50% der sortierten Werte •  usw.

•  Interquartilabstand •  Abstand zwischen drittem und erstem Quartil •  Einfaches Maß für die Verteilung der Daten

•  Varianz

•  Nur sinnvoll, wenn Mittelwert als Zentrum der Daten •  Maß für die Verteilung der Daten

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 25

Masse für die Verteilung II •  Skewness

mit und

•  Mass für Abweichung von symmetrischer Verteilung

rechtssteil symmetrisch linkssteil

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 26

Masse für die Verteilung III •  Kurtosis

mit und

•  Mass für Krümmung der Verteilung

leptokurtic Gauss platikurtic

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 27

Visualisierung der Eingangsdaten •  Nutzen

•  Menschliches Gehirn ist auf Erfassung graphischer Inhalte optimiert

•  Mehrere Aspekte können simultan untersucht werden

•  Wichtige Visualisierungen •  Boxplot •  Histogram •  Scatterplot •  Web •  Parallelkoordinaten

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 28

Visualisierung - Boxplot •  Fasst mehrer statistische Masse zusammen

•  Zeigt •  Mittelwert, Quartile, Minimum

Maximum, Interquartilabstand

•  Nutzen •  Finden der Verteilung •  Finden von Ausreißern

Mittelwert

2. Quartil

1. Quartil

3. Quartil

Minimum

Maximum

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 29

Visualisierung - Histogram •  Zeigt die Verteilung einzelner, numerischer Attribute •  Verteilung abhängig von kategorischem Attribut

möglich •  Darstellung der Anzahl •  Prozentsatz interpretierbar •  Kenngröße gegebenenfalls

in Buckets gruppiert

•  Nutzen •  Finden von Ausreisern •  Finden der Verteilung •  Erkennen von Tupel-

charakteristika

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 30

Visualisierung – Scatterplot •  Visualisiert einzelne Tupel •  Bis zu drei numerische Attribute angebbar •  Formatierung der Datenpunkte abhängig von

weiteren Attributen

•  Nutzen •  Finden von Korrelationen •  Finden von Clustern •  Finden von Ausreisern

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 31

Visualisierung – dreidimensionaler Scatterplot

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 32

Visualisierung - Webs •  Visualisiert Beziehungen zwischen zwei

kategorischen Attributen •  „Dicke“ Verbindungslinie zwischen häufig

auftretenden Attributwertkombination

•  Nutzen •  Frequent Itemsets

erkennbar •  Beziehungen auffindbar

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 33

Parallelkoordinaten •  Visualisiert unterschiedliche Attribute •  Attributwerte normiert auf einheitliche Skala •  Einfärbung nach Klasse •  Pro Tupel ein Graph

•  Nutzen •  Erkennen von

Tupelcharakteristika •  Finden von Selektionsattributen

Attribut A Attribut B Attribut C Attribut D

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 34

Exkurs: Risiken I

Quelle dieser und der folgenden Diagramme: D. Huff: How to Lie with Statistics bzw. W. Krämer: So lügt man mit Statistik. Nach einer Auwahl von C. Borgelt: Inteligent Data Analysis

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 35

Exkurs: Risiken II

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 36

Data Preprocessing – Vorgehen •  Analyse der Daten

•  „Ansehen“ einzelner Tupel / Aggregate von Tupeln •  Deskriptive Statistik •  Visualisierung der Eingangsdaten

•  Durchführung des Data Preprocessing •  Datenbereinigung •  Datenintegration •  Datentransformation •  Datenreduktion

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 37

Datenbereinigung

•  Beseitigung von… •  fehlenden Werten •  verunreinigten Daten

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 38

Beseitigung von fehlenden Werten I •  Ignorieren von Tupeln

•  Notgedrungen bei Klassifikation: fehlt Klasse •  Sinnvoll wenn in Tupel viele Werte fehlen •  Sonst vorsichtig:

•  Fehlender Wert kann Logik sein •  Kritisch, wenn Häufigkeit der fehlenden Werte unter Attributen

unterschiedlich •  Beispiele:

•  Beruf: Hausfrau •  Sensor fällt bei großer Kälte aus

•  Manuelles Auffüllen •  Nur bei geringer Zahl fehlender Werte sinnvoll •  Auffüllender muss über Expertenwissen verfügen

•  Ersetzen durch globale Konstante •  Beispiel: Alles durch „unbekannt“ oder „-∞“ •  Aber vorsichtig:

•  Kann als besonderer Wert interpretiert werden

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 39

Beseitigung von fehlenden Werten II •  Einsetzen des Mittelwertes

•  Beispiel: Mittelwert des Einkommens •  Aber: nur bei metrischen Attributen sinnvoll •  Vorsicht: Daten werden gebiast

•  Einsetzen des Mittelwertes der Klasse •  Beispiel: Mittelwert des Einkommens über alle in derselben Kreditrisiko-

Klasse •  Aber: nur bei metrischen Attributen sinnvoll •  Vorsicht: Daten werden gebiast

•  Einsetzen des wahrscheinlichsten Wertes •  Finden des Wertes über Modalwert •  Finden mit Klassifikationsalgorithmen •  Vorsicht: Daten werden gebiast

•  Wichtig: •  Einige Algorithmen können mit fehlenden Daten umgehen

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 40

Beseitigung von verunreinigten Daten •  Binning

•  …mit gemeinsamer Häufigkeit •  Ersetzen durch Mittelwert •  Ersetzen durch Median •  Ersetzen durch nächste Bucketgrenze

•  …mit gemeinsamer Breite der Buckets •  Hilft bei Glätten der Eingangsdaten

•  Regression •  Daten werden durch Regressionsfunktion beschrieben

•  Clustering •  Daten werden geclustert •  Dabei können Ausreißer identifiziert werden

•  Hinweis: •  Verfahren können auch zur Datenreduktion genutzt werden

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 41

Datenintegration

•  Ziel… •  Integration von Daten aus

verschiedenen Quellen

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 42

Datenintegration •  Daten aus Unternehmensquellen

•  … ähnlich Data Warehousing •  Jetzt nicht Fokus

•  Daten aus zusätzlichen Quellen •  Frei verfügbar

•  Postleitzahlen zu Adressen •  Umrechnungskurse zwischen Währungen

•  Extern zukaufbar •  Schufa-Daten •  Daten von der Post •  Diverse andere Datenquellen

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 43

Datenintegration - Schwierigkeiten •  Entitätsidentifikationsproblem

•  Attributnamen: •  Stimmt „Kunden-ID“ mit „Kundennummer“ überein?

•  Attributwerte: •  Ist „m“ in Geschlecht gleich „männlich“?

•  Korrelationsanalyse •  Finden von Redundanzen:

•  Mehrinformation Jahres- gegenüber Monatseinkommen

•  Skalierungsprobleme •  Beispiele:

•  Temperaturen in Celsius bzw. Fahrenheit •  Einkommen in Dollar bzw. Euro

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 44

Datentransformation

•  Ziel •  Vorbereitung der Daten

für das Data Mining

-3; 45; 12,0; 17

-0.03, 0.45, 0.12, 0.17

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 45

Datentransformation •  Bereinigung von Daten

•  Wie eben •  Aggregation

•  Aggregat über Tageseinnahmen zu Monatseinnahmen •  Besonders interessant, wenn auch Data Warehouse erstellt wird

•  Generalisierung •  Daten werden auf sinnvolles Niveau aggregiert •  Beispiel: Von Adresse auf Stadt

•  Normalisierung •  Skalierung auf überschaubaren Wertebereich •  Beispiel: auf 0,0 bis 1,0

•  Attributgenerierung •  Zusammenfassen mehrerer Attribute zu einem •  Beispiel: Umrechnung in Vergleichswährung

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 46

Datentransformation – Normalisierung (Bsp.)

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 47

Datenreduktion

•  Ziel: •  Eingrenzen des

Curse of Dimensionality

B3

A2 A3 … A150 A1

… B200

B2 B1

… B154

B3 B1

A3 … A123 A1

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 48

Feature Selection •  Vorteile

•  Gewonnene Regeln sind leichter interpretierbar •  Skalierbarkeit ermöglicht

•  Vorgehen (allgemein) •  Bestimmen des Attributwertes

•  … über statistische Signifikanz •  … über Information Gain

•  Vorgehen (Alternativen) •  Schrittweise Vorwärtsselektion

•  Ausgangssituation: Leere Attributmenge •  Rekursive Erweiterung um je ein Attribut

•  Schrittweise Rückwärtsselektion •  Ausgangssituation: Vollständige Attributmenge •  Rekursive Entfernung um je ein Attribut

•  Entscheidungsbauminduktion •  Entscheidungsbaum wird generiert •  Alle Attribute im Entscheidungsbaum werden genutzt

•  Optional: •  Expertenwissen nutzen

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 49

Sampling •  Motivation

•  Zu viele Lerndatensätze •  Balancieren der Klassengröße

•  Vorgehen •  Auswahl einzelner Tupel

•  Einfaches zufälliges Sampling •  Zufälliges Ziehen von Tupeln

•  Stratified Sampling •  Attribut wird gewählt •  Anteil der einzelnen Attributwerte in Ausgangsdaten gleich

dem Anteil im Sample

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Organisatorisches

Praktikum: Data Warehousing und

Data Mining

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 51

Veranstaltungstermine

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 52

Data Mining Cup •  Thema: Lotterielose

•  Fragestellung: Wie lange spielen Kunden? •  Ziel: Kunde soll richtig eingeordnet werden

•  Aufgabenstellung und Anmeldung unter •  http://www.data-mining-cup.de

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining

Ausflug – Besuch von IBM in Böblingen •  Programm (für den 16.05.08)

•  7:00 Abfahrt Karlsruhe •  9:30 Welcome und Überblick BB Lab •  10:00 DB2 Warehouse Überblick •  11:00 Kaffeepause •  11:30 Data Mining mit Demo •  12:30 Mittagessen •  13:30 Unstructured Analytics mit Demo •  14:30 Chiptest Demo •  15:30 Karriere bei IBM •  17:00 Ankunft Karlsruhe

53

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 54

Scheinvoraussetzungen •  Für jede Leistung sind Punkte erreichbar

•  Zwischenpräsentation Data Mining Cup: 2 Punkte •  Jedes Team präsentiert Lösung in 15 Minuten

•  Ergebnis Data Mining Cup: 7 Punkte •  Lösung unter Top 12,5%: 7 Punkte •  Lösung unter Top 25,0%: 6 Punkte •  Usw.

•  Data Mining (II): 3 Punkte •  Je nach Qualität der Lösung 0 bis 3 Punkte

•  Data Warehousing (I): 3 Punkte •  Je nach Qualität der Lösung 0 bis 3 Punkte

•  Data Warehousing (II): 3 Punkte •  Je nach Qualität der Lösung 0 bis 3 Punkte

•  Summe: 18 Punkte •  Scheinvoraussetzung:

•  Erlangen von 10 Punkten und mehr und Teilnahme am Ausflug!

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 55

Tutoren •  Teams

•  Je 4 Studenten •  Geben Lösungen gemeinsam ab

•  Tutorien •  Je 1,5 Stunden pro Team, Woche

•  Tutoren •  Betreuen je 2 Team •  Führen Tutorien durch •  Sind Ansprechpartner nach den Veranstaltungen •  Nehmen auch am Data Mining Cup teil

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 56

Was fehlt noch? •  Ausblick auf nächste Woche

•  Klassifikation

•  Bestätigung der Teilnahme

•  Anmeldung beim Data Mining Cup!

•  Accounts beantragen

•  Termin für die folgenden Treffen •  Nächste Woche Montag 9:45 (Wichtig: bis 13:00 Uhr)

•  http://dbis.ipd.uni-karlsruhe.de/dwm2008.php

•  Verteilung auf Tutoren

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 57

Quellen

J. Han und M. Kamber: „Data mining : concepts and techniques“, Morgan Kaufmann, 2006.

C. Borgelt: Folien zur Vorlesung „Intelligent Data Analysis“, 2004

F. Klawonn: Folien zur Vorlesung „Data Mining“, 2006.

M. Spiliopoulou: Vorlesung „Data Mining for Business Applications“, 2003.

Systeme der Informationsverwaltung Universität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 58

Tutorentermine

Steffen Lang Montag 11:30 Uhr Christoph, Fabian, Robert, Mirko Dienstag 11:30 Uhr Tilmann, Marcel, Moritz, Mathilde

Matthias Bracht Montag 11:30 Uhr Grigor, Kristina, Hristina, Pierre Dienstag 11:30 Uhr Matthias, Ahmet, Dan, Benjamin

Matthias Huber Montag 14:00 Uhr Martin, Feng, Elena, Kiril Montag 15:45 Uhr Roland, Michael, Alexander