Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena...

31
Data und Web Mining Data und Web Mining KFK Semantic Web: Knowledge Management KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Helena Oroszlan Sybille Pipal Sybille Pipal

Transcript of Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena...

Page 1: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Data und Web MiningData und Web MiningKFK Semantic Web: Knowledge KFK Semantic Web: Knowledge ManagementManagement LV-Leiter: Mag. Peter HöffererLV-Leiter: Mag. Peter Höfferer

Helena OroszlanHelena OroszlanSybille PipalSybille Pipal

Page 2: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

ÜberblickÜberblick

Data MiningData Mining– DefinitionenDefinitionen– AllgemeinesAllgemeines– Data Mining Prozess Data Mining Prozess – Methoden und Methoden und

TechnikenTechniken– AnwendungsgebieteAnwendungsgebiete– Data Warehouse | OLAP Data Warehouse | OLAP

| | Data Cubes Data Cubes

Web MiningWeb Mining– DefinitionDefinition– AllgemeinesAllgemeines– KonzepteKonzepte– Analyse von Web Analyse von Web

DatenDaten– Web Mining Web Mining

VerfahrenVerfahren– ToolsTools– AnwendungsgebieteAnwendungsgebiete– ProblemeProbleme

Überblick Data und Web Mining H. Oroszlan, S. Pipal

Page 3: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Data Mining - Data Mining - Definitionen 1Definitionen 1 DatenDaten

formalisierte Darstellung von Sachverhalten, Begriffen oder formalisierte Darstellung von Sachverhalten, Begriffen oder BefehlenBefehlen unstrukturiertes Gebilde aus Zeichen unstrukturiertes Gebilde aus Zeichen maschinell verarbeitet maschinell verarbeitet enthalten Informationen enthalten Informationen

Datenbanken und DatenbanksystemeDatenbanken und Datenbanksysteme systematisch strukturierte, langfristig verfügbare systematisch strukturierte, langfristig verfügbare Sammlung Sammlung von Datenvon Daten DBMS als Schnittstelle für Kommunikation mit DB DBMS als Schnittstelle für Kommunikation mit DB

NetzwerkeNetzwerke Gruppe von PCs, die miteinander verbunden sind Gruppe von PCs, die miteinander verbunden sind gemeinsame Nutzung von Daten gemeinsame Nutzung von Daten LAN | WAN LAN | WAN

Data Mining | Definitionen Data und Web Mining H. Oroszlan, S. Pipal

Page 4: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Data Mining - Data Mining - Definitionen 2Definitionen 2 Data MiningData Mining

Entdecken und Extrahieren von Informationen Entdecken und Extrahieren von Informationen Finden von Mustern Finden von Mustern Wissensgewinnung Wissensgewinnung

Knowledge Discovery in Databases (KDD)Knowledge Discovery in Databases (KDD) oft Synonym für Data Mining oft Synonym für Data Mining gesamte Findungsprozess gesamte Findungsprozess beschreibt automatisierte Verfahren beschreibt automatisierte Verfahren nützt Data Mining Methoden nützt Data Mining Methoden

Text Mining Text Mining Mustererkennung in unformatierten Daten Mustererkennung in unformatierten Daten Web Mining Web Mining Mustererkennung im WWW Mustererkennung im WWW

Data Mining | Definitionen Data und Web Mining H. Oroszlan, S. Pipal

Page 5: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Wozu dient Data Mining?Wozu dient Data Mining?

Data Mining | Allgemeines Data und Web Mining H. Oroszlan, S. Pipal

Ziel: aus einer klar definierten Datenmenge Wissen zu extrahieren

Page 6: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Data MiningData Mining

VorteileVorteile

– WettbewerbsvorteileWettbewerbsvorteile

– Entdeckung + GewinnungEntdeckung + Gewinnung von Informationen von Informationen

– aus Daten relevante aus Daten relevante Informationen Informationen

– Stütze für Stütze für Kundenbetreuungssystem Kundenbetreuungssystem

NachteileNachteile

– DatenschutzDatenschutz

– keine Gewissheit über keine Gewissheit über Richtigkeit Richtigkeit

– hohe Kostenhohe Kosten

– hohe hohe WissensanforderungWissensanforderung

Data Mining | Allgemeines Data und Web Mining H. Oroszlan, S. Pipal

Page 7: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Data Mining ProzessData Mining Prozess

Voraussetzungen – Ansprüche an die DatenVoraussetzungen – Ansprüche an die Daten– Unvollständigkeit und Spärlichkeit der DatenUnvollständigkeit und Spärlichkeit der Daten– Dynamik der Daten Dynamik der Daten – Datenschmutz Datenschmutz – Redundanz Redundanz – Irrelevante FelderIrrelevante Felder– Datenvolumen Datenvolumen

ProzessphasenProzessphasen– PlanungsphasePlanungsphase– VorbereitungsphaseVorbereitungsphase– MiningphaseMiningphase– AuswertungsphaseAuswertungsphase

Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal

Page 8: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

PlanungsphasePlanungsphase

Beantwortung der Frage: Beantwortung der Frage:

WAS WOLLEN WIR ERREICHEN?WAS WOLLEN WIR ERREICHEN?

Definition von ErwartungswertenDefinition von Erwartungswerten Berechnung des erwarteten Aufwands (Kosten + Zeit) Berechnung des erwarteten Aufwands (Kosten + Zeit) Beschaffung von FachleutenBeschaffung von Fachleuten

Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal

Page 9: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

VorbereitungsphaseVorbereitungsphase

DatenbeschaffungDatenbeschaffung– Identifikation der DatenquellenIdentifikation der Datenquellen– Datenextraktion aus verschiedenen DatenquellenDatenextraktion aus verschiedenen Datenquellen– Datenintegration zu einem DatenbestandDatenintegration zu einem Datenbestand– Gesetzliche Vorschriften berücksichtigenGesetzliche Vorschriften berücksichtigen

DatenaufbereitungDatenaufbereitung

– Identifikation falscher WerteIdentifikation falscher Werte– Identifikation fehlender WerteIdentifikation fehlender Werte– Identifikation korrelierter MerkmaleIdentifikation korrelierter Merkmale– Algorithmus der Datenerhebung wird festgelegtAlgorithmus der Datenerhebung wird festgelegt– Daten an die Anforderungen des Algorithmus anpassen Daten an die Anforderungen des Algorithmus anpassen

Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal

Page 10: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

MiningphaseMiningphase

Suche nach Mustern innerhalb großer DatenbeständeSuche nach Mustern innerhalb großer Datenbestände Generierung von problemspezifischen ModellenGenerierung von problemspezifischen Modellen Auswertung der ErgebnisseAuswertung der Ergebnisse Rückkopplung ?Rückkopplung ? Visualisierung der TeilergebnisseVisualisierung der Teilergebnisse

Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal

Page 11: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

AuswertungsphaseAuswertungsphase

Auswertung der ErgebnisseAuswertung der Ergebnisse Interpretation der AnwenderInterpretation der Anwender Visualisierung der ErgebnisseVisualisierung der Ergebnisse Wissensgewinnung Wissensgewinnung

Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal

Page 12: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Der Prozess im ÜberblickDer Prozess im Überblick

Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal

Page 13: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Techniken und Methoden Techniken und Methoden 11 KlassifikationKlassifikation = Gruppenbildung ähnlicher Objekte = Gruppenbildung ähnlicher Objekte

– EntscheidungsbaumEntscheidungsbaum - neuronale Netze- neuronale Netze

– fallbasiertes Schließenfallbasiertes Schließen

Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal

Page 14: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Techniken und Methoden Techniken und Methoden 22 SegmentierungSegmentierung = Zerlegung in Teile = Zerlegung in Teile

– Clusteranalyse Clusteranalyse

PrognosePrognoseBasis: Werte aus früheren PeriodenBasis: Werte aus früheren PeriodenZiel: Prognose für Zukunft + Gewinn unbekannter AusprägungenZiel: Prognose für Zukunft + Gewinn unbekannter Ausprägungen

AbhängigkeitsanalyseAbhängigkeitsanalyse– WarenkorbanalyseWarenkorbanalyse

AbweichungsanalyseAbweichungsanalyse – Objekte mit untypischen Merkmalsausprägungen feststellenObjekte mit untypischen Merkmalsausprägungen feststellen

= Identifikation von Ausreißern = Identifikation von Ausreißern

Data Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal

Page 15: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

AnwendungsgebieteAnwendungsgebiete

Business Intelligence Business Intelligence Customer Relationship Management (CRM)Customer Relationship Management (CRM) EinzelhandelEinzelhandel Chemie- und Pharmakologie IndustrieChemie- und Pharmakologie Industrie FernerkundungsdatenFernerkundungsdaten BankenBanken VersicherungenVersicherungen TelefonfirmenTelefonfirmen FluglinienFluglinien

Data Mining | Anwendung Data und Web Mining H. Oroszlan, S. Pipal

Page 16: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Data WarehouseData Warehouse

Data Mining | artverwandte Begriffe

Data und Web Mining H. Oroszlan, S. Pipal

Datenbanksystem, das Daten aus verschiedenen Quellen verwaltet

Page 17: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Data Warehouse 2Data Warehouse 2

Data Mining | artverwandte Begriffe

Data und Web Mining H. Oroszlan, S. Pipal

RDB: Relationale Datenbank | VLRDB: Very Large RDB | OORDB: Objektrelationale DB | OODB: Objektorientierte DB | MDDB: Mehrdimensionale DB

Page 18: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

OLAP OLAP (1/4)(1/4)(Online Analytical Processing)(Online Analytical Processing)

Methoden und ToolsMethoden und Tools Analyse von KennzahlenAnalyse von Kennzahlen Codd RegelnCodd Regeln FASMIFASMI

Data Mining | artverwandte Begriffe

Data und Web Mining H. Oroszlan, S. Pipal

Page 19: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

OLAP – FASMI OLAP – FASMI (2/4)(2/4)

FastFast AnalysisAnalysis SharedShared MultidimensionalMultidimensional InformationInformation

Data Mining | artverwandte Begriffe

Data und Web Mining H. Oroszlan, S. Pipal

Page 20: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

OLAP – OLAP – Architekturkonzepte Architekturkonzepte (3/4)(3/4)

ROLAP (relational)ROLAP (relational) MOLAP (multidimensional)MOLAP (multidimensional) HOLAP (hybride)HOLAP (hybride) DOLAP (desktop)DOLAP (desktop)

Data Mining | artverwandte Begriffe

Data und Web Mining H. Oroszlan, S. Pipal

Page 21: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

OLAP – Data Cube OLAP – Data Cube (4/4)(4/4)

DimensionenDimensionen AusprägungeAusprägunge

nn ZellenZellen HierarchienHierarchien

Wien

Stmk

Bgld

Dimension 1

Wein

Bier

Dimension 2

Jan. Feb. Mär.

Dimension 3

                  

 

 

Data Mining | artverwandte Begriffe

Data und Web Mining H. Oroszlan, S. Pipal

Page 22: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Web MiningWeb Mining

Beschaffung und Auswertung von Beschaffung und Auswertung von Web DatenWeb Daten

2 Ansätze2 Ansätze– Web Content MiningWeb Content Mining– Web Usage MiningWeb Usage Mining

Web Mining | Überblick Data und Web Mining H. Oroszlan, S. Pipal

Page 23: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Was sind Web Daten?Was sind Web Daten?

Anzahl der ClicksAnzahl der Clicks Zeit auf der Web SeiteZeit auf der Web Seite Wörter in SuchmaschinenWörter in Suchmaschinen

Web Mining | Allgemeines Data und Web Mining H. Oroszlan, S. Pipal

Page 24: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Web Mining KonzepteWeb Mining Konzepte

LogfilesLogfiles CookiesCookies RegistrierungRegistrierung

Unterschiedliche KonzepteUnterschiedliche Konzepte

Web Mining | Allgemeines Data und Web Mining H. Oroszlan, S. Pipal

Page 25: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Analysen von Web Analysen von Web DatenDaten 

    

                  

 

Datenauswahl

Datenaufbereitung

Datenbereinigung Identifikation v. Nutzen u. Sitzungen

Datenintegration

Mustererkennung

Interpretation

Web Mining | Allgemeines Data und Web Mining H. Oroszlan, S. Pipal

Page 26: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Web Mining ProzessWeb Mining Prozess

Web Mining | Der Prozess Data und Web Mining H. Oroszlan, S. Pipal

Page 27: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Web Mining VerfahrenWeb Mining Verfahren

Path AnalysePath Analyse Assoziationsanalyse Assoziationsanalyse ClusteranalyseClusteranalyse Klassifikationsanalyse Klassifikationsanalyse SequenzanalyseSequenzanalyse

Web Mining | Verfahren Data und Web Mining H. Oroszlan, S. Pipal

Page 28: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Web Mining ToolsWeb Mining Tools

Pattern Discovery ToolsPattern Discovery Tools– Erkennen verschiedener PatternsErkennen verschiedener Patterns

WEBMINERWEBMINER

Pattern Analysis ToolsPattern Analysis Tools– Analyse der gefundenen PatternsAnalyse der gefundenen Patterns

WebVizWebViz Data CubeData Cube

Web Mining | Tools Data und Web Mining H. Oroszlan, S. Pipal

Page 29: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

AnwendungsgebieteAnwendungsgebiete

KundenprofileKundenprofile Platzierung der WerbungenPlatzierung der Werbungen Strukturierung einer Web SeiteStrukturierung einer Web Seite Kundenspezifische WerbungKundenspezifische Werbung Kontakt via E-mailKontakt via E-mail Personalisiert Web SeitePersonalisiert Web Seite

Web Mining | Anwendung Data und Web Mining H. Oroszlan, S. Pipal

Page 30: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

ProblemeProbleme

Schnelle Änderung von Web Schnelle Änderung von Web DatenDaten

Logfiles alleine nicht ausreichendLogfiles alleine nicht ausreichend Registrierung nicht korrektRegistrierung nicht korrekt Muss interne Daten integrierenMuss interne Daten integrieren Gewisse Auskünfte nicht möglichGewisse Auskünfte nicht möglich

Web Mining | Probleme Data und Web Mining H. Oroszlan, S. Pipal

Page 31: Data und Web Mining KFK Semantic Web: Knowledge Management LV-Leiter: Mag. Peter Höfferer Helena Oroszlan Sybille Pipal.

Danke für Ihre Danke für Ihre Aufmerksamkeit!Aufmerksamkeit!