Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 20021 Web Warehousing Teil 2 der...
-
Upload
klaudia-beutel -
Category
Documents
-
view
218 -
download
3
Transcript of Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 20021 Web Warehousing Teil 2 der...
KFK Verteilte Systeme/Informationssysteme WS 2002 1Dezember, 02
Web Warehousing
Teil 2 der Präsentation „Web Warehousing und Knowledge Management“
Gerda [email protected]
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 2
Überblick1. web-based query and reporting2. web-OLAP3. web-based statistical analysis and data
mining4. web-based graphical information systems5. text information management systems6. search engines and facilities7. text mining systems8. multimedia information management systems
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 3
1. Web-Based Query und Reportingwas sind /wofür sind
query tools reporting tools
welche Technologien wofürVorteile einer Web-Warehousing-
Applikation
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 4
Query Toolseine Anfrage unmittelbar an die
DatenbankModus „pro-active“ Einsatz:
die gewünschte Information ändert sich oft Benutzer zu unterschiedlichen Zeiten
unterschiedliche Informationen benötigen wichtig, dass Information zeitgerecht und
sofort verfügbar ist
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 5
Reporting Toolsein Report wird generiert und danach
abgespeichertModus „reactive“ Einsatz:
wenn die Information für eine bestimmte Zeit gültig ist
wenn User die selbe Info in dem selben Format öfter und jederzeit benötigen
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 6
Welche Technologien wofürReporting Query
PPP ideal!
CGI möglich ideal
Java mit JDBC möglich gut
Client-Applikation
möglich andere Nachteile!
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 7
Vorteile einer Web-Warehousing-Anwendung Einsparungen beim
Netzwerk End-User-Workstations End-User-Software Software-Wartung und End-User-
Support Möglichkeit von jedem Ort der Welt
aus zu arbeiten, weltweite Konsistenz
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 8
2. Web-OLAPWas ist OLAPCharakteristika einer erfolgreichen
OLAP-ImplementationDesign-AnsätzeData-Management-Ansätze
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 9
Was ist OLAPOnLine Analytical Processing Daten werden aus einer Datenbank ermittelt
und übersichtlich dargestellt Base Reports vordefiniertes Layout haben
Styles (zB straight, sparse/nested, stacked/nested). NavigierbarkeitOLAP für Online-Aktivitäten und nicht als
Report-Writer einzusetzen!
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 10
Charakteristika einer erfolgreichen OLAP-Implementation
V volatile content
A actionable
I important
N navigatable
S stable format & dimensions
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 11
Design-AnsätzePrecalculate and Store Calculate on the Fly Hybride Ansätze
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 12
Data-Management-Ansätzebig cube – little cube
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 13
3. Web-Based Statistical Analysis and Data MiningAnalytische Tools Was ist Data-MiningKategorien ermittelter Informationstatistische Produktedata discovery toolsVergleichArchitektonische Ansätze
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 14
Analytical Toolkitsstatistische AnalyseData Discovery
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 15
Kategorien ermittelbarer InformationDesciptive InformationPredictive InformationExploratory/Explanatory DiscoverySpecialized Insights
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 16
Was ist Data Mining?große Mengen an Daten analysieren
um versteckte Muster oder Charakteristika zu entdecken, zu beschreiben
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 17
Überblick Statistische Produkte
KorrelationsanalyseFaktoranalyseRegressionsanalyse
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 18
Überblick Data Discovery Tools auch data mining, information
discovery oder knowledge discovery
Neuronale Netze CHAID
(chi-square automatic interaction detection)
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 19
VergleichAnforderungen an den BenutzerAufbereitung der DatenMathematische GrundlagenZuverlässigkeit der Ergebnisse
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 20
VergleichAnforderungen an den Benutzer
allgemein: Statistical Tools verlangen größeres Verständnis
von statistischen GrundlagenBedienung
Statistical Tools: benötigt meist einen Statistiker Data Discovery Tools: sehr einfach
Interpretation der Ergebnisse Statistical Tools:ohne Statistik-Kenntnisse sehr
schwer Data Discovery Tools: üblicherweise leicht zu
verstehen und schwer zu misinterpretieren
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 21
VergleichAufbereitung der Daten
Statistical Toolssehr hohen
Standards im Sinne von Menge Genauigkeit
Data Discovery Tools
mit weniger und qualitativ schlechteren Daten können bereits Ergebnisse erzielt werden
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 22
VergleichMathematical Foundations
Statistical Tools traditionelle Statistik
extrem hohen Standards für Tests und Messungen
Data Discovery Tools neuere, weniger traditionell definierte oder
bewiesene Formen statistischer Analyse Modelle meist viel einfacher zu erstellenAbhängigkeiten weit schwerer zu beweisenden
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 23
VergleichZuverlässigkeit der Ergebnisse
statistischen Ergebnisse i.a. genauer und verlässlicher als Data Discovery
ungleich höhere Kosten der statistischen Tools bzw deren Anwendung!
Bevorzugung der Data-Discovery-Tools, v.a. wenn kleine Ungenauigkeiten keine Auswirkungen haben
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 24
Architektonische Ansätze100% server-based100% client-basedHybride Ansätze
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 25
4. Web-Based Graphical and Geo- graphical Information Systems
Arten graphischer Informationsysteme traditional charting and drawing-sw Virtual Reality (2D/3D/4D) – Reality
Representations Mehrdimensionale abstrakte
Repräsentationen Geographische Informationssysteme
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 26
Traditional Charting and Drawing-SoftwareFunktionalität weit verbreitet!
zB Excel, Lotus 1-2-3, .......Wert
große Mengen Daten in klare Muster klar Trends und Richtungen zu zeigen den Kommunikationsprozess
vereinfachen
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 27
Virtual Reality (2D/3D/4D) – Reality Representations
jene Anwendungen, die die Realität darstellen (zB Darstellung von Vorgängen innerhalb eines Kernkraftwerks)
Layering Applications
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 28
Mehrdimensionale abstrakte Repräsentationen
stellt extrem komplexe, mehrdimensionale Daten stark vereinfacht graphisch dar
Visual Data Mining
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 29
Geographische Informationssystemelayers und overlays ...
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 30
5. Text Information Management SystemsIdee: System sucht Texte, liest sie, und
bewertet sieText Information Management
System(TIMS) ist ein System, bestehend aus Menschen Prozessen, Hard- und Software „Rohstoffen“, in diesem Fall Texte in jeder
erdenklichen Form.
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 31
Text Information Management SystemsTIMS werden unterschieden nach
1.den wichtigsten Kategorien von TIMS2.ihren funktionellen Komponenten3.ihr Zustell- und Ausführmodell4.ihren Informationsquellen5.der Menge/Art an Texten
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 32
Die wichtigsten Kategorien von TIMSsearch engines und search enabler
web-based public domain subscription search services corporate digital libraries
subscription/conscription servicescollaborative work environments
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 33
Search Engines und Search Enablerkeyword searcheinengen des Suchfelds
geographisch zeitlich sprachlich Inhalt (Graphiken, Videos etc) .....
Search Enabler: neue Generation „super-Suchmaschinen“
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 34
Subscription/Conscription Servicesnews servicesstock quotes/monitoringon-line clipping servicesspecial interests groupsmarketing conscription servicescorporate conscription services
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 35
Collaboratorive Work EnvironmentsShared Reference Libraries
Work Flow Management Systems
Collaborative Problem Solving and Think Tank Applications
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 36
TextanalyseAnsätze zur Textanalyse enthalten:
Keyword oder „Abstract“ Analyse Word Count Phrase and Word Combination Count Context Evaluation Advanced Analytical Techniques
2 Arten in Suchmaschinen integriert freistehend
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 37
Funktionelle Komponenten eines TIMSTIMS üblicherweise Kombination aus
Texterstellung Textkonvertierung Speicherung der Texte Wartung der Verzeichnisse Texte indexieren und katalogisieren Textanalyse Textsuche und –retrieval Textformatierung und -anzeige
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 38
TIMS Delivery and Execution Models
Pull Model vs. Push Model
Targeted Model vs. Broadcast Model
User-based-Model vs. Agent-based-Model
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 39
TIMS InformationsquellenPublic Domain Marketing Materials Brokered Information Corporate Property
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 40
6. Search Engines und FacilitiesArchitekturVariationen in der Arbeitsweise
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 41
Search Engines und Facilities - Architekturjede Suchmaschine hat zumindest
folgende Komponenten: User Request Facility Search Template Search Universe Index Index Builder Query Builder und Execution Mechanism User Response Facility
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 42
Variationen in der ArbeitsweiseVerschiedene Index-Schemen
einfacher Suchmaschinen-Index mehrwertige Index-Spalten multipler Index
Art der Indexerstellung von Menschen job-based Spider
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 43
7. Text Mining Systemeumfasst
Information und/oder Wissen aus Dokumenten extrahieren
Trends in Dokumenten entdecken Informationen über Menschen, Orte und
Dinge aus Dokumenten herauslesen Dokumente zusammenfassen
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 44
Text Mining SystemeTechniken:
Content Summarization Content Search Trend Analysis Document Categorization Lexical Analysis Grammatical Analysis Semantic Analysis Linguistic Analysis Cluster Analysis
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 45
8. Multimedia Information SystemsKategorien
Hybride Suchsysteme reine Multimedia Such- und Retrieval-
Systeme Multimedia Analyse Systeme Sicherheits- und Identifikationssysteme
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 46
Unterschiede zu TIMS
Dezember, 02 KFK Verteilte Systeme/Informationssysteme WS 2002 47
Ansätze zur IndexerstellungSimple Name Search Keyword Search Descriptive Document Search Referenceable Document Search Descriptive Database Search Multimedia Mining Tools Real-time matching