Oracle - Ein Überblick über Karrieremöglichkeiten im Inside Sales in Potsdam
Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz...
Transcript of Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz...
Information RetrievalEin Überblick
Ingo Frommholz
Universität Duisburg-Essen
Vorlesung "Information Engineering"SS 2007
UNIVERSITÄT
D U I S B U R GE S S E N
EinführungRetrievalmodelle
Web IR
Inhaltsverzeichnis
1 Einführung
2 Retrievalmodelle
3 Web Information Retrieval
Ingo Frommholz Information Retrieval 2/70
Einführung
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Anwendungsgebiet
Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken
Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)
Suche in wissensintensiven Aufgaben
Unterstützung des Information Seeking & SearchingSuche in
Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken
Ingo Frommholz Information Retrieval 4/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Anwendungsgebiet
Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken
Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)
Suche in wissensintensiven Aufgaben
Unterstützung des Information Seeking & SearchingSuche in
Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken
Ingo Frommholz Information Retrieval 4/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Anwendungsgebiet
Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken
Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)
Suche in wissensintensiven Aufgaben
Unterstützung des Information Seeking & SearchingSuche in
Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken
Ingo Frommholz Information Retrieval 4/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Anwendungsgebiet
Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken
Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)
Suche in wissensintensiven Aufgaben
Unterstützung des Information Seeking & Searching
Suche inTexten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken
Ingo Frommholz Information Retrieval 4/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Anwendungsgebiet
Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken
Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)
Suche in wissensintensiven Aufgaben
Unterstützung des Information Seeking & SearchingSuche in
Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken
Ingo Frommholz Information Retrieval 4/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Unterschiede zur Datenbanksuche
Formulierung des Informationsbedürfnisses als passendeAnfrage problematisch
Anfrage liefert sehr viele Treffer (siehe Google) , aber nur wenigesind interessant
Unsicherheit und Vagheit
Ingo Frommholz Information Retrieval 5/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Abstraktionsstufen für die Suche
Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur
Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.
Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)
Nutzer: Suche auf der pragmatischen Ebene
Gängige Retrievalverfahren: syntaktische und semantischeEbene
Ingo Frommholz Information Retrieval 6/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Abstraktionsstufen für die Suche
Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur
Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.
Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)
Nutzer: Suche auf der pragmatischen Ebene
Gängige Retrievalverfahren: syntaktische und semantischeEbene
Ingo Frommholz Information Retrieval 6/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Abstraktionsstufen für die Suche
Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur
Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.
Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)
Nutzer: Suche auf der pragmatischen Ebene
Gängige Retrievalverfahren: syntaktische und semantischeEbene
Ingo Frommholz Information Retrieval 6/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Abstraktionsstufen für die Suche
Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur
Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.
Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)
Nutzer: Suche auf der pragmatischen Ebene
Gängige Retrievalverfahren: syntaktische und semantischeEbene
Ingo Frommholz Information Retrieval 6/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Grundmodell
Wissensstrukturen
internen
TransformationenWissensrepräsentation
Verfahren der
Retrieval
Informationen beim
Daten
Analyse von
Information Retrieval
auf
anhand von
liefert
gespeichert in
durch
beruht auf
Ingo Frommholz Information Retrieval 7/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Beispiel: Dokumentretrieval
liefertberuht auf
DBMS ?
Literatur gibt es deutschsprachigeWelche einführendeBeispiel:
(Dateien)Datenbankstrukturen
Boole’sche RetrievalRetrievaloperationen, wie z.B.
ReferierenIndexieren, Klassifizieren,
bibliographische ReferenzenDokumente bzw.
tarischen BezugseinheitenAnalyse von dokumen−
Document−Retrieval
gespeichert in auf
anhand vondurch
techn. Aspekten vonzu implementirungs−
Ingo Frommholz Information Retrieval 8/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Beispiel: Faktenretrieval
liefertberuht auf
gespeichert in auf
anhand vondurch
semantische Modellierungeines Weltausschnittes
Zuweisung von Attributenzu gegebenen Einheiten
Fakten einesWeltauschnittes
Kombination elementarerOperationen
im Umfang von mindes−tens einer halben Seitegeschaltet?
eine Anzeige imim letzten JahrWelche Firmen habenBeispiel:
Faktenretrieval
Datenbankstrukturen
Ingo Frommholz Information Retrieval 9/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Beispielsuche im INSPEC-System
INSPEC: INformation System for Physics, Electronics andComputingEnthält Dokumente, die Artikel oder Bücher beschreiben durch
bibliographische AngabenKurzzusammenfassung (Abstract oder Referat)Einordnung in hierarchisches IndexsystemStichwörter
Boolesches Retrievalsystem: liefert die Dokumente, die dieSuchbegriffe in der angegebenen Form enthalten
Ingo Frommholz Information Retrieval 10/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
INSPEC-Dokument
Ingo Frommholz Information Retrieval 11/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
INSPEC-Dokument
Ingo Frommholz Information Retrieval 11/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Beispielsuche
Literatur zum Stand der Forschung im Bereich
“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”
Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)
Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES
Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.
Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”
Ingo Frommholz Information Retrieval 12/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Beispielsuche
Literatur zum Stand der Forschung im Bereich
“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”
Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)
Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES
Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.
Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”
Ingo Frommholz Information Retrieval 12/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Beispielsuche
Literatur zum Stand der Forschung im Bereich
“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”
Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)
Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES
Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.
Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”
Ingo Frommholz Information Retrieval 12/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Beispielsuche
Literatur zum Stand der Forschung im Bereich
“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”
Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)
Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES
Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.
Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”
Ingo Frommholz Information Retrieval 12/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Beispielsuche
Literatur zum Stand der Forschung im Bereich
“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”
Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)
Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES
Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.
Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”
Ingo Frommholz Information Retrieval 12/70
EinführungRetrievalmodelle
Web IR
Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC
Ergebnisse verschiedener Suchanfragen
Ingo Frommholz Information Retrieval 13/70
Retrievalmodelle
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Boolesches Retrieval
Historisch erstes Retrievalmodell
Ungewichtete Indexierung (nur Vorkommen eines Terms)
Liefert Zweiteilung in “gefundene” und “nicht gefundene”Dokumente
Ingo Frommholz Information Retrieval 15/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Attribute und Anfragen
Definition (Attribut)
Ein Attribut ist eine Abbildung t : D→ T , die einem Dokument d ∈ Deinen Attributwert ti ∈ T zuweist.
Definition (Anfrage)
Paar, das aus einem Attribut und einem dazugehörigen Attributwert(Attribut-Wert-Paar) besteht. Attribut-Wert-Paare können durch dieOperatoren AND, OR und NOT verknüpft werden.
Ingo Frommholz Information Retrieval 16/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Attribute und Anfragen
Definition (Attribut)
Ein Attribut ist eine Abbildung t : D→ T , die einem Dokument d ∈ Deinen Attributwert ti ∈ T zuweist.
Definition (Anfrage)
Paar, das aus einem Attribut und einem dazugehörigen Attributwert(Attribut-Wert-Paar) besteht. Attribut-Wert-Paare können durch dieOperatoren AND, OR und NOT verknüpft werden.
Ingo Frommholz Information Retrieval 16/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Boolesche Operationen
Sei t(d) = ti ein Attribut.
Menge der Dokumente, bei denen das Attribut t den Wert tiannimmt:
Dt,ti = t−1(ti) = {d ∈ D|t(d) = ti}
Diese Menge wird auf eine Anfrage, die nur aus demAttribut-Wert-Paar (t, ti) besteht, zurück geliefert
Boolesche Operationen
(t, t1) AND (s,s1) Durchschnitt Dt,t1 ∩Ds,s1
(t, t1) OR (s,s1) Vereinigung Dt,t1 ∪Ds,s1
NOT (t, t1) Komplement D \Dt,t1
Ingo Frommholz Information Retrieval 17/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Boolesches Retrieval in Textdokumenten
Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch
Leerzeichen,Interpunktionszeichen undandere Sonderzeichen
begrenzt sind
Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente
Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente
DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,
bei denen t1 im Titel vorkommt
Ingo Frommholz Information Retrieval 18/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Boolesches Retrieval in Textdokumenten
Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch
Leerzeichen,Interpunktionszeichen undandere Sonderzeichen
begrenzt sind
Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente
Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente
DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,
bei denen t1 im Titel vorkommt
Ingo Frommholz Information Retrieval 18/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Boolesches Retrieval in Textdokumenten
Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch
Leerzeichen,Interpunktionszeichen undandere Sonderzeichen
begrenzt sind
Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente
Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente
DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,
bei denen t1 im Titel vorkommt
Ingo Frommholz Information Retrieval 18/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Boolesches Retrieval in Textdokumenten
Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch
Leerzeichen,Interpunktionszeichen undandere Sonderzeichen
begrenzt sind
Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente
Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente
DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,
bei denen t1 im Titel vorkommt
Ingo Frommholz Information Retrieval 18/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Invertierte Listen
Ingo Frommholz Information Retrieval 19/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Boolesches Retrieval mit invertierten Listen
Ingo Frommholz Information Retrieval 20/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Boolesches Retrieval mit invertierten Listen
Ingo Frommholz Information Retrieval 20/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Stoppworteliminierung
Eliminiert häufig vorkommende und keinen Inhalt tragendeWörter wie “und”, “oder” bzw. “and”, “or”
Beispiel
Apple has a built-in RSS reader. Kinda. While it’snot the dedicated RSS client that I hope they’ll build foriPhone, it helps a news junkie get his fix on a slowEDGE data connection.
Nach Stoppworteliminierung:apple built-in rss reader kinda dedicated rss client I
hope they’ll build iphone helps news junkie get his fixslow edge data connection
Ingo Frommholz Information Retrieval 21/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Stoppworteliminierung
Eliminiert häufig vorkommende und keinen Inhalt tragendeWörter wie “und”, “oder” bzw. “and”, “or”
Beispiel
Apple has a built-in RSS reader. Kinda. While it’snot the dedicated RSS client that I hope they’ll build foriPhone, it helps a news junkie get his fix on a slowEDGE data connection.
Nach Stoppworteliminierung:apple built-in rss reader kinda dedicated rss client I
hope they’ll build iphone helps news junkie get his fixslow edge data connection
Ingo Frommholz Information Retrieval 21/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Stoppworteliminierung
Eliminiert häufig vorkommende und keinen Inhalt tragendeWörter wie “und”, “oder” bzw. “and”, “or”
Beispiel
Apple has a built-in RSS reader. Kinda. While it’snot the dedicated RSS client that I hope they’ll build foriPhone, it helps a news junkie get his fix on a slowEDGE data connection.
Nach Stoppworteliminierung:apple built-in rss reader kinda dedicated rss client I
hope they’ll build iphone helps news junkie get his fixslow edge data connection
Ingo Frommholz Information Retrieval 21/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Stemming
Zurückführung eines Wortes auf den Wortstamm
Dadurch werden mehr potentiell relevante Dokumente gefunden
Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:
computer −→ computcomputers −→ computcomputing −→ comput
→ Suche nach ’computer’ findet auch Texte mit ’computing’
Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build
iphon help new junki get his fix slow edg data connect
Ingo Frommholz Information Retrieval 22/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Stemming
Zurückführung eines Wortes auf den Wortstamm
Dadurch werden mehr potentiell relevante Dokumente gefunden
Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:
computer −→ computcomputers −→ computcomputing −→ comput
→ Suche nach ’computer’ findet auch Texte mit ’computing’
Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build
iphon help new junki get his fix slow edg data connect
Ingo Frommholz Information Retrieval 22/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Stemming
Zurückführung eines Wortes auf den Wortstamm
Dadurch werden mehr potentiell relevante Dokumente gefunden
Stemming-Verfahren für die englische Sprache:Porter-Algorithmus
Beispiel:computer −→ computcomputers −→ computcomputing −→ comput
→ Suche nach ’computer’ findet auch Texte mit ’computing’
Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build
iphon help new junki get his fix slow edg data connect
Ingo Frommholz Information Retrieval 22/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Stemming
Zurückführung eines Wortes auf den Wortstamm
Dadurch werden mehr potentiell relevante Dokumente gefunden
Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:
computer −→ computcomputers −→ computcomputing −→ comput
→ Suche nach ’computer’ findet auch Texte mit ’computing’
Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build
iphon help new junki get his fix slow edg data connect
Ingo Frommholz Information Retrieval 22/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Stemming
Zurückführung eines Wortes auf den Wortstamm
Dadurch werden mehr potentiell relevante Dokumente gefunden
Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:
computer −→ computcomputers −→ computcomputing −→ comput
→ Suche nach ’computer’ findet auch Texte mit ’computing’
Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build
iphon help new junki get his fix slow edg data connect
Ingo Frommholz Information Retrieval 22/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Nachteile des Booleschen Retrievals
– Größe der Antwortmenge schwierig zu kontrollieren
– Keine Ordnung der Antwortmenge
– Keine Gewichtung
– Trennung zu scharf
– Frageformulieung (boolescher Ausdruck) zu umständlich fürgelegentliche Nutzer
– schlechte Retrievalqualität
Ingo Frommholz Information Retrieval 23/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Vektorraummodell
Menge der Terme T = {t1, . . . , tn} spannt n-dimensionalenVektorraum auf.
Beschreibung eines Dokuments als Vektor von Termgewichten
dij ∈ R:~d = (dj1, . . . ,djn)
Vektorielle Beschreibung von Anfragen (mit qi ∈ R):
~q = (q1, . . . ,qn)
Ingo Frommholz Information Retrieval 24/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Vektorraummodell
Menge der Terme T = {t1, . . . , tn} spannt n-dimensionalenVektorraum auf.
Beschreibung eines Dokuments als Vektor von Termgewichten
dij ∈ R:~d = (dj1, . . . ,djn)
Vektorielle Beschreibung von Anfragen (mit qi ∈ R):
~q = (q1, . . . ,qn)
Ingo Frommholz Information Retrieval 24/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Vektorraummodell
Menge der Terme T = {t1, . . . , tn} spannt n-dimensionalenVektorraum auf.
Beschreibung eines Dokuments als Vektor von Termgewichten
dij ∈ R:~d = (dj1, . . . ,djn)
Vektorielle Beschreibung von Anfragen (mit qi ∈ R):
~q = (q1, . . . ,qn)
Ingo Frommholz Information Retrieval 24/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Retrievalfunktion
Berechnung eines Retrieval Status Value (RSV) mittels eines
Vektor-Ähnlichkeitmaßes, z.B. Skalarprodukt:
RSV (dj ,q) = ~dj ·~q =n∑
i=1
dji ·qi
t
t
1
2
q
d
d
1
2
Rangordnung der Dokumente nach absteigendem RSVIngo Frommholz Information Retrieval 25/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Beispiel-Frage
“side effects of drugs on memory and cognitive abilities”
ti qki d1i d2i d3i d4i
side effect 2 1 0.5 1 1drugs 2 1 1 1 1memory 1 1 1cognitive ability 1 1 1 0.5Retrievalgewicht 5 4 6 4.5
Ingo Frommholz Information Retrieval 26/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Coordination Level Match
Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung
Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n
Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n
Retrievalfunktion: Skalarprodukt
RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |
qT : Menge der Terme in qdT
j : Menge der Terme in dj
Ingo Frommholz Information Retrieval 27/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Coordination Level Match
Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung
Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n
Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n
Retrievalfunktion: Skalarprodukt
RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |
qT : Menge der Terme in qdT
j : Menge der Terme in dj
Ingo Frommholz Information Retrieval 27/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Coordination Level Match
Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung
Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n
Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n
Retrievalfunktion: Skalarprodukt
RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |
qT : Menge der Terme in qdT
j : Menge der Terme in dj
Ingo Frommholz Information Retrieval 27/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Coordination Level Match
Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung
Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n
Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n
Retrievalfunktion: Skalarprodukt
RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |
qT : Menge der Terme in qdT
j : Menge der Terme in dj
Ingo Frommholz Information Retrieval 27/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Gewichtungsmethoden
Definition (term frequency)
tf (t,d) :=occ(t,d)
occ(tmax ,d)
Definition (inverse document frequency)
idf (t) := logN
n(t)
N Anzahl der Dokumenten(t) Anzahl der Dokumente, in denen t auftrittocc(t,d) Auftrittshäufigkeit von t in d
Ingo Frommholz Information Retrieval 28/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Gewichtungsmethoden
tf und idf können zur Gewichtung von Dokument- undFragetermen benutzt werden
Beispiel:
dji = tf (ti ,dj)
qi = idf (ti)
Ingo Frommholz Information Retrieval 29/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Speicherung
Invertierte Liste mit Termgewichten
Ingo Frommholz Information Retrieval 30/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Relevance Feedback im Vektorraummodell
Angaben über die Relevanz bzw. Nicht-Relevanz werden zurVerbesserung der Retrievalqualität benutzt
Modifikation des ursprünglichen Fragevektors
Definition (Roccio-Formel)
~q′ =~q + α1|DR|
∑dj∈DR
~dj −β1|DN |
∑dj∈DN
~dj
DR Menge der relevanten DokumenteDN Menge der nicht-relevanten Dokumenteα, β heuristische, nicht-negative Konstanten
Ingo Frommholz Information Retrieval 31/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Relevance Feedback im Vektorraummodell
Angaben über die Relevanz bzw. Nicht-Relevanz werden zurVerbesserung der Retrievalqualität benutzt
Modifikation des ursprünglichen Fragevektors
Definition (Roccio-Formel)
~q′ =~q + α1|DR|
∑dj∈DR
~dj −β1|DN |
∑dj∈DN
~dj
DR Menge der relevanten DokumenteDN Menge der nicht-relevanten Dokumenteα, β heuristische, nicht-negative Konstanten
Ingo Frommholz Information Retrieval 31/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Probabilistische Modelle
Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?
Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”
Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben
wird, unter der Bedingung, dass die Anfrage q und das Dokument
d vorliegen:
P(R|q,d)
Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)
Ingo Frommholz Information Retrieval 32/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Probabilistische Modelle
Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmen
Ereignis R: “Ein Dokument wird als relevant eingeschätzt”
Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben
wird, unter der Bedingung, dass die Anfrage q und das Dokument
d vorliegen:
P(R|q,d)
Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)
Ingo Frommholz Information Retrieval 32/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Probabilistische Modelle
Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”
Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben
wird, unter der Bedingung, dass die Anfrage q und das Dokument
d vorliegen:
P(R|q,d)
Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)
Ingo Frommholz Information Retrieval 32/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Probabilistische Modelle
Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”
Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben
wird, unter der Bedingung, dass die Anfrage q und das Dokument
d vorliegen:
P(R|q,d)
Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)
Ingo Frommholz Information Retrieval 32/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Probabilistische Modelle
Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”
Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben
wird, unter der Bedingung, dass die Anfrage q und das Dokument
d vorliegen:
P(R|q,d)
Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)
Ingo Frommholz Information Retrieval 32/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Probabilistische Modelle
Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”
Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben
wird, unter der Bedingung, dass die Anfrage q und das Dokument
d vorliegen:
P(R|q,d)
Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)
Ingo Frommholz Information Retrieval 32/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Probability Ranking Principle
Theoretische Rechtfertigung der probabilistischen Modelle
Ranking anhand der erwarteten Kosten EC(d ,q):
EC(d ,q) = C ·P(R|q,d) + C̄ · (1−P (R|q,d))
C Kosten für das Retrieval eines relevanten DokumentsC̄ Kosten für das Retrieval eines nicht-relevanten Dokuments
Annahme: C̄ > C
⇒ Ranking nach absteigender Wahrscheinlichkeit P(R|q,d)
Ingo Frommholz Information Retrieval 33/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Probability Ranking Principle
Theoretische Rechtfertigung der probabilistischen Modelle
Ranking anhand der erwarteten Kosten EC(d ,q):
EC(d ,q) = C ·P(R|q,d) + C̄ · (1−P (R|q,d))
C Kosten für das Retrieval eines relevanten DokumentsC̄ Kosten für das Retrieval eines nicht-relevanten Dokuments
Annahme: C̄ > C
⇒ Ranking nach absteigender Wahrscheinlichkeit P(R|q,d)
Ingo Frommholz Information Retrieval 33/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Retrieval als Inferenz
Information Retrieval als eine Form des logischen Schließensoder Inferenz
Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt
Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann
Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden
Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten
Ingo Frommholz Information Retrieval 34/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Retrieval als Inferenz
Information Retrieval als eine Form des logischen Schließensoder Inferenz
Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt
Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann
Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden
Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten
Ingo Frommholz Information Retrieval 34/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Retrieval als Inferenz
Information Retrieval als eine Form des logischen Schließensoder Inferenz
Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt
Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann
Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden
Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten
Ingo Frommholz Information Retrieval 34/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Retrieval als Inferenz
Information Retrieval als eine Form des logischen Schließensoder Inferenz
Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt
Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann
Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden
Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten
Ingo Frommholz Information Retrieval 34/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Retrieval als Inferenz
Information Retrieval als eine Form des logischen Schließensoder Inferenz
Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt
Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann
Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden
Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten
Ingo Frommholz Information Retrieval 34/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Retrieval als probabilistische Inferenz
Berechnung der Wahrscheinlichkeit, dass ein Dokument d eine
Anfrage q impliziert (van Rijsbergen):
P(d → q)
Implikationswahrscheinlichkeit als bedingte Wahrscheinlichkeit:
P(d → q) := P(q|d) =P(d ∩q)
P(d)
=
∑t P(d ∩q∩ t)
P(d)=
∑t P(d ∩q|t)
P(d)
Annahme: P(t) als (gleichwahrscheinliche) Elementarereignisse
Ingo Frommholz Information Retrieval 35/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Retrieval als probabilistische Inferenz
Berechnung der Wahrscheinlichkeit, dass ein Dokument d eine
Anfrage q impliziert (van Rijsbergen):
P(d → q)
Implikationswahrscheinlichkeit als bedingte Wahrscheinlichkeit:
P(d → q) := P(q|d) =P(d ∩q)
P(d)
=
∑t P(d ∩q∩ t)
P(d)=
∑t P(d ∩q|t)
P(d)
Annahme: P(t) als (gleichwahrscheinliche) Elementarereignisse
Ingo Frommholz Information Retrieval 35/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Beispiel
P(d → q1) = P(q1|d)
=P(d ∩q1)
P(d)
=2/83/8
=23
P(d → q2) = P(q2|d)
=P(d ∩q2)
P(d)
=1/83/8
=13
Ingo Frommholz Information Retrieval 36/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Prädikatenlogische Modelle
Bisherige Modelle basieren auf AussagenlogikFür anspruchsvollere Retrievalapplikationen, z.B.Multimedia-Retrieval, reichen diese Modelle nicht aus
Beispiel:Aussagenlogik: Torwart und Anzeigetafelanzeigentafel, torwartPrädikatenlogik: Torwart unter Anzeigetafelanzeigentafel(a). torwart(t).below(t,a)Suchanfrage nach Torhütern unterAnzeigetafeln:?- torwart(T) & anzeigentafel(A) &
below(T,A)
Ingo Frommholz Information Retrieval 37/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Prädikatenlogische Modelle
Bisherige Modelle basieren auf AussagenlogikFür anspruchsvollere Retrievalapplikationen, z.B.Multimedia-Retrieval, reichen diese Modelle nicht aus
Beispiel:Aussagenlogik: Torwart und Anzeigetafelanzeigentafel, torwartPrädikatenlogik: Torwart unter Anzeigetafelanzeigentafel(a). torwart(t).below(t,a)Suchanfrage nach Torhütern unterAnzeigetafeln:?- torwart(T) & anzeigentafel(A) &
below(T,A)
Ingo Frommholz Information Retrieval 37/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Probabilistisches Datalog
Prolog-ähnlich, basiert auf Horn-Klauseln
Unsichere Inferenz
Regelbasierter Ansatz
Probabilistische Gewichtung von Fakten
Berechnung nach probabilistischen Regeln
Ingo Frommholz Information Retrieval 38/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Probabilistisches Datalog: Beispiel
0.7 indterm(d1,ir). 0.8 indterm(d1,db).
# db AND irq_and(D) :- indterm(D,db) & indterm(D,ir).
# db OR irq_or(D) :- indterm(D,ir).q_or(D) :- indterm(D,db).
?- q_and(D). ?- q_or(D).0.56 d1 0.94 d1(0.7 * 0.8) (0.7 + 0.8) - (0.7 * 0.8)
Ingo Frommholz Information Retrieval 39/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Datalog-Beispiel: Retrieval in Hypertexten
0.7 indterm(d1,ir). 0.8 indterm(d1,db).0.5 link(d2,d1). 0.4 link(d3,d2).about(D,T) :- indterm(D,T).about(D,T) :- link(D,D1) & about(D1,T).
?- about(D,db)0.8 d10.4 d2 (0.5 * 0.8)0.16 d3 (0.4 * 0.5 * 0.8)
Ingo Frommholz Information Retrieval 40/70
EinführungRetrievalmodelle
Web IR
Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle
Datalog-Beispiel: Retrieval mit Wissensstrukturen
Query nach “Exportproblem derAutomobilindustrie in Ostasien”
indterm(d1, "vw"). indterm(d1, "exportproblem"). indterm(d1, "thailand").
0.8 is_part_of("ostasien", "thailand").instance_of("automobilindustrie", "vw").instance_of("automobilindustrie", "ford").about(D,C) :- indterm(D,C).about(D,C) :- is_part_of(C,C1) & about(D,C1).about(D,C) :- instance_of(C,C1) & about(D,C1).
?- about(D, "automobilindustrie") & about(D, "ostasien") &about(D, "exportproblem").
0.8 d1
⇒ findet auch Dokumente über “Thailand”, “Ford” oder “VW”!Ingo Frommholz Information Retrieval 41/70
Web Information Retrieval
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Das World Wide Web
Technische Definition:“Alle Ressourcen und Benutzer im Internet, die das
Hypertext Transfer Protokoll (HTTP) benutzen”
Allgemeinere Definition (Tim Berners-Lee):
“The World Wide Web is the universe ofnetwork-accessible information, an embodiment of humanknowledge”
Ingo Frommholz Information Retrieval 43/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Informationssuche im Web
Navigationsmethoden (nach Traugott Koch):
Surfen Unsystematisches Verfolgen von LinksBrowsing Systematischer Seitenzugriff mittels vorstrukturierter
InformationsübersichtenSuchen Datenbankgestützter direkter Zugriff auf
Einzeldokumente über komplexe Suchbedingungen
Probleme:Exponentielles InformationswachstumFehlende Beständigkeit der Dokumente (404)Heterogene DokumenttypenQualität der DokumenteMultilingualität
Ingo Frommholz Information Retrieval 44/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Informationssuche im Web
Navigationsmethoden (nach Traugott Koch):
Surfen Unsystematisches Verfolgen von LinksBrowsing Systematischer Seitenzugriff mittels vorstrukturierter
InformationsübersichtenSuchen Datenbankgestützter direkter Zugriff auf
Einzeldokumente über komplexe SuchbedingungenProbleme:
Exponentielles InformationswachstumFehlende Beständigkeit der Dokumente (404)Heterogene DokumenttypenQualität der DokumenteMultilingualität
Ingo Frommholz Information Retrieval 44/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Browsen in Katalogen
Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter Kategorien
Kataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:
Ingo Frommholz Information Retrieval 45/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Browsen in Katalogen
Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema an
Jedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:
Ingo Frommholz Information Retrieval 45/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Browsen in Katalogen
Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)
Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:
Ingo Frommholz Information Retrieval 45/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Browsen in Katalogen
Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema ist
Hierarchisches Kategorienschema:
Ingo Frommholz Information Retrieval 45/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Browsen in Katalogen
Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:
Ingo Frommholz Information Retrieval 45/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Beispiel: Yahoo!
Ingo Frommholz Information Retrieval 46/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Vor- und Nachteile von Browsing
+ Einschränkung des Suchraums, daher höhere Präzision
+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):
Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.
+ Finden weiterer relevanter Dokumente durch “rumstöbern”
+ Benutzer muss keine Suchanfrage formulieren
– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)
Ingo Frommholz Information Retrieval 47/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Vor- und Nachteile von Browsing
+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):
Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.
+ Finden weiterer relevanter Dokumente durch “rumstöbern”
+ Benutzer muss keine Suchanfrage formulieren
– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)
Ingo Frommholz Information Retrieval 47/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Vor- und Nachteile von Browsing
+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):
Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.
Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.
+ Finden weiterer relevanter Dokumente durch “rumstöbern”
+ Benutzer muss keine Suchanfrage formulieren
– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)
Ingo Frommholz Information Retrieval 47/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Vor- und Nachteile von Browsing
+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):
Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.
+ Finden weiterer relevanter Dokumente durch “rumstöbern”
+ Benutzer muss keine Suchanfrage formulieren
– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)
Ingo Frommholz Information Retrieval 47/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Vor- und Nachteile von Browsing
+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):
Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.
+ Finden weiterer relevanter Dokumente durch “rumstöbern”
+ Benutzer muss keine Suchanfrage formulieren
– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)
Ingo Frommholz Information Retrieval 47/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Vor- und Nachteile von Browsing
+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):
Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.
+ Finden weiterer relevanter Dokumente durch “rumstöbern”
+ Benutzer muss keine Suchanfrage formulieren
– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)
Ingo Frommholz Information Retrieval 47/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Vor- und Nachteile von Browsing
+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):
Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.
+ Finden weiterer relevanter Dokumente durch “rumstöbern”
+ Benutzer muss keine Suchanfrage formulieren
– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)
Ingo Frommholz Information Retrieval 47/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Suche auf dem Web
Fülle der Dokumente im Web kann ohne geeigneteSuchmaschinen nicht erschlossen werden
“Das Web ist ein Dschungel”
Zusammenspiel mit Browsing möglich
Standard IR-Methoden plus Ausnutzen der Linkstruktur
Ingo Frommholz Information Retrieval 48/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Basiskomponenten einer Suchmaschine
Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen
Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente
Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)
Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem
Basiskomponenten sind prinzipiell von einfacher Struktur
Riesige Datenmengen und sehr hohe Zugriffsraten
Ingo Frommholz Information Retrieval 49/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Basiskomponenten einer Suchmaschine
Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen
Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente
Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)
Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem
Basiskomponenten sind prinzipiell von einfacher Struktur
Riesige Datenmengen und sehr hohe Zugriffsraten
Ingo Frommholz Information Retrieval 49/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Basiskomponenten einer Suchmaschine
Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen
Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente
Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)
Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem
Basiskomponenten sind prinzipiell von einfacher Struktur
Riesige Datenmengen und sehr hohe Zugriffsraten
Ingo Frommholz Information Retrieval 49/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Basiskomponenten einer Suchmaschine
Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen
Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente
Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)
Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem
Basiskomponenten sind prinzipiell von einfacher Struktur
Riesige Datenmengen und sehr hohe Zugriffsraten
Ingo Frommholz Information Retrieval 49/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Basiskomponenten einer Suchmaschine
Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen
Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente
Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)
Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem
Basiskomponenten sind prinzipiell von einfacher Struktur
Riesige Datenmengen und sehr hohe Zugriffsraten
Ingo Frommholz Information Retrieval 49/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Basiskomponenten einer Suchmaschine
Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen
Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente
Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)
Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem
Basiskomponenten sind prinzipiell von einfacher Struktur
Riesige Datenmengen und sehr hohe Zugriffsraten
Ingo Frommholz Information Retrieval 49/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Beispiel: Google
Ingo Frommholz Information Retrieval 50/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Google-Architektur
Quelle: Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine
Ingo Frommholz Information Retrieval 51/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Google-Architektur: Komponenten
URL Server Sammelt Liste vonabzurufenden URLs aus demDokumentindex, schickt diese an denCrawler
Crawler Sammelt/liest Webseiten
Store Server Komprimiert Webseiten,speichert diese im Repository,vergibt Dokument-ID
Ingo Frommholz Information Retrieval 52/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Google-Architektur: Komponenten
Indexer Liest Repository,dekomprimiert und parst DatenKonvertiert jedes Dokument ineine Menge vonWortvorkommen (Hits)Hits enthalten das Wort, diePosition im Dokument,Fontgröße und Groß- undKleinschreibung.Hits werden in Barrelseinsortiert (nach Dokument-IDs)
Ingo Frommholz Information Retrieval 52/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Google-Architektur: Komponenten
Indexer (Forts.) Parst alle Links imDokument und speichert wichtigeInformation (Quelle, Ziel und Text)über diese in der Anchors-Datei
URL Resolver Liest Anchors-Dateien,wandelt relative in absolute URLsund Document-IDs um, generiertLink-Datenbank
Ingo Frommholz Information Retrieval 52/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Google-Architektur: Komponenten
Sorter Generiert invertierte Listen ausden Barrels und füllt das Lexikon
Page Rank Generiert den Page Rankaus der Link-Struktur
Searcher Eigentliche Suchkomponente,benutzt Page Rank, invertierte Listenund Lexikon zur BBeantwortungvonAnfragen
Ingo Frommholz Information Retrieval 52/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Web Information Retrieval
Suchmaschinen setzen bekannte IR-Verfahren ein
Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)
Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur
Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind
Ingo Frommholz Information Retrieval 53/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Web Information Retrieval
Suchmaschinen setzen bekannte IR-Verfahren ein
Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)
Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur
Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind
Ingo Frommholz Information Retrieval 53/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Web Information Retrieval
Suchmaschinen setzen bekannte IR-Verfahren ein
Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)
Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur
Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind
Ingo Frommholz Information Retrieval 53/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Web Information Retrieval
Suchmaschinen setzen bekannte IR-Verfahren ein
Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)
Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur
Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind
Ingo Frommholz Information Retrieval 53/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Das Web als Hypertext
Definition (Hypertext)
Ein Hypertext ist eine Ansammlung von Knoten und (gerichteten)Kanten (Links) zwischen diesen und bildet einen Graph. Auch dasWeb ist ein Hypertext (zyklischer Graph).
Ingo Frommholz Information Retrieval 54/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Hypertext und Web Information Retrieval
Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval
In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):
Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)
Ingo Frommholz Information Retrieval 55/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Hypertext und Web Information Retrieval
Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval
In diesem Sinne ist Web IR ein Spezialfall von Hypertext IR
Möglichkeiten (u.A.):
Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)
Ingo Frommholz Information Retrieval 55/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Hypertext und Web Information Retrieval
Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval
In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):
Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)
Ingo Frommholz Information Retrieval 55/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Hypertext und Web Information Retrieval
Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval
In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):
Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)
Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)
Ingo Frommholz Information Retrieval 55/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Hypertext und Web Information Retrieval
Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval
In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):
Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)
Ingo Frommholz Information Retrieval 55/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Spreading Activation-Algorithmus von Frei und Stieger
Numerischer Spreading Activation Ansatz aus dem Hypertext IR
Linkstruktur und RSV der einzelnen Knoten bzgl. der Anfragewerden zum Anpassen des RSV des Ausgangsknoten benutzt
Ingo Frommholz Information Retrieval 56/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Beispiel: Constrained Spreading Activation
1 Initialisierung: Berechnung von RSV q,n0 für Knoten n bzgl.
Anfrage q
2 Navigation, Entscheidungsphase: Selektiere Knoten (z.B. aufGrund des Linktyps)
3 Navigationsphase: Berechne
RSV q,nd+1 := RSV q,n
d + wd ·1
|Nnd+1|·
∑n′∈Nn
d+1
RSV q,n′
0
mitwd : Propagierungsfaktor für Distanz dNn
d : Menge der Nachfolgeknoten von n mit Distanz dRSV q,n
d : RSV von Knoten n zur Anfrage q in Iteration d
Ingo Frommholz Information Retrieval 57/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Beispiel: Constrained Spreading Activation
1 Initialisierung: Berechnung von RSV q,n0 für Knoten n bzgl.
Anfrage q2 Navigation, Entscheidungsphase: Selektiere Knoten (z.B. auf
Grund des Linktyps)
3 Navigationsphase: Berechne
RSV q,nd+1 := RSV q,n
d + wd ·1
|Nnd+1|·
∑n′∈Nn
d+1
RSV q,n′
0
mitwd : Propagierungsfaktor für Distanz dNn
d : Menge der Nachfolgeknoten von n mit Distanz dRSV q,n
d : RSV von Knoten n zur Anfrage q in Iteration d
Ingo Frommholz Information Retrieval 57/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Beispiel: Constrained Spreading Activation
1 Initialisierung: Berechnung von RSV q,n0 für Knoten n bzgl.
Anfrage q2 Navigation, Entscheidungsphase: Selektiere Knoten (z.B. auf
Grund des Linktyps)3 Navigationsphase: Berechne
RSV q,nd+1 := RSV q,n
d + wd ·1
|Nnd+1|·
∑n′∈Nn
d+1
RSV q,n′
0
mitwd : Propagierungsfaktor für Distanz dNn
d : Menge der Nachfolgeknoten von n mit Distanz dRSV q,n
d : RSV von Knoten n zur Anfrage q in Iteration d
Ingo Frommholz Information Retrieval 57/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Spreading Activation – Beispiel
Ingo Frommholz Information Retrieval 58/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Spreading Activation – Beispiel
Ingo Frommholz Information Retrieval 58/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Spreading Activation – Beispiel
Ingo Frommholz Information Retrieval 58/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Spreading Activation – Beispiel
Ingo Frommholz Information Retrieval 58/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Spreading Activation – Beispiel
Ingo Frommholz Information Retrieval 58/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Spreading Activation – Beurteilung
+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue
+ Kann mit verschiedenen Linktypen umgehen
+ Auch negative Links möglich (dann negativer Propagation Faktor)
– Realzeitberechnung kritisch
→ Anwendbarkeit auf das Web?
Ingo Frommholz Information Retrieval 59/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Spreading Activation – Beurteilung
+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue
+ Kann mit verschiedenen Linktypen umgehen
+ Auch negative Links möglich (dann negativer Propagation Faktor)
– Realzeitberechnung kritisch
→ Anwendbarkeit auf das Web?
Ingo Frommholz Information Retrieval 59/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Spreading Activation – Beurteilung
+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue
+ Kann mit verschiedenen Linktypen umgehen
+ Auch negative Links möglich (dann negativer Propagation Faktor)
– Realzeitberechnung kritisch
→ Anwendbarkeit auf das Web?
Ingo Frommholz Information Retrieval 59/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Spreading Activation – Beurteilung
+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue
+ Kann mit verschiedenen Linktypen umgehen
+ Auch negative Links möglich (dann negativer Propagation Faktor)
– Realzeitberechnung kritisch
→ Anwendbarkeit auf das Web?
Ingo Frommholz Information Retrieval 59/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Spreading Activation – Beurteilung
+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue
+ Kann mit verschiedenen Linktypen umgehen
+ Auch negative Links möglich (dann negativer Propagation Faktor)
– Realzeitberechnung kritisch
→ Anwendbarkeit auf das Web?
Ingo Frommholz Information Retrieval 59/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Page Rank
Berühmt geworden durch Google (Brin/Page, 1998)
Ermitteln der Autorität (Authority) eines Dokuments
Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren
Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank
Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten
Ingo Frommholz Information Retrieval 60/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Page Rank
Berühmt geworden durch Google (Brin/Page, 1998)
Ermitteln der Autorität (Authority) eines Dokuments
Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren
Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank
Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten
Ingo Frommholz Information Retrieval 60/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Page Rank
Berühmt geworden durch Google (Brin/Page, 1998)
Ermitteln der Autorität (Authority) eines Dokuments
Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren
Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank
Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten
Ingo Frommholz Information Retrieval 60/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Page Rank
Berühmt geworden durch Google (Brin/Page, 1998)
Ermitteln der Autorität (Authority) eines Dokuments
Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren
Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank
Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten
Ingo Frommholz Information Retrieval 60/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Page Rank
Berühmt geworden durch Google (Brin/Page, 1998)
Ermitteln der Autorität (Authority) eines Dokuments
Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren
Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank
Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten
Ingo Frommholz Information Retrieval 60/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Random-Surfer-Modell
Random-Surfer-Modell: Page Rank wird zu gleichen Teilen an alleNachfolger propagiert
Ingo Frommholz Information Retrieval 61/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Berechnung des Page Rank
Iterative Berechnung des Page Rank PR(p) für eine Seite p:
PR(p) = (1−β) · 1N
+ β ·∑q→p
PR(q)
out(q)
mitN: Anzahl Knotenβ: Konstante zwischen 0 und 1
out(q): Anzahl ausgehender Links aus qq→ p: Es existiert ein Link von q nach p
In der Regel hat man nach 100 Iterationen Konvergenz(Henzinger, 2000)
Initial erhält jede Seite den Page Rank 1
Ingo Frommholz Information Retrieval 62/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Interpretation des Page Rank
Benutzer springt mit der Wahrscheinlichkeit (1−β) auf einebeliebige Webseite (von der jede wiederum dieWahrscheinlichkeit 1/N hat)
und mit der Wahrscheinlichkeit β auf eine Nachfolgeseite q von p
Die Wahrscheinlichkeit, dass man die Seite p anwählt, ist alsogegeben durch die Wahrscheinlichkeit eines zufälligen Sprungsauf p plus der Wahrscheinlichkeit, dass man von einerVorgängerseite q auf p springt
Ingo Frommholz Information Retrieval 63/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Page Rank – Beurteilung
+ Offline-Berechnung unabhängig von der Anfrage möglich
+ Page Rank bevorzugt populäre Seiten
+ Gute Ergebnisse für die Suche nach Home Pages
+- Page Rank bevorzugt Einstiegsseiten von Web Sites
– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse
– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)
Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen
Ingo Frommholz Information Retrieval 64/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Page Rank – Beurteilung
+ Offline-Berechnung unabhängig von der Anfrage möglich
+ Page Rank bevorzugt populäre Seiten
+ Gute Ergebnisse für die Suche nach Home Pages
+- Page Rank bevorzugt Einstiegsseiten von Web Sites
– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse
– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)
Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen
Ingo Frommholz Information Retrieval 64/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Page Rank – Beurteilung
+ Offline-Berechnung unabhängig von der Anfrage möglich
+ Page Rank bevorzugt populäre Seiten
+ Gute Ergebnisse für die Suche nach Home Pages
+- Page Rank bevorzugt Einstiegsseiten von Web Sites
– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse
– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)
Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen
Ingo Frommholz Information Retrieval 64/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Page Rank – Beurteilung
+ Offline-Berechnung unabhängig von der Anfrage möglich
+ Page Rank bevorzugt populäre Seiten
+ Gute Ergebnisse für die Suche nach Home Pages
+- Page Rank bevorzugt Einstiegsseiten von Web Sites
– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse
– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)
Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen
Ingo Frommholz Information Retrieval 64/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Page Rank – Beurteilung
+ Offline-Berechnung unabhängig von der Anfrage möglich
+ Page Rank bevorzugt populäre Seiten
+ Gute Ergebnisse für die Suche nach Home Pages
+- Page Rank bevorzugt Einstiegsseiten von Web Sites
– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse
– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)
Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen
Ingo Frommholz Information Retrieval 64/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Page Rank – Beurteilung
+ Offline-Berechnung unabhängig von der Anfrage möglich
+ Page Rank bevorzugt populäre Seiten
+ Gute Ergebnisse für die Suche nach Home Pages
+- Page Rank bevorzugt Einstiegsseiten von Web Sites
– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse
– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)
Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen
Ingo Frommholz Information Retrieval 64/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Kleinbergs HITS-Algorithmus
Ermitteln von Hubs und Authorities zu einem Thema
Hub: Verweist zu guten Authorities
Authority: Hat viele eingehende Links von guten Hubs
Ingo Frommholz Information Retrieval 65/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
HITS: Zweistufiger Algorithmus
1 Berechnung des RSV zur Anfrage für alle Webseiten. Auswahldes Subnetzes der relevanten Dokumente (NeighbourhoodGraph)
2 Berechnung eines Hub- und Authority-Werts für jede Webseite imgewählten Subnetz
Ingo Frommholz Information Retrieval 66/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Berechnung des Hub- und Authority-Werts
Iterative Berechnung des Hub- und Authority-Werts
ap =∑q→p
hq
hq =∑q→p
ap
mit
ap: Authority-Gewicht für Knoten phq : Hub-Gewicht für Knoten p
und Normalisierungsbedingung∑p
(ap)2 = 1 und∑
p
(hp)2 = 1
Ingo Frommholz Information Retrieval 67/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Skizze des Algorithmus für Hubs und Authorities
1 Starte mit Hub- und Authority-Gewicht 1 für jeden Knoten
2 Berechne neuen Hub- und Authority-Gewichte für jeden Knoten3 Normalisiere neue Werte hinsichtlich Normaliserungsbedingung4 Gehe zu 2, wenn Konvergenzkriterium nicht erfüllt
Ingo Frommholz Information Retrieval 68/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
HITS-Beispiel
Start
Ingo Frommholz Information Retrieval 69/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
HITS-Beispiel
1. Iteration
Ingo Frommholz Information Retrieval 69/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
HITS-Beispiel
Normalisierung
Ingo Frommholz Information Retrieval 69/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
HITS-Beispiel
2. Iteration
Ingo Frommholz Information Retrieval 69/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
HITS-Beispiel
Normalisierung
Ingo Frommholz Information Retrieval 69/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Beurteilung des HITS-Algorithmus
+ Berechnung von getrennten Werten für Hubs und Authoritiesermöglicht komplexere Suchstrategien
Authority-Gewichte sind in etwa vergleichbar mit dem Page Rankund bezeichnen “wichtige” Dokumente→ Suche nach wichtigenDokumentenHubs stellen durch ihre Verlinkung zu Authorities einen gutenÜberblick dar→ Suche nach guten Übersichtsseiten
+ Hub- und Authority-Werte sind auf die Anfrage abgestimmt
– Berechnung zum Anfragezeitpunkt, daher längere Antwortzeiten
Ingo Frommholz Information Retrieval 70/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Beurteilung des HITS-Algorithmus
+ Berechnung von getrennten Werten für Hubs und Authoritiesermöglicht komplexere Suchstrategien
Authority-Gewichte sind in etwa vergleichbar mit dem Page Rankund bezeichnen “wichtige” Dokumente→ Suche nach wichtigenDokumentenHubs stellen durch ihre Verlinkung zu Authorities einen gutenÜberblick dar→ Suche nach guten Übersichtsseiten
+ Hub- und Authority-Werte sind auf die Anfrage abgestimmt
– Berechnung zum Anfragezeitpunkt, daher längere Antwortzeiten
Ingo Frommholz Information Retrieval 70/70
EinführungRetrievalmodelle
Web IR
Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR
Beurteilung des HITS-Algorithmus
+ Berechnung von getrennten Werten für Hubs und Authoritiesermöglicht komplexere Suchstrategien
Authority-Gewichte sind in etwa vergleichbar mit dem Page Rankund bezeichnen “wichtige” Dokumente→ Suche nach wichtigenDokumentenHubs stellen durch ihre Verlinkung zu Authorities einen gutenÜberblick dar→ Suche nach guten Übersichtsseiten
+ Hub- und Authority-Werte sind auf die Anfrage abgestimmt
– Berechnung zum Anfragezeitpunkt, daher längere Antwortzeiten
Ingo Frommholz Information Retrieval 70/70