Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz...

Information RetrievalEin Überblick

Ingo Frommholz

Universität Duisburg-Essen

Vorlesung "Information Engineering"SS 2007

UNIVERSITÄT

D U I S B U R GE S S E N

EinführungRetrievalmodelle

Web IR

Inhaltsverzeichnis

1 Einführung

2 Retrievalmodelle

3 Web Information Retrieval

Ingo Frommholz Information Retrieval 2/70

Einführung

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Web IR

Anwendungsgebiet

Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken

Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)

Suche in wissensintensiven Aufgaben

Unterstützung des Information Seeking & SearchingSuche in

Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken

Web IR

Anwendungsgebiet

Web IR

Anwendungsgebiet

Web IR

Anwendungsgebiet

Unterstützung des Information Seeking & Searching

Suche inTexten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken

Web IR

Anwendungsgebiet

Web IR

Unterschiede zur Datenbanksuche

Formulierung des Informationsbedürfnisses als passendeAnfrage problematisch

Anfrage liefert sehr viele Treffer (siehe Google) , aber nur wenigesind interessant

Unsicherheit und Vagheit

Web IR

Abstraktionsstufen für die Suche

Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur

Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.

Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)

Nutzer: Suche auf der pragmatischen Ebene

Gängige Retrievalverfahren: syntaktische und semantischeEbene

Web IR

Grundmodell

Wissensstrukturen

internen

TransformationenWissensrepräsentation

Verfahren der

Retrieval

Informationen beim

Analyse von

Information Retrieval

anhand von

liefert

gespeichert in

beruht auf

Web IR

Beispiel: Dokumentretrieval

liefertberuht auf

DBMS ?

Literatur gibt es deutschsprachigeWelche einführendeBeispiel:

(Dateien)Datenbankstrukturen

Boole’sche RetrievalRetrievaloperationen, wie z.B.

ReferierenIndexieren, Klassifizieren,

bibliographische ReferenzenDokumente bzw.

tarischen BezugseinheitenAnalyse von dokumen−

Document−Retrieval

gespeichert in auf

anhand vondurch

techn. Aspekten vonzu implementirungs−

Web IR

Beispiel: Faktenretrieval

liefertberuht auf

gespeichert in auf

anhand vondurch

semantische Modellierungeines Weltausschnittes

Zuweisung von Attributenzu gegebenen Einheiten

Fakten einesWeltauschnittes

Kombination elementarerOperationen

im Umfang von mindes−tens einer halben Seitegeschaltet?

eine Anzeige imim letzten JahrWelche Firmen habenBeispiel:

Faktenretrieval

Datenbankstrukturen

Web IR

Beispielsuche im INSPEC-System

INSPEC: INformation System for Physics, Electronics andComputingEnthält Dokumente, die Artikel oder Bücher beschreiben durch

bibliographische AngabenKurzzusammenfassung (Abstract oder Referat)Einordnung in hierarchisches IndexsystemStichwörter

Boolesches Retrievalsystem: liefert die Dokumente, die dieSuchbegriffe in der angegebenen Form enthalten

Web IR

INSPEC-Dokument

Web IR

INSPEC-Dokument

Web IR

Beispielsuche

Literatur zum Stand der Forschung im Bereich

“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”

Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)

Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES

Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.

Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”

Web IR

Beispielsuche

Web IR

Beispielsuche

Web IR

Beispielsuche

Web IR

Beispielsuche

Web IR

Ergebnisse verschiedener Suchanfragen

Retrievalmodelle

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Web IR

Boolesches Retrieval

Historisch erstes Retrievalmodell

Ungewichtete Indexierung (nur Vorkommen eines Terms)

Liefert Zweiteilung in “gefundene” und “nicht gefundene”Dokumente

Web IR

Attribute und Anfragen

Definition (Attribut)

Ein Attribut ist eine Abbildung t : D→ T , die einem Dokument d ∈ Deinen Attributwert ti ∈ T zuweist.

Definition (Anfrage)

Paar, das aus einem Attribut und einem dazugehörigen Attributwert(Attribut-Wert-Paar) besteht. Attribut-Wert-Paare können durch dieOperatoren AND, OR und NOT verknüpft werden.

Web IR

Attribute und Anfragen

Definition (Attribut)

Ein Attribut ist eine Abbildung t : D→ T , die einem Dokument d ∈ Deinen Attributwert ti ∈ T zuweist.

Definition (Anfrage)

Paar, das aus einem Attribut und einem dazugehörigen Attributwert(Attribut-Wert-Paar) besteht. Attribut-Wert-Paare können durch dieOperatoren AND, OR und NOT verknüpft werden.

Web IR

Boolesche Operationen

Sei t(d) = ti ein Attribut.

Menge der Dokumente, bei denen das Attribut t den Wert tiannimmt:

Dt,ti = t−1(ti) = {d ∈ D|t(d) = ti}

Diese Menge wird auf eine Anfrage, die nur aus demAttribut-Wert-Paar (t, ti) besteht, zurück geliefert

Boolesche Operationen

(t, t1) AND (s,s1) Durchschnitt Dt,t1 ∩Ds,s1

(t, t1) OR (s,s1) Vereinigung Dt,t1 ∪Ds,s1

NOT (t, t1) Komplement D \Dt,t1

Web IR

Boolesches Retrieval in Textdokumenten

Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch

Leerzeichen,Interpunktionszeichen undandere Sonderzeichen

begrenzt sind

Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente

Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente

DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,

bei denen t1 im Titel vorkommt

Web IR

begrenzt sind

Web IR

begrenzt sind

Web IR

begrenzt sind

Web IR

Invertierte Listen

Web IR

Boolesches Retrieval mit invertierten Listen

Web IR

Boolesches Retrieval mit invertierten Listen

Web IR

Stoppworteliminierung

Eliminiert häufig vorkommende und keinen Inhalt tragendeWörter wie “und”, “oder” bzw. “and”, “or”

Beispiel

Apple has a built-in RSS reader. Kinda. While it’snot the dedicated RSS client that I hope they’ll build foriPhone, it helps a news junkie get his fix on a slowEDGE data connection.

Nach Stoppworteliminierung:apple built-in rss reader kinda dedicated rss client I

hope they’ll build iphone helps news junkie get his fixslow edge data connection

Web IR

Beispiel

Web IR

Beispiel

Web IR

Stemming

Zurückführung eines Wortes auf den Wortstamm

Dadurch werden mehr potentiell relevante Dokumente gefunden

Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:

computer −→ computcomputers −→ computcomputing −→ comput

→ Suche nach ’computer’ findet auch Texte mit ’computing’

Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build

iphon help new junki get his fix slow edg data connect

Web IR

Stemming

Web IR

Stemming

Stemming-Verfahren für die englische Sprache:Porter-Algorithmus

Beispiel:computer −→ computcomputers −→ computcomputing −→ comput

Web IR

Stemming

Web IR

Stemming

Web IR

Nachteile des Booleschen Retrievals

– Größe der Antwortmenge schwierig zu kontrollieren

– Keine Ordnung der Antwortmenge

– Keine Gewichtung

– Trennung zu scharf

– Frageformulieung (boolescher Ausdruck) zu umständlich fürgelegentliche Nutzer

– schlechte Retrievalqualität

Web IR

Vektorraummodell

Menge der Terme T = {t1, . . . , tn} spannt n-dimensionalenVektorraum auf.

Beschreibung eines Dokuments als Vektor von Termgewichten

dij ∈ R:~d = (dj1, . . . ,djn)

Vektorielle Beschreibung von Anfragen (mit qi ∈ R):

~q = (q1, . . . ,qn)

Web IR

Vektorraummodell

dij ∈ R:~d = (dj1, . . . ,djn)

~q = (q1, . . . ,qn)

Web IR

Vektorraummodell

dij ∈ R:~d = (dj1, . . . ,djn)

~q = (q1, . . . ,qn)

Web IR

Retrievalfunktion

Berechnung eines Retrieval Status Value (RSV) mittels eines

Vektor-Ähnlichkeitmaßes, z.B. Skalarprodukt:

RSV (dj ,q) = ~dj ·~q =n∑

dji ·qi

Rangordnung der Dokumente nach absteigendem RSVIngo Frommholz Information Retrieval 25/70

Web IR

Beispiel-Frage

“side effects of drugs on memory and cognitive abilities”

ti qki d1i d2i d3i d4i

side effect 2 1 0.5 1 1drugs 2 1 1 1 1memory 1 1 1cognitive ability 1 1 1 0.5Retrievalgewicht 5 4 6 4.5

Web IR

Coordination Level Match

Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung

Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n

Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n

Retrievalfunktion: Skalarprodukt

RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |

qT : Menge der Terme in qdT

j : Menge der Terme in dj

Web IR

Gewichtungsmethoden

Definition (term frequency)

tf (t,d) :=occ(t,d)

occ(tmax ,d)

Definition (inverse document frequency)

idf (t) := logN

N Anzahl der Dokumenten(t) Anzahl der Dokumente, in denen t auftrittocc(t,d) Auftrittshäufigkeit von t in d

Web IR

Gewichtungsmethoden

tf und idf können zur Gewichtung von Dokument- undFragetermen benutzt werden

Beispiel:

dji = tf (ti ,dj)

qi = idf (ti)

Web IR

Speicherung

Invertierte Liste mit Termgewichten

Web IR

Relevance Feedback im Vektorraummodell

Angaben über die Relevanz bzw. Nicht-Relevanz werden zurVerbesserung der Retrievalqualität benutzt

Modifikation des ursprünglichen Fragevektors

Definition (Roccio-Formel)

~q′ =~q + α1|DR|

∑dj∈DR

~dj −β1|DN |

∑dj∈DN

DR Menge der relevanten DokumenteDN Menge der nicht-relevanten Dokumenteα, β heuristische, nicht-negative Konstanten

Web IR

Relevance Feedback im Vektorraummodell

Angaben über die Relevanz bzw. Nicht-Relevanz werden zurVerbesserung der Retrievalqualität benutzt

Modifikation des ursprünglichen Fragevektors

Definition (Roccio-Formel)

~q′ =~q + α1|DR|

∑dj∈DR

~dj −β1|DN |

∑dj∈DN

DR Menge der relevanten DokumenteDN Menge der nicht-relevanten Dokumenteα, β heuristische, nicht-negative Konstanten

Web IR

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?

Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Web IR

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmen

Ereignis R: “Ein Dokument wird als relevant eingeschätzt”

d vorliegen:

P(R|q,d)

Web IR

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”

d vorliegen:

P(R|q,d)

Web IR

d vorliegen:

P(R|q,d)

Web IR

d vorliegen:

P(R|q,d)

Web IR

d vorliegen:

P(R|q,d)

Web IR

Probability Ranking Principle

Theoretische Rechtfertigung der probabilistischen Modelle

Ranking anhand der erwarteten Kosten EC(d ,q):

EC(d ,q) = C ·P(R|q,d) + C̄ · (1−P (R|q,d))

C Kosten für das Retrieval eines relevanten DokumentsC̄ Kosten für das Retrieval eines nicht-relevanten Dokuments

Annahme: C̄ > C

⇒ Ranking nach absteigender Wahrscheinlichkeit P(R|q,d)

Web IR

Probability Ranking Principle

Theoretische Rechtfertigung der probabilistischen Modelle

Ranking anhand der erwarteten Kosten EC(d ,q):

EC(d ,q) = C ·P(R|q,d) + C̄ · (1−P (R|q,d))

C Kosten für das Retrieval eines relevanten DokumentsC̄ Kosten für das Retrieval eines nicht-relevanten Dokuments

Annahme: C̄ > C

⇒ Ranking nach absteigender Wahrscheinlichkeit P(R|q,d)

Web IR

Retrieval als Inferenz

Information Retrieval als eine Form des logischen Schließensoder Inferenz

Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt

Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann

Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden

Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten

Web IR

Retrieval als probabilistische Inferenz

Berechnung der Wahrscheinlichkeit, dass ein Dokument d eine

Anfrage q impliziert (van Rijsbergen):

P(d → q)

Implikationswahrscheinlichkeit als bedingte Wahrscheinlichkeit:

P(d → q) := P(q|d) =P(d ∩q)

∑t P(d ∩q∩ t)

∑t P(d ∩q|t)

Annahme: P(t) als (gleichwahrscheinliche) Elementarereignisse

Web IR

Retrieval als probabilistische Inferenz

Berechnung der Wahrscheinlichkeit, dass ein Dokument d eine

Anfrage q impliziert (van Rijsbergen):

P(d → q)

Implikationswahrscheinlichkeit als bedingte Wahrscheinlichkeit:

P(d → q) := P(q|d) =P(d ∩q)

∑t P(d ∩q∩ t)

∑t P(d ∩q|t)

Annahme: P(t) als (gleichwahrscheinliche) Elementarereignisse

Web IR

Beispiel

P(d → q1) = P(q1|d)

=P(d ∩q1)

=2/83/8

P(d → q2) = P(q2|d)

=P(d ∩q2)

=1/83/8

Web IR

Prädikatenlogische Modelle

Bisherige Modelle basieren auf AussagenlogikFür anspruchsvollere Retrievalapplikationen, z.B.Multimedia-Retrieval, reichen diese Modelle nicht aus

Beispiel:Aussagenlogik: Torwart und Anzeigetafelanzeigentafel, torwartPrädikatenlogik: Torwart unter Anzeigetafelanzeigentafel(a). torwart(t).below(t,a)Suchanfrage nach Torhütern unterAnzeigetafeln:?- torwart(T) & anzeigentafel(A) &

below(T,A)

Web IR

Prädikatenlogische Modelle

Bisherige Modelle basieren auf AussagenlogikFür anspruchsvollere Retrievalapplikationen, z.B.Multimedia-Retrieval, reichen diese Modelle nicht aus

Beispiel:Aussagenlogik: Torwart und Anzeigetafelanzeigentafel, torwartPrädikatenlogik: Torwart unter Anzeigetafelanzeigentafel(a). torwart(t).below(t,a)Suchanfrage nach Torhütern unterAnzeigetafeln:?- torwart(T) & anzeigentafel(A) &

below(T,A)

Web IR

Probabilistisches Datalog

Prolog-ähnlich, basiert auf Horn-Klauseln

Unsichere Inferenz

Regelbasierter Ansatz

Probabilistische Gewichtung von Fakten

Berechnung nach probabilistischen Regeln

Web IR

Probabilistisches Datalog: Beispiel

0.7 indterm(d1,ir). 0.8 indterm(d1,db).

# db AND irq_and(D) :- indterm(D,db) & indterm(D,ir).

# db OR irq_or(D) :- indterm(D,ir).q_or(D) :- indterm(D,db).

?- q_and(D). ?- q_or(D).0.56 d1 0.94 d1(0.7 * 0.8) (0.7 + 0.8) - (0.7 * 0.8)

Web IR

Datalog-Beispiel: Retrieval in Hypertexten

0.7 indterm(d1,ir). 0.8 indterm(d1,db).0.5 link(d2,d1). 0.4 link(d3,d2).about(D,T) :- indterm(D,T).about(D,T) :- link(D,D1) & about(D1,T).

?- about(D,db)0.8 d10.4 d2 (0.5 * 0.8)0.16 d3 (0.4 * 0.5 * 0.8)

Web IR

Datalog-Beispiel: Retrieval mit Wissensstrukturen

Query nach “Exportproblem derAutomobilindustrie in Ostasien”

indterm(d1, "vw"). indterm(d1, "exportproblem"). indterm(d1, "thailand").

0.8 is_part_of("ostasien", "thailand").instance_of("automobilindustrie", "vw").instance_of("automobilindustrie", "ford").about(D,C) :- indterm(D,C).about(D,C) :- is_part_of(C,C1) & about(D,C1).about(D,C) :- instance_of(C,C1) & about(D,C1).

?- about(D, "automobilindustrie") & about(D, "ostasien") &about(D, "exportproblem").

0.8 d1

⇒ findet auch Dokumente über “Thailand”, “Ford” oder “VW”!Ingo Frommholz Information Retrieval 41/70

Web Information Retrieval

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Web IR

Das World Wide Web

Technische Definition:“Alle Ressourcen und Benutzer im Internet, die das

Hypertext Transfer Protokoll (HTTP) benutzen”

Allgemeinere Definition (Tim Berners-Lee):

“The World Wide Web is the universe ofnetwork-accessible information, an embodiment of humanknowledge”

Web IR

Informationssuche im Web

Navigationsmethoden (nach Traugott Koch):

Surfen Unsystematisches Verfolgen von LinksBrowsing Systematischer Seitenzugriff mittels vorstrukturierter

InformationsübersichtenSuchen Datenbankgestützter direkter Zugriff auf

Einzeldokumente über komplexe Suchbedingungen

Probleme:Exponentielles InformationswachstumFehlende Beständigkeit der Dokumente (404)Heterogene DokumenttypenQualität der DokumenteMultilingualität

Web IR

Informationssuche im Web

Navigationsmethoden (nach Traugott Koch):

Surfen Unsystematisches Verfolgen von LinksBrowsing Systematischer Seitenzugriff mittels vorstrukturierter

InformationsübersichtenSuchen Datenbankgestützter direkter Zugriff auf

Einzeldokumente über komplexe SuchbedingungenProbleme:

Exponentielles InformationswachstumFehlende Beständigkeit der Dokumente (404)Heterogene DokumenttypenQualität der DokumenteMultilingualität

Web IR

Browsen in Katalogen

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter Kategorien

Kataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:

Web IR

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema an

Jedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:

Web IR

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)

Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:

Web IR

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema ist

Hierarchisches Kategorienschema:

Web IR

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:

Web IR

Beispiel: Yahoo!

Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision

+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Web IR

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Web IR

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.

Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

Web IR

Suche auf dem Web

Fülle der Dokumente im Web kann ohne geeigneteSuchmaschinen nicht erschlossen werden

“Das Web ist ein Dschungel”

Zusammenspiel mit Browsing möglich

Standard IR-Methoden plus Ausnutzen der Linkstruktur

Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Web IR

Beispiel: Google

Web IR

Google-Architektur

Quelle: Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine

Web IR

Google-Architektur: Komponenten

URL Server Sammelt Liste vonabzurufenden URLs aus demDokumentindex, schickt diese an denCrawler

Crawler Sammelt/liest Webseiten

Store Server Komprimiert Webseiten,speichert diese im Repository,vergibt Dokument-ID

Web IR

Indexer Liest Repository,dekomprimiert und parst DatenKonvertiert jedes Dokument ineine Menge vonWortvorkommen (Hits)Hits enthalten das Wort, diePosition im Dokument,Fontgröße und Groß- undKleinschreibung.Hits werden in Barrelseinsortiert (nach Dokument-IDs)

Web IR

Indexer (Forts.) Parst alle Links imDokument und speichert wichtigeInformation (Quelle, Ziel und Text)über diese in der Anchors-Datei

URL Resolver Liest Anchors-Dateien,wandelt relative in absolute URLsund Document-IDs um, generiertLink-Datenbank

Web IR

Sorter Generiert invertierte Listen ausden Barrels und füllt das Lexikon

Page Rank Generiert den Page Rankaus der Link-Struktur

Searcher Eigentliche Suchkomponente,benutzt Page Rank, invertierte Listenund Lexikon zur BBeantwortungvonAnfragen

Web IR

Suchmaschinen setzen bekannte IR-Verfahren ein

Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)

Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur

Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind

Web IR

Das Web als Hypertext

Definition (Hypertext)

Ein Hypertext ist eine Ansammlung von Knoten und (gerichteten)Kanten (Links) zwischen diesen und bildet einen Graph. Auch dasWeb ist ein Hypertext (zyklischer Graph).

Web IR

Hypertext und Web Information Retrieval

Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval

In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):

Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)

Web IR

In diesem Sinne ist Web IR ein Spezialfall von Hypertext IR

Möglichkeiten (u.A.):

Web IR

Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)

Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)

Web IR

Spreading Activation-Algorithmus von Frei und Stieger

Numerischer Spreading Activation Ansatz aus dem Hypertext IR

Linkstruktur und RSV der einzelnen Knoten bzgl. der Anfragewerden zum Anpassen des RSV des Ausgangsknoten benutzt

Web IR

Beispiel: Constrained Spreading Activation

1 Initialisierung: Berechnung von RSV q,n0 für Knoten n bzgl.

Anfrage q

2 Navigation, Entscheidungsphase: Selektiere Knoten (z.B. aufGrund des Linktyps)

3 Navigationsphase: Berechne

RSV q,nd+1 := RSV q,n

d + wd ·1

|Nnd+1|·

∑n′∈Nn

RSV q,n′

mitwd : Propagierungsfaktor für Distanz dNn

d : Menge der Nachfolgeknoten von n mit Distanz dRSV q,n

d : RSV von Knoten n zur Anfrage q in Iteration d

Web IR

Anfrage q2 Navigation, Entscheidungsphase: Selektiere Knoten (z.B. auf

Grund des Linktyps)

3 Navigationsphase: Berechne

d + wd ·1

|Nnd+1|·

∑n′∈Nn

RSV q,n′

Web IR

Anfrage q2 Navigation, Entscheidungsphase: Selektiere Knoten (z.B. auf

Grund des Linktyps)3 Navigationsphase: Berechne

d + wd ·1

|Nnd+1|·

∑n′∈Nn

RSV q,n′

Web IR

Spreading Activation – Beispiel

Web IR

Spreading Activation – Beurteilung

+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue

+ Kann mit verschiedenen Linktypen umgehen

+ Auch negative Links möglich (dann negativer Propagation Faktor)

– Realzeitberechnung kritisch

→ Anwendbarkeit auf das Web?

Web IR

Page Rank

Berühmt geworden durch Google (Brin/Page, 1998)

Ermitteln der Autorität (Authority) eines Dokuments

Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren

Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank

Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten

Web IR

Page Rank

Web IR

Page Rank

Web IR

Page Rank

Web IR

Page Rank

Web IR

Random-Surfer-Modell

Random-Surfer-Modell: Page Rank wird zu gleichen Teilen an alleNachfolger propagiert

Web IR

Berechnung des Page Rank

Iterative Berechnung des Page Rank PR(p) für eine Seite p:

PR(p) = (1−β) · 1N

+ β ·∑q→p

out(q)

mitN: Anzahl Knotenβ: Konstante zwischen 0 und 1

out(q): Anzahl ausgehender Links aus qq→ p: Es existiert ein Link von q nach p

In der Regel hat man nach 100 Iterationen Konvergenz(Henzinger, 2000)

Initial erhält jede Seite den Page Rank 1

Web IR

Interpretation des Page Rank

Benutzer springt mit der Wahrscheinlichkeit (1−β) auf einebeliebige Webseite (von der jede wiederum dieWahrscheinlichkeit 1/N hat)

und mit der Wahrscheinlichkeit β auf eine Nachfolgeseite q von p

Die Wahrscheinlichkeit, dass man die Seite p anwählt, ist alsogegeben durch die Wahrscheinlichkeit eines zufälligen Sprungsauf p plus der Wahrscheinlichkeit, dass man von einerVorgängerseite q auf p springt

Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Web IR

Kleinbergs HITS-Algorithmus

Ermitteln von Hubs und Authorities zu einem Thema

Hub: Verweist zu guten Authorities

Authority: Hat viele eingehende Links von guten Hubs

Web IR

HITS: Zweistufiger Algorithmus

1 Berechnung des RSV zur Anfrage für alle Webseiten. Auswahldes Subnetzes der relevanten Dokumente (NeighbourhoodGraph)

2 Berechnung eines Hub- und Authority-Werts für jede Webseite imgewählten Subnetz

Web IR

Berechnung des Hub- und Authority-Werts

Iterative Berechnung des Hub- und Authority-Werts

ap =∑q→p

hq =∑q→p

ap: Authority-Gewicht für Knoten phq : Hub-Gewicht für Knoten p

und Normalisierungsbedingung∑p

(ap)2 = 1 und∑

(hp)2 = 1

Web IR

Skizze des Algorithmus für Hubs und Authorities

1 Starte mit Hub- und Authority-Gewicht 1 für jeden Knoten

2 Berechne neuen Hub- und Authority-Gewichte für jeden Knoten3 Normalisiere neue Werte hinsichtlich Normaliserungsbedingung4 Gehe zu 2, wenn Konvergenzkriterium nicht erfüllt

Web IR

HITS-Beispiel

Web IR

HITS-Beispiel

1. Iteration

Web IR

HITS-Beispiel

Normalisierung

Web IR

HITS-Beispiel

2. Iteration

Web IR

HITS-Beispiel

Normalisierung

Web IR

Beurteilung des HITS-Algorithmus

+ Berechnung von getrennten Werten für Hubs und Authoritiesermöglicht komplexere Suchstrategien

Authority-Gewichte sind in etwa vergleichbar mit dem Page Rankund bezeichnen “wichtige” Dokumente→ Suche nach wichtigenDokumentenHubs stellen durch ihre Verlinkung zu Authorities einen gutenÜberblick dar→ Suche nach guten Übersichtsseiten

+ Hub- und Authority-Werte sind auf die Anfrage abgestimmt

– Berechnung zum Anfragezeitpunkt, daher längere Antwortzeiten

Web IR

Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz...

Documents

Transcript of Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz...