Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit...
-
Upload
astor-gerlt -
Category
Documents
-
view
113 -
download
1
Transcript of Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit...
Information Retrieval Modelle:Probabilistische Modelle
Kursfolien
Karin Haenelt
6.11.2010mit Korrekturen vom 1.11.2014
Inhalt
Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)
Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion RobertsonSparckJones (RSV)
Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25
Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich
2© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
I
Probabilistische Retrievalmodelle
Ziel Schätzung der Wahrscheinlichkeit, dass ein Dokument dm
für eine Anfrage qk relevant ist
Erster Ansatz: Maron und Kuhns (1960) Das klassische probabilistische Retrievalmodell ist das
Binary Independence Retrieval (BIR) Modell(Robertson/Sparck Jones, 1976) Dokumentvektoren mit binären Werten
(Term kommt vor, kommt nicht vor) Annahme der Unabhängigkeit der einzelnen Terme
Weiterentwicklungen: Einbeziehung der Termfrequenzen
3© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Inhalt
Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)
Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion
Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25
Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich
4
I
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelDarstellungen
Originalartikel Stephen E. Robertson und Karen Spärck Jones (1976).
Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S. 129-146. http://www.soi.city.ac.uk/~ser/papers/RSJ76.pdf
Beschreibungen Reginald Ferber (2003). Information Retrieval. Suchmodelle und
Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.html
Norbert Fuhr (2003). Information Retrieval. Skriptum zur Vorlesung im SS03. 24. April 2003. http://www.is.informatik.uni-duisburg.de/courses/ir_ss03/folien/irskall.pdf
5© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelBeispiel: Aussortieren unerwünschter Werbe-Mails Lösungsschritte
1. Relevance Feedback eine Person markiert E-Mails in einem Lerncorpus
relevante Mails und nicht-relevante Mails ( = unerwünschte Werbe-Mails)
2. Gewichtungsfunktion als Lernaufgabe (Lerncorpus) das System berechnet Termgewichte für die einzelnen
Terme je nach ihrer Verteilung in relevanten und nicht-relevanten Mails
3. Klassifikation (Anwendungscorpus) das System berechnet die Wahrscheinlichkeit der Relevanz
neuer E-Mails auf der Basis der Termgewichte
6© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Relevance Feedback
7
t1 t2 t3 t4 t5 t6 R.Feedback1 0 1 1 0 0d1
1 1 0 1 1 0d2
0 0 1 0 1 1d3
0 0 1 1 1 1d4
0 0 0 1 1 0d5
0 0 1 0 0 0d6
1 1 1 0 0 1d7
0 0 0 0 1 0d8
2 1 3 3 3 2 rel=4reli1 1 2 1 2 1 nrel=4nreli
R
R
R
R
R
R
R
R
Relevanz-Angaben
reli relevante Dokumente mit Term inreli nicht-relevante Dokumente mit Term i
rel relevante Dokumentenrel nicht-relevante Dokumente
Ferber, 1998:120
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Gewichtungsfunktion (1)
8
3 1 3 9 3 3Term-Gewicht
)1(
)1(
relrel
nrelnrel
nrelnrel
relrel
ii
ii
t1 t2 t3 t4 t5 t6 R.Feedback1 0 1 1 0 0d1
1 1 0 1 1 0d2
0 0 1 0 1 1d3
0 0 1 1 1 1d4
0 0 0 1 1 0d5
0 0 1 0 0 0d6
1 1 1 0 0 1d7
0 0 0 0 1 0d8
2 1 3 3 3 2 rel=4reli1 1 2 1 2 1 nrel=4nreli
R
R
R
R
R
R
R
R
Ferber, 1998:120
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
3)
42
1(41
)41
1(42
Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Gewichtungsfunktion (2)
9
t1 ti R.Feedback1 …d1
1 …d2
0 …d3
0 …d4
0 …d5
0 …d6
1 …d7
0 …d8
2 … rel=4reli1 … nrel=4nreli
3 …
)1(
)1(
relrel
nrelnrel
nrelnrel
relrel
ii
ii
)1(
)1(
relrel
nrelnrel
nrelnrel
relrel
ii
ii
Einsetzender WerteausRelevanceFeedback
Formel fürTermgewichtnachprobabilist.Modell
R
RRRR
R
RR
Term-Gewicht
Berechnung des Termgewichts für Term t1
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Klassifikation
10
t1 t2 t3 t4 t5 t6 Retrievalstatuswert1 1 0 0 0 1 log(3)+log(1)+log(3)=0.95d09
0 1 0 1 0 0 log(1)+log(9)=0.95d10
1 0 1 1 1 1 4log(3)+log(9)=2.86d11
0 0 1 0 1 0 log(3)+log(3)=0.95d12
3 1 3 9 3 3Term-Gewicht Ferber, 1998:121
Neue E-Mails und ihr Retrievalstatuswert
Berechnete Termgewichte
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Inhalt
Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)
Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion
Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25
Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich
11
I
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelTheorie (1)
Das Modell ist formal hergeleitet nach Prinzipien der Wahrscheinlichkeitstheorie
Die Theorie beschreibt, wie Vorkommenswahrscheinlichkeiten einzelner Terme in
relevanten und nicht-relevanten Dokumenten zu einer Gesamtschätzung der Relevanz eines Dokuments
(Retrievalstatuswert eines Dokuments – RSV)
kombiniert werden
12
Robertson/Sparck Jones, 1976
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelTheorie (2)
Vorkommenswahrscheinlichkeiten der Terme und dasVerfahren der Relevanzschätzung eines Dokuments bilden eine theoretische Einheit: Termgewichtung und Ähnlichkeitsfunktion sind gemeinsam im Rahmen der Wahrscheinlichkeitstheorie
bestimmt können nicht unabhängig voneinander gewählt werden
13
Robertson/Sparck Jones, 1976© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelTheorie (3)
sie können in einer Funktion implementiert werden sie lassen sich aus praktischen Gründen der Systemmodularität
zerlegen in eine Termgewichtungsfunktion wti
eine Ähnlichkeitsfunktion sim(dm,qk)
wobei sim(dm,qk) den Retrievalstatuswert eines Dokuments (RSV) unter Verwendung der Termgewichte wti berechnet - sim(dm,qk) = RSV
14
Robertson/Sparck Jones, 1976© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence ModelDefinition
wi,m {0,1} Variablen der Index-Term-
wi,k {0,1} Gewichtung sind binär
T = {t1,..,tx} Menge der Index-Terme
x Anzahl der Index-Terme im System
X = {1,...,x} Menge d. Kennungen der I-Terme
Query-Vektor
Dokument-Vektor
15
),...,,( ,,2,1 kxkk wwwq ),...,,( ,,2,1 mxmmm wwwd
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence ModelDefinition
R Menge der relevanten Dokumente(bekannt oder anfangs geschätzt !!!)
R Komplementmenge zu RMenge der nicht-relevanten Dokumente
P(R|qk,dm) Wahrscheinlichkeit der Relevanz, wenneine Anfrage qk und ein Dokument dm gegeben sind
P(R|qk,dm) Wahrscheinlichkeit der Irrelevanz, wenn eine Anfrage qk und ein Dokument dm gegeben sind
16© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Inhalt
Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)
Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion
Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25
Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich
17
I
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (1)
Ziel: Schätzung der Wahrscheinlichkeit, dass ein spezifisches Dokument dm für
eine Anfrage qk (genauer: für eine Suchsituation si mit einer Anfrage qk, also eine Instanz
einer Anfrage qk)
Relevanz (R) hat Grundannahme„Cluster-Hypothese“
Terme sind in relevanten und nicht relevanten Dokumenten unterschiedlich verteilt
18
Ziel Bestimmung von P(R|qk,dm)
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (2)
um P(R|qk,dm) zu schätzen, müssten zu allen Anfragen Dokumente mit Relevanzbestimmungen vorliegen
kaum realistisch daher Berechnung nicht für einzelne Dokumente, sondern für
Termmengen (i.e. Dokumentvektoren)
19
(1) Einsetzung von Dokumentrepräsentationen
),|( mk dqRP[1]
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (3)
20
(2) Umformung nach Bayes-Regeln
[2.1]
(a) P(A|B) = P(AB)/P(B)(b) P(AB) = P(A)⋅P(B|A) = P(B)⋅P(A|B)
[2.2]
)(
)(),|(
mk
mkmk
dqP
dqRPdqRP
)|()(
)|()(),|(
kmk
kmk
mkqdPqP
qRdPqRPdqRP
P(A|B) = P(AB)/P(B)
P(AB) = P(A)⋅P(B|A)
P(AB) = P(A)⋅P(B|A)
Ferber, 1998
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (4)
21
(2) Umformung nach Bayes-Regeln
[2.3]
(a) P(A|B) = P(AB)/P(B)(b) P(AB) = P(A)⋅P(B|A) = P(B)⋅P(A|B)
[2.4]
)|()(
)|()|()(),|(
kmk
kmkkmk
qdPqP
qRdPqRPqPdqRP
)|(
)|()|(),|(
km
kmk
mkqdP
qRdPqRPdqRP
Ferber, 1998
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (5)
22
(3) Quote (Odds) statt Wahrscheinlichkeiten
Weitere Darstellungsmöglichkeit für die Chance, dass ein Ereignis auftritt: Quote (Odds) eines Ereignisses
O(Y) < 1 für Wahrscheinlichkeiten < 0.5O(Y) > 1 für Wahrscheinlichkeiten > 0.5
Liefert dieselbe Rangreihe für Ereignisse wieWahrscheinlichkeit; erlaubt z.T. einfacheres Rechnen
)(1
)(
)(
)()(
YP
YP
YP
YPYO
Ferber, 1998
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (6)
23
(3) Quote (Odds) statt Wahrscheinlichkeiten
[3.1]
[3.2]
Ferber, 1998
)|(
)|()|(
)|(
)|()|(
),|(
),|(),|(
km
kkm
km
kkm
m
mkmk
qdP
qRPqRdP
qdP
qRPqRdP
dqkRP
dqRPdqRO
)|(
)|(
)|(
)|(),|(
km
km
k
k
mkqRdP
qRdP
qRP
qRPdqRO
[2.4]
[2.4]
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (7)
24
(4) Annahme der Unabhängigkeit der Terme
[3.2]
Sind A und B unabhängig, so giltP(AB) = P(A)⋅P(B)
[4]
Ferber, 1998
(Diese Annahme über Dokumente ist sehr vereinfachend)
)|(
)|(
)|(
)|(),|(
km
km
k
k
mkqRdP
qRdP
qRP
qRPdqRO
x
i kim
kimkmk
qRwP
qRwPqROdqRO
1 ),|(
),|()|(),|(
Auf der Basisder Annahme derUnabhängigkeit der Terme wird die Wahrscheinlichkeitdes Dokumentvektorsdargestellt durch dasProdukt der Wahrscheinlichkeitender Einzelterme
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (8)
25
(5) Aufspaltung des Produkts nach dem Vorkommen der Terme
[5]
Ferber, 1998
dqtXi kim
kim
i qRwP
qRwP
| ),|1(
),|1(
dqtXi kim
kim
i qRwP
qRwP
\| ),|0(
),|0(
qtXi kimim
kimim
i qRwwP
qRwwP
| ),|10(
),|10(
)|(),|( kmk qROdqRO
+/- -
- +
+ +
ti d q
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (9)
26
(6) Weitere vereinfachende Annahme
[5] dritter Faktor
Ferber, 1998
Es wird - nicht immer zutreffend - angenommen,dass alle Terme, die nicht in der Anfrage auftreten, mit derselben Wahrscheinlichkeit in relevanten und irrelevanten Dokumenten auftreten
),|(),|(\ qRwPqRwPgiltqTtfür imimi
qtXi kimim
kimim
i qRwwP
qRwwP
|
1),|10(
),|10(d.h.
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (10)
27
(6) Weitere vereinfachende Annahme
Ferber, 1998
So ergibt sich folgende vereinfachte Formel
[6])|(),|( kmk qROdqRO
dqtXi kim
kim
i qRwP
qRwP
| ),|1(
),|1(
dqtXi kim
kim
i qRwP
qRwP
\| ),|0(
),|0(
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (11)
28
(7) Komplementäre Umformung der Wahrscheinlichkeit
[7]
Ferber, 1998
1)()( APAP),|1(1),|0( kimkim qRwPqRwP
dqtXi kim
kimkmk
i qRwP
qRwPqROdqRO
| ),|1(
),|1()|(),|(
dqtXi kim
kim
i qRwP
qRwP
\| ),|1(1
),|1(1
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (12)
29
(8) Vereinfachung der Schreibweise
[8]
Ferber, 1998
),|1( kimi qRwPr ),|1( kimi qRwPn
dqtXi i
ikmk
i n
rqROdqRO
|
)|(),|(
dqtXi i
i
i n
r
\| 1
1
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
dqtXi ii
ii
i rn
nr
| )1()1(
)1()1(
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (13)
30
(9) Herausarbeitung der dokumentabhängigen Faktoren
[9.1]
Ferber, 1998
[9.2]
)|(),|( kmk qROdqRO
dqtXi i
i
i n
r
\| 1
1
dqtXi i ni
ri
|
[8] multipliziert mit 1
qtXi i
i
dqtXi ii
iikmk
ii n
r
rn
nrqROdqRO
|| 1
1
)1(
)1()|(),|(
1
Geeignete Aufspaltung des Faktors
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (14)
31
(10) Ausblendung der nicht dokument-abhängigen Faktoren
[9.2]
Ferber, 1998
[10]
qtXi i
i
dqtXi ii
iikmk
ii n
r
rn
nrqROdqRO
|| 1
1
)1(
)1()|(),|(
nur die Faktoren, die für die Rangfolge der Dokumente relevantsind, werden weiter betrachtet
dqtXi ii
ii
i rn
nr
| )1(
)1(
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelHerleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (15)
32
(11) Anwendung eines Logarithmus
Ferber, 1998
[10]
- zur logarithmischen Skalierung der Ergebnisse- zur Vermeidung mehrfacher Rundungsfehler auf dem Rechner
dqtXi ii
ii
i rn
nr
| )1(
)1(
))1(
)1(log(log
)1(
)1(log
|| i
i
dqtXi i
i
dqtXi i
ii
r
n
n
r
rn
nr
ii i
Retrievalstatuswert eines Dokuments (retrieval status value)
RSV =[11]
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Inhalt
Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)
Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion
Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25
Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich
33
I
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelTermgewichtungsfunktion : Grundlagen (1)
Um aus Formel [11] den Retrievalstatuswert eines Dokuments berechnen zu können, werden die Parameter der Summanden ri und ni gebraucht
Term i im relevanten Dokument Term i im nicht-relevanten Dokument
Zwei Vorgehensweisen: Parameterschätzung durch interaktives Relevance Feedback automatische rekursive Verfeinerung im Suchprozess
34
),|1( kimi qRwPr ),|1( kimi qRwPn
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelTermgewichtungsfunktion : Grundlagen (2)
35
im Unterschied zum Booleschen Modell und zum Vektormodell werden probabilistische Termgewichte nicht anfrage-unabhängig auf der Dokumentbasis bestimmt sondern anfragespezifisch berechnet
nach der Relevanz der Dokumente für eine Anfrage auf der Basis der Verteilung in relevanten und nicht-
relevanten Dokumenten jede Anfrage ist ein Anfrage-Ereignis: stellen verschiedene
Leute dieselbe Anfrage, so sind verschiedene Relevanzbeurteilungen der Dokumente möglich (in der Praxis werden allerdings auch Mittelwerte über die Beurteilungen der Anfrage-Ereignisse gebildet)
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Basis der Parameterschätzung• Es wurden bereits Dokumente ausgewählt• Benutzende unterteilen Dokumente in „relevant“ und „nicht-
relevant“
Binary Independence Retrieval ModelTermgewichtungsfunktionParameterschätzung durch Relevance Feedback (1)
36© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Beobachtungsbasis
rel Anzahl der als relevant beurteilten
Dokumente
reli Anzahl der relevanten Dokumente mit Term ti
nrel Anzahl der nicht-relevanten Dokumente
nreli Anzahl der nicht-relevanten Dokumente mit Term ti
Schätzwerte
Binary Independence Retrieval ModelTermgewichtungsfunktionParameterschätzung durch Relevance Feedback (2)
37
rel
relrqRwP
iikim ),|1(
nrel
nrelnqRwP
iikim ),|1(
Ferber, 1998
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
[11]
Einsetzung der Schätzwerte in Formel [11]
Binary Independence Retrieval ModelTermgewichtungsfunktionParameterschätzung durch Relevance Feedback (3)
38
dqtXi i
ii
i irn
nr
| )1(
)1(log
Retrievalstatuswert eines Dokuments
RSV =
Termgewicht
wti =
[12]
)1(
)1(log
relrel
nrelnrel
nrelnrel
relrel
ii
ii
dqtXi ii
ii
i
relrel
nrelnrel
nrelnrel
relrel
| )1(
)1(logRSV =
Retrievalstatuswert eines Dokuments
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Relevance Feedback
39
t1 t2 t3 t4 t5 t6 R.Feedback1 0 1 1 0 0d1
1 1 0 1 1 0d2
0 0 1 0 1 1d3
0 0 1 1 1 1d4
0 0 0 1 1 0d5
0 0 1 0 0 0d6
1 1 1 0 0 1d7
0 0 0 0 1 0d8
2 1 3 3 3 2 rel=4reli1 1 2 1 2 1 nrel=4nreli
R
R
R
R
R
R
R
R
Relevanz-Angaben
reli relevante Dokumente mit Term inreli nicht-relevante Dokumente mit Term i
rel relevante Dokumentenrel nicht-relevante Dokumente
Ferber, 1998:120
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
3)
42
1(41
)41
1(42
Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Gewichtungsfunktion (2)
40
t1 ti R.Feedback1 …d1
1 …d2
0 …d3
0 …d4
0 …d5
0 …d6
1 …d7
0 …d8
2 … rel=4reli1 … nrel=4nreli
3 …
)1(
)1(
relrel
nrelnrel
nrelnrel
relrel
ii
ii
)1(
)1(
relrel
nrelnrel
nrelnrel
relrel
ii
ii
Einsetzender WerteausRelevanceFeedback
Formel fürTermgewichtnachprobabilist.Modell
R
RRRR
R
RR
Term-Gewicht
Berechnung des Termgewichts für Term t1
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelBeispiel: Lösungsschritt: Klassifikation
41
t1 t2 t3 t4 t5 t6 Retrievalstatuswert1 1 0 0 0 1 log(3)+log(1)+log(3)=0.95d09
0 1 0 1 0 0 log(1)+log(9)=0.95d10
1 0 1 1 1 1 4log(3)+log(9)=2.86d11
0 0 1 0 1 0 log(3)+log(3)=0.95d12
3 1 3 9 3 3Term-Gewicht Ferber, 1998:121
Neue E-Mails und ihr Retrievalstatuswert
Berechnete Termgewichte
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Prinzip
Binary Independence Retrieval ModelTermgewichtungsfunktionrekursive Parameterschätzung im Suchprozess
Anfangsschätzung
Rekursion Ranking auf der Basis der Schätzung der Termgewichte Verwendung eines Schwellenwertes Annahme der Relevanz für alle Dokumente deren RSV über
dem Schwellenwert liegt Ermittlung der Termverteilungen in den Dokumenten und
Erzeugung neuer Termgewichte
42
N Gesamtzahl der Dokumente im Systemti Indextermni Anzahl der Dokumente, in denen Term ti vorkommt
5.0)|( RtP i
N
nRtP
ii )|(
Baeza-Yates/Ribeiro-Neto, 1999,33
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Formeln für die rekursive Verfeinerung
Binary Independence Retrieval ModelTermgewichtungsfunktionrekursive Parameterschätzung im Suchprozess
Annahme (a)P(ti|R,q)kann an Hand der Verteilung der Index-Terme
ti in den bisher ausgewählten Dokumenten approximiert werden
Annahme (b) P(ti|-R,q) kann unter der Annahme approximiert werden,
dass alle nicht ausgewählten Dokumente nicht relevant sind
43
Baeza-Yates/Ribeiro-Neto, 1999,33
rel
relqRtP
iki ),|(
relN
relnqRtP
iiki
),|(
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Binary Independence Retrieval ModelTermgewichtungsfunktionrekursive Parameterschätzung im Suchprozess
Die Formeln bereiten Probleme bei kleinen Werten von rel und reli (z.B. rel = 1 und reli = 0)
Korrekturwerte
44
Parameterkorrektur
relN
relnqRtP
iiki
),|(rel
relqRtP
iki ),|(
1
5.0),|(
rel
relqRtP
iki
1
5.0),|(
relN
relnqRtP
iiki
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Inhalt
Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)
Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion
Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25
Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich
45
I
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
OkapiBedeutung
probabilistisches Retrievalsystem probabilistische Termgewichtungsfunktionen
für binäre Dokumentvektoren BM1 (Best Match) theoretische Fundierung: Robertson/Sparck Jones, 1976
Erweiterung: Parameter für Dokumentlänge und Termfrequenz in Anfrage und Dokument BM11, BM15, BM25 (auch kollektiv als Familie von
Gewichtungsfunktionen Okapi BM25 genannt) theoretische Fundierung: Robertson/Walker, 1994 BM25F Robertson/Zaragoza/Taylor, 2004
46© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
OkapiHistorie
Okapi 1982-1988: ursprünglich eine Familie bibliographischer
Retrievalsysteme, entwickelt unter Förderung der British Library an der Polytechnic of Central London (heute: University of Westminster)
1992-1997: City University, London 1998 ff: weitergeführt von Microsoft Research Laboratory in
Cambridge und eingebunden in die Keenbow-Evaluierungsumgebung für Retrievalsysteme (Robertson, Walker, 2000)
neue Experimente mit neuen Systemen (z.B. Indizes mit paralleler Architektur) und mehreren Gewichtungsfunktionen (z.B. BM25, BM25F; PageRank) (Craswell, Fetterly, Najork, Robertson, Yilmaz, 2009)
47© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
OkapiSuchtechniken
Gewichtung von Suchtermen Match-Funktion: Übereinstimmungswert eines Dokuments ist
die Summe der Gewichtung der zwischen der Suchanfrage und Dokument übereinstimmenden Terme
Relevance Feedback Query Expansion
48
Robertson, Walker, Hancock-Beaulieu, Gull, Lau, 1992
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Inhalt
Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)
Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion
Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25
Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich
49
I
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Okapi-GewichtungsfunktionenNotation
50
N Anzahl der Dokumente in der Kollektion n Anzahl der Dokumente mit einem bestimmten Term ( Kollektionsfrequenz) R Anzahl der relevanten Dokumente für ein Thema r Anzahl der relevanten Dokumente mit einem bestimmten Term tf Vorkommenshäufigkeit eines Terms in einem Dokument qtf Vorkommenshäufigkeit eines Terms in einer Query dl Dokumentlänge (beliebige Einheiten) avdl durchschnittliche Dokumentlänge BMxx Best-match-Gewichtungsfunktion ki, b Konstanten
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Formel von Robertson / Sparck Jones (1976)
Okapi-GewichtungsfunktionenBasis: Robertson/Sparck Jones-Formel
51
RSJ
Robertson, S. Walker, S. Jones, M.M. Hancock-Beaulieu, M. Gatford (1994)
N Anzahl der Dokumente in der Kollektion n Anzahl der Dokumente mit einem bestimmten Term ( Kollektionsfrequenz) R Anzahl der relevanten Dokumente für ein Thema r Anzahl der relevanten Dokumente mit einem bestimmten Term
)5.0)(5.0(
)5.0)(5.0(log
rRrn
rRnNrw RSJ
i
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Formel der Experimente für TREC-1 ist die Robertson-Sparck Jones-Formel (RSJ) ohne Relevanzangaben, d.h. (R = r = 0)
in dieser Form entspricht die Formel der inversen Kollektionsgewichtung (idf)
Okapi-GewichtungsfunktionenBM1 / IDF
52
BM1
Robertson, S. Walker, S. Jones, M.M. Hancock-Beaulieu, M. Gatford (1994)
N Anzahl der Dokumente in der Kollektion n Anzahl der Dokumente mit einem bestimmten Term ( Kollektionsfrequenz) R Anzahl der relevanten Dokumente für ein Thema r Anzahl der relevanten Dokumente mit einem bestimmten Term
)5.0(
)5.0(log
n
nNw IDF
i
entspricht der AnnahmeP(t|relevant)=0.5
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Okapi-GewichtungsfunktionenBM25 Motivation
Binary Independence Model ursprünglich für Katalogeinträge und abstracts gleicher Länge entwickelt
Modell für freie Volltext-Kollektionen sollte berücksichtigen Termfrequenz Dokumentlänge Anfrage-Länge (Anfrage kann ein Beispieldokument sein)
BM 25 Okapi-Gewichtung theoretische Fundierung entwickelt von Stephen E.
Robertson und S. Walker (1994) benannt nach dem System Okapi, in dem es erstmals
verwendet wurde
53© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
tf Termfrequenz im Dokument qtf Termfrequenz in der Themenformulierung, die der Anfrage zu
Grunde liegt dl Dokumentlänge (ist geeignet festzusetzen) avdl durchschnittliche Dokumentlänge (ist geeignet festzusetzen) k1, b, k3 Parameter zur Anpassung an Eigenschaften einesTextcorpus
Okapi-GewichtungsfunktionenBM25
54
i
i
i
iRSJi
BMi qtfk
qtfk
tfavdldl
bbk
tfkww
3
3
1
125 )1(
)))1((
)1(
Robertson/Walker (2000), Sparck Jones/RoberstonWalker (1998)
- Grundform- allgemeinere Formen z.B. ohne qtf) - speziellere Varianten (z.B. BM11, BM15)
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
tf Termfrequenz im Dokument qtf Termfrequenz in der Themenformulierung, die der Anfrage zu
Grunde liegt dlnf Dokumentlängennormierungsfaktor k1, b, k3 Parameter zur Anpassung an Eigenschaften einesTextcorpus
Okapi-GewichtungsfunktionenBM25
55
i
i
i
iRSJi
BMi qtfk
qtfk
tfdlnfk
tfkww
3
3
1
125 )1()1(
Robertson/Walker (2000), Sparck Jones/RoberstonWalker (1998)
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
tf Termfrequenz im Dokument qtf Termfrequenz in der Themenformulierung, die der Anfrage zu
Grunde liegt dlnf Dokumentlängennormierungsfaktor k1, b, k3 Parameter zur Anpassung an Eigenschaften einesTextcorpus
Okapi-GewichtungsfunktionenBM25
56
i
i
i
iRSJi
BMi qtfk
qtfk
tfdlnfk
tfkww
3
3
1
125 )1()1(
Robertson/Walker (2000), Sparck Jones/Roberston/Walker (1998)
einfache Gewichtungs-Funktion (RSJ oder IDF)
Dokumentterm-frequenz-Faktor
Dokumentlängen-Normierungs-Faktor
Anfrageterm-frequenz-Faktor
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Okapi-GewichtungsfunktionenBM25 Termfrequenzfaktor
Robertson/Walker (1994) entwickeln eine komplexe Formel, die auf Überlegungen zu folgenden Eigenschaften beruht Verteilung 1: für jedes Thema gilt: es gibt Dokumente, die
das Thema behandeln, und solche, die es nicht behandeln Verteilung 2: für jeden Term gilt: er kann in einem Dokument
mit dem Thema, das mit dem Term assoziiert wird, vorkommen oder nicht
Verteilung 1 und Verteilung 2 sind beides Poisson-Verteilungen
Eliteness eines Terms: Term steht in Zusammenhang mit dem mit dem Term assoziierten Thema ( oder )
57
E ESparck Jones/Roberston/Walker (1998)
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Okapi-GewichtungsfunktionenBM25 Termfrequenzfaktor
Die Formel ist komplex algebraisch und bezüglich Interpretation und Abschätzung
Robertson/Walker (1994) untersuchen das Verhalten der Formel und schlagen eine einfachere Formel mit einem ähnlichen Verhalten vor
58
i
iRSJitf tfk
tfkww
i
1
1 )1(
Sparck Jones/Roberston/Walker (1998)
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Okapi-GewichtungsfunktionenBM25 Termfrequenzfaktor
Eigenschaften ist 0 bei Termfrequenz = 0 wächst monoton mit tfi
hat eine asymptotische Grenze (d.h. zusätzliche Vorkommen von t erhöhen das Gewicht, aber es gibt ein Limit des Erhöhungswertes)
k1: Modellierungsparameter zur Anpassung an Corpora
bestimmt, wie sehr das Gewicht wtfi auf eine Erhöhung von tfi reagiert
mit k=0 ist wtfi identisch mit wi (einfache Termpräsenz)
TREC-Erfahrung: Werte zwischen 1.2 und 2 sind effektiv
59
i
iRSJitf tfk
tfkww
i
1
1 )1(
Sparck Jones/Roberston/Walker (1998)
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Okapi-GewichtungsfunktionenBM25 Dokumentlängennormierungsfaktor
Annahme: Wortreichtum entsteht eher durch erweiterte Ausführungen
als durch Wiederholungen von Aussagen sollte also nicht einfach wegdividiert werden
einfache Version berücksichtigt Annahme nicht
erweiterte Version mit b = 1 ergibt sich einfache Version Werte b < 1 reduzieren den
Dokumentlängennormierungsfaktor TREC-Erfahrungen: ein Wert b = 0.75 ist gut
60
avdl
dldlnf
))1((avdl
dlbbdlnf
Sparck Jones/Robertson/Walker (1998)
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010; korr.1.11.2014
Okapi-GewichtungsfunktionenBM25
61
i
iRSJi
i
i
RSJidnlftf tfdnlfk
ktfw
dnlftf
k
dlnftf
kww
i
1
1
1
1 )1()1(
i
i
i
iRSJi
BMi qtfk
qtfk
tfavdldl
bbk
tfkww
3
3
1
125 )1(
)))1((
)1(
BM25F berücksichtigt zusätzlich die Stelle des Vorkommens (Feld)(Titel, 1. Satz, …)
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Inhalt
Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)
Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion
Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25
Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich
62
I
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Synopse: Vektormodell und probabilistisches Modell
63
Anfrage q Termgewicht w Dokument d Vektormodell Dokumentterme werden nach
Corpuseigenschaften gewichtet, repräsentieren Dokument
wqj {0,1}
oder
wqj +
wdj +
probabilist. Modell
Dokumentterme werden nach Relevanzeigenschaften bezüglich einer Anfrage gewichtet repräsentieren Query
Dok.Freq. ggf. in BM berücksichtigt
wqj {0,1} oder wqj +
RSVqj +, BM
wdj {0,1}
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010; korr. 1.11.2014
SynopseVektormodell und probabilistisches Modell
probabilistische Termgewichtungsschemata können auch im Vektormodell verwendet werden
Verknüpfung der Vektoren im Vektormodell: verschiedene Möglichkeiten der Vektorähnlichkeit im probabilistischen Modell: festgelegt durch die Theorie
(Wahrscheinlichkeit mehrerer Ereignisse – hier: Termvorkommen) nicht-logarithmische Form: Skalarprodukt logarithmische Form: Summe
probabilistische Gewichtung und Verknüpfung der Query- und Dokument-Vektoren durch Skalarprodukt ergibt im Wesentlichen den Retrieval-Status-Wert des probabilistischen Modells
64© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
SynopseVektormodell und probabilistisches Modell
Vorteil des probabilistischen Modells gegenüber dem Vektormodell: Bestimmung der Rangfolge von Dokumenten ohne den Umweg
über ad-hoc-Termgewichtungen
Ziele der Einführung von Termgewichtungen Einsparung eines relevance-feedback-Verfahrens
65© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Probabilistisches ModellAnwendungsbeispiele
Browsing
1. Relevance Feedback: für Beispiel-Dokumente für ein Themengebiet
2. Erlernen der Term-Gewichtungen für das Relevanz-anzeigende Vokabular des Themengebietes
3. Klassifikation: Suche ähnlicher Dokumente multilinguales Retrieval
1. Relevance Feedback: für Dokumente in mehreren Sprachen
2. Erlernen der Term-Gewichtungen erfolgt ohne besondere Verfahren multilingual
3. Klassifikation: erfolgt sprachübergreifend
66© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Vergleich der klassischen Information Retrieval Modelle
Boolesches Modell Schwächste Methode Keine partiellen Übereinstimmungen
• Vektormodell offenbar beste Ergebnisse für allgemeine Dokumentsammlungen Wachsende Popularität in Internetsuchmaschinen
Probabilistisches Modell Gute Ergebnisse für spezifische Dokumentsammlungen mit Relevanz-Feedback:
Bestimmung einer Rangfolge von Dokumenten ohne Umweg über ad-hoc Termgewichtungen
Trainingscorpus und Relevanz-Meldungen erforderlich
67
vgl. (Baeza-Yates/Ribeiro-Neto, 1999,34)
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Inhalt
Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR)
Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion
Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25
Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich
68
I
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Anhang 1Binary Independence ModelErgänzende Betrachtungen aus dem Originalartikel
Stephen E. Robertson und Karen Spärck Jones (1976).Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S. 129-146. http://www.soi.city.ac.uk/~ser/papers/RSJ76.pdf
Ergänzungen unter den Aspekten informelle Darstellung formale Ableitung Formel RSJ F4 (= BM1)
als Grundlage eines besseren Verständnisses verschiedener Darstellungen und Weiterentwicklungen
69© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
informelle Darstellung im Originalartikel von Robertson/Sparck Jones 1976 eine Kontingenztabelle zeigt die vier Möglichkeiten der
Termverteilung in relevanten und nicht-relevanten Dokumenten
aus dieser Tabelle leiten sich vier Varianten für Termgewichtungsformeln ab
Überlegungen zu Termunabhägigkeiten und Dokumentordnungsprinzipien führen zur Entscheidung für die vierte Variante (RSJ F4)
Anhang 1Binary Independence ModelErgänzende Betrachtungen: informelle Darstellung
70© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Kontingenztabelle der Dokumentverteilung für t
Anhang 1Binary Independence ModelErgänzende Betrachtungen: informelle Darstellung
71
Document Relevance + - Document Indexing
+ reli nreli reli+nreli - rel-reli nrel-nreli rel-reli+nrel-nreli
rel nrel rel+nrel
Document Relevance + - Document Indexing
+ r n-r n - R-r N-n-R+r N-n
R N-R N
rel
rel+nrel
nrel
reli nreli
rel-reli nrel-nreli
reli+nreli
rel-reli +nrel-nreli
R
N
N-R
r n-r
R-r N-n-R+r
n
N-n
Notation Robertson/Sparck Jones Notation Ferber
N Anzahl Dokumenten Anzahl Dokumente mit Term tR Anzahl relevanter Dokumenter Anzahl relevanter Dokumente mit Term t
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Anhang 1Binary Independence ModelErgänzende Betrachtungen: informelle Darstellung
72
Document Relevance + - Document Indexing
+ r n-r n - R-r N-n-R+r N-n
R N-R N
Kontingenztabelle und abgeleitete Termgewichtungsformeln
Robertson/Sparck Jones, 1976
r n-r n R-r N-n-R+r N-n R N-R N
r n-r n R-r N-n-R+r N-n R N-R N
r n-r n R-r N-n-R+r N-n R N-R N r n-r n R-r N-n-R+r N-n R N-R N
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Anhang 1Binary Independence ModelErgänzende Betrachtungen: informelle Darstellung
73
Überlegungen zu Termunabhängigkeiten
Robertson/Sparck Jones, 1976
favorisierte VarianteRSJ F4
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
formale Ableitung im Originalartikel von Robertson/Sparck Jones 1976 die Ableitung für Formel RSJ F4 nach der
Wahrscheinlichkeitstheorie wurde in der mit Beispielen und Zwischenschritten aufbereiteten Darstellung von Ferber auf den vorderen Folien gezeigt
Anhang 1Binary Independence ModelErgänzende Betrachtungen: formale Ableitung
74© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Formel RSJ F4 Robertson/Sparck Jones (1976) führen in die Formel
Korrekturwerte ein um Schätzwerte für neue Dokumente etwas zu
modulieren um Nullwerte in den Brüchen zu vermeiden
bis auf die Korrekturwerte sind die Formel RSJ F4 und Ferbers Formel äquivalent
Anhang 1Binary Independence ModelErgänzende Betrachtungen: Formel
75© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Anhang 1Binary Independence ModelErgänzende Betrachtungen: Formel
76
3)
42
1(41
)41
1(42
rRnNrnrR
r
3
243823
22
)1(
)1(
relrel
nrelnrel
nrelnrel
relrel
ii
ii
5.05.05.0
5.0
rRnNrnrR
r
RSJ F4 1976 RSJ F4ohne Korrekturwerte
Ferber, 1993
Beispiel
© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Literatur
Ricardo Baeza-Yates und Berthier Ribeiro-Neto (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited
Nick Craswell, Dennis Fetterly, Marc Najork, Stephen Robertson, Emine Yilmaz (2009). Microsoft Research at TREC 2009. Web and Relevance Feedback Tracks. In Proceedings of the 18th Text REtrival Conference (TREC-18). http://trec.nist.gov/pubs/trec18/papers/microsoft.WEB.RF.pdf
Reginald Ferber (2003). Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.html frühere Fassung (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99
Norbert Fuhr (2003). Information Retrieval. Skriptum zur Vorlesung im SS03. 24. April 2003.
http://www.is.informatik.uni-duisburg.de/courses/ir_ss03/folien/irskall.pdf Norbert Fuhr und Chris Buckley (1991). A Probabilistic Learning Approach for Document
Indexing. In: ACM Transactions on Information Systems, 9, 3, 1991, S. 223-248. M.E. Maron, J.L. Kuhns (1960). On relevance, probabilistic indexing and information
retrieval. Journal of the ACM, 7, 216-244.
77© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Literatur
Stephen E. Robertson und Karen Spärck Jones (1976).Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S. 129-146. http://www.soi.city.ac.uk/~ser/papers/RSJ76.pdf
Stephen E. Robertson und Stephen Walker (2000). Okapi/Keenbow at TREC-8. In Proceedings of the 8th Text REtrival Conference (TREC-8), Gaithersburg, Maryland, USA: NIST Special Publication, pp. 151–161. http://trec.nist.gov/pubs/trec8/papers/okapi.pdf
Stephen E. Robertson, Stephen Walker (1994).Some simple effective approximations to the 2-Poisoon model for probabilistic weighted retrieval. In: Croft, W. B. und van Rijsbergen C.J. (eds.): Proceedings of the 17 th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, Dublin 1994. Springer-Verlag. S. 232-241. http://www.soi.city.ac.uk/~ser/papers/robertson_walker_sigir94.pdf
Stephen E. Robertson, Stephen Walker, S. Jones, Micheline Hancock-Beaulieu, M. Gatford (1994).Okapi at TREC-3. In: Proceedings of the Third Text Retrieval Conference (TREC-3), S. 103ff, http://trec.nist.gov/pubs/trec3/papers/city.ps.gz
78© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Literatur
Stephen E. Robertson, Stephen Walker, Micheline Hancock-Beaulieu, Aarron Gull, Marianna Lau (1992).Okapi at TREC. In: Proceedings of the First Text Retrieval Conference (TREC-1), S. 21 ff, http://trec.nist.gov/pubs/trec1/papers/02.txt
Stephen E. Robertson, Hugo Zaragoza (2009). The Probabilistic Relevance Framework BM 25 and Beyound. In: Foundations and Trends in Information Retrieval. Vol 3, No 4, 333-389. http://www.soi.city.ac.uk/~ser/papers/foundations_bm25_review.pdf
Stephen E. Robertson, Hugo Zaragoza, Michael Taylor (2004). Simple bm25 extension to multiple weighted fields. In Thirteenth Conference on Information and Knowledge Management (CIKM), 2004. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.9.5255
Karen Spärck Jones, Stephen Walker, Stephen E. Robertson (2000) .A probabilistic model of information retrieval: Development and comparative experiments. IP&M 36 (6): 779-808, 809-840.
Karen Spärck Jones, Stephen Walker, Stephen E. Robertson (1998) .A probabilistic model of information retrieval: Development and Status. TR 446, Computer Laboratory, University of Cambridge (via http://www.cl.cam.ac.uk/)..
C.T. Yu und G. Salton (1976). Precision Weighting. An effective automatic indexing method. Journal of the ACM, 23: 76-88, Juni 1976
79© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010
Copyright
© Karin Haenelt, 2001-2010 All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63 , etc.). shall be applied to these slides.
In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below.
Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please include the
bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.).
please add a bibliographic reference to copies and quotations Deletion or omission of the footer (with name, data and copyright sign) is not permitted if slides are
copied Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Probabilisitische Modell. Kursfolien.
16.3.2010 (1 26.10.2001) http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_IR_Modelle_ProbabV2.0.pdf
graphics, texts or other objects which have not been created by me are marked as quotations For commercial use: In case you are interested in commercial use please contact the author. • Court of Jurisdiction is Darmstadt, Germany
Versionen 2.1: 6.11.2010, 2.0: 16.3.2010, 1.2:18.10.2008, 1.1: 25.10.2006, 1.0: 26.10.2001
80© Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010