Manfred Thaller, Universität zu Köln Köln 23. Januar 2014
-
Upload
brett-vincent -
Category
Documents
-
view
40 -
download
2
description
Transcript of Manfred Thaller, Universität zu Köln Köln 23. Januar 2014
![Page 1: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/1.jpg)
Einführung in die Informationsverarbeitung Teil Thaller
Stunde V: Zusammengefügte Bausteine: Google
Manfred Thaller, Universität zu Köln
Köln 23. Januar 2014
![Page 2: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/2.jpg)
![Page 3: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/3.jpg)
Google - ein „System“
URL Server
URL Auflösung
Sortieren
PageRank Suchen
Crawler Speicher
Indizierer
„Barrels“
Anker
Doc Index
Repository
LexikonLinks
![Page 4: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/4.jpg)
Sergey Brin and Lawrence Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine. Proceedings of the seventh World Wide Web Conference (WWW7), Brisbane 1998, also in a special issue of the Journal Computer Networks and ISDN Systems, Volume 30, issues 1-7.
http://infolab.stanford.edu/~backrub/google.html
Vgl.: http://www.google.com/technology/pigeonrank.html
„Ur Google“
4
![Page 5: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/5.jpg)
Entwickler: Sergey Brin, Lawrence Page.
Name: "Google" Verballhornung von "Googol" ( = 10 100).
System verteilt auf viele kooperierende Rechner: Google operates what is probably the world's largest Linux cluster that puts many supercomputing centers to shame.
Formalia
5
![Page 6: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/6.jpg)
URL Server
CrawlerURL Server
Doc Index
Startet mit Anfangs URL.
Liest weitere URLs aus einem Dokumenten-Index.
Schickt URLs an Crawler um Seiten zu holen.
Wichtig: Art der Suche im WWW (Tiefen v. Breitensuche). 6
![Page 7: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/7.jpg)
Crawler
Crawler
Holen Web-Seiten.
Speichern individuelle Seiten in Speicher-Subsystem.
Mehrere Crawler!
"Robots Exclusion Protocol" - "Wohlverhalten"
Speicher
7
![Page 8: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/8.jpg)
Indizierer I
Liest Seiten aus dem Repository und dekomprimiert sie.
"Parsed" jedes Dokument und verwandelt es in "Treffer", bestehend•aus der Wortform.•der Position innerhalb des Dokuments.•einer relativen Fontgröße.•Anzeige der Großschreibung.
Treffer sind "fancy" (in URL, Überschrift, Anker Text oder Meta-Tag) oder "plain" (alle anderen Fälle).
RepositoryIndizierer
8
![Page 9: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/9.jpg)
Indizierer II
Verteilt Treffer in "barrels", wobei ein sortierter Index entsteht.
Extrahiert Links und speichert sie {Start URL, Ziel URL, Text} in Anker Datei.
Erzeugt Lexikon Datei.
Indizierer
„Barrels“
Anker
Lexikon
9
![Page 10: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/10.jpg)
WordIds = Woridentifikationsnummern
Entstehen, indem die Wortformen sortiert und durchnummeriert werden.
Problem:
![Page 11: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/11.jpg)
Beispiel: Sequentielles Suchen
Suchzeit jedes Namens entspricht Rang in der Liste.
Durchschnittliche Suchzeit: n / 2.
Laufzeit steigt mit der zu durchsuchenden Anzahl
Rückverweis: Algorithmen: Laufzeit
1 Clio
2 Melpomene
3 Terpsichore
4 Thalia
5 Euterpe
6 Erato
7 Urania
8 Polyhymnia
9 Kalliope
![Page 12: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/12.jpg)
Beispiel: Binäres Suchen
Laufzeit: ?
Algorithmen: Laufzeit
1 Clio
2 Erato
3 Euterpe
4 Kalliope
5 Melpomene
6 Polyhymnia
7 Terpsichore
8 Thalia
9 Urania
![Page 13: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/13.jpg)
Beispiel: Binäres Suchen – „Thalia“
„Melpomene“ gleich – größer – kleiner „Thalia“?
„Terpsichore“ gleich – größer – kleiner „Thalia“?
„Thalia“ gleich – größer – kleiner „Thalia“?
Algorithmen: Laufzeit
1 Clio
2 Erato
3 Euterpe
4 Kalliope
5 Melpomene
6 Polyhymnia
7 Terpsichore
8 Thalia
9 Urania
![Page 14: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/14.jpg)
Beispiel: Binäres Suchen
Laufzeit steigt mit Logarithmus der zu durchsuchenden Anzahl.
Algorithmen: Laufzeit
1 Clio
2 Erato
3 Euterpe
4 Kalliope
5 Melpomene
6 Polyhymnia
7 Terpsichore
8 Thalia
9 Urania
![Page 15: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/15.jpg)
1. linear.
2. logarithmisch.
3. exponentiell.
Algorithmen: Laufzeit
N=1 N=10 N=100 N=1000
1 10 100 1000
1 3 7 10
1 103 1030 10300
![Page 16: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/16.jpg)
Relevanz?
Verteilt Treffer in "barrels", wobei ein sortierter Index entsteht.
Extrahiert Links und speichert sie {Start URL, Ziel URL, Text} in Anker Datei.
Erzeugt Lexikon Datei.
Indizierer
„Barrels“
Anker
Lexikon
16
![Page 17: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/17.jpg)
WordIds = Woridentifikationsnummern
Entstehen, indem die Wortformen sortiert und durchnummeriert werden.
Relevanz: ?
![Page 18: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/18.jpg)
Erinnerung
URL Server
URL Auflösung
Sortieren
PageRank Suchen
Crawler Speicher
Indizierer
„Barrels“
Anker
Doc Index
Repository
LexikonLinks
![Page 19: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/19.jpg)
URL Auflösung I
„Barrels“
Anker
URL Auflösung
LinksDoc
Index
19
![Page 20: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/20.jpg)
URL Auflösung II
Liest Anker Datei.
Verwandelt relative URLs in absolute.
Verwandelt absolute URLs in Dokumenten IDs.
Fügt Anker Text in einen vorwärts gerichteten Index ein, zusammen mit den Dokumenten IDs auf die der Anker zeigt.
Erzeugt eine Link Datenbank, die Paare von Dokumenten IDs enthält.(Wird für die Errechnung der PageRanks verwendet!)
20
![Page 21: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/21.jpg)
Sortierung
„Barrels“
Sortieren
Verwandelt einen Index der Dokumenten Ids in einen "invertierten Index", sortiert nach Wort Ids.
"Short barrel" - invertierter Index von Treffern in Titel- und Ankertags.
"Full barel" - invertierter Index der Bodytags.
Enthält Offsets der Dokumentenposition für jede Wort Id. (Nachbarschaftsberechnung / Positionsanzeige.)
21
![Page 22: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/22.jpg)
Page Rank I
Kann beschrieben werden als Modell des Verhaltens von Benutzern.Geht von einem "Zufallssurfer" aus, der von einer bestimmten Seite ausgeht und auf Links clickt.Er / Sie geht nie zurück und wird schließlich weitere Zufallsseite auswählen.Der "PageRank" ist die Wahrscheinlichkeit (p), dass der Surfer eine bestimmte Seite besucht. Die Wahrscheinlichkeit, dass BenutzerIn auf einer Zufallsseite landet ist 1-p.Links
PageRank22
![Page 23: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/23.jpg)
Page Rank II
Wir nehmen an:
•Auf Seite A zeigen die Seiten T1 ... Tn (zitieren sie also).•C(A) ist die Anzahl der Links, die von Seite A ausgehen.•d ist ein empirischer / arbiträrer Dämpfungsfaktor zwischen 0 und 1 (in Google 0.85?).
Dann gilt:
PR(A) = (1-d) + d ( PR(T1) / C (T1) + ... + PR(Tn)/C(Tn) )
PageRanks stellen eine Wahrscheinlichkeitsverteilung dar; die Summe der PageRanks aller Seiten im Web ist also 1.0.
23
![Page 24: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/24.jpg)
Page Rank III
Hoher PageRank kann anzeigen:
Dass sehr viele Seiten auf eine Seite zeigen ...
... oder dass eine relativ kleine Anzahl von Seiten mit hohem PageRank auf diese Seite zeigen.
24
![Page 25: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/25.jpg)
Erinnerung
URL Server
URL Auflösung
Sortieren
PageRank Suchen
Crawler Speicher
Indizierer
„Barrels“
Anker
Doc Index
Repository
LexikonLinks
![Page 26: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/26.jpg)
Repository
Voller (HTML) Text jeder Webseite.
Seiten werden komprimiert gespeichert (ZLIB).
Format:•Dokumenten Id.•Dokumentenlänge.•URL des Dokuments.•Inhalt des Dokuments.
26
![Page 27: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/27.jpg)
Anker
Beschreibung der Verweise in den Seiten
{Start URL, Ziel URL, Text}
Laut Google oft genauere Beschreibung der Seiten, als die Seiten selbst.
Können auch nicht-Texte berücksichtigen.
Problem: Tote Links ...
27
![Page 28: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/28.jpg)
Links
Datenbank aller Paare von Dokumenten Ids.
Basis aller PageRank Berechnungen.
28
![Page 29: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/29.jpg)
Doc Index
Datenbank aller verarbeiteten Dokumente (Web Seiten)
Organisiert als ISAM Datei. (Indexed sequential access mode.) Geordnet nach DokumentenId.
Jeder Eintrag enthält:•Status des Dokuments.•Prüfsumme des Dokuments.•Statistiken zum Dokument.
Angabe ob Seite von Crawlern schon durchsucht wurde.Sonst Verweis auf Liste abzuarbeitender URLs.
29
![Page 30: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/30.jpg)
Lexikon
30
![Page 31: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/31.jpg)
Diagrammatische Darstellung:
„Zeiger“: Ein Speicherinhalt eines Rechners verweist auf einen anderen.
Zur Erinnerung: „Zeiger“
A B
![Page 32: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/32.jpg)
Speicher als „karierte Zeile“
Datenstruktur im Speicher
0 1 2 3 4 5 6 7 8 9 10 11
![Page 33: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/33.jpg)
Zahl „14123“ in Bytes 0 bis 1
Zahl „22445“ in Bytes 10 bis 11
14123 22445
Datenstruktur im Speicher
0 1 2 3 4 5 6 7 8 9 10 11
![Page 34: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/34.jpg)
Zeichen „a“ in Byte 0
Zeichen „q“ in Byte 11
a q
Datenstruktur im Speicher
0 1 2 3 4 5 6 7 8 9 10 11
![Page 35: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/35.jpg)
Zeiger in Bytes 0 bis 1 verweist auf Speicherblock, enthaltend „xy“, beginnend in Byte 10
10 x y
Datenstruktur im Speicher
0 1 2 3 4 5 6 7 8 9 10 11
![Page 36: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/36.jpg)
Zeiger in Bytes 0 bis 1 verweist auf Speicherblock, enthaltend „xy“, beginnend in Byte 10.
Zeiger graphisch
x y
0 1 2 3 4 5 6 7 8 9 10 11
![Page 37: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/37.jpg)
Zeiger verweist von einem Datenblock auf einen anderen.
*
Zeiger graphisch
![Page 38: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/38.jpg)
ergo: Lexikon
38
![Page 39: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/39.jpg)
Barrels I
Datenbank des Inhalts aller verarbeiteten Dokumente (Web Seiten)
Beginnt mit einem Index von Dokumenten Ids, wird danach zu einem Index der Wort IDs sortiert.
Die Suchmaschine sucht zuerst in den "short barrels" nach Treffern (Titel und Anker), erst danach in den "full barrels".
39
![Page 40: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/40.jpg)
Barrels II
40
![Page 41: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/41.jpg)
Google - ein „System“
URL Server
URL Auflösung
Sortieren
PageRank Suchen
Crawler Speicher
Indizierer
„Barrels“
Anker
Doc Index
Repository
LexikonLinks
![Page 42: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/42.jpg)
Suche I
Besonderheiten der Googlesuche:
Google analysiert nicht nur die Wortformen, sondern auch ihren (auch graphischen) Kontext.
Jede Trefferliste enthält Informationen über die Position, den Schrifttyp und die Großschreibung. Zudem wird zwischen "fancy" und "plain" unterschieden - und der PageRank wird berücksichtigt.
Ausgewogenheit zwischen diesen Faktoren.
42
![Page 43: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/43.jpg)
Suche II – Abfragebearbeitung
1. Abfrage "parsen".2. Worte in WortIds verwandeln.3. "Short barrel" auf Anfang der Dokumentenliste für jedes
Wort der Abfrage positionieren.4. Dokumentenliste durchsuchen, bis es Dokument gibt, dass
alle Suchterme enthält.5. Rang dieses Dokuments berechnen, relativ zu den anderen,
die die Bedingungen erfüllen.6. Wenn wir mit der Bearbeitung der "short barrels" fertig sind,
wiederhole Schritt 3 ff. sinngemäß für die "full barrels".7. Wenn wir noch nicht am Ende der Dokumentenliste sind,
gehe zu Schritt 4.8. Gefundene Dokumente nach Rang sortieren und n beste
mitteilen.43
![Page 44: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/44.jpg)
Suche III – Ranking, Einzelwort
1. Trefferliste erstellen.2. Jedem Treffer Typ {Überschrift, Anker, URL, Großer Font,
Kleiner Font ...}, mit spezifischem Typwert, zuweisen.3. Vector der Typen-Gewichte in der Reihenfolge der Typen
erzeugen.4. Typen zählen und Häufigkeiten in Häufigkeitsgewichtungen
verwandeln.5. Häufigkeitsgewichtung normalisieren, am Anfang linear,
dann abnehmend.6. Gewichtungsrang entspricht dem Skalarprodukt aus dem
Vektor der Typengewichte mit dem Vektor der Häufigkeitsgewichte.
7. Kombination aus Gewichtungsrang und PageRank ergibt endgültigen Rang des Dokuments.
44
![Page 45: Manfred Thaller, Universität zu Köln Köln 23. Januar 2014](https://reader036.fdocuments.us/reader036/viewer/2022062304/568134ec550346895d9c2ac1/html5/thumbnails/45.jpg)
Danke für heute!
45