Information Retrieval

Click here to load reader

download Information Retrieval

of 106

description

Information Retrieval. Information Retrieval. Wer befasst sich mit Information Retrieval? Konferenzen – Messen Zeitschriften Wie findet man Literatur? Kurze Geschichte des Information Retrieval Grundlagen: - PowerPoint PPT Presentation

Transcript of Information Retrieval

  • Information Retrieval

  • Information RetrievalWer befasst sich mit Information Retrieval?Konferenzen MessenZeitschriftenWie findet man Literatur?Kurze Geschichte des Information Retrieval

    Grundlagen:Relevanz Pull / Push konkreter vs. problemorientierter Informationsbedarf Recall und Precision Suche nach Datenstzen (Nadel-im-Heuhaufen-Syndrom) Berrypicking - informetrische Suchen Informationsfilter Informationsbarrieren Typologie von Retrievalsystemen: Boolesche Systeme und natrlichsprachige Systeme Weltregionen im Internet - invertierte Dateien

  • Information RetrievalFunktionalitt Boolescher Retrievalsysteme:Datenbankaufruf - feldspezifische Suche - Suche im Basic Index - Blttern im Wrterbuch - Fragmentierung - mengentheoretische Operatoren - Abstandsoperatoren - Hufigkeitsoperatoren - hierarchische Suche datenbankbergreifende Suche - Umformulierung von Suchergebnissen zu Suchargumenten Anzeigen von Suchergebnissen - Bestellen von Volltexten - Suchprofile / SDI Menfhrung vs. Befehlssprache

    Gewichtetes Retrieval:Intellektuelles Gewichten von Schlagworten Gewichten durch Cracken von Ketten beim syntaktischen Indexieren Termhnlichkeiten Themencluster variierbarer Thesaurus

  • Information Retrieval

    Informationslinguistik:Erkennen von Worten Stoppworte Wortstammanalyse Lemmatisierung - Phrasenerkennung Homonyme Synonyme Pronomina-Analysen Fehlertoleranz SOUNDEX - Besonderheiten der deutschen Sprache MILOS/KASCADE

    Textstatistik (Relevance Ranking I):Worthufigkeiten dokumentspezifische Wortgewichtung Position im Dokument inverse Dokumenthufigkeit FREESTYLE - Vektorraummodell probabilistisches Modell INQUERY Anreichern von Suchargumenten - ALTAVISTA - Relevance Feedback

  • Information RetrievalLink-Topologie (Relevance Ranking II):Zitationsindexierung - Link-Analyse Hubs und Authorities - PageRank kontextspezifischer PageRank Nutzungsanalyse - GOOGLE

    Automatische Indexierung mit Vorzugsbennungen:Indexierung mit Deskriptoren und Notationen FACTIVA - ortsabhngiges Ranking (GIS / regionale Klassifikation)

    Automatische Indexierung mit freien Schlagworten:Schlagwortvergabe bei SMART automatische Klassifikation Northern Light

    Assoziative Suche / More like this:linguistische Variante zitatenanalytische Variante

  • Information RetrievalInformationsextraktion:bereichsspezifisches Retrieval Faktenextraktion aus Volltexten Faktenextraktion aus Literaturdatenbanken

    CLIR (Cross-Language Information Retrieval):Sprachidentifikation maschinelles bersetzen wrterbuchunabhngige Verfahren

    Sponsored Links (Einkaufen in Ausgabelisten):Ersteigern von Listenpositionen AdWords (GOOGLE) - OVERTURE

    Informationsvisualisierung:Formulierung des Sucharguments Ausgabe von Nicht-WWW-Dokumenten Ausgabe von WWW-Dokumenten KARTOO - Ausgabe informetrischer Ergebnisse

  • Information RetrievalBasisliteratur:Reginald Ferber: Information Retrieval. Suchmodelle und Data-Mining-Verfahren fr Textsammlungen und das Web. Heidelberg: dpunkt.verlag, 2003.William B. Frakes; Ricardo Baeza-Yates (Hrsg.): Information Retrieval. Data Structure & Algorithms. Upper Saddle River, NJ: Prentice Hall, 1992.Eleonore Poetzsch: Information Retrieval. Einfhrung in Grundlagen und Methoden. Potsdam: Verl. fr Berlin-Brandenburg, 3. Aufl., 2002.Eleonore Poetzsch: Wirtschaftsinformation. Online CD-ROM - Internet. Potsdam: Verl. fr Berlin-Brandenburg, 2001.Karen Sparck-Jones; Peter Willett (Hrsg.): Readings in Information Retrieval. San Francisco: Morgan Kaufmann, 1997.Wolfgang G. Stock: Informationswirtschaft. Management externen Wissens. Mnchen; Wien: Oldenbourg, 2000.

  • Information RetrievalWer befasst sich mit Information Retrieval?

  • Information RetrievalInformatikInformationswissenschaftLinguistikRetrievalsoftwareKommerzielle Datenbanken und HostsSuchmaschinen im Internet

  • Information RetrievalKonferenzenACM SIGIRConference on Research and Development in Information Retrieval (seit 1977; Fokus: informatische, computerlinguistische und informationswissenschaftliche Grundlagen) ACM: Association for Computing Machinery SIGIR: Special Interest Group on Information RetrievalTREC (seit 1992; Fokus: Evaluation von Retrievalsystemen) Text REtrieval ConferenceWorld Wide Web Conference (seit 1994; Fokus: Retrieval-systeme im Internet)

  • Information RetrievalMessen (mit Tagungen)Online Information (London)National Online Meeting (USA)ComInfo / DGI-Online-Tagung (Frankfurt/M.) (Fokus: jeweils auf kommerzielle Datenbanken und Hosts)

    Verbnde in DeutschlandFachgruppe Information Retrieval der Gesellschaft fr InformatikOnline-Benutzergruppe in der DGI (OLBG) DGI: Deutsche Gesellschaft fr Informationswissenschaft und Informationspraxis

  • Information RetrievalZeitschriften:Journal of the American Society for Information Science and Technology (JASIST)Communications of the ACMInformation Processing & ManagementInformation RetrievalJournal of Documentation

    Spezialsuchmaschine:CiteSeer von NEC Research Institute (citeseer.com)C. Lee Giles; Kurt D. Bollacker; Steve Lawrence: CiteSeer: An Automatic Citation Indexing System. In:Digital Libraries 98. New York: ACM, 1998, 89-98.

  • Information RetrievalEine kurze Geschichte des Information Retrieval:Beginn der Forschungen: Anfang der 60er JahreExperimente mit natrlichsprachigen Systemen: Gerard Salton (1927 1995) Vektorraummodell, SMART

    Vorbereitungen kommerzieller Online-Systeme: Roger Kent Summit (geb. 1930) DIALOG

  • Information RetrievalEine kurze Geschichte des Information Retrieval:Theoriebildungen / erste Anwendungen: 70er JahreErstes Online-System: DIALOG 1972Theoretische Grundlagen, Gewichtungsverfahren: Karen Sparck-Jones / Donna Harman / C.J. Keith van Rijsbergen (geb. 1943)Probabilistisches Modell: Stephen E. RobertsonSparck-JonesRobertsonvanRijsbergen

  • Information RetrievalEine kurze Geschichte des Information Retrieval:Erfolg der Booleschen Online-Systeme in Praxis einsetzbare natrlichsprachige Systeme (nur moderat erfolgreich): 80er Jahrediverse Online-Hosts, auch in Deutschland: GENIOS, GBI u.a.natrlichsprachige Systeme: OKAPI, INQUERY; in Deutschland: AIR/PHYS: Gerhard Lustig, Norbert Fuhr, Gerhard KnorzFuhrKnorz

  • Information RetrievalEine kurze Geschichte des Information Retrieval:Boom durch Word Wide Web: 90er Jahregroangelegte Retrievaltests: TREC (Donna Harman)natrlichsprachige Oberflchen auch bei Online-Hosts: Freestyle, WINRetrievaltechniken frs Web: Technologiefhrer bei klassisch orientierten Systemen: AltaVista (Louis Monier)Technologiefhrer bei Systemen unter Nutzung der Web-Topologie: Google (Lawrence Larry Page; Sergey Brin; Monika R. Henzinger)Brin (li.)PageMonierHenzinger

  • Grundlagen des Information Retrieval

  • Grundlagen des Information RetrievalInfor-mations-bedarfDBEDok. Bezugs-einheitenDEDokumen-tations-einheitenFrageTrefferInformation RetrievalInformation IndexingVergleich der Begriffe

  • Grundlagen des Information RetrievalRelevanz - PertinenzRelevanz: Wann ist ein Dokument fr ein Suchargument relevant?(1) wenn es objektiv zur Vorbereitung einer Entscheidung dient(2) wenn es objektiv eine Wissenslcke schliet(3) wenn es objektiv eine Frhwarnfunktion erflltPertinenz: Wann ist ein Dokument fr einen Nutzer pertinent?(1) wenn es subjektiv zur Vorbereitung der Entscheidung eines Nutzers dient(2) wenn es subjektiv eine Wissenslcke des Nutzers schliet(3) wenn es subjektiv eine Frhwarnfunktion fr den Nutzer erfllt

  • Grundlagen des Information RetrievalRelevanz - PertinenzZiele des Information Retrieval:Gewinnung relevanter / pertinenter Dokumente, die objektives Wissen enthaltenUmwandlung des gefundenen objektiven Wissens in subjektives Wissen beim Nutzer (was auch heit: der Nutzer muss die Fhigkeit haben, das entsprechende Wissen zu verstehen)Ableitung von Handlungen aus dem gefundenen Wissen auf der Basis der eigenen Vorkenntnisse neues, handlungsrelevantes Wissen zu kreieren

  • Grundlagen des Information RetrievalRelevanz - PertinenzVoraussetzungen fr erfolgreiches Retrieval:das richtige Wissenzum richtigen Zeitpunkt (just in time)am richtigen Ortim richtigen Umfangin der richtigen Formmit der richtigen Qualitt,wobei richtig heit:(1) Wissen, Zeitpunkt usw. haben (objektiv betrachtet) Relevanz(2) Wissen, Zeitpunkt usw. werden vom Nutzer (subjektiv betrachtet) als passend eingeschtzt: haben Pertinenz

  • Grundlagen des Information RetrievalRetrieval: Pull und PushPull-Service: zur Befriedigung von ad-hoc auftretendem Informationsbedarf sucht ein Nutzer aktiv in Informationssystemen nach WissenPush-Service: zur Befriedigung eines (ber einen gewissen Zeitraum) andauernden Informationsbedarf wird ein Nutzer vom Informationssystem mit jeweils aktuellem, neuem Wissen versorgt. Push-Services sorgen fr current awarenessArbeitsschritt 1: Festlegen eines Informationsprofils (fhrt Nutzer durch)Arbeitsschritt 2: Periodische Lieferung von Wissen (fhrt Informationssystem automatisch durch) SDI (selective dissemination of information) oder Alert

  • allgemeine Infor-mationenexklusive Infor-mationenzielgruppen-spezifische InformationenPull-ServicePush-ServicePass-wrterBenutzer-sichtenfreier Zugang(a) E-Mail-Verteiler (b) personalisiert auf HomepageGrundlagen des Information Retrieval

  • Grundlagen des Information RetrievalThemenbearbeitungszeitbekannte Informationengedeckter Informationsbedarfunbekannte Informationenungedeckter Informationsbedarft1t2erhalten durch Push-Serviceerhalten durch Pull-ServiceR.Schnfelder: Inhaltliche und methodische Probleme einer rationellen Informationsplanung in Forschung und Entwicklung. In: Informatik 22 (1975) 6, 49-52.

  • Grundlagen des Information RetrievalFrage- und AntworttypenKonkreter Informationsbedarf (Faktenfrage)Welchen Umsatz hatte Unternehmen X im Dezember 1998 in der Region Z?Wo liegt der Schmelzpunkt von Kupfer?Wie schlo der Dollarkurs letzten Freitag an der Frankfurter Brse?Wann hat mein Geschftspartner X Geburtstag?Problemorientierter Informationsbedarf (Literatur)Welche Methoden der fuzzy logic lassen sich beim Data Mining einsetzen?Wie hngen Marketing und Qualittsmanagement zusammen?Wie bewerten Analysten das Unternehmen X?Wie beschreiben Marktforscher das Konsumklima fr auslndischen Wein in Ungarn?Valery I. Frants; Jacob Shapiro; Vladimir G. Voiskunskii: Automated Information Retrieval. San Diego [u.a.]:Academic Press, 1997. - Kap. 2.3: The information need, 34-40.

  • Grundlagen des Information RetrievalKonkreter Informationsbedarf1. Thematische Grenzen sind klar angesteckt.2. Die Suchfrageformulie-rung ist durch exakte Terme ausdrckbar.3. Eine Faktenfrage reicht aus, um den Bedarf zu decken.4. Mit der bermittlung der Fakteninformation ist das Informationsproblem erledigt.Problemorientierter Informationsbedarf1. Thematische Grenzen sind nicht exakt.2. Die Suchfrageformulie-rung lt terminologische Varianten zu.3. Es mssen diverse Doku-mente aus unterschiedlichen Quellen beschafft werden.4. Mit der bermittlung der Literaturinformation wird ggf. das Informationsproblem modifiziert oder ein neuer Bedarf entdeckt.

  • Grundlagen des Information RetrievalAspekte der Relevanz:Haben wir alle Datenstze gefunden, die handlungs-relevantes Wissen beinhalten? (Vollstndigkeit; Recall)Recall = a / a + c

    Haben wir nur solche Datenstze gefunden? (Genauigkeit, Precision)Precision = a / a + b

    a =: gefundene relevante Trefferb =: nichtrelevante Datenstze, die in der Treffermenge enthalten sind (Ballast)c =: relevante Datenstze in der Datenbank, die nicht gefunden wurden

  • Grundlagen des Information RetrievalRecall und Precision beim konkreten InformationsbedarfRecall = 1Precision = 1Recall und Precision beim problemorientierten Informationsbedarfinverse Relation zwischen Recall und Precisionbei Erhhung des Recall: Absinken der Precisionbei Erhhung der Precision: Absinken des Recallempirischer Schtzwert: Recall + Precision = 1

    Achtung Problem: dies ist ein theoretisches Modell; genaue Messergebnisse sind unmglich, da der Wert c in groen Datenbanken prinzipiell unbekannt ist.

  • Grundlagen des Information Retrieval100Recall100P r e c i s i o ndurchschnittlichesInformation RetrievalDer heilige Gral der RechercheureZugewinndurchelaborierteSucheRoss Evans: Beyond Boolean: Relevance ranking, natural language and the New Search Paradigm. In:Proceedings of the Fifteenth National Online Meeting. Medford: Learned Information, 1994, 121-128.

  • Grundlagen des Information RetrievalSuchanstze(1) Suche nach Datenstzen (oder Teilen davon) Nadel-im-Heuhaufen-SyndromStrategie beim problemorientierten Informationsbedarf: BerrypickingMarcia J. Bates: The design ofbrowsing and berrypickingtechniques for the online searchinterface. In: Online Review13 (1989), 407-424.

  • Grundlagen des Information RetrievalSuchanstze(2) informetrische Suche Charakterisierung ganzer Heuhaufen, d.h. von TreffermengenFaktenextraktion aus Datenbanken. Generierung von neuartigen Informationen durch das RetrievalRangordnungenZeitreihensemantische NetzeInformationsflussgraphenHinweis: informetrische Suchen werden in der Vorlesung Empirische Informationswissenschaft behandelt.Wolfgang G. Stock: Wirtschaftsinformationen aus informetrischen Online-Recherchen. In:Nachrichten fr Dokumentation 43 (1992), 301-315.

  • Grundlagen des Information RetrievalInformationsfilterung (erwnschte Einschrnkung auf relevante / pertinente Dokumente)durch Strukturierung der Dokumentedurch Indexieren (Informationsfilter i.e.S.)ThesaurusKlassifikationTextwortmethodeZitationsindexierungusw.durch InformationsverdichtungAbstractsOntologienTopic Maps

  • Grundlagen des Information RetrievalInformationsbarrieren (unerwnschte Einschrnkung auf Teilmengen der relevanten / pertinenten Dokumente)politisch-ideologische BarriereEigentumsbarriereGesetzesbarriereZeitbarriereEffektivittsbarriereFinanzierungsbarriereTerminologiebarriereFremdsprachenbarriereZugangsbarriereBarrieren durch Mngel beim Information RetrievalBewusstheitsbarriereResonanzbarriereHeinz Engelbert: Der Informationsbedarf in derWissenschaft. Leipzig: Bibliographisches Institut, 1976. Kap. 4: Informationsbarrieren, 59-72.

  • Grundlagen des Information Retrieval

    InformationsbarrierenWolfgang G. Stock: Informationswissenschaft und praxis in der Deutschen Demokratischen Republik. Frankfurt:IDD Verl. Werner Flach, 1986, S. 64.

  • Grundlagen des Information RetrievalTypologie von Retrievalsystemen(1) Boolesche SystemeGeorge Boole (1815 1864), englischer Mathematiker und Logiker (Boolesche Algebra)

    Boolesche Systeme erfordern die bersetzung einer Anfrage in eine formale Sprache. Country AND Western ANDNOT Garth Brooks

  • Grundlagen des Information RetrievalTypologie von Retrievalsystemen(2) Natrlichsprachige SystemeNatrlichsprachige Systeme erwarten Anfragen in gewhnlicher Sprache (mittels ganzer Stze, einzelner Terme oder auch ganzer Musterdokumente).Beispiele: kommerzielle Content-Aggregatoren mit natrlichsprachiger Suche: WIN (Westlaw), Target (DIALOG), Freestyle (Lexis-Nexis); Content-Aggregatoren mit natrlichsprachiger automatischer Indexierung: FACTIVA, Dialog Profound, Dialog NewsEdge; alle Suchmaschinen im WWWKomponenten:a) Informationslinguistik (Abgleich Suchargument Dokumente)b) Informationsstatistik (Relevance Ranking)c) nicht immer: Ordnungssysteme (terminologische Kontrolle)

  • Grundlagen des Information RetrievalTypologie von Retrievalsystemen(3) Kombinierte SystemeBoolesches und natrlichsprachiges Retrieval in Kombination(a) zuerst Boolesches Retrieval, danach in Treffermenge Relevance RankingBeispiele: diverse Content-Aggregatoren, AltaVista(b) zuerst Informationslinguistik, danach in Treffermenge Feinrecherche mittels Boolescher OperatorenBeispiel: Lexis-Nexis

  • Grundlagen des Information RetrievalWeltregionen des Internet:Die Oberflche

    digitale Dokumente im Web(prinzipiell) auffindbar durch SuchwerkzeugeDokumente sind u.U. unerwnschter Ballast (Spam)

    Suchwerkzeuge / Typen:SuchmaschinenWebkatalogeMeta-SuchmaschinenPortale

  • Grundlagen des Information RetrievalSuchmaschinen (Search Engines)

    Mechtild Stock; Wolfgang G. Stock: Informationslinguistik und -statistik: AltaVista, FAST und Northern Light. In: Password Nr.1 (2001), 16-24. - Mechtild Stock; Wolfgang G. Stock: RelevanceRanking nach Popularitt von Webseiten: Google. In: PasswordNr. 2 (2001), 20-27.

  • Grundlagen des Information RetrievalSuchmaschinen (Search Engines)Gegenstand: Dokumente im Internet (WWW, Newsgroups), gerichtet auf einzelne Webseitenautomatisches Einsammeln der Dokumente mittels Crawlerautomatisches Aktualisieren der DatenbasisKopieren der Dokumente (oder von Teilen) in die eigene Datenbankautomatisches Indexieren der kopierten Dokumenteeher groe Datenbasis (mehrere Mrd. Dokumente)Suchsystem mit natrlichsprachiger Eingabe und mit Profi-Oberflche

  • Grundlagen des Information RetrievalWebkataloge (Web-Directories)Mechtild Stock; Wolfgang G. Stock: Klassifikation und terminologi-sche Kontrolle: Yahoo!, Open Directory und Oingo im Vergleich. In: Password Nr. 12 (2000), 26-33.

  • Grundlagen des Information RetrievalWebkataloge (Web-Directories)Gegenstand: Dokumente im WWW (z.T. zustzlich exklusive Dokumente, z.B. News), gerichtet vor allem auf Einstiegs-seiten in Websitesintellektuelle Auswahlintellektuelles Indexieren (i.d.R. Klassifikation)Datenbasis: Titel der Dokumente (vom Webkatalog oder vom Anmeldenden vergeben) und URLeher kleine Datenbasis (einige Mio. Dokumente)unregelmiges UpdateSuchsysteme mit Klassifikationshierarchien und natrlichsprachiger Suche (ber die Klassenbezeichnungen und die Dokumententitel)

  • Grundlagen des Information RetrievalMeta-Suchmaschinen

  • Grundlagen des Information RetrievalMeta-Suchmaschinenkeine Datenbasis; greifen auf die Datenbasen anderer Suchwerkzeuge zurck (Schmarotzer)a) Metasuchmaschinen ohne eigenen informationellen Mehrwert (auer der Abfrage diverser Suchwerkzeuge und ggf. Dublettenelimination)b) Metasuchmaschinen mit Angebot von Dokumentationssprachen (z.B. Thesaurus)c) mit Bearbeitung eingesammelter Dokumente

  • Grundlagen des Information RetrievalPortaleinheitlicher Einstiegspunkt in das WWW (allgemein: horizontales Portal; fachspezifisch: vertikales Portal)SimplizittBereitstellung von Suchwerkzeugen (Suchmaschine und Katalog)allgemein interessierende bzw. fachspezifische (mglichst) exklusive Inhalte (News, Aktienkurse)Zusatzfunktionalitten (Tools mit benutzerspezifischem Gebrauchswert, z.B. bersetzungsprogramme, Kalender, Adressbuch)Personalisierung (Verwalten von Informationsprofilen MyXXX)Kommunikation (E-Mail-Accounts, themenspezifische Chatrooms, Platz fr benutzereigene Homepage o..)Hermann Rsch: Internetportal, Unternehmensportal,Wissenschaftsportal. In: Gerhard Knorz; Rainer Kuhlen(Hrsg.): Informationskompetenz Basiskompetenz inder Informationsgesellschaft. Konstanz: UVK, 2000, 245-264.

  • Grundlagen des Information RetrievalWeltregionen des Internet: Das Deep Web (oder Invisible Web)digitale Dokumente, die nicht direkt im Web liegen, aber via Web erreichbar sindderzeit nicht auffindbar durch SuchwerkzeugeDokumente sind (meist) qualittsgeprftTerminologie: invisible Web Sherman & Price Deep Web Bergman (Schtzung: Deep Web ist 500mal grer als das Oberflchenweb wahrscheinlich stark berschtzt)Typen:Kostenfreie singulre DatenbankenKommerzielle InformationsanbieterSelbstvermarkterContent-Aggregatoren (Online-Hosts)

    Chris Sherman; Gary Price: The Invisible Web. Medford: Information Today, 2001.Michael K. Bergman: The Deep Web: Surfacing Hidden Value. In: The Journal of Electronic Publishing 7 (2001) Iss.1

  • Grundlagen des Information Retrieval(Kostenfreie) Singulre Datenbanken im Webthematisch orientierte Datenbanken(i.d.R.) aufgebaut von ffentlichen Einrichtungen (durch ffentliche Mittel bereits finanziert)mehrere tausend Datenbanken via Web erreichbar

  • Grundlagen des Information Retrieval(Kommerzielle) Singulre Datenbanken im Web Selbstvermarkterthematisch orientierte Datenbanken(i.d.R.) aufgebaut von Privatunternehmen mit dem Zweck der Erzielung von Gewinnenteilweise auch zustzlich bei Content-Aggregatoren aufgelegtMechtild Stock; Wolfgang G. Stock: Professionelle Informationen ber deutsche Unternehmen im Internet. In: Password Nr. 11 (2001), 26-33, und Nr. 12 (2001), 18-25.

  • Grundlagen des Information RetrievalContent-AggregatorenWirtschaftBndelung wirtschaftsrelevanter Datenbasen unter einer OberflcheWirtschaftsnachrichten, Firmeninformationen, Wirtschaftswissenschaft, Marktdaten usw.Mechtild Stock: GBI the contentmachine. Wirtschaftsinformationen fr Hochschulen, Unternehmen und Internet-Surfer. In: Password Nr. 2 (2003), 8-17; Mechtild Stock; Wolfgang G. Stock : Dialog / DataStar. One-Stop-Shops internationaler Fachinformationen. In: Password Nr. 4 (2003), 22-29. - Mechtild Stock; Wolfgang G. Stock :Dialog Profound / NewsEdge: Dialogs Spezialmrkte fr Marktforschung und News. In: Password Nr. 5 (2003).

  • Grundlagen des Information RetrievalContent-AggregatorenNewsBndelung von Nachrichten-Datenbasen unter einer Oberflche(real-time)-Informationen von Nachrichtenagenturen, Zeitungen, ZeitschriftenMechtild Stock: Factiva.com. Neuigkeiten auf der Spur. In: Password Nr. 5 (2002), 31-40. - Mechtild Stock;Wolfgang G. Stock: Von Factiva.com zu Factiva Fusion. Globalitt und Einheitlichkeit mit Integrationslsungen. In: Password Nr. 3 (2003), 19-28. Mechtild Stock: ASV Infopool. Boulevard online. In: Password Nr. 10(2002), 22-27.

  • Grundlagen des Information RetrievalContent-AggregatorenWTM (Wissenschaft Technik Medizin)Bndelung von Wissenschaftsdatenbasen unter einer Oberflchedisziplinspezifische bibliographische Datenbasen, Volltexte von Wissenschaftszeitschriften, ZitationsdatenbankenWolfgang G. Stock: Web of Science. Ein Netz wissenschaftlicher Informationen gesponnen aus Funoten. In:Password Nr. 7+8 (1999), 21-25.

  • Grundlagen des Information RetrievalContent-AggregatorenRechtBndelung von juristischen Datenbasen unter einer OberflcheUrteile, Volltexte juristischer Zeitschriften, bibliographische Datenbanken

  • Grundlagen des Information RetrievalWeltregionen des InternetGrenzberschreitungenHybrid-Suchmaschine (Content-Aggregator und WWW-Suchmaschine)

  • Grundlagen des Information RetrievalWeltregionen des Internet / GrenzberschreitungenQuerweltein-ErgnzungenSuchmaschinen mit Links ins Deep Web. Beispiel: AltaVista (Oberflchenweb) Wer liefert was? (Deep Web)

  • Grundlagen des Information RetrievalWeltregionen des Internet / GrenzberschreitungenQuerweltein-ErgnzungenDeep Web-Datenbank mit Links ins OberflchenwebBeispiel: HWWA-Wirtschaftsdatenbank

  • Grundlagen des Information RetrievalWeltregionen des Internet / berblickWolfgang G. Stock: Weltregionen des Internet: Digitale Informationen im WWW und via WWW. In: PasswordNr. 2 (2003), 26-28.

  • Grundlagen des Information RetrievalWeltregionen des Internet und die Welt gedruckter Dokumente... wenn die bentigten Dokumente nur in Printausgaben vorliegen:Nutzung von Document Delivery Services

  • Grundlagen des Information RetrievalTypische Dokumente: Wirtschafts-information

    Beispiel: Firmendossier (Creditreform Online) - 1 -

  • Grundlagen des Information RetrievalBeispiel: Firmendossier (Creditreform Online) - 2 -

  • Grundlagen des Information RetrievalBeispiel: Firmendossier (Creditreform Online) - 3 -

  • Grundlagen des Information RetrievalBeispiel: Firmendossier (Creditreform Online) - 4 -

  • Grundlagen des Information RetrievalTypische Dokumente: NewsBeispiel: Zeitungsartikel bei Factiva- 1 -

  • Grundlagen des Information RetrievalBeispiel: Zeitungsartikel bei Factiva- 2 -

  • Grundlagen des Information RetrievalTypische Dokumente: WTM (1)

    Beispiel: Bibliographischer Nachweis / MEDLINE bei DIMDI

  • Grundlagen des Information RetrievalTypische Dokumente: WTM (2)

    Beispiel: PatentnachweisDerwent bei DIALOG - 1 -

  • Grundlagen des Information RetrievalBeispiel: PatentnachweisDerwent bei DIALOG - 2 -

  • Grundlagen des Information RetrievalTypische Dokumente: Rechts-information

    Beispiel: Grundsatzurteil (Juris) - 1 -

  • Grundlagen des Information RetrievalBeispiel: Grundsatzurteil (Juris) - 2 -

  • Grundlagen des Information RetrievalTypische Dokumente: WWW

  • Grundlagen des Information RetrievalDateienDokumentenspeicher (sequentielle Aufnahme aller Daten eines Dokumentes) Zuordnung einer eindeutigen Dok.-Nr.Invertierte Dateien: feldspezifische (i.d.R. alphabetische) Listen aller Eintrge eines Feldes aller Dokumente unter Zuordnung der Dok.-Nr. und weiterer AngabenBasic Index: Invertierte Datei ber bestimmte Felder (je nach System alle Felder oder Auswahl)Wortindex: jedes einzelne Wort ist IndexeintragPhrasenindex: zusammengehrige Phrasen bilden einen Indexeintrag

  • Grundlagen des Information RetrievalInvertierte Dateien. Jeder Eintrag enthlt:eigene Adresse im SpeicherDokumentnummer(n) bzw. deren Adresse(n)Hufigkeit in GesamtdatenbankAnzahl der Dokumente, in denen der Eintrag (min. einmal) vorkommtGesamtanzahl des Vorkommens in der DatenbankPosition(en) im DokumentWortnummer(n)Vorkommen in Satz/Stzen Nummer(n) X, X, ...Vorkommen in Absatz/Abstzen Nummer(n) Y, Y, ...beim Einsatz syntaktischen Indexierens: Vorkommen in Themenkette(n) T, T, ...ggf.: Kennzeichen auf Position (z.B. Gre des Druckerfonts)ggf.: Gewichtungswertggf. jeder Eintrag zweimal: normale Buchstabenfolge und zustzlich rcklufig

  • Grundlagen des Information RetrievalInvertierte Dateien. Beispiel (Textbody)

    Eintrag:Unternehmen / nemhenretnU

    Dok.-Nr.2, 23, 45, 56# Dok.4# insg.7Wort-Nr.(2: 4, 28), (23: 99), (45: 13, 17, 55), (56: 432)Satz-Nr.(2: 1, 3), (23: 15), (45: 9, 9, 15), (56: 58)Absatz-Nr.(2: 1, 1), (23: 1), (45: 1, 2), (56: 4)Font(2.4: 28), (2.28: 10), (23.99: 12), (45.13: 72), (45.17: 12), (45.55: 12), (56.432: 20)

  • Grundlagen des Information RetrievalInvertierte Dateien. Beispiel (Deskriptorfeld)

    Eintrag:Just in Time-Logistik / kitsigoL-emiT ni tsuJ

    Dok.-Nr.44, 1204# Dok.2# insg.8Kette-Nr.(44: 1, 3, 10), (1204: 1-5)Gewichtung(44: 33), (1204: 100)

  • Grundlagen des Information RetrievalWie kommen die Datenbanken zu ihren Dokumenten?

    (1) intellektuelle Auswahl nach Kriterien der Dokumentationswrdigkeit(2) automatisches Einsammeln durch Crawler (Spider, Robots)Verfolgen der Links in bereits gesammelten DokumentenBeachtung von Robot Exclusion Standards

  • Grundlagen des Information RetrievalCrawler. Beispiel: Scooter von AltaVista

    Louis M. Monier: System for adding a new entry to a web page table upon receiving a webpage including a link to another web pagenot having a corresponding entry in the webpage table. Patent Nr. US 6.032.196. Assignee: Digital Equipment Corp. Prioritt: 28. August 1998; erteilt: 29. Februar 2000.

    ja

    nein

    ja

    nein

    ja

    nein

    Analyse der erfassten Web-Seite

    Sind alle URL-Links zu anderen Web-Seiten abgearbeitet?

    Sende erfasste Seite an das Indexierungssystem

    Bearbeite nchste URL

    Ist im Speicher bereits ein Eintrag fr diese URL?

    Ist im Speicher bereits ein Eintrag fr eine definierte Spiegelung dieser URL?

    Fge Eintrag fr eine neue Web-Seite in den aktuellen

    Puffer ein (Markierung: "nicht erfasst");

    fge Eintrag fr eine neue Web-Seite in die Datenbank

    ein (Markierung: "nicht erfasst")

  • Funktionalitt Boolescher Retrievalsysteme

  • Funktionalitt Boolescher RetrievalsystemeEinsatz boolescher Systeme bei:bibliographischen DatenbankenVolltextdatenbankenFaktendatenbankenz.T. bei Suchmaschinen im WWW

    Varianten:befehlsorientiert (fr Information Professionals)mengefhrt (fr Laien)Wolfgang G. Stock: Informationswirtschaft. Mnchen; Wien: Oldenbourg. 2000. - Kap. 4: Retrieval von elektronischen Informationen: Techniken und Strategien, 90-118.

  • Funktionalitt Boolescher RetrievalsystemeMengefhrtes Boolesches RetrievalsystemBeispiel: Profound

  • Funktionalitt Boolescher RetrievalsystemeBefehls-orientiertesBoolesches RetrievalsystemBeispiel: DialogWeb

  • Funktionalitt Boolescher RetrievalsystemeArbeiten mit booleschen RetrievalsystemenSuchen nach den bestpassenden Datenbanken (Nadel-im-Heuhaufen-Syndrom Phase 1)Derzeit existieren mehrere zehntausend fachspezifische Datenbanken. (Hinweis: recht vollstndig ist der Datenbankfhrer von GALE)Suchen nach den bestpassenden Dokumenten (Nadel-im-Heuhaufen-Syndrom Phase 2)Derzeit existieren (auerhalb des WWW) mehrere zehnmilliarden Dokumente.Ausgeben der gefundenen DokumenteInitiierung eines Pushdienstes

  • Funktionalitt Boolescher RetrievalsystemeSuchen nach bestpassenden Datenbanken (Nadel-im-Heuhaufen-Syndrom Phase 1)Bluesheets: Detaillierte Datenbankbeschreibungen

  • Funktionalitt Boolescher RetrievalsystemeDatenbankindex: Suchen der bestpassenden Datenbanken (befehlsorientierte Variante)ffnen der Indexdatenbank (bei DIALOG: b 411)Einschrnken auf thematischen Bereich / SET FILES (sf papersmj, 47, not 703)Suchargument eingeben / SELECT (s XXX)ggf. Suchargument speichern / SAVE TEMP (save temp Name)Rangordnung der Datenbanken nach Treffern zum Suchargument / RANK FILES (rf)Aussuchen der Datenbanken; Aufrufen entweder mit File-Name oder mit Ausgabenummer (N1, N2, ...) / BEGIN (b N1-N9)

  • Funktionalitt Boolescher RetrievalsystemeDatenbankindex: Beispiel DIALOG (1)

  • Funktionalitt Boolescher RetrievalsystemeDatenbankindex: Beispiel DIALOG (2)

  • Funktionalitt Boolescher RetrievalsystemeDatenbankindex: Suchen der bestpassenden Datenbanken (mengefhrte Variante)Beispiel: GBI (CROSS)

  • Funktionalitt Boolescher RetrievalsystemeSuchen nach bestpassenden Dokumenten (Nadel-im-Heuhaufen-Syndrom Phase 2)Zugang zu Datenbanken

    ffnen einer Datenbank / BEGIN 3ffnen von Segmenten einer Datenbank (etwa: nur die letzten zwei Jahrgnge) / BEGIN 3 CURRENT 2ffnen mehrerer (gleich strukturierter) Datenbanken gleichzeitig / Einzelauswahl / BEGIN 3, 45, 47ffnen mehrerer Datenbanken eines vordefinierten Datenbankclusters / BEGIN PAPERS

  • Funktionalitt Boolescher RetrievalsystemeFeldspezifische Suchealphanumerische Felder (wie AU, CT, TI, ...) / SELECTS AU=Marx, Karl (bei Phrasenindex)S AU=Marx AND AU=Karl (bei Wortindex)numerische Felder (wie YR, UM, PL, ...) / algebraische Operatoren (gleich, grer, kleiner)YR=2003; YR>1999; YR
  • Funktionalitt Boolescher RetrievalsystemeSchreibvarianten (Beispiele: Lexis-Nexis)ohne weitere Befehle: je nach System: nicht zeichensensitiv, automatische Pluralbildung, automatische Weiterleitung zum Deskriptornur Grobuchstaben suchen: ALLCAPS ALLCAPS aids (findet AIDS)nur Kleinbuchstaben suchen: NOCAPSNOCAPS aid (findet aid)erster Buchstabe gro: CAPS CAPS aid (findet Aid)nur Pluralform suchen: PLURALPLURAL job (findet jobs)nur Singularform suchen: SINGULARSINGULAR job (findet job)

  • Funktionalitt Boolescher RetrievalsystemeFragmentierung (Truncation)Links-, Mitte-, Rechtsfragmentierungoffene Fragmentierung (beliebig viele Zeichen werden ersetzt) / $Unternehm$ findet Unternehmen, Unternehmung, Unternehmensgeschichtsschreibungstheorie, ...$unternehmen findet Bauunternehmen, Chemieunternehmen, Stahlunternehmenbegrenzte Fragmentierung (genau ein Zeichen wird ersetzt) / *Unternehm*** findet Unternehmen, Unternehmung, aber nicht lngere TermeMa*er findet Maier, Mayer, Majer (aber auch Maler)Je nach System mssen n Zeichen (oft: 3 oder 5) vor oder nach dem Jokerzeichen vorhanden seinAchtung bei grozgiger Fragmentierung: $affe$

  • Funktionalitt Boolescher RetrievalsystemeSchnittmengeA UND B

    1. Invertierter Index: Suche nach A nebst Dok.-Nr. Die Menge der Dok.-Nummern sei Menge 1.2. Invertierter Index: Suche nach B nebst Dok.-Nr. Die Menge der Dok.-Nummern sei Menge 2.3. Bestimme Schnittmenge aus Menge1 und Menge 2. Entstehende Menge sei Menge 3.4. Folge den Verweisen aus Menge 3 zu den Dokumenten, kopiere diese zur Ausgabe!

    Gerard Salton; Michael McGill: Information Retrieval Grundlegendes fr Informationswissenschaftler. Hamburg [u.a.]: McGraw-Hill, 1983. Kap.2: Invertierte Dateisysteme, 27-55.

  • Funktionalitt Boolescher RetrievalsystemeVereinigungsmengeA ODER B

    1. Invertierter Index: Suche nach A nebst Dok.-Nr. Die Menge der Dok.-Nummern sei Menge 1.2. Invertierter Index: Suche nach B nebst Dok.-Nr. Die Menge der Dok.-Nummern sei Menge 2.3. Bestimme Vereinigungsmenge aus Menge1 und Menge 2. Entstehende Menge sei Menge 3.4. Folge den Verweisen aus Menge 3 zu den Dokumenten, kopiere diese zur Ausgabe!

  • Funktionalitt Boolescher RetrievalsystemeExklusionsmengeA UND NICHT B

    1. Invertierter Index: Suche nach A nebst Dok.-Nr. Die Menge der Dok.-Nummern sei Menge 1.2. Invertierter Index: Suche nach B nebst Dok.-Nr. Die Menge der Dok.-Nummern sei Menge 2.3. Lsche smtliche Elemente aus Menge 1, die auch Elemente aus Menge 2 sind!4. Folge den Verweisen aus der verbleibenden Menge 1 zu den Dokumenten, kopiere diese zur Ausgabe!

  • Funktionalitt Boolescher RetrievalsystemeAusschlieende ExklusionsmengeA XOR B

    1. Invertierter Index: Suche nach A nebst Dok.-Nr. Die Menge der Dok.-Nummern sei Menge 1.2. Invertierter Index: Suche nach B nebst Dok.-Nr. Die Menge der Dok.-Nummern sei Menge 2.3. Bestimme Vereinigungsmenge aus Menge1 und Menge 2. Entstehende Menge sei Menge 3.4. Bestimme Schnittmenge aus Menge1 und Menge 2. Entstehende Menge sei Menge 4.5. Lsche alle Elemente aus Menge 3, die auch Element von Menge 4 sind!6. Folge den Verweisen aus der verbleibenden Menge 3 zu den Dokumenten, kopiere diese zur Ausgabe!

  • Funktionalitt Boolescher RetrievalsystemeBoolesche Funktoren in aussagenlogischer Deutung

    A B A UND B A ODER B A UND NICHT BA XOR B

    w w w w f fw f f w w wf w f w f wf f f f f f

    Konjunktion Disjunktion Postsektion Kontravalenz beides mindestens eines das eine entweder das eine oder ohne das andere das andereI.M.Bochenski; Albert Menne: Grundri der Logistik. Paderborn: Schningh, 1973, 27-35.

  • Funktionalitt Boolescher RetrievalsystemeAbstandsoperatoren (Verschrfung des Booleschen UND)(1) direkte Nachbarschaft:Phrasen: Miranda Ottobenachbarte Worte in Reihenfolge: Miranda ADJ Otto findet Miranda Ottobenachbarte Worte ohne Beachtung der Reihenfolge: Miranda (N) Otto findet Miranda Otto und Otto, Miranda(2) numerische Abstandsoperatoren:Suche nach Worten im Abstand von n Worten (n frei whlbar): Miranda (N) Otto W/25 Eowyn findet alle Texte, in denen die Namen im Abstand von max. 25 Worten vorkommenmehrfache Anwendung von W/n findet (bei geschickt gewhltem n) hochrelevante Texte: Auenland W/25 Auenland W/25 Auenland Suche nach Worten im Abstand von n Worten (n fest, i.d.R. 10): Eowyn NEAR Aragorn findet Texte, in denen die Namen im Abstand von max. 10 Worten vorkommen

  • Funktionalitt Boolescher RetrievalsystemeAbstandsoperatoren (Verschrfung des Booleschen UND)(3) grammatische Nachbarschaft:(nicht) im gleichen Satz (auch bei thematischen Ketten des syntaktischen Indexierens)A UND.S BA NICHT.S B(nicht) im gleichen AbsatzA UND.P BA NICHT.P B(nicht) im gleichen FeldA UND.F BA NICHT.F BSatzanfang: #A (A steht am Satzanfang)

    Hufigkeitsoperator (Angabe der Minimalhufigkeit)ATLEAST 20 (A): A muss min. 20mal vorkommen

  • Funktionalitt Boolescher RetrievalsystemeUNDMarketingDienstleisterUB1 UB2 UB3WerbungUB1 UB2 UB3ConsultantHierarchische Suche

  • Funktionalitt Boolescher RetrievalsystemeHierarchische Suchebei Klassifikationen durch RechtsfragmentierungDDC=382 findet alles zur Klasse 382DDC=382* findet alles zu 382 und zu den Unterbegriffen der nchsten HierarchieebeneDDC=382** findet alles zu 382 und zu den Unter-begriffen der nchsten zwei HierarchieebenenDDC=382$ findet alles zu 382 nebst allen Unterbegriffenbei Thesauri DOWN-Operator (findet alles zum Deskriptor nebst aller Unterbegriffe)DE DOWN Hepatitis findet alles zu Hepatitis und zu allen Unterbegriffen (bis zu den Bottomterms) im unterlegten ThesaurusNCHSTE EBENE (findet alles zum Deskriptor sowie zu den Unterbegriffen der nchsten Hierarchieebene)

  • Funktionalitt Boolescher RetrievalsystemeHierarchische Suche

    Beispiel:GBI

  • Funktionalitt Boolescher RetrievalsystemeKlammersetzung / Bindungsstrke der Operatorenje nach System binden die Operatoren jeweils strker als andere; Beispiel: UND strker ODERUmgehen der Bindungsstrke durch Klammern; die Systeme arbeiten die Klammern von innen nach auen abGesucht: Artikel von Ernst Meier (oder Maier?) aus den Jahren 1998 und 1999 ber Mineralwasser sowie Soft Drinks:AU=M*ier, Ernst UND (YR=1998 ODER YR=1999) UND (DE=Mineralwasser ODER DE=Soft Drinks)Gesucht: Unternehmen im Postleitzahlbereich Kln, die Anwendersoftware anbieten und die entweder mehr als 30 Mitarbeiter oder mehr als 20 Mio. EURO Jahresumsatz haben. Wir wollen dabei nichts mit Unternehmen zu tun haben, die Software fr militrische Zwecke erstellen.(PL=5$ UND PC=7372002 UND (MI>30 ODER UM>20)) UND NICHT PC=7372003

  • Funktionalitt Boolescher RetrievalsystemeDatenbankbergreifende SucheDubletten knnen vorkommen und sollten gelscht werdenAufruf der Datenbanken in der Reihenfolge ihrer Qualitt (damit die besten Datenstze erhalten bleiben)nach Abschluss der Suche: Identifizieren der Dubletten / IDENTIFY DUPLICATESLschen der Dubletten / REMOVE DUPLICATESggf. Aufsplitten der Ergebnisse in die einzelnen Daten- bankenBeispiel: DataStar

  • Funktionalitt Boolescher RetrievalsystemeUmformulierung von Suchergebnissen zu Suchargumenten (MAPPING)Suchschritt 1: Suche nach Argumenten fr (den eigentlich erwnschten) Suchschritt 2Interesse besteht nur an den gefundenen Inhalten gewisser Felder; Zwischenspeichern / MAP (ggf. Feldkrzel verndern)Suchschritt 2: ggf. Aufruf einer neuen Datenbank, Ausfhren des gespeicherten SuchargumentsBeispiel: Suche nach Literatur zu Aspirin chemische Bezeichnungen unbekannt: (1) Aufruf einer Synonymdatenbank fr chemische Bezeichnungen; Suche nach Aspirin; MAP RN (RN: Feld mit den Bezeichnungen) Suchergebnis wird zwischengespeichert (2) Aufruf einer Chemie-Literaturdatenbank; Auslsen des Zwischenspeichers EXECUTE STEPS

  • Funktionalitt Boolescher RetrievalsystemeAusgeben der gefundenen DokumenteAnzeigen / TYPE [Suchschritt]/[Format]/[Dokumente]TYPE S3/5/1-5,9bisherige Suchgeschichte / DISPLAY SET

    Sortieren / SORT [Suchschritt]/[Dokumente]/[Feld(er)]/ [Sortierrichtung] / SORT S3/all/yr,au/dBilden einer Rangordnung nach Feldinhalten / RANKBestellen von Volltexten (die nicht direkt im PDF-Format vorliegen) / ORDER

  • Funktionalitt Boolescher RetrievalsystemeEinrichten eines PushdienstesSuchargument ist vorhanden; Treffermenge zufriedenstellendName des Suchprofils definierenPeriodizitt festlegenLieferanschrift eingeben hier: E-Mail (GBI)

  • Funktionalitt Boolescher RetrievalsystemeEinrichten eines Pushdienstesauf Homepage ausliefern (Beispiel: Factiva)

  • Funktionalitt Boolescher RetrievalsystemeAuslieferung des Pushdienstes auf Homepage