Europeana Newpapers LFT Infoday Neudecker

15
Bessere Suchergebnisse durch Named Entity Recognition Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale 27.10.2014 EURAC Bozen / Bolzano Clemens Neudecker, State Library Berlin @cneudecker

Transcript of Europeana Newpapers LFT Infoday Neudecker

Page 1: Europeana Newpapers LFT Infoday Neudecker

Bessere Suchergebnisse durch

Named Entity Recognition

Historische Zeitungen im digitalen Zeitalter /

I giornali storici nell’era digitale

27.10.2014

EURAC Bozen / Bolzano

Clemens Neudecker, State Library Berlin

@cneudecker

Page 2: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

2

Was ist eigentlich „Named Entity Recognition“?

• Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden.

• Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten.

• Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.

Page 3: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Oder: Was ist eigentlich ein „Named Entity“?

• PERSON:

• Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“)

• ORGANISATION:

• Bezeichnungen von Firmen, Regierungs- oder Nicht-Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“)

• ORT:

• Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“)

3

Page 4: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

NER (I)

4

1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext

Page 5: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

NER (II)

5

2. Disambiguieren von Begriffen (Beispiel “Jordan”)

durch Kontextinformationen

Page 6: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

NER (III)

6

3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)

Page 7: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Sprachunterstützung

3 Sprachen:

• Deutsch

• Niederländisch

• Französisch

7

Page 8: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Ansatz

• Machine learning vs. Regelbasierter (rule-based) Ansatz

• Vorteile Machine-learning:

• Keine (quasi) linguistische Expertise notwendig

• Verarbeitung von großen Mengen möglich

• Vorteile Regelbasiert:

• Sehr hohe Genauigkeiten möglich

• Berücksichtigung spezieller Grammatiken

8

Page 9: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Software

• Open Source ML Software entwickelt durch die Stanford

Universität, für das Europeana Newspapers Projekt

erweitert durch die KBNL

• Software steht auf Github zum Herunterladen und

Ausprobieren bereit:

https://github.com/KBNLresearch/europeananp-ner

9

Page 10: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Training

• Trainieren des NER Systems mit Hilfe von manuell

annotierten Korpora

• Veröffentlichung des annotierten Korpus als Open Data

10

Page 11: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Probleme und Herausforderungen

• OCR Fehler reduzieren die Genauigkeit der Erkennung

und verlangsamen die Verarbeitung

• Historische Schreibvarianten für Orts- und Personennamen

• In vielen Fällen sind die historischen Bezeichnungen oder

Schreibvarianten nicht in entsprechenden Normdatenbanken

nachgewiesen

Anpassungen der Software für OCR Problematik

11

Page 12: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Erste Resultate: Niederländisch

12

Personen Orte Organisationen

Precision 0.940 0.950 0.942

Recall 0.588 0.760 0.559

F-measure 0.689 0.838 0.671

Page 13: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Warum überhaupt Named Entity Recognition?

• Beispiel Analyse von Logfiles der National Library of Wales:

9 von 10 Suchanfragen entfallen auf Personen oder Orte

(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log

Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne)

13

Page 14: Europeana Newpapers LFT Infoday Neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Beispiel für die Präsentation aus Nutzersicht: Digi20

• Digi20 Projekt der BSB

14

http://digi20.digitale-sammlungen.de/