Enp lft infoday_neudecker

15
Bessere Suchergebnisse durch Named Entity Recognition Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale 27.10.2014 EURAC Bozen / Bolzano Clemens Neudecker, State Library Berlin @cneudecker

Transcript of Enp lft infoday_neudecker

Page 1: Enp lft infoday_neudecker

Bessere Suchergebnisse durch

Named Entity Recognition

Historische Zeitungen im digitalen Zeitalter /

I giornali storici nell’era digitale

27.10.2014

EURAC Bozen / Bolzano

Clemens Neudecker, State Library Berlin

@cneudecker

Page 2: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

2

Was ist eigentlich „Named Entity Recognition“?

• Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden.

• Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten.

• Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.

Page 3: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Oder: Was ist eigentlich ein „Named Entity“?

• PERSON:

• Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“)

• ORGANISATION:

• Bezeichnungen von Firmen, Regierungs- oder Nicht-Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“)

• ORT:

• Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“)

3

Page 4: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

NER (I)

4

1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext

Page 5: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

NER (II)

5

2. Disambiguieren von Begriffen (Beispiel “Jordan”)

durch Kontextinformationen

Page 6: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

NER (III)

6

3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)

Page 7: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Sprachunterstützung

3 Sprachen:

• Deutsch

• Niederländisch

• Französisch

7

Page 8: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Ansatz

• Machine learning vs. Regelbasierter (rule-based) Ansatz

• Vorteile Machine-learning:

• Keine (quasi) linguistische Expertise notwendig

• Verarbeitung von großen Mengen möglich

• Vorteile Regelbasiert:

• Sehr hohe Genauigkeiten möglich

• Berücksichtigung spezieller Grammatiken

8

Page 9: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Software

• Open Source ML Software entwickelt durch die Stanford

Universität, für das Europeana Newspapers Projekt

erweitert durch die KBNL

• Software steht auf Github zum Herunterladen und

Ausprobieren bereit:

https://github.com/KBNLresearch/europeananp-ner

9

Page 10: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Training

• Trainieren des NER Systems mit Hilfe von manuell

annotierten Korpora

• Veröffentlichung des annotierten Korpus als Open Data

10

Page 11: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Probleme und Herausforderungen

• OCR Fehler reduzieren die Genauigkeit der Erkennung

und verlangsamen die Verarbeitung

• Historische Schreibvarianten für Orts- und Personennamen

• In vielen Fällen sind die historischen Bezeichnungen oder

Schreibvarianten nicht in entsprechenden Normdatenbanken

nachgewiesen

Anpassungen der Software für OCR Problematik

11

Page 12: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Erste Resultate: Niederländisch

12

Personen Orte Organisationen

Precision 0.940 0.950 0.942

Recall 0.588 0.760 0.559

F-measure 0.689 0.838 0.671

Page 13: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Warum überhaupt Named Entity Recognition?

• Beispiel Analyse von Logfiles der National Library of Wales:

9 von 10 Suchanfragen entfallen auf Personen oder Orte

(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log

Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne)

13

Page 14: Enp lft infoday_neudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Beispiel für die Präsentation aus Nutzersicht: Digi20

• Digi20 Projekt der BSB

14

http://digi20.digitale-sammlungen.de/