Dutch Ships and Sailors Project @ WAI 2014

Post on 06-May-2015

590 views 0 download

description

VU Weekly AI Meeting (WAI) talk showing the current status of the CLARIN-DSS Dutch Ships and Sailors project.

Transcript of Dutch Ships and Sailors Project @ WAI 2014

Dutch Ships and Sailors

Victor de Boer - WAI - 17-3-2014

Dutch History = Maritime history

The problem

25+ Maritime datasets; Heterogeneous

• CLARIN Call 4 project (9 mo. – ends april)– VU Hist (Matthias van Rossum)– Huygens ING (Jur Leinenga)– VU CS (me)

• Inventory of Maritime DBs• Create Linked Data cloud for subset

– Link places, persons, ships, concepts, events• Link to KB newspapers• Reusable components

Dutch Ships and Sailors

11-04-2023

Datasets on ‘ships’, ‘places’, ‘persons’ VOC OpvarendenDutch-Asiatic ShippingGenerale ZeemonsterrollenMonsterrollen Noordelijke Scheepvaart

Textual historical data on ‘ship movements’, ‘events’Historische Kranten (KB)

DSS data sources

Matthias van Rossum onderzocht de verhoudingen tussen Europese en Aziatische zeelieden onder de Verenigde Oost-Indische Compagnie (1602-1795) erg gelijkwaardig waren. Dat is in scherp contrast met de latere 19de eeuwse situatie, toen Aziatische zeelieden in een ongelijkwaardige en soms onvrijere positie werkten onder slechtere behandeling en beloning. Het werken onder de VOC werd bovendien gekenmerkt door een nuchter multiculturalisme.

Matthias van Rossum – Generale Zeemonsterrollen VOC

Jur Leinenga – Monsterrollen Noordelijke provincies

Monsterrollen-database 1803-1937: Monsterrollen zijn bemanningslijsten met naam, rang, gage, woonplaats en leeftijd van elke zeeman aan boord, evenals de naam, het type en de grootte van het schip. […] voor Groningen en Friesland ligt het begin pas in de negentiende eeuw. Ze gunnen ons een kijkje in het beroepsleven van de zeeman in de negentiende en begin twintigste eeuw.

Dutch Ships and Sailors

Why Linked Data?

Why Linked Data?

gz:Mercuur

1782

gz:Buijksloot

gz:Batavia

gz:Claas Roem

voc:Claas Roem

voc:Buijksloot

1752das:Mercuur

das:Departure

das:Roem, Klaas

19-12-1780 das:Texel

das:Arrival

20-7-1781 das:Batavia

das:Voyage1

Web of Data

Why Linked Data?

mdb:Persoon

das:Persoon

gzmvoc:Schipper

dss:Person

foaf:Person

mdb:Begunstigde

mdb:Opvarende

Why Linked Data?

mdb:Schip1 mdb:Kof

mdb:scheepsType

das:ShipX das:Kofship

das:typeOfShip

dss:has_shipType

rdfs:subPropertyOf

rdfs:subPropertyOf

mdb:Schip1 mdb:Kof

mdb:scheepsType

das:ShipX das:Kofship

das:typeOfShip

Aat:Kof

Aat:Platbodems

skos:exactMatch

skos:exactMatch

skos:exactMatch

Why Linked Data?

Why Linked Data

• Heterogeneous models, one dataformat– Link what can be linked

• Keep specificity, allow integration at project level• Links to other sources: re-use knowledge

• Extensible• Allow multiple levels of semantic enrichment/

normalization – through Named Graphs – Provenance

Methods

ClioPatria

XMLRDF

1. XML ingestion (OAI)

2. Direct transformation to ‘crude’ RDF

3. Interactive RDF restructuring

4. Create a metadata mapping schema

5. Align vocabularies with external sources

6. Publish as Linked Data

Amalgame

Tools

ClioPatria powered by

Noordelijke Monsterrollen

Model mdb: aanmonstering-gron_nsm-1868-2

gzmvoc:schip-gron_nsm-1868-2-Frouwke

gzmvoc: persoon-gron_nsm-1868-2-Harm_Klaassens_Heins

"1868-01-21"

"66"

Frouwke

Smak

Harm Klaassens

Heins

gzmvoc: persoonscontract-gron_nsm-1868-2-Harm_Klaassens_Heins

"kapitein"

46

Leeftijd

Conversion: Generale Zeemonsterrollen

Model

gzmvoc:telling-3659-Marsseveen

gzmvoc:schip-3659-Marsseveen

gzmvoc:schipper-3659-Tollen

"NB: Ervaren onderstuurman Thomas Aldermark (Stokholm, 32 g, Meijenberg 1734), derdewaak Pieter Terduijn (Altena, 26 g, Opperdoes 1735)"

"5188 -> F6095"

Marsseveen

Schip

Gerrit

van derTollen

"21 gemeene zoldaaten"

gzmvoc:telling-7271-Marsseveen

gzmvoc:schip-3659-Marsseveen

"5188 -> F6095"

Marsseveen

Schip

“55 soldaten"

gzmvoc:telling-2881-Eendracht

gzmvoc:schipper-2881-Tollen

Gerrit

v.d.Tollen

gzmvoc:telling-7271-Marsseveen

gzmvoc:schip-3659-Marsseveen

"5188 -> F6095"

Marsseveen

Schip

“55 soldaten"

gzmvoc:telling-2881-Eendracht

gzmvoc:schipper-2881-Tollen

Gerrit

v.d.Tollen?

Identifying ships – Robin Ponstein

• Identify ships within a dataset– Based on: name, size, type, destinations etc.– Background knowledge

• Gold standard fabricated by Jur Leinenga• Base line algorithm: 74%• How dataset specific is this task?• Save results as separate graphs, with provenance

Date ShipName ShipType ShipSize HomePort CurrentPort Captain1852-02-27 Alberdiena kof NULL NULL Noorwegen (N) Wolkammer Albert Augustinus1852-07-31 Alberdina kof NULL Farmsum Friedrichstadt (D) Wolkammer Albert A.1861-09-30 Alberdina kof 98 NULL Gdansk, Danzig (PL) Wolkammer Albert Augustinus1870-03-08 Alberdina brik 222 NULL NULL Wolkammer Albert Augustinus1875-09-22 Alberdina bark 309 NULL Oostzee Wolkammer Augustinus

Linking to Historical newspapers - Andrea Bravo Balado

• Using existing data about ships to link to news items in a collection of historical newspapers

• Performing limited information extraction to enrich existing records

• Features: ship name, time intervals, captain’s names, ship type, named entities, keywords, background knowledge

Current status

• Input data set: Noordelijke Monsterrollen

• “Semi-supervised learning” – Multiple versions of algorithm– Evaluation done by expert (Jur

Leinenga)

• Current version: 94% precision, 9.739 records have 1+ links

Example: http://purl.org/collections/nl/dss/mdb/aanmonstering-del_gem-1879-101

Short demo

http://semanticweb.cs.vu.nl/dss/home

“To do”

• Example application (map)• Query Interface

• Provenance– How to represent (un)certainty for graphs?

• Link records to source images

• Infrastructure @ Huygens ING

• Link to other VU hist datasources!– DATATHON 2-4-2014!

DataLab

Questions?

Victor de Boer - WAI - 17-3-2014