Facoltà di Ingegneria · 3.5 BIBFRAME 18 Capitolo 4. Europeana 20 4.1 Obiettivi di Europeana 20...

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Elaborato finale in Sistemi multimediali

Linked Open Data per i beni culturali

Anno Accademico 2012/2013

Candidato:

Fabio Labella

matr. N46/000574

Indice

Introduzione 4

Capitolo 1. Linked Data 6

1.1 I principi dei Linked Data 6 1.2 Uniform Resource Identifiers 7 1.3 Il data model RDF (Resource Description Framework) 7 1.3 Il Web dei Dati 9

Capitolo 2. Open Knowledge e Open Data 11

2.1 Definizione 11 2.2 Vantaggi degli Open Data 11 2.3 Il progetto Linking Open Data 12

Capitolo 3. I LOD nel mondo delle biblioteche 14

3.1 Un case study significativo 14 3.2 Status quo 15 3.3 Prospettive future: il Global Cultural Graph 15 3.4 Ostacoli alla migrazione verso i Linked Open Data 17 3.5 BIBFRAME 18

Capitolo 4. Europeana 20

4.1 Obiettivi di Europeana 20 4.2 EDM (Europeana Data Model) 21 4.3 Europeana Linked Data Pilot 21

Conclusioni 23Bibliografia 24

III

Introduzione

L'UNESCO[1] definisce patrimonio culturale “l'intero corpus di segni […] - sia artistici

che simbolici- trasmessi dal passato a ciascuna cultura e, quindi, all'intera umanità” .

Si noti che questa definizione include sia il patrimonio materiale (libri, quadri,

monumenti etc.), che quello immateriale, che include ad esempio tradizioni, lingue, e

artigianato.

Si tratta dunque di un dominio estremamente vasto, e ciò si riflette nella estrema

eterogeneità dei dati che sono presenti sotto forma di video, testi, foto, audio, spesso in

differenti formati e lingue e sovente accompagnati da metadati, anch'essi non soggetti a

standard riconosciuti da tutti gli operatori del settore.

Infatti un tratto peculiare è la natura intrinsecamente distribuita di questi dati, che deriva

dal fatto che gli operatori sono indipendenti fra loro e spesso non appartengono neppure

allo stesso campo (si pensi alle differenze tra un museo d'arte moderna, una biblioteca e

una associazione culturale che si occupa di danze folkloristiche) .

Hyvonen[2] individua in questo aspetto una delle principali problematiche che si

frappongono al raggiungimento di una piena interoperabilità semantica fra i dati, difetto

che limita fortemente i vantaggi derivanti da una sempre maggiore presenza sul Web di

biblioteche,musei ed associazioni culturali in genere.

Ma perché l'interoperabilità semantica è un aspetto così cruciale nel dominio dei beni

culturali?

Una scoperta chiave in questo senso è lo studio, condotto nel 2008[3] dal Centro di

Ricerca in Matematica e Informatica di Amsterdam, volto ad analizzare le esigenze degli

esperti nel settore dei beni culturali, esso evidenzia che:

• La maggioranza delle ricerche implica una raccolta abbastanza complessa di

informazioni.

• La maggioranza delle ricerche prevede che si usino e si combinino informazioni

provenienti da fonti diverse ed eterogenee.

C'è quindi bisogno di una tecnologia che permetta una grande integrazione fra i dati, anche

4


a livello semantico, e di politiche che prevedano di rendere liberamente disponibili online

grandi quantità di dati, in modo da gettare le basi per una vera rete mondiale della

conoscenza[4].

Negli ultimi anni il paradigma dei Linked Open Data (LOD) si sta candidando con

crescente successo a soddisfare i requisiti di cui sopra, ed esistono già diversi progetti in

cui tale tecnologia viene usata con successo, e una tendenza sempre maggiore a confluire

verso di essa, come testimonia ad esempio il successo del progetto Linking Open Data.

In questo testo dunque si analizzeranno gli aspetti concettuali e tecnologici alla base dei

Linked Open Data, e si farà poi una panoramica dei principali progetti nel settore dei beni

culturali in cui essi vengono usati con successo, nello specifico:

• Nel Capitolo 1 si vedranno i principi che stanno alla base dei Linked Data, e le

tecnologie che ne permettono l'implementazione.

• Nel Capitolo 2 si discuteranno i vantaggi apportati dal rilascio dei dati sotto licenze non

restrittive, come propugnato dal movimento Open Knowledge.

• Nel Capitolo 3 si illustreranno i progetti basati sui Linked Open Data nel mondo delle

biblioteche, uno degli ambiti in cui la presenza dei LOD è già cospicua.

• Nel Capitolo 4, infine, si parlerà di Europeana, un portale che mira a fornire accesso

all'enorme patrimonio culturale europeo, e che si sta evolvendo per adottare l'approccio

Linked Open Data.

• Ultimo capitolo: Conclusioni.

5

Capitolo 1

Linked Data

Linked Data è il nome di un “insieme di best practices per la pubblicazione e il

collegamento di dati strutturati sul Web” [5].

In questo capitolo vedremo i principi e le tecnologie sui quali questo approccio si basa.

1.1 I principi dei Linked Data

Nel 2006 Tim Berners-Lee ha esposto per la prima volta nel documento Linked Data[6] i

quattro principi fondamentali che ne costituiscono il fulcro, essi sono:

1. Usare gli URI come nomi per le cose1.

2. Usare URI HTTP, in modo che sia possibile dereferenziare gli URI.

3. Quando gli URI vengono dereferenziati, fornire informazioni utili, usando gli standard

(SPARQL,RDF) .

4. Includere collegamenti ad altri URI, in modo che sia possibile scoprire nuove

informazioni.

Come si vede una delle differenze con il Web tradizionale sta nell'uso degli URI (Uniform

Resource Identifiers, trattati più in dettaglio nel paragrafo 1.2) per identificare non solo

documenti sul Web, ma anche oggetti fisici e concetti;si raccomanda inoltre di usare solo

URI HTTP in modo da avere un protocollo unico per dereferenziare gli URI.

Seguendo la stessa logica RDF è proposto come data model unificato per la

rappresentazione dei dati: ne vedremo caratteristiche e vantaggi nel paragrafo 1.3.

Il quarto principio, infine, pone l'accento sulla necessità di creare connessioni tra i dati, in

modo da favorire appunto l'interoperabilità semantica tra di essi.

Si noti infatti che i link tra due oggetti nel contesto dei Linked Data(chiamati link RDF)

differiscono dai comuni hyperlink HTML del Web per il fatto di specificare qual è la

relazione che intercorre tra i due oggetti collegati. In altre parole i link RDF sono

tipizzati[7].

1. Nel seguito useremo indifferentemente i termini risorsa,entità e oggetto in luogo del più generico cosa.

6


1.2 Uniform Resource Identifiers

Un URI è una stringa che identifica univocamente una qualsiasi entità.

Poiché l'approccio Linked Data prevede solo URI HTTP, attraverso questo protocollo si ha

a disposizione uno strumento semplice ma universale per accedere sia a quelle risorse che

possono essere rappresentate da sequenze di byte (la foto di una persona ad esempio), sia

alle descrizioni di quelle risorse che invece non possono essere rappresentate in tal modo

(la persona stessa)[5].

Dunque un URI HTTP ha una duplice funzione, identifica univocamente l'entità cui fa

riferimento e fornisce un mezzo per accedere alle informazioni che descrivono l'entità in

questione.

Nel contesto dei Linked Data, nel caso di URI che identificano oggetti del mondo reale è

importante distinguere tra l'oggetto in questione e un documento Web che ad esso si

riferisce: è pertanto uso comune usare URI diversi per i due scopi, in modo da evitare

ambiguità.

Infine va detto che, essendo il Web uno strumento usato sia dalle macchine che dagli

umani, entrambi devono essere in grado di ricevere informazioni nel formato a loro più

congeniale, tipicamente HTML per gli umani e RDF per le macchine, per cui il

meccanismo di deferenziazione deve tener conto di questo aspetto[7].

Esistono due strategie per ottenere quanto detto sopra, 303 URI e Hash URI, il cui studio

esula dagli obiettivi di questo testo, il lettore interessato veda [8].

1.3 Il data model RDF (Resource Description Framework)

RDF è un linguaggio per rappresentare l'informazione sul Web in un formato

comprensibile alle macchine(machine readable), descritto nel documento RDF Primer[9]

del W3C. Va detto che RDF può rappresentare qualsiasi cosa sia identificabile sul Web, e

dunque, per quanto detto prima sugli URI, anche oggetti fisici e concetti.

Vediamo le caratteristiche principali di questo potente strumento: RDF rappresenta

l'informazione sotto forma di grafo orientato connesso; i dati sono codificati sotto forma di

tripla:soggetto,predicato,oggetto.

7


Il soggetto è uno URI che identifica univocamente una risorsa, mentre l'oggetto può essere

un semplice valore (come una stringa o un numero) o a propria volta lo URI di una risorsa

collegata con il soggetto.Il predicato specifica la relazione che intercorre tra soggetto e

oggetto, ed è anch'esso uno URI (esistono vocabolari di predicati, ossia collezioni di URI

che rappresentano informazioni di un determinato dominio)[7].

Ad esempio una semplice tripla può esprimere il fatto che un pittore P, identificato da uno

URI, e un quadro Q, anch'esso identificato da uno URI, sono collegati dal fatto che il

pittore è l'autore del quadro.La tripla sarà espressa da URI in formato simile al seguente:

http://esempiomuseo.it/pittura/pittori/vangogh

http://xmlns.com/foaf/0.1/author

http://esempiomuseo.it/pittura/opere/girasoli

Una tripla in questo formato è detta link RDF[10] se connette due risorse appartenenti a

dataset diversi,per cui è possibile pensare ai link RDF che connettono dati come

all'evoluzione dei link HTML che connettono documenti[5].

I link RDF possono essere di tre tipi[7]:

• Link di relazione: collegano una risorsa con altri dati ad essa correlata, ad esempio una

pubblicazione con la propria bibliografia.

• Link di identità: puntano ad URI usati come alias per lo stesso oggetto o concetto, essi

fanno in modo che sia possibile recuperare ulteriori informazioni sull'oggetto di

interesse da altre fonti.

• Link di vocabolario: collegano i dati alle definizioni RDF dei termini usati per

descrivere i dati stessi, rendendoli così autodescrittivi.

Come si diceva, inoltre, insiemi di triple RDF possono anche essere visti come un grafo

connesso dove soggetti e oggetti sono nodi e i predicati sono archi, ad esempio se insieme

alla tripla precedente consideriamo la tripla che modella la frase “Il quadro Q è ospitato

dal museo M” arriviamo al grafo rappresentato in fig.1.

Bizer e Heath[7] fanno notare che, grazie all'unicità degli URI e al fatto che ogni URI può

essere dereferenziato in insiemi di triple RDF, i Linked Data possono essere visti come un

Giant Global Graph (enorme grafo globale[11]).

8


1.3 Il Web dei Dati

In sintesi, l'adozione dei principi dei Linked Data porta quindi una serie di benefici sia a

chi pubblica dati sia a chi ne usufruisce,infatti si hanno[7][5]:

• Un modello unico per i dati: RDF consente la rappresentazione di qualsiasi tipo di dato

senza porre vincoli sul tipo di vocabolario da usare rendendo così immediata

l'integrazione tra i dati.

• Un meccanismo standardizzato di accesso ai dati:l'uso di HTTP come meccanismo

unico di accesso ai dati comporta notevoli semplificazioni rispetto all'eterogeneità delle

API Web.

• Scoperta di nuovi dati attraverso gli hyperlink: I Linked Data consentono la connessione

di dati appartenenti a fonti diverse, questo comporta la creazione di uno spazio globale

dei dati e fa sì che le applicazioni possano scoprire nuove fonti a run-time

semplicemente seguendo i link RDF. Non più collegamenti tra documenti,ma

connessioni semantiche tra cose.

• I dati sono autodescrittivi: infatti se nella descrizione RDF di un dato è presente un

termine sconosciuto, l'applicazione che ne fa uso può dereferenziare lo URI che

identifica quel termine per scoprirne la descrizione.

9

Fig.1 Un semplice grafo che rappresenta due triple RDF


Il risultato è il Web dei Dati: “ A web of things in the world, described by data on the

Web2”[5].

2 Una ragnatela di cose nel mondo, descritte da dati sul Web.

10

Capitolo 2

Open Knowledge e Open Data

In questo Capitolo vedremo come abbracciando la filosofia Open Data i Linked Data

esprimano tutte le loro potenzialità: i Linked Data pubblicati con licenze Open sono detti

Linked Open Data (LOD).

2.1 Definizione

La Open Knowledge Foundation è un movimento che si batte per la diffusione della

conoscenza in forma libera; nel documento “Open Data-An Introduction”[12] esso

individua i requisiti chiave che i dati devono avere per poter essere definiti Open:

• Disponibilità ed Accesso: i dati devono essere disponibili nella loro interezza,

preferibilmente tramite download via internet, ad un costo non maggiore di una

ragionevole spesa per la riproduzione.

• Riuso e Ridistribuzione: i dati devono essere forniti con licenze che ne permettano il

riuso e la ridistribuzione, inoltre i dati devono essere in un formato comprensibile alle

macchine (machine readable).

• Partecipazione Universale:chiunque deve essere in grado di usare, riusare, e ridistribuire

i dati, non devono esserci discriminazioni riguardanti persone, gruppi o fini d'uso

(Quindi non sono permesse, ad esempio, licenze per fini non commerciali o solo per

studenti)

2.2 Vantaggi degli Open Data

I vantaggi che derivano dalla distribuzione dei dati sotto licenze Open sono molteplici:

sicuramente c'è un aumento della trasparenza e della partecipazione dei cittadini, che

possono non solo leggere i dati ma anche contribuire a migliorarli, tanto che si è avviato

un processo volto al rilascio di Open Government Data che sta pian piano prendendo

piede; ma c'è inoltre anche un forte valore commerciale intrinseco nei dati e dovuto alla

11


natura fortemente digitalizzata dei nostri tempi.

Quello che interessa qui, tuttavia, sono i benefici che la filosofia Open Data può apportare

al paradigma Linked Data, benefici che Tim Berners-Lee ha subito intravisto, tanto da

spingerlo nel 2010 a modificare il documento “Linked Data”[6] di conseguenza, in modo

da includere una licenza Open come requisito per la pubblicazione dei dati(cfr. Fig.2).

Gli approcci Linked Data e Open Data, infatti, sono perfettamente complementari e

massimizzano l'uno i vantaggi dell'altro: da un lato l'enorme potenziale derivante dalla

“liberazione” dei dati non è sfruttato appieno se i dati restano isolati tra di loro, dall'altro i

Linked Data hanno bisogno di un vasto patrimonio di dati grezzi da connettere per essere

davvero utili.Possiamo dunque vedere gli Open Data come all'infrastruttura sulla quale

costruire il Giant Global Graph.

2.3 Il progetto Linking Open Data

Abbiamo dunque visto come una seppur cospicua quantità di Open Data non acquisti

veramente valore finché i dati non vengono collegati tramite link RDF e identificati da

URI HTTP che rimandano alle loro descrizioni in RDF.

È dunque nato un progetto che si occupa di rendere i diversi dataset che il movimento

Open Data riesce a pubblicare compatibili con la metodologia Linked Data.

12

★Disponibili sul Web(in qualsiasi formato) ma con licenza aperta, per essere Open Data.

★★ Disponibili come informazione strutturata comprensibile al calcolatore.

★★★ Come la (2) ma in più in formato non proprietario.

★★★★Tutti i precedenti più l'uso di standard W3C(RDF,SPARQL) per identificare i tuoi dati, in modo che sia possibile creare collegamenti ad essi.

★★★★★Tutti i precedenti più:connetti i tuoi dati a quelli di altre persone, in modo da fornire ad essi un contesto.

Fig.2 Principi per la pubblicazione di Linked Open Data


Tale progetto è il Linking Open Data Project3, partito nel 2007 con DBPedia[13], un

tentativo di estrarre informazione strutturata da Wikipedia e renderla disponibile sul Web.

Da lì il grafo di link RDF ha continuato ad espandersi, ed il risultato è mostrato in figura 3.

3. http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

13

Fig.3 “Linking Open Data cloud diagram", by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

http://lod-cloud.net/

Capitolo 3

I LOD nel mondo delle biblioteche

Entriamo ora nello specifico discutendo potenzialità e problematiche derivanti dall'uso dei

LOD4 nel dominio dei beni culturali.In questo Capitolo verranno usati come case study le

biblioteche e l'universo bibliografico in generale.

3.1 Un case study significativo

La scelta di usare le biblioteche come case study per introdurre i LOD nei beni culturali è

motivata da diversi fattori.Il più importante è senza dubbio lo straordinario impulso che

l'adozione dei Linked Open Data sta ricevendo da alcune tra le più importanti biblioteche

del mondo, il che ci permette di fare un'accurata panoramica dei problemi che altre

istituzioni, come ad esempio i musei, si troveranno ad affrontare nel cammino verso l'uso

dei LOD, nonché di vedere all'opera su sistemi già funzionanti (come il Bibliographic

Framework della Biblioteca del Congresso) alcune possibili soluzioni.

La ragione per la quale il mondo bibliografico si sta muovendo ad un ritmo più spedito di

altri settori è da ricercarsi nella vasta esperienza che i bibliotecari hanno nella

compilazioni di metadati in forma altamente strutturata, prova ne sia lo sviluppo di

MARC5 già nel 1966[14].

Proprio in ragione di questa esperienza i bibliotecari e gli archivisti hanno intuito le

enormi potenzialità che i LOD hanno nel risolvere il principale problema del settore, ossia

l'interoperabilità tra cataloghi diversi, senza contare, peraltro, i vantaggi che le biblioteche

possono apportare alla costruzione del Giant Global Graph, adeguando l'enorme

patrimonio dei loro cataloghi agli standard dei Linked Data (torneremo meglio su questo

concetto nel Paragrafo 3.3).L'entità di questi vantaggi è tale da costituire un altro dei

motivi fondamentali nella scelta di questo case study.

4. D'ora in poi useremo senza distinzioni la locuzione Linked Open Data o il corrispondente acronimo LOD.5. MAchine Readable Cataloging, un formato di catalogazione comprensibile ai computer.

14


3.2 Status quo

Nel 2010 il W3C ha creato il gruppo di lavoro Library Linked Data Incubator Group, allo

scopo di coordinare i vari sforzi tesi a portare le biblioteche e gli archivi nel mondo dei

Linked Data.

Il gruppo ha individuato i seguenti problemi nel modello attuale di archiviazione e

pubblicazione dei dati[15]:

• I dati prodotti dalle biblioteche non sono integrati nel Web: I database nei quali risiede

la maggior parte dei dati, pur avendo interfacce Web, non sono connessi ad altre risorse

sul Web con cui hanno in comune informazioni su date, informazioni geografiche,

persone ed organizzazioni.

• Gli standard sono progettati guardando solo alla comunità dei bibliotecari: la maggior

parte degli standard, come MARC, è progettata esclusivamente per il dominio

bibliografico ed è una delle ragioni della mancanza di interoperabilità descritta nel

punto precedente.

• I dati sono espressi principalmente in linguaggio naturale.

Tutti questi aspetti contribuiscono a limitare fortemente la visibilità dei cataloghi man

mano che le ricerche diventano sempre più basate sul Web: ormai se una fonte

d'informazioni non è comodamente raggiungibile sul Web, ossia se non è facile da

trovare con un motore di ricerca o seguendo link da altre risorse, è come se non

esistesse.

3.3 Prospettive future: il Global Cultural Graph

Tutti i problemi di cui sopra, e in special modo il più serio, ossia la mancanza di visibilità

dei cataloghi dovuta alla carenza di link verso di essi, sono facilmente risolti con i LOD,

rendendone quindi l'adozione molto conveniente per le biblioteche.

Quello che è ancora più interessante, tuttavia, non sono tanto i benefici che le biblioteche

ottengono, quanto quelli che esse apportano alla costruzione del Grafo Globale.

Infatti, con l'aumentare delle interconnessioni semantiche tra i dati, diviene necessario

riuscire a valutarne l'affidabilità, il che significa stabilire se i dati siano corretti e se

15


esistano processi per garantirne la qualità.Inoltre bisogna essere certi che essi siano stabili

in modo da garantirne la citabilità, essenziale ad esempio in ambito scientifico[16].

Hanneman e Kett[16] invocano dunque la necessità, fermo restando che non tutti i dataset

debbano essere affidabili al cento per cento per essere utili, di un core di dati che sia

affidabile e persistente, uno scheletro su cui costriuire la fiducia degli utenti nelle

informazioni che ricavano dal Web dei Dati;e concordano nell'affermare che le istituzioni

che si occupano di beni culturali, e in special modo biblioteche, musei e archivi, siano

nella posizione migliore per costruire questo core, un Grafo Globale Culturale al cuore del

Grafo Globale. Perché ciò avvenga è necessario costruire un modello a shell6 (cfr. Fig.4)

che renda dunque possibile avere dati con diversi gradi di affidabilità e persistenza, e in

cui ad ogni strato siano associate politiche sempre più stringenti via via che che si procede

verso il centro.

Per garantire correttezza e persistenza dei dati al centro della shell, essi dovranno essere

supportati da organizzazioni pubbliche, rispettare standard consolidati di catalogazione e

obbedire a politiche di assoluta trasparenza.

Infine, prevedendo la possibilità per l'informazione di spostarsi verso il core tramite il

rispetto delle regole richieste, si fa in modo che l'insieme dei dati di cui si possa garantire l'

affidabilità cresca nel tempo, aumentando la fiducia nel Grafo Globale nella sua interezza.

In conclusione possiamo dire che il matrimonio di biblioteche e archivi con i LOD è

6 Letteralmente “a conchiglia”.

16

Fig.4 Modello a shell dell'affidabilità e persistenza (Hanneman e Kett [16])


conveniente per entrambe le parti: i LOD assicurano visibilità ai cataloghi, e i cataloghi

affidabilità e credibilità ai LOD.

3.4 Ostacoli alla migrazione verso i Linked Open Data

Nonostante i significativi passi avanti compiuti negli ultimi anni, la strada da percorrere è

ancora lunga prima che i Linked Open Data diventino lo standard per la gestione

bibliografica e la pubblicazione dei cataloghi online.

Gli ostacoli che si frappongono al raggiungimento di questo obiettivo sono molteplici, di

natura tecnica e non, e vedremo che al momento quelli più difficili da superare sono

appunto di natura non tecnica.

Infatti gran parte delle difficoltà tecniche sono da imputare alla relativa novità delle

tecnologie usate, cui corrisponde una certa mancanza di documentazione che ne rallenta

l'adozione, sopratutto nel caso di istituzioni di dimensioni medie e medio-piccole che non

possono permettersi i costi di assunzione di personale specializzato.

Con la crescente diffusione dei LOD, tuttavia, è probabile che arrivino sul mercato

strumenti usabili anche senza particolari competenze tecniche (come è avvenuto per

l'HTML), annullando di fatto il problema.

Questioni più serie riguardano invece due aspetti concettuali, ossia la modellazione dei

dati e la scelta degli URI.

Mentre la prima questione è comune a tutte le applicazioni che facciano uso di Linked

Open Data, ragion per cui ormai esistono diverse ontologie tra cui scegliere, la seconda nel

caso delle biblioteche prevede difficoltà aggiuntive[16].

Infatti, mentre altre istituzioni sono libere di scegliere gli URI per i propri dati senza

restrizioni, nel caso delle biblioteche si deve tener presente che esistono già svariati

identificatori pubblici per i dati da esse prodotte, per cui nella scelta degli URI si deve

cercare un compromesso per evitare una completa separazione tra i protocolli già esistenti

di scambio dati tra biblioteche e il mondo dei LOD[16].

Tuttavia la questione in assoluto più complessa è senz'altro di natura legale, in quanto

alcune istituzioni sono restie a rilasciare i propri dati sotto licenza Open, principalmente

per motivi legati ai diritti di proprietà intellettuale.

17


Considerando che la legislazione in materia varia considerevolmente da nazione a

nazione,il problema appare di soluzione non banale[15].

3.5 BIBFRAME

Il Bibliographic Framework (BIBFRAME) è un modello dati progettato dalla Biblioteca

del Congresso di Washington, la più grande biblioteca del mondo, per portare il suo

enorme catalogo nel mondo dei Linked Data.

Vedremo in breve la struttura di questo framework, che rappresenta un esempio perfetto di

applicazione che utilizza i LOD su vasta scala e che si candida seriamente a diventare lo

standard de facto per sostituire l'ormai obsoleto MARC.

Il modello consiste nelle seguenti classi[17]:

• Creative Work (Opera creativa): una risorsa che rappresenta l'essenza a livello

concettuale di un articolo da catalogare. Le sue proprietà più comuni includono

relazioni contestuali con Authority(autore,argomento etc.) così come con altri Work.

• Instance (Istanza): una risorsa che rappresenta una istanza materiale del Work. Include

proprietà specifiche di istanza (ad esempio l'edizione) e relazioni con Authority ad esso

collegate (come il traduttore).

• Authority (Autorità): una risorsa che rappresenta concetti chiave nel campo del

controllo di autorità7,ad esempio Persone, Posti, Argomenti etc. Fornisce dunque un

mezzo per disambiguare e contestualizzare Work e Authority ad essa collegate.

• Annotation (Annotazione) : una risorsa che correda altre risorse BIBFRAME di

informazioni aggiuntive,ad esempio copertina e recensioni di un libro.Tiene conto del

fatto che le biblioteche creano una grande quantità di metadati, che potrebbero venire

usati in applicazioni del tutto diverse da quelle per cui sono stati creati, e fornisce uno

strumento flessibile per associare tali metadati ad una qualsiasi risorsa BIBFRAME.

Infine va detto che, essendo il vocabolario BIBFRAME totalmente espresso in RDF,

questo framework rappresenta il primo formato di catalogazione totalmente basato sui

Linked Data e permette quindi alle biblioteche che lo adottano di connettersi subito al

Grafo. In figura 5 è mostrato un esempio di relazione complessa modellata con

7. Il controllo di autorità è l'organizzazione di un catalogo bibliografico usando un singolo termine per ogni entità.

18


BIBFRAME.

19

Fig.5 Esempio di relazione complessa che è possibile modellare con BIBFRAME[17]

Capitolo 4

Europeana

In questo Capitolo ci focalizzeremo su Europeana, un ambizioso progetto che mira a

fornire un punto di accesso unico all'immenso patrimonio culturale europeo. Discuteremo

quindi le strategie messe in atto per farlo evolvere verso i Linked Open Data.

4.1 Obiettivi di Europeana

Europeana è un'iniziativa dell'Unione Europea, un portale che finora ha raccolto metadati

su oltre 23 milioni di oggetti, allo scopo di mostrare come sia possibile ottenere una vera

interoperabilità che non solo attraversi i confini nazionali per confluire in un patrimonio

europeo unificato, ma soprattutto abbatta le barriere tra i diversi domini per arrivare ad un

contesto semantico condiviso[18].

La strada migliore per raggiungere l'obiettivo è, come abbiamo visto, l'approccio Linked

Open Data, la cui adozione in questo contesto rappresenta la summa delle opportunità che

esso offre, ma anche delle difficoltà nella sua implementazione.

Infatti Europeana si limita a fare da gateway per le risorse che sono distribuite in

istituzioni culturali in tutta Europa e che spaziano dalle collezioni museali a quelle

audiovisive, senza dimenticare, ovviamente, le biblioteche.

Alle difficoltà tecniche derivanti dalla conversione di questa cospicua mole di dati e

metadati in modo da renderli compatibili con gli standard Linked Data, si aggiungono

anche difficoltà diplomatiche e organizzative, in quanto convincere le varie istituzioni a

rilasciare i loro dati con licenze Open richiede un cambio di prospettiva, in cui il

patrimonio sovranazionale venga prima degli interessi particolari[18].

Tuttavia le potenzialità del progetto compensano di gran lunga i problemi realizzativi,

quando si pensa alla funzione che potrà avere in futuro: un futuro in cui sviluppatori di

terze parti potranno sfruttarne senza restrizioni il patrimonio per creare conoscenza e

ricchezza tramite nuove applicazioni.

20


4.2 EDM (Europeana Data Model)

La prima difficoltà tecnica da superare è stata lo sviluppo di un insieme condiviso di

metadati, che potesse mettere ordine nella pletora di differenti formati e standard usati

dalle varie istituzioni coinvolte ( ricordiamo che difficilmente un museo d'arte moderna

terrà traccia delle stesse informazioni di un archivio audiovisivo ) : tale modello è detto

ESE (European Semantic Elements), ed è sostanzialmente una derivazione del Dublin

Core8.

Tuttavia esso non rispetta i principi Linked Data, in quanto ad esempio la maggior parte

dei metadati è in formato testuale e non URI, ponendo così seri limiti alla capacità di

interconnessione tra i dati che è il vero punto di forza dei LOD.

Per superare questi problemi è stato allora progettato un nuovo modello, stavolta basato su

RDF, che prende il nome di EDM (European Data Model), ed è capace di risolvere molti

dei problemi derivanti dall'uso di ESE, nello specifico[18]:

• Distinguere tra un oggetto e la sua rappresentazione digitale.

• Distinguere tra un oggetto e i metadati che lo descrivono.

• Prevedere il supporto per risorse contestuali, in modo da poter connettere direttamente

questo ultime all'oggetto di interesse (si pensi alla fondamentale importanza delle

informazioni geografiche relative ad un reperto archeologico).

4.3 Europeana Linked Data Pilot

Anche dopo lo sviluppo di EDM, ci sono almeno tre problemi che hanno impedito

l'adozione immediata dei LOD come tecnologia principale alla base di

Europeana,ossia[18]:

• Mancanza di un adeguato numero di metadati in formato EDM.

• Mancanza di link verso altre fonti.

• Mancanza di accordi espliciti riguardanti il permesso per la pubblicazione dei metadati

delle istituzioni che partecipano ad Europeana come (Linked) Open Data.

8. Il Dublin Core è un sistema di metadati basato su un sottoinsieme minimo di elementi di base, in origine quindici.

21


Per questo motivo è stato lanciato data.europeana.eu, un progetto pilota che permette alla

istituzioni che vi partecipano il rilascio dei propri dati come LOD.

La conversione avviene in due fasi[18](cfr. Fig. 6):

1. Si estrae il sottoinsieme di metadati ESE forniti dalle istituzioni facenti parte del

progetto.

2. Si effettua la conversione da ESE e EDM, in questa fase si provvede anche

all'assegnazioni di URI HTTP dereferenziabili.

Infine si effettua l'arricchimento semantico dei dati tramite link di quattro tipi: geoNames

per i posti, gemet9 per le informazioni di tipo generico, Semium per la contestualizzazione

temporale, e DBPedia per le persone.

9. Il gemet è un dizionario terminologico multilingue.

22

Fig.6 Processo di generazione dei Linked Data[18]

Conclusioni

I Linked Open Data si stanno dimostrando un paradigma sempre più valido per costruire

il Web di domani: un Web fatto non più di documenti collegati intertestualmente, ma di

cose connesse semanticamente, un Web dei Dati.

Abbiamo visto inoltre che le istituzioni che si occupano di beni culturali giocano un ruolo

centrale nella costruzione del Giant Global Graph; infatti grazie all'elevata qualità dei dati

che sono in grado di produrre, possono assumere il ruolo importantissimo di nucleo

attorno al quale costruire la fiducia nel Web dei Dati, e allo stesso tempo tornare ad essere

soggetti prevalenti nel panorama culturale grazie alla rinnovata visibilità che l'integrazione

con il Web porta con sé.

Perché ciò avvenga, tuttavia, bisogna muoversi su due fronti.

Il primo, e forse il più importante, è l'impegno verso un maggiore rilascio dei dati come

Open Data, che sono il combustibile senza il quale la rivoluzione del Web Semantico non

può partire.

Il secondo è la diffusione delle tecnologie che sono alla base dei Linked Data, in modo che

anche i meno esperti possano creare un link RDF con la stessa facilità con cui oggi si usa

l'HTML, perché è solo collegando i dati tra loro che verrà sbloccato il potenziale insito nei

LOD.

Il campo dei beni culturali si trova all'avanguardia nello sfruttare questo paradigma, e

l'esistenza di progetti già funzionanti in ambito bibliografico, insieme con lo sviluppo

sempre più rapido di progetti ambiziosi come Europeana, fanno ben sperare che in un

futuro non troppo lontano potremo avere accesso a quello che non sarà più un mero

insieme di dati, perché le connessioni tra di essi lo avranno trasformato in un vero

patrimonio della conoscenza.

23

Bibliografia[1] Unesco general conference 1989 "Draft medium-term plan, 1990-1995"

[2] Hyvönen, E. 2012 "Publishing and Using Cultural Heritage Linked Data on the Semantic Web"

[3] Amin,A., van Ossenbruggen, J., Hardman, L., van Nispen, A. 2008 " Understanding cultural heritage experts’ information seeking needs."

[4] Doerr, M., Iorizzo,D. 2008 "The dream of a global knowledge network - a new approach."

[5] Bizer, C., Heath, T., & Berners-Lee, T. 2009 "Linked data-The story so far"

[6] Berners-Lee, T. 2006 "Linked Data " http://www.w3.org/DesignIssues/LinkedData.htm l

[7] Bizer, C., Heath, T 2011 "Linked Data: Evolving the Web into a Global Data Space "

[8] Sauermann,L. ,Cyganiak,R. 2008 "Cool uris for the semantic web - w3c interest group note." http://www.w3.org/TR/cooluris

[9] Klyne, G.,Carrol, J. 2004 "ResourceDescription Framework (RDF): Concepts and Abstract Syntax - W3C Recommendation" http://www.w3.org/TR/rdf-concepts/

[10] Bizer, C., Cyganiak, R., Heath, T. 2007 "How to publish Linked Data on the Web" http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/

[11] Berners-Lee, T. 2007 "Giant Global Graph" http://dig.csail.mit.edu/breadcrumbs/node/215

[12] Open Knowledge Foundation "Open Data-An Introduction" http ://okfn.org/opendata/

[13] Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R., & Ives, Z. 2007 "Dbpedia: A nucleus for a web of open data."

[14] Ford, M. 2012 "LC’s Bibliographic Framework initiative and the Attractiveness of Linked data"

[15] Baker, T.,Bermès, E.,Coyle, K.,Dunshire, G.,Isaac, A.,Murray, P.,…..Zeng, M. 2011 "Library Linked Data Incubator Group Final Report" http:// www.w3. org/2005/Incubator/lld/XGR-lld-20111025

[16] Hannemann, J., & Kett, J. 2010 "Linked data for libraries"

[17] Miller, E.,Ogbuji, U.,Mueller, V., & MacDougall, K. 2012 "Bibliographic Framework as aWeb of Data:Linked Data Model and Supporting Services"

[18] Isaac, A.,Haslhofer, B., & Clayphan, R. 2012 "eUroPeANA: moving to Linked open Data"

24

http://www.w3.org/DesignIssues/LinkedData.html

http://okfn.org/opendata/%20%20

http://dig.csail.mit.edu/breadcrumbs/node/215

http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/

http://www.w3.org/TR/rdf-concepts/

http://www.w3.org/TR/cooluris/

http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/%20

Facoltà di Ingegneria · 3.5 BIBFRAME 18 Capitolo 4. Europeana 20 4.1 Obiettivi di Europeana 20...

Documents

Transcript of Facoltà di Ingegneria · 3.5 BIBFRAME 18 Capitolo 4. Europeana 20 4.1 Obiettivi di Europeana 20...