Facoltà di Ingegneria · 3.5 BIBFRAME 18 Capitolo 4. Europeana 20 4.1 Obiettivi di Europeana 20...
Transcript of Facoltà di Ingegneria · 3.5 BIBFRAME 18 Capitolo 4. Europeana 20 4.1 Obiettivi di Europeana 20...
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Elaborato finale in Sistemi multimediali
Linked Open Data per i beni culturali
Anno Accademico 2012/2013
Candidato:
Fabio Labella
matr. N46/000574
Indice
Introduzione 4
Capitolo 1. Linked Data 6
1.1 I principi dei Linked Data 6 1.2 Uniform Resource Identifiers 7 1.3 Il data model RDF (Resource Description Framework) 7 1.3 Il Web dei Dati 9
Capitolo 2. Open Knowledge e Open Data 11
2.1 Definizione 11 2.2 Vantaggi degli Open Data 11 2.3 Il progetto Linking Open Data 12
Capitolo 3. I LOD nel mondo delle biblioteche 14
3.1 Un case study significativo 14 3.2 Status quo 15 3.3 Prospettive future: il Global Cultural Graph 15 3.4 Ostacoli alla migrazione verso i Linked Open Data 17 3.5 BIBFRAME 18
Capitolo 4. Europeana 20
4.1 Obiettivi di Europeana 20 4.2 EDM (Europeana Data Model) 21 4.3 Europeana Linked Data Pilot 21
Conclusioni 23Bibliografia 24
III
Introduzione
L'UNESCO[1] definisce patrimonio culturale “l'intero corpus di segni […] - sia artistici
che simbolici- trasmessi dal passato a ciascuna cultura e, quindi, all'intera umanità” .
Si noti che questa definizione include sia il patrimonio materiale (libri, quadri,
monumenti etc.), che quello immateriale, che include ad esempio tradizioni, lingue, e
artigianato.
Si tratta dunque di un dominio estremamente vasto, e ciò si riflette nella estrema
eterogeneità dei dati che sono presenti sotto forma di video, testi, foto, audio, spesso in
differenti formati e lingue e sovente accompagnati da metadati, anch'essi non soggetti a
standard riconosciuti da tutti gli operatori del settore.
Infatti un tratto peculiare è la natura intrinsecamente distribuita di questi dati, che deriva
dal fatto che gli operatori sono indipendenti fra loro e spesso non appartengono neppure
allo stesso campo (si pensi alle differenze tra un museo d'arte moderna, una biblioteca e
una associazione culturale che si occupa di danze folkloristiche) .
Hyvonen[2] individua in questo aspetto una delle principali problematiche che si
frappongono al raggiungimento di una piena interoperabilità semantica fra i dati, difetto
che limita fortemente i vantaggi derivanti da una sempre maggiore presenza sul Web di
biblioteche,musei ed associazioni culturali in genere.
Ma perché l'interoperabilità semantica è un aspetto così cruciale nel dominio dei beni
culturali?
Una scoperta chiave in questo senso è lo studio, condotto nel 2008[3] dal Centro di
Ricerca in Matematica e Informatica di Amsterdam, volto ad analizzare le esigenze degli
esperti nel settore dei beni culturali, esso evidenzia che:
• La maggioranza delle ricerche implica una raccolta abbastanza complessa di
informazioni.
• La maggioranza delle ricerche prevede che si usino e si combinino informazioni
provenienti da fonti diverse ed eterogenee.
C'è quindi bisogno di una tecnologia che permetta una grande integrazione fra i dati, anche
4
Linked Open Data per i beni culturali
a livello semantico, e di politiche che prevedano di rendere liberamente disponibili online
grandi quantità di dati, in modo da gettare le basi per una vera rete mondiale della
conoscenza[4].
Negli ultimi anni il paradigma dei Linked Open Data (LOD) si sta candidando con
crescente successo a soddisfare i requisiti di cui sopra, ed esistono già diversi progetti in
cui tale tecnologia viene usata con successo, e una tendenza sempre maggiore a confluire
verso di essa, come testimonia ad esempio il successo del progetto Linking Open Data.
In questo testo dunque si analizzeranno gli aspetti concettuali e tecnologici alla base dei
Linked Open Data, e si farà poi una panoramica dei principali progetti nel settore dei beni
culturali in cui essi vengono usati con successo, nello specifico:
• Nel Capitolo 1 si vedranno i principi che stanno alla base dei Linked Data, e le
tecnologie che ne permettono l'implementazione.
• Nel Capitolo 2 si discuteranno i vantaggi apportati dal rilascio dei dati sotto licenze non
restrittive, come propugnato dal movimento Open Knowledge.
• Nel Capitolo 3 si illustreranno i progetti basati sui Linked Open Data nel mondo delle
biblioteche, uno degli ambiti in cui la presenza dei LOD è già cospicua.
• Nel Capitolo 4, infine, si parlerà di Europeana, un portale che mira a fornire accesso
all'enorme patrimonio culturale europeo, e che si sta evolvendo per adottare l'approccio
Linked Open Data.
• Ultimo capitolo: Conclusioni.
5
Capitolo 1
Linked Data
Linked Data è il nome di un “insieme di best practices per la pubblicazione e il
collegamento di dati strutturati sul Web” [5].
In questo capitolo vedremo i principi e le tecnologie sui quali questo approccio si basa.
1.1 I principi dei Linked Data
Nel 2006 Tim Berners-Lee ha esposto per la prima volta nel documento Linked Data[6] i
quattro principi fondamentali che ne costituiscono il fulcro, essi sono:
1. Usare gli URI come nomi per le cose1.
2. Usare URI HTTP, in modo che sia possibile dereferenziare gli URI.
3. Quando gli URI vengono dereferenziati, fornire informazioni utili, usando gli standard
(SPARQL,RDF) .
4. Includere collegamenti ad altri URI, in modo che sia possibile scoprire nuove
informazioni.
Come si vede una delle differenze con il Web tradizionale sta nell'uso degli URI (Uniform
Resource Identifiers, trattati più in dettaglio nel paragrafo 1.2) per identificare non solo
documenti sul Web, ma anche oggetti fisici e concetti;si raccomanda inoltre di usare solo
URI HTTP in modo da avere un protocollo unico per dereferenziare gli URI.
Seguendo la stessa logica RDF è proposto come data model unificato per la
rappresentazione dei dati: ne vedremo caratteristiche e vantaggi nel paragrafo 1.3.
Il quarto principio, infine, pone l'accento sulla necessità di creare connessioni tra i dati, in
modo da favorire appunto l'interoperabilità semantica tra di essi.
Si noti infatti che i link tra due oggetti nel contesto dei Linked Data(chiamati link RDF)
differiscono dai comuni hyperlink HTML del Web per il fatto di specificare qual è la
relazione che intercorre tra i due oggetti collegati. In altre parole i link RDF sono
tipizzati[7].
1. Nel seguito useremo indifferentemente i termini risorsa,entità e oggetto in luogo del più generico cosa.
6
Linked Open Data per i beni culturali
1.2 Uniform Resource Identifiers
Un URI è una stringa che identifica univocamente una qualsiasi entità.
Poiché l'approccio Linked Data prevede solo URI HTTP, attraverso questo protocollo si ha
a disposizione uno strumento semplice ma universale per accedere sia a quelle risorse che
possono essere rappresentate da sequenze di byte (la foto di una persona ad esempio), sia
alle descrizioni di quelle risorse che invece non possono essere rappresentate in tal modo
(la persona stessa)[5].
Dunque un URI HTTP ha una duplice funzione, identifica univocamente l'entità cui fa
riferimento e fornisce un mezzo per accedere alle informazioni che descrivono l'entità in
questione.
Nel contesto dei Linked Data, nel caso di URI che identificano oggetti del mondo reale è
importante distinguere tra l'oggetto in questione e un documento Web che ad esso si
riferisce: è pertanto uso comune usare URI diversi per i due scopi, in modo da evitare
ambiguità.
Infine va detto che, essendo il Web uno strumento usato sia dalle macchine che dagli
umani, entrambi devono essere in grado di ricevere informazioni nel formato a loro più
congeniale, tipicamente HTML per gli umani e RDF per le macchine, per cui il
meccanismo di deferenziazione deve tener conto di questo aspetto[7].
Esistono due strategie per ottenere quanto detto sopra, 303 URI e Hash URI, il cui studio
esula dagli obiettivi di questo testo, il lettore interessato veda [8].
1.3 Il data model RDF (Resource Description Framework)
RDF è un linguaggio per rappresentare l'informazione sul Web in un formato
comprensibile alle macchine(machine readable), descritto nel documento RDF Primer[9]
del W3C. Va detto che RDF può rappresentare qualsiasi cosa sia identificabile sul Web, e
dunque, per quanto detto prima sugli URI, anche oggetti fisici e concetti.
Vediamo le caratteristiche principali di questo potente strumento: RDF rappresenta
l'informazione sotto forma di grafo orientato connesso; i dati sono codificati sotto forma di
tripla:soggetto,predicato,oggetto.
7
Linked Open Data per i beni culturali
Il soggetto è uno URI che identifica univocamente una risorsa, mentre l'oggetto può essere
un semplice valore (come una stringa o un numero) o a propria volta lo URI di una risorsa
collegata con il soggetto.Il predicato specifica la relazione che intercorre tra soggetto e
oggetto, ed è anch'esso uno URI (esistono vocabolari di predicati, ossia collezioni di URI
che rappresentano informazioni di un determinato dominio)[7].
Ad esempio una semplice tripla può esprimere il fatto che un pittore P, identificato da uno
URI, e un quadro Q, anch'esso identificato da uno URI, sono collegati dal fatto che il
pittore è l'autore del quadro.La tripla sarà espressa da URI in formato simile al seguente:
http://esempiomuseo.it/pittura/pittori/vangogh
http://xmlns.com/foaf/0.1/author
http://esempiomuseo.it/pittura/opere/girasoli
Una tripla in questo formato è detta link RDF[10] se connette due risorse appartenenti a
dataset diversi,per cui è possibile pensare ai link RDF che connettono dati come
all'evoluzione dei link HTML che connettono documenti[5].
I link RDF possono essere di tre tipi[7]:
• Link di relazione: collegano una risorsa con altri dati ad essa correlata, ad esempio una
pubblicazione con la propria bibliografia.
• Link di identità: puntano ad URI usati come alias per lo stesso oggetto o concetto, essi
fanno in modo che sia possibile recuperare ulteriori informazioni sull'oggetto di
interesse da altre fonti.
• Link di vocabolario: collegano i dati alle definizioni RDF dei termini usati per
descrivere i dati stessi, rendendoli così autodescrittivi.
Come si diceva, inoltre, insiemi di triple RDF possono anche essere visti come un grafo
connesso dove soggetti e oggetti sono nodi e i predicati sono archi, ad esempio se insieme
alla tripla precedente consideriamo la tripla che modella la frase “Il quadro Q è ospitato
dal museo M” arriviamo al grafo rappresentato in fig.1.
Bizer e Heath[7] fanno notare che, grazie all'unicità degli URI e al fatto che ogni URI può
essere dereferenziato in insiemi di triple RDF, i Linked Data possono essere visti come un
Giant Global Graph (enorme grafo globale[11]).
8
Linked Open Data per i beni culturali
1.3 Il Web dei Dati
In sintesi, l'adozione dei principi dei Linked Data porta quindi una serie di benefici sia a
chi pubblica dati sia a chi ne usufruisce,infatti si hanno[7][5]:
• Un modello unico per i dati: RDF consente la rappresentazione di qualsiasi tipo di dato
senza porre vincoli sul tipo di vocabolario da usare rendendo così immediata
l'integrazione tra i dati.
• Un meccanismo standardizzato di accesso ai dati:l'uso di HTTP come meccanismo
unico di accesso ai dati comporta notevoli semplificazioni rispetto all'eterogeneità delle
API Web.
• Scoperta di nuovi dati attraverso gli hyperlink: I Linked Data consentono la connessione
di dati appartenenti a fonti diverse, questo comporta la creazione di uno spazio globale
dei dati e fa sì che le applicazioni possano scoprire nuove fonti a run-time
semplicemente seguendo i link RDF. Non più collegamenti tra documenti,ma
connessioni semantiche tra cose.
• I dati sono autodescrittivi: infatti se nella descrizione RDF di un dato è presente un
termine sconosciuto, l'applicazione che ne fa uso può dereferenziare lo URI che
identifica quel termine per scoprirne la descrizione.
9
Fig.1 Un semplice grafo che rappresenta due triple RDF
Linked Open Data per i beni culturali
Il risultato è il Web dei Dati: “ A web of things in the world, described by data on the
Web2”[5].
2 Una ragnatela di cose nel mondo, descritte da dati sul Web.
10
Capitolo 2
Open Knowledge e Open Data
In questo Capitolo vedremo come abbracciando la filosofia Open Data i Linked Data
esprimano tutte le loro potenzialità: i Linked Data pubblicati con licenze Open sono detti
Linked Open Data (LOD).
2.1 Definizione
La Open Knowledge Foundation è un movimento che si batte per la diffusione della
conoscenza in forma libera; nel documento “Open Data-An Introduction”[12] esso
individua i requisiti chiave che i dati devono avere per poter essere definiti Open:
• Disponibilità ed Accesso: i dati devono essere disponibili nella loro interezza,
preferibilmente tramite download via internet, ad un costo non maggiore di una
ragionevole spesa per la riproduzione.
• Riuso e Ridistribuzione: i dati devono essere forniti con licenze che ne permettano il
riuso e la ridistribuzione, inoltre i dati devono essere in un formato comprensibile alle
macchine (machine readable).
• Partecipazione Universale:chiunque deve essere in grado di usare, riusare, e ridistribuire
i dati, non devono esserci discriminazioni riguardanti persone, gruppi o fini d'uso
(Quindi non sono permesse, ad esempio, licenze per fini non commerciali o solo per
studenti)
2.2 Vantaggi degli Open Data
I vantaggi che derivano dalla distribuzione dei dati sotto licenze Open sono molteplici:
sicuramente c'è un aumento della trasparenza e della partecipazione dei cittadini, che
possono non solo leggere i dati ma anche contribuire a migliorarli, tanto che si è avviato
un processo volto al rilascio di Open Government Data che sta pian piano prendendo
piede; ma c'è inoltre anche un forte valore commerciale intrinseco nei dati e dovuto alla
11
Linked Open Data per i beni culturali
natura fortemente digitalizzata dei nostri tempi.
Quello che interessa qui, tuttavia, sono i benefici che la filosofia Open Data può apportare
al paradigma Linked Data, benefici che Tim Berners-Lee ha subito intravisto, tanto da
spingerlo nel 2010 a modificare il documento “Linked Data”[6] di conseguenza, in modo
da includere una licenza Open come requisito per la pubblicazione dei dati(cfr. Fig.2).
Gli approcci Linked Data e Open Data, infatti, sono perfettamente complementari e
massimizzano l'uno i vantaggi dell'altro: da un lato l'enorme potenziale derivante dalla
“liberazione” dei dati non è sfruttato appieno se i dati restano isolati tra di loro, dall'altro i
Linked Data hanno bisogno di un vasto patrimonio di dati grezzi da connettere per essere
davvero utili.Possiamo dunque vedere gli Open Data come all'infrastruttura sulla quale
costruire il Giant Global Graph.
2.3 Il progetto Linking Open Data
Abbiamo dunque visto come una seppur cospicua quantità di Open Data non acquisti
veramente valore finché i dati non vengono collegati tramite link RDF e identificati da
URI HTTP che rimandano alle loro descrizioni in RDF.
È dunque nato un progetto che si occupa di rendere i diversi dataset che il movimento
Open Data riesce a pubblicare compatibili con la metodologia Linked Data.
12
★Disponibili sul Web(in qualsiasi formato) ma con licenza aperta, per essere Open Data.
★★ Disponibili come informazione strutturata comprensibile al calcolatore.
★★★ Come la (2) ma in più in formato non proprietario.
★★★★Tutti i precedenti più l'uso di standard W3C(RDF,SPARQL) per identificare i tuoi dati, in modo che sia possibile creare collegamenti ad essi.
★★★★★Tutti i precedenti più:connetti i tuoi dati a quelli di altre persone, in modo da fornire ad essi un contesto.
Fig.2 Principi per la pubblicazione di Linked Open Data
Linked Open Data per i beni culturali
Tale progetto è il Linking Open Data Project3, partito nel 2007 con DBPedia[13], un
tentativo di estrarre informazione strutturata da Wikipedia e renderla disponibile sul Web.
Da lì il grafo di link RDF ha continuato ad espandersi, ed il risultato è mostrato in figura 3.
3. http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
13
Fig.3 “Linking Open Data cloud diagram", by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
Capitolo 3
I LOD nel mondo delle biblioteche
Entriamo ora nello specifico discutendo potenzialità e problematiche derivanti dall'uso dei
LOD4 nel dominio dei beni culturali.In questo Capitolo verranno usati come case study le
biblioteche e l'universo bibliografico in generale.
3.1 Un case study significativo
La scelta di usare le biblioteche come case study per introdurre i LOD nei beni culturali è
motivata da diversi fattori.Il più importante è senza dubbio lo straordinario impulso che
l'adozione dei Linked Open Data sta ricevendo da alcune tra le più importanti biblioteche
del mondo, il che ci permette di fare un'accurata panoramica dei problemi che altre
istituzioni, come ad esempio i musei, si troveranno ad affrontare nel cammino verso l'uso
dei LOD, nonché di vedere all'opera su sistemi già funzionanti (come il Bibliographic
Framework della Biblioteca del Congresso) alcune possibili soluzioni.
La ragione per la quale il mondo bibliografico si sta muovendo ad un ritmo più spedito di
altri settori è da ricercarsi nella vasta esperienza che i bibliotecari hanno nella
compilazioni di metadati in forma altamente strutturata, prova ne sia lo sviluppo di
MARC5 già nel 1966[14].
Proprio in ragione di questa esperienza i bibliotecari e gli archivisti hanno intuito le
enormi potenzialità che i LOD hanno nel risolvere il principale problema del settore, ossia
l'interoperabilità tra cataloghi diversi, senza contare, peraltro, i vantaggi che le biblioteche
possono apportare alla costruzione del Giant Global Graph, adeguando l'enorme
patrimonio dei loro cataloghi agli standard dei Linked Data (torneremo meglio su questo
concetto nel Paragrafo 3.3).L'entità di questi vantaggi è tale da costituire un altro dei
motivi fondamentali nella scelta di questo case study.
4. D'ora in poi useremo senza distinzioni la locuzione Linked Open Data o il corrispondente acronimo LOD.5. MAchine Readable Cataloging, un formato di catalogazione comprensibile ai computer.
14
Linked Open Data per i beni culturali
3.2 Status quo
Nel 2010 il W3C ha creato il gruppo di lavoro Library Linked Data Incubator Group, allo
scopo di coordinare i vari sforzi tesi a portare le biblioteche e gli archivi nel mondo dei
Linked Data.
Il gruppo ha individuato i seguenti problemi nel modello attuale di archiviazione e
pubblicazione dei dati[15]:
• I dati prodotti dalle biblioteche non sono integrati nel Web: I database nei quali risiede
la maggior parte dei dati, pur avendo interfacce Web, non sono connessi ad altre risorse
sul Web con cui hanno in comune informazioni su date, informazioni geografiche,
persone ed organizzazioni.
• Gli standard sono progettati guardando solo alla comunità dei bibliotecari: la maggior
parte degli standard, come MARC, è progettata esclusivamente per il dominio
bibliografico ed è una delle ragioni della mancanza di interoperabilità descritta nel
punto precedente.
• I dati sono espressi principalmente in linguaggio naturale.
Tutti questi aspetti contribuiscono a limitare fortemente la visibilità dei cataloghi man
mano che le ricerche diventano sempre più basate sul Web: ormai se una fonte
d'informazioni non è comodamente raggiungibile sul Web, ossia se non è facile da
trovare con un motore di ricerca o seguendo link da altre risorse, è come se non
esistesse.
3.3 Prospettive future: il Global Cultural Graph
Tutti i problemi di cui sopra, e in special modo il più serio, ossia la mancanza di visibilità
dei cataloghi dovuta alla carenza di link verso di essi, sono facilmente risolti con i LOD,
rendendone quindi l'adozione molto conveniente per le biblioteche.
Quello che è ancora più interessante, tuttavia, non sono tanto i benefici che le biblioteche
ottengono, quanto quelli che esse apportano alla costruzione del Grafo Globale.
Infatti, con l'aumentare delle interconnessioni semantiche tra i dati, diviene necessario
riuscire a valutarne l'affidabilità, il che significa stabilire se i dati siano corretti e se
15
Linked Open Data per i beni culturali
esistano processi per garantirne la qualità.Inoltre bisogna essere certi che essi siano stabili
in modo da garantirne la citabilità, essenziale ad esempio in ambito scientifico[16].
Hanneman e Kett[16] invocano dunque la necessità, fermo restando che non tutti i dataset
debbano essere affidabili al cento per cento per essere utili, di un core di dati che sia
affidabile e persistente, uno scheletro su cui costriuire la fiducia degli utenti nelle
informazioni che ricavano dal Web dei Dati;e concordano nell'affermare che le istituzioni
che si occupano di beni culturali, e in special modo biblioteche, musei e archivi, siano
nella posizione migliore per costruire questo core, un Grafo Globale Culturale al cuore del
Grafo Globale. Perché ciò avvenga è necessario costruire un modello a shell6 (cfr. Fig.4)
che renda dunque possibile avere dati con diversi gradi di affidabilità e persistenza, e in
cui ad ogni strato siano associate politiche sempre più stringenti via via che che si procede
verso il centro.
Per garantire correttezza e persistenza dei dati al centro della shell, essi dovranno essere
supportati da organizzazioni pubbliche, rispettare standard consolidati di catalogazione e
obbedire a politiche di assoluta trasparenza.
Infine, prevedendo la possibilità per l'informazione di spostarsi verso il core tramite il
rispetto delle regole richieste, si fa in modo che l'insieme dei dati di cui si possa garantire l'
affidabilità cresca nel tempo, aumentando la fiducia nel Grafo Globale nella sua interezza.
In conclusione possiamo dire che il matrimonio di biblioteche e archivi con i LOD è
6 Letteralmente “a conchiglia”.
16
Fig.4 Modello a shell dell'affidabilità e persistenza (Hanneman e Kett [16])
Linked Open Data per i beni culturali
conveniente per entrambe le parti: i LOD assicurano visibilità ai cataloghi, e i cataloghi
affidabilità e credibilità ai LOD.
3.4 Ostacoli alla migrazione verso i Linked Open Data
Nonostante i significativi passi avanti compiuti negli ultimi anni, la strada da percorrere è
ancora lunga prima che i Linked Open Data diventino lo standard per la gestione
bibliografica e la pubblicazione dei cataloghi online.
Gli ostacoli che si frappongono al raggiungimento di questo obiettivo sono molteplici, di
natura tecnica e non, e vedremo che al momento quelli più difficili da superare sono
appunto di natura non tecnica.
Infatti gran parte delle difficoltà tecniche sono da imputare alla relativa novità delle
tecnologie usate, cui corrisponde una certa mancanza di documentazione che ne rallenta
l'adozione, sopratutto nel caso di istituzioni di dimensioni medie e medio-piccole che non
possono permettersi i costi di assunzione di personale specializzato.
Con la crescente diffusione dei LOD, tuttavia, è probabile che arrivino sul mercato
strumenti usabili anche senza particolari competenze tecniche (come è avvenuto per
l'HTML), annullando di fatto il problema.
Questioni più serie riguardano invece due aspetti concettuali, ossia la modellazione dei
dati e la scelta degli URI.
Mentre la prima questione è comune a tutte le applicazioni che facciano uso di Linked
Open Data, ragion per cui ormai esistono diverse ontologie tra cui scegliere, la seconda nel
caso delle biblioteche prevede difficoltà aggiuntive[16].
Infatti, mentre altre istituzioni sono libere di scegliere gli URI per i propri dati senza
restrizioni, nel caso delle biblioteche si deve tener presente che esistono già svariati
identificatori pubblici per i dati da esse prodotte, per cui nella scelta degli URI si deve
cercare un compromesso per evitare una completa separazione tra i protocolli già esistenti
di scambio dati tra biblioteche e il mondo dei LOD[16].
Tuttavia la questione in assoluto più complessa è senz'altro di natura legale, in quanto
alcune istituzioni sono restie a rilasciare i propri dati sotto licenza Open, principalmente
per motivi legati ai diritti di proprietà intellettuale.
17
Linked Open Data per i beni culturali
Considerando che la legislazione in materia varia considerevolmente da nazione a
nazione,il problema appare di soluzione non banale[15].
3.5 BIBFRAME
Il Bibliographic Framework (BIBFRAME) è un modello dati progettato dalla Biblioteca
del Congresso di Washington, la più grande biblioteca del mondo, per portare il suo
enorme catalogo nel mondo dei Linked Data.
Vedremo in breve la struttura di questo framework, che rappresenta un esempio perfetto di
applicazione che utilizza i LOD su vasta scala e che si candida seriamente a diventare lo
standard de facto per sostituire l'ormai obsoleto MARC.
Il modello consiste nelle seguenti classi[17]:
• Creative Work (Opera creativa): una risorsa che rappresenta l'essenza a livello
concettuale di un articolo da catalogare. Le sue proprietà più comuni includono
relazioni contestuali con Authority(autore,argomento etc.) così come con altri Work.
• Instance (Istanza): una risorsa che rappresenta una istanza materiale del Work. Include
proprietà specifiche di istanza (ad esempio l'edizione) e relazioni con Authority ad esso
collegate (come il traduttore).
• Authority (Autorità): una risorsa che rappresenta concetti chiave nel campo del
controllo di autorità7,ad esempio Persone, Posti, Argomenti etc. Fornisce dunque un
mezzo per disambiguare e contestualizzare Work e Authority ad essa collegate.
• Annotation (Annotazione) : una risorsa che correda altre risorse BIBFRAME di
informazioni aggiuntive,ad esempio copertina e recensioni di un libro.Tiene conto del
fatto che le biblioteche creano una grande quantità di metadati, che potrebbero venire
usati in applicazioni del tutto diverse da quelle per cui sono stati creati, e fornisce uno
strumento flessibile per associare tali metadati ad una qualsiasi risorsa BIBFRAME.
Infine va detto che, essendo il vocabolario BIBFRAME totalmente espresso in RDF,
questo framework rappresenta il primo formato di catalogazione totalmente basato sui
Linked Data e permette quindi alle biblioteche che lo adottano di connettersi subito al
Grafo. In figura 5 è mostrato un esempio di relazione complessa modellata con
7. Il controllo di autorità è l'organizzazione di un catalogo bibliografico usando un singolo termine per ogni entità.
18
Linked Open Data per i beni culturali
BIBFRAME.
19
Fig.5 Esempio di relazione complessa che è possibile modellare con BIBFRAME[17]
Capitolo 4
Europeana
In questo Capitolo ci focalizzeremo su Europeana, un ambizioso progetto che mira a
fornire un punto di accesso unico all'immenso patrimonio culturale europeo. Discuteremo
quindi le strategie messe in atto per farlo evolvere verso i Linked Open Data.
4.1 Obiettivi di Europeana
Europeana è un'iniziativa dell'Unione Europea, un portale che finora ha raccolto metadati
su oltre 23 milioni di oggetti, allo scopo di mostrare come sia possibile ottenere una vera
interoperabilità che non solo attraversi i confini nazionali per confluire in un patrimonio
europeo unificato, ma soprattutto abbatta le barriere tra i diversi domini per arrivare ad un
contesto semantico condiviso[18].
La strada migliore per raggiungere l'obiettivo è, come abbiamo visto, l'approccio Linked
Open Data, la cui adozione in questo contesto rappresenta la summa delle opportunità che
esso offre, ma anche delle difficoltà nella sua implementazione.
Infatti Europeana si limita a fare da gateway per le risorse che sono distribuite in
istituzioni culturali in tutta Europa e che spaziano dalle collezioni museali a quelle
audiovisive, senza dimenticare, ovviamente, le biblioteche.
Alle difficoltà tecniche derivanti dalla conversione di questa cospicua mole di dati e
metadati in modo da renderli compatibili con gli standard Linked Data, si aggiungono
anche difficoltà diplomatiche e organizzative, in quanto convincere le varie istituzioni a
rilasciare i loro dati con licenze Open richiede un cambio di prospettiva, in cui il
patrimonio sovranazionale venga prima degli interessi particolari[18].
Tuttavia le potenzialità del progetto compensano di gran lunga i problemi realizzativi,
quando si pensa alla funzione che potrà avere in futuro: un futuro in cui sviluppatori di
terze parti potranno sfruttarne senza restrizioni il patrimonio per creare conoscenza e
ricchezza tramite nuove applicazioni.
20
Linked Open Data per i beni culturali
4.2 EDM (Europeana Data Model)
La prima difficoltà tecnica da superare è stata lo sviluppo di un insieme condiviso di
metadati, che potesse mettere ordine nella pletora di differenti formati e standard usati
dalle varie istituzioni coinvolte ( ricordiamo che difficilmente un museo d'arte moderna
terrà traccia delle stesse informazioni di un archivio audiovisivo ) : tale modello è detto
ESE (European Semantic Elements), ed è sostanzialmente una derivazione del Dublin
Core8.
Tuttavia esso non rispetta i principi Linked Data, in quanto ad esempio la maggior parte
dei metadati è in formato testuale e non URI, ponendo così seri limiti alla capacità di
interconnessione tra i dati che è il vero punto di forza dei LOD.
Per superare questi problemi è stato allora progettato un nuovo modello, stavolta basato su
RDF, che prende il nome di EDM (European Data Model), ed è capace di risolvere molti
dei problemi derivanti dall'uso di ESE, nello specifico[18]:
• Distinguere tra un oggetto e la sua rappresentazione digitale.
• Distinguere tra un oggetto e i metadati che lo descrivono.
• Prevedere il supporto per risorse contestuali, in modo da poter connettere direttamente
questo ultime all'oggetto di interesse (si pensi alla fondamentale importanza delle
informazioni geografiche relative ad un reperto archeologico).
4.3 Europeana Linked Data Pilot
Anche dopo lo sviluppo di EDM, ci sono almeno tre problemi che hanno impedito
l'adozione immediata dei LOD come tecnologia principale alla base di
Europeana,ossia[18]:
• Mancanza di un adeguato numero di metadati in formato EDM.
• Mancanza di link verso altre fonti.
• Mancanza di accordi espliciti riguardanti il permesso per la pubblicazione dei metadati
delle istituzioni che partecipano ad Europeana come (Linked) Open Data.
8. Il Dublin Core è un sistema di metadati basato su un sottoinsieme minimo di elementi di base, in origine quindici.
21
Linked Open Data per i beni culturali
Per questo motivo è stato lanciato data.europeana.eu, un progetto pilota che permette alla
istituzioni che vi partecipano il rilascio dei propri dati come LOD.
La conversione avviene in due fasi[18](cfr. Fig. 6):
1. Si estrae il sottoinsieme di metadati ESE forniti dalle istituzioni facenti parte del
progetto.
2. Si effettua la conversione da ESE e EDM, in questa fase si provvede anche
all'assegnazioni di URI HTTP dereferenziabili.
Infine si effettua l'arricchimento semantico dei dati tramite link di quattro tipi: geoNames
per i posti, gemet9 per le informazioni di tipo generico, Semium per la contestualizzazione
temporale, e DBPedia per le persone.
9. Il gemet è un dizionario terminologico multilingue.
22
Fig.6 Processo di generazione dei Linked Data[18]
Conclusioni
I Linked Open Data si stanno dimostrando un paradigma sempre più valido per costruire
il Web di domani: un Web fatto non più di documenti collegati intertestualmente, ma di
cose connesse semanticamente, un Web dei Dati.
Abbiamo visto inoltre che le istituzioni che si occupano di beni culturali giocano un ruolo
centrale nella costruzione del Giant Global Graph; infatti grazie all'elevata qualità dei dati
che sono in grado di produrre, possono assumere il ruolo importantissimo di nucleo
attorno al quale costruire la fiducia nel Web dei Dati, e allo stesso tempo tornare ad essere
soggetti prevalenti nel panorama culturale grazie alla rinnovata visibilità che l'integrazione
con il Web porta con sé.
Perché ciò avvenga, tuttavia, bisogna muoversi su due fronti.
Il primo, e forse il più importante, è l'impegno verso un maggiore rilascio dei dati come
Open Data, che sono il combustibile senza il quale la rivoluzione del Web Semantico non
può partire.
Il secondo è la diffusione delle tecnologie che sono alla base dei Linked Data, in modo che
anche i meno esperti possano creare un link RDF con la stessa facilità con cui oggi si usa
l'HTML, perché è solo collegando i dati tra loro che verrà sbloccato il potenziale insito nei
LOD.
Il campo dei beni culturali si trova all'avanguardia nello sfruttare questo paradigma, e
l'esistenza di progetti già funzionanti in ambito bibliografico, insieme con lo sviluppo
sempre più rapido di progetti ambiziosi come Europeana, fanno ben sperare che in un
futuro non troppo lontano potremo avere accesso a quello che non sarà più un mero
insieme di dati, perché le connessioni tra di essi lo avranno trasformato in un vero
patrimonio della conoscenza.
23
Bibliografia[1] Unesco general conference 1989 "Draft medium-term plan, 1990-1995"
[2] Hyvönen, E. 2012 "Publishing and Using Cultural Heritage Linked Data on the Semantic Web"
[3] Amin,A., van Ossenbruggen, J., Hardman, L., van Nispen, A. 2008 " Understanding cultural heritage experts’ information seeking needs."
[4] Doerr, M., Iorizzo,D. 2008 "The dream of a global knowledge network - a new approach."
[5] Bizer, C., Heath, T., & Berners-Lee, T. 2009 "Linked data-The story so far"
[6] Berners-Lee, T. 2006 "Linked Data " http://www.w3.org/DesignIssues/LinkedData.htm l
[7] Bizer, C., Heath, T 2011 "Linked Data: Evolving the Web into a Global Data Space "
[8] Sauermann,L. ,Cyganiak,R. 2008 "Cool uris for the semantic web - w3c interest group note." http://www.w3.org/TR/cooluris
[9] Klyne, G.,Carrol, J. 2004 "ResourceDescription Framework (RDF): Concepts and Abstract Syntax - W3C Recommendation" http://www.w3.org/TR/rdf-concepts/
[10] Bizer, C., Cyganiak, R., Heath, T. 2007 "How to publish Linked Data on the Web" http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
[11] Berners-Lee, T. 2007 "Giant Global Graph" http://dig.csail.mit.edu/breadcrumbs/node/215
[12] Open Knowledge Foundation "Open Data-An Introduction" http ://okfn.org/opendata/
[13] Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R., & Ives, Z. 2007 "Dbpedia: A nucleus for a web of open data."
[14] Ford, M. 2012 "LC’s Bibliographic Framework initiative and the Attractiveness of Linked data"
[15] Baker, T.,Bermès, E.,Coyle, K.,Dunshire, G.,Isaac, A.,Murray, P.,…..Zeng, M. 2011 "Library Linked Data Incubator Group Final Report" http:// www.w3. org/2005/Incubator/lld/XGR-lld-20111025
[16] Hannemann, J., & Kett, J. 2010 "Linked data for libraries"
[17] Miller, E.,Ogbuji, U.,Mueller, V., & MacDougall, K. 2012 "Bibliographic Framework as aWeb of Data:Linked Data Model and Supporting Services"
[18] Isaac, A.,Haslhofer, B., & Clayphan, R. 2012 "eUroPeANA: moving to Linked open Data"
24