Open Data
Asunción Gómez-Pérez
Ontology Engineering Group
Artificial Intelligence Department
Universidad Politécnica de Madrid
@asungomezperez
Acknowledgements: Oscar Corcho, Raul García, Jorge Gracia
Nandana Mihindukulasooriya, Victor Rodríguez Doncel
Research funded by the project
4V: Volumen, Velocidad, Variedad y Validez en la gestión innovadora de datos
(TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Context – Ontology Engineering Group Directors: A. Gómez-Pérez, O. Corcho
Position: 8th in the UPM ranking (200 groups)
Founded: 1994
Research Group (30 people)
Experience on
1. Ontologies, Semantic Web, Linked Data, Open Data
2. Semantic E-science
3. Multilingualism
ODI Madrid : Madrid Node of the Open Data Institute
Projects
27 EU projects (7 as coordinator)
54 National Projects
27 contracts with companies
Standardization activities
>25 @ W3C, ISO, OASIS, etc.
Impact of publications H-index (scholar)
Asunción Gómez-Pérez (h:50, citations 14852)
Oscar Corcho García (h: 36, citations 8152)
Services to the Spanish community
esDbpedia
linkeddata.es
vocab.linkeddata.es
http://www.oeg-upm.net/
https://github.com/oeg-upm
@oeg-upm
170+ Past Collaborators
50+ Past Visitors
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
License
• This work is licensed under the Creative Commons
Attribution – Non Commercial – Share Alike License
• You are free:
- to Share — to copy, distribute and transmit the work
- to Remix — to adapt the work
• Under the following conditions
- Attribution — You must attribute the work by inserting
• “[source http://www.oeg-upm.net/]” at the footer of each
reused slide
• a credits slide stating: “Open Data” by A. Gómez-Pérez ”
- Non-commercial
- Share-Alike
3
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
A world of digital data
Heterogeneous
Formats
Providers Domains Languages
Licenses
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Scenario
“Barrio de las
Letras”
“Cervantes“
“Lope de Vega
“Transport public
services”
“Accessibility
constraints”
“Movies D. Quijote”
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Scenario
6
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Data Spectrum
7
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
¿Qué son los datos abiertos (open data)?
• “Los datos abiertos (open data) son datos que
pueden ser utilizados, reutilizados y redistribuidos
libremente por cualquier persona u organización –
sujetos únicamente, como mucho, a los requisitos de
atribución y de compartir de manera similar”
• Elementos clave:
- Disponibilidad y Acceso: los datos deben estar disponibles
como un todo, con un coste máximo que sea el de su
reproducción, y preferiblemente en Internet. Asimismo,
deben ser fáciles de modificar.
- Reutilización y Redistribución: los datos deben darse con
una licencia que permita la reutilización y redistribución,
incluyendo la mezcla con otros conjuntos de datos.
- Participación Universal: todos deben poder usarlos,
reutilizarlos y redistribuirlos. [fuente: Open Data Handbook, http://opendatahandbook.org/en/what-is-open-data/ ]
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Marco legal e iniciativas Open Data. Europa y España
• Open Access Initiative (2001)
- Información científica en la red; > 510 organizaciones
• Convención de Aarhus (1998)
- Derecho de participación y acceso; 41 países y la UE
• Directiva PSI
- Reutilización de la PSI
• Convención sobre el acceso a documentos oficiales (2009)
- Firmada por 12 países
- Bélgica, Finlanda, Noruega, Suecia, Hungría, Estonia, Lituania, Eslovenia, Georgia,
Montenegro, Serbia y Macedonia
• Ley 37/2007. Reutilización de la PSI
• Ley 11/2007. Acceso de los ciudadanos a los servicios públicos, y Derecho a la
calidad de los servicios
• RD 4/2010 Esquema Nacional de Interoperabilidad
- Estándares abiertos
- Principio de neutralidad tecnológica
- Software de fuentes abiertas
• RD 1495/2011 Desarrolla la Ley 37/2007
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Analicemos el Real Decreto 1495/2011. Documentos
10 Asunción Gómez Pérez
Metadatos generales el documento
dc:title
dc:author
dc:description
…
Datos del documento
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Open Data in many domains
• Governments
• Smart Cities
• Energy Efficiency
• Transport
• Social Media and News
• Food and Agriculture
• Air quality
• Finance
• Universities
• Research
• Libraries
• Linguistics
• Terminologies
• …
11
Any where Any one Any time
Any media Any language
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
The Open Data stars
Make it available as structured data (e.g., Excel instead of image scan or a table)
Use non-proprietary formats (e.g., CSV instead of Excel)
Use URIs to identify things, so that people can point at your stuff
Link your data to other data to provide context
Make your stuff available on the Web (whatever format) under an open license
12
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Open data formats and publication
13
Web Services
In Boards
The Web
(Human readable format)
Adaptado de: Antonio Rodríguez Pascual (IGN)
As files on the Web
(XML, HTML, CSV, etc.) The Web
(Human & Machine readable formats)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Open data formats and publication
14
Data Hub
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 15
Open Data Portals
Open data formats and publication
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Open data formats and publication
- Standard formats (JSON, JSON-LD, RDF)
- Shared vocabularies and ontologies
APIs based on Semantics
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Turbine metadata Fore cast
information
Wind Turbine
Energy output by
month
Limitations when exploiting different and disconnected data sources
Wind Speed per
day and city
Wind farm topology
Company Private data
Real time wind speed
Metadata Data
M D
M D
M D M D
M D
M
M D Complementary
but
not connected
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Lack of interoperability: Language, Syntax, Semantic &Technical
• Ecosystem of
- Open Resources in silos
- Complementary domains
- Heterogeneous formats
- Different languages
- Repositories with different
metadata
- Many APIs and services
for querying
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
¿Qué busca el usuario final de datos abiertos?
- ¿Quién generó el conjunto de datos?
- ¿Cuándo se creó el conjunto de datos?
- ¿Cómo se creó el conjunto de datos?
- ¿Es ésta la última versión?
- ¿Está la información sobre licencias de uso claramente identificada?
- ¿En qué formatos se me ofrecen los datos abiertos?
- ¿Son los datos monoligües o multilingües?
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Metadata matters
21
Provenance
Licenses
Language
Privacy
GeoLocation
Time
Spatial
Provides vocabularies for representing these dimensions
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Open Data
Linked Open Data
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Complementary,
Different
languages,
but not connected
Lack of interoperability
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Multimedia and Multilingual Data Integration
Fotografía
El Quijote
Image
http://www.mancia.org/foro/
articulos/107712-don-quijote-medicina.html
URL
El Quijote
Photo
El Quijote
Vídeo
El Quijote
Español
Video
Film Language
http://www.rtve.es/alaca
rta/videos/el-quijote/
URL Movie
M. Cervantes
Don Quixote
Polish
Written by
Translated in
1960 Year of
publication
VIAF
located
M. Cervantes
El Quijote
Author of
BNE Located
http://bdh-
rd.bne.es/vie
wer.vm?id=0
000154356
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Linked Data: why it is important?
• Facilitate data integration
- From heterogeous sources
- In different formats
- Different granularity
- In different languages
- From different countries
© Slide adapted from “5min Introduction to Linked Data”- Olaf Hartig
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
LD domains in August 2014
Media
Geographic
Life Sciences
Publications Goverment
Social
Networking Cross-domains
User Generated
Content Linguistics
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Foundations
Unique identifiers: URI identify or name a resource
RDF(S) models
El Quijote Cervantes Is creator of
Work Person Is creator of
Is a Is a
http://datos.bne.es/resource/XX1718747 http://datos.bne.es/resource/XX3383563
http://datos.bne.es/def/C1005 http://datos.bne.es/def/C1001
Equivalence links to other datasets Same As
http://viaf.org/viaf/17220427
Cervantes
Same As Same As
http://dbpedia.org/resource/Miguel_de_Cervantes
Cervantes
Data navigation
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
The model (Ontology) and the data
28
Work
Idiom
translation
Year
Publication date
Library
Located at
Person
Is creator of
Has subject
El Quijote Cervantes
Is creator of
Catalán
translation
1960
Publication date
BNE
Located in
Has subject
Vida de Cervantes
birthPlace Place
birthPlace Alcalá de Henares
Ontology
Data
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 29
http://iflastandards.info/ns/fr/frbr/frbrer/C1001
http://iflastandards.info/ns/fr/frbr/frbrer/C1002
translation
Año
Publication date
http://xmlns.com/foaf/0.1/Organization
Located in
http://iflastandards.info/ns/fr/frbr/frbrer/C1005
Is creator of
Has subject
http://datos.bne.es/resource/XX3383563 http://datos.bne.es/resource/XX1718747
Es autor
http://datos.bne.es/resource/XX1924295
translation
1960
Publication date
BNE
Located in
Has subject
http://datos.bne.es/resource/bimo0002045496
Vida de Miguel de Cervantes Saavedra
Don Quijote de la Mancha Cervantes Saavedra, Miguel de
Catalán
Ontology
Data
http://datos.bne.es/#
Language
work
Biblioteca
Person
http://geo.linkeddata.es/ontology/Municipio
birthPlace
http://geo.linkeddata.es/resource/Alcalá de Henares
birthPlace
Linked data is full of URIs
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Linked Data allows uniform access
1. Agree on vocabularies for
describing metadata and domain
data
2. Unified and standardized language
for describing resources ( RDF(S))
3. Unified and standardized query
language (SPARQL)
4. Standardized non-proprietary APIs
5. Links to other resources
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Open Data
Linked Open Data
Linked Licensed Data
Research funded by the project
4V: Volumen, Velocidad, Variedad y Validez en la gestión innovadora de datos (TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Create, consume, aggregate,
derive and publish Linked Data
in a lawful environment 0
Always license your data
…
Data shops Governments Individuals
32 4V (TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Linked Licensed Data
How do we represent license information?
4V (TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Linked Licensed Data
4V (TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
(Linked) Licensed Data in practice
35
Published
Open License
(Linked) Open Data (Linked) Closed Data
Published
No Open License
(Linked) Private Data
Not Published
Available Data without explicit license
Published
Without License 4V (TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
How Open is the Linked Open Data Cloud?
36
4V (TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
RDF Licensing support
4V (TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
«An action is (permitted /prohibited / obliged)
to be acted by the party over the asset,
provided that the constraints hold»
Asset:
Statement (rdf:Statement)
Dataset (void:Dataset)
Ontology (owl:Ontology)
Mapping (void:Linkset)
LDP Container
(ldp:Resource)
Action:
Derive (cc:DerivativeWorks)
Translate (odrl:translate)
Distribute (cc:Distribution)
Reproduce (cc:Reproduce)
Print (odrl:print)
Anonymize (odrl:anonymize)
Index (odrl:index)
… plus ~30 others in
ODRL/CC…
Party:
One individual (ej: mailto:[email protected])
One organization: (http://www.oeg-upm.net)
One key owner using Web of Trust: (using
http://xmlns.com/wot/0.1/hasKey)
Constraint:
Acknowledgement (cc:Attribution)
A country, city… (odrl:spatial)
A time frame (odrl:timeInterval,
odrl:dateTime…)
Data Model: ODRL (Open Digital Rights Language)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
<http://purl.org/NET/rdflicense/cc-by-sa3.0.ttl>
a odrl:Policy ;
rdfs:label "Creative Commons CC-BY-SA" ;
rdfs:seeAlso <http://creativecommons.org/licenses/by-sa/3.0/rdf> ;
cc:legalcode <http://creativecommons.org/licenses/by-sa/3.0/legalcode> ;
dct:hasVersion "3.0" ;
dct:language <http://www.lexvo.org/page/iso639-3/eng> ;
dct:publisher "Creative Commons" ;
odrl:permission
[
odrl:action cc:Distribution , cc:DerivativeWorks , cc:Reproduction ;
odrl:duty
[
odrl:action cc:Attribution , cc:Notice , cc:ShareAlike
]
] .
Sample license in ODRL: Creative Commons CC-BY-SA
No Constraints (spatial, temporal,
are not found in Creative Commons
licenses), they are universal
How do I use in my data set?
:myDataset dct:license <http://purl.org/NET/rdflicense/cc-by-sa3.0>
A generic license (like Creative Commons’)
has no party, as the recipient is anybody
accessing the licensed work
URI
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Example of a license
@prefix gr: <http://purl.org/goodrelations/> .
@prefix dcat: <http://www.w3.org/ns/dcat#> .
<http://samplepolicy/1234>
a odrl:Offer ;
rdfs:label "License Offering Paid Linked Data" ;
odrl:permission [
odrl:target <http://example.org/dataset/ds01> ;
odrl:action odrl:reproduce ;
odrl:duty [
rdfs:label "Pay" ;
gr:UnitOfMeasurement dcat:Dataset ;
gr:amountOfThisGood "1" ;
odrl:action odrl:pay ;
odrl:target "15,00 EUR“
] ;
odrl:constraint
[
odrl:operator odrl:lt ;
odrl:dateTime "2015-12-31"^^xsd:date ]
] ;
]
The reproduction of a dataset is limited until the end of this year after paying 15€.
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Using Policies to govern conditional access to Linked Data
Example of access to Linked Data for a price (15EUR for the dataset or 0.01EUR for a triple thereof)
@prefix gr: <http://purl.org/goodrelations/> .
@prefix dcat: <http://www.w3.org/ns/dcat#> .
<http://salonica.dia.fi.upm.es/ldr/policy/cdaddba4-fc2e-4ee0-a784-e62f1db259bf>
a odrl:Set ;
rdfs:label "License Offering Paid Linked Data" ;
odrl:permission [ a odrl:Permission ;
odrl:target <http://example.org/dataset/ds01> ;
odrl:action odrl:reproduce ;
odrl:duty [ a odrl:Duty ;
rdfs:label "Pay" ;
gr:UnitOfMeasurement dcat:Dataset ;
gr:amountOfThisGood "1" ;
odrl:action odrl:pay ;
odrl:target "15,00 EUR"
]
] , [ a odrl:Permission ;
odrl:action odrl:reproduce ;
odrl:target <http://example.org/dataset/ds01> ;
odrl:duty [ a odrl:Duty ;
rdfs:label "Pay" ;
gr:UnitOfMeasurement rdf:Statement ;
gr:amountOfThisGood "1" ;
odrl:action odrl:pay ;
odrl:target "0,01 EUR"
]
] ..
http://conditional.linkeddata.es 4V (TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
RDFLicense – Dataset of licenses in RDF
― Content negotiation: machine readable version of common licenses
― Based on ODRL (W3C spec)
― 148 licenses (as of June 2015): Creative Commons, ODC, GNU…
― Permanent URIs. Example: http://purl.org/NET/rdflicense/gpl2.0.ttl
― Browse them here: http://rdflicense.appspot.com/
― Contribute here: https://github.com/oeg-upm/rdflicense
― Catalogued here: http://datahub.io/dataset/rdflicense
― Read more here: A Dataset of RDF Licenses, V. Rodriguez-Doncel, S. Villata, A. Gomez-
Perez, in Proc. of the 27th Int. Conf. on Legal Knowledge and Information System (JURIX), R.
Hoekstra (Ed.), ISBN 978-1-61499-467-1, pp. 187-189, IOS Press, 2014
4V (TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Licensius – Licensing related services
4V (TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Conditional Access to Linked Data
4V (TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Uniform access to license information
1. Agree on vocabularies (ODRL)
2. Unified and standardized language
for describing resources ( RDF(S))
3. Unified and standardized query
language (SPARQL)
4. Standardized non-proprietary APIs
5. Links to other resources
4V (TIN2013-46238-C4-2-R)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Linked Licensed Data are multilingual
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Open Data
Linked Open Data
Linked Licensed Data
Linguistic Linked Licensed Data
Research funded by the LIDER project:
"Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe“
is a FP7 project reference number 610782 in the topic ICT-2013.4.1: Content analytics and language technologies.
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 49
http://rae.es
Motivation
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 50 *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell
http://es.wiktionary.org
http://rae.es
An example
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 51 *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell
http://es.wiktionary.org
http://rae.es
http://www.wikilengua.org/
index.php/Terminesp:red
An example
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 52 *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell
http://es.wiktionary.org
http://rae.es
http://www.wikilengua.org/
index.php/Terminesp:red
http://www.wordreference.
com/sinonimos/
An example
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 53 *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell
http://es.wiktionary.org
http://rae.es
http://www.wikilengua.org/
index.php/Terminesp:red
http://es.wikipedia.org
http://www.wordreference.
com/sinonimos/
An example
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
http://es.wiktionary.org
http://rae.es
http://www.wikilengua.org/
index.php/Terminesp:red
http://es.wikipedia.org
http://www.wordreference.
com/sinonimos/
An example
“Red”
(computer
network)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Lack of interoperability of Language resources
• Ecosystem of
- Open and Closed resources
- Silos of LRs
- Complementary resources
• Lexicon, Corpora, Dictionaries, Grammars, ….
- Heterogeneous formats
• E.g, for Lexicons: Lexinfo, LMF, LIR, Lemon, …
- Several repositories with different metadata and schemas
- Many APIs and services for querying
Discovery and reuse LR in third party applications is hard, manual and time consuming
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
LD allows linguistic data integration
Red
Phonetic form
Form
number singular
[RED]
Form
plural
[REDES]
Phonetic form
number
Red
Sense
written form
“red”
Sense
written form
“malla”
equivalent
Red
image
Red
Sense Sense
translation
es - en
written form
“red” “network”
written form
Red
written form
Form
gender
femenine
“red”
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Linguistic Linked Data Cloud
Linked Data interconnects data from
resources
In many domains
In many languages
Open and closed License
Links with other datasets
Linguistic Linked
Data Cloud
Linguistic Linked Data Cloud
Subset of LOD
Linguistic domain
Many type of resources
Interconnected with other Language Resources
Enables the lexicalization of data on the web, not
necessarily data in the LD format
Enables a new generation of LD-aware NLP and MT
Services
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
What is 3LD?
3LD Linguistic Linked Licensed Data
Language resources such as:
- Lexica
- Corpora
- Dictionaries
- Grammars ..
NIF NLP Interchange Format
Using RDF and standard data
models (vocabularies):
- Lexica
- Corpora
- .....
ODRL Open Digital Rights Language
Published along with
a machine-readable license.
www.lider-project.eu
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Linked Data and Linguistic Linked Data
1. Agree on vocabularies for
describing
• LR metadata
• LR content (Lemon-Ontolex, NIF, …)
2. Unified and standardized language
for describing resources ( RDF(S))
3. Unified and standardized query
language (SPARQL)
4. Standardized non-proprietary APIs
5. Links to other resources
Linguistic LD
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Open Data
Linked Open Data
Linked Licensed Data
Linguistic Linked Licensed Data
Linked Open Data Methods and tools
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Lección 3: Los aspectos metodológicos son importantes
Specification
Modelling
(Ontologies)
RDF
Generation Publication
Exploitation
Data Linking
Data
Curation
Many technologies
involved
Villazón-Terrazas, B.; Vilches. L.; Corcho, O.; Gómez-Pérez, A.
Methodological Guidelines for Publishing Government Linked Data. In
D. Wood, ed. Linking Government Data. Springer. (pp, 27-49). 2011
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Modelling (Ontologies)
- People: FOAF, vCard
- Organization: ORG
- Documents: DC, BIBO
- Geospatial ontologies
- Location: LOCN
- Statistics: Data Cube
- Library: FRBR, datos.bne.es
- Sensor data: Semantic
Sensor Network Ontology
- Licenses: ODRL
- Provenance: PROV-O
- Public Procurement: PPROC
- Linguistics: LEMON
62
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Linked Data without ontologies
http://www.server1.org/resource/Cervantes
http://www.server2.es/resource/Cervantes
http://datos.bne.es/resource/XX1718747
http://d-nb.info/gnd/11851993X
http://geo.linkeddata.es/page/resource/Municipio/Cervantes
Same as
Same as
Same as
Same as
URI URI
URI URI
URI
914 296 093
276,4 km²
Phone
Size
1547
#People
1547
Date of Birth
Author
D. Quijote
Cervantes
(person)
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Linked Data and ontologies
http://www.server1.org/resource/Cervantes
http://www.server2.es/resource/Cervantes
http://datos.bne.es/resource/XX1718747
http://d-nb.info/gnd/11851993X
http://geo.linkeddata.es/page/resource/Municipio/Cervantes
Same as
Person rdf:type
rdf:type
Retaurant rdf:type
Street rdf:type
Municipality rdf:type
URI URI
URI URI
URI
1547
Date of Birth
Author
D. Quijote
Cervantes
(Person)
Asunción Gómez-Pérez W3C @ Spain – 2013 Madrid, 18th December
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
RDF Generation
Metadata Generation Data Generation
Data Integration
Users
Metadata Integration
Public Resources Private Resources
Geo Web 2.0 Library Diverse formats
Sensor LDP Morph shp2RDF
Geometry2RDF Marimba SPARQL-Stream Sem4Tags LDP4j
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
RDF Generation: Provenance
66
RDF Store
PROVENANCE Model (RDF(S))
1
Process centric provenance
• PROV-O @W3C
Filev1. txt
Revision Process
wasGeneratedBy
File.txt
used
Metadata provenance
• DC, PROV @ W3C
Resource provenance
• DC, PROV-O, Premis, SWANL
• EDM (including agregation)
creator
rights
creationDate
John
12-2-1900
GPL
RDF Generation: Provenance
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
RDF Generation: Provenance
67 M3iLD Hearing - Luxembourg, 19 June 2012
Macr21 Dataset
(prov:Entity)
Conversion Process (prov:Avtivity)
TTL file (prov:Entity)
Process centric provenance
prov:used
prov:wasGeneratedBy
dc:license
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
RDF Generation: Provenance
68 M3iLD Hearing - Luxembourg, 19 June 2012
Marc21 Dataset
(prov:Entity)
Conversion Process (prov:Avtivity)
TTL file (prov:Entity)
BNE (prov:Agent)
“2010-07-14T01:01:01Z”^^xsd:dateTime
CC0
CC0
Resource provenance Process centric provenance
“2011-07-14T01:01:01Z”^^xsd:dateTime
prov:used
prov:wasGeneratedBy
“2011-07-14T02:02:02Z”^^xsd:dateTime
prov:startedAtTime
prov:endedAtTime
BNE (prov:Agent)
prov:wasAssociatedWith
prov:actedOnBehalfOf
prov:wasAttributedTo, dc:creator
prov:generatedAtTime, dc:created
dc:license
prov:wasAttributedTo, dc:creator
Marimba (prov:Agent)
dc:license
prov:generatedAtTime, dc:created
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
RDF Generation: Provenance
69 M3iLD Hearing - Luxembourg, 19 June 2012
Macr21 Dataset
(prov:Entity)
Conversion Process (prov:Avtivity)
TTL file (prov:Entity)
BNE (prov:Agent)
“2010-07-14T01:01:01Z”^^xsd:dateTime
CC0
CC0
Resource provenance Metadata provenance Process centric provenance
BNE Digital library
department (prov:Agent)
GPL
“2011-07-14T01:01:01Z”^^xsd:dateTime
prov:used
prov:wasGeneratedBy
“2011-07-14T02:02:02Z”^^xsd:dateTime
prov:startedAtTime
prov:endedAtTime
BNE (prov:Agent)
prov:wasAssociatedWith
prov:actedOnBehalfOf
prov:wasAttributedTo, dc:creator
prov:generatedAtTime, dc:created
dc:license
prov:wasAttributedTo, dc:creator
Marimba (prov:Agent)
dc:license
Metadata provenance file (prov:Bundle)
prov:generatedAtTime, dc:created
prov:wasAttributedTo, dc:creator
dc:license
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Linking: Integration of cultural data and geographical data
70
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
• Explore the vocabularies used and the abstract triple
patterns in 2+ billion triples including all Dbpedia
datasets, Wikidata, Linked Brainz, Bio2RDF, Linked
MDB, ...
Nandana Mihindukulasooriya, María Poveda-Villalón, Raúl García-Castro, and Asunción Gómez-Pérez 4V (TIN2013-46238-C4-2-R) Ontology Engineering Group Universidad Politécnica de Madrid, Madrid, Spain.
Loupe helps to understand data, uncover patterns, formulate queries, and detect quality issues
Data Quality: Assessing data
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Explotación Linked Data Applications
73 Ontology Engineering Group
Culture (@BNE) Geograhical (@IGN) Metereological (@AEMET)
News and Media (@ Prisa, RTVE) Internet of Things ( @ CRTM, Bike sharing system)
Smart Cities and Open Data (@ Zaragoza, Gob Aragón, Jacathon, Catalogues)
Host of esDBpedia
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Uses of Linked Data
1. Programmers built
applications using
make queries in
SPARQL and get RDF
Culture
(@BNE)
Geograhical
(@IGN)
Metereological
(@AEMET)
Smart Cities 2. Citizens/Users access
LD through a user
interface (they do not
see RDF)
3. Machine – Machine
data exchange and
semantic
interoperability in RDF
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
The new Linked Data Ecosystem
Culture
(@BNE)
Geograhical
(@IGN)
Metereological
(@AEMET)
Smart Cities
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 76
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Challenges
1. Machine- Machine data
exchange and semantic
interoperability:
data quality
conditional access (license,
privacy)
multilingualism
2. Ecosystem on the
publication and
consumption of data under
any type of licenses:
Certification
Courses
Take up by the market
77
Madrid
A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España
Thanks for your attention !
Top Related