Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un...

75
Open Data Asunción Gómez-Pérez Ontology Engineering Group Artificial Intelligence Department Universidad Politécnica de Madrid [email protected] @asungomezperez Acknowledgements: Oscar Corcho, Raul García, Jorge Gracia Nandana Mihindukulasooriya, Victor Rodríguez Doncel Research funded by the project 4V: Volumen, Velocidad, Variedad y Validez en la gestión innovadora de datos (TIN2013-46238-C4-2-R)

Transcript of Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un...

Page 1: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

Open Data

Asunción Gómez-Pérez

Ontology Engineering Group

Artificial Intelligence Department

Universidad Politécnica de Madrid

[email protected]

@asungomezperez

Acknowledgements: Oscar Corcho, Raul García, Jorge Gracia

Nandana Mihindukulasooriya, Victor Rodríguez Doncel

Research funded by the project

4V: Volumen, Velocidad, Variedad y Validez en la gestión innovadora de datos

(TIN2013-46238-C4-2-R)

Page 2: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Context – Ontology Engineering Group Directors: A. Gómez-Pérez, O. Corcho

Position: 8th in the UPM ranking (200 groups)

Founded: 1994

Research Group (30 people)

Experience on

1. Ontologies, Semantic Web, Linked Data, Open Data

2. Semantic E-science

3. Multilingualism

ODI Madrid : Madrid Node of the Open Data Institute

Projects

27 EU projects (7 as coordinator)

54 National Projects

27 contracts with companies

Standardization activities

>25 @ W3C, ISO, OASIS, etc.

Impact of publications H-index (scholar)

Asunción Gómez-Pérez (h:50, citations 14852)

Oscar Corcho García (h: 36, citations 8152)

Services to the Spanish community

esDbpedia

linkeddata.es

vocab.linkeddata.es

http://www.oeg-upm.net/

https://github.com/oeg-upm

@oeg-upm

170+ Past Collaborators

50+ Past Visitors

Page 3: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

License

• This work is licensed under the Creative Commons

Attribution – Non Commercial – Share Alike License

• You are free:

- to Share — to copy, distribute and transmit the work

- to Remix — to adapt the work

• Under the following conditions

- Attribution — You must attribute the work by inserting

• “[source http://www.oeg-upm.net/]” at the footer of each

reused slide

• a credits slide stating: “Open Data” by A. Gómez-Pérez ”

- Non-commercial

- Share-Alike

3

Page 4: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

A world of digital data

Heterogeneous

Formats

Providers Domains Languages

Licenses

Page 5: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Scenario

“Barrio de las

Letras”

“Cervantes“

“Lope de Vega

“Transport public

services”

“Accessibility

constraints”

“Movies D. Quijote”

Page 6: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Scenario

6

Page 7: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Data Spectrum

7

Page 8: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

¿Qué son los datos abiertos (open data)?

• “Los datos abiertos (open data) son datos que

pueden ser utilizados, reutilizados y redistribuidos

libremente por cualquier persona u organización –

sujetos únicamente, como mucho, a los requisitos de

atribución y de compartir de manera similar”

• Elementos clave:

- Disponibilidad y Acceso: los datos deben estar disponibles

como un todo, con un coste máximo que sea el de su

reproducción, y preferiblemente en Internet. Asimismo,

deben ser fáciles de modificar.

- Reutilización y Redistribución: los datos deben darse con

una licencia que permita la reutilización y redistribución,

incluyendo la mezcla con otros conjuntos de datos.

- Participación Universal: todos deben poder usarlos,

reutilizarlos y redistribuirlos. [fuente: Open Data Handbook, http://opendatahandbook.org/en/what-is-open-data/ ]

Page 9: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Marco legal e iniciativas Open Data. Europa y España

• Open Access Initiative (2001)

- Información científica en la red; > 510 organizaciones

• Convención de Aarhus (1998)

- Derecho de participación y acceso; 41 países y la UE

• Directiva PSI

- Reutilización de la PSI

• Convención sobre el acceso a documentos oficiales (2009)

- Firmada por 12 países

- Bélgica, Finlanda, Noruega, Suecia, Hungría, Estonia, Lituania, Eslovenia, Georgia,

Montenegro, Serbia y Macedonia

• Ley 37/2007. Reutilización de la PSI

• Ley 11/2007. Acceso de los ciudadanos a los servicios públicos, y Derecho a la

calidad de los servicios

• RD 4/2010 Esquema Nacional de Interoperabilidad

- Estándares abiertos

- Principio de neutralidad tecnológica

- Software de fuentes abiertas

• RD 1495/2011 Desarrolla la Ley 37/2007

Page 10: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Analicemos el Real Decreto 1495/2011. Documentos

10 Asunción Gómez Pérez

Metadatos generales el documento

dc:title

dc:author

dc:description

Datos del documento

Page 11: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Open Data in many domains

• Governments

• Smart Cities

• Energy Efficiency

• Transport

• Social Media and News

• Food and Agriculture

• Air quality

• Finance

• Universities

• Research

• Libraries

• Linguistics

• Terminologies

• …

11

Any where Any one Any time

Any media Any language

Page 12: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

The Open Data stars

Make it available as structured data (e.g., Excel instead of image scan or a table)

Use non-proprietary formats (e.g., CSV instead of Excel)

Use URIs to identify things, so that people can point at your stuff

Link your data to other data to provide context

Make your stuff available on the Web (whatever format) under an open license

12

Page 13: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Open data formats and publication

13

Web Services

In Boards

The Web

(Human readable format)

Adaptado de: Antonio Rodríguez Pascual (IGN)

As files on the Web

(XML, HTML, CSV, etc.) The Web

(Human & Machine readable formats)

Page 14: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Open data formats and publication

14

Data Hub

Page 15: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 15

Open Data Portals

Open data formats and publication

Page 16: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Open data formats and publication

- Standard formats (JSON, JSON-LD, RDF)

- Shared vocabularies and ontologies

APIs based on Semantics

Page 17: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Turbine metadata Fore cast

information

Wind Turbine

Energy output by

month

Limitations when exploiting different and disconnected data sources

Wind Speed per

day and city

Wind farm topology

Company Private data

Real time wind speed

Metadata Data

M D

M D

M D M D

M D

M

M D Complementary

but

not connected

Page 18: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Lack of interoperability: Language, Syntax, Semantic &Technical

• Ecosystem of

- Open Resources in silos

- Complementary domains

- Heterogeneous formats

- Different languages

- Repositories with different

metadata

- Many APIs and services

for querying

Page 19: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

¿Qué busca el usuario final de datos abiertos?

- ¿Quién generó el conjunto de datos?

- ¿Cuándo se creó el conjunto de datos?

- ¿Cómo se creó el conjunto de datos?

- ¿Es ésta la última versión?

- ¿Está la información sobre licencias de uso claramente identificada?

- ¿En qué formatos se me ofrecen los datos abiertos?

- ¿Son los datos monoligües o multilingües?

Page 20: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Metadata matters

21

Provenance

Licenses

Language

Privacy

GeoLocation

Time

Spatial

Provides vocabularies for representing these dimensions

Page 21: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Open Data

Linked Open Data

Page 22: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Complementary,

Different

languages,

but not connected

Lack of interoperability

Page 23: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Multimedia and Multilingual Data Integration

Fotografía

El Quijote

Image

http://www.mancia.org/foro/

articulos/107712-don-quijote-medicina.html

URL

El Quijote

Photo

El Quijote

Vídeo

El Quijote

Español

Video

Film Language

http://www.rtve.es/alaca

rta/videos/el-quijote/

URL Movie

M. Cervantes

Don Quixote

Polish

Written by

Translated in

1960 Year of

publication

VIAF

located

M. Cervantes

El Quijote

Author of

BNE Located

http://bdh-

rd.bne.es/vie

wer.vm?id=0

000154356

PDF

Page 24: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Linked Data: why it is important?

• Facilitate data integration

- From heterogeous sources

- In different formats

- Different granularity

- In different languages

- From different countries

© Slide adapted from “5min Introduction to Linked Data”- Olaf Hartig

Page 25: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

LD domains in August 2014

Media

Geographic

Life Sciences

Publications Goverment

Social

Networking Cross-domains

User Generated

Content Linguistics

Page 26: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Foundations

Unique identifiers: URI identify or name a resource

RDF(S) models

El Quijote Cervantes Is creator of

Work Person Is creator of

Is a Is a

http://datos.bne.es/resource/XX1718747 http://datos.bne.es/resource/XX3383563

http://datos.bne.es/def/C1005 http://datos.bne.es/def/C1001

Equivalence links to other datasets Same As

http://viaf.org/viaf/17220427

Cervantes

Same As Same As

http://dbpedia.org/resource/Miguel_de_Cervantes

Cervantes

Data navigation

Page 27: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

The model (Ontology) and the data

28

Work

Idiom

translation

Year

Publication date

Library

Located at

Person

Is creator of

Has subject

El Quijote Cervantes

Is creator of

Catalán

translation

1960

Publication date

BNE

Located in

Has subject

Vida de Cervantes

birthPlace Place

birthPlace Alcalá de Henares

Ontology

Data

Page 28: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 29

http://iflastandards.info/ns/fr/frbr/frbrer/C1001

http://iflastandards.info/ns/fr/frbr/frbrer/C1002

translation

Año

Publication date

http://xmlns.com/foaf/0.1/Organization

Located in

http://iflastandards.info/ns/fr/frbr/frbrer/C1005

Is creator of

Has subject

http://datos.bne.es/resource/XX3383563 http://datos.bne.es/resource/XX1718747

Es autor

http://datos.bne.es/resource/XX1924295

translation

1960

Publication date

BNE

Located in

Has subject

http://datos.bne.es/resource/bimo0002045496

Vida de Miguel de Cervantes Saavedra

Don Quijote de la Mancha Cervantes Saavedra, Miguel de

Catalán

Ontology

Data

http://datos.bne.es/#

Language

work

Biblioteca

Person

http://geo.linkeddata.es/ontology/Municipio

birthPlace

http://geo.linkeddata.es/resource/Alcalá de Henares

birthPlace

Linked data is full of URIs

Page 29: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Linked Data allows uniform access

1. Agree on vocabularies for

describing metadata and domain

data

2. Unified and standardized language

for describing resources ( RDF(S))

3. Unified and standardized query

language (SPARQL)

4. Standardized non-proprietary APIs

5. Links to other resources

Page 30: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Open Data

Linked Open Data

Linked Licensed Data

Research funded by the project

4V: Volumen, Velocidad, Variedad y Validez en la gestión innovadora de datos (TIN2013-46238-C4-2-R)

Page 31: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Create, consume, aggregate,

derive and publish Linked Data

in a lawful environment 0

Always license your data

Data shops Governments Individuals

32 4V (TIN2013-46238-C4-2-R)

Page 32: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Linked Licensed Data

How do we represent license information?

4V (TIN2013-46238-C4-2-R)

Page 33: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Linked Licensed Data

4V (TIN2013-46238-C4-2-R)

Page 34: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

(Linked) Licensed Data in practice

35

Published

Open License

(Linked) Open Data (Linked) Closed Data

Published

No Open License

(Linked) Private Data

Not Published

Available Data without explicit license

Published

Without License 4V (TIN2013-46238-C4-2-R)

Page 35: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

How Open is the Linked Open Data Cloud?

36

4V (TIN2013-46238-C4-2-R)

Page 36: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

RDF Licensing support

4V (TIN2013-46238-C4-2-R)

Page 37: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

«An action is (permitted /prohibited / obliged)

to be acted by the party over the asset,

provided that the constraints hold»

Asset:

Statement (rdf:Statement)

Dataset (void:Dataset)

Ontology (owl:Ontology)

Mapping (void:Linkset)

LDP Container

(ldp:Resource)

Action:

Derive (cc:DerivativeWorks)

Translate (odrl:translate)

Distribute (cc:Distribution)

Reproduce (cc:Reproduce)

Print (odrl:print)

Anonymize (odrl:anonymize)

Index (odrl:index)

… plus ~30 others in

ODRL/CC…

Party:

One individual (ej: mailto:[email protected])

One organization: (http://www.oeg-upm.net)

One key owner using Web of Trust: (using

http://xmlns.com/wot/0.1/hasKey)

Constraint:

Acknowledgement (cc:Attribution)

A country, city… (odrl:spatial)

A time frame (odrl:timeInterval,

odrl:dateTime…)

Data Model: ODRL (Open Digital Rights Language)

Page 38: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

<http://purl.org/NET/rdflicense/cc-by-sa3.0.ttl>

a odrl:Policy ;

rdfs:label "Creative Commons CC-BY-SA" ;

rdfs:seeAlso <http://creativecommons.org/licenses/by-sa/3.0/rdf> ;

cc:legalcode <http://creativecommons.org/licenses/by-sa/3.0/legalcode> ;

dct:hasVersion "3.0" ;

dct:language <http://www.lexvo.org/page/iso639-3/eng> ;

dct:publisher "Creative Commons" ;

odrl:permission

[

odrl:action cc:Distribution , cc:DerivativeWorks , cc:Reproduction ;

odrl:duty

[

odrl:action cc:Attribution , cc:Notice , cc:ShareAlike

]

] .

Sample license in ODRL: Creative Commons CC-BY-SA

No Constraints (spatial, temporal,

are not found in Creative Commons

licenses), they are universal

How do I use in my data set?

:myDataset dct:license <http://purl.org/NET/rdflicense/cc-by-sa3.0>

A generic license (like Creative Commons’)

has no party, as the recipient is anybody

accessing the licensed work

URI

Page 39: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Example of a license

@prefix gr: <http://purl.org/goodrelations/> .

@prefix dcat: <http://www.w3.org/ns/dcat#> .

<http://samplepolicy/1234>

a odrl:Offer ;

rdfs:label "License Offering Paid Linked Data" ;

odrl:permission [

odrl:target <http://example.org/dataset/ds01> ;

odrl:action odrl:reproduce ;

odrl:duty [

rdfs:label "Pay" ;

gr:UnitOfMeasurement dcat:Dataset ;

gr:amountOfThisGood "1" ;

odrl:action odrl:pay ;

odrl:target "15,00 EUR“

] ;

odrl:constraint

[

odrl:operator odrl:lt ;

odrl:dateTime "2015-12-31"^^xsd:date ]

] ;

]

The reproduction of a dataset is limited until the end of this year after paying 15€.

Page 40: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Using Policies to govern conditional access to Linked Data

Example of access to Linked Data for a price (15EUR for the dataset or 0.01EUR for a triple thereof)

@prefix gr: <http://purl.org/goodrelations/> .

@prefix dcat: <http://www.w3.org/ns/dcat#> .

<http://salonica.dia.fi.upm.es/ldr/policy/cdaddba4-fc2e-4ee0-a784-e62f1db259bf>

a odrl:Set ;

rdfs:label "License Offering Paid Linked Data" ;

odrl:permission [ a odrl:Permission ;

odrl:target <http://example.org/dataset/ds01> ;

odrl:action odrl:reproduce ;

odrl:duty [ a odrl:Duty ;

rdfs:label "Pay" ;

gr:UnitOfMeasurement dcat:Dataset ;

gr:amountOfThisGood "1" ;

odrl:action odrl:pay ;

odrl:target "15,00 EUR"

]

] , [ a odrl:Permission ;

odrl:action odrl:reproduce ;

odrl:target <http://example.org/dataset/ds01> ;

odrl:duty [ a odrl:Duty ;

rdfs:label "Pay" ;

gr:UnitOfMeasurement rdf:Statement ;

gr:amountOfThisGood "1" ;

odrl:action odrl:pay ;

odrl:target "0,01 EUR"

]

] ..

http://conditional.linkeddata.es 4V (TIN2013-46238-C4-2-R)

Page 41: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

RDFLicense – Dataset of licenses in RDF

― Content negotiation: machine readable version of common licenses

― Based on ODRL (W3C spec)

― 148 licenses (as of June 2015): Creative Commons, ODC, GNU…

― Permanent URIs. Example: http://purl.org/NET/rdflicense/gpl2.0.ttl

― Browse them here: http://rdflicense.appspot.com/

― Contribute here: https://github.com/oeg-upm/rdflicense

― Catalogued here: http://datahub.io/dataset/rdflicense

― Read more here: A Dataset of RDF Licenses, V. Rodriguez-Doncel, S. Villata, A. Gomez-

Perez, in Proc. of the 27th Int. Conf. on Legal Knowledge and Information System (JURIX), R.

Hoekstra (Ed.), ISBN 978-1-61499-467-1, pp. 187-189, IOS Press, 2014

4V (TIN2013-46238-C4-2-R)

Page 42: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Licensius – Licensing related services

4V (TIN2013-46238-C4-2-R)

Page 43: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Conditional Access to Linked Data

4V (TIN2013-46238-C4-2-R)

Page 44: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Uniform access to license information

1. Agree on vocabularies (ODRL)

2. Unified and standardized language

for describing resources ( RDF(S))

3. Unified and standardized query

language (SPARQL)

4. Standardized non-proprietary APIs

5. Links to other resources

4V (TIN2013-46238-C4-2-R)

Page 45: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Linked Licensed Data are multilingual

Page 46: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Open Data

Linked Open Data

Linked Licensed Data

Linguistic Linked Licensed Data

Research funded by the LIDER project:

"Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe“

is a FP7 project reference number 610782 in the topic ICT-2013.4.1: Content analytics and language technologies.

Page 47: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 49

http://rae.es

Motivation

Page 48: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 50 *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell

http://es.wiktionary.org

http://rae.es

An example

Page 49: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 51 *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell

http://es.wiktionary.org

http://rae.es

http://www.wikilengua.org/

index.php/Terminesp:red

An example

Page 50: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 52 *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell

http://es.wiktionary.org

http://rae.es

http://www.wikilengua.org/

index.php/Terminesp:red

http://www.wordreference.

com/sinonimos/

An example

Page 51: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 53 *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell

http://es.wiktionary.org

http://rae.es

http://www.wikilengua.org/

index.php/Terminesp:red

http://es.wikipedia.org

http://www.wordreference.

com/sinonimos/

An example

Page 52: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

http://es.wiktionary.org

http://rae.es

http://www.wikilengua.org/

index.php/Terminesp:red

http://es.wikipedia.org

http://www.wordreference.

com/sinonimos/

An example

“Red”

(computer

network)

Page 53: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Lack of interoperability of Language resources

• Ecosystem of

- Open and Closed resources

- Silos of LRs

- Complementary resources

• Lexicon, Corpora, Dictionaries, Grammars, ….

- Heterogeneous formats

• E.g, for Lexicons: Lexinfo, LMF, LIR, Lemon, …

- Several repositories with different metadata and schemas

- Many APIs and services for querying

Discovery and reuse LR in third party applications is hard, manual and time consuming

Page 54: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

LD allows linguistic data integration

Red

Phonetic form

Form

number singular

[RED]

Form

plural

[REDES]

Phonetic form

number

Red

Sense

written form

“red”

Sense

written form

“malla”

equivalent

Red

image

Red

Sense Sense

translation

es - en

written form

“red” “network”

written form

Red

written form

Form

gender

femenine

“red”

Page 55: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Linguistic Linked Data Cloud

Linked Data interconnects data from

resources

In many domains

In many languages

Open and closed License

Links with other datasets

Linguistic Linked

Data Cloud

Linguistic Linked Data Cloud

Subset of LOD

Linguistic domain

Many type of resources

Interconnected with other Language Resources

Enables the lexicalization of data on the web, not

necessarily data in the LD format

Enables a new generation of LD-aware NLP and MT

Services

Page 56: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

What is 3LD?

3LD Linguistic Linked Licensed Data

Language resources such as:

- Lexica

- Corpora

- Dictionaries

- Grammars ..

NIF NLP Interchange Format

Using RDF and standard data

models (vocabularies):

- Lexica

- Corpora

- .....

ODRL Open Digital Rights Language

Published along with

a machine-readable license.

www.lider-project.eu

Page 57: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Linked Data and Linguistic Linked Data

1. Agree on vocabularies for

describing

• LR metadata

• LR content (Lemon-Ontolex, NIF, …)

2. Unified and standardized language

for describing resources ( RDF(S))

3. Unified and standardized query

language (SPARQL)

4. Standardized non-proprietary APIs

5. Links to other resources

Linguistic LD

Page 58: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Open Data

Linked Open Data

Linked Licensed Data

Linguistic Linked Licensed Data

Linked Open Data Methods and tools

Page 59: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Lección 3: Los aspectos metodológicos son importantes

Specification

Modelling

(Ontologies)

RDF

Generation Publication

Exploitation

Data Linking

Data

Curation

Many technologies

involved

Villazón-Terrazas, B.; Vilches. L.; Corcho, O.; Gómez-Pérez, A.

Methodological Guidelines for Publishing Government Linked Data. In

D. Wood, ed. Linking Government Data. Springer. (pp, 27-49). 2011

Page 60: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Modelling (Ontologies)

- People: FOAF, vCard

- Organization: ORG

- Documents: DC, BIBO

- Geospatial ontologies

- Location: LOCN

- Statistics: Data Cube

- Library: FRBR, datos.bne.es

- Sensor data: Semantic

Sensor Network Ontology

- Licenses: ODRL

- Provenance: PROV-O

- Public Procurement: PPROC

- Linguistics: LEMON

62

Page 61: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Linked Data without ontologies

http://www.server1.org/resource/Cervantes

http://www.server2.es/resource/Cervantes

http://datos.bne.es/resource/XX1718747

http://d-nb.info/gnd/11851993X

http://geo.linkeddata.es/page/resource/Municipio/Cervantes

Same as

Same as

Same as

Same as

URI URI

URI URI

URI

914 296 093

276,4 km²

Phone

Size

1547

#People

1547

Date of Birth

Author

D. Quijote

Cervantes

(person)

Page 62: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Linked Data and ontologies

http://www.server1.org/resource/Cervantes

http://www.server2.es/resource/Cervantes

http://datos.bne.es/resource/XX1718747

http://d-nb.info/gnd/11851993X

http://geo.linkeddata.es/page/resource/Municipio/Cervantes

Same as

Person rdf:type

rdf:type

Retaurant rdf:type

Street rdf:type

Municipality rdf:type

URI URI

URI URI

URI

1547

Date of Birth

Author

D. Quijote

Cervantes

(Person)

Asunción Gómez-Pérez W3C @ Spain – 2013 Madrid, 18th December

Page 63: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

RDF Generation

Metadata Generation Data Generation

Data Integration

Users

Metadata Integration

Public Resources Private Resources

Geo Web 2.0 Library Diverse formats

Sensor LDP Morph shp2RDF

Geometry2RDF Marimba SPARQL-Stream Sem4Tags LDP4j

Page 64: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

RDF Generation: Provenance

66

RDF Store

PROVENANCE Model (RDF(S))

1

Process centric provenance

• PROV-O @W3C

Filev1. txt

Revision Process

wasGeneratedBy

File.txt

used

Metadata provenance

• DC, PROV @ W3C

Resource provenance

• DC, PROV-O, Premis, SWANL

• EDM (including agregation)

creator

rights

creationDate

John

12-2-1900

GPL

RDF Generation: Provenance

Page 65: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

RDF Generation: Provenance

67 M3iLD Hearing - Luxembourg, 19 June 2012

Macr21 Dataset

(prov:Entity)

Conversion Process (prov:Avtivity)

TTL file (prov:Entity)

Process centric provenance

prov:used

prov:wasGeneratedBy

dc:license

Page 66: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

RDF Generation: Provenance

68 M3iLD Hearing - Luxembourg, 19 June 2012

Marc21 Dataset

(prov:Entity)

Conversion Process (prov:Avtivity)

TTL file (prov:Entity)

BNE (prov:Agent)

“2010-07-14T01:01:01Z”^^xsd:dateTime

CC0

CC0

Resource provenance Process centric provenance

“2011-07-14T01:01:01Z”^^xsd:dateTime

prov:used

prov:wasGeneratedBy

“2011-07-14T02:02:02Z”^^xsd:dateTime

prov:startedAtTime

prov:endedAtTime

BNE (prov:Agent)

prov:wasAssociatedWith

prov:actedOnBehalfOf

prov:wasAttributedTo, dc:creator

prov:generatedAtTime, dc:created

dc:license

prov:wasAttributedTo, dc:creator

Marimba (prov:Agent)

dc:license

prov:generatedAtTime, dc:created

Page 67: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

RDF Generation: Provenance

69 M3iLD Hearing - Luxembourg, 19 June 2012

Macr21 Dataset

(prov:Entity)

Conversion Process (prov:Avtivity)

TTL file (prov:Entity)

BNE (prov:Agent)

“2010-07-14T01:01:01Z”^^xsd:dateTime

CC0

CC0

Resource provenance Metadata provenance Process centric provenance

BNE Digital library

department (prov:Agent)

GPL

“2011-07-14T01:01:01Z”^^xsd:dateTime

prov:used

prov:wasGeneratedBy

“2011-07-14T02:02:02Z”^^xsd:dateTime

prov:startedAtTime

prov:endedAtTime

BNE (prov:Agent)

prov:wasAssociatedWith

prov:actedOnBehalfOf

prov:wasAttributedTo, dc:creator

prov:generatedAtTime, dc:created

dc:license

prov:wasAttributedTo, dc:creator

Marimba (prov:Agent)

dc:license

Metadata provenance file (prov:Bundle)

prov:generatedAtTime, dc:created

prov:wasAttributedTo, dc:creator

dc:license

Page 68: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Linking: Integration of cultural data and geographical data

70

Page 69: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

• Explore the vocabularies used and the abstract triple

patterns in 2+ billion triples including all Dbpedia

datasets, Wikidata, Linked Brainz, Bio2RDF, Linked

MDB, ...

Nandana Mihindukulasooriya, María Poveda-Villalón, Raúl García-Castro, and Asunción Gómez-Pérez 4V (TIN2013-46238-C4-2-R) Ontology Engineering Group Universidad Politécnica de Madrid, Madrid, Spain.

Loupe helps to understand data, uncover patterns, formulate queries, and detect quality issues

Data Quality: Assessing data

Page 70: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Explotación Linked Data Applications

73 Ontology Engineering Group

Culture (@BNE) Geograhical (@IGN) Metereological (@AEMET)

News and Media (@ Prisa, RTVE) Internet of Things ( @ CRTM, Bike sharing system)

Smart Cities and Open Data (@ Zaragoza, Gob Aragón, Jacathon, Catalogues)

Host of esDBpedia

Page 71: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Uses of Linked Data

1. Programmers built

applications using

make queries in

SPARQL and get RDF

Culture

(@BNE)

Geograhical

(@IGN)

Metereological

(@AEMET)

Smart Cities 2. Citizens/Users access

LD through a user

interface (they do not

see RDF)

3. Machine – Machine

data exchange and

semantic

interoperability in RDF

Page 72: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

The new Linked Data Ecosystem

Culture

(@BNE)

Geograhical

(@IGN)

Metereological

(@AEMET)

Smart Cities

Page 73: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España 76

Page 74: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Challenges

1. Machine- Machine data

exchange and semantic

interoperability:

data quality

conditional access (license,

privacy)

multilingualism

2. Ecosystem on the

publication and

consumption of data under

any type of licenses:

Certification

Courses

Take up by the market

77

Madrid

Page 75: Open Data - Albacetesimd.albacete.org/caepia15/wp-content/media-ftp/... · como un todo, con un coste máximo que sea el de su reproducción, y preferiblemente en Internet. Asimismo,

A. Gómez-Pérez Open data BigDade 1er WS en Big Data y Anaálisis de Datos Escalable Caepia 11 Noviembre 2015, Albacete, España

Thanks for your attention !