Semantiskais tīmeklis un Atvērtie dati

34
SEMANTISKAIS TĪMEKLIS UN ATVĒRTIE DATI Uldis Bojārs Latvijas Nacionālā bibliotēka, LU Matemātikas un informātikas institūts LATA konference “Atvērtie dati: iespējas un izaicinājumi” 23-Jan-2014

description

Saistīto datu (semantiskā tīmekļa) iespējas atvērto datu publicēšanā: datu atrodamība, lietojamība un saprotamība. LATA konference "Atvērtie dati: iespējas un izaicinājumi" - http://lata.org.lv/?page_id=1210 - 23.01.2014

Transcript of Semantiskais tīmeklis un Atvērtie dati

Page 1: Semantiskais tīmeklis un Atvērtie dati

SEMANTISKAIS TĪMEKLIS UN ATVĒRTIE DATI

Uldis BojārsLatvijas Nacionālā bibliotēka,

LU Matemātikas un informātikas institūts

LATA konference “Atvērtie dati: iespējas un izaicinājumi”

23-Jan-2014

Page 2: Semantiskais tīmeklis un Atvērtie dati

“Data is a 21st century commodity: it’s the new oil.

There’s almost no limit to the economic and social

wonders it can generate: ...”

Neelie Kroes (at OKFN 2012), VP of the European Commission and Commissioner for the Digital Agenda

Page 3: Semantiskais tīmeklis un Atvērtie dati

Atvērto datu veidi

• Valdības dati• Pašvaldību dati• Kultūras mantojuma dati• Izglītības un zinātnes organizāciju dati• Portālu un ziņu aģentūru dati– ar rakstiem saistītā informācija

• “Crowdsourced” dati– cilvēki, sociālais tīmekli

• ... citu organizāciju un cilvēku apkopoti dati ...

Page 4: Semantiskais tīmeklis un Atvērtie dati

Lai pilnībā izmantotu atvērto datu potenciālu, datiem jābūt:

–atrodamiem– lietojamiem–saprotamiem

Page 5: Semantiskais tīmeklis un Atvērtie dati

http://www.w3.org/2014/Talks/0123_phila_lata/#(14)

Page 6: Semantiskais tīmeklis un Atvērtie dati

“Vieglais” semantiskais tīmeklis

• 5* Linked Data (saistītie dati)• Datu kopu metadati • Datu nozīme (semantika)

• Standarti:– URI, HTTP, RDF– SPARQL vaicājumu valoda– datu shēmas: schema.org, DCAT, Dublic Core, u.c.– drīzumā: CSV on the Web

Page 8: Semantiskais tīmeklis un Atvērtie dati

Datu atrodamība

Latvijas atvērtie dati

Vai tādi vispār ir?

Kā nodrošināt, ka lietotāji tos var atrast?

Page 9: Semantiskais tīmeklis un Atvērtie dati
Page 10: Semantiskais tīmeklis un Atvērtie dati

http://datahub.io/dataset/bluk-bnb

CKAN programmatūra datu portāliem @ http://ckan.org

Page 11: Semantiskais tīmeklis un Atvērtie dati
Page 12: Semantiskais tīmeklis un Atvērtie dati

Metadati

• Dati par datiem

• Viss, kas ir jāzin, lai datu kopu varētu atrast, saprast un lietot

• Pirmkārt: ka te vispār *atrodas* datu kopa

Page 13: Semantiskais tīmeklis un Atvērtie dati

Metadatu publicēšana

• saistīto datu principi (URI, ...)• anotāciju iekļaušana HTML lapās: RDFa

• schema.org - http://schema.org/Dataset– meklēšanas servisu (Google, Bing, ...) un lielāko sociālā

tīmekļa vietņu (Facebook, ...) izstrādāts standarts

• DCAT (Data Catalog Vocabulary)– http://www.w3.org/TR/vocab-dcat/– W3C standarts datu kopu aprakstiem

Page 14: Semantiskais tīmeklis un Atvērtie dati

Datu saprotamība

Ko tas viss nozīmē?

Kā šo informāciju saprast un izmantot?

Page 15: Semantiskais tīmeklis un Atvērtie dati

Lai pilnībā izmantotu atvērto datu potenciālu, datiem jābūt:

–atrodamiem– lietojamiem–saprotamiem

Page 16: Semantiskais tīmeklis un Atvērtie dati

http://okfnlabs.org/bad-data/ex/bls-us-employment/

Page 17: Semantiskais tīmeklis un Atvērtie dati

http://www.w3.org/2014/Talks/0123_phila_lata/#(14)

Page 18: Semantiskais tīmeklis un Atvērtie dati

• “The UK government is convinced linked data is the best approach available – for publishing data in a hugely diverse and

distributed environment, – in a gradual and sustainable way.”

• avots: “Why Linked Data for data.gov.uk?”– http://www.jenitennison.com/blog/node/140

Page 19: Semantiskais tīmeklis un Atvērtie dati

Atvērts standarts:MARC 21

Bibliotēku speciālisti to [varbūt] zin no galvas.

Vai šie dati ir ērtilietojami plašaminteresentu lokam?

Page 20: Semantiskais tīmeklis un Atvērtie dati

Lietas, ko zinās speciālists:

001 = identifikators

670 = atsauces (te parādās saites uz citiem ierakstiem !!!)

Page 21: Semantiskais tīmeklis un Atvērtie dati

Dati ir atvērti (CSV faili), tomēr lietotājs var nezināt:– kā atrast saistīto informāciju (piem., Saeimas lēmumi)– ka var būt vienādi vārdi + partijas (vairāki Andri Bērziņi?)– latviešu valodu (“noraidīts”, “atturas”, ...)

http://data.opendata.lv/jbaiza/11-saeimas-balsojumi

Page 22: Semantiskais tīmeklis un Atvērtie dati

4* = Labi identifikatori

• Ļauj norādīt uz datu kopām un atsevišķiem ierakstiem– “Šajā adresē ir interesanti dati, vērts apskatīt !”

• Dod iespēju veidot saites data kopu un to objektu starpā– viss saitēm nepieciešamais jau ir identifikatorā iekšā

• Citi nozīmīgi komponenti:– datu shēmas, ar kurām aprakstīt vajadzīgos datus

Page 23: Semantiskais tīmeklis un Atvērtie dati

• D472BF93A1272030C22579100046C50F

• http://titania.saeima.lv/personal/deputati/saeima11_depweb_public.nsf/0/D472BF93A1272030C22579100046C50F?OpenDocument&lang=LV

• http://lv.wikipedia.org/wiki/Solvita_Āboltiņa

Page 24: Semantiskais tīmeklis un Atvērtie dati

Labi Identifikatori = URI

• 4* open data:– Lietojam tīmekļa standartus (HTTP URI kā identifikatori)

• Zinot adresi, datiem var pavaicāt: “pastāsti par sevi!”– Vienkārši ierakstam adresi tīmekļa pārlūkā

• “Ceļojot” tīmeklī mēs jau lietojam identifikatorus (tīmekļa adreses) un saites lapu starpā– http://lv.wikipedia.org/wiki/Latvija

• http://viaf.org/viaf/12431977/#Aspazija,_1868-1943

Page 25: Semantiskais tīmeklis un Atvērtie dati

Saistītie dati (RDF formā), MARC21, XML, ...

No tā paša URI var saņemt gan cilvēkas lasāmus, gan mašīnlasāmus datus

Page 26: Semantiskais tīmeklis un Atvērtie dati

viens ID -> dažādi formāti

Tīmekļa lapa

MARC-XML

RDF (saistītie dati)

saites objektu starpā (JSON, XML)

http://viaf.org/viaf/12431977/#Aspazija,_1868-1943

Page 27: Semantiskais tīmeklis un Atvērtie dati

5* = Saites starp objektiem

• Ļauj ceļot starp datiem, atklāt jaunas datu kopas– “Tas ir tāpat kā sērfot tīmeklī !”

• Rezultāts: datu tīmeklis

• Tehniski: – atsaucoties uz citiem datiem, lieto to URI– katram URI var likt “pastāstīt par sevi”

Page 28: Semantiskais tīmeklis un Atvērtie dati

VIAF: saites ar citiem objektiem

• Aspazija:– http://viaf.org/viaf/12431977/#Aspazija,_1868-1943– informācija par personu

• Saites uz:– LIBRIS (Zviedrija), Vācijas nac. bibl., ...• http://libris.kb.se/resource/auth/175510

– DBPedia (Wikipēdijas semantiskais “spogulis”)• http://dbpedia.org/resource/Aspazija

Page 29: Semantiskais tīmeklis un Atvērtie dati

• Aspazija @ DBPedia– http://dbpedia.org/resource/Aspazija– strukturēti dati, kas savākti no Vikipēdijas

• Atribūti + Saites uz:– dzīvesbiedrs: http://dbpedia.org/resource/Rainis– dz. vieta: http://dbpedia.org/resource/Zaļenieku_parish– http://dbpedia.org/resource/Category:Latvian_poets– ...

• Vēl vairāk dati + saites uz citiem datiem:– saistītie dati no nacionālajām bibliotēkām

Page 30: Semantiskais tīmeklis un Atvērtie dati
Page 31: Semantiskais tīmeklis un Atvērtie dati

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

Page 32: Semantiskais tīmeklis un Atvērtie dati

http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html

Page 33: Semantiskais tīmeklis un Atvērtie dati

Kopsavilkums

• Datiem jābūt:– atrodamiem, lietojamiem un saprotamiem

• Saistītie atvērtie dati = risinājums:– datu kopu metadati (atrodamība)– izmanto atvērtus standartus (lietojamība)– apraksta datu nozīmi (saprotamība)

Veidojot Latvijas atvērtos datus, darīsim to pareizi !

Page 34: Semantiskais tīmeklis un Atvērtie dati

Uldis Bojārs

LNB - Semantiskā tīmekļa eksperts

LU MII - Pētnieks (atvērtie saistītie dati)

• http://www.slideshare.net/CaptSolo/presentations

[email protected]• https://twitter.com/CaptSolo

• Atvērto datu diskusiju grupa:– http://groups.google.com/group/opendata_lv