Semantiskais tīmeklis un Atvērtie dati
-
Upload
uldis-bojars -
Category
Technology
-
view
933 -
download
7
description
Transcript of Semantiskais tīmeklis un Atvērtie dati
SEMANTISKAIS TĪMEKLIS UN ATVĒRTIE DATI
Uldis BojārsLatvijas Nacionālā bibliotēka,
LU Matemātikas un informātikas institūts
LATA konference “Atvērtie dati: iespējas un izaicinājumi”
23-Jan-2014
“Data is a 21st century commodity: it’s the new oil.
There’s almost no limit to the economic and social
wonders it can generate: ...”
Neelie Kroes (at OKFN 2012), VP of the European Commission and Commissioner for the Digital Agenda
Atvērto datu veidi
• Valdības dati• Pašvaldību dati• Kultūras mantojuma dati• Izglītības un zinātnes organizāciju dati• Portālu un ziņu aģentūru dati– ar rakstiem saistītā informācija
• “Crowdsourced” dati– cilvēki, sociālais tīmekli
• ... citu organizāciju un cilvēku apkopoti dati ...
Lai pilnībā izmantotu atvērto datu potenciālu, datiem jābūt:
–atrodamiem– lietojamiem–saprotamiem
http://www.w3.org/2014/Talks/0123_phila_lata/#(14)
“Vieglais” semantiskais tīmeklis
• 5* Linked Data (saistītie dati)• Datu kopu metadati • Datu nozīme (semantika)
• Standarti:– URI, HTTP, RDF– SPARQL vaicājumu valoda– datu shēmas: schema.org, DCAT, Dublic Core, u.c.– drīzumā: CSV on the Web
Tehniskā informācija:
http://www.slideshare.net/CaptSolo/linked-open-data-20184278
Datu atrodamība
Latvijas atvērtie dati
Vai tādi vispār ir?
Kā nodrošināt, ka lietotāji tos var atrast?
http://datahub.io/dataset/bluk-bnb
CKAN programmatūra datu portāliem @ http://ckan.org
Metadati
• Dati par datiem
• Viss, kas ir jāzin, lai datu kopu varētu atrast, saprast un lietot
• Pirmkārt: ka te vispār *atrodas* datu kopa
Metadatu publicēšana
• saistīto datu principi (URI, ...)• anotāciju iekļaušana HTML lapās: RDFa
• schema.org - http://schema.org/Dataset– meklēšanas servisu (Google, Bing, ...) un lielāko sociālā
tīmekļa vietņu (Facebook, ...) izstrādāts standarts
• DCAT (Data Catalog Vocabulary)– http://www.w3.org/TR/vocab-dcat/– W3C standarts datu kopu aprakstiem
Datu saprotamība
Ko tas viss nozīmē?
Kā šo informāciju saprast un izmantot?
Lai pilnībā izmantotu atvērto datu potenciālu, datiem jābūt:
–atrodamiem– lietojamiem–saprotamiem
http://okfnlabs.org/bad-data/ex/bls-us-employment/
http://www.w3.org/2014/Talks/0123_phila_lata/#(14)
• “The UK government is convinced linked data is the best approach available – for publishing data in a hugely diverse and
distributed environment, – in a gradual and sustainable way.”
• avots: “Why Linked Data for data.gov.uk?”– http://www.jenitennison.com/blog/node/140
Atvērts standarts:MARC 21
Bibliotēku speciālisti to [varbūt] zin no galvas.
Vai šie dati ir ērtilietojami plašaminteresentu lokam?
Lietas, ko zinās speciālists:
001 = identifikators
670 = atsauces (te parādās saites uz citiem ierakstiem !!!)
Dati ir atvērti (CSV faili), tomēr lietotājs var nezināt:– kā atrast saistīto informāciju (piem., Saeimas lēmumi)– ka var būt vienādi vārdi + partijas (vairāki Andri Bērziņi?)– latviešu valodu (“noraidīts”, “atturas”, ...)
http://data.opendata.lv/jbaiza/11-saeimas-balsojumi
4* = Labi identifikatori
• Ļauj norādīt uz datu kopām un atsevišķiem ierakstiem– “Šajā adresē ir interesanti dati, vērts apskatīt !”
• Dod iespēju veidot saites data kopu un to objektu starpā– viss saitēm nepieciešamais jau ir identifikatorā iekšā
• Citi nozīmīgi komponenti:– datu shēmas, ar kurām aprakstīt vajadzīgos datus
• D472BF93A1272030C22579100046C50F
• http://titania.saeima.lv/personal/deputati/saeima11_depweb_public.nsf/0/D472BF93A1272030C22579100046C50F?OpenDocument&lang=LV
• http://lv.wikipedia.org/wiki/Solvita_Āboltiņa
Labi Identifikatori = URI
• 4* open data:– Lietojam tīmekļa standartus (HTTP URI kā identifikatori)
• Zinot adresi, datiem var pavaicāt: “pastāsti par sevi!”– Vienkārši ierakstam adresi tīmekļa pārlūkā
• “Ceļojot” tīmeklī mēs jau lietojam identifikatorus (tīmekļa adreses) un saites lapu starpā– http://lv.wikipedia.org/wiki/Latvija
• http://viaf.org/viaf/12431977/#Aspazija,_1868-1943
Saistītie dati (RDF formā), MARC21, XML, ...
No tā paša URI var saņemt gan cilvēkas lasāmus, gan mašīnlasāmus datus
viens ID -> dažādi formāti
Tīmekļa lapa
MARC-XML
RDF (saistītie dati)
saites objektu starpā (JSON, XML)
http://viaf.org/viaf/12431977/#Aspazija,_1868-1943
5* = Saites starp objektiem
• Ļauj ceļot starp datiem, atklāt jaunas datu kopas– “Tas ir tāpat kā sērfot tīmeklī !”
• Rezultāts: datu tīmeklis
• Tehniski: – atsaucoties uz citiem datiem, lieto to URI– katram URI var likt “pastāstīt par sevi”
VIAF: saites ar citiem objektiem
• Aspazija:– http://viaf.org/viaf/12431977/#Aspazija,_1868-1943– informācija par personu
• Saites uz:– LIBRIS (Zviedrija), Vācijas nac. bibl., ...• http://libris.kb.se/resource/auth/175510
– DBPedia (Wikipēdijas semantiskais “spogulis”)• http://dbpedia.org/resource/Aspazija
• Aspazija @ DBPedia– http://dbpedia.org/resource/Aspazija– strukturēti dati, kas savākti no Vikipēdijas
• Atribūti + Saites uz:– dzīvesbiedrs: http://dbpedia.org/resource/Rainis– dz. vieta: http://dbpedia.org/resource/Zaļenieku_parish– http://dbpedia.org/resource/Category:Latvian_poets– ...
• Vēl vairāk dati + saites uz citiem datiem:– saistītie dati no nacionālajām bibliotēkām
Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html
Kopsavilkums
• Datiem jābūt:– atrodamiem, lietojamiem un saprotamiem
• Saistītie atvērtie dati = risinājums:– datu kopu metadati (atrodamība)– izmanto atvērtus standartus (lietojamība)– apraksta datu nozīmi (saprotamība)
Veidojot Latvijas atvērtos datus, darīsim to pareizi !
Uldis Bojārs
LNB - Semantiskā tīmekļa eksperts
LU MII - Pētnieks (atvērtie saistītie dati)
• http://www.slideshare.net/CaptSolo/presentations
• [email protected]• https://twitter.com/CaptSolo
• Atvērto datu diskusiju grupa:– http://groups.google.com/group/opendata_lv