Hrvatski jezičnotehnološki web -servisi?
description
Transcript of Hrvatski jezičnotehnološki web -servisi?
Co-funded by the 7th Framework Programme of the European Commission through the contract T4ME, grant agreement no.: 249119.
Co-funded by the ICT PSP Programme of the European Commission through the contract CESAR, grant agreement no.: 271022.
Hrvatski jezičnotehnološkiweb-servisi?
Marko TadićSveučilište u Zagrebu
Filozofski [email protected]
CESAR Croatian Road ShowZagreb
2012-11-30
Povezivanje
Danas živimo u svijetu koji je sve više i više povezan...
2
Mobilni uređaji
3
Mobilno računarstvo
Pred svega 30 godina...
Rezultati obradbe pregledavali su se na kilometrima ispisa
4
Mobilno računarstvo
Ovolika računalnasnaga nije biladostupna općojpopulaciji
Međutim, danassvatko može imativiše računalnesnage i rezultatenjezine obradbeu svojim rukamaodmah i stalno 5
Mobilno računarstvo
No, ipak u našimpametnimtelefonima nemožemo nositisve što nam treba,
a ne možemo ihni rastegnutikako bi u njihstrpali više...
6
Računarstvo u oblaku
7
Računarstvo u oblaku
Ono što nam treba je pristupna točka do oblaka...
8
Mobilno i računarstvo u oblaku
9
Mobilno i računarstvo u oblaku ne nosimo više sa sobom sve naše dokumente još uvijek trebamo velike izvore agregiranih podataka
enciklopedije (telefonske) imenike rječnike registre ...
ili usluge on-line tražilice uređivanje dokumenata provjera pravopisa strojno prevođenje ...
10
Mobilno i računarstvo u oblaku brzine povezivanja rastu imamo pristupne točke u oblake s dovoljno lokalne
procesne snage ali još uvijek rabimo jezik
posvuda! ne samo jedan jezik!
još uvijek trebamojezične resurse i alate rječnike provjernike pravopisa strojeve za diktiranje strojno prevođenje ...
ne samo u našim džepovima, nego i kao usluge tj. web-servise 11
On-line usluge
današnja mrežni-naraštaj uzima zdravo za gotovo gsm, internet i društvene mreže sve usluge koje su tamo dostupne
- uključujući i nove usluge kojih se još nismo niti dosjetili dostupnost svih informacija koje im trebaju kroz te on-line usluge
ako u svome vlastitome jeziku ne nađu ono što im treba, jednostavno to potraže u nekom drugom jeziku (najčešće engleskome) to je prvi korak prema digitalnome izumiranju njihova
materinskoga jezika to je početak potiranja europske i svjetske jezične raznolikosti u
21. stoljeću jezični resursi i alati kao on-line usluge za “male” jezike
osiguravaju njihovo preživljenje (ne samo u digitalnome svijetu) njihovu uporabu u budućnosti (osobito u digitalnome svijetu)
razvoj on-line jezičnih usluga košta jednako za “male” i “velike” jezike industrija obično nalazi komercijalni interes samo kod “velikih”
jezika političari i zajednica moraju naći načina kako pomoći “malim”
jezicima
12
Hrvatski jezični web-servisi
skup web-servisa za računalnu obradbu tekstova na hrvatskome jeziku razdioba na rečenice (sentence splitting) opojavničenje (tokenisation) lematizacija (lemmatisation) označavanje vrsta riječi i/li gramatičkih kategorija (POS/MSD-
tagging) prepoznavanje imena (Named Entity Recognition and
Classification) sintaktička analiza u skladu s ovisnosnom gramatikom hrvatskoga
jezika (Dependency parsing) ulaz
hrvatski tekst kodiran u skladu s UTF-8 kodnom shemom #REST protokol
izlaz obrađen vertikaliziran tekst ili tekst u XML-zapisu (TEI P5)
ovi su web-servisi uz registraciju dostupni na adresi http://lt.ffzg.hr slobodna uporaba za istraživačke namjene (CC-BY-SA) uz pretplatu za komercijalne potrebe
13
Hrvatski jezični web-servisi
demo kome ovi web-servisi trebaju?
razdioba na rečenice- prevođenje: kad se želi napraviti baza prevedenih rečenica
lematizacija- obradba tekstovnih baza podataka stvaranjem indeksa lema umjesto
različnica indeks je manji, brže se pretražuje intuitivno pretraživanje: dohvat riječi u svim oblicima
označavanje vrsta riječi i gramatičkih kategorija- leksikografija: npr. pronalaženje kolokacija kod kojih su kolokati
sročni prepoznavanje imena
- crpljenje obavijesti: pronalaženje relevantnih obavijesti u tekstovima- prepoznavanje veza među imenima u tekstovima: socijalno
obavještajstvo sintaktička analiza (parsing)
- razumijevanje teksta: prepoznavanje semantičkih uloga (agens, pacijens...)
- analiza stavova (sentiment analysis): marketing, poslovno obavještajstvo, ...
14
Zaključci i perspektive
dajemo u javnu uporabu široko uporabive web-servise za hrvatski razvijeni unutar projekta CESAR istraživački tim s dvaju odsjeka Filozofskoga fakulteta Sveučilišta
u Zagrebu očekujemo razvoj novih web-servisa za
semantičko označavanje teksta: uporabom Hrvatskoga WordNeta (CroWN)
strojno prevođenje: uporabom platforme za izgradnju vlastitih strojnoprevoditeljskih sustava LetsMT!
očekujemo poticaj daljnjem razvoju jezičnih tehnologija u ostalim istraživačkim središtima u Hrvatskoj
jezične tehnologije za hrvatski jezik u Hrvatskoj moraju postati jedan od strateških pravaca istraživanja u humanističkim i
društvenim znanostima u novoj Strategiji razvoja obrazovanja, znanosti i tehnologije
nezaobilazno područje za koje će se pripremati projekti podupirani iz strukturnih fondova EU
sukladne svim nastojanjima oko jezičnih tehnologija u Obzoru2020 i CEF-u
16
Zaključci i perspektive
u društvu gdje... podatci (i znanje pohranjeno u njima) postaju gorivo
gospodarstva povezanost postaje svakodnevna potreba je višejezičnost pravilo a ne iznimka
teško ćemo živjeti takvo informacijsko društvo bez on-line jezičnih usluga ne samo za svjetske jezike već i za mnogo drugih, “malih” jezika
17
Pitanja...
Zahvaljujem na pozornosti.
http://www.cesar-project.net
[email protected]://www.cesar-project.net
http://www.facebook.com/META.Alliance
18