Electricity – Innovative Technologies towards Sustainable Development.pdf
Towards Technologies for all European Languages
-
Upload
georg-rehm -
Category
Technology
-
view
135 -
download
1
description
Transcript of Towards Technologies for all European Languages
Co-funded by the 7th Framework Programme and the ICT Policy Support Programme of the European Commission through the contracts T4ME, CESAR, METANET4U, META-NORD (grant agreements no. 249119, 271022, 270893, 270899).
Towards Technologies for All European Languages
Georg Rehm
Network Manager META-NET DFKI, Berlin, Germany
Using the Potential of Technology to Promote CRSS Language Usage
Cardiff, Wales, UK – January 23, 2014
Outline
q Introduction
q Language White Paper Series: Europe’s Languages in the Digital Age
q The META-NET Strategic Research Agenda for Multilingual Europe
q Recent Developments
q Conclusions and Recommendations
http://www.meta-net.eu 2
Multilingual Europe
3 http://www.meta-net.eu
q Where were we back in 2010?
q Challenge: Providing each language community with the most advanced technologies for communication and information so that maintaining their mother tongue does not turn into a disadvantage.
q While research has made considerable progress in recent years, the pace of progress is not fast enough to meet the challenge within the next 10-20 years.
q All stakeholders – researchers, LT user and provider industries, language communities, funding programmes, policy makers – should team up in a strategic alliance for a major dedicated push.
http
://w
ww
.met
a-ne
t.eu/
mem
bers
q Network of excellence dedicated to fostering the technological foundations of the European multilingual information society.
q Initial project: T4ME (FP7). Three ICT-PSP consortia since Feb. 2011: CESAR, METANET4U, META-NORD
q First funded phase (i.e., the four projects) ended on Jan. 31, 2013.
q All EU member states and several non-member states covered.
q META-NET: 60 research centres in 34 European countries.
Objectives
http://www.meta-net.eu 5
Language White Paper Series Europe’s Languages in the Digital Age
http://www.meta-net.eu 6
Language White Paper Series
http://www.meta-net.eu 7
q “Europe’s Languages in the Digital Age”
q Series covers 31 languages in 31 volumes.
q Reports on the state of our languages in the digital age and the level of support through language technology.
q >2 years in the making. q >215 experts as contributors. q >8.000 copies distributed to
politicians and journalists.
q Basque q Bulgarian* q Catalan q Croatian* q Czech* q Danish* q Dutch* q English* q Estonian* q Finnish* q French* q Galician
q German* q Greek* q Hungarian* q Icelandic q Irish* q Italian* q Latvian* q Lithuanian* q Maltese* q Norwegian q Polish* q Portuguese*
q Romanian* q Serbian q Slovak* q Slovene* q Spanish* q Swedish* q Welsh
* Official EU language
Cross-Lingual Comparison
q In four areas – 1. Machine Translation, 2. Text Analytics, 3. Speech Processing, 4. Language Resources – each language is ranked: from excellent LT support to weak/no support.
q Cross-lingual comparison discussed and finalised at a network meeting with representatives of all languages (Oct., 2011).
http://www.meta-net.eu 9
MT
English
good
French, Spanish
moderate fragmentary
Catalan, Dutch, German, Hungarian, Italian, Polish,
Romanian
weak or no support through LT
Basque, Bulgarian, Croatian, Czech, Danish, Estonian, Finnish, Galician, Greek, Icelandic, Irish,
Latvian, Lithuanian, Maltese, Norwegian, Portuguese, Serbian, Slovak, Slovene, Swedish, Welsh
excellent
Czech, Dutch, Finnish, French, German, Italian,
Portuguese, Spanish
moderate fragmentary
Basque, Bulgarian, Catalan, Danish, Estonian, Galician,
Greek, Hungarian, Irish, Norwegian, Polish, Serbian,
Slovak, Slovene, Swedish
weak or no support through LT
Croatian, Icelandic, Latvian, Lithuanian, Maltese, Romanian,
Welsh
excellent
English
good
Spee
ch
English
good
Dutch, French, German, Italian,
Spanish
moderate fragmentary
Basque, Bulgarian, Catalan, Czech, Danish, Finnish,
Galician, Greek, Hungarian, Norwegian, Polish,
Portuguese, Romanian, Slovak, Slovene, Swedish
weak or no support through LT
Croatian, Estonian, Icelandic, Irish, Latvian, Lithuanian,
Maltese, Serbian, Welsh
excellent
English
good
Czech, Dutch, French, German,
Hungarian, Italian, Polish,
Spanish, Swedish
moderate fragmentary
Basque, Bulgarian, Catalan, Croatian, Danish, Estonian,
Finnish, Galician, Greek, Norwegian, Portuguese,
Romanian, Serbian, Slovak, Slovene
Icelandic, Irish, Latvian, Lithuanian, Maltese, Welsh
weak or no support through LT excellent
Res
ourc
es
Text
Ana
lyti
cs
Key Observations and Results
http://www.meta-net.eu 11
q When it comes to technology support, there are massive differences between Europe’s languages and technology areas.
q Support for English is ahead of any other language.
q But: even support for English is far from being perfect.
q Several languages get the weakest score in all four areas (e.g., Icelan-dic, Latvian, Lithuanian, Maltese)!
Af Jens Ejsing// [email protected]
Det danske sprog har det svært i den digitale verden.
Det konstaterer danske sprogforskere- og eksperter i forbindelse med den nye inter-nationale undersøgelse META-NET, der ser nærmere på, hvordan en lang række mindre, europæiske sprog som dansk klarer sig i den digitale verden.
Forskerne fra bl.a. Københavns Universitet og Dansk Sprognævn når frem til, at dansk i fremtiden kan få det endnu sværere i den digitale verden, fordi Google Translate, GPSer, applikationer til smartphones og andre sprog-teknologiske programmer ikke i tilstrækkelig grad formår at behandle de mange nuancer i det danske sprog.
Professor i sprogteknologi på Københavns Universitet, Bolette Sandford Pedersen, mener, at der er brug for en slags digital dansk sprogbank fyldt med data, så bl.a. oversættel-ser bliver så præcise og gode som muligt. Med
hjælp fra sprogbanken kan forskere ifølge professoren hjælpe virksomheder med at for-bedre programmer, der skal håndtere sproglig viden om bl.a. maskinoversættelse, tale-genkendelse og informationssøgning.
Dermed vil der blive længere mellem fejlag-tige oversættelser, som når »hæld olie på pan-den« med Google Translate bliver til »pour oil on the forehead« på engelsk. Oversættelser, der er i værste fald er så upræcise, at danskere ender med at fravælge deres eget sprog i den digitale verden.
Sproghjælp til virksomhederHun anerkender dog, at »teknologien til auto-matiske oversættelser på mange måder er fantastisk«.
»Den er bare ikke god nok, når det gælder dansk,« siger hun:
»Det er som om, at vi i et vist omfang lægger det i hænderne på Google eller andre virk-somheder at afgøre, om dansk skal behandles godt nok eller ej. Men det danske marked er ikke stort for dem. Spørgsmålet er derfor,
Dårlig sprogteknologi truer dansk på nettetOrd. Forskere arbejder på at forbedre danske oversættelser på internettet.
om vi ikke i højere grad selv skal gøre noget for at sikre, at det fornødne datamateriale er til rådighed, så vi får gode oversættelser og anden god sprogteknologi. Det kunne f.eks. være ved, at vi gjorde en indsats for at få opret-tet en sprogbank med en masse beriget mate-riale om dansk.«
»Hvis vi hele tiden oplever, at oversættel-ser er behæftede med fejl, tør vi ikke stole på dem,« siger hun og understreger, at »fejlagtige oversættelser kan føre til store misforståelser«.
Ifølge Dansk Sprognævns direktør, Sabine Kirchmeier-Andersen, kan dårlig sprogtekno-logi have konsekvenser for mange danskere, der ikke er så gode til engelsk.
»Hvis vi har ambitioner om at bruge det danske sprog i fremtidens teknologiske univers, skal der gøres en indsats nu for at fastholde ekspertise og udbygge den viden, vi har,« mener hun:
»Ellers risikerer vi, at kun folk, der taler fly-dende engelsk, vil få glæde af de nye generatio-ner af web-, tele- og robotteknologi, der er på vej.« B
H Der er omkring 80 sprog i EU. For 21 af dem – også dansk – gælder det, at der er store sprogteknologiske mangler, når det gælder bl.a. maskinoversættelse, talegenken-delse og informationssøgning.
H Ifølge en EU-undersøgelse køber et stigende antal europæiske internetbrugere varer eller tjenester på nettet, hvor det sprog, der bliver anvendt, ikke er deres eget. Det gælder over halvdelen af brugerne.
H Over hver tredje anvender et fremmed-sprog til at skrive mail eller indlæg på nettet.
fakta HSprog i Europa
38
Στην ψηφιακή εποχή δεν… µιλούν ελληνικά, όπως και αρκετές άλλες ευρωπαϊκές
γλώσσες, σύµφωνα µε πανευρωπαϊ-κή έκθεση µε την υπογραφή 200 και πλέον ειδικών. Η συγκεκριµένη µελέ-τη δηµοσιεύτηκε από το επιστηµονικό δίκτυο ΜΕΤΑ-ΝΕΤ µε αφορµή τη χτε-σινή Ευρωπαϊκή Ηµέρα Γλωσσών.
Για τις ανάγκες της έρευνάς τους, γλωσσολόγοι από 34 χώρες της Γη-ραιάς Ηπείρου βαθµολόγησαν τις διαθέσιµες γλωσσικές υπηρεσίες και δηµιούργησαν ένα «Λευκό Βι-βλίο» για κάθε ευρωπαϊκή γλώσσα. Στη µελέτη τους, οι ειδικοί αναζήτη-σαν µεταξύ άλλων τέσσερα βασικά ηλεκτρονικά εργαλεία, δηλαδή την ύπαρξη αυτόµατης µετάφρασης, τη δυνατότητα φωνητικής αλληλε-πίδρασης και ψηφιακής ανάλυσης κειµένου, ενώ ταυτόχρονα διερευνή-θηκε και η διαθεσιµότητα γλωσσικών πόρων ή πηγών.
Σε πρώτη φάση εξέτασαν τις ιστο-σελίδες που επιτρέπουν στους χρή-στες να κάνουν µεταφράσεις online, όπως, για παράδειγµα, η υπηρεσία του κολοσσού πληροφορικής Google Translate. Την ίδια ώρα, εξετάστηκε και η «επικοινωνία» των ελληνόφω-νων χρηστών µε τις…συσκευές τους, όπως για παράδειγµα η δυνατότητα
να «µιλήσει» κάποιος στο GPS στη µητρική του γλώσσα. Οι ερευνητές κατέληξαν στο συµπέρασµα ότι υπάρχουν τέτοιες συσκευές, αλλά δεν είναι τόσο διαδεδοµένες όσο οι αγγλόφωνες. Το «χρυσό» µετάλλιο κατακτά,
όπως είναι άλλωστε και λογικό, η αγγλική γλώσσα. Οι αγγλόφωνοι χρή-στες έχουν την καλύτερη δυνατή τε-χνολογική υποστήριξη, κάτι το οποίο ευνοεί την περαιτέρω εξάπλωση της γλώσσας. Από «τεχνολογικό απο-κλεισµό» κινδυνεύουν περισσότερο η ισλανδική, η λετονική, η λιθουανική και η µαλτέζικη γλώσσα, ενώ σε λίγο καλύτερη µοίρα βρίσκονται η ελλη-νική, η βουλγαρική, η ουγγρική και η πολωνική, που όπως αναφέρει η έρευνα έχουν «αποσπασµατική» τε-χνολογική υποστήριξη.
«Μέτρια» χαρακτηρίζεται η υπο-στήριξη χρηστών σε ολλανδική, γαλ-λική, γερµανική, ιταλική και ισπανική γλώσσα. Οι επικεφαλής της επιστη-µονικής οµάδας, Χανς Ουζκοράιτ και Γκεόργκ Ρεµ, αναφέρουν χαρακτηρι-στικά: «Υπάρχουν δραµατικές διαφο-ρές στην υποστήριξη της γλωσσικής
τεχνολογίας ανάµεσα στις διάφορες ευρωπαϊκές γλώσσες. Το χάσµα µετα-ξύ “µικρών” και “µεγάλων” γλωσσών ολοένα και διευρύνεται. Πρέπει να εξασφαλίσουµε τον εφοδιασµό των µικρότερων και λιγότερο πλούσιων σε ψηφιακούς πόρους γλωσσών µε τις απαραίτητες βασικές τεχνολογί-ες. ∆ιαφορετικά, οι γλώσσες αυτές είναι καταδικασµένες σε ψηφιακή εξαφάνιση».
Μάλιστα, οι ειδικοί τονίζουν ότι χω-ρίς αποφασιστική δράση οι γλώσσες αυτές δύσκολα θα… επιβιώσουν στον ψηφιακό κόσµου του 21ου αιώνα. Η κ. Μαρία Γαβριηλίδου, µέλος της επι-στηµονικής οµάδας από το Ινστιτούτο
Επεξεργασίας του Λόγου Ερευνητικό Κέντρο Αθηνά, λέει στον «Ε.Τ.»: «Η έρευνα αυτή δεν λέει ότι δεν θα ζήσει η ελληνική γλώσσα ή ότι κινδυνεύει µε εξαφάνιση». Η ειδικός εξηγεί ότι όσο υπάρχουν άνθρωποι που µιλά-νε, γράφουν και επικοινωνούν µε µια γλώσσα, τότε αυτή θα συνεχίσει να υπάρχει. Είναι σηµαντικό, όµως, να έχουν όλοι οι χρήστες τη δυνατότητα να «µιλήσουν» στις µηχανές, όπως τα GPS τους, στα ελληνικά και να έχουν στη διάθεσή τους γλωσσικά εργαλεία ηλεκτρονικών υπολογιστών.
Μεταξύ αυτών των «εργαλείων» είναι οι διορθωτές ορθογραφικών και συντακτικών λαθών, που χρησιµοποι-ούνται καθηµερινά από εκατοντάδες Ελληνες χρήστες και βασίζονται στη γλωσσική τεχνολογία. Παρ’ όλα αυτά, τονίζει ότι η ψη-
φιακή εξάπλωση µιας γλώσσας είναι σηµαντική «∆εν είναι στα χέρια του µέσου χρήστη. Οι εκάστοτε κυβερ-νήσεις, η Ευρωπαϊκή Ενωση και ο ιδιωτικός τοµέας πρέπει να χρηµα-τοδοτήσουν την ανάπτυξη αυτής της τεχνολογίας για όλες τις γλώσσες», αναφέρει και συνεχίζει: «Οι χρήστες, όµως, πρέπει να απαιτούν να υπάρ-χουν και στη γλώσσα τους τα µέσα αυτά και να µην ικανοποιούνται µε τα αγγλικά».
Πέµπτη 27 Σεπτεµβρίου 2012 ΕΛΕΥΘΕΡΟΣ ΤΥΠΟΣ
LifeΠΟΛΛΕΣ ΕΥΡΩΠΑΪΚΕΣ ΓΛΩΣΣΕΣ ΘΕΩΡΟΥΝΤΑΙ ΤΕΧΝΟΛΟΓΙΚΑ… ΞΕΠΕΡΑΣΜΕΝΕΣ
Με ψηφιακή εξαφάνιση κινδυνεύουν τα ελληνικά
ΕΛΕΝΗ ΒΕΡΓΟΥ[email protected]
Η γλώσσα της αποξένωσης…
XX GREEKLISH
Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, γεγονός που ευνοεί την περαιτέρω εξάπλωση της γλώσσας
ΜΕ GREEKLISH επικοινω-νούν πλέον µέσω µηνυµά-των ή email οι περισσότεροι νέοι της χώρας µας. Παρά το γεγονός ότι τα τελευ-ταία χρόνια υπάρχουν τα γλωσσικά εργαλεία, τα οποία επιτρέπουν τη χρήση της ελληνικής γραµµατο-σειράς, έφηβοι και νέοι ενήλικες φαίνεται ότι δεν έχουν «αγκαλιάσει» αυτές τις τεχνολογίες. Ο καθη-γητής Γλωσσολογίας, κ. Γιώργος Μπαµπινιώτης, λέει στον «Ε.Τ.»: «Τα greeklish είναι πρόβληµα για την ελληνική γλώσσα, ιδίως για ανθρώπους νέας ηλικίας για έναν καθαρά γλωσσικό λόγο. Με τη χρήση των greeklish αποξενώνονται από τη µορφή της λέξης ή όπως λέµε το ετυµολογικό ίνδαλµα που δηλώνεται µε την ορθογραφία της λέξης και συνδέεται και µε τη ση-µασία της λέξης και µε την προέλευσή της». Ο κίνδυνος, µε τον οποίο έρχονται αντι-µέτωποι οι νέοι άνθρωποι, είναι η αποξένωση από τη γραπτή µορφή της γλώσ-σας. Αυτή η «οικειότητα», όµως, βοηθάει και στην κατανόηση της σηµασίας αλλά και την προέλευση της λέξης. «Αυτή η αποξένωση δεν είναι άνευ σηµασίας», αναφέρει ο ειδικός, ο οποίος εξηγεί ότι η διαδικασία της γραφής βοηθάει να εντυπω-θεί η λέξη και να συνδεθεί µε άλλες οµόρριζες λέξεις. «Οταν χρησιµοποιείται αυτή η µορφή επικοινωνίας, κα-ταστρέφονται, ατονούν. ∆εν είναι προς θάνατο, αλλά θα κάνει ζηµιά», αναφέρει ο κ. Μπαµπινιώτης, ο οποίος συµβουλεύει τους χρήστες να επιλέγουν την ελληνική γραµµατοσειρά.
Γιώργος Μπαµπινιώτης.
Date 30 September 2012 Page 16
Copyright material. This may only be copied under the terms of a Newspaper Licensing Agency agreement (www.nla.co.uk) or with written publisher permission. For external republishing rights see www.nla-republishing.com
49KYPIAKH 30 ΣΕΠΤΕΜΒΡΙΟΥ 2012
Η 26η Σεπτεµβρίου έχει καθιε-ρωθεί από το Συµβούλιο τηςΕυρώπης ως η ΕυρωπαϊκήΗµέρα των Γλωσσών, αλλά,
σύµφωνα µε µια νέα ευρωπαϊκή επι-στηµονική έκθεση, οι 21 από τις 30γλώσσες της Ευρώπης -µεταξύ των οποί-ων και η Ελληνική- αντιµετωπίζουν κίν-δυνο ψηφιακής εξαφάνισης. Η έρευνα κρούει τον κώδωνα κινδύ-
νου, καθώς διαπίστωσε ότι η ψηφιακήβοήθεια για τις περισσότερες ευρωπαϊκέςγλώσσες είναι ελλιπής ή απολύτως ανύ-παρκτη για τους χρήστες.
Τις έφαγαν οι κοινέςΗ έκθεση, µε τη µορφή µιας σειράς
Λευκών Βίβλων (µε τίτλο «Γλώσσες στηνΕυρωπαϊκή Κοινωνία της Πληροφορίας»),από το επιστηµονικό δίκτυο ΜΕΤΑ-ΝΕΤ, το οποίο συνενώνει 60 ερευνητικάκέντρα σε 34 χώρες, επισηµαίνει ότι οιγλώσσες που µιλιούνται από σχετικάµικρό αριθµό ανθρώπων κινδυνεύουν,επειδή δεν έχουν τεχνολογική υποστή-ριξη όπως έχουν οι ευρέως χρησιµο-ποιούµενες γλώσσες. Λευκές Βίβλοιέχουν καταρτιστεί για τις εξής ευρω-παϊκές γλώσσες: αγγλικά, βασκικά,βουλγαρικά, γαλικιανά, γαλλικά, γερ-µανικά, δανικά, ελληνικά, εσθονικά,ιρλανδικά, ισλανδικά, ισπανικά, ιταλικά,καταλανικά, κροατικά, λετονικά, λι-θουανικά, µαλτέζικα, νορβηγικά (µπουκ-µόλ και νινόρσκ), ολλανδικά, ουγγρικά,πολωνικά, πορτογαλικά, ρουµανικά,σερβικά, σλοβακικά, σλοβενικά, σουη-δικά, τσεχικά και φινλανδικά. ΚάθεΛευκή Βίβλος είναι γραµµένη στη γλώσ-σα στην οποία αναφέρεται και είναιµεταφρασµένη στα αγγλικά.
Τέσσερις µεγάλοι κίνδυνοιΣύµφωνα µε τη νέα µελέτη, η Ισ-
λανδική, η Λετονική, η Λιθουανική καιη Μαλτέζικη αντιµετωπίζουν τον µε-γαλύτερο κίνδυνο εξαφάνισης σε µιαευρωπαϊκή τεχνολογική κοινωνία, πουολοένα περισσότερο προωθεί τη χρήσησυγκεκριµένων γλωσσών και ιδίως τηςΑγγλικής. Όµως και άλλες γλώσσες,όπως η Ελληνική, η Βουλγαρική, η Ουγ-γρική και η Πολωνική, επίσης κινδυ-νεύουν στον σύγχρονο ψηφιακό κόσµο. Η έρευνα του ΜΕΤΑ-ΝΕΤ, στην οποία
συνέβαλαν περισσότεροι από 200 ειδικοί,αξιολογεί τον κίνδυνο για κάθε γλώσσαµε βάση τέσσερα βασικά κριτήρια σετεχνολογικό/ψηφιακό επίπεδο: την ύπαρ-ξη αυτόµατης µετάφρασης στη συγκε-κριµένη γλώσσα, τη δυνατότητα φωνη-τικής αλληλεπίδρασης, τη δυνατότηταψηφιακής ανάλυσης κειµένου και τηδιαθεσιµότητα των σχετικών ψηφιακώνγλωσσικών πόρων/πηγών.
Οι δυνατέςΗ γλώσσα µε την καλύτερη βαθµο-
λογία στα κριτήρια είναι ασφαλώς ηΑγγλική, που απολαµβάνει τη συγκριτικάκαλύτερη τεχνολογική υποστήριξη (ανκαι όχι την καλύτερη δυνατή), γεγονόςπου διευκολύνει την περαιτέρω εξά-πλωσή της.
Ακολουθούν µε ικανοποιητική ή µέ-τρια τεχνολογική/ψηφιακή υποστήριξηη Ολλανδική, η Γαλλική, η Γερµανική,η Ιταλική και η Ισπανική. Η Ελληνική,όπως επίσης η Βασκική, η Καταλανική,η Πολωνική, η Ουγγρική κ.ά. κατα-τάσσονται στις γλώσσες µε «αποσπα-σµατική» µόνο υποστήριξη, γι’ αυτόακριβώς θεωρούνται γλώσσες υψηλούκινδύνου προς εξαφάνιση.
Δραµατικές διαφορές Σύµφωνα µε τους επιµελητές της µε-
λέτης Χανς Ουζκοράιτ και Γκέοργκ Ρεµ,«υπάρχουν δραµατικές διαφορές στηνυποστήριξη της γλωσσικής τεχνολογίαςανάµεσα στις διάφορες ευρωπαϊκέςγλώσσες και τεχνολογικές περιοχές. Τοχάσµα µεταξύ ‘µικρών’ και ‘µεγάλων’γλωσσών ολοένα και διευρύνεται. Πρέπεινα εξασφαλίσουµε τον εφοδιασµό τωνµικρότερων και λιγότερο πλούσιων -σεψηφιακούς πόρους- γλωσσών µε τιςαπαραίτητες βασικές τεχνολογίες, αλλιώςοι γλώσσες αυτές είναι καταδικασµένεςσε ψηφιακή εξαφάνιση».Ως ελπίδα αυτών των γλωσσών θεω-
ρείται η βελτίωση και η ευρύτερη αξιο-ποίηση του λογισµικού γλωσσικής τε-χνολογίας, το οποίο επιτρέπει τη φω-νητική και τη γραπτή επεξεργασία τωνδιαφόρων γλωσσών. Παραδείγµατα αυτών των δυνατοτή-
των είναι οι ηλεκτρονικοί ορθογραφικοίκαι συντακτικοί διορθωτές κειµένων,οι διαδραστικοί προσωπικοί «βοηθοί»των έξυπνων κινητών τηλεφώνων (π.χ.η Siri στο iPhone), τα συστήµατα αυ-τόµατης µετάφρασης, τα ηλεκτρονικάσυστήµατα διαλόγου των τηλεφωνικώνκέντρων, οι µηχανές αναζήτησης, ησυνθετική φωνή στα συστήµατα πλοή-γησης των αυτοκινήτων. κ.ά.
Το βασικό πρόβληµαΤο σηµαντικό, σύµφωνα µε την έκ-
θεση, είναι όλες αυτές οι δυνατότητεςνα προσφέρονται στους χρήστες και στηµητρική τους γλώσσα που κινδυνεύειµε εξαφάνιση. Χωρίς αποφασιστική δρά-ση, γίνεται η δυσοίωνη πρόβλεψη ότιοι γλώσσες αυτές δύσκολα θα επιβιώσουνστον ψηφιακό κόσµο του 21ου αιώνα.Ένα πρόβληµα είναι ότι το λογισµικό
αυτών των συστηµάτων γλωσσικής τε-χνολογίας στηρίζεται σε στατιστικές µε-θόδους που απαιτούν τεράστιες ποσό-τητες γραπτών ή φωνητικών δεδοµένων,όµως τόσα πολλά δεδοµένα είναι δύσκολονα αποκτηθούν για γλώσσες που οµι-λούνται από σχετικά λίγους ανθρώπους.Εξάλλου, ακόµα και για ευρέως χρη-
σιµοποιούµενες γλώσσες όπως τα αγ-γλικά, η σχετική γλωσσική τεχνολογίαέχει ακόµα αδυναµίες, που είναι π.χ.φανερές στις άκρως ανεπαρκείς και γε-µάτες λάθη αυτόµατες µεταφράσεις. Ηέκθεση προτείνει ότι πρέπει να αναληφθείµια συντονισµένη µεγάλης κλίµακαςπροσπάθεια στην Ευρώπη, προκειµένουσταδιακά να δηµιουργηθούν ή να βελ-τιωθούν οι αναγκαίες τεχνολογίες καινα βοηθηθούν οι γλώσσες που είναι ψη-φιακά παραγκωνισµένες.
Τη γλώσσα µού... έχασαν
Οι περισσότερες ευρωπαϊκές γλώσσες κινδυνεύουν µε ψηφιακή εξαφάνιση
Πρέπει να εξασφαλιστεί ο εφοδιασµός των µικρότερων και λιγότερο πλούσιων-σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες
?049-ΚΟΣΜΟΣ 29/09/2012 1:41 ?Μ Page 49
Digital Language Extinction!
q “At Least 21 European Languages in Danger of Digital Extinction!”
q Press release sent out to journalists, politicians and other stakeholder groups on the European Day of Languages (Sept. 26, 2012).
q Overwhelmed by the huge interest in the topic and our key findings!
q 600+ mentions in the press.
q 20+ television reports and 30+ broadcast interviews (radio, tv) with META-NET representatives.
q News came in from 40+ countries in 35+ different languages.
q Two Parliamentary Questions in the EP on the “digital extinction of languages” topic.
http://www.meta-net.eu 12
Af Flemming Steen Pedersen// [email protected]
Langt flere kræftpatienter i hovedstadsområ-det skal behandles hurtigt og uden forsinkel-ser.
Det skal være slut med, at undersøgelse og behandling trækker i langdrag og overskrider de tidsfrister, som fagfolk har fastsat for at give patienterne de optimale chancer for at over-leve den frygtede sygdom.
Det er målet, når politikere i Region Hoved-staden nu lægger op til at udmønte en pulje på 32 mio. kr. til at øge personalet og udvide behandlingskapaciteten på kræftområdet på en række af regionens hospitaler.
Pengene kommer, efter at regionen er blevet kritiseret for, at alt for mange kræft-patienter er for lang tid om at komme igen-nem systemet. F.eks. er det ifølge den seneste opgørelse kun godt halvdelen af kvinder med brystkræft, som bliver behandlet inden for det fastsatte mål på 18 dage i de såkaldte kræft-pakker.
»Pengene betyder, at der kommer bedre forhold for kræftpatienter. Det er vigtigt, at folk får mulighed for at blive behandlet hur-tigt, så de ikke skal gå rundt og være bekym-rede,« siger formand for kvalitetsudvalget i Region Hovedstaden, Kirsten Lee (R).
Flere får kræft – og flere overleverKonkret er hensigten at udvide den onkologi-ske kapacitet – det vil sige stråle- og kemobe-handlingen – på såvel Rigshospitalet, Herlev Hospital, Hillerød Hospital og Bornholms Hospital.
Desuden sættes der penge af til at øge antal-let af operationer og udvide ambulatorieka-paciteten på det urologiske område på Herlev,
Bispebjerg og Frederiksberg. Foruden pro-blemer med lange ventetider for brystkræft-patienter er der således også patienter med prostatakræft, som venter for længe. På dags-ordenen er også at sikre hurtigere behandling til en tredje gruppe af patienter med hoved-halskræft, hvor et stort antal patienter ligele-des må vente længere end tidsgrænsen på 16 dage.
Udover at tilføre flere penge overvejes det også at indføre såkaldte servicemål for, hvor stor en andel af patienterne der skal i behandling inden for de fastsatte tidsgrænser i kræftpakkerne. Lignende servicemål findes i forvejen i Region Midtjylland og Region Syddanmark og betragtes som et middel til at presse hospitalerne og signalere, at bestemte områder har særlig høj politisk bevågenhed.
I de to regioner er målet, at henholdvis 90 og 95 pct. af patienterne skal igennem syste-met inden for forløbstiderne, og Kirsten Lee forventer, at et eventuelt servicemål i Region Hovedstaden kommer til at ligge på et tilsva-rende niveau.
I Kræftens Bekæmpelse hilser direktør Leif Vestergaard Pedersen det velkomment, at Region Hovedstaden nu bruger 32 mio. kr. til at udvide kapaciteten .
»Det har vist sig, at der er et forbedringspo-tentiale på dette område, og derfor er det godt, at man prioriterer det. Flere og flere får kræft, og flere og flere overlever. Det betyder, at kapa-citeten gradvist skal øges hele tiden. Service-mål er et godt initiativ, og et mål på 90-95 pct. er nok det realistiske, selv om udgangspunk-tet bør være 100 procent,« siger Leif Vesterga-ard Pedersen og tilføjer:
»Men så er det også vigtigt at holde fast i det mål og ikke stille sig tilfreds med, at 80 eller 85 pct. kommer igennem til tiden.« B
Kræft syge skal have hurtigerebehandling
Oprustning. Region Hovedstaden bruger 32 mio. kr. på at øge behandlingskapaciteten.
Af Jens Ejsing// [email protected]
Det danske sprog har det svært i den digitale verden.
Det konstaterer danske sprogforskere- og eksperter i forbindelse med den nye inter-nationale undersøgelse META-NET, der ser nærmere på, hvordan en lang række mindre, europæiske sprog som dansk klarer sig i den digitale verden.
Forskerne fra bl.a. Københavns Universitet og Dansk Sprognævn når frem til, at dansk i fremtiden kan få det endnu sværere i den digitale verden, fordi Google Translate, GPSer, applikationer til smartphones og andre sprog-teknologiske programmer ikke i tilstrækkelig grad formår at behandle de mange nuancer i det danske sprog.
Professor i sprogteknologi på Københavns Universitet, Bolette Sandford Pedersen, mener, at der er brug for en slags digital dansk sprogbank fyldt med data, så bl.a. oversættel-ser bliver så præcise og gode som muligt. Med
hjælp fra sprogbanken kan forskere ifølge professoren hjælpe virksomheder med at for-bedre programmer, der skal håndtere sproglig viden om bl.a. maskinoversættelse, tale-genkendelse og informationssøgning.
Dermed vil der blive længere mellem fejlag-tige oversættelser, som når »hæld olie på pan-den« med Google Translate bliver til »pour oil on the forehead« på engelsk. Oversættelser, der er i værste fald er så upræcise, at danskere ender med at fravælge deres eget sprog i den digitale verden.
Sproghjælp til virksomhederHun anerkender dog, at »teknologien til auto-matiske oversættelser på mange måder er fantastisk«.
»Den er bare ikke god nok, når det gælder dansk,« siger hun:
»Det er som om, at vi i et vist omfang lægger det i hænderne på Google eller andre virk-somheder at afgøre, om dansk skal behandles godt nok eller ej. Men det danske marked er ikke stort for dem. Spørgsmålet er derfor,
Dårlig sprogteknologi truer dansk på nettetOrd. Forskere arbejder på at forbedre danske oversættelser på internettet.
om vi ikke i højere grad selv skal gøre noget for at sikre, at det fornødne datamateriale er til rådighed, så vi får gode oversættelser og anden god sprogteknologi. Det kunne f.eks. være ved, at vi gjorde en indsats for at få opret-tet en sprogbank med en masse beriget mate-riale om dansk.«
»Hvis vi hele tiden oplever, at oversættel-ser er behæftede med fejl, tør vi ikke stole på dem,« siger hun og understreger, at »fejlagtige oversættelser kan føre til store misforståelser«.
Ifølge Dansk Sprognævns direktør, Sabine Kirchmeier-Andersen, kan dårlig sprogtekno-logi have konsekvenser for mange danskere, der ikke er så gode til engelsk.
»Hvis vi har ambitioner om at bruge det danske sprog i fremtidens teknologiske univers, skal der gøres en indsats nu for at fastholde ekspertise og udbygge den viden, vi har,« mener hun:
»Ellers risikerer vi, at kun folk, der taler fly-dende engelsk, vil få glæde af de nye generatio-ner af web-, tele- og robotteknologi, der er på vej.« B
INFOGRAFIK: HENRIK KIÆR / TEKST: FLEMMING STEEN PEDERSEN KILDE: REGION HOVEDSTADEN
De såkaldte kræftpakker, der blev indført i 2008 og 2009 for at sikre de danske kræftpatienter langt hurtigere undersøgelser og behandling, beskriver et standardudrednings- og -behand-lingsforløb. Det vil sige, hvilke undersøgelser og behandlinger der skal udføres, og hvor lang tid der højst må gå med de enkelte aktiviteter. Opgørelser fra Region Hovedstaden viser imidlertid, at en stor del af patienterne ikke behandles inden for de fastsatte tidsgrænser, og at der især er problemer inden for tre kræftsygdomme: brystkræft, hoved- og halskræft og prostatakræft.
Kræftbehandling trækker ud
PROSTATAKRÆFTServicemål: 35-39 dage
24
76
HOVED- OG HALSKRÆFTServicemål: 16 dage
40
60
BRYSTKRÆFTServicemål: 18 dage
4753
Procentdel inden for servicemål
Procentdel uden for servicemål
Sådan læses grafikken:
Positiv udviklingNegativ udvikling
H Der er omkring 80 sprog i EU. For 21 af dem – også dansk – gælder det, at der er store sprogteknologiske mangler, når det gælder bl.a. maskinoversættelse, talegenken-delse og informationssøgning.
H Ifølge en EU-undersøgelse køber et stigende antal europæiske internetbrugere varer eller tjenester på nettet, hvor det sprog, der bliver anvendt, ikke er deres eget. Det gælder over halvdelen af brugerne.
H Over hver tredje anvender et fremmed-sprog til at skrive mail eller indlæg på nettet.
fakta HSprog i Europa
REDIGERET AF JOANNA VALLENTIN. LAYOUT: JACOB FRIIS/ NATIONALT /06. BERLINGSKE / 1.SEKTION / LØRDAG 22.09.2012
38
Στην ψηφιακή εποχή δεν… µιλούν ελληνικά, όπως και αρκετές άλλες ευρωπαϊκές
γλώσσες, σύµφωνα µε πανευρωπαϊ-κή έκθεση µε την υπογραφή 200 και πλέον ειδικών. Η συγκεκριµένη µελέ-τη δηµοσιεύτηκε από το επιστηµονικό δίκτυο ΜΕΤΑ-ΝΕΤ µε αφορµή τη χτε-σινή Ευρωπαϊκή Ηµέρα Γλωσσών.
Για τις ανάγκες της έρευνάς τους, γλωσσολόγοι από 34 χώρες της Γη-ραιάς Ηπείρου βαθµολόγησαν τις διαθέσιµες γλωσσικές υπηρεσίες και δηµιούργησαν ένα «Λευκό Βι-βλίο» για κάθε ευρωπαϊκή γλώσσα. Στη µελέτη τους, οι ειδικοί αναζήτη-σαν µεταξύ άλλων τέσσερα βασικά ηλεκτρονικά εργαλεία, δηλαδή την ύπαρξη αυτόµατης µετάφρασης, τη δυνατότητα φωνητικής αλληλε-πίδρασης και ψηφιακής ανάλυσης κειµένου, ενώ ταυτόχρονα διερευνή-θηκε και η διαθεσιµότητα γλωσσικών πόρων ή πηγών.
Σε πρώτη φάση εξέτασαν τις ιστο-σελίδες που επιτρέπουν στους χρή-στες να κάνουν µεταφράσεις online, όπως, για παράδειγµα, η υπηρεσία του κολοσσού πληροφορικής Google Translate. Την ίδια ώρα, εξετάστηκε και η «επικοινωνία» των ελληνόφω-νων χρηστών µε τις…συσκευές τους, όπως για παράδειγµα η δυνατότητα
να «µιλήσει» κάποιος στο GPS στη µητρική του γλώσσα. Οι ερευνητές κατέληξαν στο συµπέρασµα ότι υπάρχουν τέτοιες συσκευές, αλλά δεν είναι τόσο διαδεδοµένες όσο οι αγγλόφωνες. Το «χρυσό» µετάλλιο κατακτά,
όπως είναι άλλωστε και λογικό, η αγγλική γλώσσα. Οι αγγλόφωνοι χρή-στες έχουν την καλύτερη δυνατή τε-χνολογική υποστήριξη, κάτι το οποίο ευνοεί την περαιτέρω εξάπλωση της γλώσσας. Από «τεχνολογικό απο-κλεισµό» κινδυνεύουν περισσότερο η ισλανδική, η λετονική, η λιθουανική και η µαλτέζικη γλώσσα, ενώ σε λίγο καλύτερη µοίρα βρίσκονται η ελλη-νική, η βουλγαρική, η ουγγρική και η πολωνική, που όπως αναφέρει η έρευνα έχουν «αποσπασµατική» τε-χνολογική υποστήριξη.
«Μέτρια» χαρακτηρίζεται η υπο-στήριξη χρηστών σε ολλανδική, γαλ-λική, γερµανική, ιταλική και ισπανική γλώσσα. Οι επικεφαλής της επιστη-µονικής οµάδας, Χανς Ουζκοράιτ και Γκεόργκ Ρεµ, αναφέρουν χαρακτηρι-στικά: «Υπάρχουν δραµατικές διαφο-ρές στην υποστήριξη της γλωσσικής
τεχνολογίας ανάµεσα στις διάφορες ευρωπαϊκές γλώσσες. Το χάσµα µετα-ξύ “µικρών” και “µεγάλων” γλωσσών ολοένα και διευρύνεται. Πρέπει να εξασφαλίσουµε τον εφοδιασµό των µικρότερων και λιγότερο πλούσιων σε ψηφιακούς πόρους γλωσσών µε τις απαραίτητες βασικές τεχνολογί-ες. ∆ιαφορετικά, οι γλώσσες αυτές είναι καταδικασµένες σε ψηφιακή εξαφάνιση».
Μάλιστα, οι ειδικοί τονίζουν ότι χω-ρίς αποφασιστική δράση οι γλώσσες αυτές δύσκολα θα… επιβιώσουν στον ψηφιακό κόσµου του 21ου αιώνα. Η κ. Μαρία Γαβριηλίδου, µέλος της επι-στηµονικής οµάδας από το Ινστιτούτο
Επεξεργασίας του Λόγου Ερευνητικό Κέντρο Αθηνά, λέει στον «Ε.Τ.»: «Η έρευνα αυτή δεν λέει ότι δεν θα ζήσει η ελληνική γλώσσα ή ότι κινδυνεύει µε εξαφάνιση». Η ειδικός εξηγεί ότι όσο υπάρχουν άνθρωποι που µιλά-νε, γράφουν και επικοινωνούν µε µια γλώσσα, τότε αυτή θα συνεχίσει να υπάρχει. Είναι σηµαντικό, όµως, να έχουν όλοι οι χρήστες τη δυνατότητα να «µιλήσουν» στις µηχανές, όπως τα GPS τους, στα ελληνικά και να έχουν στη διάθεσή τους γλωσσικά εργαλεία ηλεκτρονικών υπολογιστών.
Μεταξύ αυτών των «εργαλείων» είναι οι διορθωτές ορθογραφικών και συντακτικών λαθών, που χρησιµοποι-ούνται καθηµερινά από εκατοντάδες Ελληνες χρήστες και βασίζονται στη γλωσσική τεχνολογία. Παρ’ όλα αυτά, τονίζει ότι η ψη-
φιακή εξάπλωση µιας γλώσσας είναι σηµαντική «∆εν είναι στα χέρια του µέσου χρήστη. Οι εκάστοτε κυβερ-νήσεις, η Ευρωπαϊκή Ενωση και ο ιδιωτικός τοµέας πρέπει να χρηµα-τοδοτήσουν την ανάπτυξη αυτής της τεχνολογίας για όλες τις γλώσσες», αναφέρει και συνεχίζει: «Οι χρήστες, όµως, πρέπει να απαιτούν να υπάρ-χουν και στη γλώσσα τους τα µέσα αυτά και να µην ικανοποιούνται µε τα αγγλικά».
Πέµπτη 27 Σεπτεµβρίου 2012 ΕΛΕΥΘΕΡΟΣ ΤΥΠΟΣ
LifeΠΟΛΛΕΣ ΕΥΡΩΠΑΪΚΕΣ ΓΛΩΣΣΕΣ ΘΕΩΡΟΥΝΤΑΙ ΤΕΧΝΟΛΟΓΙΚΑ… ΞΕΠΕΡΑΣΜΕΝΕΣ
Με ψηφιακή εξαφάνιση κινδυνεύουν τα ελληνικά
ΕΛΕΝΗ ΒΕΡΓΟΥ[email protected]
Η γλώσσα της αποξένωσης…
XX GREEKLISH
Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, γεγονός που ευνοεί την περαιτέρω εξάπλωση της γλώσσας
ΜΕ GREEKLISH επικοινω-νούν πλέον µέσω µηνυµά-των ή email οι περισσότεροι νέοι της χώρας µας. Παρά το γεγονός ότι τα τελευ-ταία χρόνια υπάρχουν τα γλωσσικά εργαλεία, τα οποία επιτρέπουν τη χρήση της ελληνικής γραµµατο-σειράς, έφηβοι και νέοι ενήλικες φαίνεται ότι δεν έχουν «αγκαλιάσει» αυτές τις τεχνολογίες. Ο καθη-γητής Γλωσσολογίας, κ. Γιώργος Μπαµπινιώτης, λέει στον «Ε.Τ.»: «Τα greeklish είναι πρόβληµα για την ελληνική γλώσσα, ιδίως για ανθρώπους νέας ηλικίας για έναν καθαρά γλωσσικό λόγο. Με τη χρήση των greeklish αποξενώνονται από τη µορφή της λέξης ή όπως λέµε το ετυµολογικό ίνδαλµα που δηλώνεται µε την ορθογραφία της λέξης και συνδέεται και µε τη ση-µασία της λέξης και µε την προέλευσή της». Ο κίνδυνος, µε τον οποίο έρχονται αντι-µέτωποι οι νέοι άνθρωποι, είναι η αποξένωση από τη γραπτή µορφή της γλώσ-σας. Αυτή η «οικειότητα», όµως, βοηθάει και στην κατανόηση της σηµασίας αλλά και την προέλευση της λέξης. «Αυτή η αποξένωση δεν είναι άνευ σηµασίας», αναφέρει ο ειδικός, ο οποίος εξηγεί ότι η διαδικασία της γραφής βοηθάει να εντυπω-θεί η λέξη και να συνδεθεί µε άλλες οµόρριζες λέξεις. «Οταν χρησιµοποιείται αυτή η µορφή επικοινωνίας, κα-ταστρέφονται, ατονούν. ∆εν είναι προς θάνατο, αλλά θα κάνει ζηµιά», αναφέρει ο κ. Μπαµπινιώτης, ο οποίος συµβουλεύει τους χρήστες να επιλέγουν την ελληνική γραµµατοσειρά.
Γιώργος Μπαµπινιώτης.
Date 30 September 2012 Page 16
Copyright material. This may only be copied under the terms of a Newspaper Licensing Agency agreement (www.nla.co.uk) or with written publisher permission. For external republishing rights see www.nla-republishing.com
49KYPIAKH 30 ΣΕΠΤΕΜΒΡΙΟΥ 2012
Η 26η Σεπτεµβρίου έχει καθιε-ρωθεί από το Συµβούλιο τηςΕυρώπης ως η ΕυρωπαϊκήΗµέρα των Γλωσσών, αλλά,
σύµφωνα µε µια νέα ευρωπαϊκή επι-στηµονική έκθεση, οι 21 από τις 30γλώσσες της Ευρώπης -µεταξύ των οποί-ων και η Ελληνική- αντιµετωπίζουν κίν-δυνο ψηφιακής εξαφάνισης. Η έρευνα κρούει τον κώδωνα κινδύ-
νου, καθώς διαπίστωσε ότι η ψηφιακήβοήθεια για τις περισσότερες ευρωπαϊκέςγλώσσες είναι ελλιπής ή απολύτως ανύ-παρκτη για τους χρήστες.
Τις έφαγαν οι κοινέςΗ έκθεση, µε τη µορφή µιας σειράς
Λευκών Βίβλων (µε τίτλο «Γλώσσες στηνΕυρωπαϊκή Κοινωνία της Πληροφορίας»),από το επιστηµονικό δίκτυο ΜΕΤΑ-ΝΕΤ, το οποίο συνενώνει 60 ερευνητικάκέντρα σε 34 χώρες, επισηµαίνει ότι οιγλώσσες που µιλιούνται από σχετικάµικρό αριθµό ανθρώπων κινδυνεύουν,επειδή δεν έχουν τεχνολογική υποστή-ριξη όπως έχουν οι ευρέως χρησιµο-ποιούµενες γλώσσες. Λευκές Βίβλοιέχουν καταρτιστεί για τις εξής ευρω-παϊκές γλώσσες: αγγλικά, βασκικά,βουλγαρικά, γαλικιανά, γαλλικά, γερ-µανικά, δανικά, ελληνικά, εσθονικά,ιρλανδικά, ισλανδικά, ισπανικά, ιταλικά,καταλανικά, κροατικά, λετονικά, λι-θουανικά, µαλτέζικα, νορβηγικά (µπουκ-µόλ και νινόρσκ), ολλανδικά, ουγγρικά,πολωνικά, πορτογαλικά, ρουµανικά,σερβικά, σλοβακικά, σλοβενικά, σουη-δικά, τσεχικά και φινλανδικά. ΚάθεΛευκή Βίβλος είναι γραµµένη στη γλώσ-σα στην οποία αναφέρεται και είναιµεταφρασµένη στα αγγλικά.
Τέσσερις µεγάλοι κίνδυνοιΣύµφωνα µε τη νέα µελέτη, η Ισ-
λανδική, η Λετονική, η Λιθουανική καιη Μαλτέζικη αντιµετωπίζουν τον µε-γαλύτερο κίνδυνο εξαφάνισης σε µιαευρωπαϊκή τεχνολογική κοινωνία, πουολοένα περισσότερο προωθεί τη χρήσησυγκεκριµένων γλωσσών και ιδίως τηςΑγγλικής. Όµως και άλλες γλώσσες,όπως η Ελληνική, η Βουλγαρική, η Ουγ-γρική και η Πολωνική, επίσης κινδυ-νεύουν στον σύγχρονο ψηφιακό κόσµο. Η έρευνα του ΜΕΤΑ-ΝΕΤ, στην οποία
συνέβαλαν περισσότεροι από 200 ειδικοί,αξιολογεί τον κίνδυνο για κάθε γλώσσαµε βάση τέσσερα βασικά κριτήρια σετεχνολογικό/ψηφιακό επίπεδο: την ύπαρ-ξη αυτόµατης µετάφρασης στη συγκε-κριµένη γλώσσα, τη δυνατότητα φωνη-τικής αλληλεπίδρασης, τη δυνατότηταψηφιακής ανάλυσης κειµένου και τηδιαθεσιµότητα των σχετικών ψηφιακώνγλωσσικών πόρων/πηγών.
Οι δυνατέςΗ γλώσσα µε την καλύτερη βαθµο-
λογία στα κριτήρια είναι ασφαλώς ηΑγγλική, που απολαµβάνει τη συγκριτικάκαλύτερη τεχνολογική υποστήριξη (ανκαι όχι την καλύτερη δυνατή), γεγονόςπου διευκολύνει την περαιτέρω εξά-πλωσή της.
Ακολουθούν µε ικανοποιητική ή µέ-τρια τεχνολογική/ψηφιακή υποστήριξηη Ολλανδική, η Γαλλική, η Γερµανική,η Ιταλική και η Ισπανική. Η Ελληνική,όπως επίσης η Βασκική, η Καταλανική,η Πολωνική, η Ουγγρική κ.ά. κατα-τάσσονται στις γλώσσες µε «αποσπα-σµατική» µόνο υποστήριξη, γι’ αυτόακριβώς θεωρούνται γλώσσες υψηλούκινδύνου προς εξαφάνιση.
Δραµατικές διαφορές Σύµφωνα µε τους επιµελητές της µε-
λέτης Χανς Ουζκοράιτ και Γκέοργκ Ρεµ,«υπάρχουν δραµατικές διαφορές στηνυποστήριξη της γλωσσικής τεχνολογίαςανάµεσα στις διάφορες ευρωπαϊκέςγλώσσες και τεχνολογικές περιοχές. Τοχάσµα µεταξύ ‘µικρών’ και ‘µεγάλων’γλωσσών ολοένα και διευρύνεται. Πρέπεινα εξασφαλίσουµε τον εφοδιασµό τωνµικρότερων και λιγότερο πλούσιων -σεψηφιακούς πόρους- γλωσσών µε τιςαπαραίτητες βασικές τεχνολογίες, αλλιώςοι γλώσσες αυτές είναι καταδικασµένεςσε ψηφιακή εξαφάνιση».Ως ελπίδα αυτών των γλωσσών θεω-
ρείται η βελτίωση και η ευρύτερη αξιο-ποίηση του λογισµικού γλωσσικής τε-χνολογίας, το οποίο επιτρέπει τη φω-νητική και τη γραπτή επεξεργασία τωνδιαφόρων γλωσσών. Παραδείγµατα αυτών των δυνατοτή-
των είναι οι ηλεκτρονικοί ορθογραφικοίκαι συντακτικοί διορθωτές κειµένων,οι διαδραστικοί προσωπικοί «βοηθοί»των έξυπνων κινητών τηλεφώνων (π.χ.η Siri στο iPhone), τα συστήµατα αυ-τόµατης µετάφρασης, τα ηλεκτρονικάσυστήµατα διαλόγου των τηλεφωνικώνκέντρων, οι µηχανές αναζήτησης, ησυνθετική φωνή στα συστήµατα πλοή-γησης των αυτοκινήτων. κ.ά.
Το βασικό πρόβληµαΤο σηµαντικό, σύµφωνα µε την έκ-
θεση, είναι όλες αυτές οι δυνατότητεςνα προσφέρονται στους χρήστες και στηµητρική τους γλώσσα που κινδυνεύειµε εξαφάνιση. Χωρίς αποφασιστική δρά-ση, γίνεται η δυσοίωνη πρόβλεψη ότιοι γλώσσες αυτές δύσκολα θα επιβιώσουνστον ψηφιακό κόσµο του 21ου αιώνα.Ένα πρόβληµα είναι ότι το λογισµικό
αυτών των συστηµάτων γλωσσικής τε-χνολογίας στηρίζεται σε στατιστικές µε-θόδους που απαιτούν τεράστιες ποσό-τητες γραπτών ή φωνητικών δεδοµένων,όµως τόσα πολλά δεδοµένα είναι δύσκολονα αποκτηθούν για γλώσσες που οµι-λούνται από σχετικά λίγους ανθρώπους.Εξάλλου, ακόµα και για ευρέως χρη-
σιµοποιούµενες γλώσσες όπως τα αγ-γλικά, η σχετική γλωσσική τεχνολογίαέχει ακόµα αδυναµίες, που είναι π.χ.φανερές στις άκρως ανεπαρκείς και γε-µάτες λάθη αυτόµατες µεταφράσεις. Ηέκθεση προτείνει ότι πρέπει να αναληφθείµια συντονισµένη µεγάλης κλίµακαςπροσπάθεια στην Ευρώπη, προκειµένουσταδιακά να δηµιουργηθούν ή να βελ-τιωθούν οι αναγκαίες τεχνολογίες καινα βοηθηθούν οι γλώσσες που είναι ψη-φιακά παραγκωνισµένες.
Τη γλώσσα µού... έχασαν
Οι περισσότερες ευρωπαϊκές γλώσσες κινδυνεύουν µε ψηφιακή εξαφάνιση
Πρέπει να εξασφαλιστεί ο εφοδιασµός των µικρότερων και λιγότερο πλούσιων-σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες
?049-ΚΟΣΜΟΣ 29/09/2012 1:41 ?Μ Page 49
Update of the Study (2013/2014)
q Study comprised 31 volumes/languages. q Many languages missing! Need for
extension – at least of the comparison. q We invited three language community
bodies to participate in the update: European Federation of National Institutions for Language (EFNIL) Network to Promote Linguistic Diversity (NPLD) Experts Committee of the European Language Charter (Council of Europe)
http://www.meta-net.eu 14
Submitted to LREC 2014
MT
English
good
French, Spanish
moderate fragmentary
Catalan, Dutch, German, Hungarian, Italian, Polish,
Romanian
weak or no support
Albanian, Asturian, Basque, Bosnian, Breton, Bulgarian, Croatian, Czech, Danish, Estonian, Finnish, Frisian, Friulian,
Galician, Greek, Hebrew, Icelandic, Irish, Latvian, Limburgish, Lithuanian, Luxembourgish, Macedonian, Maltese, Norwegian, Occitan, Portuguese, Romany, Scots, Serbian, Slovak, Slovene,
Swedish, Turkish, Vlax Romani, Welsh, Yiddish
excellent
Czech, Dutch, Finnish, French, German, Italian,
Portuguese, Spanish
moderate fragmentary
Basque, Bulgarian, Catalan, Danish, Estonian,
Galician, Greek, Hungarian, Irish,
Norwegian, Polish, Serbian, Slovak, Slovene,
Swedish, Turkish
weak or no support
Albanian, Asturian, Bosnian, Breton, Croatian, Frisian, Friulian, Hebrew, Icelandic, Latvian, Limburgish, Lithuanian, Luxembourgish, Macedonian, Maltese, Occitan, Romanian,
Romany, Scots, Vlax Romani, Welsh, Yiddish
excellent
English
good
Spee
ch
English
good
Dutch, French, German, Hebrew,
Italian, Spanish
moderate fragmentary
Basque, Bulgarian, Catalan, Czech, Danish,
Finnish, Galician, Greek, Hungarian, Norwegian,
Polish, Portuguese, Romanian, Slovak, Slovene, Swedish
weak or no support
Albanian, Asturian, Bosnian, Breton, Croatian, Estonian, Frisian, Friulian, Icelandic, Irish, Latvian, Limburgish,
Lithuanian, Luxembourgish, Macedonian, Maltese, Occitan, Romany, Scots, Serbian, Turkish, Vlax Romani, Welsh, Yiddish
excellent
English
good
Czech, Dutch, French, German,
Hungarian, Italian, Polish,
Spanish, Swedish
moderate fragmentary
Basque, Bulgarian, Catalan, Croatian, Danish,
Estonian, Finnish, Galician, Greek, Hebrew,
Norwegian, Portuguese, Romanian, Serbian,
Slovak, Slovene
Albanian, Asturian, Bosnian, Breton, Frisian, Friulian, Icelandic, Irish, Latvian, Limburgish, Lithuanian,
Luxembourgish, Macedonian, Maltese, Occitan, Romany, Scots, Turkish, Vlax Romani, Welsh, Yiddish
weak/no support excellent
Res
ourc
es
Text
Ana
lyti
cs
Strategic Research Agenda The META-NET Strategic Research Agenda for Multilingual Europe
http://www.meta-net.eu 16
q Spell/grammar checker in MS Word
q Voice dialing on the cellphone
q Web search in Google
q Speech generation in game software
q Computer-assisted language learning
q Optical character recognition
q Semantic text classification in Autonomy
q Speech control in cars
q Voice dialogues in call centers
http://www.meta-net.eu 17
LT Already Surrounds Us
Witnessing a Breakthrough
http://www.meta-net.eu 18
q Microsoft presents their latest speech translation technology
q IBM Watson wins Jeopardy q Google renames its Division “Search” to
“Knowledge” q Siri improves the iPhone, Google responds by
introducing Google Now (Android) q Google Translate covers 60+ languages q All large IT corporations, EC, EP and EPO
deploy new generation translation technology q UK Text Analytics Company Autonomy bought
for 8bEUR by HP
Three Ingredients
19
Appropriate Programme
Vision & Agenda
Appropriate Actors
Research & Commercialisation
Appropriate Support
Funding
http://www.meta-net.eu
Strategic Research Agenda
http://www.meta-net.eu 20
q Addresses the problems we identified when preparing the white papers.
q Can put Europe ahead of its competitors in this technology area.
q 200 contributors; >2 years. q 54% from industry; 46% from
research; 4% from national and international institutions.
q Presented and discussed at 80+ conferences and major workshops.
q Published & presented in early 2013. q http://www.meta-net.eu/sra
SRA: Contents – Brief Glimpse
http://www.meta-net.eu 21
q Set the stage and describe the Euro-pean situation, the needs and the LT research and industry.
q Discuss the state of IT, predictions and mega-trends.
q Our technology vision for 2020.
q Select and specify priority themes.
q Suggest a model for speeding up innovation.
q Outline proposals for the organisation of research and innovation.
Translation Brokering
Specialized MT/LT Services
Patents
Automatic Summarization Human
Post-Editing
PR Brochures Times and
Places Int. Company
Names
Informal Language
TrustedService Broker
Annual Reports
http://www.meta-net.eu 22
Ambient Translation
http://www.meta-net.eu 23
Crosslingual Virtual Meetings
q Individual realtime translation of speech, slides, and handwritten text (shared whiteboard)
q Automatic minutes q Searchable recordings q Use cases:
§ Corporate § E-democracy § NGOs § Expert discussions § Fan clubs § Consumer fora § Medical self-help groups, etc.
http://www.meta-net.eu 24
Priority Research Themes
q Our priority themes (a) support technology progress, (b) lead to solutions that European society needs and (c) solutions from which European industry will benefit as users or as providers.
§ Translingual Cloud
§ Social Intelligence and e-Participation
§ Socially-Aware Interactive Assistants
q Two additional themes:
§ European Service Platform for Language Technologies
§ Core Technologies for Language Analysis and Production
http://www.meta-net.eu 25
PT1: Translingual Cloud
http://www.meta-net.eu 26
q Europe has a big need for translations of publishable quality. q Machine Translation for many European and important other
languages. q Focus on High-Quality Translation q New research paradigms q Stronger emphasis on the properties of
individual languages q Central role for semantics q Methods for specific genres & domains
Priority Research Theme 1: Translingual Cloud
Anydevice
Target groups: European citizen, language professional, organisations, companies, European
institutions, software applications
Multiple target formats
Single accesspoint
Automatic translation and interpretation
Language checking Post-editing Workbenches for creative
translations Novel translation and authoring
workflows
Quality assurance Computer-supported human
translation Multilingual content production and
text authoring Trusted service centre (privacy,
confidentiality, security of source data)
Services and Technologies:
Crosslingual communication, translation and search
Real-time subtitling, voice-over generation and translating speech from live events
Mobile interactive interpretation
Multilingual content production (media, web, technical, legal documents)
Showcases: translingual spaces for ambient translation
Applications:
Written (twitter, blog, article, newspaper,text with/without metadata etc.) orspoken input (spontaneous spoken
language, video/audio, multiple speakers)
Modular combination of analysis, transfer
and generation models
From very fast but lower quality to slower but very
high quality (including instant quality upgrades)
Exploiting strong monolingual analysis
and generation methods and resources
Multiple target formats
Domain, task and genre specialisation
models
Extending translation with
semantic data and linked open data
PT2: Social Intelligence
q Better decisions by monitoring social media q Inclusion of citizens into collective decision processes q Opinion formation, consensus building, decision making q Evolution of new solutions q New forms of democracy: e-democracy,
massive participation, transparency q Dialogues and debates across language
boundaries and across parties, political alliances, social classes
q Better than binary voting q Documented transparent
decision processes
http://www.meta-net.eu 28
Priority Research Theme 2: Social Intelligence and e-Participation
From shallow to deep, from coarse-grained to
detailed processing techniques
Making language technologies interoperable
with knowledge representa-tion and the semantic web
“Semantification” of the web: tight integration with the Semantic Web and Linked Open Data
Mapping large, heterogeneous, unstructured volumes of online content to structured, actionable
representations
Unleashing social intelligence by detecting and monitoring opinions,
demands, needs and problems
Target groups: European citizen, European institutions, discussion
participants, companies
Make use of the wisdom of the
crowds
Improved efficiency and
quality of decision processes
Understanding influence diffusion across social media
especially social media, comments, blogs, forums
decision-relevant information
support
sentiment analysis and opinion mining including the temporal dimension)
cues
from arbitrary online content
visualising discussions and opinion statements
Services and Technologies:
collective deliberation and e-participation
-wide deliberation on pressing issues
and processes; modeling evolution of opinions
analysis technologies
Applications:
PT3: Interactive Assistants
q Conversational agents with socially-aware behaviour, combination of analysis methods for speech, non-verbal and semantic signals.
q Support people in interacting with their environments. q Human-computer, human-agent/robot,
computer-mediated human/human interaction. q Act in various environments, indoor and
outdoor, also virtual (web, games). q Understand agents’ intentions. q Need to be able to adapt to user’s
needs and environments. q Learn incrementally from all
interactions and information sources.
http://www.meta-net.eu 30
Priority Research Theme 3: Socially-Aware Interactive Assistants
Interacting naturally
with and in groups
Learning and
forgetting information
Adaptable to the user’s needs and preferences and the environment
Include human-computer, human-artificial agent and
computer-mediated human-human communication
Proactive, self-aware,
user-adaptable
Interacts naturally with humans, in any
language and modality
Can be personalised to individual communication
abilities including special needs
Can learn incrementally from all interactions and
other sources of information
recognition
and synthesis, providing expressive voices
understanding
incremental conversational speech
models of human communication
inter-dependencies
priority themes
Services and Technologies:
Applications:
dialogue systems
environment
modalities (visual, tactile, haptic) verbal/non-verbal behaviour, social context
ments, any
vocabulary
recovery,self-
assessment
Multilingualcapabilities
Providers of operational and research technologies and services
ResearchCentres
EuropeanInstitutions
Othercompanies (SMEs,
startups etc.)
NationalLanguageInstitutions
LanguageTechnologyProviders
LanguageService
ProvidersUniversities
EuropeanInstitutions
ResearchCentres
Public Administrations Enterprises LT User
Industries UniversitiesEuropeanCitizens
Beneficiaries/users of the platform
Interfaces (web, speech, mobile etc.)
Priority Research Theme 1:Translingual
Cloud
Priority Research Theme 2:Social Intelligence& e-Participation
Priority Research Theme 3:Socially Aware
Interactive Assistants
European Service Platform for Language Technologies(Cloud or Sky Computing Platform)
Multilingualtechnologies
Textanalytics
Textgeneration
Languagechecking
Sentimentanalysis
Named entityrecognition
Summari-sation
Knowledge accessand management
Information andrelation extraction
LanguageProcessing
LanguageUnderstanding
Knowledge
Emotion/Sentiment
Data protectionToolsData SetsResourcesComponentsMetadataStandardsInterfacesAPIsCataloguesQuality AssuranceData Import/ExportInput/OutputStoragePerformanceAvailabilityScalability
Featu
res
Core Resources & Technologies
Icelandic
French
CatalanItalian
Maltese
Greek
Bulgarian
Romanian
Serbian
Croatian
Slovene Hungarian
Slovak
Czech
German
Danish Lithuanian
Latvian
Estonian
Finnish
Swedish
Norwegian
Basque
SpanishPortuguese
Galician
English
Irish
PolishDutch
Polish
English
Irish
Icelandic
Italian
Maltese
Greek
Bulgarian
Romanian
SerbianCroatian
SloveneHungarian
Slovak
Czech
German
Dutch
DanishLithuanian
Latvian
Estonian
Finnish
Swedish
Norwegian
Basque
Spanish
Portuguese
Galician
French
Catalan
http://www.meta-net.eu 33
Languages to be supported
q “The languages to be reflected with corresponding technologies include not only the official languages of the EU but also recognised and unrecognised regional languages and the languages of associated countries or non-member states.”
q “Equally important are the minority and immigrant languages that are in active use by a significant population in Europe.”
q “We need to intensify research and establish techniques, methods and instruments for research and knowledge transfer so that all countries can benefit as much as possible for their own language from the research carried out in other countries for other languages.”
q “Bootstrapping the set of core technologies and resources for all lang-uages spoken in Europe is […] a challenge on the European scale […].” Quoted from META-NET Strategic Research Agenda for Multilingual Europe 2020. G. Rehm and H. Uszkoreit (eds.), Springer, 2013. Section 6.8, pages 66-67.
http://www.meta-net.eu 34
Recent Developments META-NET
http://www.meta-net.eu 35
Recent Developments
q META-FORUM 2013 (Berlin), Sep. 19/20, 2013
q Meeting with Commissioner Neelie Kroes (Brussels), Oct. 29, 2013
q Workshop in the European Parliament (Brussels), Dec. 03, 2013
q Update of the Cross-Language Comparison (LREC 2014 paper)
q MT@EC (EC-internal MT services) to cooperate with EP
q Connecting Europe Facility (CEF)
q Horizon 2020
q Ongoing public interest in the “digital language extinction” topic (radio interviews, requests for statements for articles, requests to participate in panel discussions etc.)
http://www.meta-net.eu 36
STOA Workshop in the EP
q Science and Technology Options Assessment (STOA), Dec. 03, 2013 q “State of the Art of Machine Translation – Current Challenges and
Future Opportunities” http://www.europarl.europa.eu/stoa/cms/home/events/workshops/translation
q Presentations by research, industry, EC, EP
q Circa 80-90 participants
http://www.meta-net.eu 37
Horizon 2020
q Work programme 2014/2015 – good news and bad news. q ICT 17 – 2014: “Cracking the language barrier” q Available budget for ICT 17: 15M€ (MT only!). q Challenge: “The digital single market is still fragmented by language
barriers that hamper a wide penetration of cross-border commerce, social communication and exchange of cultural content. […] The aim of this challenge is to launch interdisciplinary work leading to a new paradigm in overcoming the language barrier and progressively, to reach high quality for all language combinations and translation directions. […] Special focus is on the 21 EU languages (both as source and target languages) that have “fragmentary” or “weak/no” MT support according to the META-NET Language White Papers.”
http://www.meta-net.eu 38
Horizon 2020
q ICT 17 – “Cracking the language barrier” – distribution of the 15M€: § One large Research and Innovation Action (4M€) § Circa five Innovation Actions (2M€ each) § One Coordination Action (1M€) § “Regional and minority languages are not excluded but they are
not prioritized either.” (representative of the EC on ICT 17) q Additional funding for language-related projects is available in
several other challenges: § ICT 22: Multimodal and natural computer interaction (31M€) § ICT 15: Big and Open Data Innovation and Take-up (50M€) § ICT 16: Big Data – research (39M€)
http://www.meta-net.eu 39
Connecting Europe Facility
q Digital Component of CEF (2014–2020): ca. 1B€. q Automated Translation as one of the five main, horizontal building
blocks (on the same level as, e.g., “Electronic identification and authentication” and “Electronic delivery of documents”).
q AT: machine translation engines and specialised language resources including the necessary tools and APIs needed to operate the pan-European digital services in a multilingual environment.
q AT is considered to be an important and obligatory component of Europe’s future digital infrastructure!
q CEF is about deployment of existing technologies only –research is not eligible for funding.
q But: The language pairs for the AT Building Block CEF will be demand driven. Demonstrate demand!
http://www.meta-net.eu 40
Conclusions and Recommendations
META-NET
http://www.meta-net.eu 41
Conclusions
q Europe is extremely interested in and passionate about its languages. q Our Strategic Research Agenda for LT research and innovation can put
Europe ahead of its competitors in this technology area. q Provides useful and attractive solutions to European society, at the same
time creating huge business opportunities for European industry. q Now is the time to move forward with a continent-wide, systematic push
and to invest in strategic research. A modest investment is required. q We are very confident that we can help build applications that break
down language barriers in Europe and beyond. q This push will generate a countless number of opportunities.
q Horizon 2020 and, partially, CEF can provide some resources to make our visions for Europe’s citizens and economy a reality.
http://www.meta-net.eu 42
Conclusions
q Situation of regional and minority languages is difficult!
q Political: the EU/EC level very much concentrates on the languages in danger of digital extinction. Nevertheless, not all of these are official Member State languages!
Regional and minority languages are not excluded per se.
q Technological: for most regional and minority languages only very few technologies exist. There are no “one size fits all”-technologies in our toolboxes that can be immediately applied to new languages!
http://www.meta-net.eu 43
Recommendations
1. Build toy systems and prototypes for your languages with off-the-shelf tools and the help of local (computational) linguists. Promote and share them through repositories.
2. Intensify (computational) linguistics research for regional and minority languages. Build and share language resources.
3. Make use of the European Commission’s Structural Funds.
4. Intensify research and technology transfer between well equipped and regional and minority languages. (CCURL 2014 Workshop.)
5. Intensify collaboration among the language community bodies (NPLD, EFNIL, Council of Europe ComEx on Language Charter, Maaya World Network for Ling. Diversity). Be prepared to speak with one voice!
6. Talk to innovators and app developers to somehow bring your language to the youth through modern technologies (gamification?).
http://www.meta-net.eu 44
http://www.meta-net.eu http://www.facebook.com/META.Alliance
Diolch yn fawr iawn i chi!
Acknowledgements: This work would not have been possible without the dedication and commitment of our colleagues Aljoscha Burchardt, Kathrin Eichler, Tina Klüwer, Arle Lommel, Felix Sasaki and Hans Uszkoreit (all DFKI), the 60 member organisations of the META-NET network of excellence, the ca. 70 members of the Vision Groups, the ca. 30 members of the META Technology Council, the more than 200 authors of and contributors to the META-NET Language White Paper Series and the ca. 200 representatives from industry and research who contributed to the META-NET Strategic Research Agenda.
Vision GroupTranslation and Localisation
Vision GroupInteractive Systems
Vision GroupMedia and Information Services
StrategicResearchAgenda
META-NET Website
Language White Paper Series
ConneDeliverin
2014-2020TransportEnergyConnect
http://www.meta-net.eu
2010
2011
2012
2013
Horizon 2020
Co-funded by the 7th Framework Programme and the ICT Policy Support Programme of the European Commission through the contracts T4ME, CESAR, METANET4U, META-NORD (grant agreements no. 249119, 271022, 270893, 270899).
META-SHARE: An Open Resource Exchange Infrastructure
Georg Rehm
Network Manager META-NET DFKI, Berlin, Germany
Using the Potential of Technology to Promote CRSS Language Usage
Cardiff, Wales, UK – January 24, 2014
META-SHARE at a Glance
http://www.meta-net.eu 48
q Open exchange infrastructure for language resources and tools.
q Language resources and tools are documented, uploaded, stored in repositories, catalogued, can be downloaded, shared, discussed.
q Improve their visibility, documentation, identification, availability, preservation, interoperability.
q Long-term goal: boost research, technology and innovation through wide availability, pooling, openness and sharing of resources.
q Repositories store and maintain inventories of resources and tools.
q Metadata inventories are exported and harvested in the network.
q Currently 27 repositories up and running; 2.300+ LRs available.
http://www.meta-net.eu 49
What about Welsh?
http://www.meta-net.eu 57
What about Irish?
http://www.meta-net.eu 58
Gartner Hype Cycle 2012
13 of the 48 emerging technologies are
language technologies!