2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una...

12
TARDOR 2002 · REVISTA DE LINSTITUT ALACANTÍ DE CULTURA "JUAN GIL-ALBERT"· NUM. 47 · 21 VIURE EN VALENCIÀ À ALACANT JORDI COLOMINA I CASTANYER BRAULI MONTOYA ABAD ANTONI MAS I MIRALLES GRÀCIA JIMÉNEZ TIRADO JORDI VAYÀ I OLCINA ANNA R. SERRANO I CATALINA JOAQUIM E. VICTORIANO I LAVINYA JOAN CARLES MARTÍ I CASANOVA VICENT BROTONS RICO TUDI TORRÓ FERRERO ENRIC PELLÍN I CATALÀ CARLES SEGURA I LLOPES JOSEP FORCADELL SAPORT JOSEP MARTINES PERES JOAN IVARS I CERVERA VICENT BELTRAN I CALVO ANNA ESTEVE GUILLÉN JULI MARTÍNEZ-AMORÓS XIMO ESPINÓS FELIPE JOSEP M. BALDAQUÍ ESCANDELL VICENT BROTONS RICO JOAN BORJA I SANZ GABRIEL SANSANO I BELSO TOMÀS MESTRE I DAMIÀ JOSEP LLUÍS MARTOS SÁNCHEZ EZEQUIEL MOLTÓ I SEGUÍ MIKEL L. FORCADA ZUBIZARRETA JOSEP M. MARTÍNEZ POLO TRINI MORA ILLÁN

Transcript of 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una...

Page 1: 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert", Organisme Autònom

TARDOR 2002 · REVISTA DE L’INSTITUT ALACANTÍ DE CULTURA "JUAN GIL-ALBERT"· NUM. 47 · 21 €

VIURE EN VALENCIÀ À ALACANTJORDI COLOMINA I CASTANYERBRAULI MONTOYA ABADANTONI MAS I MIRALLESGRÀCIA JIMÉNEZ TIRADOJORDI VAYÀ I OLCINAANNA R. SERRANO I CATALINAJOAQUIM E. VICTORIANO I LAVINYA JOAN CARLES MARTÍ I CASANOVA VICENT BROTONS RICOTUDI TORRÓ FERREROENRIC PELLÍN I CATALÀCARLES SEGURA I LLOPESJOSEP FORCADELL SAPORTJOSEP MARTINES PERESJOAN IVARS I CERVERAVICENT BELTRAN I CALVOANNA ESTEVE GUILLÉNJULI MARTÍNEZ-AMORÓSXIMO ESPINÓS FELIPEJOSEP M. BALDAQUÍ ESCANDELLVICENT BROTONS RICOJOAN BORJA I SANZGABRIEL SANSANO I BELSOTOMÀS MESTRE I DAMIÀ JOSEP LLUÍS MARTOS SÁNCHEZEZEQUIEL MOLTÓ I SEGUÍMIKEL L. FORCADA ZUBIZARRETAJOSEP M. MARTÍNEZ POLOTRINI MORA ILLÁN

Page 2: 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert", Organisme Autònom

"CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert",

Organisme Autònom de la Diputació Provincial d'Alacant

Número 47Tardor 2002

21 €

Deposit Legal: A. 227-1984I.S.S.N. 0213-0467

Page 3: 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert", Organisme Autònom

CANELOBRE

DIRECTOR:JORGE A. SOLER DÍAZ

SECRETARIA:CARMEN MARIMON LLORCA

CONSELL ASSESSOR:CAYETANO MAS GALVAÑ

ROSA Ma CASTELLS GONZÁLEZ ROSA MONZÓ SEVA

JORDI COLOM1NA I CASTANYER JOSÉ PAYA BERNABÉ

JOSÉ MANUEL PONS AGUILAR ÁNGEL LUIS PRIETO DE PAULA

DISSENY:LLORENÇ ΡΙΖΑ

JOSÉ PIQUERAS

El present número de Canelobre, titulatVIURE EN VALENCIÀ A ALACANT

ha sigut coordinat per Jordi Colomina i Castanyer

Page 4: 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert", Organisme Autònom

CO

MU

NIC

AR

EN V

ALE

NC

IA

LES TECNOLOGIES DE LA LLENGUA AL SERVEI DEL VALENCIÀ:

LA TRADUCCIÓ AUTOMÀTICA

Mikel L Forcada Zubizarreta

Page 5: 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert", Organisme Autònom

CO

MU

NIC

AR

EN

VA

LEN

CIÀ

LES TECNOLOGIES DE LA LLENGUA AL SERVEI DEL VALENCIA:

LA TRADUCCIÓ AUTOMÀTICA

Mikel L. Forcada Zubizarreta

INTRODUCCIÓ

na de les reivindicacions socials més importants per a molts sectors de la societat alacantina, com a part de la societat valenciana, especialment durant els últims decennis, ha estat la de la dignificació i ús normal de les

varietats valencianes de la llengua catalana, anome­nades col·lectivament i tradicionalment valencià. El valencià era i és sentit per sectors importants de la societat alacantina com a llengua pròpia i percebut com a bé cultural i social en perill de desaparició i mereixedor d'una promoció i d'una defensa pràcti­cament inexistent en una societat que cada vegada tendia més a la homogeneïtzació cultural i lingüísti­ca. Poc després de l'arribada de la constitució de 1978, la legislació adoptada per la societat valen­ciana durant el decenni dels vuitanta (Estatut d'Autonomia, Llei d'Ús i Ensenyament de la Llengua) ha reflectit aquesta reivindicació i ha pro­mogut la llengua pròpia al nivell de cooficial i, con­següentment, ha dotat els ciutadans de nous drets lingüístics relacionats amb l'ús normal del valencià, particularment amb ['administració, tot establint demarcacions territorials que pretenen reflectir la seua situació històrica.

En el cas d'Alacant, la complexitat lingüística de la demarcació provincial es reflecteix en zones de pre­domini lingüístic castellà prou amples i d'un pes demogràfic molt important. La realitat del valencià alacantí a l'inici del nou del mil·lenni és encara la d'una llengua minoritzada i molt allunyada de l'es­tat de normalitat que proclama la lletra de les legis­lacions adoptades. Aquesta realitat es deu en part a una acció institucional clarament insuficient per a garantir el compliment de la legislació que promou l'ús del valencià i al fet que tota la societat no assu­meix com a conviccions pròpies les reivindicacions lingüístiques dels sectors que van inspirar la legisla­

ció adoptada durant els vuitanta; però no cal des­cartar l'efecte que tenen els grans problemes tècnics amb què s'enfronten les administracions si volen garantir els drets lingüístics dels ciutadans, especial­ment en tot allò referent a la documentació escrita.

Els fenòmens socials apuntats són coetanis d'un con­junt de transformacions tecnològiques que s'han produït com a conseqüència d'una disponibilitat cada vegada més gran de les tecnologies de la infor­mació i les comunicacions (TIC), i en particular, d'ordinadors digitals eficients i econòmics. Entre d'altres, un dels efectes és que la majoria dels docu­ments escrits es generen usant ordinadors i estan per tant, disponibles en suport informàtic, suport que permet nombroses operacions de transformació automàtica dels documents i, el que és més impor­tant, del seu contingut. L'aplicació de les TIC a pro­blemes de naturalesa lingüística és tan vella com les mateixes tecnologies: ja en 1947, una de les prime­res aplicacions que es va voler donar als ordinadors electrònics va ser la traducció de textos per ordina­dor o traducció automàtica. La traducció automàtica (TA) és una de les tecnologies de la llengua que pot ser de gran ajuda en la normalització de l'ús de llen­gües minoritzades com és el cas del valencià a Alacant. En particular, pot ser de gran ajuda a l'hora de garantir la disponibilitat de documents en les dues llengües oficials independentment de la llen­gua —normalment en castellà— en què han estat generat els originals. És clar que les tecnologies de la llengua, com qualsevol altra tecnologia, no són socialment neutres. Es desenvolupen en resposta als problemes que una societat determinada percep com a importants. Aquesta societat (els seus centres de poder) decideix quins són els problemes impor­tants, on s'apliquen les solucions existents, i, quan no n'hi ha, quines línies de recerca de solucions tec­nològiques noves són prioritàries. En el cas de la

1 Anomenem text informatitzat un fitxer o arxiu d’ordinador que conté un text codificat en algun format conegut.

280

Page 6: 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert", Organisme Autònom

LES TECNOLOGIES DE LA LLENGUA AL SERVEI DEL VALNCIÀ:

LA TRADUCCIÓ AUTOMÀTICAMikel L. Forcada Zubizarreta

societat alacantina, el poder de decisió el tenen, d'una banda, governs i assemblees elegits democrà­ticament, directament o indirectament, per períodes de temps llargs, i que generen legislació que esta­bleix polítiques i drets; d'altra banda, el poder judi­cial, menys subjecte al control democràtic però cru­cial perquè defineix la interpretació de la legislació, i finalment, l'acció de grups de pressió més o menys organitzats, associats a interessos empresarials, cor­poratius, sindicals, etc. sobre aquestes estructures. L'aplicació de les TIC a la normalització del valencià depèn, com la de qualsevol altra tecnologia, de totes aquestes forces.

Com ja s'ha dit més amunt, una de les més impor­tants entre les tecnologies de la llengua és la traduc­ció automàtica (TA). Com veurem més avall, i per diverses raons, la TA de propòsit general no és per­fecta ni és probable que ho siga en un futur massa proper. Per això, la TA és un camp de recerca obert que està afectat per la importància que la societat hi done, i que s'ha de materialitzar en forma de volun­tats polítiques i, més concretament, com a finança­ment. En la meua opinió, la recerca pública en TA entre el castellà i el valencià pot ser crucial per a la normalització. Un exemple molt interessant de les relacions tecnologia-societat en el camp de les tec­nologies de la llengua el constitueix el programa SALT. El programa, que rep el seu nom del Servei d'Assessorament Lingüístic i Traducció de la Conselleria de Cultura, Educació i Ciència, és un programa per a ordinadors personals amb sistema operatiu Windows. El programa SALT —que es des­criurà més avall— tradueix quasi automàticament del castellà al valencià i també corregeix parcial­ment textos escrits en valencià; a més té moltes eines d'ajuda que serveixen per a aprendre a escriure millor en valencià. La primera versió estable de SALT era coneguda des de 1997 i usada per molta gent perquè s'havia filtrat, no perquè la Generalitat Valenciana, que l'ha finançat, l'haguera publicat. Aparentment, un dels obstacles polítics per a la publicació van ser les vacil·lacions de l'administra- ció valenciana quant a la filiació lingüística i la natu­ralesa del valencià estàndard, malgrat l'esforç titànic fet pels creadors de SALT per a flexibi Iitzar el model de llengua dels textos traduïts automàticament.

En aquest article, després de definir què s'entén per traducció automàtica i de descriure'n els àmbits generals d'aplicació, es discuteixen els problemes de la traducció automàtica castellà-català, es resse­nyen les experiències existents de TA al català amb èmfasi en el projecte interNOSTRUM de Caja de Ahorros del Mediterráneo i la Universitat d'Alacant, i es tracta sobre possibles aplicacions de la TA a la normalització lingüística del valencià.

TRADUCCIÓ AUTOMÀTICA I SEMIAUTOMÀTICA

Què s'entén per traducció automàtica?

La traducció automàtica' (TA) es pot definir com el procés (o el producte) de traduir un text informatit- zat1 en una llengua origen a un text informatitzat en una llengua meta mitjançant l'ús d'un programa d'ordinador. Normalment es reserva la denominació traducció automàtica per a la completament auto­màtica; quan s'hi produeix intervenció humana es parla de traducció assistida per l'ordinador o de tra­ducció semi-automàtica.

ESTRATÈGIES DE TRADUCCIÓ AUTOMÀTICA I SEMIAUTOMÀTICA

Estratègies de traducció automàtica

Les estratègies de traducció automàtica es poden dividir en dos grans grups, les directes i les indirec­tes. L'estratègia directa s'anomena així perquè la tra­ducció d'una frase es produeix directament, sense que es genere una representació intermèdia de la frase; de vegades també se sol anomenar vagament traducció mot per mot. L'estratègia indirecta pro­dueix, a partir de la frase en la llengua d'origen (LO), algun tipus de representació intermèdia de cada frase que després s'usa per a traduir-la.

281

Page 7: 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert", Organisme Autònom

Molts dels sistemes indirectes són sistemes de trans­ferència. Un sistema de transferència és el que fa les traduccions en tres fases ben diferenciades anome­nades anàlisi, transferència i generació:

« La fase d'anàlisi produeix, a partir de la frase en la LO, una representació abstracta (RALO). En la RALO s'eliminen tots els detalls de la frase en LO que no són rellevants per a la traducció i se'n destaquen aquelles característiques i relacions que sí que ho són. Per exemple, convindria que les frases "Sam va donar un llibre a Leslie" i "Sam va donar a Leslie un llibre"2 tingueren la mateixa RALO.

• La fase de transferència converteix la RALO repre­sentació en una altra representació abstracta similar, però per a la llengua meta (RALM).

* La fase de generació produeix la frase en la llen­gua meta a partir de la RALM.

Els sistemes de transferència es distingeixen els uns dels altres per la naturalesa i la profunditat de ¡'anà­lisi (i, per tant, de les representacions): es pot parlar, per tant, de sistemes de transferència morfològica, de transferència sintàctica, o de transferència semàntica; el model de transferència elegit depèn fonamentalment de la magnitud de les divergències existents entre les llengües origen i meta. De fet, com més profunda és ¡'anàlisi, més independent de les llengües en joc és la representació abstracta obtinguda; de fet, quan ¡'anàlisi és tan profunda que no és necessària la fase de transferència abans de la generació, la representació abstracta és diu una interíingua. En el cas concret de la traducció auto­màtica del castellà al català, la similitud entre les dues llengües fa practicable una aproximació de transferència morfològica avançada, la qual s'obser­va en alguns dels productes actualment disponibles (els quals es ressenyen més avant).

Traducció semiautomàtica: memòries de traducció

Una aproximació a la traducció humana assistida per ordinador (és a dir, semiautomàtica) que està molt relacionada amb la traducció directa és la que s'usa en les anomenades memòries de traducció. La noció bàsica és la utilitat de tenir a mà, quan s'està traduint un text nou, una base de dades (una memò­ria) amb exemples de frases similars i de les traduc­cions corresponents, provinents de textos ja traduïts. Si una frase del text nou és una repetició idèntica,

només cal inserir-ne la traducció directament, però això succeeix molt poques vegades: l'èxit d'aquesta aproximació depèn en gran part de la capacitat del sistema per a proposar traduccions per a frases simi­lars (i per a això s'han de definir i usar criteris ade­quats de similitud).

La cooficialitat del castellà i el valencià establida per l'Estatut d'Autonomia valencià i per les lleis que en deriven ha estat interpretada per les autoritats de les nostres terres com el deure de garantir l'edició commpletament bilingüe d'algunes publicacions oficials, com ara el Diari Oficial de la Generalitat Valenciana. Una bona part d'aquest corpus de docu­ments bilingües està en suport informàtic; una vega­da fragmentat i alineats els fragments en una llengua amb les traduccions corresponents en l'altra, aquest corpus es podria carregar dins d'una enorme memò­ria de traducció que aprofitaria ¡'esforç realitzat en el passat per a facilitar moltíssim el tedios procés de producció d'edicions completament bilingües de publicacions periòdiques3 o d'altres documents de temàtica similar; deixant de banda aproximacions experimentals al problema4 desconec si ha estat abordat en els termes que suggerisc; és, de fet, un dels temes emergents d'investigació del Departament de Llenguatges i Sistemes Informàtics de la Universitat d'Alacant, en col·laboració amb l'Institut de Tecnologia Informàtica de la Universitat Politècnica de València.

OBSTACLES A LA TRADUCCIÓ AUTOMÀTICA: L'AMBIGÜITAT

Un dels obstacles més importants per a la traducció automàtica és ¡'ambigüitat inherent al llenguatge. Podem dir que un enunciat (una frase o un text) és ambigu quan és susceptible de dues o més interpre­tacions i, per tant, pot tenir més d'una traducció a un altre idioma (de vegades no és així i hi ha una única traducció que conserva ¡'ambigüitat de la frase ori­ginal; d'això, se'n sol dir free ride o "passi gratuït"). Les persones, quan ens comuniquem usant el llen­guatge —tant per escrit com parladament—, deixem que els nostres enunciats es contaminen amb una dosi controlada d'ambigüitat. Aquesta ambigüitat ens permet ser concisos i estalviar recursos; a canvi, confiem que el context i les creences que nosaltres i el nostres interlocutors compartim sobre el món en general i sobre la situació particular de comunicació serviran per a descartar les interpretacions no desit-

2 Exemple pres d’Arnold, D. (1993) "Sur la conception du transfert”, en Bouillon, R, Glas, A., eds., La traductique (Montreal: Presses Univ.Montréal), p. 64-76)....

3 Com ara el Butlletí Oficial de la Província d’Alacant, que es publica electrònicament i en paper en versió única, amb parts en castellà o valen­cià, segons siga la procedència del document.

4 Tomàs, J. i Casacuberta, F. (2000) "A statistical Spanish-Catalan translator: a preliminary version”, in Torres, M.l. and Sanfeliu, A., eds.,Pattern recognition and applications (Amsterdam: IOS Press), p. 279-287....

kP282

Page 8: 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert", Organisme Autònom

LES TECNOLOGIES DE LA LLENGUA AL SERVEI DEL VALNCIÀ:

LA TRADUCCIÓ AUTOMÀTICAMikel L. Fercndn Zubizarreta

jades dels nostres enunciats. En general, ens n'eixim raonablement bé.

L'ambigüitat pot tenir causes molt diverses. Si pen­sem en l'ambigüitat de les oracions, el principi de composicionalitat ens diu que la interpretació d'una oració depèn tant de la interpretació dels mots que la componen com de la manera com està construïda l'oració (la sintaxi); per això no podem assignar cap interpretació a oracions que contenen mots als quals no podem assignar cap interpretació ("la mare *ingurpleix llibres"), ni a oracions a les quals no podem assignar cap estructura sintàctica ("llegeix mare la llibres"). El principi de composicionalitat també explica perquè la interpretació de "el gat ha matat el ratolí" és diferent de la de "el ratolí ha matat el gat". Consegüentment, l'ambigüitat pot ser de naturalesa lèxica (deguda al fet algun dels mots puga tenir més d'una interpretació), estructural (deguda a l'existència de més d'una estructura sintàctica vàlida per a alguna oració), o mixta (deguda a totes dues causes).

Quan traduïm del castellà al valencià, les ambigüi­tats lèxiques són especialment importants; en parti­cular, tant el castellà com el valencià estan plens d'homògrafs (o homònims), formes que tenen més d'una anàlisi morfològica, com ara río (1a persona del singular del present d'indicatiu del verb reír i substantiu masculí singular río), i de mots polisè­mies, mots que, tot i tenir una única anàlisi morfolò­gica tenen més d'un sentit, com ara destino, que pot voler dir "sort futura", "finalitat", "punt d'arribada d'un trajecte", etc. La major part dels homògrafs tenen traduccions diferents per a cada possible anà­lisi —río pot ser ric (verb) o riu (substantiu)— i molts mots polisèmies tenen traduccions diferents segons el sentit (destino en català és destí si és "sort futura" i destinació si és "finalitat" o "punt d'arribada"). Les ambigüitats estructurals solen correspondre normal­ment a passis gratuïts durant la traducció, per causa de la gran similitud sintàctica existent.

L'èxit d'un sistema de traducció automàtica depèn molt radicalment de la capacitat per a resoldre els tipus d'ambigüitat esmentats, bé amb estratègies basades únicament en el text o bé interrogant la per­sona que usa el sistema.

LA TRADUCCIÓ AUTOMÀTICA EN EL MÓN REAL

En molts àmbits, la traducció automàtica està enca­ra molt lluny de poder competir en qualitat amb la realitzada per traductors professionals, ja que nor­malment els programes no tenen accés a la informa­ció sobre el món que les persones usem per a selec­cionar les interpretacions correctes dels enunciats

ambigus. Com a conseqüència de problemes com aquest i d'altra naturalesa, en moltes aplicacions, la traducció produïda per un bon programa s'ha de considerar com un esborrany que ha de ser revisat; si un procés de traducció automàtica més correcció manual és més eficient que la traducció completa­ment manual, pot ser convenient adoptar un sistema de traducció automàtica. En el cas del castellà i el català i amb la tecnologia actualment disponible ens trobem en el punt en què aquest és clarament el cas.

Però la traducció automàtica també pot ser molt útil en aquelles situacions en què l'ús d'un traductor professional siga impracticable o impossible econò­micament; en particular, quan el resultat no s'ha de publicar (traducció per a la disseminació) sinó que serveix perquè el lector "es faça una idea" del con­tingut d'un document escrit en una llengua que no coneix (traducció per a l'assimilació). En el cas del castellà i del català, les aplicacions d'assimilació són poc comunes i es circumscriuen a la traducció al castellà de documents en català per a persones que no el coneixen; les traduccions en sentit contra­ri no solen ser necessàries atés que la majoria dels catalanoparlants coneixen prou el castellà com per a comprendre un document.

TRADUCCIÓ AUTOMÀTICAASSISTIDA PER LES PERSONES

La traducció automàtica assistida per les persones (en anglès human-aided machine translation) és pro­bablement la situació més comuna d'ús de la tra­ducció automàtica. L'assistència humana es pot pro­duir en diversos punts del procés de traducció:

• Abans de la traducció, es pot preparar el text per a millorar el comportament del sistema de traduc­ció, eliminant, per exemple, els mots ambigus o marcant parts del text que no han de ser traduï­des, com ara una citació, o que han de ser trac-

W283

Page 9: 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert", Organisme Autònom

Quant als desavantatges, podem dir que:

• el poder d'expressió d'un llenguatge controlat éssempre més restringit;

• l'escriptura de textos en llenguatge controlat és molt més lenta;

• és necessària una inversió addicional de temps enl'aprenentatge del llenguatge controlat per part dels autors.

tades de manera especial per no ser frases com­pletes, com un títol. Aquest procés s'anomena normalment preedició.

• Durant la traducció; per exemple, el programa detraducció automàtica pot preguntar a la persona usuària quan té més d'una possible traducció per a un mot o per a una frase. Altres voltes, el pro­grama pot analitzar l'estructura profunda de la frase i donar les possibles interpretacions a l'au­tor, per tal que desfaça alguna possible ambigüi­tat. En els sistemes interactius, cal tenir en comp­te dos factors: el primer, que un sistema que pre­gunta massa no és còmode d'usar (no és ergono­mic) i el segon, que pot passar que l'usuari siga monolingue, circumstància que canvia molt la naturalesa de la interacció entre el programa i l'usuari.

• Després de la traducció, el text es refina (postedi­ta) perquè siga gramaticalment correcte o estiga escrit d'acord amb un registre determinat.

LLENGUATGES CONTROLATS

Quan la traducció automàtica s'usa per a la dissemi­nació de documents tècnics de temàtica homogènia, pot ser interessant fer que els documents originals estiguen escrits usant un lèxic estàndard sense ambi­güitats semàntiques i seguint unes regles sintàctiques i d'estil ben determinades, és a dir, en un llenguatge controlat dissenyat de manera que el resultat de la traducció automàtica puga ser usat directament per a publicar-lo amb el mínim possible de postedició; és a dir, l'ús d'un llenguatge controlat evita o redueix al mínim moltes de les causes que obliguen a preeditar els textos. Un llenguatge controlat és un subconjunt del llenguatge natural definit amb precisió, d'una banda restringit quant al lèxic, a la gramàtica i a l'es­til, i d'una altra, possiblement estés amb terminologia i construccions gramaticals específiques d'un domi­ni. Alguns dels avantatges dels llenguatges controlats es poden resumir com segueix:

• els textos són més senzills i intel·ligibles;• el manteniment dels documents es facilita;• se simplifica el tractament computacional dels

documents, i en particular, se'n simplifica la tra­ducció automàtica.

Els dos últims desavantatges es poden reduir si es dota els autors d'eines informàtiques, com ara d'un editor de textos intel·ligent —un assistent d'estil— que els ajude a escriure en llenguatge controlat. Els llenguatges controlats s'usen en l'actualitat per gene­rar documentació tècnica que ha de ser traduïda automàticament a moltes llengües, per exemple, documentació sobre maquinària d'excavació (Caterpillar), motors dièsel (Perkins) o camions (Scania), per posar tres exemples clàssics, encara que les aplicacions a àmbits com el bancari o l'ad- ministratiu no són del tot desconegudes. De fet, l'a- dopció d'un llenguatge administratiu controlat reduiria enormement, per exemple, els problemes associats a la interpretació dels textos, i permetria que aquests textos milloraren independentment del fet que s'hagueren de traduir automàticament o no.

TRADUCCIÓ AUTOMÀTICAENTRE EL CASTELLÀ I EL VALENCIÀ

Les aplicacions potencialment més interessants de la TA castellà-valencià s'emmarquen dins de ['anome­nada normalització lingüística, és a dir, l'esforç de les societats de parla catalana per promoure'n l'ús normal en tots els àmbits; un exemple actual el constitueixen els servidors d'Internet d'institucions públiques i d'empreses privades on la presència del català és encara minoritària. Quan la llengua origi­nal dels documents és el castellà, es podria usar un sistema de TA per a generar esborranys de traduc­cions (o, fins i tot, documents correctes si els docu­ments castellans estan escrits en un llenguatge con­trolat).

A més, com ja he comentat, en el cas concret del castellà i el català, la proximitat lingüística entre les dues llengües fa que siga abordable el disseny de sis­temes de traducció automàtica que generen textos d'un nivell de correcció tal que resulte més eficient revisar el resultat en brut produït pel programa que fer la traducció completa.

EXPERIÈNCIES DE TA CASTELLÀ-VALENCIÀ

En aquesta secció es descriuen breument cinc expe­riències de traducció automàtica: SALT, Ara, Es-Ca,

284

Page 10: 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert", Organisme Autònom

LES TECNOLOGIES DE LA LLENGUA AL SERVEI DEL VALNCIÀ:

LA TRADUCCIÓ AUTOMÀTICAMikel L. Forcada ZulúzarreU

el Traductor de El Periódico de Catalunya i una altra, interNOSTRUM, amb una miqueta més de detall.

SALT, de la Generalitat Valenciana

El programa SALT, esmentat en la introducció, desen­volupat pel Servei d'Assessorament Lingüístic i Traducció de la Conselleria de Cultura, Educació i Ciència, és un programa per al sistema operatiu Windows que ha desenvolupat un equip de progra­madors dirigit per Rafael Pinter sota la direcció lin­güística de Josep Lacreu, responsable d'aquest servei. La disponibilitat del programa fins fa poc ha estat més aviat reduïda i extraoficial; actualment es pot descarregar gratuïtament del servidor d'Internet de la Conselleria (http://www.cult.gva.es/dgoiepl/salt) i el distribueixen els serveis de normalització lingüística d'algunes universitats. SALT tradueix textos (en for­mats ASCII o RTF) castellans al valencià —l'estàn- dard dels textos meta es pot regular usant un menú molt senzill— o corregeix una bona part de les erra­des típiques dels textos valencians. El programa és interactiu, és a dir, moltes vegades pregunta a l'u- suari com ha de resoldre una ambigüitat, i dialoga sempre en valencià; a més, l'usuari pot seguir visual­ment el procés de traducció (mot a mot amb modifi­cacions locals) en dues passades. Els resultats són molt interessants. El programa està bàsicament con­cebut com una ajuda a les persones que volen començar a generar documents en valencià (entre altres eines, inclou una completíssima guia interac­tiva de gramàtica i estil).

Ara, d'Autotrad

El programa Ara, llançat l'any 2000 per l'empresa Autotrad de València (http://www.ara-aototrad.com) —el gerent de la qual és Rafael Pinter, responsable informàtic de SALT— és bàsicament una versió bas­tant millorada del SALT, amb una aparença molt similar però produeix textos en català central.

Es-Ca, de Sail-labs

El sistema de traducció automàtica Es-Ca va ser des­envolupat per l'empresa Incyta de Cornellà, en col·laboració amb la Universitat Autònoma de Barcelona; es tracta d'un sistema de transferència sintàctica estàndard, hereu del sistema METAL de l'empresa Siemens. El sistema no es distribueix com a programa, sinó que es troba en Internet (http://www.sail-labs.es): l'usuari inscrit envia el text i el servidor li'l retorna traduït; el cost (1999) és de 3 pessetes per paraula. El servidor dóna accés a una versió gratuïta de demostració que tradueix textos curts. Els resultats són molt acceptables en la major part dels casos.

El traductor d'El Periódico de Catalunya

Una experiència interessant de traducció castellà- català per a la disseminació és l'edició bilingüe del diari El Periódico de Catalunya; el text original —en castellà la major part de les vegades— es tradueix usant una tècnica similar a les memòries de traduc­ció descrites més amunt i després és revisat per un equip de posteditors abans de ser publicat. Una ver­sió simplificada del programa usat per El Periódico de Catalunya es pot provar en Internet (http://auto- matictrans.es).

interNOSTRUM

Un equip d'investigadors de la Universitat d'Alacant, finançat per la Caja de Ahorros del Mediterráneo i la mateixa Universitat, està desenvo­lupant actualment sota la direcció de l'autor d'a­questes línies un sistema de traducció automàtica castellà-català anomenat interNOSTRUM. Més con­cretament, l'objectiu del projecte (vigent des de novembre de 1998 fins a maig de 2001 ) és desenvo­lupar un sistema de traducció automàtica del caste­llà a les variants estàndards del català i el sistema invers corresponent.

La versió actual d'interNOSTRUM (accessible a tra­vés d'Internet, http://www.internostrum.com) no és un producte acabat, però ja pot ser usat per a gene­rar, gairebé instantàniament, esborranys de traduc­cions al català llestes per a ser corregides (postedita- des).

InterNOSTRUM tradueix textos sense format (ANSI), RTF i HTML del castellà al català i del català al cas­tellà. També permet la "navegació traduïda" per internet, la traducció del correu elctrònic, i el xat (chat) amb traducció.

El traductor s'executa actualment sobre el sistema operatiu Linux i és accessible, com ja s'ha dit, a través d'un servidor d'Internet; está constituït per 8 subpro- grames independents que s'executen simultàniament (en paral·lel) i elaboren la traducció per etapes. La velocitat actual del sistema és de l'ordre de desenes de milers de mots per segon sobre un PC estàndard.

285

Page 11: 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert", Organisme Autònom

interNOSTRUM és un sistema clàssic de traducció indirecta per transferència morfològica avançada, amb les fases següents:

1. ANÀLISI:• Desformatatge: separa el text a traduir de la infor­

mació corresponent al format del text (tipus de lletra, marges, taules, etc.).

• Anàlisi morfològica: produeix, per a cada mot,totes les anàlisis morfològiques possibles.

» Desambiguació d'homògrafs: selecciona una de les anàlisis morfològiques anteriors usant un mètode estadístic aproximat que aprofita infor­mació sobre els mots veïns.

2. TRANSFERÈNCIA:• Consulta del diccionari bilingüe: substitueix la forma canònica produïda per l'analitzador morfolò­gic per l'equivalent en la llengua d'arribada.• Tractament sintàctic: realitza operacions locals per a garantir la concordança de gènere i nombre o per a reordenar els mots on siga necessari.

3. GENERACIÓ:• Generació morfològica: flexiona la forma canòni­ca en la llengua d'arribada d'acord amb la informa­ció morfològica produïda per l'analitzador morfolò­gic i transformada pel mòdul sintàctic.• Postgeneració: s'encarrega de l'apostrofació i el guionatge on siguen necessaris.• Reformatatge: combina el text traduït amb la infor­mació de format destriada pel mòdul de desforma­tatge a fi de produir un text traduït amb una aparen­ça idèntica a la del text original.

Una bona part dels subprogrames estan basats en tècniques d'estats finits: ¡'entrada que van proces­sant determina l'estat (un entre un conjunt limitat d'estats) en què es troben i aquest estat determina al seu tom les eixides que s'han de produir. L'avantatge principal d'aquesta metodologia és e! fet que aquests mòduls bàsicament lligen el text d'esquerra a dreta i no tornen a visitar mai les parts ja proces­sades del text, característica que garanteix velocitats de processament de milers de mots per segon.

També es projecta construir les eines següents:

• Un assistent d'estil que permetrà l'autor d'un text en castellà evitar moltes ambigüitats difícils de resol­dre usant regles lèxiques, sintàctiques i d'estil (un llenguatge controlat).« Un assistent de preedició, que permetrà una des­ambiguació manual de mots i estructures problemà­tiques (simplement fent-hi clic per accedir als menús corresponents) quan el programa siga incapaç de fer les tries correctes.

• Un assistent de postedició, que permetrà fer clic sobre un mot sospitós de ser una traducció incorrec­ta i substituir-lo per altres alternatives tenint en compte el text original i farà possible en general qualsevol canvi del text meta.

PERSPECTIVES DE FUTUR

Reciclatge de traduccions

Com ja s'ha comentat més amunt, una conseqüèn­cia de ('imperatiu legal que obliga les administra­cions de l'àmbit lingüístic català a mantenir versions bilingües de documents oficials és ¡'existència de corpus bilingües extensíssims. Per exemple, imagi­nem el Diari Oficial de la Generalitat Valenciana (DOGV); tots els dies hàbils, el corpus bilingüe del DOGV s'incrementa amb un text que té uns vint o trenta mil mots en castellà i altres tants en valencià. En cada número del DOGV, els mots castellans apa­reixen combinats en oracions típiques del llenguat­ge d'aquest document que es poden posar en corres­pondencia o, com es diu normalment, es poden ali­near de forma automàtica i no massa complicada (però no trivial) amb les oracions catalanes corres­ponents. Una vegada alineades les oracions, es podrien identificar les correspondències entre frag­ments (mots o fragments de més d'un mot) mitjan­çant tècniques estadístiques, i construir, a partir d'a­questes, una memòria de traducció com les descri­tes més amunt. Si la memòria de traducció està basada en material provinent de diversos anys de DOGV, és molt possible que continga quasi tots els fragments necessaris per a la traducció de un nou número sense que caiga recórrer a tècniques més complexes de traducció automàtica basades en l'a- nàlisi morfològica, sintàctica, diccionaris, etc., que sempre es podrien usar per a traduir fragments nous o no identificats.

Per a afavorir e! manteniment automàtic de docu­mentació bilingüe com la descrita, seria molt desit­jable que, quan els traductors humans produïren una nova traducció, la complementaren (usant ferramentes informàtiques senzilles) amb un alinea- ment explícit de la traducció amb el text original. Aquest alineament explícit —el qual hauria de ser el fruit d'una decisió política ferma— permetria una construcció més senzilla de les bases de dades d'una gran memòria de traducció, i, en conseqüèn­cia, la producció de traduccions de manera molt més ràpida. A més, com que les memòries de tra­ducció estarien especialitzades en una classe con­creta de document (com ara el DOGV), la qualitat dels textos produïts podria fins i tot ser millor que la produïda mitjançant tècniques clàssiques de traduc­ció automàtica.

286

Page 12: 2002 DE ALACANTÍ JUAN 47rua.ua.es/dspace/bitstream/10045/105552/1/2002... · "CANELOBRE" És una publicació de l'Institut Alacantí de Cultura "Juan Gil-Albert", Organisme Autònom

LES TECNOLOGIES DE LA LLENGUA AL SERVEI DEL VALNCIÀ:

LA TRADUCCIÓ AUTOMÀTICAMikel L. Forcada Zubízarreta

Memòries de traducció i Internet

Si les administracions i les empreses de l'àmbit lin­güístic català es posaren d'acord sobre el format de les bases de dades i sobre les operacions de consulta i actualització corresponents, i se supera­ren totes les dificultats tècniques d'un projecte de tal envergadura es podria construir una gran memòria de traducció gratuïta i d'accés universal per Internet que podria servir per a traduir i man­tenir documents de tota mena. Aquesta gran memòria de traducció castellà-català actuaria de fet com un dipòsit organitzat del coneixement dels traductors de documents durant l'últim decenni i simplificaria enormement el manteniment dels documents bilingües d'administracions i empre­ses. L'envergadura del projecte requeriria una voluntat política i una coordinació entre les admi­nistracions inèdita fins ara.

Més enllà del text

Totes les tècniques descrites en aquest article supo­sen l'existència d'un text informatitzat en la llengua origen, a partir del qual es produiria un text infor­matitzat en la llengua meta. Però la majoria dels àmbits d'ús del català no comporten (ni previsible­ment comportaran en un futur) l'ús de textos infor- matizats. Perquè els efectes (positius o negatius) de la traducció automàtica s'estenguen a tots els àmbits de la comunicació—orals, visuals—, cal el concurs de més tecnologies. Algunes d'aquestes són:

• El reconeixement automàtic de la parla (RAP) entés com la producció de textos informatitzats —en temps real, és a dir, tan instantàniament com siga possible— a partir de la veu humana. Si la TA està lluny de la perfecció, el RAP de propòsit general n'està més lluny encara. En canvi, el RAP de propò­sit específic està molt més avançat. La major part de la inversió de la comunitat internacional en RAP és en l'anglés. La inversió sobre el català és molt minsa.• El reconeixement automàtic de text escrit, entés com la producció de textos informatitzats a partir de textos (manuscrits o mecanoscrits) impresos. En el cas de mecanoscrits la tasca és molt més senzilla; en el cas de manuscrits, la complexitat és similar a la del reconeixement de la parla.• La síntesi automàtica de veu, és a dir, la producció de veu a partir de textos.

En els dos primers casos, els resultats són especial­ment dependents de les particularitats lingüístiques de la llengua involucrada i l'èxit depèn de l'existèn­cia d'un bon model de llengua que permeta obtenir el text més probable a partir de la veu o dels caràc­ters impresos. Per exemple, si sentim en veu alta "me hu han di moltis boltis" és molt probable que enten­guem clarament "m'ho han dit moltes voltes", ja que inconscientment busquem la interpretació correcta més propera al que hem sentit (en el context concret en què es diu la frase). O, si un programa de lectura automàtica de textos produeix el text "4ixò 6s uua merda", no cal dir què hi llegim sense massa pro­blemes, malgrat els errors en tots els mots. En amb­dós casos, hem de programar en l'ordinador un model de llengua aproximat que simule la compren­sió humana. En el cas de la síntesi automàtica de veu, la naturalitat de la veu produïda també depèn d'un model prosodie que s'ha de basar en una com­prensió parcial del text informatizat, però aquesta naturalitat no és tan crucial per a la comprensió pre­cisament perquè les persones podem recórrer al nos­tre "model de la llengua" per a suplir la informació absent en la veu artificial.

CONCLUSIÓ

Entre les tecnologies de la llengua, la traducció auto­màtica i la semiautomàtica destaquen per ser quasi immediatament aplicables a la traducció automàtica massiva de documentació escrita del castellà al valencià i al revés: hi ha fins i tot una bona base de programari disponible; de fet, un dels programes s'està desenvolupant a la Universitat d'Alacant. Els resultats produïts no són correctes però el nombre d'errades és baix, adequat per a una correcció ràpi­da per part de persones expertes. L'ús de la traduc­ció per ordinador en l'administració permetria una normalització més efectiva del valencià en l'àmbit de la documentació escrita: només cal que les auto­ritats tinguen la voluntat política necessària per a impulsar l'adopció d'aquestes tecnologies i l'inser- ció en els processos quotidians de documentació, tant de les administracions públiques com fins i tot de les empreses privades de l'àmbit lingüístic del català. L'extensió d'aquest esforç als àmbits de la comunicació oral i manuscrita queda encara lluny en vista de l'escassa inversió en les tecnologies de reconeixement i producció de veu i de reconeixe­ment del text escrit.