Introducci on a la tarea compartida Tweet-Norm 2013: … · 2018-11-07 · Introducci on a la tarea...

9
Introducci´ on a la tarea compartida Tweet-Norm 2013: Normalizaci´ on l´ exica de tuits en espa˜ nol * Tweet Normalization Workshop at SEPLN 2013: An overview naki Alegria 1 , Nora Aranberri 1 , V´ ıctor Fresno 2 , Pablo Gamallo 3 Lluis Padr´ o 4 , I˜ naki San Vicente 5 , Jordi Turmo 4 , Arkaitz Zubiaga 6 (1) IXA. UPV/EHU (2) UNED (3) USC (4) UPC (5) Elhuyar (6) City University of New York [email protected] Resumen: En este art´ ıculo se presenta una introducci´ on a la tarea Tweet-Norm 2013 : descripci´ on, corpora, anotaci´ on, preproceso, sistemas presentados y resultados obtenidos. Palabras clave: Normalizaci´ on l´ exica, Twitter Abstract: An overview of the shared task is presented: description, corpora, anno- tation, preprocess, participant systems and results. Keywords: Tweet-normalization 1. Introducci´on En la actualidad, la normalizaci´ on ling¨ ıstica de tuits (Han y Baldwin, 2011) supone una tarea de gran inter´ es en diversos campos como, por ejemplo, la traducci´ on autom´ atica y el an´ alisis de sentimiento, den- tro del procesamiento del lenguaje natural. La normalizaci´ on de SMS y tuits en ingl´ es ha generado gran inter´ es recientemente; sin embargo, la normalizaci´ on de este tipo de textos en espa˜ nol se ha estudiado poco. Partiendo de esta carencia como base, va- rios grupos de investigaci´ on participantes en diversos proyectos hemos visto la necesidad de fomentar la investigaci´ on en este ´ area, con el fin de facilitar y mejorar los resultados ob- tenidos con tareas subsiguientes. As´ ı, organi- zamos un taller para llevar a cabo una tarea compartida de Normalizaci´ on l´ exica de tuits en espa˜ nol, el cual es parte del programa de la conferencia SEPLN 2013 en Madrid. A su vez, este taller puede ser visto como comple- mento del Taller de An´alisis de Sentimientos en la SEPLN (TASS) 1 organizado en 2012 y 2013. Esta tarea ha conllevado un reto cient´ ıfi- co importante, y creemos que la competici´ on entre los grupos de investigaci´ on ha creado * Gracias a todos los miembros del Comit´ e de Or- ganizaci´ on y a los proyectos Tacardi, Xlike, Celtic, TextMESS2 y Skater por su colaboraci´ on. 1 http://www.daedalus.es/TASS2013/about.php un marco ideal para proporcionar un banco de pruebas de referencia, con el que se ha impulsado la aplicaci´ on de t´ ecnicas y algorit- mos propuestos recientemente, y estudiar su mejora o adaptaci´ on. As´ ı, los grupos partici- pantes han podido evaluar y comparar m´ eto- dos, algoritmos y recursos ling¨ ısticos de los que disponen. En este art´ ıculo vamos a hacer un repaso de las caracter´ ısticas de la tarea, los corpus usados, el etiquetado del mismo y la forma de evaluaci´ on, as´ ı como un resu- men de los sistemas que se han presentado a la evaluaci´ on. Detalles adicionales pueden ser consultados en la web oficial 2 y en el resto de art´ ıculos del workshop. 2. Trabajos relacionados Una buena introducci´ on al tema de nor- malizaci´ on de tuits es el art´ ıculo (Eisenstein, 2013), donde se revisa el estado del arte en NLP sobre variantes SMS y tuit, y c´ omo la comunidad cientifica ha respondido por dos caminos: normalizaci´ on y adaptaci´ on de he- rramientas. Como se ha dicho, el art´ ıculo (Han y Bald- win, 2011) es una referencia importante en el campo de la normalizaci´ on. Para el ingl´ es ellos estudian un corpus de 449 tuits en el que identifican 254 tokens a ser normaliza- dos. Para detectar las palabras fuera de dic- cionario (OOV) usan GNU aspell y, como 2 http://komunitatea.elhuyar.org/tweet-norm/

Transcript of Introducci on a la tarea compartida Tweet-Norm 2013: … · 2018-11-07 · Introducci on a la tarea...

Page 1: Introducci on a la tarea compartida Tweet-Norm 2013: … · 2018-11-07 · Introducci on a la tarea compartida Tweet-Norm 2013: Normalizaci on l exica de tuits en espanol~ Tweet Normalization

Introduccion a la tarea compartida Tweet-Norm 2013:Normalizacion lexica de tuits en espanol∗

Tweet Normalization Workshop at SEPLN 2013: An overview

Inaki Alegria1, Nora Aranberri1, Vıctor Fresno2, Pablo Gamallo3

Lluis Padro4, Inaki San Vicente5, Jordi Turmo4, Arkaitz Zubiaga6

(1) IXA. UPV/EHU (2) UNED (3) USC (4) UPC (5) Elhuyar (6) City University of New York

[email protected]

Resumen: En este artıculo se presenta una introduccion a la tarea Tweet-Norm2013 : descripcion, corpora, anotacion, preproceso, sistemas presentados y resultadosobtenidos.Palabras clave: Normalizacion lexica, Twitter

Abstract: An overview of the shared task is presented: description, corpora, anno-tation, preprocess, participant systems and results.Keywords: Tweet-normalization

1. Introduccion

En la actualidad, la normalizacionlinguıstica de tuits (Han y Baldwin, 2011)supone una tarea de gran interes en diversoscampos como, por ejemplo, la traduccionautomatica y el analisis de sentimiento, den-tro del procesamiento del lenguaje natural.La normalizacion de SMS y tuits en inglesha generado gran interes recientemente; sinembargo, la normalizacion de este tipo detextos en espanol se ha estudiado poco.

Partiendo de esta carencia como base, va-rios grupos de investigacion participantes endiversos proyectos hemos visto la necesidadde fomentar la investigacion en este area, conel fin de facilitar y mejorar los resultados ob-tenidos con tareas subsiguientes. Ası, organi-zamos un taller para llevar a cabo una tareacompartida de Normalizacion lexica de tuitsen espanol, el cual es parte del programa dela conferencia SEPLN 2013 en Madrid. A suvez, este taller puede ser visto como comple-mento del Taller de Analisis de Sentimientosen la SEPLN (TASS)1 organizado en 2012 y2013.

Esta tarea ha conllevado un reto cientıfi-co importante, y creemos que la competicionentre los grupos de investigacion ha creado

∗ Gracias a todos los miembros del Comite de Or-ganizacion y a los proyectos Tacardi, Xlike, Celtic,TextMESS2 y Skater por su colaboracion.

1http://www.daedalus.es/TASS2013/about.php

un marco ideal para proporcionar un bancode pruebas de referencia, con el que se haimpulsado la aplicacion de tecnicas y algorit-mos propuestos recientemente, y estudiar sumejora o adaptacion. Ası, los grupos partici-pantes han podido evaluar y comparar meto-dos, algoritmos y recursos linguısticos de losque disponen. En este artıculo vamos a hacerun repaso de las caracterısticas de la tarea,los corpus usados, el etiquetado del mismoy la forma de evaluacion, ası como un resu-men de los sistemas que se han presentado ala evaluacion. Detalles adicionales pueden serconsultados en la web oficial2 y en el resto deartıculos del workshop.

2. Trabajos relacionados

Una buena introduccion al tema de nor-malizacion de tuits es el artıculo (Eisenstein,2013), donde se revisa el estado del arte enNLP sobre variantes SMS y tuit, y como lacomunidad cientifica ha respondido por doscaminos: normalizacion y adaptacion de he-rramientas.

Como se ha dicho, el artıculo (Han y Bald-win, 2011) es una referencia importante enel campo de la normalizacion. Para el inglesellos estudian un corpus de 449 tuits en elque identifican 254 tokens a ser normaliza-dos. Para detectar las palabras fuera de dic-cionario (OOV) usan GNU aspell y, como

2http://komunitatea.elhuyar.org/tweet-norm/

Page 2: Introducci on a la tarea compartida Tweet-Norm 2013: … · 2018-11-07 · Introducci on a la tarea compartida Tweet-Norm 2013: Normalizaci on l exica de tuits en espanol~ Tweet Normalization

en nuestro caso, las identificaciones de tuits(@usuarios), los hashtags o etiquetas (#eti-queta) y los URLs son excluidos. Estudianla distribucion de las formas a normalizar yproponen un sistema basado en 3 pasos: (1)generacion del conjunto de confusion, dondepara una palabra OOV generan los posiblescandidatos; (2) identificacion de las palabrasa normalizar usando un clasificador, distin-guiendolas de las que deben permanecer inal-teradas; (3) seleccion de candidatos. Evaluanlos resultados comparandolos con los modelosnoisy-channel y SMT obteniendo una preci-sion de alrededor del 75 %.

Sobre adaptacion de herramientas es in-teresante el trabajo (Liu et al., 2011) que re-plantea el tema de reconocimiento de enti-dades nombradas en corpus de tuits. Para elespanol se ha prestado atencion al analisis desentimiento (Villena Roman et al., 2013) enel marco del citado taller TASS pero apenasse ha publicado nada sobre normalizacion.Existen otros trabajos relacionados con nor-malizacion (Gomez-Hidalgo, Caurcel-Dıaz, ydel Rio, 2013) (Mosquera, Lloret, y Moreda,2012) (Oliva et al., 2011) principalmente so-bre mensajes SMS, pero que no abordan lanormalizacion de tuits en su conjunto.

3. Descripcion y caracterısticasde la tarea

Hemos elegido el termino normalizacionlexica porque la tarea se centra en norma-lizar palabras detectadas como no conocidas(abreviaturas, formas no normalizadas, pala-bras con letras repetidas...); intentando, enla medida de lo posible, aislar este problemade otros fenomenos como variantes sintacti-cas, de estilo etc. Por lo tanto, y en la mismalınea que (Han y Baldwin, 2011), solo serantratadas las palabras que en el preproceso seconsideran OOV. Ademas, estas palabras seevaluaran individualmente. Los sistemas de-ben decidir si proponen normalizarlas o man-tenerlas como estan, ya que pueden ser pala-bras que no se deben normalizar por ser pa-labras correctas (nuevas entidades nombra-das, por ejemplo), escritas en otro idioma,etc. Desde la organizacion del taller se deci-dio anotar un conjunto de 600 tuits para dis-tribuirlo anotado entre los participantes (pa-ra la adaptacion y ajuste de sus sistemas), yotros 600, que se han mantenido en secreto,para la evaluacion de los sistemas (ver seccion5).

3.1. Coleccion de documentos

Entre las multiples opciones que ofrecela API de Twitter3, se opto por descargartuits geolocalizados, los cuales vienen mar-cados con las coordenadas desde donde cadatuit ha sido enviado. La API de Twitter, asu vez, permite descargar tuits para la zo-na geografica especificada. Aprovechando es-ta caracterıstica, optamos por una zona am-plia dentro de la penınsula iberica, evitan-do incluir zonas con lenguas cooficiales, paraası aumentar la posibilidad de que un grannumero de los tuits estuvieran escritos en es-panol. Ası, el area escogida abarca, aproxi-madamente, el rectangulo comprendido en-tre Guadalajara como extremo al noreste, yCadiz como extremo al sudoeste. Tras alma-cenar los tuits geolocalizados enviados des-de esa zona durante los dıas 1 y 2 de abrilde 2013, obtuvimos una coleccion de un totalde 227.855 tuits. A partir de esta gran colec-cion, generamos dos subconjuntos aleatoriosde 600 tuits, los cuales fueron distribuidos alos participantes, el primero como conjuntode entrenamiento, y el segundo como conjun-to de test para la evaluacion final. Los tuitsrestantes fueron distribuidos a los participan-tes, sin anotaciones manuales, por si conside-raban conveniente hacer uso de el.

3.2. Preproceso

Se decidio distinguir dentro de los tuits laspalabras fuera del diccionario (OOV) usandoel analizador morfologico de la librerıa Free-Ling (Padro y Stanilovsky, 2012). Se analizanlos tweets con los modulos basicos (dicciona-rio, sufijos, detector de numeros, fechas, etc.)y si la palabra no es reconocida por ningunode ellos, se considera OOV.

Para ello, se uso una version adaptada deltokenizador, de forma que mantuviera comoun solo token las palabras del tipo @usuarioy #etiqueta, ası como las direcciones de e-mail, URLs, y los smileys mas frecuentes.Igualmente, se activo una instancia del modu-lo usermap, que aplica una baterıa de expre-siones regulares a cada token, y asigna unanalisis a los que cumplen alguna de ellas. Deeste modo, se descartan como OOVs dichospatrones, ya que obtienen un analisis.

A continuacion, se aplico un analizadormorfologico basico, con los modulos por de-fecto, excepto el reconocedor de multipala-

3https://dev.twitter.com/docs/api

Page 3: Introducci on a la tarea compartida Tweet-Norm 2013: … · 2018-11-07 · Introducci on a la tarea compartida Tweet-Norm 2013: Normalizaci on l exica de tuits en espanol~ Tweet Normalization

bras (para evitar aglutinacion de varias pala-bras en un solo token), el reconocedor de enti-dades con nombre (dado que queremos man-tenerlas como OOV), y el modulo de proba-bilidades lexicas (dado que aplica un guesserque asignarıa al menos una etiqueta a todaslas palabras).

Al final de este preproceso, las palabrasque no han recibido ningun analisis de ningunmodulo del morfologico se consideran OOVs.

4. Proceso de anotacion

Durante la fase de anotacion, se procedio ala anotacion manual de las palabras identifi-cadas por FreeLing como palabras OOV. Ca-da OOV podıa ser etiquetada como correcta,variante o NoES (otro idioma) y en el segun-do caso habıa que asignarle su forma normali-zada. En el corpus de desarrollo tres expertosetiquetaron independientemente cada OOV yposteriormente se consensuaron las anotacio-nes definitivas. Durante este proceso se fuecompletando un manual. El corpus de testfue etiquetado independientemente por dosexpertos que consensuaros posteriormente laanotacion final.

Los criterios de anotacion por los cualesse rigio el grupo de anotadores se recogieronen el Manual de anotacion y se resumen dela siguiente manera:

Palabra incluida en diccionario RAE

En todo caso se anotara como correcta sinmodificacion alguna, aunque por su contextose dedujera que dicha palabra no es la ade-cuada.

Palabra con categorıa de nombrepropio no incluida en diccionario RAE

Si es un acronimo originalmente compues-to, todo con mayuscula o con alguna le-tra en minuscula, tanto la forma origina-ria como su forma totalmente en mayusculasseran etiquetadas como correctas sin ningunamodificacion (p.e., CoNLL, CONLL, IBM eI.B.M.).

Si no es un acronimo, esta formado porlas letras requeridas y su inicial esta enmayusculas e incorpora los acentos requeri-dos, sera etiquetada como correcta, ya seaun nombre propio en diminutivo, un apodou otra forma alternativa de la entidad (p.e.,Tony, Anita, Yoyas)

Si se expresa con alguna falta de ortografıao con alguna alteracion no aceptada en los

puntos anteriores, se anotara como varian-te y se especificara su forma correcta, segunse define con dichas reglas. (p.e., sanchez →Sanchez, tamagochi → Tamagotchi, abc →ABC, a.B.c. → A.B.C., CONL → CONLL)

Palabra no incluida en el diccionarioRAE sin ser nombre propio

Si es un neologismo o extranjerismo com-puesto correctamente segun reglas de bue-na formacion se etiquetara como correcta sinninguna modificacion. (p.e., mourinistas, re-tuitear, retweetear)

Si es un diminutivo o superlativo compues-to correctamente segun reglas de buena for-macion se etiquetara como correcta sin nin-guna modificacion. (p.e., supergrande)

Si se expresa con alguna falta ortografi-ca o alteracion (repeticion, eliminacion, per-mutacion de letras, etc), se etiquetara comovariante y se especificara su forma correcta.(p.e., horrooorr → horror, hacia → hacıa)

Si es una abreviatura o un acortamientose etiquetara como variante, especificando suforma correcta. (p.e., admin → administra-cion, sr → senor)

Si es una onomatopeya con alguna altera-cion (normalmente repeticion de letras), deuna o varias formas existente segun la RAE,entonces se etiquetara como variante de to-das esas formas. Si no existe en el diccio-nario RAE se anotara como correcta. (p.e.,aaaahhh → ah, jajajajas → ja)

Si es una concatenacion de palabras, en-tonces se etiquetara como variante y se espe-cificara la secuencia correcta de palabras.

Si es una palabra (o cadena de palabras)de otro idioma o un emoticon se etique-tara como NoEs.

El manual describe las lıneas generales decasos. Sin embargo, la casuıstica encontradafue amplia e hicieron falta varias puestas encomun para detallar las reglas y mantener lacontinuidad y rigurosidad de la anotacion. Ellımite no siempre claro entre palabras extran-jeras y prestamos ya aceptados en la lenguaespanola, tıtulos de pelıculas y series, y erro-res ortograficos intencionados fueron, entreotros, motivo de discrepancia antes de uni-ficar anotaciones.

Por ejemplo:

El hashtag #7a~nosSLQH ocupo el sabado 30,

la 3a posicion en el Top10 de los Trending

Topics de Malaga

que estafa de tablet

Page 4: Introducci on a la tarea compartida Tweet-Norm 2013: … · 2018-11-07 · Introducci on a la tarea compartida Tweet-Norm 2013: Normalizaci on l exica de tuits en espanol~ Tweet Normalization

Me dispongo a ver Game of Thrones.

Habril luisma con h...

Una dificultad adicional de la anotacion,la cual anadio cierto grado de subjetividad ala tarea, radico en la necesidad de interpretarlos acortamientos y/o abreviaturas utilizadospor los usuarios. Cuando el contexto no erasuficiente para descifrar la intencion del usua-rio, algo nada sorprendente dada la limitacionde caracteres impuesta en los tuits, los ano-tadores se vieron en la tesitura de interpretardicha intencion y ofrecer la correccion acordea esta. Como podemos ver en este ejemplo

cariiii k no te seguia en twitter!!!mu

fuerte!!!..yasoy tu fan....muak....se te exa

d menos en el bk....sobreto en los cierres

jajajajas

la OOV bk es de libre interpretacion, yaque podrıa tratarse del acortamiento de cual-quier lugar de ocio. En este caso se opto porBurger King, considerada la opcion mas ge-neral y reusable. En ciertos casos se opto porincluir mas de una posible correccion. La co-rreccion de onomatopeyas, cuya intencion nosiempre es clara, tambien ha sido discutida:

me da igual JUUUM!!

5. Corpus anotados y medidas deevaluacion

5.1. Corpus de desarrollo y test

A partir del corpus inicial descrito en laseccion 3.1 se han generado dos subconjuntos:uno compuesto por 500 tuits que constituyeel corpus de desarrollo y otro compuesto por600 tuits que constituye el corpus de evalua-cion. En el corpus de desarrollo fueron anota-das manualmente 653 palabras OOV, mien-tras que en el de evaluacion se anotaron 724.Cabe mencionar que, debido a las restriccio-nes de uso del API de Twitter4, esta prohibi-do redistribuir corpus que contiene informa-cion sobre usuarios. Por esta razon, amboscorpus fueron distribuidos a los participantesutilizando unicamente los identificadores detuits. Cada participante podıa bajar el con-tenido de dichos identificadores a traves debusquedas a la API de Twitter mediante elscript Twitid5.

4https://dev.twitter.com/terms/api-terms5http://komunitatea.elhuyar.org/tweet-

norm/iles/2013/06/download tweets.py

Una vez finalizado el plazo de participa-cion, comprobamos que los tuits que seguıanpublicamente disponibles en ese momento pa-ra generar el corpus de evaluacion era menoral conjunto original. Ası el corpus de evalua-cion que finalmente ha sido considerado cons-ta de 562 tuits, un numero que varıa ligera-mente con respecto al volumen inicial de 600tuits.

La distribucion de las tres categorıas (0-correcta, 1-variante y 2-NoES) en los corpusde desarrollo y de evaluacion se muestran enla tabla 1. Como se puede comprobar, la dis-tribucion de las tres categorıas sobre el to-tal de palabras OOV no varıa significativa-mente en los dos corpus, lo que ha permiti-do a los participantes desarrollar sus sistemascomprobando su eficacia sobre un conjuntode datos comparable al que se ha ofrecidoposteriormente para evaluar la tarea.

Corpus #OOV 0 1 2

Desarrollo 653 497 93 63Test 662 531 98 33

Tabla 1: Datos de los corpus. Se reducen los724 OOVs de test anotados a 662 debido alproblema de disponibilidad de los tuits.

5.2. Medidas de evaluacion

La tarea consistio unicamente en la correc-cion de errores, y no en la clasificacion de lasdistintas categorıas de palabras OOV (0, 1 y2). De esta manera se pretende evaluar ex-clusivamente la capacidad de correccion delos sistemas participantes, ya que una fase declasificacion previa introducirıa un factor deacumulacion de errores, haciendo mas difıcilevaluar el rendimiento de los sistemas. Portanto, la evaluacion solo tiene en cuenta sila forma propuesta es correcta, en base a lossiguientes criterios:

Correcta: si la forma original era correcta(categorıa 0) o NoES (categorıa 2) y no seha realizado ninguna normalizacion, o si laforma original era una variante (categorıa 1)y la normalizacion propuesta es correcta.

Erronea: En cualquier otro caso.Como medida de evaluacion para calcular

los resultados oficiales se ha utilizado la pre-cision sobre el total de palabras OOV en elcorpus de evaluacion. La formula de la pre-cision mide el numero de decisiones realiza-

Page 5: Introducci on a la tarea compartida Tweet-Norm 2013: … · 2018-11-07 · Introducci on a la tarea compartida Tweet-Norm 2013: Normalizaci on l exica de tuits en espanol~ Tweet Normalization

das correctamente sobre el total de palabrasOOV a tratar en el corpus de evaluacion.

6. Resultados y resumen de lossistemas

Sobre 20 grupos inscritos inicialmente 13participaron finalmente con sus respectivossistemas; y solo seis de ellos hicieron uso dela posibilidad de evaluar dos sistemas.

6.1. Resultados

La tabla 2 muestra los resultados deprecision de los trece grupos participantes.Ademas de estos resultados se muestran otrosdos resultados a tener en cuenta como refe-rencia de la tarea. Por un lado se ha calculadocual serıa el rendimiento mınimo de un siste-ma (baseline), dando como correctas todaslas palabras OOV. Este sistema obtendrıauna precision por debajo del 20 %. Por otrolado se ofrece el rendimiento maximo (upper-line) al que se podrıa aspirar con los siste-mas presentados. El upper-line incluye todasaquellas palabras OOV que han sido correc-tamente corregidas por al menos uno de lossistemas participantes.

El anexo 1 muestra la lista de las palabrasOOV (7,25 %, 39) que ningun sistema ha co-rregido. La lista incluye una casuıstica muyamplia: por ejemplo, filosofia/Filosofıa, querequiere correccion ortografica y mayusculas;yaa/alla, que esta muy lejos de su forma co-rrecta en cuanto a similitud de cadena, y yaes a priori un candidato mucho mas probablepara esa forma.

6.2. Resumen de las tecnicas yrecursos utilizados

Destacan las buenas prestaciones del sis-tema de la RAE, que supera claramente alresto de los sistemas y supera el 78 % de pre-cision. La mayorıa de los sistemas, sin embar-go, estan en un intervalo entre el 54 % y el67 %. Se podrıa explicar la diferencia del me-jor sistema por el tratamiento meticuloso decada uno de los fenomenos posibles, la com-binacion estadıstica de los componentes y lacalidad y cobertura de los recursos utilizados.

Los fenomenos a los que varios sistemashacen frente explıcitamente son los siguien-tes:

Errores ortograficos habituales (h → 0).

Cambios fonologicos habituales (k→ c).

Omision de tildes (a → a).

Rank Sistema Prec1 Prec2

- Upperline 0,927 -1 RAE 0,781 -2 Citius-Imaxin 0,663 0,6623 UPC 0,653 -4 Elhuyar 0,636 0,6345 IXA-EHU 0,619 0,6096 Vicomtech 0,606 -7 UniArizona 0,604 -8 UPF-Havas 0,548 0,4919 DLSIAlicante 0,545 0,52110 UniMelbourne 0,539 0,51711 UniSevilla 0,396 -12 UJaen-Sinai 0,376 -13 UniCoruna 0,335 -- Baseline 0,198 -

Tabla 2: Precision obtenida por los sistemaspresentados.

Omisiones de letras (principalmente vo-cales y letras finales, especialmente enparticipios). P.e. encantao → encantado.

Uso de abreviaturas o reduccion de laspalabras a los primeros caracteres. P.e.exam → examen.

Enfasis repitiendo letras (Felicidadeeees→ Felicidades).

Restauracion de mayuscula (felicidades→ Felicidades).

Union de palabras contiguas (yuxtaposi-cion de palabras). P. e. esque → es que.

Logogramas y pictogramas. (x → por 2→ dos).

Onomatopeyas (ahahahah → ah).

Respecto a los lexicos utilizados se usanprincipalmente diferentes diccionarios de es-panol (o correctores ortograficos o el propioFreeling6 usado en el preproceso) para bus-car propuestas normalizadas. Algunos siste-mas utilizan diccionarios de ingles para detec-tar OOVs que no deben modificarse, Wikipe-dia 7 para anadir o detectar entidades nom-bradas, pequenos diccionarios de variantes yslang (en ingles existen mas extensos) o listasde frecuencias a partir de corpus para detec-tar y normalizar cambios habituales propiosde Internet/Twitter.

6http://nlp.lsi.upc.edu/freeling/7es.wikipedia.org

Page 6: Introducci on a la tarea compartida Tweet-Norm 2013: … · 2018-11-07 · Introducci on a la tarea compartida Tweet-Norm 2013: Normalizaci on l exica de tuits en espanol~ Tweet Normalization

Tambien diversos corpus de espanol sonusados para construir modelos de lenguaje.Son usados tantos corpus de proposito gene-ral como corpus de tuits. Tambien un sistemaha utilizado la API de un buscador para fil-trar terminos multipalabra.

Respecto a herramientas podemos desta-car los ya nombrados correctores ortografi-cos (aspell8, hunspell9, Jazzy10), que se usantambien para obtener propuestas de nor-malizacion. Junto a ellos varios sistemasusan foma11 para escribir, compilar en trans-ductores. y aplicar reglas de transforma-cion de grafemas/fonemas. En algun caso sehan aprendido reglas de transformacion ba-sadas en modelos de lenguaje (compuestosgrafemas/fonemas) (p.e. usando Phonetisau-rus12). Para seleccionar entre las propuestas(ademas de frecuencias basadas en corpus)varios sistemas usan modelos de lenguaje debigramas o trigramas de palabras (usando p.ej. OpenGrm13 o SRILM14)

6.3. Breve descripcion de lossistemas

RAE (Porta y Sancho, 2013): Se basaen transductores de estados finitos con pesosque son combinados estadısticamente usan-do la composicion en tres pasos (variantes,posibles variantes, modelo de lenguaje) . Apartir de reglas generan transductores parapracticamente todos los fenomenos comenta-dos ademas de un modelo de lenguaje (LM)basado en trigramas de palabras. Los recur-sos lexicos mas resenables son el diccionarioDRAE, las 100.000 palabras inglesas mas fre-cuentes del BNC, y un corpus de paginas web(Wacky).

Citius-Imaxin (Gamallo, Garcia, y Pi-chel, 2013): A partir de diversos recursos lexi-cos, generan dos tipos de candidatos, pri-marios y secundarios; los cuales son orde-nados de diferentes maneras en el procesode seleccion del mejor candidato. Escribenreglas para tres tipos de errores: mayuscu-la/minuscula, caracteres repetidos y erroresortograficos comunes. Utilizan una lista denormalizacion (principalmente obtenida del

8http://aspell.net/9http://hunspell.sourceforge.net/

10http://jazzy.sourceforge.net/11https://code.google.com/p/foma/12http://code.google.com/p/phonetisaurus/13http://www.opengrm.org/14http://www.speech.sri.com/projects/srilm/

corpus de desarrollo), el DRAE y un diccio-nario de nombres propios obtenido de la Wi-kipedia. Tambien utilizan un LM basado enun corpus de RSS periodısticos.

UPC (Ageno et al., 2013): Usan unabaterıa de modulos (divididos en tres gru-pos; palabras sueltas, terminos multipalabray expresiones regulares) para generar diferen-tes propuestas de correccion para cada pa-labra desconocida. Usan foma para realizarbusquedas aproximadas de terminos simpleso multipalabra similares. La correccion defi-nitiva se elige por votacion ponderada segunla precision de cada modulo. Los recursosmencionados son: lista de acronimos, lista deemoticones multicaracter y lista de onomato-peyas, diccionarios de espanol (con variantes)y de ingles y listas de nombres propios.

Elhuyar (Saralegi y San-Vicente, 2013):Usan una estrategia compuesta por dos pa-sos: generacion de posibles candidatos de co-rreccion y seleccion del candidato utilizandoun modelo de lenguaje. Para la generacion decandidatos ademas de la habitual distanciade edicion tratan abreviaturas comunes, co-loquialismos, caracteres repetidos e interjec-ciones. Tambien restauracion de mayusculasy nombres propios. Usan SRILM para el LMde bigramas de palabras, entrenandolo con laWikipedia (tambien para la lista de nombrespropios) y un corpus de EFE.

IXA-EHU (Alegria, Etxeberria, y Laba-ka, 2013): Usa tambien foma para reglas quese aplican incrementalmente, para la mayorıade los fenomenos nombrados, pero a diferen-cia del sistema RAE no usa pesos, salvo pa-ra los cambios ortograficos que aprende au-tomaticamente del corpus de desarrollo. Pa-ra este aprendizaje usa un modelo de lengua-je basado en grafemas aprendido del corpusde desarrollo (utilizando Phonetisaurus). ElLM de palabras es de unigramas (frecuenciade las palabras) basado en corpus de tuitsbase vueltos a recuperar y filtrados con Free-ling (tambien se usa para obtener los nombrespropios mas frecuentes). Un buscador de In-ternet es usado para filtrar los terminos mul-tipalabra propuestos.

Vicomtech (Ruiz, Cuadros, y Etchegoy-hen, 2013): Usan reglas de preproceso, un mo-delo de distancias de edicion adecuado al do-minio y tres LM de 5-gramas de palabras,usando KenLM, para seleccionar candidatosde correccion segun el contexto. Ademas dela distancia de edicion adaptada con pesos

Page 7: Introducci on a la tarea compartida Tweet-Norm 2013: … · 2018-11-07 · Introducci on a la tarea compartida Tweet-Norm 2013: Normalizaci on l exica de tuits en espanol~ Tweet Normalization

usan aspell y hunspell como diccionario, lis-tas de nombres propios (JRC Names y SA-VAS), un corpus de tuits recolectado por ellosy un corpus extraıdo de Europarl. Hacen uninteresante estudio de los casos de variantes.

UniArizona (Hulden y Francom, 2013):Estudian dos sistemas alternativos de reglasescritas por un experto o induccion de lasmismas. Los resultados son algo mejores pa-ra el primer sistema. Para el primer metodoescriben reglas para ser compiladas en trans-ductores sin pesos usando foma. Las reglasafrontan varios de los fenomenos menciona-dos (restauracion de tildes, repeticiones decaracteres, errores ortograficos habituales yabreviaturas). Para el segundo metodo indu-cen pesos para los cambios. Las propuestasse ordenan usando un LM de unigramas (fre-cuencia de palabras). Para manipulacion depesos en los transductores usan Kleen.

UPF-Havas (Munoz-Garcıa, Suarez, yBel, 2013): Hacen uso de datos abiertos ex-traıdos de recursos publicados en la Webdesarrollados de manera colectiva, entre losque se encuentran la Wikipedia y un diccio-nario de SMS. No afronta especıficamente lamayorıa de los problemas enumerados, salvolas tildes y las mayusculas. Realiza busque-das en el diccionario de SMS y si no tieneexito usa la primera propuesta del correctorJazzy.

DLSIAlicante (Mosquera-Lopez y More-da, 2013): empleando la herramienta de nor-malizacion multilingue TENOR, siguiendouna estrategia similar a la usada en SMS eningles empleando tecnicas de reconocimientodel habla, pero adaptada al espanol. Usan as-pell ampliado con nombre de paıses como dic-cionario, y representan el lexico foneticamen-te usando el algoritmo del metafono adapta-do al espanol. Para distancia entre palabrasusan el algoritmo Gestalt y para ordenar laspropuests un LM (basado en el corpus CESS-ESP).

UniMelbourne (Han, Cook, y Baldwin,2013): Basandose en su experiencia para elingles, construyen un lexico de normaliza-cion a partir de un corpus (compuesto demillones de tuits en espanol) utilizando si-militud distribucional basada en distancia deedicion/fonologica, y este lexico se combinacon un diccionario slang de jerga de Interneten espanol (obtenido de dos sitios web).

UniSevilla (Cotelo-Moya, Cruz, y Tro-yano, 2013): Aparte de caracterizar la fuente

de error/variacion usan reglas de transforma-cion (implementacion propia) y distancia deedicion para proponer normalizacion y detec-cion de palabras en otros idiomas (basado entrigramas de caracteres). Usan el diccionariode espanol Libreoffice y dos pequenos diccio-narios de emoticones y variantes en tuits (ge-nerados por ellos).

UJaen-Sinai (Montejo-Raez et al.,2013): Para proponer formas normalizadashacen una serie de conversiones a partir delexicones de reemplazamiento (abreviaturasy onomatopeyas) y un corrector ortografico(aspell enriquecido con nombres de ciudades,interjecciones, neologismos de Internet yotras entidades nombradas).

UniCoruna (Vilares, Alonso, y Vilares,2013): Es un sistema conceptualmente senci-llo y flexible que emplea pocos recursos (dic-cionario SMS, tratamiento de onomatopeyas,repeticiones, diacrıticos y errores ortografi-cos) y que aborda el problema desde un puntode vista lexico.

7. Conclusiones

El taller Tweet-Norm-2013 ha sido un pri-mer paso academico conjunto para estudiary mejorar el problema de normalizacion detuits en espanol. La participacion de 13 sis-temas demuestra el interes en el tema. Es deresaltar la diversidad de procedencia de losparticipantes y la variedad de recursos utili-zados.

A la espera de un analisis todavia mas de-tallado de los resultados creemos que los cor-pus desarrollados y las publicaciones realiza-das ayudaran a la mejora de los resultados enel futuro.

Desde los participantes se han recibidopropuestas de mejora sobre ciertos aspectosdel preproceso que pueden ser mejorados (en-tidades comunes que se han marcado comoOOV) y algunos casos de anotacion que pue-den ser discutibles.

Los corpus anotados se pondran en bre-ve plazo a libre disposicion de toda la co-munidad cientıfica (consultar el sitio oficial:komunitatea.elhuyar.org/tweet-norm/).

Creemos que en el futuro una tarea simi-lar puede ser planteada, aunque creemos ne-cesario algun tipo de evaluacion combinadacon otras tareas (traduccion, analisis de sen-timiento...). Ademas serıa interesante dar unpaso mas alla de la normalizacion lexica, yafrontar tambien la normalizacion sintactica.

Page 8: Introducci on a la tarea compartida Tweet-Norm 2013: … · 2018-11-07 · Introducci on a la tarea compartida Tweet-Norm 2013: Normalizaci on l exica de tuits en espanol~ Tweet Normalization

Bibliografıa

Ageno, Alicia, Pere R. Comas, Lluıs Padro,y Jordi Turmo. 2013. The talp-upc ap-proach to tweet-norm 2013. En Proc. ofthe Tweet Normalization Workshop at SE-PLN 2013. IV Congreso Espanol de In-formatica.

Alegria, Inaki, Izaskun Etxeberria, y GorkaLabaka. 2013. Una cascada de transduc-tores simples para normalizar tweets. EnProc. of the Tweet Normalization Works-hop at SEPLN 2013. IV Congreso Espanolde Informatica.

Cotelo-Moya, Juan M., Fermın L. Cruz, y Jo-se A. Troyano. 2013. Resource-based lexi-cal approach to tweet-norm task. En Proc.of the Tweet Normalization Workshop atSEPLN 2013. IV Congreso Espanol de In-formatica.

Eisenstein, Jacob. 2013. What to do aboutbad language on the internet. En Procee-dings of NAACL-HLT, paginas 359–369.

Gamallo, Pablo, Marcos Garcia, y Jose Ra-mom Pichel. 2013. A method to lexi-cal normalisation of tweets. En Proc. ofthe Tweet Normalization Workshop at SE-PLN 2013. IV Congreso Espanol de In-formatica.

Gomez-Hidalgo, Jose M., Andres A. Caurcel-Dıaz, y Yovan Iniguez del Rio. 2013. Unmetodo de analisis de lenguaje tipo smspara el castellano. Linguamatica, 5(1):31–39.

Han, Bo y Timothy Baldwin. 2011. Lexi-cal normalisation of short text messages:Makn sens a# twitter. En ACL, paginas368–378.

Han, Bo, Paul Cook, y Timothy Baldwin.2013. unimelb: Spanish text normalisa-tion. En Proc. of the Tweet NormalizationWorkshop at SEPLN 2013. IV CongresoEspanol de Informatica.

Hulden, Mans y Jerid Francom. 2013.Weighted and unweighted transducers fortweet normalization. En Proc. of theTweet Normalization Workshop at SE-PLN 2013.IV Congreso Espanol de In-formatica.

Liu, Xiaohua, Shaodian Zhang, Furu Wei, yMing Zhou. 2011. Recognizing named en-tities in tweets. En ACL, paginas 359–367.

Montejo-Raez, Arturo, Manuel Dıaz-Galiano,Eugenio Martınez-Camara, TeresaMartın-Valdivia, Miguel A. Garcıa-Cumbreras, y Alfonso Urena-Lopez.2013. Sinai at twitter-normalization 2013.En Proc. of the Tweet NormalizationWorkshop at SEPLN 2013.IV CongresoEspanol de Informatica.

Mosquera, Alejandro, Elena Lloret, y Palo-ma Moreda. 2012. Towards facilitatingthe accessibility of web 2.0 texts throughtext normalisation. En Proceedings of theLREC Workshop: Natural Language Pro-cessing for Improving Textual Accessibility(NLP4ITA), Istanbul, Turkey, paginas 9–14.

Mosquera-Lopez, Alejandro y Paloma More-da. 2013. Dlsi en tweet-norm 2013: Nor-malizacion de tweets en espanol. En Proc.of the Tweet Normalization Workshop atSEPLN 2013. IV Congreso Espanol de In-formatica.

Munoz-Garcıa, Oscar, Silvia Vazquez Suarez,y Nuria Bel. 2013. Exploiting web-basedcollective knowledge for micropost norma-lisation. En Proc. of the Tweet Normaliza-tion Workshop at SEPLN 2013. IV Con-greso Espanol de Informatica.

Oliva, Jesus, Jose I. Serrano, Marıa D.Del Castillo, y Angel Iglesias. 2011.Sms normalization: combining phonetics,morphology and semantics. En Advancesin Artificial Intelligence. Springer, paginas273–282.

Padro, Lluıs y Evgeny Stanilovsky. 2012.Freeling 3.0: Towards wider multilingua-lity. En Proceedings of the Langua-ge Resources and Evaluation Conference(LREC 2012). Istanbul.

Porta, Jordi y Jose Luis Sancho. 2013. Wordnormalization in twitter using finite-statetransducers. En Proc. of the Tweet Nor-malization Workshop at SEPLN 2013. IVCongreso Espanol de Informatica.

Ruiz, Pablo, Montse Cuadros, y Thierry Et-chegoyhen. 2013. Lexical normalizationof spanish tweets with preprocessing rules,domain-specific edit distances, and lan-guage models. En Proc. of the Tweet Nor-malization Workshop at SEPLN 2013. IVCongreso Espanol de Informatica.

Page 9: Introducci on a la tarea compartida Tweet-Norm 2013: … · 2018-11-07 · Introducci on a la tarea compartida Tweet-Norm 2013: Normalizaci on l exica de tuits en espanol~ Tweet Normalization

Saralegi, Xabier y Inaki San-Vicente. 2013.Elhuyar at tweet-norm 2013. En Proc.of the Tweet Normalization Workshop atSEPLN 2013.IV Congreso Espanol de In-formatica.

Vilares, Jesus, Miguel A. Alonso, y David Vi-lares. 2013. Prototipado rapido de un sis-tema de normalizacion de tuits: Una apro-ximacion lexica. En Proc. of the TweetNormalization Workshop at SEPLN 2013.IV. Congreso Espanol de Informatica.

Villena Roman, Julio, Sara Lana Serrano,Eugenio Martınez Camara, y Jose CarlosGonzalez Cristobal. 2013. Tass-workshopon sentiment analysis at sepln.

Anexo I: Listado de palabras nocorregidas

A continuacion se detallan las variantesdel corpus de test que ningun sistema ha pro-puesto corregido correctamente, junto la nor-malizacion anotada.

FYQ Fısica y quımicasisiii sı sıyaa allapicolos picoletosnainonainonahh nainonainonagordys gorditasJUUUM humTuitutil TuitUtilcrst Cristomencantaba me encantabadiitaas diıtassoo esoqueeee queTeinfiniteamo Te amo infinitamenteaber a verHum HumedadL. l.Muchomuchacho Mucho MuchachoHojo Jojonaticas jonaticasgafis gafitasher hermano|hermanaMIAMOR mi amorguapii guapitaWAPAHHH guapaEAEA ea eaAcho Machotirantitas tirantitosHMYV MHYVfilosofia Filosofıanah nadaFAV favorito

JIIIIIIIIOLE OleFotazo fotazagor gorda|gordoconer con elshh sı|seprimera+ primera massalobreja Salobreja