$QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más...

59
Facultad de Ciencias Sociales y Jurídicas UNIVERSIDAD DE JAÉN Facultad de Ciencias Sociales y Jurídicas Trabajo Fin de Grado Análisis de Sentimientos en Twitter: percepción de la ciudadanía sobre los líderes políticos más relevantes del panorama actual Alumno: Daniel Pegalajar Luque Junio, 2016

Transcript of $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más...

Page 1: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

F

acul

tad

de C

ienc

ias

Soc

iale

s y

Jurí

dica

s

UNIVERSIDAD DE JAÉN Facultad de Ciencias Sociales y Jurídicas

Trabajo Fin de Grado

Análisis de Sentimientos en Twitter:

percepción de la ciudadanía sobre

los líderes políticos más relevantes

del panorama actual

Alumno: Daniel Pegalajar Luque

Junio, 2016

Page 2: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Análisis de Sentimientos en Twitter: percepción de laciudadanía sobre los líderes políticos más relevantes

del panorama actual

AUTOR: Daniel Pegalajar Luque

TUTOR: Antonio José Sáez Castillo

ResumenHoy en día las redes sociales se han convertido en grandes protagonistas de nuestras vidas:

probablemente por ello representan una fuente de información de valor incalculable. Twitter esuna de las más populares, debido a la facilidad con la que millones de usuarios comparten adiario sus opiniones y comentarios a través de 140 caracteres. Estos mensajes, llamados «tuits»,pueden ser extraídos libremente y analizados mediante diversas técnicas para obtener todo tipode información sobre cualquier tema.

El presente trabajo tiene como objeto la aplicación del Análisis de Sentimientos o Mineríade Opinión sobre estos datos, centrándose en el panorama político actual a través de los líderesmás mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional ylexicón de sentimientos se intentará extraer la máxima información posible de las muestrasrecogidas para ofrecer una visión de conjunto sobre las opiniones expresadas en esta red socialen el momento de la recogida de datos. Se pretende mostrar con ello el inmenso potencial quetienen estas técnicas y la facilidad para ser extrapoladas a otros campos.

Palabras clave

Twitter, Análisis de Sentimientos, Minería de Opinión, Política, Procesamiento del LenguajeNatural

I

Page 3: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

AbstractNowadays, social networks have become in important themes of our lives: they probably

represent a great source of worthy information. Twitter is one of the most popular, due to theease with which millions of users daily share their points of views and comments through 140characters. These messages, called «tweets», can be freely extracted and analyzed using diversetechniques to obtain all kind of information about any topic.

This essay aims to study the application of Sentiment Analysis or Opinion Mining on thisdata, focusing on the current political outlook by means of the most well-known political lea-ders. This is carried out by using techniques of computational learning and sentiment lexicon,which will try to extract the maximum information from the collected samples, in order to pro-vide a complete insight about opinions expressed on this social network in the moment of datacollection. Our intention is to show the immense potential of this technique and the facility tobe extrapolated to other fields.

Keywords

Twitter, Sentiment Analysis, Opinion Mining, Politics, Natural Language Processing

II

Page 4: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

AGRADECIMIENTOSEn primer lugar, me gustaría agradecer a Antonio, mi tutor en este trabajo su ayuda durante

este año, con él he aprendido tantas cosas que no sabría por donde empezar. Su tiempo y de-dicación a la hora de reunirse conmigo para resolver cualquier duda han sido esenciales paraobtener estos resultados. No me olvido de su afán por introducirme en LATEXa la hora de realizareste trabajo. En definitiva, un profesor que me hubiese encantado tener durante mi paso por elGrado de Estadística y Empresa.

A María, simplemente por estar siempre ahí. Gracias por tu apoyo incondicional cuandoencontraba un obstáculo en el camino. Tus consejos y sonrisa han conseguido guiarme por elcamino correcto. Gracias por sacar lo mejor de mí.

Finalmente, quiero agradecer a mi madre, hermano y abuela. Su apoyo, cariño y confianzaciega en mí me han ayudado a superar todo aquello que me he propuesto. Sin vosotros, nohubiese logrado llegar hasta aquí. Gracias por todo.

III

Page 5: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Índice

1. INTRODUCCIÓN 11.1. MOTIVACIÓN DEL PROYECTO SELECCIONADO . . . . . . . . . . . . . 21.2. OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2. ESTADO DEL ARTE 42.1. TWITTER Y LA MINERÍA DE OPINIÓN . . . . . . . . . . . . . . . . . . . 42.2. EL PANORAMA POLÍTICO COMO OBJETO DE INVESTIGACIÓN . . . . 7

3. METODOLOGÍA 93.1. SELECCIÓN DE LAS HERRAMIENTAS DE TRABAJO . . . . . . . . . . . 93.2. CONEXIÓN A LA API DE TWITTER . . . . . . . . . . . . . . . . . . . . . 93.3. AUTENTIFICACIÓN EN TWITTER CON R . . . . . . . . . . . . . . . . . . 113.4. EXTRACCIÓN DE TUITS DESDE LA SEARCH API DE TWITTER . . . . . 113.5. DEPURACIÓN DE LOS TUITS . . . . . . . . . . . . . . . . . . . . . . . . . 113.6. LA NUBE DE PALABRAS COMO HERRAMIENTA DE ANÁLISIS . . . . . 12

4. ANÁLISIS DE SENTIMIENTOS 134.1. BREVE INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.2. APLICACIONES DEL AS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.3. LOS DISTINTOS NIVELES DE ANÁLISIS EN EL AS . . . . . . . . . . . . 154.4. MÉTODOS DE AS BASADOS EN LEXICÓN DE SENTIMIENTOS . . . . . 15

4.4.1. LIMITACIONES Y PROBLEMAS . . . . . . . . . . . . . . . . . . . 164.5. MÉTODOS DE AS BASADOS EN EL APRENDIZAJE COMPUTACIONAL 17

4.5.1. NAÏVE BAYES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.5.2. MÁXIMA ENTROPÍA . . . . . . . . . . . . . . . . . . . . . . . . . . 174.5.3. SUPPORT VECTOR MACHINE (SVM) . . . . . . . . . . . . . . . . 18

4.6. OTRAS LIMITACIONES DEL AS . . . . . . . . . . . . . . . . . . . . . . . . 18

5. RESULTADOS 205.1. EXTRACCIÓN DE TUITS DESDE LA API DE TWITTER . . . . . . . . . . 205.2. DEPURACIÓN DE TUITS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245.3. ANÁLISIS DE SENTIMIENTOS . . . . . . . . . . . . . . . . . . . . . . . . 25

5.3.1. CONTEXTO DE PRIMARIAS EN ESTADOS UNIDOS. TRUMP YCLINTON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.3.2. CONTEXTO EUROPEO. MERKEL Y PUTIN . . . . . . . . . . . . . 325.3.3. CONTEXTO ESPAÑOL. ELECCIONES GENERALES 2016 . . . . . 36

5.4. ANÁLISIS DE SENTIMIENTOS «DINÁMICO» . . . . . . . . . . . . . . . . 46

IV

Page 6: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

6. CONCLUSIONES Y TRABAJO FUTURO 48

Referencias 50

V

Page 7: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Índice de figuras1. Representación del funcionamiento del clasificador SVM . . . . . . . . . . . . 192. Donald Trump y Hillary Clinton . . . . . . . . . . . . . . . . . . . . . . . . . 223. Angela Merkel y Vladimir Putin . . . . . . . . . . . . . . . . . . . . . . . . . 234. Vista parcial de una muestra de tuits recopilados e incluidos en el dataframe . . 245. Gráficos de AS clasificados según emociones . . . . . . . . . . . . . . . . . . 276. Gráficos de AS clasificados según polaridad . . . . . . . . . . . . . . . . . . . 287. Nube de palabras de Donald Trump . . . . . . . . . . . . . . . . . . . . . . . 298. Nube de palabras de Hillary Clinton . . . . . . . . . . . . . . . . . . . . . . . 319. Gráficos de AS sobre Angela Merkel y Vladimir Putin clasificados según emo-

ciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3210. Gráficos de AS clasificados según polaridad . . . . . . . . . . . . . . . . . . . 3411. Nube de palabras de Angela Merkel . . . . . . . . . . . . . . . . . . . . . . . 3512. Nube de palabras de Vladimir Putin . . . . . . . . . . . . . . . . . . . . . . . 3713. Gráficos de AS clasificados según puntuación . . . . . . . . . . . . . . . . . . 4014. Gráficos de AS clasificados según puntuación . . . . . . . . . . . . . . . . . . 4115. Gráficos de AS clasificados según polaridad . . . . . . . . . . . . . . . . . . . 4316. Gráficos de AS clasificados según polaridad . . . . . . . . . . . . . . . . . . . 4317. Nubes de palabras de los representantes políticos españoles . . . . . . . . . . . 4418. Nubes de palabras de los representantes políticos españoles . . . . . . . . . . . 4419. Palabras más frecuentes en las muestras . . . . . . . . . . . . . . . . . . . . . 4520. Palabras más frecuentes en las muestras . . . . . . . . . . . . . . . . . . . . . 4621. AS dinámico sobre candidatos americanos . . . . . . . . . . . . . . . . . . . . 47

Índice de cuadros1. Puntuaciones medias de los cuatro políticos españoles según el score definido . 42

VI

Page 8: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

1 | INTRODUCCIÓNEl análisis de sentimientos («Sentiment Analysis en inglés», a partir de ahora, AS) o minería

de opinión, es un término relativamente joven y que a menudo genera controversia. Puede defi-nirse como el «estudio computacional de las opiniones, sentimientos y emociones expresadas en

un texto. Éstas pueden catalogarse como positivas, negativas o neutrales» (B. Liu, 2010). Es untérmino que está muy ligado a las redes sociales pero que, en realidad, no está limitado a ellas.Con una expansión sorprendente, el AS se puede encontrar presente ya en dominios como elmarketing, la educación, la sanidad, el mundo financiero, recursos humanos, etc., demostrandouna gran utilidad a la hora de tomar decisiones importantes.

El ser humano siempre ha sido influenciado por el pensamiento, ideas y opiniones de otraspersonas. Por si fuera poco, el increíble crecimiento experimentado por las redes sociales hacontribuido a la generación de millones de opiniones vertidas por sus usuarios en forma decomentarios, críticas y opiniones sobre todo tipo de productos, eventos, servicios o personas.Esta avalancha de información resulta útil tanto para los usuarios como paras las empresas:estás últimas precisamente han visto que los sentimientos de sus clientes a menudo marcan lasdebilidades y fortalezas de sus productos. Por tanto, analizar y resumir toda esa informaciónse ha convertido en un campo muy atractivo para los investigadores de mercados, entre otrosámbitos.

La técnica del AS se basa en la extracción automática de actitudes, opiniones y emocionesprocedentes de un texto, discurso o base de datos a través del Procesamiento del LenguajeNatural (a partir de ahora PLN), clasificándolas posteriormente en categorías como «positivo»,«negativo» o «neutral». En la actualidad, el comercio electrónico presenta un ascenso imparabley gana importancia cada año en todo el mundo. Por ejemplo, en el último estudio de Nielsen1

se concluye que un 60% de los españoles utiliza las plataformas on-line para buscar y reunirinformación sobre los productos que luego comprarán en la tienda. Por otro lado, un 57% delos consumidores on-line españoles aprovechan la Red para consultar las opiniones de otrosclientes sobre los productos, destacando Nielsen que las recomendaciones de otros usuarios«son la fuente de mayor fiabilidad para los españoles». Estos datos alientan a las compañías asaber qué dicen los clientes sobre sus productos o servicios para tomar futuras decisiones.

Las redes sociales representan, hoy por hoy, una de las mayores fuentes de información. Eneste trabajo nos centraremos en Twitter, uno de los servicios de microblogging más popularesen el mundo, con más de 320 millones de usuarios activos cada mes y 1000 millones de visitasúnicas mensuales. La peculiaridad de este servicio estriba en que permite a sus usuarios publicar«tweets» o tuits (adaptación al español del anglicismo, reconocido recientemente por la RAE),mensajes de texto con una extensión máxima de 140 caracteres en los que usualmente encon-

1Fuente: http://www.nielsen.com/es/es/press-room/2016/A-seis-de-cada-diez-consumidores-les-preocupa-de-la-compra-online-como-se-escoge-el-producto.html

1 INTRODUCCIÓN PÁGINA 1

Page 9: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

traremos expresada una opinión personal acerca de casi cualquier cosa. Debido a su carácterpúblico, cualquiera puede extraer tuits para su análisis, por lo que esta red social es una de lasfavoritas en el terreno de la investigación y el análisis de datos.

A continuación se presenta la motivación de este proyecto, así como los objetivos y la me-todología. Posteriormente, en el capítulo 2, describiremos el estado del arte. En el capítulo 3 sedetallará la metodología y la información de cómo se ha realizado este trabajo. A continuación,en el capítulo 4, se describe al detalle los fundamentos del AS. El capítulo 5 alojará la tomade datos y su análisis. Finalmente, el capítulo 6 lo conformarán las conclusiones y las vías detrabajo futuro, frutos del trabajo realizado.

1.1 MOTIVACIÓN DEL PROYECTO SELECCIONADO

El terreno del AS tiene un horizonte brillante por delante y los resultados se van sucediendode una forma trepidante. Las «opiniones» de un cliente, usuario o individuo en la web suponenun recurso muy valioso y altamente valorado por las organizaciones y otros usuarios. Este valorhacia el AS ha contribuido a su expansión gracias a los esfuerzos procedentes de la industria, asícomo de la ciencia. Para comprender e ilustrar la potencialidad de esta técnica nos apoyaremosen los siguientes elementos:

Twitter: las redes sociales han experimentado un auge tremendo en los últimos años yTwitter está, indudablemente, entre las protagonistas. El flujo de información que generaes inabarcable y lo mejor de todo, cada segundo significa una nueva tonelada de datos.Este servicio cada vez es más habitual en nuestras vidas ya que para muchos representauna ventana al mundo, un lugar donde plasmar su opinión acerca de cualquier tema en140 caracteres. No es extraño encontrar tuits cada día en las noticias sobre temas actualesde importancia. Esta peculiaridad única, junto al hecho de que Twitter permite extraertoda esa información y sacarle provecho, prometen resultados muy interesantes. Un lugaren el que cada día se expresan millones de opiniones nos resultará útil para el objetivo deeste trabajo.

Política: La aparición de partidos surgidos del activismo online o el uso que los políticosdan a las redes sociales han propiciado nuevos usos comunicativos que a día de hoy estánen el punto de mira de muchos investigadores. El termómetro electoral que representaTwitter en cualquier país del mundo y las opiniones de todos los usuarios que puedenrecogerse de una forma sencilla, son el mejor caldo de cultivo para estudios relacionadoscon predicciones electorales, barómetros de popularidad o incluso de cara a utilizarse paratomar ventaja en una carrera electoral. Por ejemplo, un estudio realizado en Alemaniapredijo los resultados de las elecciones federales y concluyó que Twitter era un buen

1 INTRODUCCIÓN PÁGINA 2

Page 10: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

reflejo del sentimiento «offline» o a pie de calle (Tumasjan, Sprenger, Sandner, y Welpe,2010).

1.2 OBJETIVOS

El objetivo general de este trabajo es desarrollar y aplicar AS para obtener informaciónacerca de las opiniones de los usuarios procedentes de Twitter, catalogando éstas como positi-vas, negativas o neutras con respecto a los principales protagonistas políticos de Estados Unidos,Europa y España.

Como objetivos específicos, podemos identificar:

Mejorar el conocimiento acerca de las preferencias políticas de los ciudadanos que cons-tituyen el universo de la muestra.

Cuantificar la popularidad de los líderes políticos seleccionados en la búsqueda.

Comparar las preferencias y popularidad on-line determinada por el AS con las encuestastradicionales.

1 INTRODUCCIÓN PÁGINA 3

Page 11: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

2 | ESTADO DEL ARTEEn este capítulo se recoge el estado del arte, una compilación de resultados de otras inves-

tigaciones que ya se han realizado y que están relacionados con la temática de este proyecto;abarcan, por tanto, los campos de minería de opinión, redes sociales y política.

2.1 TWITTER Y LA MINERÍA DE OPINIÓN

El AS en el terreno de las redes sociales, especialmente en Twitter, es un fenómeno rela-tivamente reciente. Los investigadores tienen aun muchísimo terreno por descubrir y, a día dehoy, es un ámbito que bulle de actividad. Podemos encontrar numerosa bibliografía acerca delAS en críticas realizadas por usuarios, en documentos, blogs y artículos on-line, etc; pero todoesto difiere completamente en Twitter, básicamente porque aquí la opinión está limitada a 140caracteres, por lo que los usuarios deben comprimir y expresar lo que sienten en un pequeñotrozo de texto.

Desde 2009 la investigación se centró en explotar mediante tratamiento computacional lasopiniones, sentimientos y subjetividad recogida en los textos cortos que caracterizan a Twitter.En ese mismo año se llevó a cabo uno de los estudios pioneros en la clasificación de la polaridaden tuits escritos en inglés (Go, Bhayani, y Huang, 2009). La polaridad es algo que detallaremosen un capítulo posterior, pero podemos adelantar que en el terreno del AS existe clasificaciónde polaridad o clasificación de subjetividad, dependiendo de lo que se asuma. La mayoría deestudios basados en Twitter por ejemplo, asumen que los tuits son subjetivos.

Un estudio previo (Read, 2005) demostró que en Twitter se podía aprovechar el uso deemoticonos por parte de los usuarios para diferenciar entre tuits positivos y negativos. Para ello,se conectaba a la Search API de Twitter y generaba un corpus formado por tuits positivos conemoticonos positivos «:)», y tuits negativos con emoticonos negativos «:(». Dicho corpus seutilizaba para testear las bondades de los principales algoritmos de clasificación de polaridad yaestudiados por Pang et al. (Pang, Lee, y Vaithyanathan, 2002): Naïve Bayes, Máxima Entropía ySupport Vector Machine (SVM). Estos algoritmos conforman la piedra angular de esta técnica,aunque no existe aún preferencia por ninguno en especial, ya que todos suelen arrojar resultadosmuy similares, en torno al 80% de clasificación correcta.

Twitter comenzó a cobrar importancia cuando demostró su cobertura informativa a nivelmundial con algunos sucesos importantes. A finales de agosto de 2008, por ejemplo, el hura-cán Gustav de categoría 4 mantuvo en vilo a gran parte del Caribe y los Estados Unidos. Lared social fue testigo de cómo las personas que se vieron involucradas en el fenómeno naturaliban plasmando su información en Twitter, dando al mundo una visión mucho más cercana quecualquier periodista. La muerte de Michael Jackson también generó una oleada de información

2 ESTADO DEL ARTE PÁGINA 4

Page 12: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

(Kim, Gilbert, Edwards, y Graeff, 2009). El 25 de Junio de 2009 más de 279.000 tuits fueronpublicados entre las 9 pm y 10 pm, 78 tuits por segundo aproximadamente. Kim estudió elestado de ánimo de los usuarios utilizando una técnica basada en el vocabulario identificado ycomparando los tuits con un conjunto de palabras preestablecido y, de esta forma, clasificar-los con una escala del 1 al 9 en tres estados de ánimo diferentes: valencia (placer/disgusto),agitación (excitación/calma) y dominación (fuerza/debilidad).

Otros estudios(Go y cols., 2009; Pak y Paroubek, 2010) estudiaron la validez de Twitter parael AS. Generaron un corpus de tuits y emoticonos positivos, tuits y emoticonos negativos y tuitsneutrales procedentes de las publicaciones de los principales periódicos y revistas en EstadosUnidos. A dicho corpus le aplicaron las técnicas mencionadas anteriormente para la clasifica-ción de polaridad, concluyendo que el algoritmo Naïve Bayes ofrecía un mejor rendimientopara el análisis de opiniones en Twitter.

Un trabajo posterior (Zhang, Ghosh, Dekhil, Hsu, y Liu, 2011) aunó las bondades de las doscorrientes para el estudio de la clasificación de la polaridad en Twitter, lo que se conoce comométodo híbrido. Como describió su autor, en AS existen dos paradigmas, uno basado en el usode recursos léxicos como los diccionarios y otro basado en el uso de técnicas de aprendizajeautomático. Las basadas en recursos léxicos adolecen en ocasiones debido a que dependen delas palabras que componen al diccionario para determinar la orientación de una opinión. Losmétodos basados en aprendizaje automático, por su parte, dependen de la existencia de con-juntos de datos etiquetados. Por tanto, el primer enfoque presenta el problema de las continuasvariaciones y cambios naturales que se producen en el lenguaje utilizado en la red social, y elsegundo el de la dificultad de obtener un gran corpus de tuits etiquetados. Para superar estosproblemas, el autor propone la utilización de un método híbrido para el análisis a nivel de fraseen Twitter. Para sus experimentos, generó un corpus de tuits en inglés con cinco entidades biendiferenciadas (Obama, Harry Potter, Tangled, iPad y Packers), el cual depuró eliminando retuits,traduciendo abreviaciones y eliminando hipervínculos. Una vez tenía el corpus limpio, utilizóun método basado en recursos léxicos para la clasificación de la polaridad; posteriormente seaplicó una técnica de aprendizaje automático, en este caso el algoritmo SVM, para clasificar lostuits.

Por último, es importante mencionar que la Universidad de Jaén cuenta con un grupo deinvestigación experto en la materia. Hablamos de SINAI (Sistemas Inteligentes de Acceso ala Información), conformado por 10 investigadores y dos estudiantes de doctorado. SINAI seespecializa en el estudio de las Tecnologías del Lenguaje Humano (TLH) y desde el año 2000el esfuerzo puesto en su trabajo ha permitido la apertura de diferentes líneas de investigación:

Recuperación de Información Multimodal y Multilingüe.

Categorización de textos.

Minería de datos y textos.

2 ESTADO DEL ARTE PÁGINA 5

Page 13: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Extracción de información.

Recuperación de información geográfica.

Minería de opinión.

Dentro de la minería de opinión, que es el tema que nos ocupa, SINAI se encuentra trabajandoen dos de los frentes más importantes que afronta esta disciplina:

TRATAMIENTO DE LA NEGACIÓN

La negación es un elemento fundamental en el AS que requiere un tratamiento especial, yaque una opinión negativa puede ser expresada a partir de la negación de términos positivos o,por el contrario, una opinión positiva puede expresarse con términos negativos negados, porejemplo: «El ordenador no funciona bien».

Predominan las investigaciones escritas en inglés, pero, hoy en día, en Internet cada vez esmás frecuente la presencia de otros idiomas, entre los que hay que remarcar el español, por loque es necesario centrar los esfuerzos en su tratamiento. Es por ello que SINAI propone seguirun enfoque sintáctico, ya que la negación es una característica particular de cada idioma quedebe ajustarse a las singularidades de la lengua en estudio.

En los experimentos realizados se ha comprobado que la inclusión de un módulo para eltratamiento de la negación en un sistema de clasificación de opiniones mejora la predicción delgrado de subjetividad de las opiniones (Jiménez Zafra, Martínez Cámara, Martín Valdivia, yMolina González, 2015).

ANÁLISIS A NIVEL CARACTERÍSTICO O ASPECTO

En el AS existen tres niveles de estudio de un texto: a nivel de documento (Pang y cols.,2002), a nivel de frase u oración (Wilson, Wiebe, y Hoffmann, 2005) y aspecto (Hu y Liu,2004). Los análisis a nivel de documento y de oración determinan de forma general el gradode subjetividad de la opinión expresada sobre un tema, producto, monumento, persona... Encambio el análisis a nivel de aspecto o característica se centra en la identificación de los aspectosrelacionados con la entidad de estudio (ej. Entidad de estudio: hotel. Características: limpieza,precio, personal, localización...) y en determinar si se ha expresado opinión o no sobre ellosy, en caso afirmativo, señalar si ésta es positiva, negativa o neutra. Este enfoque permite portanto solucionar las limitaciones que presentan los otros dos, ya que lleva a cabo un análisis conmayor detalle.

En estos días, el interés de las empresas por conocer lo que los usuarios opinan de susproductos o servicios se está convirtiendo en un punto clave y cada día son más los usuarios

2 ESTADO DEL ARTE PÁGINA 6

Page 14: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

que consultan la opinión de otros usuarios on-line antes de aventurarse en la adquisición decualquier bien. De hecho, las corporaciones escuchan las redes sociales y foros en busca deposibles puntos débiles que requieran su atención. Es por este motivo, que las investigacionesen este campo se están disparando.

La primera aproximación realizada por el grupo SINAI ha sido sobre opiniones escritas eninglés, con resultados satisfactorios. Se pretende extrapolar estas ideas a opiniones escritas enespañol debido a la escasez de material existente en nuestra lengua nativa (Jiménez Zafra ycols., 2015).

2.2 EL PANORAMA POLÍTICO COMO OBJETO DE IN-VESTIGACIÓN

Como ya hemos comentado, el crecimiento exponencial de redes sociales en nuestras vidascomo Facebook y Twitter ha abierto vías tan interesantes de investigación como la monito-rización de las preferencias políticas de los ciudadanos. Gracias a este crecimiento, Internetrepresenta una fuente de datos cada vez más valiosa y en la que cada vez más investigadoresconfían para obtener datos en cuanto a minería de opinión se refiere (Madge, Meek, Wellens, yHooley, 2009; Woodly, 2008); gracias a los progresos conseguidos en el AS, los investigadoresse encuentran en una situación inmejorable para explotar toda esta información de una manerafiable.

En los últimos años, cada vez más investigadores centran sus esfuerzos en relacionar las opi-niones que los ciudadanos vierten en la red con los resultados electorales. Algunos comenzarona explorar las redes sociales como medio para predecir las elecciones (Sang y Bos, 2012), otroshan intentado reflejar la popularidad de los políticos mediante dichas opiniones (Gloor, Krauss,Nann, Fischbach, y Schoder, 2009), o también comparar las preferencias políticas que la ciuda-danía refleja en los medios tradicionales respecto a las expresadas de forma on-line (O’Connor,Balasubramanyan, Routledge, y Smith, 2010).

Previamente se había demostrado (Véronis, 2007) que el número de menciones que un can-didato recibe en un medio on-line como los blogs es un buen predictor para el éxito electoral ypuede funcionar mejor que las encuestas tradicionales. También se han comparado (Tumasjan ycols., 2010) las menciones a los partidos políticos en Twitter con los resultados de las eleccionesalemanas celebradas en 2009 argumentando entonces que el número de tuits relacionados concada partido era un buen predictor del voto de los ciudadanos.

Hay que señalar que no todas las investigaciones consiguen predecir correctamente el resul-tado de unas elecciones. Por ejemplo, se critica (Jungherr, Jürgens, y Schoen, 2011) el trabajode Tumasjan citado en el párrafo anterior argumentando que éste no había cumplido la condi-ción de «independencia de las alternativas irrelevantes» al no incluir en su estudio al Partido

2 ESTADO DEL ARTE PÁGINA 7

Page 15: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Pirata alemán, ya que esto podría haber tenido un resultado negativo en la precisión de las pre-dicciones obtenidas. En ese mismo sentido, se consiguió probar (Gayo-Avello, 2011) que losanalistas habían sobreestimado la victoria de Obama en las elecciones de 2008 hasta tal puntoque éstos predijeron la victoria incluso en Texas.

Con el paso de los años, en este terreno se ha probado (Chung y Mustafaraj, 2011) que nosólo con el número de menciones se conseguía una predicción adecuada. Es en este punto dondeotros estudios intentaron mejorar dicha precisión con la inclusión del AS en la investigación, porejemplo, construyendo un clasificador de sentimientos basado en recursos léxicos (O’Connory cols., 2010), que encontró correlación entre el ratio de aprobación de Obama y la opiniónexpresada en Twitter por los usuarios. El AS también ha demostrado ser tan efectivo como lasencuestas prediciendo los resultados de las elecciones germanas al senado (Sang y Bos, 2012).

Podemos destacar así mismo un trabajo (Iacus, Porro, Curini, Ceron, y cols., 2012) en el que,utilizando el AS a través de la metodología previamente propuesta (Hopkins y King, 2010), seanalizan tres escenarios con conclusiones muy acertadas: por un lado la popularidad on-line delos principales líderes políticos italianos en 2011, y por el otro lado las elecciones presidencialesy legislativas celebradas en Francia en 2012.

Finalmente, podemos añadir una muestra del trabajo realizado por el grupo SINAI de laUniversidad de Jaén en materia política. SINAI y GPLSI (grupo análogo de la Universidad deAlicante) trabajaron conjuntamente para la creación de Sondeando. Sondeando Jaén 2 fue con-cebida para las elecciones municipales producidas en 2015, y su objetivo era la cuantificaciónde la reputación de los candidatos políticos que concurrían a dichas elecciones.

2Fuente: http://sinai.ujaen.es/sondeando/jaen/sondeandojaen.html

2 ESTADO DEL ARTE PÁGINA 8

Page 16: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

3 | METODOLOGÍAEn los siguientes puntos se describe como se realizará este trabajo y los pasos seguidos para

obtener los resultados que posteriormente se analizan.

3.1 SELECCIÓN DE LAS HERRAMIENTAS DE TRABA-JO

Para este trabajo utilizaremos el software estadístico R, ya que gracias a la gran comunidadque tiene en todo el mundo, nos facilitará el trabajo mediante las librerías necesarias para to-do el proceso. Los resultados y esta memoria serán redactados utilizando LYX, un procesadorde documentos que fomenta un enfoque basado en la estructura WYSIWYM y que ofrece lapotencia de LATEX.

3.2 CONEXIÓN A LA API DE TWITTER

La extracción de información necesaria para la obtención de los resultados se ha realizadoa través de la API de Twitter. Para dicha tarea se ha utilizado R Studio, un medio más amigablecon el usuario para ser más productivo con R y sus funciones, además de los siguientes paquetes(todos actualizados a su última versión disponible, incluyendo R y R Studio):

Devtools: paquete que contiene una colección de herramientas para el desarrollo. Nos in-teresa especialmente aquella que nos permite conectarnos a GitHub (install_github).

• GitHub es una plataforma de desarrollo colaborativo de software para alojar pro-yectos utilizando el sistema de control de versiones Git. Nos brinda herramientas yutilizando sus repositorios públicos podemos potenciar un software de terceros, ennuestro caso el paquete central de nuestro proyecto twitteR.

rjson: utilizado para convertir objetos JSON en objetos R y viceversa.

• JSON (JavaScript Object Notation) es un formato para el intercambio de datos muyligero, sencillo de leer y escribir. Para nosotros desempeña el papel de piedra an-gular ya que la API de Twitter genera toda la información de cualquier consulta eneste formato y por tanto necesitamos un “traductor” para poder operar con dichainformación en R.

bit64: con este paquete se pueden almacenar enteros por encima de 2^63.

3 METODOLOGÍA PÁGINA 9

Page 17: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

• La utilidad de este paquete radica en que al trabajar con información masiva o BigData que es lo que se pretende puede perderse precisión a partir de una determina-da cifra, por no hablar de la velocidad para tratar toda esta información. Con estemétodo evitamos dichos problemas.

httr: herramientas básicas para trabajar con HTTP y URLs.

• Necesario para que el paquete twitteR funcione adecuadamente. Nos ayuda a ma-nejar las conexiones y obtención de los datos a través de la API además de permitir-nos la imprescindible autentificación con la que poder extraer información.

twitteR: este paquete es la mejor manera para introducirse en el AS. Es el encargado dearrastrar la información deseada desde la API de Twitter a nuestra sesión local de R parapoder trabajar cómodamente.

Jeff Gentry (más conocido en Internet como «geoffjentry») es el autor tanto de GitHub, comodel paquete twitteR. Desde que Twitter lanzó la versión 1.1 de su API se necesita un «OAuth

handshake» para cada petición que se realiza. Por tanto, para realizar este proceso es necesariala creación de una app que dé acceso a la API mediante dicha autentificación. El primer paso escrear nuestra app en Twitter, para lo que es necesario entrar en https://apps.twitter.com y estarlogueado con una cuenta de Twitter.

Desde este espacio podemos administrar nuestras apps, en caso de tenerlas. Para la creaciónde una nueva, basta con pulsar en «Create New App». A continuación basta con darle un nombre,el que se deseé, y establecer una breve descripción para saber la utilidad de dicha app. Twittertambién necesita una website válida: podemos escribir http://test.de/, por ejemplo. Por último,en el campo «Callback URL blank» establecemos http://127.0.0.1:1410 para que nuestra appfuncione correctamente, ya que dejarlo en blanco puede ocasionar problemas de autentificación.

Pinchamos en crear y ya está lista nuestra app de Twitter. Dejamos abierta la ventana ya quela necesitaremos más tarde. Ahora antes de comenzar es importante tener actualizados todoslos paquetes mencionados anteriormente a la última versión. Comprobado esto, realizamos losiguiente en R:

install.packages(c("devtools", "rjson", "bit64", "httr"))

#REINICIAMOS la sesión en R!

library(devtools)

install_github("twitteR", username="geoffjentry")

library(twitteR)

3 METODOLOGÍA PÁGINA 10

Page 18: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

3.3 AUTENTIFICACIÓN EN TWITTER CON R

Una vez realizado lo anterior podemos proceder a la autentificación con R gracias a una delas funcionalidades del paquete «httr». En este paso es necesario obtener 4 «contraseñas» des-de nuestra app recién creada en Twitter: api_key, api_secret, access_token y access_token_secret.Simplemente basta con pinchar en la pestaña de Keys and Access Tokens de nuestra app y copiar-las. Esta información es personal y única para cada usuario. Por último ejecutamos el siguientecódigo de R:

api_key <- "TU API KEY"

api_secret <- "TU API SECRET"

access_token <- "TU ACCESS TOKEN"

access_token_secret <- "TU ACCESS TOKEN SECRET"

setup_twitter_oauth(api_key,api_secret,access_token,access_token_secret)

Con estos simples comandos hemos establecido la autentificación y ya tenemos acceso ala search API de Twitter, con lo que podemos comenzar a realizar consultas mediante la orden�searchTwitter('x')�.

3.4 EXTRACCIÓN DE TUITS DESDE LA SEARCH APIDE TWITTER

Para la extracción y almacenaje de los tuits que conformarán la materia prima de todo esetrabajo volveremos a utilizar la librería twitteR. Antes de iniciar la extracción, será necesariodelimitar el ámbito de búsqueda y afinar los términos utilizados para que toda la informaciónobtenida sea lo más representativa posible.

3.5 DEPURACIÓN DE LOS TUITS

Los tuits que quedan recogidos en la base de datos resultante del proceso de recolección,mediante el código anteriormente descrito, contienen ciertos elementos extraños como emoti-conos, hiperenlaces u otros caracteres a menudo utilizados en la red social, que no permiten lacorrecta ejecución del análisis. El objetivo del siguiente paso del proceso, que llamaremos de

depuración, es precisamente el de eliminar cualquier contenido en los tuits carente de contenidoemocional, como los anteriormente mencionados o los signos de puntuación.

3 METODOLOGÍA PÁGINA 11

Page 19: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

3.6 LA NUBE DE PALABRAS COMO HERRAMIENTA DEANÁLISIS

Para representar los resultados del AS se utilizarán gráficos clásicos, como histogramas, pe-ro también introduciremos «nubes de palabras» en los análisis. Las nubes de palabras (tambiénconocidas como nubes de texto o nubes de etiquetas) trabajan de una forma muy sencilla: cuan-to más aparece una palabra específica en un conjunto de texto (en el caso de este trabajo, lostuits extraídos), más grande e intensa será su representación en la nube de palabras.

Bien utilizada, es una herramienta poderosa ya que permite identificar y entender las ideasque subyacen en un determinado texto, haciendo posible la extracción de conclusiones.

3 METODOLOGÍA PÁGINA 12

Page 20: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

4 | ANÁLISIS DE SENTIMIENTOSAntes de entrar en detalle a analizar los resultados, es apropiado describir de una forma

general el AS. En este capítulo, se realizará por tanto un resumen sintetizado de la técnica paraentender posteriormente correctamente todos los resultados que se expondrán.

4.1 BREVE INTRODUCCIÓN

El AS ya ha sido definido al inicio de este trabajo, pero a día de hoy sigue siendo compli-cado describir una materia que comprende múltiples tareas, ligeramente distintas, pero que seencuentran todas bajo el paraguas del AS o minería de opinión: extracción de opiniones, mine-

ría de sentimientos, análisis de subjetividad, análisis emocional, minería de críticas, etc. En elámbito empresarial se utiliza frecuentemente el término AS, mientras que en el académico escomún utilizar conjuntamente AS o minería de opinión, ya que representan el mismo campo deestudio. El concepto análisis de sentimiento se utilizó por primera vez posiblemente en 2003(Nasukawa y Yi, 2003), mientras que el término minería de opinión se considera que apareciópor primera vez en un trabajo paralelo (Dave, Lawrence, y Pennock, 2003), aunque investiga-ciones en este campo aparecieron unos años antes (J. Wiebe, 2000; Das y Chen, 2001; Tong,2001; Morinaga, Yamanishi, Tateishi, y Fukushima, 2002; Pang y cols., 2002; Turney, 2002).En los siguientes apartados se detallarán algunas de las características que rodean a esta técnicay que serán necesarias para comprender los resultados alcanzados en este trabajo.

Aunque el PLN posee una larga historia, sus orígenes se remontan a 1950. Existe poco ma-terial sobre las opiniones y sentimientos de las personas antes de la década del año 2000. Desdeel inicio del nuevo siglo, la investigación en este campo ha sufrido un crecimiento exponencialy la razón principal de este suceso se debe al enorme abanico de posibilidades de aplicabilidad:casi cualquier terreno es susceptible de ello. Estos hechos favorecen una motivación única porinvestigar este dominio, ya que pocos campos de la ciencia ofrecen problemas que nunca hayansido estudiados como logra el AS. Además, por primera vez en la historia del ser humano, segenera un volumen de información «social» a través de las redes sociales tan grande que po-sibilita la investigación. Sin esta cantidad de datos, el crecimiento que describimos habría sidoimposible. Por tanto, el AS no sólo ha protagonizado un importante impacto en el PLN sino quetambién está dejando huella en el ámbito económico, político, social o de dirección.

4.2 APLICACIONES DEL AS

Las opiniones siempre han sido una de las actividades humanas más importantes debido asu capacidad de influencia en nuestro comportamiento (B. Liu, 2012). Siempre que necesitamosrealizar una decisión, queremos conocer la opinión de los demás. En la actualidad, los negocios

4 ANÁLISIS DE SENTIMIENTOS PÁGINA 13

Page 21: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

y empresas buscan con ahínco descubrir la opinión pública acerca de su producto o servicio.No sólo ellos: cualquier consumidor está interesado en conocer las opiniones de otros usuariosde un producto determinado antes de adquirirlo. Incluso algunos deciden su voto en una cam-paña electoral tras conocer la opinión de otros individuos acerca de los candidatos políticos. Elmétodo clásico para una persona cuando ha necesitado opinión acerca de algo, ha sido el depreguntar a familiares o amigos. Las empresas, en cambio, siempre han realizado encuestas,los gobiernos han utilizado los referéndum, etc. En definitiva, estos procesos han dejado clarosiempre el elevado coste de adquirir una opinión pública o de los consumidores, y sobre todo,el gran negocio que ha representado este sector para empresas especializadas en marketing,relaciones publicas o compañías especializadas en campañas políticas.

La popularidad alcanzada por el contenido que podemos encontrar en las redes sociales (porejemplo: discusiones en foros, blogs y micro-blogs, Twitter y sus 140 caracteres, críticas y co-mentarios) han contribuido a que las organizaciones sean cada vez más propensas a utilizar estainformación para la toma de decisiones. Hoy en día, nadie se conforma a preguntar a conocidossus opiniones, ya que en Internet se dispone de multitud de críticas y discusiones en foros públi-cos acerca de cualquier producto. Las empresas comienzan a dar de lado los métodos clásicosde encuestas y apuestan por reunir toda la información que necesitan a través de la opiniónpública disponible en la web. Sin embargo, esta tarea aparentemente sencilla se convierte en unproceso formidable debido a la diversidad de páginas webs. Cada sitio web ofrece gran cantidadde datos y no siempre es fácil descifrar su contenido para extraer las valiosas opiniones de losusuarios. Es por este hecho que el AS cobra importancia al ser una técnica automatizada.

En los últimos años hemos sido testigos de como las redes sociales han sido el hilo conduc-tor de revoluciones sociales y políticas. La llamada «Primavera Árabe» ocurrida entre 2010 y2013 es buen ejemplo de ello. O incluso han servido para cambiar la situación política de unpaís: el nacimiento de «Podemos» como ente político surgió en las redes sociales, por ejemplo.Todos estos hechos ponen de manifiesto la utilidad y necesidad de recolectar y estudiar las opi-niones vertidas en Internet, lo que llamaríamos datos externos. Por otro lado, las organizacionestambién poseen datos internos, como las valoraciones y quejas de sus clientes, que también sonsusceptibles para la aplicación del AS.

Por todas estas posibilidades el AS se ha expandido a otros dominios como la sanidad, ser-vicios financieros o el terreno político. También, empresas punteras en tecnología como Micro-soft, Google, Hewlett-Packard, SAP y SAS están desarrollando con éxito sus propios recursosy aplicaciones en este terreno.

Por último, es en el terreno de la investigación donde más resultados se están produciendo.Por ejemplo, algunas publicaciones (Y. Liu, Huang, An, y Yu, 2007) plantean un modelo deAS propuesto para la predicción de ventas. En otras (O’Connor y cols., 2010) se utilizan lasopiniones recolectadas en Twitter para compararlas con las encuestas de opinión, o para parapredecir los mercados bursátiles (Bollen, Mao, y Zeng, 2011).

4 ANÁLISIS DE SENTIMIENTOS PÁGINA 14

Page 22: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

4.3 LOS DISTINTOS NIVELES DE ANÁLISIS EN EL AS

En general, la investigación en el AS se puede clasificar en 3 niveles bien diferenciados:

A nivel de documento. La tarea en este nivel consiste en la clasificación de la opiniónque un documento expresa en su conjunto (Pang y cols., 2002; Turney, 2002). Es de-cir, hablaremos de una opinión globalmente positiva, negativa o neutra. Se asume quecada documento evalúa una sola entidad, por ejemplo algún producto, por lo que no esaplicable en aquellos que comparen múltiples entidades.

A nivel de oración. La tarea en este nivel consiste en evaluar oración a oración paradeterminar si expresa una opinión positiva, negativa o neutral, que significaría ausencia deopinión. Este nivel está estrechamente relacionado con la clasificación de la subjetividad(J. M. Wiebe, Bruce, y O’Hara, 1999), que básicamente distingue oraciones objetivas,que expresan información basada en los hechos, de las oraciones subjetivas, que expresanun punto de vista u opinión. Sin embargo, hay que recalcar que las oraciones objetivaspueden contener una opinión. Por ejemplo: «Tras tomar la droga, cesó el dolor». Estees el que se utilizará en este trabajo para obtener los resultados, al ser Twitter un lugaridóneo para su aplicación por su restricción de 140 caracteres.

A nivel de entidad y aspecto. Los dos anteriores no descubren con exactitud qué es loque a la gente le gusta o no, sino que se aproximan de una forma global, ya sea a niveldocumental o de oración. El análisis a nivel de aspecto en cambio sí lo consigue, centrán-dose directamente en la opinión e ignorando la estructura del lenguaje. También llamadonivel de característica (Hu y Liu, 2004) se basa en la idea de que la opinión consisteen un sentimiento (positivo o negativo) hacia un objetivo determinado. Por ejemplo: «La

calidad de mi Samsung S6 es inmejorable, pero la duración de su batería es patética»

evalúa dos características del producto; por un lado tenemos una valoración positiva so-bre la calidad, pero una opinión negativa acerca de su batería. Cualquiera de los otrosdos análisis no hubiese sabido asignar una opinión global a esta frase, al contener dosopiniones contrarias; sin embargo, el análisis a nivel de aspecto sí logra distinguir lo queexpresa el consumidor con su oración.

Con esta breve explicación queda claro que los dos primeros niveles ya suponen un gran retopara los investigadores, mientras que el último es aun más complicado si cabe.

4.4 MÉTODOS DE AS BASADOS EN LEXICÓN DE SEN-TIMIENTOS

Los indicadores de sentimientos más importantes en cualquier texto son aquellas palabrasque normalmente utilizamos para plasmar una opinión, pueden expresar un sentimiento positivo

4 ANÁLISIS DE SENTIMIENTOS PÁGINA 15

Page 23: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

o negativo, pueden ser nombres, verbos o adjetivos, principalmente esta última categoría. Porejemplo, palabras como «bueno», «maravilloso» o «impecable» denotan un sentimiento posi-tivo, mientras que «malo», «horrible» o «pésimo» sirven para expresar una opinión negativa.También existen expresiones o frases hechas que vienen a desempeñar la misma función. Portanto, un lexicón de sentimientos (o de opiniones) es aquel conformado por una lista de palabrascomo las descritas anteriormente.

Estos lexicones o diccionarios, pueden ser creados por uno mismo, aunque ya existen mul-titud de ellos, principalmente para la lengua anglosajona. En castellano ya comienzan a surgiralgunas opciones, aunque de difícil acceso; además, debido a las peculiaridades de este idioma,la realización de un lexicón se torna difícil y ardua debido a las limitaciones que presenta estametodología.

4.4.1. LIMITACIONES Y PROBLEMAS

Un lexicón de sentimientos es necesario para un correcto AS, pero no suficiente si es loúnico que usamos. Los problemas de estos métodos se detallan a continuación:

1. Una palabra que exprese un sentimiento positivo o negativo puede tener diferentes orien-taciones según el ámbito en el que se use. Por ejemplo, la palabra «salado» suele indicarun sentimiento negativo, «¿Te gustó la sopa? - Estaba salada», pero también puede im-plicar un sentimiento positivo, «¡Qué chico tan salado!».

2. En algunas ocasiones se puede dar el caso de que palabras que normalmente se asocian aun sentimiento, carezcan de éste. Suele ocurrir con frecuencia en las frases interrogativasy condicionales. Por ejemplo, «¿Puedes decirme cuál de estos restaurantes es bueno?» y«Si encuentro un restaurante bueno en la zona, comeré allí». Ambas oraciones compartenla palabra «bueno» que en este caso no expresa ninguna opinión negativa o positiva sobrealgún restaurante específico. Sin embargo esto no siempre es así, por ejemplo, «¿Sabe

alguien reparar este maldito móvil?» o «Si necesitas un buen médico, ve a esta consulta».

3. Las oraciones sarcásticas o irónicas son un duro problema a la hora de analizarlas, porejemplo, «¡Este secador de pelo es magnífico! Lo compré hace tres días y ya ha dejado

de funcionar». Aunque el sarcasmo y la ironía son difíciles de encontrar en una críticaacerca de un producto o servicio, es muy común hallarla en una discusión política, lo quedificulta su tratamiento.

4. Por último, algunas oraciones no poseen ninguna palabra que exprese sentimientos peroaun así llevan implícita una opinión. Normalmente suelen ser oraciones objetivas queexpresan un hecho sin emitir un juicio propio. Por ejemplo, «Esta bombilla consumemucha electricidad» implica una opinión negativa acerca de esa bombilla; es una oraciónobjetiva que expresa un hecho, pero aun así no contiene ninguna palabra que podamosencontrar en un lexicón de sentimientos.

4 ANÁLISIS DE SENTIMIENTOS PÁGINA 16

Page 24: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Estos problemas suponen los retos actuales para los investigadores en materia de AS pero, comoveremos más adelante, no son las únicas dificultades.

4.5 MÉTODOS DE AS BASADOS EN EL APRENDIZAJECOMPUTACIONAL

Este sistema tiene su punto fuerte en realizar el proceso de AS de una manera automáticay supervisada, basándose en conjunto de datos previamente etiquetados, denominados gene-ralmente como corpus de entretenimiento. Éstos serán usados para clasificar el resto de textorecopilado, realizando pruebas y procediendo a su validación posteriormente. Este método haceuso de la presencia y frecuencia de determinadas palabras en el texto, así como de su composi-ción semántica para extraer una opinión positiva, negativa o neutral; también influye la categoríagramatical de las palabras, como no podía ser de otra forma, siendo los adjetivos la principalfuente de información para catalogar una opinión.

Las principales técnicas clasificadoras que podemos encontrar para este sistema son: NaïveBayes, Máxima Entropía y Support Vector Machines (SVMs).

4.5.1. NAÏVE BAYES

Naïve Bayes (a partir de ahora NB) es a día de hoy uno de los métodos más utilizados para elAS, debido principalmente a su implementación relativamente sencilla y a los buenos resultadosque obtiene. Se basa en el teorema de Bayes y en la asunción de independencia de los atributospara, de esta forma, obtener la probabilidad de que un documento pertenezca a una determinadaclase según muestra la siguiente ecuación:

P(Ci|D) ∝ P(Ci) ∏1≤k≤nd

P( fk|Ci)

Donde P( fk|Ci) es la probabilidad condicional de ocurrencia de los atributos, fk, en undocumento de clase Ci y nd es el número de términos en el documento D . La clase seleccionadapor el clasificador, maximiza la probabilidad que se acaba de describir (Manning, Raghavan,Schütze, y cols., 2008).

4.5.2. MÁXIMA ENTROPÍA

Con este clasificador, a diferencia del anterior, no hay que asumir independencia entre losatributos. Utiliza la discriminación para describir a los documentos del conjunto de datos a par-tir de una lista de atributos, siendo cada uno de éstos una restricción del modelo. El objetivode la técnica es seleccionar la distribución de probabilidad que cumpla todas las restriccionesy maximice la entropía del modelo de manera que no se introduzca sesgo alguno en el sistema

4 ANÁLISIS DE SENTIMIENTOS PÁGINA 17

Page 25: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

(Manning y Schütze, 1999). Primero se define una función binaria que determina si en un do-cumento concreto ocurre una determinada clase Ci y está presente un término w específico, deforma que:

f (D,C) =

{1 si C =Ci y D contiene a wk

0 si no

donde C es la clase y D los términos. Por tanto, la probabilidad de que un documento o textopertenezca a una determinada clase está dado por la expresión:

P(c|x) =exp(∑N

i=0 wci fi)

∑c′∈C exp(∑Ni=0 wc′i fi

Donde, c es la clase que se desea evaluar, x es el documento, fies cada atributo, wcies elpeso asignado a ese atributo para la clase c que se está evaluando y wc′i es el peso del atributoen cada una de las posibles clases.

Los resultados con esta técnica son variados, pero en general la capacidad de predicciónronda el 75% de acierto.

4.5.3. SUPPORT VECTOR MACHINE (SVM)

SVM es un método muy utilizado en el ámbito del AS para la clasificación y detecciónde sentimientos. El entrenamiento consiste en hallar un hiperplano que separe los vectores deatributos que representan los documentos del conjunto de datos en dos grupos, siendo estaseparación la máxima posible (ver figura 1. Los vectores que defines los márgenes de dichaseparación se les asigna el nombre de vectores de soporte (Cortes y Vapnik, 1995).

La siguiente ecuación define el modelo de predicción para esta técnica:

f (x) = sign(∑i

αixi · x+b)

Donde, x representa el vector de atributos del documento, αi cada uno de los pesos asignadosa los vectores de atributos, conocido también como características de soporte, xi cada una delas características de soporte y b el término independiente. Si obtenemos un valor de −1 eldocumento pertenecerá a una clase mientras que un valor de +1 nos indicará la pertenencia aotra, lo que representa de qué lado del hiperplano se encuentra x (Dubiau y Ale, 2013).

4.6 OTRAS LIMITACIONES DEL AS

Además de las dificultades que se han descrito en el apartado del uso de lexicón de senti-mientos, el AS posee otros problemas generales relacionados principalmente con el lenguajey el PLN, en los que actualmente se está trabajando e investigando activamente para ofrecer

4 ANÁLISIS DE SENTIMIENTOS PÁGINA 18

Page 26: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Figura 1: Representación del funcionamiento del clasificador SVM

soluciones. El lenguaje humano es algo muy complejo, pero cada vez los resultados obtenidosson mejores y las aplicaciones del AS más amplias.

Variaciones regionales: una palabra puede expresar un sentimiento distinto dependiendodel lugar en el que se utilice. Esto se asocia principalmente a expresiones, dialectos ovariaciones del lenguaje propias de un lugar determinado. Por ejemplo, existen multitudde palabras en el castellano que no poseen carga sentimental asociada, mientras esasmismas palabras en el español de América Latina están cargadas de sentimientos.

Tratamiento de la negación: ya ha sido comentada al inicio de este trabajo, ya que elgrupo SINAI de la Universidad de Jaén se encuentra trabajando en ello. Es uno de losproblemas actuales al que más atención se le está prestando por ser un elemento claveen el AS. La oración «No me gusta el tiempo de esta ciudad» es un claro ejemplo de loque aquí se describe. Una oración de opinión negativa pero que posee un término positivonegado (gusta).

Correferencia: es el fenómeno lingüístico en el que se produce una referencia al mismoobjetivo por dos o más expresiones en el mismo texto. Algunos investigadores (Nicolov,Salvetti, y Ivanova, 2008) han demostrado el incremento en un 10% aproximadamentedel AS cuando se tiene en cuenta este suceso.

Estas razones, junto a las anteriormente descritas, son las responsables de que a día de hoy elAS no sea una herramienta totalmente aceptada. No se puede confiar ciegamente, por tanto, enlos resultados obtenidos. Esto no es descorazonador, al contrario, sino que demuestra que al ASaún le queda un largo camino por recorrer y en el que afrontar retos y desafíos impresionantes.

4 ANÁLISIS DE SENTIMIENTOS PÁGINA 19

Page 27: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

5 | RESULTADOSEn este capitulo se analizan los resultados obtenidos tras aplicar AS y la información que se

puede extraer tras el uso de esta técnica.En primer lugar, se extrajeron muestras de tuits para cada uno de los protagonistas políti-

cos: Donald Trump y Hillary Clinton en representación de los Estados Unidos, Angela Merkely Vladimir Putin en representación de Europa; y finalmente, Mariano Rajoy, Pedro Sánchez,Pablo Iglesias y Albert Rivera en representación de España. Los tuits fueron recopilados en elperíodo comprendido entre el 9 y 23 de Mayo de 2016. Tras depurarlos y prepararlos, seránsometidos al AS para intentar extraer información acerca de las preferencias de los usuarios deTwitter respecto a dichos candidatos.

Para analizar los tuits, los métodos utilizados variarán dependiendo del idioma de los mis-mos. Para los representantes estadounidenses y europeos, se recopilarán en inglés y se aplicaráel clasificador Naïve Bayes a la hora de realizar el AS. En cambio, para los representantes es-pañoles, debido a la falta de técnicas adaptadas al castellano en R, utilizaremos un diccionariode lexicón propio para realizar el AS.

5.1 EXTRACCIÓN DE TUITS DESDE LA API DE TWIT-TER

Tras explicar anteriormente el proceso para conectar R y Twitter y lograr acceso a la APIde este último llega la hora de comenzar a minar tuits con los que poder trabajar. Para ello sedetalla a continuación los paquetes utilizados para la elaboración de un script que nos permitaextraer información fácilmente:

twitteR : utilizado para la interconexión entre R y Twitter, este paquete ofrece muchasmás funciones relacionadas con la API de Twitter.

sentiment : dicho paquete ya no se encuentra disponible en el repositorio de CRAN,pero aun se puede seguir trabajando con el descargando el código fuente e instalándolocomo una librería más de R. Es vital en nuestro trabajo, ya que será el que nos permiteclasificar las emociones extraídas del texto.

plyr : es el encargado de separar los tuits palabra por palabra una vez estos hayan sidodepurados, requisito imprescindible para que el análisis de sentimientos se pueda aplicarcorrectamente.

ggplot2 : este paquete permite múltiples visualizaciones gráficas de los resultados cate-gorizados.

5 RESULTADOS PÁGINA 20

Page 28: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

wordcloud : como su propio nombre indica, esta librería permite la creación de nubes depalabras con los resultados obtenidos.

RColorBrewer : con este paquete podremos personalizar la paleta de colores disponiblepara los dos anteriores paquetes y así conseguir estilos visuales más interesantes.

httpuv : necesario para el «handshake» con la web.

RCurl : como vamos a realizar peticiones a un servidor web y queremos que nos devuel-van unos resultados, se necesita un paquete auxiliar para que R lo admita todo bien.

### Conectamos todas las librerías que vamos a necesitar

library(twitteR)

library(sentiment)

library(plyr)

library(ggplot2)

library(wordcloud)

library(RColorBrewer)

library(httpuv)

library(RCurl)

Una vez realizada la autorización como se ha detallado en la metodología, es hora de realizarlas búsqueda.

En primer lugar, vamos a centrarnos en analizar la opinión y sentimientos que despiertandos políticos que en el momento de redacción de la memoria, se hayan en plena carrera por lapresidencia de los Estados Unidos, Donald Trump y Hillary Clinton.

En el momento de la redacción de esta sección y en el que se extrajeron los datos, todoapunta a que el magnate estadounidense Donald Trump será el candidato a la presidencia porel partido republicano. Su campaña se está basando en un discurso duro contra la inmigracióny el lema «Make America Great Again» (Hagamos grande a América otra vez). La prensarefleja una fuerte polarización de su imagen, despertando importantes simpatías en los sectoresmás conservadores de la sociedad estadounidense, pero un rechazo radical en otros colectivos,incluso dentro de su propio partido.

Por el partido demócrata la candidata con más posibilidades es Hillary Clinton. Como Secre-taria de Estado de Obama ha sabido ganarse el favor del partido y para muchos se ha postuladocomo una candidata ideal para el llamado establishment. Su campaña ha llamado la atenciónpor el respaldo recibido por múltiples donadores multimillonarios que han colaborado con ella.En cada evento de esta campaña su maquinaria política despliega una potente parafernalia quehacen de ella un duro rival. Pese a estos comentarios, Clinton no termina de despegar, principal-mente debido a la presencia y el protagonismo inesperado del candidato Bernie Sanders, que,según las encuestas, cuenta con el fervor juvenil, lo que puede suponer un escollo para HillaryClinton.

5 RESULTADOS PÁGINA 21

Page 29: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Figura 2: Donald Trump y Hillary Clinton

En segundo lugar, en Europa vamos a realizar el AS y opinión que despiertan dos políticosdestacados: Angela Merkel, actual canciller de Alemania, y Vladímir Putin, presidente de Ru-sia. Ambos son un buen objeto de análisis desde el punto de vista de un AS debido a que larelevancia de sus figuras, con fuertes influencias en las políticas económicas y migratorias, enel caso de Merkel, o socio-estratégicas y militares en el caso de Putin.

Por último, nos centraremos en los principales representantes políticos españoles para lasElecciones Generales 2016. Realizaremos los mismos pasos que con sus homólogos anteriorespero con la salvedad de que únicamente serán extraídos tuits en español. Como para R noexiste actualmente una forma de utilizar técnicas de aprendizaje computacional en español,utilizaremos un lexicón en español adaptado específicamente para este trabajo (Hu y Liu, 2004).

Como la disciplina del AS es relativamente joven, la mayoría de la metodología y técnicasactuales se han desarrollado para textos escritos en inglés, por lo que restringiremos nuestrabúsqueda a ese idioma en exclusiva para los representantes internacionales. Para comenzar,extraeremos muestras de 15.000 tuits para cada político mencionado anteriormente: esto hace untotal de 60.000 tuits extraídos mediante la search API de Twitter. Cabe mencionar la posibilidadde exigir un rango de tiempo en la extracción de tuits pero, debido a la popularidad de lossujetos analizados, los tuits recopilados no exceden los dos días, lo que lo hace innecesario.El paquete twitteR también ofrece posibilidades para restringir las zonas geográficas, útil sise quiere conocer la ubicación desde donde se publicó el tuit, pero debido a que dicha opcióntiene un uso insignificante en Twitter, más adelante detallaremos la forma de obtener la posiblelocalización del emisor.

5 RESULTADOS PÁGINA 22

Page 30: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Figura 3: Angela Merkel y Vladimir Putin

A continuación mostramos el código necesario para la extracción de los 15.000 tuits rela-cionados con Donald Trump:

### Extracción de tuits

# Extracción

Trump <- searchTwitter("Trump", n=15000, lang="en")

Trumpdf <- twListToDF(Trump)

#Selección del texto desde el archivo JSON

Trumptxt <- sapply(Trump, function(x) x$getText())

Con la primera línea del código obtenemos los tuits deseados tras establecer el tópico, nú-mero de tuits e idioma. Hay que recalcar que mediante la librería utilizada estamos utilizandola search API de Twitter, que siempre nos devuelve una lista de aquellos tuits que más enca-jan con nuestro criterio. La search API se caracteriza por disponer sólo de aquellos tuits másrecientes, es decir, los publicados en los últimos 7-10 días. Para una búsqueda más profunday exhaustiva se necesitaría utilizar librerías que brindasen acceso a trabajar con la Stream API

o con la Rest API de Twitter. Los beneficios de dichas API residen en la posibilidad de crearuna base de datos donde ir almacenando tuits continuamente y actualizarlos regularmente. Paranuestros propósitos, basta con la search API.

Tras obtener los tuits deseados, Twitter proporciona como salida un fichero JSON cuyo for-mato y estructura ya se describió anteriormente. Para poder trabajar más cómodamente, trans-formamos los tuits en un dataframe u hoja de datos, más manejable, mediante la segunda líneade código. El resultado es un conjunto de datos con 16 variables y 15.000 observaciones (verFigura 4).

5 RESULTADOS PÁGINA 23

Page 31: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Figura 4: Vista parcial de una muestra de tuits recopilados e incluidos en el dataframe

Finalmente, la última línea de código se utiliza para extraer el «texto» o tuits del archivoJSON que se puede apreciar en la figura anterior, para poder comenzar a trabajar con ellos.

5.2 DEPURACIÓN DE TUITS

Como hemos comentado anteriormente, los tuits que quedan recogidos en la base de da-tos resultante del proceso de recolección, mediante el código anteriormente descrito, contienenciertos elementos extraños como emoticonos, hiperenlaces u otros caracteres a menudo utiliza-dos en la red social, que no permiten la correcta ejecución del análisis. El objetivo del siguientepaso del proceso, que llamaremos de depuración, es precisamente el de eliminar cualquier con-tenido en los tuits carente de contenido emocional, como los anteriormente mencionados o lossignos de puntuación.

El código utilizado es el siguiente (se aplica de nuevo, a modo de ejemplo, a los tuits reco-pilados sobre Donald Trump):

### Depuración del texto

# Borrado de RTs

Trumptxt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", Trumptxt)

# Borrado de usuarios o menciones

Trumptxt <- gsub("@\\w+", "", Trumptxt)

# Borrado de puntuación

Trumptxt <- gsub("[[:punct:]]", "", Trumptxt)

# Borrado de números

Trumptxt <- gsub("[[:digit:]]", "", Trumptxt)

# Borrado de hiperenlaces

Trumptxt <- gsub("http\\w+", "", Trumptxt)

# Borrado de espaciado innecesario

Trumptxt <- gsub("[ \t]{2,}", "", Trumptxt)

Trumptxt <- gsub("^\\s+|\\s+$", "", Trumptxt)

5 RESULTADOS PÁGINA 24

Page 32: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Tras esta etapa inicial de depuración, es aún necesario aplicar filtros al cuerpo del texto pa-ra eliminar conflictos en el posterior análisis. Para ello definimos la función try.error, queaplicaremos al cuerpo de texto que tenemos para minimizar posibles problemas en el análisis.Cuando se trabaja en R y hay que enfrentarse al procesamiento de texto es imprescindible ladepuración y limpieza de éste, que ya se ha realizado en el paso previo. Pese a ello, es muy pro-bable encontrarse con errores de texto indeseado que nos impidan seguir trabajando. La funcióntolower se encarga principalmente de establecer que todas las palabras estén escritas en minús-culas y es una de las responsables de ahorrarnos estos problemas, aunque en muchas ocasionesno termina de solucionar los fallos. Es aquí cuando entra en escena la función tryCactch quejunto a tolower() nos ayudarán a conseguir un texto limpio y listo para nuestro análisis.

### Definimos la función tolower para transformar todo el texto en minúsculas

try.error <- function(x)

{

# Creamos la variable para los valores perdidos

y <- NA

# función tryCatch para cazar errores

try_error <- tryCatch(tolower(x), error=function(e) e)

# si no es un error

if (!inherits(try_error, "error"))

y <- tolower(x)

# Resultado

return(y)

}

# Aplicación de la función a nuestro texto

Trumptxt <- sapply(Trumptxt, try.error)

Para acabar, debemos evitar que en nuestro texto aparezcan valores faltantes o NA trasejecutar la función try.error, lo que puede lograrse mediante la siguiente línea:

# Borrado de NAs tras ejecutar la función try.error

Trumptxt <- Trumptxt[!is.na(Trumptxt)]

5.3 ANÁLISIS DE SENTIMIENTOS

El proceso de depuración permite abordar a continuación el AS propiamente dicho. Eneste trabajo utilizaremos la función de clasificación de emociones perteneciente al paquetesentiment, la cuál además de realizar el AS, ofrece una clasificación de la emoción que des-prende el tuit (puede ser furia, alegría, miedo, desagrado, tristeza o sorpresa). Para ello, utilizael clasificador de Naïve Bayes entrenado con los diccionarios de emoción realizados por CarloStrapparava y Alessandro Valitutti’s (Strapparava, Valitutti, y cols., 2004). Hay que recordar que

5 RESULTADOS PÁGINA 25

Page 33: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

este método sólo podemos aplicarlo a los representantes estadounidenses y europeos, ya que susbúsquedas serán restringidas al idioma anglosajón para la correcta aplicación de la técnica.

5.3.1. CONTEXTO DE PRIMARIAS EN ESTADOS UNIDOS. TRUMP Y CLINTON

Comenzamos nuestros análisis en el continente americano con los representantes DonaldTrump y Hillary Clinton. Mostramos y comentamos el código relativo al análisis para DonaldTrump.

#### ANALISIS DE SENTIMIENTOS

# Clasificamos las emociones desprendidas por los tuits

class_emo <- classify_emotion(Trumptxt, algorithm="bayes", prior=1.0)

# Imputamos las emociones que mejor encajan a cada uno

emotion <- class_emo[,7]

# Se sustituyen los NAs por "unknown"

emotion[is.na(emotion)] <- "unknown"

# Clasificamos la polaridad

class_pol <- classify_polarity(Trumptxt, algorithm="bayes")

# Imputamos la polaridad que mejor encaja a cada tuit

polarity <- class_pol[,4]

# Se crea un data frame con los resultados y obtenemos estadísticas generales

sent_df <- data.frame(text=Trumptxt, emotion=emotion,

polarity=polarity, stringsAsFactors=FALSE)

# Ordenamos los resultados del data frame para su posterior representación

sent_df <- within(sent_df, emotion <- factor(emotion, levels =

names(sort(table(emotion), decreasing = TRUE))))

ANÁLISIS DE EMOCIONES

Tras ejecutar estos pasos, podemos comenzar a analizar los resultados relativos a DonaldTrump y Hillary Clinton (Figura 5):

Como se puede observar, la mayoría de los tuits analizados poseen un contenido emocionaldesconocido. Esto es habitual y se debe a distintas causas:

La mayoría de los tuits extraídos se compone de frases objetivas que no reflejan emociónalguna. Un ejemplo de tuit clasificado con emoción desconocida:

• ’Poll shows Sanders beating Trump in crucial swings states of Pennsylvania, Ohio

and Florida. Clinton doesn’t.’ donde al expresar un hecho el algoritmo no detectaninguna emoción que encaje correctamente y lo clasifica como desconocido.

En otras ocasiones hay que recordar que el AS no es algo infalible, por lo que simple-mente es incapaz de identificar la emoción subyacente. Pueden existir faltas ortográficas,

5 RESULTADOS PÁGINA 26

Page 34: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

(a) Emociones hacia Donald Trump (b) Emociones hacia Hillary Clinton

Figura 5: Gráficos de AS clasificados según emociones

dialectos o algún tipo de argot que el AS no sepa encajar en ninguna categoría debidoprincipalmente a las abreviaciones en el lenguaje utilizadas por muchos usuarios en laweb.

Para poder categorizarlos en una emoción concreta el algoritmo debe identificar una serie depalabras determinadas que le otorguen al tuit una puntuación suficiente. Algunos ejemplos detuits que son clasificados correctamente en una emoción debido a las palabras que contienen ylo que éstas expresan:

’I’ve waited 18 years to be able to vote and I get to choose between Donald Trump &

Hillary Clinton is this a joke’ claramente expresa tristeza ante la situación política y comotal es clasificado correctamente.

’I love my parents, and I want my mother to be president.... #ChelseaClinton’ que, segúnel algoritmo, pertenece a la categoría de alegría.

En términos comparativos, podemos destacar que:

1. Clinton presenta una proporción mucho mayor de tuits no clasificados.

2. Aunque pueda parecer sorprendente desde la perspectiva que presenta la prensa europea,el sentimiento de júbilo (joy) es más frecuente en términos absolutos y proporcionales enTrump que en Clinton, si bien es cierto que el nº de tuits no clasificados es superior en lacandidata demócrata.

5 RESULTADOS PÁGINA 27

Page 35: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

(a) Polaridad hacia Donald Trump (b) Polaridad hacia Hillary Clinton

Figura 6: Gráficos de AS clasificados según polaridad

3. Sí coincide con la percepción que transmiten los medios europeos el hecho de que Trumpgenera más sentimientos negativos, como tristeza (sadness), ira (anger), miedo (fear) yrepulsión (disgust).

ANÁLISIS DE LA POLARIDAD

En el análisis de la polaridad los sentimientos sólo se agrupan en positivos o negativos,simplificando el análisis. Observamos (Figura 6):

De los 15.000 tuits extraídos en alusión a Donald Trump, en exactamente 8.881 tuits(59.2%) se expresa una opinión positiva sobre el magnate estadounidense. Insistimos enque hay que admitir que este datos contrasta con la percepción que transmiten la mayo-ría de la prensa europea. Aunque muchos medios se hacen eco de un discurso duro, enespecial con ciertos colectivos, parece que en Twitter no se tiene una opinión claramentenegativa de él.

Respecto a Hillary Clinton, lo primero que llama la atención es que existe menos neu-tralidad hacia ella que respecto a Trump, pero también sorprende el número de tuits conopinión negativa hacia ella, 4.250 para ser exactos (28.3% frente a 17% de Trump). Encuanto a opiniones positivas, de los 15.000 tuits extraídos en alusión a Hillary Clinton,8.237 (54.9%) son clasificados como opiniones positivas hacia la precandidata, algo in-ferior a su contrincante.

5 RESULTADOS PÁGINA 28

Page 36: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Figura 7: Nube de palabras de Donald Trump

ANÁLISIS MEDIANTE NUBE DE PALABRAS

Como hemos comentado en el apartado de metodología, una nube de palabras es una repre-sentación visual de la frecuencia de ciertas palabras extraídas de un texto. Ayudan a visualizaraquellas palabras que poseen cierto peso y con las que extraer algunas conclusiones. Combina-da con el análisis de emociones realizado sobre los datos, proporciona algo más intuitivo paraconocer lo que la gente siente cuando tuitea sobre el tema en cuestión.

La nube correspondiente a Donald Trump aparece en la Figura 7. En esta imagen podemosapreciar las palabras que fueron clasificadas con emociones pertenecientes al conjunto de tuitsque contenían su búsqueda. El tamaño de las palabras crece según lo hace su frecuencia en losdatos. Por tanto, podemos obtener algunas conclusiones observando dichas palabras:

5 RESULTADOS PÁGINA 29

Page 37: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

En la categoría tristeza podemos observar como principales palabras protagonistas a«get», «vote», o «supporters». Podría ser un reflejo de la imagen negativa existente haciaDonald Trump, en la cuál muchísimas personas se preguntan como alguien con semejantediscurso puede recibir apoyos.

En la categoría de alegría, destacan palabras como «like», «good», o «presidency». Estonos puede llevar a entender los resultados previos con el AS, los cuales mostraban unagran masa de apoyos en forma de tuits positivos. La ideología y el discurso de Trump en-caja e identifica a muchísimos estadounidenses, que ven en su figura un futuro presidentede los EEUU.

En la categoría desconocida se agrupan aquellas palabras que no han encajado en ningunacategoría emocional.

En la categoría desagrado «turn», «tired» o «disgusting» son las palabras más destacadas.

En la categoría miedo podemos leer «scared», «neverhillary» o «crime». El uso de es-tas palabras nos permite identificar que los usuarios aquí representados están insegurosrespecto al futuro de la nación con Trump al mando.

En la categoría sorpresa están resaltadas con fuerza palabras como «candidate», «bernie»o «beat», en clara alusión a Bernie Sanders y su meteórica ascensión los últimos días pre-vios a la toma de datos, que ha abierto la posibilidad de que pueda convertirse finalmenteen el rival a batir por el candidato republicano, frente a la a priori favorita Hillary Clinton,que muchos dan por hecho.

Por último, en la categoría furia, podemos ver algunas palabras como «hate», «gonna» o«war», contenidas habitualmente en el discurso de Trump.

Por otro lado, tenemos la nube de palabras formada por los tuits que contenían la búsqueda deHillary Clinton (Figura 8). Destacamos:

En la categoría de sorpresa aparecen las palabras «top», «beat», «west» y «virginia». Serefleja la inesperada derrota de Clinton en este estado a favor del otro candidato demócrataque viene con fuerza, Bernie Sanders.

Destacan en el centro y categorizadas como desagrado las palabras «turn», «queasy» o«hillary» en clara alusión al descontento de parte del partido de Clinton.

En esa misma categoría encontramos palabras como «hillary», «won» y «nebraskacau-

cus». Estas representan el desagrado de muchos votantes hacia la posible victoria de lacandidata demócrata en el estado de Nebraska, días previos a la votación de los caucus.Un caucus es una reunión asamblearia en la que sus miembros deciden a qué candidatovotar. Se convocan por distritos electorales y se diferencia de las primarias por ser unmétodo de votación o consenso típicamente americano.

5 RESULTADOS PÁGINA 30

Page 38: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Figura 8: Nube de palabras de Hillary Clinton

5 RESULTADOS PÁGINA 31

Page 39: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

En los días de recopilación de los tuits, Hillary hacía parada en Louisville, donde recibíaun baño de masas. Los tuits catalogados en miedo representan algún que otro hecho rese-ñable, como el que dejan las palabras «scared» y la propia «louisville». Muchos usuariosen Twitter compartían un tuit destacado en esos días: «A Trump presidency is scary, so is

a Hillary Clinton presidency».

En la categoría de alegría, tenemos palabras como «like», «campaign» y «bill». Estos tuitshacen referencia a la alegría despertada por Hillary entre muchos seguidores al recordarsu estilo de discurso al de su marido Bill Clinton, ex-presidente de los Estados Unidos.

En cambio, en la categoría de furia encontramos palabras como «gonna», «dirty», «deba-ting» que, frecuentemente utilizadas por sus detractores, catalogan las palabras de Hillaryde injustas, al dedicar ataques tanto a su rival político, Donald Trump, como a los com-petidores de su propio partido.

5.3.2. CONTEXTO EUROPEO. MERKEL Y PUTIN

Realizado el AS sobre los candidatos americanos es hora de seguir los mismos pasos paralos europeos. Los tuits han sido recopilados de la misma manera y el idioma de éstos ha sidorestringido al inglés. Por lo tanto podemos comenzar con los análisis.

ANÁLISIS DE LAS EMOCIONES

La Figura 9 contiene la distribución de frecuencias de los tuits, clasificados por sentimientos,para Merkel y Putin. Podemos destacar:

(a) Emociones hacia Angela Merkel (b) Emociones hacia Vladimir Putin

Figura 9: Gráficos de AS sobre Angela Merkel y Vladimir Putin clasificados según emociones

5 RESULTADOS PÁGINA 32

Page 40: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Como el análisis anterior, la mayoría de los tuits recopilados no desprenden una emociónclara, por lo que la mayoría terminan encajados en la categoría de desconocida. Veamosalgunos ejemplos:

• «Two of three Germans don’t want #Merkel to be the Chancellor for her fourthterm», donde simplemente se expresa un hecho objetivo carente de emoción y que,por tanto, es clasificado como desconocido.

• «@SouthLoneStar: Thousands of protestors clash in Berlin over Merkel’s refugeepolicy.» Otro ejemplo más de un tuit carente de emociones. En este caso el algoritmoha funcionado como se esperaba, pero no es infalible. Veamos otro ejemplo.

• «@CalFreedomMom Amen!!! We don’t need a Putin in America (He has stolen anestimated 200B [YES BILLION!!!] from his own people. #ImagineHilly». Clara-mente expresa una opinión de desagrado hacia Vladimir Putin pero al que el algo-ritmo no consigue imputar emoción alguna.

Si acudimos a los tuits que sí han recibido una calificación emocional, podemos encontraren los gráficos alguna que otra curiosidad que los diferencia claramente de sus homólogosnorteamericanos. En el caso de Putin, parece despertar alegría y miedo a partes iguales, yaque los tuits con dichas emociones tienen similar frecuencia (1650 catalogados de alegrespor 1149 de tristes). Veamos algunos ejemplos:

• «Putin Makes Stunning Offer to Scared Brits After London Elects First Muslim Ma-yor» se cataloga en miedo, posiblemente debido a la polémica surgida de la elecciónde Sadiq Khan como alcalde de Londres.

• «Monstrous and grotesque how #NATO membership proffers legitimacy to a tyranteasily on the level of #Putin. #Erdogan» en este caso, el usuario muestra la impo-tencia ante la intervención de Rusia en el conflicto sirio.

• «@akahnnyc: Many Gay Russians Support Vladimir Putin’s Presidency»: este men-saje, en cambio, es catalogado de alegre.

• «@J_Bloodworth: Beware those critics that prefer Putin’s propaganda to the BBC»:otro mensaje catalogado de alegre donde se muestra apoyo al presidente ruso a pesarde las críticas procedentes de la BBC.

ANÁLISIS DE LA POLARIDAD

Analizadas las emociones, volvamos a la clasificación por polaridad, que es más simple yconciso. En la Figura 10 se muestran los gráficos correspondientes al análisis para Angela yMerkel y Vladimir Putin.

Al igual que hicimos en el caso anterior, ahora podemos visualizar los 15.000 tuits de cadapolítico clasificados según si lo que refleja es un sentimiento positivo, neutral o negativo. En

5 RESULTADOS PÁGINA 33

Page 41: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

(a) Polaridad hacia Angela Merkel (b) Polaridad hacia Vladimir Putin

Figura 10: Gráficos de AS clasificados según polaridad

primer lugar, sorprende ver cómo Angela Merkel despierta tanto sentimiento negativo, 5.123tuits (34.2%), si lo comparamos con los candidatos estadounidenses. Los tuits recopilados de-ben contener la clave de por qué esta actitud hacia la canciller alemana, para lo que la nube depalabras nos podría ayudar. Por el otro lado, tenemos que el presidente ruso, al igual que pasabaen el anterior apartado con las emociones alegría-miedo, también despierta cierta actitud nega-tiva en los usuarios de Twitter: 4.037 tuits (26.9%) han sido catalogados con dicha polaridad,pero a pesar de ello, los tuits positivos son los mayoritarios.

ANÁLISIS MEDIANTE NUBE DE PALABRAS

Como ya explicamos anteriormente, la nube de palabras puede ser muy útil para extraerlas conclusiones entre los gráficos analizados. En el caso de Angela Merkel puede ayudarnos adescubrir que hay detrás de tanta opinión negativa:

Pasemos a analizar la nube de palabras de la Figura 11 que, a simple vista, arroja unosresultados interesantes:

Lo primero que llama nuestra atención es la gran representatividad de la zona catalogadacomo miedo. Palabras como «terror», «attack», «muslim», «knife» o «germany» nos danla pista de lo sucedido. Tras una pequeña búsqueda en Internet, encontramos la noticiaque se produjo en el momento de recopilación de estos tuits. Un ataque con cuchillo enuna estación cerca de Munich, en Grafing para ser exactos, se saldó con un ciudadanoalemán muerto y tres heridos. El culpable, un ciudadano alemán de 27 años que cometiólos crímenes al grito de «Allahu akbar». Con esta información podemos entender mejorcómo se desarrollaron los tuits esos días.

5 RESULTADOS PÁGINA 34

Page 42: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Figura 11: Nube de palabras de Angela Merkel

5 RESULTADOS PÁGINA 35

Page 43: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Un ejemplo de lo que desencadenó dicho ataque lo podemos encontrar en las categoríasde furia y desagrado. En la primera vemos palabras como «policy», «hate» o «lefty», estaúltima precisamente un insulto hacia las personas cuyo pensamiento es de izquierdas.En la otra categoría encontramos claramente palabras como «germans», «turn» y «sick».Es fácil extraer de conclusión que tras el ataque en la estación de Grafing, comenzarona brotar tuits dirigidos hacia Angela Merkel y su cuestionada política con aceptar a losrefugiados sirios, y es que hay que recordar que en los primeros momentos del ataque, lared se agitaba con rumores infundados de que el ataque había sido protagonizado por unrefugiado.

Por último, en la categoría de tristeza se encuentran palabras como «david», «cameron»y «brexit», en clara alusión al proceso que ha iniciado el primer ministro inglés para elinicio del proceso participativo que dirima si el Reino Unido debe abandonar la UniónEuropea. Los tuiteros transmiten tristeza en cuanto a esta posibilidad.

Por último, veamos lo que nos puede ofrecer la nube de palabras de Vladimir Putin (Figura 12):

La categoría que llama más nuestra atención y que posee las palabras más representativasqueda claro que es miedo. Términos como «goodbye», «pal», «opec» hacen referencia alas últimas noticias que señalan el posible fin de la OPEP (Organización de Países Expor-tadores de Petróleo) ya que es un tema que preocupa bastante en el país. Hay que recordarque las tensiones internas en dicha organización han contribuido a los precios más bajosen el crudo desde hace más de una década. Este hecho ha repercutido seriamente en Rusia,uno de los países exportadores más importantes.

En la categoría de furia, destacan palabras como «war», «syria», «new», «weapons» o«quality» en clara alusión a la declaraciones emitidas por Vladimir Putin en las que infor-maba del éxito que está teniendo la intervención rusa en el conflicto sirio, el cual segúnsus palabras ha servido para mostrar al mundo la efectividad y la calidad del nuevo equi-pamiento de guerra del país (noticia que en Twitter fue recibida con desagrado).

5.3.3. CONTEXTO ESPAÑOL. ELECCIONES GENERALES 2016

El AS, a pesar de ser una técnica relativamente nueva, ha experimentado un crecimientoincreíble debido a su utilidad, y esto se traduce en resultados cada vez más impresionantes. Elúnico problema para nosotros es que dichos resultados se producen mayoritariamente para lalengua anglosajona. Todos los algoritmos detallados en la teoría e incluso los utilizados en losejemplos anteriores están estructurados y pensados para textos en inglés.

Por tanto, si se quiere comenzar a utilizar dicha técnica en nuestra lengua nativa hay queempezar desde cero prácticamente. Comparado con el inglés, el español es un idioma altamenteflexible que distingue género, plural en los nombres y cuenta con un sistema de verbos únicocon 45 posibles desinencias verbales. Esto dificulta el aprovechamiento de los recursos actuales.

5 RESULTADOS PÁGINA 36

Page 44: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Figura 12: Nube de palabras de Vladimir Putin

5 RESULTADOS PÁGINA 37

Page 45: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Aun así, podemos decir que el español cada día cuenta con más recursos para el AS, principal-mente desarrollados para Python.

El grupo de investigación SINAI de la Universidad de Jaén, que actualmente se encuentratratando de lleno aspectos clave del AS, como el tratamiento de la negación o el análisis a nivelde aspecto o característica, desarrolla su trabajo en la plataforma Python. En la realización deeste trabajo se consideró esta posibilidad. Para la construcción de nuestro propio modelo predic-tivo para la realización de AS simplemente necesitábamos un dataset previamente categorizadoen español, obviamente. En España, un material así lo puede proporcionar la SEPLN (SociedadEspañola del Procesado del Lenguaje Natural) previa firma de una licencia de investigación.Tras esto, se proporciona acceso a su corpus TASS, un corpus general que contiene más de68.000 mensajes de Twitter escritos en español por 150 usuarios bien conocidos en el mundo dela política, economía, comunicación y cultura, y que incluye nacionalidades de España, México,Colombia, Puerto Rico, Estados Unidos y otros países, consiguiendo así que el corpus alcanceuna cobertura total del mundo hispanohablante.

Cada mensaje está etiquetado con una «polaridad global», que nos indica si el texto expresaun sentimiento neutral, positivo o negativo. El formato de los archivos del corpus es XML y acontinuación podemos observar algún ejemplo:

<tuit>

<tuitid>171725969583910912</tuitid>

<user>garcia_abadillo</user>

<content><![CDATA[La solución griega no me convence. 130.000 millones para

devolver deuda. Eso, por sí sólo, no mejorará la

situación.]]></content>

<date>2012-02-20T23:40:36</date>

<lang>es</lang>

<sentiments>

<polarity><value>N+</value><type>AGREEMENT</type></polarity>

</sentiments>

<topics>

<topic>economía</topic>

<topic>política</topic>

</topics>

</tuit>

Utilizando el campo content que guarda el contenido del tuit y el campo polarity.value quecontiene la polaridad del tuit, unido al uso de Python, se puede realizar AS en español. Utili-zando el corpus de entrenamiento «enseñamos» al ordenador a detectar y predecir sentimientosde cualquier tuit que incluyamos posteriormente.

5 RESULTADOS PÁGINA 38

Page 46: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

ANÁLISIS DE SENTIMIENTOS EN CASTELLANO DEL PANORAMA POLÍTICOACTUAL

Para realizar el AS en castellano podemos recurrir a otros métodos que proporcionan unanálisis igual de válido y útil que cualquier otro de los establecidos: el uso de un dicciona-rio o lexicón. Respaldado en múltiples estudios, arroja resultados semejantes a los basados enAprendizaje Computacional. Se basa en la utilización de una lista de palabras catalogadas co-mo positivas y negativas. Para las peculiaridades de Twitter funciona perfectamente, ya que ellímite de 140 caracteres facilita la tarea. Cada tuit se procesa para, posteriormente, compararpalabra por palabra con las listas mencionadas y asignarle una puntuación. Tras concluir dichatarea no es difícil agrupar por tuits positivos y negativos dependiendo de su puntuación.

Por tanto, lo único que necesitamos es un diccionario de palabras positivas y negativasen español, aunque es en este punto donde el problema se complica, debido a que en la webpodemos encontrar muchos diccionarios para el AS, pero la gran mayoría se encuentra en inglés:

SentiWordNet es una de las más reconocidas, asigna a cada palabra un valor, entre 0 y1, para catalogarla de positiva, negativa o neutral.

LIWC es otro diccionario bastante completo. Este en especial es de los pocos que ofrececontenido en español, pero su calidad y cantidad aun tiene mucho por hacer.

General Inquirer es otra herramienta que ademas de catalogar cada palabra le asignavalores como placer, dolor, fuerza...

Por tanto, para realizar nuestra aproximación a un AS en castellano hemos decidido utilizar losdiccionarios compuestos por unas 7.000 palabras que se han ido recopilando en varias publi-caciones (Hu y Liu, 2004). Las palabras fueron traducidas al español; tras esto, para corregirmalas traducciones, matizaciones y que toda palabra estuviese presente solo una vez, se repa-saron ambas listas exhaustivamente. El resultado fueron cerca de 8.000 palabras en español,principalmente adjetivos, donde se tuvo en cuenta el género, plural, adverbios y se utilizaronsinónimos para maximizar la cobertura del diccionario sobre textos en español. Por último, tam-bién se añadieron palabras con falta de ortografía adrede para intentar identificarlas, ya que hayque tener en cuenta que se recopila texto de una red social.

Con estas herramientas hemos tratado de realizar una aproximación en nuestro idioma. Paraello, se han recopilado tuits referentes a algunos políticos (Mariano Rajoy, Pedro Sánchez, PabloIglesias y Albert Rivera) y sus partidos (PP, PSOE, Podemos y Ciudadanos). 10.000 tuits porcada uno de ellos, que pasamos a analizar a continuación.

ANÁLISIS DE SENTIMIENTOS (CLASIFICACIÓN POR PUNTUACIÓN)

Tras extraer y depurar los tuits referentes a nuestros políticos y sus correspondientes parti-dos, como ya hicimos en el caso anterior, toca realizar los análisis pertinentes. En primer lugar,

5 RESULTADOS PÁGINA 39

Page 47: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

(a) Puntuación hacia Mariano Rajoy (b) Puntuación hacia Pedro Sánchez

Figura 13: Gráficos de AS clasificados según puntuación

se analizarán los tuits uno por uno y se le asignará una puntuación en función de las palabraspositivas o negativas que contenga. Esta puntuación permite realizar una pequeña aproximaciónen cuanto a valoración política en Twitter de los representantes españoles.

### En primer lugar proveemos al ordenador de la lista de palabras positivas y

negativas para que pueda analizar los tuits correctamente

pos <- scan('positivas.txt', what='character', comment.char=';')

neg <- scan('negativas.txt', what='character', comment.char=';')

### Cargamos la función que automáticamente ejecutará el análisis

source('sentiment_new.R.txt')

### Ejecutamos y almacenamos los resultados para su explotación

analisis <- score.sentiment(Rajoytxt,pos,neg,.progress = 'none')

La función «score.sentiment» funciona descomponiendo el texto introducido por tér-minos. Una vez procesado, se compara palabra por palabra con los diccionarios de palabraspositivas y negativas que hemos proporcionado, devolviendo el resultado en forma de «score»o puntuación. Con ese indicador, los resultados se plasman en las Figuras 13 y 14 y en la Tabla1.

En estos gráficos se pueden apreciar las puntuaciones recibidas por cada representante trasanalizar sus tuits correspondientes. En rojo, se resaltan aquellos tuits que reciben puntuaciónnegativa, en naranja los que han sido calificados como neutros y por último, en verde, aquellosque transmiten una opinión positiva.

Podemos ver que Mariano Rajoy y Pablo Iglesias obtienen opiniones negativas en mayorproporción, Pedro Sánchez es el único que obtiene un mayor número de opiniones positivas,

5 RESULTADOS PÁGINA 40

Page 48: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

(a) Puntuación hacia Pablo Iglesias (b) Puntuación hacia Albert Rivera

Figura 14: Gráficos de AS clasificados según puntuación

mientras que Albert Rivera obtiene una gráfica casi simétrica respecto al eje neutral. Podemosextraer algunos de los tuits con peor y mejor opinión:

«@pmusifloren Criticar a Rajoy es muy fácil. Tiene un partido que es un cachondeo decorrupción. Las críticas económicas son muy malas» es el peor comentario dirigido haciaMariano Rajoy.

«Gracias a la buena gestión de Mariano Rajoy estamos disfrutando estos 4 meses que notenemos gobierno de una estabilidad muy buena» es el comentario mejor puntuado paraMariano Rajoy.

«@sextaNoticias @sanchezcastejon este tio no puede ser mas tonto llorica mentirosocinico inepto perezoso el no a salvado de la troyka tonto» es el comentario con peoropinión que recibe Pedro Sánchez.

«@sanchezcastejon @PSOE Pedro no tengo mayor orgullo en esta vida que ser españoly socialista. Creo en tu buen hacer. Por eso, te apoyo.» es uno de los mejores comentariosrecibidos por Pedro Sánchez.

«Cuando a la envidia y el cainismo le sumas la brutalidad, el populismo y la vileza el re-sultado es monstruoso.\nhttps://t.co/iD2yBRaHug» es el peor tuit recogido en la muestrahacia Pablo Iglesias.

«Es normal que Gonzalez Pons admire a Pablo Iglesias teniendo en cuenta que su jefe nies inteligente ni creativo. O más bien es lelo total.» es el comentario mejor valorado sobrePablo Iglesias.

5 RESULTADOS PÁGINA 41

Page 49: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Mariano Rajoy Pedro Sánchez Pablo Iglesias Albert RiveraMedia de puntuaciones -0.1888756 0.348 -0.1993 -0.058806

Cuadro 1: Puntuaciones medias de los cuatro políticos españoles según el score definido

«@InLibertatem @Albert_Rivera @PPopular Se puede engañar a algunos algún tiempo;a muchos, mucho tiempo; pero no a todos, todo el tiempo» es el tuit con peor opiniónhacia Albert Rivera.

«@Gafas_y_reloj: Manuela Carmena, bastante mayor que Albert Rivera, representa másregeneración y valores más modernos que el de C’s» es el mejor tuit en la muestra deAlbert Rivera.

Como podemos apreciar con este último tuit, contiene elementos positivos que hacen de él unaopinión positiva pero precisamente no se dirige a Albert Rivera, más bien a una representantede Podemos, Manuela Carmena. Esta es una de las limitaciones del AS a día de hoy, pero cadavez existen mejores sistemas para evitar estos problemas.

Otra de las limitaciones del uso de diccionarios basados en un lexicón es que al otorgarpuntuaciones por igual, normalmente se obtienen más resultados «neutrales» que en un análisisbasado en aprendizaje automático. Esto es debido a la forma de actuar de este sistema y al hechode que el diccionario se limita a una serie de palabras, cualquiera que no esté incluida en dichalista, no cuenta con carga sentimental para el análisis aunque realmente la tenga.

Para finalizar este apartado podemos utilizar las puntuaciones obtenidas con nuestro ASpara obtener una especie de «ranking» de nuestros representantes políticos como refleja la tabla1.

ANÁLISIS DE SENTIMIENTOS (CLASIFICACIÓN POR POLARIDAD)

Analizamos ahora los tuits clasificados por su polaridad, tal y como reflejan las figuras 15 y16.

Como se ha comentado anteriormente, en este tipo de gráficos que tratan la polaridad esdonde se aprecia la sobrerrepresentación neutral, si lo comparamos con los obtenidos en loscasos de Donald Trump y Hillary Clinton por ejemplo, donde se utilizó el clasificador NaïveBayes. Esta es una de las limitaciones del uso de diccionarios, ya que la técnica depende de laspalabras contenidas en éstos.

ANÁLISIS MEDIANTE NUBES DE PALABRAS

Finalmente, al igual que hicimos anteriormente, podemos representar una nube de palabrasque nos ayude a entender lo que sienten los usuarios responsables de la muestras de tuits reco-gidas y analizadas.

5 RESULTADOS PÁGINA 42

Page 50: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

(a) Polaridad hacia Mariano Rajoy (b) Polaridad hacia Pedro Sánchez

Figura 15: Gráficos de AS clasificados según polaridad

(a) Polaridad hacia Pablo Iglesias (b) Polaridad hacia Albert Rivera

Figura 16: Gráficos de AS clasificados según polaridad

5 RESULTADOS PÁGINA 43

Page 51: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

(a) Nube de palabras de Mariano Rajoy (b) Nube de palabras de Pedro Sánchez

Figura 17: Nubes de palabras de los representantes políticos españoles

(a) Nube de palabras de Pablo Iglesias (b) Nube de palabras de Albert Rivera

Figura 18: Nubes de palabras de los representantes políticos españoles

Podemos apreciar las palabras más representativas en el centro de la nube de las figuras 17y 18 y extraer algunas conclusiones:

En primer lugar, en la nube de palabras de Mariano Rajoy, destacan términos como «ví-

deo», «gobierno», «españa», «precampaña» o incluso «rivera» o «podemos». Lo másrepresentativo por tanto y de lo que se habla en la muestra del representante del PP es

5 RESULTADOS PÁGINA 44

Page 52: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

(a) Mariano Rajoy (b) Pedro Sánchez

Figura 19: Palabras más frecuentes en las muestras

sobre el lanzamiento del primer vídeo para las próximas elecciones tras resultar las del20D fallidas.

En segundo lugar tenemos la nube de palabras de Pedro Sánchez. Al candidato socialistase le atribuyen vocablos como «cambio», «presidencia», «honor», «candidato» o «pre-

sentarme». Podemos extraer por tanto la conclusión de que deja claro su postulación paralas nuevas elecciones aunque se hablase de cambios. Mucho discurso en la red socialacerca de las pretensiones de Sánchez y nuestra muestra lo refleja.

Inmediatamente en la línea inferior, tenemos la nube de palabras de Pablo Iglesias. Es lla-mativo que lo más representativo es el nombre del periodista Eduardo Inda, normalmenteasociado a este partido político por sus continuas puyas y desavenencias. «paraíso», «ve-

nezuela», «okdiario» o «fiscal» nos dan la idea de que se opinaba sobre la informaciónpublicada por Okdiario de pagos a Pablo Iglesias por parte de Nicolás Maduro, presidentede Venezuela.

Finalmente, la nube de palabras de Albert Rivera. «rajoy» es la palabra preponderanteen la nube y es que en la muestra se relaciona mucho al representante de Ciudadanoscon el del PP, ya sea de forma peyorativa o como el objetivo de pactos para las próximaselecciones.

Para concluir este apartado presentamos las palabras con más frecuencia en cada una de lasmuestras recogidas. Este tipo de gráficos ayuda a entender los anteriores, además del discursode cada representante (Figuras 19 y 20).

5 RESULTADOS PÁGINA 45

Page 53: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

(a) Pablo Iglesias (b) Albert Rivera

Figura 20: Palabras más frecuentes en las muestras

Estos gráficos nos ayudan a comprender mejor las nubes de palabras representadas anterior-mente y para hacernos una idea de las veces que aparece un término específico en la muestra.

5.4 ANÁLISIS DE SENTIMIENTOS «DINÁMICO»

Para darle más valor y significado a un AS, basta con prolongarlo en el tiempo, ya quelas opiniones pueden variar de un día a otro, por lo que centrarse en un momento puntual enocasiones puede sesgar los resultados.

La Search API de Twitter sólo permite obtener tuits con una antigüedad de 7 a 8 días. Parasuperar esta barrera se utiliza R como almacén de tuits durante los días deseados y así obtenertendencias en los términos analizados.

Con esto en mente, se ilustra a continuación en la figura 21 los resultados obtenidos paraDonald Trump y Hillary Clinton en una semana de almacenaje.

5 RESULTADOS PÁGINA 46

Page 54: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

(a) Donald Trump (b) Hillary Clinton

Figura 21: AS dinámico sobre candidatos americanos

De esta forma establecer tendencias en la polaridad de los tuits sobre los representantespolíticos es más sencillo. Donald Trump por ejemplo tiene una tendencia negativa pero el 19 deMayo sorprendentemente se disparan los tuits positivos. En cambio, Hillary Clinton ofrece unaconducta más errática, donde predomina la neutralidad hacia ella y los tuits negativos comienzansiendo superiores a los positivos para invertir la tendencia conforme pasan los días y terminaren una tendencia en la que los tuits positivos cada vez se distancian más de los negativos.

5 RESULTADOS PÁGINA 47

Page 55: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

6 | CONCLUSIONES Y TRABAJO FU-TURO

En el presente trabajo, se ha introducido de forma concisa el AS junto a sus bondades ylimitaciones. Tras esto se ha desarrollado sobre la plataforma social Twitter, un análisis basadoen esta técnica, tanto en inglés como en español, y enfocado principalmente en el panoramapolítico actual a través de los líderes más mediáticos del momento. El propósito del uso de estastécnicas era el de descubrir patrones o revelar tendencias y opiniones acerca de los principa-les protagonistas políticos que nos rodean explotando grandes cantidades de datos extraídos yanalizados con R.

Twitter ha sido la piedra angular para realizar este proceso de forma acotada debido a suscaracterísticas únicas, como la limitación a 140 caracteres, que han facilitado enormemente laminería de opinión. Las fases del proceso por la que este trabajo ha pasado se pueden resumiren los siguientes apartados:

1. Se han extraído 239,309 tuits para la realización de este trabajo, de los cuáles 199,309estaban escritos en inglés y 40,000 en español, entre los días 9 y 23 de mayo.

2. Depuración de los tuits. Todos han sido sometido a un proceso para eliminar cualquierelemento no deseado como signos de puntuación o hiperenlaces, para contar solo con lainformación que aportase valor al análisis.

3. Análisis de los resultados teniendo en cuenta emociones, polaridad, «scores» y nubes depalabras. Desde el clasificador de Naïve Bayes, para los resultados en inglés, hasta el usode lexicón en español, para los resultados en castellano, se ha seleccionado la metodologíaidónea para cada escenario.

Una vez completados los análisis, los resultandos han servido para mostrar la valoración vertidapor los usuarios de Twitter acerca de los distintos líderes políticos estudiados. Se ha podidocomprobar como la opinión pública hacia éstos es afectada por algunos acontecimientos im-portantes, tales como una buena actuación en un mitín o un ataque terrorista. Las emocionescontenidas en los datos extraídos han sido útiles para entender la estructura subyacente de lostuits recopilados. Por último, las nubes de palabras nos han proporcionado una visión inter-na para cada conjunto de tuits analizados, mostrando aquellos términos más representados yayudándonos a entender mejor las opiniones.

No hay que olvidar que el AS se ha convertido en tópico muy importante para la investiga-ción. Lo reflejado en este trabajo es aplicable a cualquier organización o empresa, es por estoque cada vez se pone más esfuerzo e inversión en este campo, para mejorar y perfeccionar lomáximo posible esta técnica. Los resultados aquí obtenidos son aceptables y nos sirven para

6 CONCLUSIONES Y TRABAJO FUTURO PÁGINA 48

Page 56: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

extraer conclusiones valiosas acerca del perfil político de los candidatos pero se necesita mástrabajo para mejorar aun más los resultados y el rendimiento de las técnicas de AS, sobre todosi hablamos de ejecutarlo sobre datos en castellano.

Quedan pendientes por tanto como trabajo futuro para mejorar este proyecto tareas como:

Utilizar otros medios más populares como Python, donde existen mucho más materialpara analizar datos recopilados en castellano. Por ejemplo, por esta vía sería posible uti-lizar el dataset de SEPLN (Sociedad Española del Procesado del Lenguaje Natural) y seabriría la posibilidad de utilizar los algoritmos de clasificación más populares, obteniendode esta forma mejores resultados.

Trabajar en otras posibilidades que enriquezcan el análisis como la geolocalización. Con-seguir posicionar al emisor de la información en un mapa proporciona más informaciónvaliosa si cabe a la técnica. En el terreno empresarial, este es un aspecto crucial, ya queademás de conocer las opiniones de los consumidores, ubican al emisor y pueden tomardecisiones de una manera más acertada.

Por último, introducir en el proceso elementos que nos faciliten el almacenaje de tuitscomo puede ser MongoDB, muy popular en este terreno. Como se puso de manifiesto en elapartado del AS dinámico, a mayor volumen de tuits, mayor será la información obteniday podremos tener un nivel de confianza mayor en los resultados. Hay que recordar que laopinión pública es voluble y prolongar el almacenaje de datos es una manera de recogertodas esas variaciones y entender el motivo de las fluctuaciones.

6 CONCLUSIONES Y TRABAJO FUTURO PÁGINA 49

Page 57: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

ReferenciasBollen, J., Mao, H., y Zeng, X. (2011). Twitter mood predicts the stock market. Journal of

Computational Science, 2(1), 1–8.Chung, J. E., y Mustafaraj, E. (2011). Can collective sentiment expressed on twitter predict

political elections? En Aaai (Vol. 11, pp. 1770–1771).Cortes, C., y Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273–297.Das, S., y Chen, M. (2001). Yahoo! for amazon: Extracting market sentiment from stock

message boards. En Proceedings of the asia pacific finance association annual conference

(apfa) (Vol. 35, p. 43).Dave, K., Lawrence, S., y Pennock, D. M. (2003). Mining the peanut gallery: Opinion extraction

and semantic classification of product reviews. En Proceedings of the 12th international

conference on world wide web (pp. 519–528).Dubiau, L., y Ale, J. M. (2013). Análisis de sentimientos sobre un corpus en espanol: experi-

mentación con un caso de estudio. En Proceedings of the 14th argentine symposium on

artificial intelligence, asai (pp. 36–47).Gayo-Avello, D. (2011). A warning against converting social media into the next literary digest.

Communications of the ACM.Gloor, P. A., Krauss, J., Nann, S., Fischbach, K., y Schoder, D. (2009). Web science 2.0:

Identifying trends through semantic social network analysis. En Computational science

and engineering, 2009. cse’09. international conference on (Vol. 4, pp. 215–222).Go, A., Bhayani, R., y Huang, L. (2009). Twitter sentiment classification using distant super-

vision. CS224N Project Report, Stanford, 1, 12.Hopkins, D. J., y King, G. (2010). A method of automated nonparametric content analysis for

social science. American Journal of Political Science, 54(1), 229–247.Hu, M., y Liu, B. (2004). Mining and summarizing customer reviews. En Proceedings of the

tenth acm sigkdd international conference on knowledge discovery and data mining (pp.168–177).

Iacus, S. M., Porro, G., Curini, L., Ceron, A., y cols. (2012). Every tweet counts? how sentiment

analysis of social networks can improve our knowledge of citizens policy preferences. an

application to italy and france (Inf. Téc.).Jiménez Zafra, S. M., Martínez Cámara, E., Martín Valdivia, M. T., y Molina González, M. D.

(2015). Tratamiento de la negación en el análisis de opiniones en espanol.Jungherr, A., Jürgens, P., y Schoen, H. (2011). Why the pirate party won the german election

of 2009 or the trouble with predictions: A response to "predicting elections with twit-ter: What 140 characters reveal about political sentiment",". Social Science Computer

Review.Kim, E., Gilbert, S., Edwards, M. J., y Graeff, E. (2009). Detecting sadness in 140 characters:

Referencias PÁGINA 50

Page 58: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

Sentiment analysis of mourning michael jackson on twitter. Web Ecology, 3, 1–15.Liu, B. (2010). Sentiment analysis and subjectivity. Handbook of natural language processing,

2, 627–666.Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis lectures on human language

technologies, 5(1), 1–167.Liu, Y., Huang, X., An, A., y Yu, X. (2007). Arsa: a sentiment-aware model for predicting

sales performance using blogs. En Proceedings of the 30th annual international acm

sigir conference on research and development in information retrieval (pp. 607–614).Madge, C., Meek, J., Wellens, J., y Hooley, T. (2009). Facebook, social integration and informal

learning at university: It is more for socialising and talking to friends about work than foractually doing work. Learning, Media and Technology, 34(2), 141–155.

Manning, C. D., Raghavan, P., Schütze, H., y cols. (2008). Introduction to information retrieval

(Vol. 1) (n.o 1). Cambridge university press Cambridge.Manning, C. D., y Schütze, H. (1999). Foundations of statistical natural language processing

(Vol. 999). MIT Press.Morinaga, S., Yamanishi, K., Tateishi, K., y Fukushima, T. (2002). Mining product reputations

on the web. En Proceedings of the eighth acm sigkdd international conference on know-

ledge discovery and data mining (pp. 341–349).Nasukawa, T., y Yi, J. (2003). Sentiment analysis: Capturing favorability using natural language

processing. En Proceedings of the 2nd international conference on knowledge capture

(pp. 70–77).Nicolov, N., Salvetti, F., y Ivanova, S. (2008). Sentiment analysis: Does coreference matter. En

Aisb 2008 convention communication, interaction and social intelligence (Vol. 1, p. 37).O’Connor, B., Balasubramanyan, R., Routledge, B. R., y Smith, N. A. (2010). From tweets to

polls: Linking text sentiment to public opinion time series. ICWSM, 11(122-129), 1–2.Pak, A., y Paroubek, P. (2010). Twitter as a corpus for sentiment analysis and opinion mining.

En Lrec (Vol. 10, pp. 1320–1326).Pang, B., Lee, L., y Vaithyanathan, S. (2002). Thumbs up?: sentiment classification using ma-

chine learning techniques. En Proceedings of the acl-02 conference on empirical methods

in natural language processing-volume 10 (pp. 79–86).Read, J. (2005). Using emoticons to reduce dependency in machine learning techniques for

sentiment classification. En Proceedings of the acl student research workshop (pp. 43–48).

Sang, E. T. K., y Bos, J. (2012). Predicting the 2011 dutch senate election results with twitter.En Proceedings of the workshop on semantic analysis in social media (pp. 53–60).

Strapparava, C., Valitutti, A., y cols. (2004). Wordnet affect: an affective extension of wordnet.En Lrec (Vol. 4, pp. 1083–1086).

Tong, R. M. (2001). An operational system for detecting and tracking opinions in on-linediscussion. En Working notes of the acm sigir 2001 workshop on operational text classi-

Referencias PÁGINA 51

Page 59: $QiOLVLV GH6HQWLPLHQWRVHQ7ZLWWHU ...tauja.ujaen.es/bitstream/10953.1/7003/1/TFG_Daniel...más mediáticos del momento. Mediante el uso de técnicas de aprendizaje computacional y lexicón

Daniel Pegalajar Luque Grado en Estadística y Empresa

fication (Vol. 1, p. 6).Tumasjan, A., Sprenger, T. O., Sandner, P. G., y Welpe, I. M. (2010). Predicting elections with

twitter: What 140 characters reveal about political sentiment. ICWSM, 10, 178–185.Turney, P. D. (2002). Thumbs up or thumbs down?: semantic orientation applied to unsupervi-

sed classification of reviews. En Proceedings of the 40th annual meeting on association

for computational linguistics (pp. 417–424).Véronis, J. (2007). Citations dans la presse et résultats du premier tour de la présidentielle

2007. Retrieved December, 15, 2009.Wiebe, J. (2000). Learning subjective adjectives from corpora. En Aaai/iaai (pp. 735–740).Wiebe, J. M., Bruce, R. F., y O’Hara, T. P. (1999). Development and use of a gold-standard

data set for subjectivity classifications. En Proceedings of the 37th annual meeting of the

association for computational linguistics on computational linguistics (pp. 246–253).Wilson, T., Wiebe, J., y Hoffmann, P. (2005). Recognizing contextual polarity in phrase-level

sentiment analysis. En Proceedings of the conference on human language technology and

empirical methods in natural language processing (pp. 347–354).Woodly, D. (2008). New competencies in democratic communication? blogs, agenda setting

and political participation. Public Choice, 134(1-2), 109–123.Zhang, L., Ghosh, R., Dekhil, M., Hsu, M., y Liu, B. (2011). Sentiment analysis combining

lexicon-based and learning-based methods for twitter sentiment analysis. Development.

Referencias PÁGINA 52