Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No...

31
Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento de Computación, FCEyN, UBA Workshop: "Big Data, Economía y Políticas Públicas: Aplicaciones, Herramientas y Aprendizaje Automático"

Transcript of Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No...

Page 1: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y

video

Ramiro H. GálvezDepartamento de Computación, FCEyN, UBA

Workshop: "Big Data, Economía y Políticas Públicas: Aplicaciones, Herramientas y Aprendizaje Automático"

Page 2: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Objetivo

Mostrar que existe todo una serie de datos "no tradicionales" (imágenes, audio, texto, etc.) que pueden ser analizados y de los que cuales se puede extraer valor.

Las aplicaciones que voy a mostrar no son necesariamente de economía, pero deberían servir para disparar ideas.

Page 3: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

¿Son todos los datos iguales?

No, pensemos una dimensión en donde difieren: de qué momento vienen.

● Pasado: datos almacenados que se analizan en ex-post (ej: datos administrativos).

● Presente: datos en tiempo real que se analizan apenas se generan (ej: smart meters, subastas de publicidades online, cotización de activos financieros, etc.).

Page 4: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Datos estructurados

Otra dimensión en la que difieren es en sí detrás de los mismos hay un "modelo de datos", que indique, entre otras cosas:

● Qué tipos de datos hay en la base.

● Cómo se relacionan.

● Qué restricciones deben cumplir las datos.

Page 5: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Datos estructurados

A las colecciones de datos que siguen un modelo de datos o que siguen una organización clara, se los suele llamar datos estructurados.

En economía son los que tradicionalmente hemos usado, por ejemplo:● Datos administrativos.

● Datos tributarios.

● Cuentas nacionales.

● Datos de encuestas de hogares.

● Bases de datos de ventas de una empresa.

Page 6: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Datos no estructurados

La definición es por negación… no siguen un modelo de datos o no siguen una organización clara.

Esto hacer difícil para una computadora responder de manera simple preguntas sobre los mismos.

Por ejemplo:

● ¿De qué tema trata un correo electrónico?

● ¿Qué objetos hay en una determinada foto?

● ¿Qué se dijo en una determinada grabación de audio?

● ¿Cuánto tiempo aparecen un personaje en una película?

Page 7: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

¿Son muchos los datos no estructurados?

No hay una estimación rigurosa de cuánta de la información útil para una organización es no estructurada.

Pero se da por sentado que es mucha, estimaciones:

● Merril Lynch 80%.

● IBM 80%.

● 70-80% Computer World Magazine.

Page 8: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

¿Pueden aprovecharse los datos no estructurados?

Extraer información útil de datos no estructurados presenta un mayor desafío que hacerlo de datos estructurados, sin embargo es posible explotar esta información.

El análisis de cada tipo de dato no estructurado es en sí una disciplina distinta:

● Texto: natural language processing (NLP) / text mining.

● Habla: speech technologies / NLP.

● Imágenes / video: image processing.

Page 9: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: texto

CHAPTER 5

ARYA

They traveled dawn to dusk, past woods and orchards and neatly tended fields, through small villages, crowded market towns, and stout holdfasts. Come dark, they would make camp and eat by the light of the Red Sword. The men took turns standing watch. Arya would glimpse firelight flickering through the trees from the camps of other travelers. There seemed to be more camps every night, and more traffic on the kingsroad by day.

Morn, noon, and night they came, old folks and little children, big men and small ones, barefoot girls and women with babes at their breasts. Some drove farm wagons or bumped along in the back of ox carts. More rode: draft horses, ponies, mules, donkeys, anything that would walk or run or roll. One woman led a milk cow with a little girl on its back. Arya saw a smith pushing a wheelbarrow with his tools inside, ...

Page 10: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: texto

CHAPTER 5

ARYA

They traveled dawn to dusk, past woods and orchards and neatly tended fields, through small villages, crowded market towns, and stout holdfasts. Come dark, they would make camp and eat by the light of the Red Sword. The men took turns standing watch. Arya would glimpse firelight flickering through the trees from the camps of other travelers. There seemed to be more camps every night, and more traffic on the kingsroad by day.

Morn, noon, and night they came, old folks and little children, big men and small ones, barefoot girls and women with babes at their breasts. Some drove farm wagons or bumped along in the back of ox carts. More rode: draft horses, ponies, mules, donkeys, anything that would walk or run or roll. One woman led a milk cow with a little girl on its back. Arya saw a smith pushing a wheelbarrow with his tools inside, ...

Page 11: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: texto

Page 12: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: texto

Culturomics

(Michel et al., 2011)

Page 13: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: texto

Análisis de sentimiento

(Sheridan Dodds et. al, 2011)

Groucho Marx:Outside of a dog, a book is a man's best friend. Inside of a dog it's too dark to read.

5.07.2 6.9 5.1 5.0 5.9

6.1

Felicidad promedio = 5.09

Léxico de felicidad para twitter

Ejemplo: Hedonometer

Page 14: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: texto

Word embeddings (LSA, W2V, etc.)

Page 15: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

(Bedi et. al, 2015)

Aplicaciones: texto

Page 16: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Estereotipos de género en películas

(Gálvez et. al, 2018)

Aplicaciones: texto

Page 17: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Estereotipos de género en películas

(Gálvez et. al, 2018)

Aplicaciones: texto

Page 18: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: habla

Page 19: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: habla

Modelando la relación entre audio y palabras dichas se pueden implementar sistemas que hagan las siguientes tareas:

● Automatic speech recognition (nos permite pasar a análisis de texto).

● Speech synthesis.

Componentes claves detrás de los asistentes virtuales (Google Assistant, Siri, Alexa, Cortana, etc.)

Page 20: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: habla

Pero ojo, el habla es más que sólo la transcripción del texto, posee también características prosódicas que hacen al mensaje. Por ejemplo:

● Tono / frecuencia.

● Velocidad del habla.

● Intensidad del habla.

● Calidad del habla.

Esto se analiza en tiempo real en los sistemas de diálogo (por ejemplo para cambios de turnos).

Page 21: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: habla

Sistema para calificar la pronunciación de estudiantes de lenguas no nativas

(Lanidni et. al, 2017)

Page 22: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: imágenes

Clasificación en imágenes

(http://cs231n.github.io/classification/)

Page 23: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: imágenes

Page 24: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: imágenes

Clasificación en imágenes

Page 25: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: imágenes

Clasificación en imágenes

(Tulio Ribeiro et. al, 2016)

Page 26: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: imágenes

Clasificación en imágenes

(Tulio Ribeiro et. al, 2016)

Page 27: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: imágenes

Predicción de pobreza usando imágenes satelitales

(Jean et. al, 2016)

Page 28: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: imágenes

Predicción de pobreza usando imágenes satelitales

(Jean et. al, 2016)

Page 29: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Aplicaciones: videos

Medición de tiempo en pantalla de mujeres en películas

(https://www.google.com/intl/en/about/main/gender-equality-films/)

Tiempo de mujeres en pantalla

Tiempo de diálogo de mujeres

Page 30: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

Conclusión

● No sólo los datos estructurados pueden ser analizado.

● Hay una gran disponibilidad de datos no estructurados.

● Existen múltiples técnicas para analizar distintos tipos de datos no estructurados.

● Hoy en día se están haciendo grandes avances en esta línea.

Consejo para economistas en formación: aprendan y practiquen mucho programar y manejar estructuras de datos eficientes.

Page 31: Extracción y Análisis de Datos No Estructurados ......Extracción y Análisis de Datos No Estructurados: Aplicaciones usando texto, audio, imágenes y video Ramiro H. Gálvez Departamento

¡Gracias!

[email protected]