Trabajo final curso big data
-
Upload
mmartin-de-la-hoz -
Category
Education
-
view
144 -
download
3
Transcript of Trabajo final curso big data
CURSO
BIG DATA
MANUEL M. DE LA HOZ D.
RAFAEL ALONSO ALVARADO
CURSO BIG DATA
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA
A.Marco-Teórico - Qué es la Big Data y la ciencia de los datos
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
Definición:
En términos generales podríamos referirnos como a latendencia en el avance de la tecnología que ha abierto laspuertas hacia un nuevo enfoque de entendimiento y toma dedecisiones, la cual es utilizada para describir enormescantidades de datos (estructurados, no estructurados y semiestructurados) que tomaría demasiado tiempo y sería muycostoso cargarlos a un base de datos relacional para suanálisis.
Sin embargo, Big Data no se refiere a alguna cantidad enespecífico, ya que es usualmente utilizado cuando se habla entérminos de petabytes (1015) y exabytes (1018) de datos.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
Características Principales:
Además del gran volumen de información, esta existe en unagran variedad de datos que pueden ser representados dediversas maneras en todo el mundo, por ejemplo dedispositivos móviles, audio, video, sistemas GPS, incontablessensores digitales en equipos industriales, automóviles,medidores eléctricos, veletas, anemómetros, etc., los cualespueden medir y comunicar el posicionamiento, movimiento,vibración, temperatura, humedad y hasta los cambiosquímicos que sufre el aire, de tal forma que las aplicacionesque analizan estos datos requieren que la velocidad derespuesta sea lo demasiado rápida para lograr obtener lainformación correcta en el momento preciso.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
¿De dónde proviene toda esa información?
De acuerdo con un estudio realizado por Cisco[1], entre el2011 y el 2016 la cantidad de tráfico de datos móviles creceráa una tasa anual de 78%, así como el número de dispositivosmóviles conectados a Internet excederá el número dehabitantes en el planeta. Las naciones unidas proyectan quela población mundial alcanzará los 7.5 billones para el 2016de tal modo que habrá cerca de 18.9 billones de dispositivosconectados a la red a escala mundial, esto conllevaría a queel tráfico global de datos móviles alcance 10.8 Exabytesmensuales o 130 Exabytes anuales. Este volumen de tráficoprevisto para 2016 equivale a 33 billones de DVDs anuales o813 cuatrillones de mensajes de texto.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
¿De dónde proviene toda esa información?
No solamente de los seres, existe también la comunicacióndenominada máquina a máquina (M2M machine-to-machine)cuyo valor en la creación de grandes cantidades de datostambién es muy importante. Sensores digitales instalados encontenedores para determinar la ruta generada durante unaentrega de algún paquete y que esta información sea enviadaa las compañías de transporte, sensores en medidoreseléctricos para determinar el consumo de energía a intervalosregulares para que sea enviada esta información a lascompañías del sector energético. Se estima que hay más de30 millones de sensores interconectados en distintos sectorescomo automotriz, transporte, industrial, servicios, comercial,etc. y se espera que este número crezca en un 30%anualmente.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
¿Qué tipos de datos debo explorar?
Figura 1. Tipos de datos de Big Data[2]
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
NoSQL: Bases de Datos no estructuradas
“not only SQL” – Es una categoría general de sistemas degestión de bases de datos que difiere de los RDBMS endiferentes modos.
- No tienen eschemas, no permiten JOINs, no intentangarantizar ACID y escalan horizontalmente.
- Tanto las bases de datos NoSQL como las relacionales sontipos de Almacenamiento Estructurado
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
MapReduce
- Framework (modelo de programación) utilizado porGoogle para dar soporte a la computación paralela sobregrandes colecciones de datos en grupos decomputadoras y al commodity computing.
- El nombre del framework está inspirado en los nombresde dos importantes métodos, macros o funciones enprogramación funcional: Map y Reduce.
- Adoptado mundialmente como una implementaciónopensouce denominada Hadoop, su desarrollo fueliderado inicialmente por Yahoo y actualmente lo realizael proyecto Apache.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
PLN – Procesamiento de Lenguaje Natural
- Subdisciplina de la inteligencia artificial y la ramaingeniería de la lingüística computacional.
- Se ocupa de la formulación e investigación demecanismos eficaces computacionalmente para lacomunicación entre personas o entre personas ymáquinas por medio de lenguajes naturales.
- No trata de la comunicación por medio de lenguajesnaturales de una forma abstracta, sino de diseñarmecanismos para comunicarse que sean eficacescomputacionalmente —que se puedan realizar por mediode programas que ejecuten o simulen la comunicación—.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
PLN – Procesamiento de Lenguaje Natural
- Los modelos aplicados se enfocan no sólo a lacomprensión del lenguaje de por sí, sino a aspectosgenerales cognitivos humanos y a la organización de lamemoria. El lenguaje natural sirve sólo de medio paraestudiar estos fenómenos.
Componentes:
- Análisis morfológico.
- Análisis sintáctico.
- Análisis semántico.
- Análisis pragmático.
- Planificación y Generación de la frase.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
Estadística
- Los modelos aplicados se enfocan no sólo a lacomprensión del lenguaje de por sí, sino a aspectosgenerales cognitivos humanos y a la organización de lamemoria. El lenguaje natural sirve sólo de medio paraestudiar estos fenómenos.
Componentes:
- Análisis morfológico.
- Análisis sintáctico.
- Análisis semántico.
- Análisis pragmático.
- Planificación y Generación de la frase.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
Machine Learning
- Cualquier campo que necesita para interpretar y actuarsobre los datos puede beneficiarse de las técnicas deaprendizaje del ML.
- El aprendizaje automático se encuentra en laintersección de las ciencias de la computación, ingenieríay estadísticas y suele aparecer en otras disciplinas. Esuna herramienta que se puede aplicar a muchosproblemas.
- Utiliza diversos algoritmos como Python -
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
B. PROBLEMA A RESOLVER
Se propone reducir la pérdida de tiempo que significa
actualmente la búsqueda y consulta de jurisprudencias
en el campo del derecho penal, a través de un
algoritmo que clasifique dichos documentos de acuerdo
con la estructura del código penal colombiano
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
PROBLEMA A RESOLVER
Jurisprudencias sin clasificar
Algoritmode
clasificación
Jurisprudenciasclasificadas
Consulta de información clasificada
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
¿CÓMO SE VA A LOGRAR?
Archivos BD Aparato Judicial
Preprocesamiento y generación de
archivos planos
Herramientas PLN
• Tokenizador: separa palabras
• Divisor de oraciones
• Verificador gramatical
• Lematizador: entrega las palabras en su forma original y coloca etiquetas
• Reconocimiento de nombresPatrones
lingüísticos
Extracción de conceptos
compuestos y simples
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
FUENTES DE INFORMACIÓN
Jurisprudencia de Sala Penal de la Corte
Jurisprudencia de Sala Civil de la Corte
Tribunales
Decretos
Circulares
Resoluciones
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
CRITERIOS PARA CLASIFICACIÓN
Tipos penales (delitos)
Verbos rectores
Agravantes
Calificantes
Legislación
Fecha de actualización de las BD fuente
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
ESTRUCTURA DEL CÓDIGO PENAL COLOMBIANO
De carácter General
Título
4
Capitulo 1
Capitulo 2
Capitulo 3
Capitulo 4
Capitulo 5 Capitulo 5
Capitulo 6
Capitulo 7
LIBR
O P
RIM
ERO
Título
3
Capitulo 1
Capitulo 2
Capitulo 3
Título
6
Capitulo 1
Título
5
Capitulo 1Títu
lo 2
Capitulo 1 Capitulo 1
Capitulo 2
Título
1
Capitulo 4
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
ESTRUCTURA DEL CÓDIGO PENAL COLOMBIANO
De Carácter Especial
Capitulo 5
Capitulo 6
Capitulo 7
Capitulo 8
Título
10
Capitulo 1
Capitulo 2
Capitulo 3
Capitulo 4
Título
9
Capitulo 1
Capitulo 2
Capitulo 3
Capitulo 4
Capitulo 6
Capitulo 7Títu
lo 8
Capitulo 1
Título
7
Capitulo 1
Capitulo 2
Capitulo 3
Capitulo 4
Capitulo 5
Capitulo 6
Título
6Capitulo 1
Capitulo 2
Capitulo 3
Capitulo 7
Capitulo 8
Capitulo 9
Capitulo 10
Título
4
Capitulo 1
Capitulo 2
Capitulo 3
Capitulo 4
Capitulo 5
Capitulo 1
Capitulo 2
Capitulo 3
Capitulo 4
Capitulo 5
Capitulo 6
Título
2
Capitulo 1
Título
11
Capitulo 1
Capitulo 2
Capitulo 3
Capitulo 4
Capitulo 5
Capitulo 1
Capitulo 2
Capitulo 3
Título
5
Título
3
LIBR
O SEG
UN
DO
Título
14
Capitulo 1
Capitulo 2
Título
13
Capitulo 1
Capitulo 2
Capitulo 3
Capitulo 4
Título
12
Capitulo 1
Título
1
Capitulo 1
Capitulo 2
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
CONJUNTO DE CLASES DE DOCUMENTOS
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
CONJUNTO DE CLASES
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
CONJUNTO DE CLASES
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
CONJUNTO DE CLASES
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
CONJUNTO DE CLASES
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
CONJUNTO DE CLASES
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
MODELO A UTILIZARLa clasificación en general, se puede se puede formalizar como latarea de aproximar una función objetivo desconocida Ф, que
describe cómo deben ser clasificados los documentos de acuerdocon un experto
El Clasificador: Ф´:D × C →{V, F}
Donde: C = { c1, c2, …, c|c| } ; conjunto de clases posibles
D = { d1, d2, …, dj } ; conjunto de documentos
Si Φ´:dj × ci →V : entonces dj es llamado un ejemplo positivo de ci
Si Φ´:dj × ci →F : entonces dj es llamado un ejemplo negativo de ci
Dependiendo de la aplicación un dj pude pertenecer a más de un ci
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
MODELO A UTILIZARUn clasificador de textos para ci se genera automáticamente mediante unproceso inductivo (aprendiz), el cual a partir de documentos clasificados en ci o ci
obtiene las características que debe tener un documento nuevo para pertenecera ci
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
SUPUESTOS PARA REPRESENTACIÓN DE UN DOCUMENTO• Ignorar la estructura del texto, no se intenta comprender
completamente el documento
• Se asume que los términos indexados son mutuamenteexcluyentes: unas palabras no incrementan laprobabilidad de aparición de otros en el texto (porsimplicidad)
• El texto se trata como una bolsa de palabras, no hayorden entre ellas (por eficiencia)
• Omitir palabras frecuentes que no contienen información semántica (palabras vacias)
• Se omiten palabras que aparecen una sola vez en toda la colección
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
SUPUESTOS PARA REPRESENTACIÓN DE UN DOCUMENTO• Reducción del número de atributos de un texto a partir de la
ganancia de información (IG) que ofrecen:
P(ci ) = Probabilidad de ci
P(t) = Probabilidad de seleccionar un documento que contiene el término tP(ci |t) = Probabilidad de que un documento pertenezca a ci dado que tiene el término t
P(t) = Probabilidad de seleccionar un documento que no contiene el término tP(ci |t) = Probabilidad de que un documento pertenezca a ci dado que no contiene el término t
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
REPRESENTACIÓN DE UN DOCUMENTO
• Una vez realizado el cálculo del IG para cada término o
atributo, se define un umbral mínimo y todos aquellos términos
cuyo IG esté por debajo del umbral se descartan
t1 t2 t3 t4 t5 … tn
d1 11 11 11 11 11 … 11
d2 12 12 12 12 12 … 12
d3 13 13 13 13 13 … 13
… …
dj j1 j2 j3 j4 j5 jn
Do
cum
en
tos
términos o atributos
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
Valores para los :
• Binarios: 0 o 1, según el termino t se encuentre o no endocumento d
• Número de veces que aparece el termino t en el documento d
• Combinación de frecuencia del termino t tanto en el documentod como en el resto de documentos
Donde:
N: tamaño de la colección, número total de documentos
ni: número de documentos don de aparece el término i-esimo
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
MÉTODO DE CLASIFICACIÓN
NAIVE BAYES
Probabilidad de que el documento dj pertenezca a la clase ci
P(ci ) = Probabilidad de la clase ci , documentos en ci sobre total documentos de entrenamiento
P(wtj |ci ) = cantidad de veces que wtj aparece en ci
count(wtj ,ci ) = número de veces que wtj aparece en ci
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
PROCESO IMPLEMENTACIÓN MODELO
• Macro en word para convertir los archivos(jurisprudencias) de .doc a .txt
• Python, AWK para limpiar los archivos y filtarpalabras eliminando palabras vacias (no contieneninformación)
• Modelo MapReduce para determinar la frecuencia delas palabras
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
PROCESO IMPLEMENTACIÓN MODELO
• En linux, en el directorio dirjuris se copian losarchivos .txt convertidos
• Se crea un solo archivo con todas las palabra deltotal de los archivos .txt, comando cat *.txt >todo.txt
• Función de mapeo sobre el archivo todo.txtcomando:
tr A-Z a-z < todo.txt | tr -cd 'a-z\n '|awk -f contar.awk|awk '{if(length($1) > 3 && $2 > 10) print $2 " " $1 }'|sort –nr
Se dejan palabras cuya frecuencia sea > 10 y cuyalongitud sea > 3
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
GRACIAS