Trabajo final curso big data

CURSO

BIG DATA

MANUEL M. DE LA HOZ D.

RAFAEL ALONSO ALVARADO

CURSO BIG DATA

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA



CURSO DE BIG DATA

A.Marco-Teórico - Qué es la Big Data y la ciencia de los datos



CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

Definición:

En términos generales podríamos referirnos como a latendencia en el avance de la tecnología que ha abierto laspuertas hacia un nuevo enfoque de entendimiento y toma dedecisiones, la cual es utilizada para describir enormescantidades de datos (estructurados, no estructurados y semiestructurados) que tomaría demasiado tiempo y sería muycostoso cargarlos a un base de datos relacional para suanálisis.

Sin embargo, Big Data no se refiere a alguna cantidad enespecífico, ya que es usualmente utilizado cuando se habla entérminos de petabytes (1015) y exabytes (1018) de datos.




Características Principales:

Además del gran volumen de información, esta existe en unagran variedad de datos que pueden ser representados dediversas maneras en todo el mundo, por ejemplo dedispositivos móviles, audio, video, sistemas GPS, incontablessensores digitales en equipos industriales, automóviles,medidores eléctricos, veletas, anemómetros, etc., los cualespueden medir y comunicar el posicionamiento, movimiento,vibración, temperatura, humedad y hasta los cambiosquímicos que sufre el aire, de tal forma que las aplicacionesque analizan estos datos requieren que la velocidad derespuesta sea lo demasiado rápida para lograr obtener lainformación correcta en el momento preciso.




¿De dónde proviene toda esa información?

De acuerdo con un estudio realizado por Cisco[1], entre el2011 y el 2016 la cantidad de tráfico de datos móviles creceráa una tasa anual de 78%, así como el número de dispositivosmóviles conectados a Internet excederá el número dehabitantes en el planeta. Las naciones unidas proyectan quela población mundial alcanzará los 7.5 billones para el 2016de tal modo que habrá cerca de 18.9 billones de dispositivosconectados a la red a escala mundial, esto conllevaría a queel tráfico global de datos móviles alcance 10.8 Exabytesmensuales o 130 Exabytes anuales. Este volumen de tráficoprevisto para 2016 equivale a 33 billones de DVDs anuales o813 cuatrillones de mensajes de texto.




¿De dónde proviene toda esa información?

No solamente de los seres, existe también la comunicacióndenominada máquina a máquina (M2M machine-to-machine)cuyo valor en la creación de grandes cantidades de datostambién es muy importante. Sensores digitales instalados encontenedores para determinar la ruta generada durante unaentrega de algún paquete y que esta información sea enviadaa las compañías de transporte, sensores en medidoreseléctricos para determinar el consumo de energía a intervalosregulares para que sea enviada esta información a lascompañías del sector energético. Se estima que hay más de30 millones de sensores interconectados en distintos sectorescomo automotriz, transporte, industrial, servicios, comercial,etc. y se espera que este número crezca en un 30%anualmente.




¿Qué tipos de datos debo explorar?

Figura 1. Tipos de datos de Big Data[2]




NoSQL: Bases de Datos no estructuradas

“not only SQL” – Es una categoría general de sistemas degestión de bases de datos que difiere de los RDBMS endiferentes modos.

- No tienen eschemas, no permiten JOINs, no intentangarantizar ACID y escalan horizontalmente.

- Tanto las bases de datos NoSQL como las relacionales sontipos de Almacenamiento Estructurado




MapReduce

- Framework (modelo de programación) utilizado porGoogle para dar soporte a la computación paralela sobregrandes colecciones de datos en grupos decomputadoras y al commodity computing.

- El nombre del framework está inspirado en los nombresde dos importantes métodos, macros o funciones enprogramación funcional: Map y Reduce.

- Adoptado mundialmente como una implementaciónopensouce denominada Hadoop, su desarrollo fueliderado inicialmente por Yahoo y actualmente lo realizael proyecto Apache.




PLN – Procesamiento de Lenguaje Natural

- Subdisciplina de la inteligencia artificial y la ramaingeniería de la lingüística computacional.

- Se ocupa de la formulación e investigación demecanismos eficaces computacionalmente para lacomunicación entre personas o entre personas ymáquinas por medio de lenguajes naturales.

- No trata de la comunicación por medio de lenguajesnaturales de una forma abstracta, sino de diseñarmecanismos para comunicarse que sean eficacescomputacionalmente —que se puedan realizar por mediode programas que ejecuten o simulen la comunicación—.




PLN – Procesamiento de Lenguaje Natural

- Los modelos aplicados se enfocan no sólo a lacomprensión del lenguaje de por sí, sino a aspectosgenerales cognitivos humanos y a la organización de lamemoria. El lenguaje natural sirve sólo de medio paraestudiar estos fenómenos.

Componentes:

- Análisis morfológico.

- Análisis sintáctico.

- Análisis semántico.

- Análisis pragmático.

- Planificación y Generación de la frase.




Estadística

- Los modelos aplicados se enfocan no sólo a lacomprensión del lenguaje de por sí, sino a aspectosgenerales cognitivos humanos y a la organización de lamemoria. El lenguaje natural sirve sólo de medio paraestudiar estos fenómenos.

Componentes:

- Análisis morfológico.

- Análisis sintáctico.

- Análisis semántico.

- Análisis pragmático.

- Planificación y Generación de la frase.




Machine Learning

- Cualquier campo que necesita para interpretar y actuarsobre los datos puede beneficiarse de las técnicas deaprendizaje del ML.

- El aprendizaje automático se encuentra en laintersección de las ciencias de la computación, ingenieríay estadísticas y suele aparecer en otras disciplinas. Esuna herramienta que se puede aplicar a muchosproblemas.

- Utiliza diversos algoritmos como Python -



CURSO BIG DATA

B. PROBLEMA A RESOLVER

Se propone reducir la pérdida de tiempo que significa

actualmente la búsqueda y consulta de jurisprudencias

en el campo del derecho penal, a través de un

algoritmo que clasifique dichos documentos de acuerdo

con la estructura del código penal colombiano



CURSO BIG DATA

PROBLEMA A RESOLVER

Jurisprudencias sin clasificar

Algoritmode

clasificación

Jurisprudenciasclasificadas

Consulta de información clasificada



CURSO BIG DATA

¿CÓMO SE VA A LOGRAR?

Archivos BD Aparato Judicial

Preprocesamiento y generación de

archivos planos

Herramientas PLN

• Tokenizador: separa palabras

• Divisor de oraciones

• Verificador gramatical

• Lematizador: entrega las palabras en su forma original y coloca etiquetas

• Reconocimiento de nombresPatrones

lingüísticos

Extracción de conceptos

compuestos y simples



CURSO BIG DATA

FUENTES DE INFORMACIÓN

Jurisprudencia de Sala Penal de la Corte

Jurisprudencia de Sala Civil de la Corte

Tribunales

Decretos

Circulares

Resoluciones



CURSO BIG DATA

CRITERIOS PARA CLASIFICACIÓN

Tipos penales (delitos)

Verbos rectores

Agravantes

Calificantes

Legislación

Fecha de actualización de las BD fuente



CURSO BIG DATA

ESTRUCTURA DEL CÓDIGO PENAL COLOMBIANO

De carácter General

Título

4

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Capitulo 5 Capitulo 5

Capitulo 6

Capitulo 7

LIBR

O P

RIM

ERO

Título

3

Capitulo 1

Capitulo 2

Capitulo 3

Título

6

Capitulo 1

Título

5

Capitulo 1Títu

lo 2

Capitulo 1 Capitulo 1

Capitulo 2

Título

1

Capitulo 4



CURSO BIG DATA

ESTRUCTURA DEL CÓDIGO PENAL COLOMBIANO

De Carácter Especial

Capitulo 5

Capitulo 6

Capitulo 7

Capitulo 8

Título

10

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Título

9

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Capitulo 6

Capitulo 7Títu

lo 8

Capitulo 1

Título

7

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Capitulo 5

Capitulo 6

Título

6Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 7

Capitulo 8

Capitulo 9

Capitulo 10

Título

4

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Capitulo 5

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Capitulo 5

Capitulo 6

Título

2

Capitulo 1

Título

11

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Capitulo 5

Capitulo 1

Capitulo 2

Capitulo 3

Título

5

Título

3

LIBR

O SEG

UN

DO

Título

14

Capitulo 1

Capitulo 2

Título

13

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Título

12

Capitulo 1

Título

1

Capitulo 1

Capitulo 2



CURSO BIG DATA

CONJUNTO DE CLASES DE DOCUMENTOS



CURSO BIG DATA

CONJUNTO DE CLASES



CURSO BIG DATA

MODELO A UTILIZARLa clasificación en general, se puede se puede formalizar como latarea de aproximar una función objetivo desconocida Ф, que

describe cómo deben ser clasificados los documentos de acuerdocon un experto

El Clasificador: Ф´:D × C →{V, F}

Donde: C = { c1, c2, …, c|c| } ; conjunto de clases posibles

D = { d1, d2, …, dj } ; conjunto de documentos

Si Φ´:dj × ci →V : entonces dj es llamado un ejemplo positivo de ci

Si Φ´:dj × ci →F : entonces dj es llamado un ejemplo negativo de ci

Dependiendo de la aplicación un dj pude pertenecer a más de un ci



CURSO BIG DATA

MODELO A UTILIZARUn clasificador de textos para ci se genera automáticamente mediante unproceso inductivo (aprendiz), el cual a partir de documentos clasificados en ci o ci

obtiene las características que debe tener un documento nuevo para pertenecera ci



CURSO BIG DATA

SUPUESTOS PARA REPRESENTACIÓN DE UN DOCUMENTO• Ignorar la estructura del texto, no se intenta comprender

completamente el documento

• Se asume que los términos indexados son mutuamenteexcluyentes: unas palabras no incrementan laprobabilidad de aparición de otros en el texto (porsimplicidad)

• El texto se trata como una bolsa de palabras, no hayorden entre ellas (por eficiencia)

• Omitir palabras frecuentes que no contienen información semántica (palabras vacias)

• Se omiten palabras que aparecen una sola vez en toda la colección



CURSO BIG DATA

SUPUESTOS PARA REPRESENTACIÓN DE UN DOCUMENTO• Reducción del número de atributos de un texto a partir de la

ganancia de información (IG) que ofrecen:

P(ci ) = Probabilidad de ci

P(t) = Probabilidad de seleccionar un documento que contiene el término tP(ci |t) = Probabilidad de que un documento pertenezca a ci dado que tiene el término t

P(t) = Probabilidad de seleccionar un documento que no contiene el término tP(ci |t) = Probabilidad de que un documento pertenezca a ci dado que no contiene el término t



CURSO BIG DATA

REPRESENTACIÓN DE UN DOCUMENTO

• Una vez realizado el cálculo del IG para cada término o

atributo, se define un umbral mínimo y todos aquellos términos

cuyo IG esté por debajo del umbral se descartan

t1 t2 t3 t4 t5 … tn

d1 11 11 11 11 11 … 11

d2 12 12 12 12 12 … 12

d3 13 13 13 13 13 … 13

… …

dj j1 j2 j3 j4 j5 jn

Do

cum

en

tos

términos o atributos



CURSO BIG DATA

Valores para los :

• Binarios: 0 o 1, según el termino t se encuentre o no endocumento d

• Número de veces que aparece el termino t en el documento d

• Combinación de frecuencia del termino t tanto en el documentod como en el resto de documentos

Donde:

N: tamaño de la colección, número total de documentos

ni: número de documentos don de aparece el término i-esimo



CURSO BIG DATA

MÉTODO DE CLASIFICACIÓN

NAIVE BAYES

Probabilidad de que el documento dj pertenezca a la clase ci

P(ci ) = Probabilidad de la clase ci , documentos en ci sobre total documentos de entrenamiento

P(wtj |ci ) = cantidad de veces que wtj aparece en ci

count(wtj ,ci ) = número de veces que wtj aparece en ci



CURSO BIG DATA

PROCESO IMPLEMENTACIÓN MODELO

• Macro en word para convertir los archivos(jurisprudencias) de .doc a .txt

• Python, AWK para limpiar los archivos y filtarpalabras eliminando palabras vacias (no contieneninformación)

• Modelo MapReduce para determinar la frecuencia delas palabras



CURSO BIG DATA

PROCESO IMPLEMENTACIÓN MODELO

• En linux, en el directorio dirjuris se copian losarchivos .txt convertidos

• Se crea un solo archivo con todas las palabra deltotal de los archivos .txt, comando cat *.txt >todo.txt

• Función de mapeo sobre el archivo todo.txtcomando:

tr A-Z a-z < todo.txt | tr -cd 'a-z\n '|awk -f contar.awk|awk '{if(length($1) > 3 && $2 > 10) print $2 " " $1 }'|sort –nr

Se dejan palabras cuya frecuencia sea > 10 y cuyalongitud sea > 3



CURSO BIG DATA

GRACIAS

Trabajo final curso big data

Education

Transcript of Trabajo final curso big data