Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula...

19
Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski

Transcript of Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula...

Page 1: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

Categorización de documentos del Centro Virtual Cervantes

Fernando García

Eddy Rodriguez

Paula Zitinski

Page 2: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

Introducción del proyecto

Clasificación de las páginas web del Centro Virtual Cervantes

La clasificación actual - incompleta: Música Enseñanza Artes Literatura Lengua

Page 3: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

Alcance

Crear un clasificador que se pueda aplicar a las páginas del CVC

Este clasificador tendrá que cumplir los siguientes requisitos: Entrada desde un fichero de texto Salida a una base de datos Usar, en la medida posible, distintos frameworks La clasificación debe producirse sin (demasiados)

errores Debe terminar en tiempo aceptable

Page 4: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

Entorno software

1. Eclipse (Java) Entorno de desarrollo integrado de código

abierto

Page 5: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

2. Lucene es un framework de código abierto para

recuperación de información Búsqueda de palabras en documentos Problema – analizador en inglés

Solución – adaptación de la librería a través de un fichero externo (300 palabras)

Page 6: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

3. SVN Sistema de control de versiones Compatible con Eclipse

Page 7: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

4. Google code Espacio web para el almacenamiento de proyectos

de código abierto Página web:

http://code.google.com/p/proyectoil2010

Page 8: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

5. JUnit Librerías de código para hacer pruebas unitarias y

de integración

Page 9: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

6. Jericho HTML Parser

Librería de Java para el tratamiento de páginas web

Al final no lo utilizamos – sacaba información irrelevante

Page 10: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

Sistema desarrollado

Estructura general del proyecto

Page 11: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

Ficheros de entrada: Base – páginas web, ya categorizadas SpanishSmart – lista de palabras ruido Test – páginas web no clasificadas

Salida del programa: Base de datos

Page 12: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

Objetos del proyecto (despliegue)

Page 13: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

Lista de funcionalidades de la aplicación hasta el momento

Page 14: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.
Page 15: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.
Page 16: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.
Page 17: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

Pendiente de desarrollo

Cambiar el modo de introducción de páginas web a categorizar

Implementar la función de similitud Implementar el almacenamiento de resultados Calcular la validez del código (JUnit)

Page 18: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

Bibliografía

Código de nuestra página web: http://proyectoil2010.googlecode.com/svn/trunk

http://junit.sourceforge.net http://www.adictosaltrabajo.com http://www.googlecode.com http://lucene.apache.org http://www.ibm.com/developerworks/opens

ource/library/os-ecl-subversion http://jericho.htmlparser.net

Page 19: Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

¡Ahora, vosotros!