La Extracción de Objetos de Aprendizaje con Metadatos de...

7
TitleLearning Object Extraction with Pedagogical Design Metadata. AbstractThe generation of digital objects is a costly task and also there are very few tools that support the extraction of learning objects from existing digital materials. In this paper we present the general architecture of a system to extract learning objects from digital material, such as for example HTML pages or Word documents. One of the main features of the proposal is that objects are annotated with metadata generated according to the characteristics of instructional design. Index TermsLearning Object Metadata, Natural Language Processing. I. INTRODUCCIÓN CTUALMENTE la adopción y uso de la educación a distancia es cada vez más amplia, esto gracias a que permite salvar las limitaciones geográficas y temporales de los esquemas tradicionales de enseñanza. Al momento de preparar un curso a distancia sobre cualquier área temática, se cuenta con mucha información proveniente de diversos tipos de fuentes. Dado que las características de estos cursos requieren tener en cuenta diferentes aspectos a los considerados en cursos presenciales, como la adecuación al perfil del alumno o interactividad, entre otros; seleccionar los materiales y modificarlos para este tipo de curso, tiene un elevado costo y requiere gran cantidad de tiempo y dedicación. En la actualidad existen herramientas como Atutor [5] y Moodle [6] que facilitan al docente el armado de cursos a distancia. Estas herramientas trabajan con paquetes SCORM [7] conteniendo los distintos materiales del curso, junto a un conjunto de metadatos según el estándar LOM [8]. En general estos paquetes se pueden ver como ricos contenedores de materiales sobre un área temática, pero no son construidos de forma que sus componentes puedan ser reutilizados. Esto es debido a la diversa granularidad de los recursos que se les agregan y a la falta de carga de metadatos en el proceso. En este contexto, surge la necesidad de poder extraer en forma automática Objetos de Aprendizaje (de aquí en más denominados ODAs). R. Motz, C. Badell, M. Barrosa y R. Sum pertenecen a la Facultad de Ingeniería de la Universidad de la República, Julio Herrera y Reissig 565, Montevideo, Uruguay (email: [email protected], [email protected], [email protected] y [email protected] ). DOI (Digital Object Identifier) Pendiente Existen varias definiciones de lo que es un ODA, en APROA [1] se define como “la mínima estructura independiente que contiene un objetivo, una actividad de aprendizaje, un metadato y un mecanismo de evaluación, el cual puede ser desarrollado con tecnologías de información y comunicación (TIC) de manera de posibilitar su reutilización, interoperabilidad, accesibilidad y duración en el tiempo” y [2] como “material educativo digital, auto contenido y re- utilizable, poseedor de información que permite describir su contenido (metadata)”. La IIE [3] lo define como “cualquier objeto, digital o no, que puede ser utilizado, reutilizado, o referenciado en el proceso de enseñanza apoyada por la tecnología” y Wiley [4] como “cualquier recurso digital que puede usarse repetidamente para facilitar el aprendizaje”. .De las definiciones anteriores, y de muchas otras, se puede destacar un punto en común, que es el hecho de que deben ser reutilizables, para no replicar el esfuerzo que lleva la generación de contenidos educativos para distintas organizaciones. El uso de ODAs se está consolidando en la comunidad de los educadores, valorándose positivamente sus características de re-utilización e interoperabilidad. Estas características se ven acrecentadas cuando se trabaja con ODAs de granularidad fina. Un ODA de granularidad gruesa puede ser un curso completo, mientras que ODAs de granularidad fina pueden ser ejemplos, definiciones, ejercicios. La herramienta que este trabajo presenta es un extractor de ODAs de granularidad fina. Otra característica importante de la propuesta es que los ODA son generados en forma automática desde el material digital y son provistos con metadatos que permiten su valoración respecto a su adecuación a un diseño pedagógico. Algunas de las fuentes de información existentes para la extracción de ODAs pueden ser páginas HTML, documentos con formato PDF, wikis, paquetes SCORM [7] , etc. Por lo tanto, una solución al problema debe contemplar esta diversidad de fuentes, así como la posibilidad de cambiar el área temática objetivo y los aspectos pedagógicos relevantes. Otra característica importante de la solución es que debe permitir cambiar e incorporar nuevos motores de extracción y módulos de evaluación de calidad. En este trabajo presentamos la arquitectura del sistema Looking4LO para la extracción de ODAs desde materiales digitales como pueden ser páginas web de cursos o documentos doc. La solución propuesta cuenta con las características mencionadas en el párrafo anterior. Se destaca además que la arquitectura propuesta, provee guías de La Extracción de Objetos de Aprendizaje con Metadatos de Diseño Pedagógico Regina Motz, Claudia Badell, Martín Barrosa, Rodolfo Sum A IEEE-RITA Vol. 5, Núm. 2, May. 2010 49 ISSN 1932-8540 © IEEE

Transcript of La Extracción de Objetos de Aprendizaje con Metadatos de...

Page 1: La Extracción de Objetos de Aprendizaje con Metadatos de ...rita.det.uvigo.es/201005/uploads/IEEE-RITA.2010.V5.N2.A2.pdf · este contexto, surge la necesidad de poder extraer en

Title—Learning Object Extraction with Pedagogical Design

Metadata.

Abstract—The generation of digital objects is a costly task and

also there are very few tools that support the extraction of

learning objects from existing digital materials. In this paper we

present the general architecture of a system to extract learning

objects from digital material, such as for example HTML pages

or Word documents. One of the main features of the proposal is

that objects are annotated with metadata generated according to

the characteristics of instructional design.

Index Terms—Learning Object Metadata, Natural Language

Processing.

I. INTRODUCCIÓN

CTUALMENTE la adopción y uso de la educación a

distancia es cada vez más amplia, esto gracias a que

permite salvar las limitaciones geográficas y temporales de los

esquemas tradicionales de enseñanza. Al momento de preparar

un curso a distancia sobre cualquier área temática, se cuenta

con mucha información proveniente de diversos tipos de

fuentes. Dado que las características de estos cursos requieren

tener en cuenta diferentes aspectos a los considerados en

cursos presenciales, como la adecuación al perfil del alumno o

interactividad, entre otros; seleccionar los materiales y

modificarlos para este tipo de curso, tiene un elevado costo y

requiere gran cantidad de tiempo y dedicación.

En la actualidad existen herramientas como Atutor [5] y

Moodle [6] que facilitan al docente el armado de cursos a

distancia. Estas herramientas trabajan con paquetes SCORM

[7] conteniendo los distintos materiales del curso, junto a un

conjunto de metadatos según el estándar LOM [8]. En general

estos paquetes se pueden ver como ricos contenedores de

materiales sobre un área temática, pero no son construidos de

forma que sus componentes puedan ser reutilizados. Esto es

debido a la diversa granularidad de los recursos que se les

agregan y a la falta de carga de metadatos en el proceso. En

este contexto, surge la necesidad de poder extraer en forma

automática Objetos de Aprendizaje (de aquí en más

denominados ODAs).

R. Motz, C. Badell, M. Barrosa y R. Sum pertenecen a la Facultad de

Ingeniería de la Universidad de la República, Julio Herrera y Reissig 565,

Montevideo, Uruguay (email: [email protected], [email protected],

[email protected] y [email protected]). DOI (Digital Object Identifier) Pendiente

Existen varias definiciones de lo que es un ODA, en

APROA [1] se define como “la mínima estructura

independiente que contiene un objetivo, una actividad de

aprendizaje, un metadato y un mecanismo de evaluación, el

cual puede ser desarrollado con tecnologías de información y

comunicación (TIC) de manera de posibilitar su reutilización,

interoperabilidad, accesibilidad y duración en el tiempo” y [2]

como “material educativo digital, auto contenido y re-

utilizable, poseedor de información que permite describir su

contenido (metadata)”. La IIE [3] lo define como “cualquier

objeto, digital o no, que puede ser utilizado, reutilizado, o

referenciado en el proceso de enseñanza apoyada por la

tecnología” y Wiley [4] como “cualquier recurso digital que

puede usarse repetidamente para facilitar el aprendizaje”. .De

las definiciones anteriores, y de muchas otras, se puede

destacar un punto en común, que es el hecho de que deben ser

reutilizables, para no replicar el esfuerzo que lleva la

generación de contenidos educativos para distintas

organizaciones.

El uso de ODAs se está consolidando en la comunidad de

los educadores, valorándose positivamente sus características

de re-utilización e interoperabilidad. Estas características se

ven acrecentadas cuando se trabaja con ODAs de granularidad

fina. Un ODA de granularidad gruesa puede ser un curso

completo, mientras que ODAs de granularidad fina pueden ser

ejemplos, definiciones, ejercicios. La herramienta que este

trabajo presenta es un extractor de ODAs de granularidad fina.

Otra característica importante de la propuesta es que los ODA

son generados en forma automática desde el material digital y

son provistos con metadatos que permiten su valoración

respecto a su adecuación a un diseño pedagógico.

Algunas de las fuentes de información existentes para la

extracción de ODAs pueden ser páginas HTML, documentos

con formato PDF, wiki’s, paquetes SCORM [7] , etc. Por lo

tanto, una solución al problema debe contemplar esta

diversidad de fuentes, así como la posibilidad de cambiar el

área temática objetivo y los aspectos pedagógicos relevantes.

Otra característica importante de la solución es que debe

permitir cambiar e incorporar nuevos motores de extracción y

módulos de evaluación de calidad.

En este trabajo presentamos la arquitectura del sistema

Looking4LO para la extracción de ODAs desde materiales

digitales como pueden ser páginas web de cursos o

documentos doc. La solución propuesta cuenta con las

características mencionadas en el párrafo anterior. Se destaca

además que la arquitectura propuesta, provee guías de

La Extracción de Objetos de Aprendizaje con

Metadatos de Diseño Pedagógico

Regina Motz, Claudia Badell, Martín Barrosa, Rodolfo Sum

A

IEEE-RITA Vol. 5, Núm. 2, May. 2010 49

ISSN 1932-8540 © IEEE

Page 2: La Extracción de Objetos de Aprendizaje con Metadatos de ...rita.det.uvigo.es/201005/uploads/IEEE-RITA.2010.V5.N2.A2.pdf · este contexto, surge la necesidad de poder extraer en

extracción y generación de metadatos de acuerdo a la

adecuación de los ODAs a un diseño pedagógico. Para que la

reutilización de los ODAs pueda ser realizada con criterios

pedagógicos, estos deben ser extraídos de forma que

pertenezcan a tipos básicos de elementos pedagógicos, entre

los cuales se encuentran las definiciones, los ejemplos,

ejercicios, teoremas, demostraciones, etc.

Para entender el contexto de uso de la herramienta en la

Sección II se presenta una descripción general de la misma,

analizando componentes pedagógicos y metadatos extraíbles.

En la Sección III se describe la arquitectura general del

sistema Looking4LO. En la Sección IV se presentan las

tecnologías utilizadas para implementar el motor de

extracción. Finalmente en la Sección V brindamos algunas

conclusiones y trabajos futuros.

II. COMPONENTES PEDAGÓGICOS Y METADATOS EXTRAIBLES

Esta sección presenta el proceso general del sistema

Looking4LO, desde la entrada de fuentes al módulo extractor,

hasta la obtención de un paquete SCORM que contiene los

ODAs obtenidos a partir de ellas. El diagrama de la Figura 1

ilustra este proceso.

Para la búsqueda y generación de ODAs, se reciben dos

entradas que actúan como condicionantes a la hora de

determinar si clasifica o no la información de cierta fuente.

Dichas entradas son el modelo de dominio y el diseño

pedagógico. El modelo de dominio plantea el área temática

que está siendo abordada, y el diseño pedagógico indica las

características pedagógicas buscadas sobre la fuente. Los

ODAs resultado, serán aquellos que cumplan las

condicionantes planteadas por estas dos entradas.

El Modelo Pedagógico se usa para identificar las

estructuras formadas por elementos que cumplen una función

didáctica dentro de un curso (componentes pedagógicos),

como ser definiciones, ejercicios, demostraciones de teoremas,

etc. Por lo tanto, los componentes pedagógicos que recibe el

sistema indican qué tipo de información se quiere extraer

sobre un tema particular. Los Componentes Pedagógicos son

modelados mediante un conjunto de reglas.

El Modelo de Dominio se refiere a un área temática de

interés. Su función consiste en definir cualquier objeto o

entidad que se quiera representar, y se utiliza para modelar el

tema sobre el que se busca generar ODAs. Temáticas de

interés pueden ser matemática, programación de

computadoras, historia, cocina o cualquier otra sobre la que se

quiera generar ODAs. Cada dominio particular se modela a

través de una ontología. Una ontología es un modelo de datos

que representa un dominio y se utiliza para razonar sobre él.

Según la W3C, “Una ontología define los términos a utilizar

para describir y representar un área de conocimiento. Las

ontologías son utilizadas por las personas, las bases de datos,

y las aplicaciones que necesitan compartir un dominio de

información (un dominio es simplemente un área de temática

específica o un área de conocimiento, tales como medicina,

fabricación de herramientas, bienes inmuebles, reparación

automovilística, gestión financiera, etc.). Las ontologías

incluyen definiciones de conceptos básicos del dominio, y las

relaciones entre ellos, que son útiles para los ordenadores

[...]. Codifican el conocimiento de un dominio y también el

conocimiento que extiende los dominios. En este sentido,

hacen el conocimiento reutilizable” [8].

Las Fuentes son cualquier elemento digital que contenga

material desde donde generar ODAs. Dado que la variedad de

fuentes posibles es muy amplia, se diseñó el Sistema de forma

que pueda evolucionar a nuevos formatos y estrategias de

extracción. El prototipo actual toma como fuentes documentos

DOC, PDF y PPT.

La salida del sistema LooKIng4LO es un conjunto de

ODAs, donde cada uno de ellos posee metadatos que indican,

entre otros, la temática relativa a la ontología de dominio

utilizada, y la correspondencia con algún componente

pedagógico. Un ODA es modelado como un elemento que

contiene texto, más una estructura (árbol n-ario) de metadatos

que lo describe. Cada elemento de esta estructura de

metadatos, tiene un nombre, valor y un conjunto de elementos

hijos del mismo tipo. Esta estructura permite manejar

metadatos definidos en formato LOM y extensiones realizadas

sobre esta. Un ODA tiene cuatro conjuntos de metadatos que

clasifican esta información de acuerdo al origen desde donde

es obtenida:

1. MD-Fuente: metadatos disponibles a nivel de cada fuente

o recurso. Se refiere a la información asociada al archivo,

como autor, fecha de creación, etc. En el caso de un

paquete SCORM, también se refiere a los metadatos

disponibles en el archivo manifest; entre estos, se

distingue tres niveles: globales a todo el paquete,

asociados a los recursos y los que aplican específicamente

a un archivo contenido en un recurso.

2. MD-Generales: son generados automáticamente por el

Sistema y contienen información sobre el contenido del

documento, como el idioma.

3. MD-Específicos: generados automáticamente y

específicos a un tipo de componente pedagógico. Pueden

existir diferentes tipos de metadatos específicos para cada

tipo de componente pedagógico (ejercicios, ejemplos,

definiciones, etc.). Por ejemplo, nivel de interactividad

puede ser aplicado a un ejercicio pero no a una definición,

tiempo de lectura puede ser relevante para una definición

o ejemplo, pero tal vez no para un ejercicio.

4. MD-Externos: se añaden en forma manual por el usuario

del Sistema. Se asocian a todos los ODAs generados

Fig. 1. Diagrama del Sistema LooKIng4LO.

50 IEEE-RITA Vol. 5, Núm. 2, May. 2010

ISSN 1932-8540 © IEEE

Page 3: La Extracción de Objetos de Aprendizaje con Metadatos de ...rita.det.uvigo.es/201005/uploads/IEEE-RITA.2010.V5.N2.A2.pdf · este contexto, surge la necesidad de poder extraer en

durante la ejecución, y para estos, se debe proporcionar su

nombre y valor.

Esta clasificación de los metadatos permite mantener en los

ODAs toda la información disponible al momento de realizar

la extracción, en contrapartida con integrarla utilizando alguna

estrategia para resolver automáticamente los conflictos

encontrados. Sin embargo, hay una excepción con los

metadatos MD-Fuente; cuando la fuente es un paquete

SCORM se obtienen los mismos integrando los tres niveles de

metadatos que este puede contener (generales del SCORM, a

nivel de recursos y a nivel de cada recurso). El algoritmo

asigna mayor prioridad a los metadatos más “cercanos” al

recurso, complementando estos con el nivel superior. Es decir,

en caso de conflicto, se mantiene el valor del nivel más bajo, y

donde no exista un metadato se lo toma del nivel inmediato

superior si está disponible en él. Por lo tanto, se realiza una

integración desde lo más general a lo más específico,

manteniendo lo específico en caso de conflicto.

En la Figura 2 se muestra un diagrama con la clasificación

de las cuatro agrupaciones de metadatos definidos

previamente. La Figura 2 representa el texto de un documento

fuente que pertenece al paquete SCORM, y a su derecha un

ODA que contiene un segmento de dicho texto (recuadro

negro), que se corresponde a uno de los componentes

pedagógicos buscados.

Es de especial atención desde el punto de vista pedagógico

la categoría Educational de LOM que traen los Objetos de

Aprendizaje empaquetados en el Standard SCORM. Dentro de

la categoría Educational se encuentra el metadato Learning

Resource Type, donde distinguimos a los siguientes tipos:

• Gráfico: diagram, graph, slide, figure.

• Texto: exercise, simulation, questionnaire, index, table,

narrative text, exam, experiment, problem statement, self

assessment, lecture, definition, example, FAQ, theorem,

activity, conclusion, demonstration, objective, midterm

examination.

Además se agregan los tipos que son significativos para la

organización del curso: notice board (cartelera), time-table

(horarios), program (programa), scheduler (cronograma),

automatic receiver (entrega de tareas online). Para los mails,

foros y newsgroup se usa el formato VCARD.

En la Tabla se indican los Componentes Pedagógicos, y

Metadatos Específicos implementados en el prototipo actual

del Sistema Looking4LO. Se extrae un tipo de metadato

específico para cada uno de los componentes pedagógicos

implementados, y un tipo de metadato general, que aplica a

todos. La elección de estos metadatos para el prototipo fue

arbitraria, ya que se buscó mostrar la utilidad de la

clasificación de metadatos específicos y generales, e

implementar su extracción para demostrar su factibilidad.

Extender y/o incorporar nuevos metadatos

generales/específicos implica implementar nuevas reglas.

El metadato específico tiempo de lectura aplica por ejemplo

al componente pedagógico definición, y es una estimación del

tiempo que requiere leer el contenido del ODA. Se calcula

contabilizando la cantidad de palabras del contenido del ODA,

dividido por una constante.

El metadato específico tiene imagen aplica por ejemplo al

componente pedagógico ejemplo, y asocia un valor booleano,

que es verdadero en caso que el ODA contenga una imagen o

figura como parte de su contenido, falso en caso contrario.

Este último metadato se implementa en forma parcial ya que

el prototipo solo extrae texto, pero se identifica si dentro del

texto original se encuentra una imagen.

El metadato específico nivel de interactividad aplica por

ejemplo al componente pedagógico ejercicio, y asocia un

valor entero al ODA. Este valor depende de si el ejercicio

debe enviarse por email, a un foro, grupo de noticias o no se

requiere ninguna de estas actividades para su resolución. En la

¡Error! No se encuentra el origen de la referencia. se

muestra el valor asociado al nivel de interactividad según el

medio de contacto, siendo 1 el valor más bajo y 10 el máximo.

En caso de no haber un medio de contacto en el contenido del

ejercicio, el valor asignado es cero.

Se extraen además metadatos generales, como ser Autor,

que corresponde al autor del documento. Estos metadatos

generales aplican a todos los ODAs que se extraen y se buscan

a nivel de todo el documento y no solamente en el contenido

de un tipo de componente pedagógico particular. Cuando se

identifica el ó los autores de un documento, se extrae también

el correo electrónico y página web de cada autor en caso de

que esta información esté disponible junto al nombre del

autor.

Fig. 2. Clasificación de los metadatos de un ODA.

TABLA I COMPONENTES PEDAGÓGICOS Y METADATOS ESPECÍFICOS EXTRAÍBLES

Componente Pedagógico Metadatos Específicos

Definición tiempo de lectura

Ejemplo tiene imagen

Ejercicio nivel de interactividad

TABLA II NIVEL DE INTERACTIVIDAD

Medio de contacto Valor de interactividad (1-10)

Email 5

News 8

Foro 9

MOTZ, BADELL, BARROSA Y SUM: LA EXTRACCIÓN DE OBJETOS DE APRENDIZAJE CON METADATOS... 51

ISSN 1932-8540 © IEEE

Page 4: La Extracción de Objetos de Aprendizaje con Metadatos de ...rita.det.uvigo.es/201005/uploads/IEEE-RITA.2010.V5.N2.A2.pdf · este contexto, surge la necesidad de poder extraer en

III. ARQUITECTURA GENERAL DEL SISTEMA LOOKING4LO

En la Figura 3 se muestra el diagrama de la arquitectura del

prototipo del sistema Looking4LO.

Las entradas al Sistema son recibidas por el Controlador,

que identifica el tipo de cada documento a analizar, y lo

delega al wrapper (empaquetador) correspondiente junto con

el resto de los parámetros de entrada. Los tipos de fuentes que

soporta el prototipo son: PDF, paquetes SCORM, páginas

HTML y documentos de texto. La salida de estos wrappers

son ODAs enriquecidos con metadatos los cuales son

recibidos por el Empaquetador, que persiste o presenta esta

información en un formato particular. En el prototipo se

persiste la información en paquetes SCORM y además se

visualiza en la interfaz gráfica del prototipo (sitio web).

El prototipo permite sustituir wrappers existentes por otros,

al igual que incorporar nuevos wrappers siempre y cuando

éstos implementen las interfaces correspondientes para ser

integrados al sistema.

Como se muestra en la Figura 3 el wrapper SCORM

interactúa con los otros wrappers, esto se debe a que el

paquete SCORM contiene archivos que son fuentes de

información. Esta interacción no está acoplada, pudiéndose

comunicar el wrapper SCORM con otros wrappers de otro tipo

de fuente o cambiando wrappers existentes según se mencionó

en el párrafo anterior.

IV. MOTOR DE EXTRACCIÓN DE ODAS

El módulo Extractor es el encargado de identificar los

ODAs desde materiales digitales (fuentes de información) y

colocarles los metadatos adecuados respecto a las

características deseadas para un diseño pedagógico. Las

fuentes de información sobre las que nos concentramos

actualmente son páginas html y paquetes SCORM. En el caso

de paquetes SCORM, puede suceder que todo un curso sea el

ODA y el interés es extraer ODAs de granularidad más fina

como pueden ser ejemplo, ejercicios, definiciones, teoremas,

etc. Otras de las entradas al Módulo Extractor es la

especificación de las características del diseño pedagógico en

que los ODAs extraídos serán utilizados y la terminología del

dominio específico o sea la temática sobre la que se está

trabajando (ej. Matemáticas, Historia, etc.). Esta terminología

se especifica por ontologías livianas. La Figura 4 muestra la

arquitectura del módulo extractor.

El Módulo Extractor trabaja en dos niveles, un primer nivel

donde se especifican los tipos de elementos que se quieren

extraer. En este nivel, pueden clasificar los siguientes tipos de

elementos: definición, ejercicio, ejemplo, etc. Para la

descripción de estos elementos se utiliza la ontología de cursos

diseñada en el proyecto Red Educa [11]. En el segundo nivel

se identifican los metadatos que acompañan a cada elemento

del primer nivel, que deben estar identificados en las

características del diseño pedagógico que se va a utilizar. En

este nivel pueden encontrarse atributos como: nivel de

interactividad, estilo de aprendizaje al que se apunta (holístico,

analítico, visual, textual, etc.).

En una primera versión se trabajó con las características del

diseño pedagógico escrito en reglas de negocio usando el

motor de reglas Drools [13]. Drools (conocido también como

JBoss Rules) es un motor de Reglas de Negocio implementado

totalmente en Java. Sin embargo, en la segunda versión del

prototipo se trabajó con GATE [14], General Architecture for

Text Engineering, que es una plataforma que permite integrar

componentes de Procesamiento de Lenguaje Natural para

construir aplicaciones. GATE permite procesar los siguientes

formatos de documentos: TXT, HTML, SGML, RTF, XML,

Email, PDF y WORD. En GATE un documento es modelado

como su contenido más un conjunto de anotaciones. Una

anotación es información adicional sobre un fragmento

particular del contenido del documento. Cada anotación tiene

los siguientes ítems:

• identificador: forma de identificar la anotación.

• tipo de anotación: determina las propiedades que se

registran de la anotación.

• nodo inicio: posición del documento donde comienza la

anotación.

• offset inicio: posición relativa del nodo inicio según el

inicio del documento.

Fig. 3. Arquitectura del prototipo.

Fig. 4. Módulo Extractor.

52 IEEE-RITA Vol. 5, Núm. 2, May. 2010

ISSN 1932-8540 © IEEE

Page 5: La Extracción de Objetos de Aprendizaje con Metadatos de ...rita.det.uvigo.es/201005/uploads/IEEE-RITA.2010.V5.N2.A2.pdf · este contexto, surge la necesidad de poder extraer en

• nodo fin: posición del documento donde finaliza la

anotación.

• offset fin: posición relativa del nodo fin según el inicio

del documento.

• conjunto de propiedades: lista donde los elementos son

de la forma (nomPropiedad, valor) donde nomPropiedad

indica el nombre de una propiedad de la anotación y

valor el contenido de esa propiedad para esa anotación.

Las anotaciones son generadas y/o modificadas por los

distintos Recursos de Procesamiento (tokenizadores,

etiquetadores léxicos, separadores de oraciones, reconocedores

de entidades, entre otros) definidos en GATE. Para generar

estas anotaciones, un Recurso de Procesamiento tiene como

entrada el documento a procesar (representación interna del

documento) y otros recursos que necesite para llevar a cabo

sus anotaciones. Como salida se tiene un documento

enriquecido con nuevas anotaciones y/o modificadas. Dado

que un Recurso de Procesamiento para realizar sus

anotaciones puede necesitar anotaciones definidas por otros

Recursos de Procesamiento, GATE permite “conectar” los

recursos en un pipeline (Figura 5), donde la salida de un

recurso se convierte en la entrada de otro.

En este pipeline, el primer Recurso de Procesamiento es el

Tokeniser, el cual tiene como objetivo descomponer un texto

en “unidades de texto”, tales como, números, signos de

puntuación y cadenas de caracteres. Este recurso genera dos

tipos de anotaciones, las cuales se denominan Token y

SpaceToken. A continuación, el Sentence Splitter delimita las

oraciones, generando anotaciones del tipo Sentence. Luego el

POS Tagger identifica la categoría gramatical para cada token

identificado por el Tokeniser. El Gazetteer identifica los

conceptos que se encuentran en el documento en base a una

ontología que es recibida como parámetro. En este contexto, la

ontología modela el área temática sobre la cual se quieren

extraer ODAs, es decir, el Gazetteer permite identificar sobre

qué trata un fragmento del documento. Por último, el

Transducer, ejecuta un conjunto de reglas contextuales para

identificar los distintos componentes pedagógicos a extraer

junto a sus metadatos. Como salida de este pipeline, se tiene un

conjunto de anotaciones sobre el documento, las cuales son

procesadas para generar los ODAs.

Considerando por ejemplo el siguiente texto:

“Una tabla dispersión es un arreglo que contiene el

producto cartesiano (clave, información) de los elementos

del diccionario.”

se obtiene la anotación generada por el Sentence Splitter

donde se indica el tipo de anotación, el nodo inicio y nodo fin

con sus respectivos offsets. Esta anotación delimita el

comienzo y fin de una oración en el documento (Figura 6).

El recurso Transducer ejecuta un conjunto de reglas

definidas en jape. Las anotaciones generadas por este recurso

son las que identifican los componentes pedagógicos y

metadatos sobre el documento. El Transducer para identificar

los componentes pedagógicos y metadatos, procesa las

anotaciones generadas por los otros recursos al momento de

ejecutar las reglas.

Luego la oración es extraída como un objeto de aprendizaje

de tipo “definición” a través de la aplicación de las reglas (por

ejemplo las que siguen especifican una definición):

(1) [<verb>] + <substantive> + “es” +

<substantive> + [<verb>]

(2) <verb> + <substantive> + “como” +

<substantive> + [“que” + <verb>]

A continuación se presenta un ejemplo de extracción de

ODAs por el Módulo Extractor del sistema Looking4LO.

Como fuente se dispone de un paquete SCORM que fue

generado con Atutor, sobre el área temática de la Verificación

de Software (Modelo de Domino). El tipo de ODA que se

desea extraer son “definiciones”. Se analiza parte de la página

HTML, fuente de información sobre la que se desea extraer

los ODAs (Figura 7).

Usando las reglas gramaticales que dispone el sistema

actualmente, se identifican y extraen definiciones como los

indicados en el 1ero., 2do., 4to., y 5to. recuadro del ejemplo.

Las definiciones que se encuentran en el tercer y sexto

recuadrado del ejemplo presentan problemas. La definición

del recuadro tercero no es extraída con las reglas gramaticales

actuales pero es fácil extender las reglas para su extracción. La

frase que se encuentra en el sexto recuadrado, cumple con una

de las reglas gramaticales con las que se dispone, pero no es

una definición. Descartar frases como la anterior es un desafío

a resolver. La generación de los metadatos para las

definiciones que se extraen corresponden en ambos casos para

la característica Estilos de Aprendizaje: “Recurso Textual” ya

que no se identificó ningún archivo con imágenes o video

asociado a las definiciones y como nivel de interactividad le

corresponde el valor cero.

Un tema importante es seleccionar la estrategia de

delimitación de ODAs al momento de realizar la extracción.

En el prototipo, la estrategia implementada para delimitar

ODAs es si el siguiente ODA pertenece al mismo párrafo se

marca el fin de un ODA según el inicio del siguiente, en caso

Fig. 6. Anotación generada por el Sentence Splitter.

Fig. 5. Pipeline de Recursos de Procesamiento.

MOTZ, BADELL, BARROSA Y SUM: LA EXTRACCIÓN DE OBJETOS DE APRENDIZAJE CON METADATOS... 53

ISSN 1932-8540 © IEEE

Page 6: La Extracción de Objetos de Aprendizaje con Metadatos de ...rita.det.uvigo.es/201005/uploads/IEEE-RITA.2010.V5.N2.A2.pdf · este contexto, surge la necesidad de poder extraer en

contrario, el fin del ODA será el fin de párrafo al que

pertenece su contenido.

V. CONCLUSIONES Y TRABAJOS FUTUROS

En este trabajo presentamos la arquitectura general de una

herramienta para la extracción de objetos digitales de

aprendizaje desde materiales digitales. Los objetos de

aprendizaje extraídos de forma semi-automática por el sistema

Looking4LO poseen además los metadatos que identifican

varias de sus propiedades relativas al diseño pedagógico. La

necesidad de contar con objetos de aprendizaje que posean

metadatos es un tema ampliamente tratado en la literatura y

son reconocidas las dificultades de la generación manual de

los metadatos [15,16].

Aún cuando los metadatos sean generados por expertos, la

consistencia de los mismos es un problema, tanto entre los

diferentes expertos como entre un mismo experto frente a

diferentes objetos de aprendizaje, describes como la

consistencia de los metadatos depende de diferentes factores

entre ellos el vocabulario usado (lista de términos u

ontologías). Además, los docentes que generan los materiales

generalmente no desean perder tiempo en una actividad de

generar metadatos que directamente no les ofrece ningún

beneficio.

Una solución a estos problemas es el uso de herramientas

que apoyen la generación semi-automática de metadatos.

Greenberg et al. [17] Afirman que la generación semi-

automática de metadatos es menos costosa, más eficiente y

más consistente. En Greenberg et al.[18] se distinguen entre

los procesos de extracción y de recolección de metadatos. El

proceso de extracción corresponde a la creación automática de

metadatos basada en el procesamiento del contenido del

documento, el proceso de recolección de metadatos

corresponde a coleccionar los metadatos ya especificados (por

ejemplo, etiquetas en HTML). Para nuestro sistema

Looking4LO los distintos procesos de generación de

metadatos no son importantes ya que no nos enfocamos en el

procedimiento seguido sino en los metadatos obtenidos.

Varios trabajos han abordado la generación automática

de metadatos para objetos de aprendizaje. Ejemplos

representativos son los trabajos de Ochoa et al. [19], Saini et

al. [20] y [21], sin embargo estos abordajes no consideran

extender los metadatos con propiedades descriptivas del

modelo pedagógico al que adhieren los objetos de aprendizaje.

La necesidad de contar con objetos de aprendizaje que posean

metadatos útiles para sus evaluaciones desde el punto de vista

pedagógico es un desafío abierto. Consideramos que nuestro

sistema Looking4LO aporta en este sentido, ya que considera

el diseño pedagógico para la generación de metadatos

adecuados durante el proceso de extracción de los objetos de

aprendizaje. En [22] se presenta una primera experiencia de

uso de esta herramienta en la extracción de objetos de

aprendizaje.

El motor de extracción implementado permite configurar

para la extracción el conjunto de Componentes Pedagógicos

que se quieren extraer junto con sus Metadatos Específicos

(por defecto el motor de extracción evalúa todos los

Componentes Pedagógicos que tiene definidos junto a todos

sus metadatos).

Luego de realizada la etapa de extracción de los ODA con

metadatos correspondientes al diseño pedagógico, corresponde

anotar los atributos de Calidad que se quieren evaluar sobre

los ODAs extraídos. Actualmente este módulo es un trabajo en

desarrollo bajo el proyecto JARDIN-LACCIR [12]. La

aspiración es que este proceso se realice en forma automática.

Para este fin se está utilizando el mismo enfoque que el usado

en los trabajos de Oliver y Conole [23] y de Gonzalez et al.

[24]. A modo de ejemplo, algunos posibles factores de calidad

generales a evaluar sobre los materiales son: frescura,

semántica, sintaxis, precisión, reputación del origen de la

fuente.

AGRADECIMIENTOS

Los autores agradecen a los revisores por los comentarios

que ayudaron a mejorar este artículo y al Programa

Iberoamericano de Ciencia y Tecnología para el desarrollo

(CYTED) por su soporte para este trabajo mediante el

Fig. 7. Texto analizado.

54 IEEE-RITA Vol. 5, Núm. 2, May. 2010

ISSN 1932-8540 © IEEE

Page 7: La Extracción de Objetos de Aprendizaje con Metadatos de ...rita.det.uvigo.es/201005/uploads/IEEE-RITA.2010.V5.N2.A2.pdf · este contexto, surge la necesidad de poder extraer en

proyecto CYTED-508AC0341 “SOLITE- SOFTWARE

LIBRE EN TELEFORMACIÓN” y al programa Latin

American and Caribbean Collaborative ICT Research

(LACCIR)- Proyecto JARDIN- LACCIR-RFP2007.

REFERENCIAS

[1] APROA Comunidad. ¿Qué es un Objeto de Aprendizaje. Disponible: http://www.aproa.cl/1116/propertyvalue-5538.html. Acceso abril 2010.

[2] APROA Comunidad. FAQ: Sobre Objetos de Aprendizaje. Disponible:

http://www.aproa.cl/1116/article-68380.html. Acceso abril 2010. [3] IEEE Learning Technology Standards Committee. http://ieeeltsc.org/.

Acceso abril 2010.

[4] D. A Wiley. The Instructional Use of Learning Objects: Version online. Disponible: http://reusability.org/read/chapters/wiley.doc. Acceso abril

2010.

[5] ATutor. http://www.atutor.ca. Acceso abril 2010.

[6] Moodle. http://www.moodle.org.Acceso abril 2010.

[7] SCORM - Sharable Content Object Reference Model.

http://www.adlnet.gov/scorm/index.aspx. Acceso abril 2010. [8] IEEE-LOM. http://ltsc.ieee.org/wg12/. Acceso abril 2010.

[9] R. Motz, A. Casali, C. Deco y C. Bender. Hacia un Asistente para la

Adecuación de cursos a Modelos Pedagogicos. En V Congreso de Tecnología en Educación y Educación en Tecnología, 2010.

[10] R. Sosa, A. Rodríguez, R. Motz. Adquiriendo Metadatos para Objetos de

Aprendizaje En First Latin American Conference on Learning Objects (LACLO 2006), October 23 - 27, Guayaquil, Ecuador, 2006.

[11] Proyecto Red Educa. http://www.fing.edu.uy/inco/grupos/csi/esp/Proyectos/Educa/nuevoSitio/

index.html. Acceso abril 2010.

[12] Proyecto JARDIN-LACCIR. http://www.laccir.org. Acceso abril 2010. [13] Drools. http://labs.jboss.com/drools/. Acceso abril 2010.

[14] GATE, General Architecture for Text Engineering. http://gate.ac.uk

[15] K. Cardinaels, M. Meire, y E. Duval. Automating Metadata Generation: the Simple Indexing Interface. En Proceedings of the 14th International

World Wide Web Conference (WWW2005), 548-556, 2005.

[16] S. Kabel, R. de Hoog, B. Wielinga, y A. Anjewierden. Indexing learning objects: Vocabularies and empirical investigation of consistency.

Journal of Educational Multimedia and Hypermedia, 13(4):405-425,

October 2004. [17] J. Greenberg, K. Spurgin, y A. Crystal. Final report for the amega

(automatic metadata generation applications) project. Technical report,

School of Information and Library Science, 2005. [18] J. Greenberg, K. Spurgin, y A. Crystal. Functionalities for automatic

metadata generation applications: a survey of metadata experts' opinions.

Int. J. Metadata, Semantics and Ontologies, 1(1):3-20, 2006. [19] X. Ochoa, K. Cardinaels, M. Meire, E. Duval. Methodological and

Technological Frameworks for the Automatic Indexation of Learning

Management Systems Content into Learning Object Repositories. Proceedings of the ED-MEDIA 2005 World Conference on Educational

Multimedia, Hypermedia, and Telecommunications, 2005.

[20] P.S. Saini, M. Ronchetti, y D. Sona. Automatic generation of metadata for learning objects. In Sixth International Conference on Advanced

Learning Technologies, 275-279, 2006.

[21] K Cardinaels. A Dynamic Learning Object Life Cycle and its Implications for Automatic Metadata Generation. PhD Thesis,

Katholieke Universiteit Leuven Faculteit Ingenieurswetenschappen

Departement Computerwetenschappen, 2007. [22] C. Badell, R. Motz, R. Sum, M. Barrosa, G. Diaz y M. Castro.

LooKIng4LO: Sistema Informático para la extracción automática de

Objetos de Aprendizaje. V Congreso Iberoamericano de Telemática (CITA 2009).

[23] M. Oliver y G. Conole, Assessing and Enhancing Quality using

Toolkits. Quality Assurance in Education. 8(1):32-37, 2000.

[24] R. E. Ruiz, J. Muñoz y F. Álvarez. Formato para la determinación de la

Calidad en los Objetos de Aprendizaje. LACLO 2006, 1ra. Conferencia

Latinoamericana de Objetos de Aprendizaje, Guayaquil, Octubre 23-27, 2006.

Regina Motz es Doctora en Computación por la

Technische Universität Darmstadt, Alemania (2004).

Master en Informática por la Universidad Federal de

Pernambuco, Brasil, (1990). Ingeniera de Sistemas en Computación por la Universidad de la República, Uruguay

(1988). Actualmente se desempeña como Profesor Titular

del Instituto de Computación de la Facultad de Ingeniería de la Universidad de la República y como coordinadora

del grupo de investigación Sistemas de Información del

mismo instituto.

Claudia Badell es Analista en Computación por la

Universidad de la República (2008), Uruguay. Actualmente se desempeña como Ayudante del Instituto

de Computación de la Facultad de Ingeniería de la

Universidad de la República. A su vez, es coordinadora del equipo de testing en Timba Software Corporation.

Martín Barrosa es Analista en Computación por la

Universidad de la República, Uruguay (2006). Estudiante avanzado de la carrera Ingeniería de Sistemas en

Computación por la Universidad de la República,

Uruguay. Actualmente se desempeña como Analyst/Developer en el HSBC.

Rodolfo Sum es Ingeniero de Sistemas en Computación por la Universidad de la República, Uruguay (2009).

Actualmente se desempeña como Ayudante del Instituto

de Computación de la Facultad de Ingeniería de la

Universidad de la República en proyectos del área de

educación a distancia.

MOTZ, BADELL, BARROSA Y SUM: LA EXTRACCIÓN DE OBJETOS DE APRENDIZAJE CON METADATOS... 55

ISSN 1932-8540 © IEEE