La web semantica

25
- LA WEB SEMÁNTICA - LENGUAJES DE MARCADO - ONTOLOGÍAS, TESAUROS - ESPECIFICACIÓN RDF (RESOURCE DESCRIPTION FRAMEWORK) - LENGUAJE DE REPRESENTACIÓN DE CONOCIMIENTO OWL (WEB ONTOLOGY LANGUAJE) Natividad Arias Cortazar Email: [email protected]

Transcript of La web semantica

Diapositiva 1

- LA WEB SEMNTICA

- LENGUAJES DE MARCADO

- ONTOLOGAS, TESAUROS

- ESPECIFICACIN RDF (RESOURCE DESCRIPTION FRAMEWORK)

- LENGUAJE DE REPRESENTACIN DE CONOCIMIENTO OWL (WEB ONTOLOGY LANGUAJE)

Natividad Arias CortazarEmail: [email protected]

QUE ES LA WEB SEMNTICA?Es una extensin de la Web actual en la que se proporciona la informacin con un significado bien definido y se mejora la forma en que las mquinas y las personas trabajan en cooperacin. La web semntica ayuda a resolver la sobrecarga de informacin y heterogeneidad de fuentes de informacin, permitiendo a los usuarios delegar tareas de software. Gracias a la Web Semntica, el software es capaz de procesar su contenido, razonar con este, combinarlo y realizar deducciones lgicas para resolver problemas cotidianos automticamente. Cmo funciona? La web semntica, posee la capacidad de construir una base de conocimiento sobre las preferencias de los usuarios y que, a travs de una combinacin entre su capacidad de conocimiento y la informacin disponible en internet, esta es capaz de atender de forma exacta las demandas de informacin por parte de los usuarios en relacin.

ARQUITECTURA DE LA WEB SEMNTICA

PRINCIPIOS BSICOS

- UNICODE: El Alfabeto Se trata de una codificacin del texto que permite utilizar smbolos de diferentes idiomas sin que aparezcan caracteres extraos. De esta forma, se puede expresar informacin en la Web Semntica en cualquier idioma.

PRINCIPIOS BSICOS

URI: las Referencias Se trata de una codificacin del texto que permite utilizar smbolos de diferentes idiomas sin que aparezcan caracteres extraos. De esta forma, se puede expresar informacin en la Web Semntica en cualquier idioma.Es el acrnimo de un Universal Resource Identifier o Identificador Universal de Recursos, que es un identificador nico que permite la localizacin de un recurso que puede ser accedido va internet. Se trata del URL (descripcin de la ubicacin).

Cmo llamamos a lo que llamamos en la Web?

. Por medio de URI (Universal Resource Identifier)Similar a una URL HTTP URIs identifica funcionalmente un recurso en la Web Una URI identifica solo una cosa

Todo se identifica con una URI*URIsMi pagina: http://arias.clYo: http://nato.arias.cl

*URIs tambin son para predicados Ejemplo: la galleta sabe a chocolate

*CURIE: http://example.org/abc se puede escribir comoPREFIX ex: http://example.org/

PRINCIPIOS BSICOS

- XL + NS + xmlschema En esta capa se agrupan las diferentes tecnologas que hacen posible que los agentes puedan entenderse entre ellos. XML ofrece un formato comn para intercambio de documentos, NS (namespaces) sirve para cualificar elementos y atributos de nombres usados en XML asocindolos con los espacios de nombres identificados por referencias URI, y XML Schema ofrece una plantilla para elaborar documentos estndar.

PRINCIPIOS BSICOS - RDF + rdfschema Es un lenguaje siempre mediante el cual definimos sentencias en el formato de una 3-upla o triple (sujeto: el recurso al que nos referimos; predicado: el recurso que indica que es lo que estamos definiendo; y objeto: puede ser el recurso o un literal que podra considerarse el valor de lo que acabamos de definir).

Cmo describir informacin sobre cosas en la Web?Y como hacer que las computadoras puedan entenderlo?

Usando RDF (Resource Description Framework)

Ejemplo:

Natividads homepage is http://graves.cl Sujeto Predicado Objeto

PRINCIPIOS BSICOS

Lenguajes de OntologasOntologa: Modelo formal de una parte del mundo La distincin es cuan expresivo es el modelo El uso de ontologas permite describir objetos y sus relaciones con otros objetos, ya que una ontologa en es la especificacin formal de una conceptualizacin de un dominio concreto del conocimiento. Esta capa permite extender la funcionalidad de la Web Semntica, agregando nuevas clases y propiedades para describir los recursos.

Vocabularios comunesFOAF (redes sociales) SIOC (comunidades online)Dublin Core (Metadatos en general) OWL (Metaontologa)

Dominio y rangoSimilar a las funciones matemticas - Dominio: de que clase sale esta propiedad - Rango: A que clase llega esta propiedad

OWL (Web Ontology Languaje)Provee restricciones lgicasSirve para expresar cosas como: una persona tiene exactamente una madre y exactamente un padre

Predicado: ex:madreDe es inverso de ex:tieneMadre

PRINCIPIOS BSICOS

- Lgica En esta capa se establecen reglas de inferencia, es decir, una ontologa puede expresar la regla por ejemplo: si un cdigo de ciudad est asociado a un cdigo de estado, y si una direccin es el cdigo de ciudad, entonces esa direccin tiene el cdigo de estado asociado.

PRINCIPIOS BSICOS

- PruebasEs el intercambio de pruebas escritas en lenguaje unificador

- ConfianzaLa Web semntica comprueba de forma exhaustiva las fuentes de informacin

- Firma digital Se utiliza XML Signature WG: httpp://www.w3.org/Signature/

Mapa conceptual de la Web Semntica.

Fuente: Keilyn Rodrguez Perojo y Rodrigo Ronda Len

LENGUAJES DE MARCADO

Un lenguaje de marcas es un lenguaje que anota el texto de modo que el ordenador puede manipularlo. La mayora de los lenguajes de marcas son legibles debido a que las anotaciones estn escritas de forma tal que se puedan distinguir de los textos. Por ejemplo, con HTML, XML y XHTML, las etiquetas de formato son y . El texto que aparece dentro de uno de esos delimitadores se considera parte del lenguaje de marcado y no parte del texto anotado. Por ejemplo: p este es un prrafo de texto escrito en HTML /p Al dar formato al texto que se desea imprimir (o visualizar en un ordenador o TV), es necesario distinguir entre el texto en s y las instrucciones para imprimir el texto. Las marcas son las instrucciones para mostrar o imprimir el texto.El marcado se convierte en un lenguaje cuando las reglas estn codificadas en torno a cmo escribir y usar el marcado. La mayora de los lenguajes de marcas se definen por una autoridad externa para permitir su uso por muchas personas diferentes.

LENGUAJES DE MARCADO

- HTML (HyperText Markup Language)HTML (HyperText Markup Language) es el lenguaje estndar utilizado en la Web para representar la informacin intercambiada por sus usuarios en forma de documentos de hipertexto.

HTML es el lenguaje de la web. Casi todas las pginas web estn escritas en HTML. HTML define la forma en que las imgenes, multimedia y texto se muestran en los navegadores web. Incluye elementos para conectar los documentos (hipertexto) y hacer que los documentos web sean interactivos.

Est basado en el metalenguaje SGML, un estndar para la descripcin de documentos. La gramtica HTML est escrita en SGML, en un documento denominado DTD (Document Type Definition). Es un lenguaje orientado a la definicin de la estructura y la semntica del documento ms que a su representacin fsica concreta.

HTML es un lenguaje de marcado definido como estndar. Es un lenguaje que utiliza etiquetas para definir la estructura de un texto. Elementos y etiquetas son definidas por los caracteres y .Por tanto, el cdigo HTML slo contiene informacin sobre la estructura de los contenidos, y como estos contenidos estn estructurados de manera lgica, pueden ser representados de acuerdo con esa estructura por cualquier navegador.

LENGUAJES DE MARCADO

- XML-eXtensible Markup Language

El eXtensible Markup Language es el lenguaje en que se basan otras versiones de HTML. Al igual que HTML, XML est fuera de SGML. Es menos estricto que SGML y ms estricto que el HTML plano, y proporciona la capacidad de ampliacin para crear varios lenguajes diferentes.

- XHTML-eXtended HyperText Markup LanguageXHTML 1.0 es HTML 4.0 redefinido para cumplir con el estndar XML.

- SGML, Standard Generalized Markup Language

SGML, "Standard Generalized Markup Language o Lenguaje de Marcacin Generalizado, consiste en un sistema para la organizacin y etiquetado de documentos.El lenguaje SGML sirve para especificar las reglas de etiquetado de documentos y no impone en s ningn conjunto de etiquetas en especial

SGML fue diseado para permitir el intercambio de informacin entre distintas plataformas, soportes fsicos, lgicos y diferentes sistemas de almacenamiento y presentacin, independientemente de su grado de complejidad.

ONTOLOGAS

Una ontologa es un sistema derepresentacin del conocimiento que resulta de seleccionar un dominio o mbito delconocimiento, y aplicar sobre l un mtodo con el fin de obtener una representacin formal delos conceptos que contiene y de las relaciones que existen entre dichos conceptos. Lasontologas introducen un mayor nivel de profundizacin semntica y proporcionan unadescripcin lgica y formal que puede ser interpretada tanto por las personas, como por lasmquinas.

Las ontologas incluyen definiciones de conceptos bsicos del dominio, y las relaciones entre ellos, que son tiles para los ordenadores [...]. Codifican el conocimiento de un dominio y tambin el conocimiento que extiende los dominios. En este sentido, hacen el conocimiento reutilizable.Un lenguaje de marcado, es una forma de codificar un documento que, junto con el texto, incorpora etiquetas o marcas que contienen informacin adicional acerca de la estructura del texto o su presentacin. El ms conocido es HTML, pero hay otras importantes variantes, como es el caso de OWL (Web Ontology Language).

ONTOLOGAS

Las ontologas se componen de:Conceptos: son las ideas bsicas que se intentan formalizar. Los conceptos pueden ser clases de objetos, mtodos, planes, estrategias, procesos de razonamiento, etc.

- Relaciones: representan la interaccin y enlace entre los conceptos de un dominio. Suelen formar la taxonoma del dominio. Por ejemplo: subclase-de, parte-de, parte-exhaustiva-de, conectado-a, etc.

- Funciones: son un tipo concreto de relacin donde se identifica un elemento mediante el clculo de una funcin que considera varios elementos de la ontologa. Por ejemplo, pueden aparecer funciones como: asignar-fecha, categorizar-clase, etc.

- Instancias: se utilizan para representar objetos determinados de un concepto.

- Reglas de restriccin o axiomas: son teoremas que se declaran sobre relaciones que deben cumplir los elementos de la ontologa. Por ejemplo: "Si A y B son de la clase C, entonces A no es subclase de B", "Para todo A que cumpla la condicin B1, A es C", etc. Los axiomas, junto con la herencia de conceptos, permiten inferir conocimiento que no est indicado explcitamente en la taxonoma de conceptos.

ONTOLOGAS

Aplicaciones y usos de las ontologas: - Repositorios para la organizacin del conocimiento- Servir de herramienta para la adquisicin de informacin- Servir de herramientas de referencia en la construccin de sistemas de bases de conocimiento que aporten consistencia, fiabilidad y falta de ambigedad a la hora de recuperar informacin- Normalizar los atributos de los metadatos aplicables a los documentos- Crear una red de relaciones que aporte especificacin y fiabilidad- Permitir compartir conocimiento- Posibilitar el trabajo cooperativo al funcionar como soporte comn de conocimiento entre organizaciones, comunidades cientficas, etc.- Permitir la integracin de diferentes perspectivas de usuarios- Permitir el tratamiento ponderado del conocimiento para recuperar informacin de forma automatizada- Permitir la construccin automatizada de mapas conceptuales y mapas temticos- Permitir la reutilizacin del conocimiento existente en nuevos sistemas- Permitir la interoperatividad entre sistemas distintos- Establecer modelos normativos que permitan la creacin de la semntica de un sistema y un modelo para poder extenderlo y transformarlo entre diferentes contextos- Servir de base para la construccin de lenguajes de representacin del conocimiento

TESAUROS Un tesauro es un vocabulario controlado y estructurado formalmente, formado por trminos que guardan entre s relaciones semnticas y genricas: de equivalencia, jerrquicas y asociativas. Se trata de un instrumento de control terminolgico que permite convertir el lenguaje natural de los documentos en un lenguaje controlado, ya que representa, de manera unvoca, el contenido de estos, con el fin de servir tanto para la indizacin, como para la recuperacin de los documentos

Los trminos contenidos en un tesauro responden al anlisis del texto o materia. Un tesauro recoge todos los conceptos y no slo los que corresponden al ttulo o el texto. Un nico tema (aquello de lo que trata el documento) suele desarrollarse mediante una serie de ideas o conceptos que se pueden describir por medio de una serie de trminos o descriptores. El tesauro incorporar todos esos trminos en una base de datos y cada uno de ellos se convertir en un punto de acceso para la recuperacin del documento. La potencia de un tesauro radica adems, en la posibilidad de combinar todos esos trminos o descriptores, lo que le convierte en un lenguaje combinatorio mucho ms rico que los tradicionales encabezamientos de materias. Un tesauro es pues, una herramienta de control terminolgico muy til para el anlisis, descripcin y recuperacin automatizados.

Atendiendo a diferentes aspectos, los tesauros pueden ser de diferentes tipos, entre los que cabe destacar los siguientes: - Tesauro facetado: se trata de un tesauro que combina una clasificacin facetada sistemtica, con un tesauro alfabtico que reemplaza al ndice de la clasificacin.- Tesauro monolinge: es el que contiene descriptores en una nica lengua.- Tesauro multilinge: contiene descriptores en ms de una lengua. - Macrotesauro: se trata de un tesauro que incluye algunos descriptores bsicos comunes y los propios de su campo o especialidad.

TESAUROS

En cuanto a su estructura, se pueden establecer 3 tipos de tesauros:- Tesauro lineal: presenta los descriptores de forma simple, sin conexiones.- Tesauro en forma de rbol: se construye siguiendo una jerarqua en forma de rbol. Cada descriptor posee un descriptor genrico y varios descriptores con los que se relaciona de forma ascendente o descendente.- Tesauro reticular: tesauro construido en forma de red en el cual los descriptores se entrecruzan. Cada descriptor puede tener varios descriptores genricos y varios descriptores especficos

En cuando a su presentacin, un tesauro puede ser:- Alfabtico: los descriptores y no descriptores se agrupan en una nica secuencia alfabtica junto con sus relaciones.- Sistemtico: estructurado en 2 partes. La primera de ellas o parte principal, contiene las categoras o jerarquas, y la segunda parte o parte auxiliar, consta de un ndice alfabtico que conduce a los usuarios a la seccin semntica correspondiente a la que pertenece el trmino. - Grfico: los trminos se presentan en forma de figura grfica donde se asocian los trminos relacionados. Esta representacin grfica suele representarse en forma de rbol, o utilizar flechas.

ESPECIFICACIN RDF (RESOURCE DESCRIPTION FRAMEWORK) Al igual que con XML, con RDF tambin podemos utilizar esquemas (schemas). Como se mencion, XML es un modelo para etiquetar datos con una interpretacin eminentemente sintctica, mientras que RDF sirve para etiquetar metadatos y la interpretacin de este lenguaje es semntica. El modelo de datos XML es un rbol etiquetado orientado a marcas de texto y es mucho menos flexible para expresar metadatos. Por el contrario, el modelo RDF consta de arcos etiquetados y cualquier conjunto de declaraciones RDF forma un grafo que puede serializarse en XML. Adems, los recursos utilizados en RDF son distintos a los usados en XML. Mientras que los nodos a los que se refiere un esquema XML son nodos dentro de un documento XML situados en un lugar especfico de la estructura del documento, los nodos a los que se refiere RDF no son necesariamente nodos dentro del documento mismo, sino que pueden ser nodos situados fuera del documento pues un nodo en RDF puede ser cualquier recurso que tenga un URI.

En el caso de RDF es fundamental utilizar palabras que transmitan un significado inequvoco con el fin de que las aplicaciones entiendan el enunciado para un procesamiento correcto. En RDF, este significado se expresa a travs de un esquema. Podemos pensar en un esquema como una especie de diccionario que define los trminos que se utilizarn en una declaracin o sentencia RDF para otorgarle significados especficos. Con RDF se pueden utilizar una gran variedad de formas de esquema, incluyendo la definida en RDFSchema que posee unas caractersticas especiales para automatizar tareas utilizando RDF, pero tambin otras muchas formas.

RDFS permite definir los trminos que se usarn en las declaraciones RDF y les otorgar significados especficos. Para evitar definiciones conflictivas del mismo trmino, RDF utiliza los namespaces de XML. RDFS permite modelar metadatos con una representacin explcita de su semntica y permite especificar restricciones de tipos de datos para los sujetos y objetos de las tripletas de RDF, introduciendo unas primitivas de modelado orientado a objetos: rdfs:Class, rdfs:Property, rdfs:subClassOf.

ESPECIFICACIN RDF (RESOURCE DESCRIPTION FRAMEWORK) RDF Schemas ofrece un entramado en el cual las comunidades independientes pueden desarrollar vocabularios que se adapten a sus necesidades especficas. Para compartir vocabularios, el significado de los trminos debe describirse con detalle. A las descripciones de estos conjuntos de vocabularios se les llaman RDF Schemas. Un schema define el significado, caractersticas y relaciones de un conjunto de propiedades. El lenguaje RDF permite que cada documento que contiene metadatos, sea clarificado con el vocabulario empleado asignando a cada vocabulario una direccin web.

RDF utiliza los namespaces o espacios de nombre como una forma de asociar el uso especfico de una palabra en el contexto de un diccionario (o esquema) en que se puede encontrar una definicin determinada. En RDF, cada predicado utilizado en una declaracin debe ser identificado con un solo namespace o esquema, aunque un elemento Description puede contener declaraciones con predicados de varios esquemas.

Los recursos siguientes son las clases principales que se definen como parte del vocabulario del esquema RDF. Cada modelo RDF que se traza sobre el namespace del esquema RDF los incluye implcitamente:

rdfs:Resource: todas las cosas que se describan por expresiones RDF se denominan recursos (resources), y se consideran como instances (objetos especficos de la categora) de la clase rdfs:Resource. La clase RDF rdfs:Resource representa el conjunto denominado 'Resources' en el modelo formal para RDF. rdf:Property: representa el subconjunto de recursos RDF que son propiedades, es decir, todos los elementos del conjunto presentados como 'Propiedades'. rdfs:Class: corresponde con el concepto genrico de un tipo (Type) o categora (Category), semejante a la nocin de Clase en los lenguajes de programacin orientados a objetos tales como Java. Cuando un esquema define una nueva clase, el recurso que representa esa clase debe tener una propiedad rdf:type cuyo valor es el recurso rdfs:Class. Las clases RDF pueden definirse para representar cualquier cosa, como pginas web, personas, tipos de documentos, bases de datos o conceptos abstractos.

LENGUAJE DE REPRESENTACIN DE CONOCIMIENTO OWL (WEB ONTOLOGY LANGUAJE) El OWL (Web Ontology Language) o Lenguaje de Ontologas para la Web, est diseado para usarse cuando la informacin contenida en los documentos necesita ser procesada por programas o aplicaciones, en oposicin a situaciones donde el contenido solamente necesita ser presentado a los seres humanos. OWL puede usarse para representar explcitamente el significado de trminos en vocabularios y las relaciones entre aquellos trminos. Esta representacin de los trminos y sus relaciones se denomina una ontologa. En realidad, OWL es una extensin del lenguaje RDF y emplea las tripletas de RDF, aunque es un lenguaje con ms poder expresivo que ste

OWL posee ms funcionalidades para expresar el significado y semntica que XML, RDF, y RDFS, pero OWL va ms all que estos lenguajes pues ofrece la posibilidad de representar contenido de la Web interpretable por mquina. OWL es una revisin del lenguaje de ontologas web DAML+OIL que incorpora lecciones aprendidas desde el diseo y aplicaciones de DAML+OIL.

El lenguaje OWL tiene 3 sub-lenguajes que incrementan su expresin: OWL Lite, OWL DL, y OWL Full.El Web Ontology Language OWL es, en realidad, un lenguaje de etiquetado semntico para publicar y compartir ontologas en la World Wide Web. OWL se ha desarrollado como una extensin del vocabulario de RDF (Resource Description Framework) y deriva del lenguaje DAML+OIL Web Ontology.

LENGUAJE DE REPRESENTACIN DE CONOCIMIENTO OWL (WEB ONTOLOGY LANGUAJE)

El motivo del desarrollo de este lenguaje ha sido la puesta en marcha de la Web Semntica, en realidad, una visin para el futuro de la Web en la cual el significado de la informacin ser dado de forma explcita haciendo que las mquinas automaticen de forma ms fcil los procesos e integren la informacin disponible en la Web. La Web Semntica se construir sobre la sintaxis del lenguaje XML que se mejorar mediante el uso de esquemas RDF para representar el contenido de los datos. El primer nivel sobre RDF requerido para la Web Semntica es un lenguaje de ontologas que pueda describir formalmente el significado de la terminologa usada en los documentos web. Si las mquinas son capaces de realizar tareas de razonamiento sobre los documentos en los que se utilice una semntica que vaya ms lejos que la semntica bsica de RDF Schema, la Web Semntica ir por buen camino.

OWL ha sido diseado para conocer las necesidades para un lenguaje de ontologa de la Web y es, pues, parte de las recomendaciones del W3C relacionadas con la Web Semntica. OWL aade ms vocabulario para describir propiedades y clases: entre otras, relaciones entre clases (ejemplo, inconexas), cardinalidad (ejemplo "exactamente uno"), igualdad, ms ricos tipos de propiedades, caractersticas de las propiedades (por ejemplo, simetra), y clases enumeradas.

LENGUAJE DE REPRESENTACIN DE CONOCIMIENTO OWL (WEB ONTOLOGY LANGUAJE)

Sublenguajes de OWL

OWL ofrece tres sub-lenguajes de expresin incremental diseados para ser usados por comunidades especficas de desarrolladores y usuarios segn el nivel de expresividad que precisen stos.

- OWL Lite da soporte a aquellos usuarios que primordialmente necesitan una clasificacin jerrquica y restricciones simples. Por ejemplo, soporta restricciones cardinales, pero solamente permite valores cardinales de 0 1. As pues, es ms simple proveer herramientas de soporte para OWL Lite. OWL Lite ofrece una rpida ruta de migracin para tesauros y otras taxonomas. En resumen, OWL Lite tiene una ms baja complejidad formal que OWL DL.

- OWL DL da soporte a aquellos usuarios que quieren la mxima expresividad mientras conservan completamente la computacionalidad (todas las conclusiones son garantizadas para ser computables) y resolubilidad (todas las computaciones terminarn en tiempo finito). OWL DL incluye todos los constructos del lenguaje OWL, pero pueden usarse solamente bajo ciertas restricciones (por ejemplo, mientras una clase puede usarse por una subclase de muchas clases, una clase no puede ser una instancia de otra clase). OWL DL se denomina as debido a su correspondencia con las descripciones lgicas (DL), un campo de investigacin que han estudiado los lgicos para la fundacin formal de OWL.

- OWL Full da soporte a usuarios que requieren el mximo de expresividad y la libertad sintctica de RDF sin garantas computacionales. Por ejemplo, en OWL Full una clase puede ser tratada simultneamente como una coleccin de individuos y como un individuo por derecho propio. OWL Full permite a una ontologa aumentar el significado del vocabulario predefinido (RDF OWL). Es poco probable que algn software racional pueda soportar por completo el razonamiento para cada caracterstica de OWL Full.

REFERENCIAS ELECTRNICAS

Bazarnalla Menndez, Rafael, Que son lenguajes marcado html, [artculo en lnea], Universidad de Murcia. Espaa, 2012. http://www.um.es/docencia/barzana/DIVULGACION/INFORMATICA/Que-son-lenguajes-marcado.htmlEchenique Salas, Pablo, Web Semntica y Ontologa, [artculo en lnea], Universidad Central de Venezuela. Venezuela, 2011. http://www.w3.org/standards/semanticweb/Gmez Lpez, Alberto, Recuperacin de la Informacin OWL, [artculo en lnea], Universidad Rey Juan Carlos. Espaa, 2007. https://aic.ai.wu.ac.at/~polleres/teaching/ri2007/alberto.pdfLamarca Lapuente, Mara Jess, Hipertexto: El nuevo concepto de documento en la cultura de la imagen, [artculo en lnea], Universidad Complutense de Madrid. Espaa, 2013. http://www.hipertexto.info/index.htm