PLN Nivel superficial y léxico1 Procesamiento superficial y léxico Nivel de procesamiento...

48
Nivel superficial y léxico 1 Procesamiento superficial y léxico Nivel de procesamiento superficial El concepto de palabra Nivel de procesamiento léxico Lexicones Adquisición de la información léxica

Transcript of PLN Nivel superficial y léxico1 Procesamiento superficial y léxico Nivel de procesamiento...

  • Diapositiva 1
  • PLN Nivel superficial y lxico1 Procesamiento superficial y lxico Nivel de procesamiento superficial El concepto de palabra Nivel de procesamiento lxico Lexicones Adquisicin de la informacin lxica
  • Diapositiva 2
  • PLN Nivel superficial y lxico2 Nivel de procesamiento superficial 1 Preprocesado textual Obtencin del documento a procesar acceso a BD acceso a la Web (wrappers) deteccin de elementos textuales documentos multimedia, pginas Web,... filtrado de meta-informacin tags HTML, XML,...
  • Diapositiva 3
  • PLN Nivel superficial y lxico3 Nivel de procesamiento superficial 2 segmentacin del texto localizacin de unidades palabra ortogrfica vs palabra gramatical trminos multipalabras fechas, frmulas, siglas, jerga, nombres propios Named Entity Recognition Named Entity Classification palabras desconocidas locuciones, lexas,... identificacin de la lengua Beeferman et al, 1999 Ratnaparkhi, 1998 Bikel et al, 1999 Borthwick, 1999 Mikheev et al, 1999 Elworthy, 1999 Adams,Resnik, 1997
  • Diapositiva 4
  • PLN Nivel superficial y lxico4 Nivel de procesamiento superficial 3 Tamao del vocabulario (V) Heap's Law V = KN K depende del texto 10 K 100 N nmero total de palabras depende del, para el ingls 0.4 0.6 El vocabulario crece sublinealmente pero no llega a saturarse tiende a estabilizarse para 1Mb de texto (150.000w) palabras palabras distintas
  • Diapositiva 5
  • PLN Nivel superficial y lxico5 Nivel de procesamiento superficial 4 word tokens vs word types Distribucin estadstica de las palabras en el texto Obviamente no uniforme Las palabras ms comunes cubren el 50% de las occurrencias Un 50% de las palabras slo aparecen 1 vez ~12% del texto est constitudo por palabras que aparecen 3 veces o menos.
  • Diapositiva 6
  • PLN Nivel superficial y lxico6 Nivel de procesamiento superficial 5 Ley de Zipf: Ordenamos las palabras de un texto por su frecuencia. El producto de la frecuencia de una palabra (f) por su posicin (r) es aproximadamente constante.
  • Diapositiva 7
  • PLN Nivel superficial y lxico7 Nivel de procesamiento superficial 6 Frecuencia de una palabra vs capacidad discriminante del documento. Stop Words. Palabras muy discriminativas pero poco frecuentes. Las palabras ms interesantes tienen frecuencias intermedias.
  • Diapositiva 8
  • PLN Nivel superficial y lxico8 Colocaciones 1 Expresiones formadas por dos o ms palabras que tienen una probabilidad alta de aparecer juntas (con frecuencia contiguas): "Estados Unidos" phrasal verbs ("get up") locuciones, frases hechas, lexas, palabras compuestas terminologa Se caracterizan por tener una compositividad limitada (el significado del compuesto no se deduce exactamente del de sus componentes).
  • Diapositiva 9
  • PLN Nivel superficial y lxico9 Colocaciones 2 Utilidad Extraccin de terminologa Extraccin de relaciones de afinidad y repulsin lxica Lexicografa Computacional Adquisicin de locuciones, lexas, etc. Generacin del LN Parsing, induccin gramatical
  • Diapositiva 10
  • PLN Nivel superficial y lxico10 Colocaciones 3 Deteccin de colocaciones McCallum propone 3 mtodos Mtodo 1 Frecuencia de la colocacin complementada con un filtro morfolgico (slo algunas tuplas son aceptables: AN, NN, AAN, ANN, NAN, NNN, NPN) Mtodo 2 Colocaciones no adyacentes Media y variancia de la distancia entre los elementos de la colocacin
  • Diapositiva 11
  • PLN Nivel superficial y lxico11 Colocaciones 4 Mtodo 3 Likelihood ratio Decidir qu modelo entre dos posibilidades es ms apropiado para describir los datos H 1 hiptesis del modelo 1 (por ejemplo, w 1 y w 2 no forman una colocacin, p(w 1 |w 2 ) = p = p(w 1 |-w 2 ) ) H 2 hiptesis del modelo 2 (por ejemplo, w 1 y w 2 si forman una colocacin, p(w 1 |w 2 ) = p 1 p 2 = p(w 1 |-w 2 ))
  • Diapositiva 12
  • PLN Nivel superficial y lxico12 Categorizacin de las palabras Part of Speech (POS), categora morfosintctica. Propiedad formal de un word-type que determina sus usos acceptables en sintaxis. Una POS puede considerarse una clase de palabras Un word-type puede poseer varias POS, un word-token slo una Categoras plenas abiertas, muchos elementos, neologismos, clases semnticamente ricas e independientes N, Adj, Adv, V Categoras funcionales
  • Diapositiva 13
  • PLN Nivel superficial y lxico13 Agrupacin (clustering) de palabras 1 A veces es interesante crear clases o agrupaciones (clusters) de palabras (ej. generalizacin, forma de abordar el data sparseness, backoff,...) Factores (features) a tener en cuenta: palabras adyacentes palabras relacionadas sintcticamente palabras cercanas tema del documento...
  • Diapositiva 14
  • PLN Nivel superficial y lxico14 Agrupacin (clustering) de palabras 2 VSM (Vector Space Model) representar cada word-type como un punto en un espacio de k dimensiones (k = tamao del vocabulario). definir una medida de proximidad (o distancia) entre los puntos p.ej. la distancia eucldea, Dice, Jaccard,... Examinar el espacio de k dimensiones en el que hemos colocado todos los puntos (todos los word-types) para localizar ncleos de agrupacin (clusters)
  • Diapositiva 15
  • PLN Nivel superficial y lxico15 Agrupacin (clustering) de palabras 3 Plot in k dimensions (here k=3)
  • Diapositiva 16
  • PLN Nivel superficial y lxico16 Agrupacin (clustering) de palabras 4 Clustering aglomerativo (bottom up) Comenzar con un cluster por punto Iterativamente agrupar los clusters ms cercanos Formas de decidir la proximidad entre clusters: single link dist(A,B) = min(dist(a,b)| a A, b B) complete link dist(A,B) = max(dist(a,b)| a A, b B) average link dist(A,B) = mean(dist(a,b)| a A, b B) centroid link dist(A,B) = min(dist(mean(A),mean(B)) Clustering divisivo (top down)
  • Diapositiva 17
  • PLN Nivel superficial y lxico17 Qu es un lexicn Un lexicn es simplemente un repositorio de informacin lxica que puede ser utilizada por usuarios humanos o por algn tipo de procesador del lenguaje natural Dos aspectos a considerar Representar la informacin lxica Adquirir la informacin lxica
  • Diapositiva 18
  • PLN Nivel superficial y lxico18 Adquisicin del conocimiento lxico qu hace falta codificar en los lxicos computacionales (cuantitativamente y cualitativamente) cules son las fuentes de conocimiento idneas para extraer dicho conocimiento qu mtodos de extraccin son necesarios para ello.
  • Diapositiva 19
  • PLN Nivel superficial y lxico19 El contenido de los lexicones computacionales 1 Transcripcin ortogrfica Transcripcin fontica Modelo flexivo Alternancias de ditesis, marcos de subcategorizacin AMAR VTR(OBJLIST: SN). AMAR CAT = VERBO SUBCAT =
  • Diapositiva 20
  • PLN Nivel superficial y lxico20 Categora gramatical (POS) Estructura argumental Informacin semntica diccionarios => definicin lxicos computacionales => asignacin de tipos semnticos predefinidos en una jerarqua. Relaciones lxicas derivacin Equivalencias con otras lenguas El contenido de los lexicones computacionales 2
  • Diapositiva 21
  • PLN Nivel superficial y lxico21 Representacin del conocimiento lxico expresividad idoneidad representacional idoneidad inferencial eficiencia
  • Diapositiva 22
  • PLN Nivel superficial y lxico22 Problemas que plantea la representacin lxica Forma: pares atributo/valor, rels binarias o n-arias, valores codificados, valores de dominio abierto Asignaciones mltiples (relaciones uno a varios o varios a varios), dependencias contextuales Facetas de los rasgos o atributos: obligatoriedad u opcionalidad, cardinalidad, valores por omisin Gradacin en las propiedades: valores exactos, preferencias, asignaciones probabilsticas.
  • Diapositiva 23
  • PLN Nivel superficial y lxico23 Sistemas de Representacin Bases de datos de propsito general Modelos textuales Bases de datos lxicas Sistemas Orientados a Objetos (OO) Bases de datos orientadas a objetos Sistemas basados en esquemas (frames) Sistemas basados en unificacin
  • Diapositiva 24
  • PLN Nivel superficial y lxico24 Bases de datos de propsito general Modelo de datos relacional. Aproximacin E/R ventajas rasgos de tipo atributo/valor software convencional de gestin de base de datos capacidad expresiva, mantenimiento, eficiencia y facilidad de interrogacin. limitaciones: Fragmentacin de los datos Falta de estructura jerrquica Excesiva uniformidad, poco apropiadas para los rasgos de tipo textual.
  • Diapositiva 25
  • PLN Nivel superficial y lxico25 Modelos textuales Informacin consistente en texto posiblemente marcado (tipogrfico, descriptivo) SGML, TEI, Eagles Obtencin de las apariciones de una palabra en un corpus, Coapariciones de varias palabras Uso de expresiones regulares en la consulta Consulta de fragmentos de palabra Uso de comodines, expresiones booleanas, etc...
  • Diapositiva 26
  • PLN Nivel superficial y lxico26 Las bases de datos lxicas aproximacin de dos niveles fuente primaria de datos ndices integran en un solo modelo las dos aproximaciones anteriores limitacin : a menudo implementaciones ad-hoc Ejemplos de bases de datos lxicas son IBM-LDB [Neff et al. 88] o Acquilex LDB [Briscoe et al. 90].
  • Diapositiva 27
  • PLN Nivel superficial y lxico27 Sistemas Orientados a Objetos Capacidad deductiva herencia de propiedades transformacione l xicas Capacidades procedimentales (asertivas) Tratamiento de excepciones.
  • Diapositiva 28
  • PLN Nivel superficial y lxico28 Bases de Datos Orientadas a Objetos Gesti n de la persistencia Dos tipos b sicos bases de datos orientadas a objetos puras, que extienden algunos lenguajes orientados al objeto como C++, Smalltalk, Eiffel, CLOS, etc bases de datos orientadas al objeto que extienden sistemas convencionales de gesti n de bases de datos => Sistemas basados en esquemas (frames)
  • Diapositiva 29
  • PLN Nivel superficial y lxico29 Sistemas basados en unificacin relaciones de reentrancia. disyunci n, negaci n, asignaci n condicional... formas variadas de herencia (simple, m ltiple, mon tona, por omisi n, etc...) operaciones: generalizaci n, reescritura, formas varias de unificaci n, etc... Uso de macros, alias, reglas l xicas, etc... compilaci n de las estructuras de rasgos en estructuras m s eficientes (como t rminos Prolog)
  • Diapositiva 30
  • PLN Nivel superficial y lxico30 Sistemas basados en Estructuras de rasgos Dos familias de sistemas basados en rasgos: estructuras de rasgos libres: PATR-II estructuras de rasgos restringidas por tipos: ALE, ALEP, CUF, TFS ER -> tipo que determina su estructura. Taxonom a de tipos tipo -> restricciones sobre los rasgos rasgo -> tipos apropiados
  • Diapositiva 31
  • PLN Nivel superficial y lxico31 Adquisicin de la informacin lxica Los Diccionarios como fuente de informacin MRD Finalidad: codificar informacin sobre el lxico Estructura interna predeterminada Cierto grado de codificacin en determinados contenidos Relaciones internas (sinonimia, hiponimia, etc.) de manera implcita o explcita Vocabulario restringido Sistemtica en la elaboracin de las definiciones
  • Diapositiva 32
  • PLN Nivel superficial y lxico32 El proceso de extraccin Manualmente introspeccin auxiliado (p.ej. una estacin de trabajo lexicogrfica). Automticamente, utilizando (y posiblemente combinando) fuentes ya disponibles los diccionarios accesibles por ordenador los corpus textuales. En forma semiautomtica
  • Diapositiva 33
  • PLN Nivel superficial y lxico33 Los diccionarios accesibles por ordenador ejemplos: LDOCE, LINKS, OALD, Acquilex
  • Diapositiva 34
  • PLN Nivel superficial y lxico34 Acquilex
  • Diapositiva 35
  • PLN Nivel superficial y lxico35 diccionario en soporte electrnico
  • Diapositiva 36
  • PLN Nivel superficial y lxico36 diccionario editado
  • Diapositiva 37
  • PLN Nivel superficial y lxico37 estructura parentizada
  • Diapositiva 38
  • PLN Nivel superficial y lxico38 Anlisis de las definiciones ((CLASS pedazo) (PROPERTIES (pequeo (PREP-MOD (DE (OBJECT alguna cosa))))) => Traduccin al lenguaje de la BC
  • Diapositiva 39
  • PLN Nivel superficial y lxico39 Mtodos de extraccin de relaciones 1 Sinonimia cabaret [fr.] **m.** Cabar. cabaret SIN cabar sinonimia aproximada caza **f.** Accin de cazar. caza CASI-SIN cazar
  • Diapositiva 40
  • PLN Nivel superficial y lxico40 Mtodos de extraccin de relaciones 2 antonimia. patrones de las definiciones que indican negacin abierto **adj** no murado o cerrado abierto ANT murado abierto ANT cerrado descomposicin de los lemas antisocial **adj** Contrario a la sociedad, a la convivencia social. antisocial ANT social
  • Diapositiva 41
  • PLN Nivel superficial y lxico41 Mtodos de extraccin de relaciones 3 meronimia/ holonimia: patrones. parte de miembro de porcin/ trozo/ pedazo/ punta,... de X (entrada) es mernimo de Y (elemento que sigue al patrn en la definicin) mano **f.** Parte del cuerpo humano que mano MER cuerpo humano
  • Diapositiva 42
  • PLN Nivel superficial y lxico42 Mtodos de extraccin de relaciones 4 Relaciones entre un nombre y la accin bsica en la que est implicado. verbo con su agente, paciente, instrumento, etc. Instrumento patrones que sirve para + V (SN) para + V (SN) que se usa para + V (SN) fotmetro **m.** Instrumento para medir la intensidad de la luz medir (la intensidad...) INVOLVED fotmetro afliccin CAUSA aflictivo
  • Diapositiva 43
  • PLN Nivel superficial y lxico43 Los corpus como fuentes de informacin 1 Ventajas: Gran volumen de informacin Facilidad de clasificacin Capacidad de utilizacin como banco de pruebas para refrendo de teoras o intuiciones. Capacidad de integracin de datos experimentales. Posibilidad de utilizacin de mtodos estadsticos de tratamiento.
  • Diapositiva 44
  • PLN Nivel superficial y lxico44 Los corpus como fuentes de informacin 2 Dificultades: Casos poco o nada representados. Combinacin de mtodos estadsticos con mtodos basados en conocimiento gramaticales Garanta o control de la coherencia interna. Nivel de completitud suficiente sin sobrerrepresentar Nivel de granularidad deseado para una aplicacin concreta. Adaptacin a un dominio concreto.
  • Diapositiva 45
  • PLN Nivel superficial y lxico45 Informacin contenida en los Corpus Colocaciones Estructura argumental. Frecuencia de aparicin de las unidades. Contexto de aparicin de las unidades. Induccin gramatical. Anlisis probabilstico. Relaciones lxicas. Ejemplos de uso. Restricciones selectivas. Compuestos nominales. Lexas, frases hechas,...
  • Diapositiva 46
  • PLN Nivel superficial y lxico46 Tipos de corpus Segn la informacin incorporada: Corpus bruto Corpus horizontales o verticales Corpus etiquetados (tagged) Corpus parentizados Corpus analizados treebanks
  • Diapositiva 47
  • PLN Nivel superficial y lxico47 Los mtodos de tratamiento Manual: presentacin al lexicgrafo de las apariciones que correspondan al patrn pedido Diversos niveles de preproceso y ayuda Automtico tcnicas estadsticas Semiautomticos filtrado manual por parte del lexicgrafo, de los casos propuestos por el sistema.
  • Diapositiva 48
  • PLN Nivel superficial y lxico48 Aplicaciones Lexicografa Extraccin de informacin Etiquetadores Para el enriquecimiento de corpus Coocurrencias Identificacin de unidades lxicas complejas