Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France...

57
Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France http://igm.univ-mlv.fr/~laporte/ Tendances actuelles du traitement des langues Les Arts du spectacle de la francophonie Université Sung-kyun-kwan, 13 juin 2009 Session : la Linguistique française et ses applications

Transcript of Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France...

Page 1: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Éric LaporteLaboratoire d'Informatique Gaspard-Monge

Université Paris-Est Marne-la-ValléeFrance

http://igm.univ-mlv.fr/~laporte/

Tendances actuelles du traitement des langues

Les Arts du spectacle de la francophonieUniversité Sung-kyun-kwan, 13 juin 2009

Session : la Linguistique française et ses applications

Page 2: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Applications du traitement des langues aujourd'hui

La linguistique et le traitement des langues

La linguistique pour le traitement des langues

L'évolution de la communauté scientifique Recherche fondamentale et appliquéeLa normalisation

Les débats actuelsLe Web sémantiqueL'évaluation

Sommaire

Page 3: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Moteurs de rechercheFouille d'opinionsTraduction automatiqueApprentissage en ligneClassification de documentsCorrection orthographiqueLecture vocaleReconnaissance vocaleAgents conversationnelsRésumé automatique

Applications du traitement des langues

Page 4: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Moteurs de recherche

Page 5: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Fouille d'opinions (1/3)

Page 6: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Les documents exprimant des opinionsPlus complexe que les documents techniquesOpinions rationnelles ou émotionnelles

Le film dure 3 h 30Un grand Almodovar

Opinions explicites ou implicitesdistribution brillantecinéma dans le cinéma

Fouille d'opinions (2/3)

Page 7: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Assumer ou rapporter une opinionOn nous avait prévenu. Les derniers jours,

à Cannes, sont généralement réservés aux films auxquels les sélectionneurs « ne croient pas vraiment ». En gros, aux plus mauvais films de la sélection.

Sur quoi porte l'opinion ?L'émotion tient à la beauté du personnage de

Lena

Fouille d'opinions (3/3)

Page 8: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Traduction automatique

Page 9: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Apprentissage en ligne

Page 10: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Classification de documents

Page 11: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Correction orthographique (1/2)

Page 12: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Correction orthographique (2/2)

Page 13: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Le TGV 847 à destination de Bordeaux partira voie L

Contrairement à ce qui a été annoncé, le TGV 847 à destination de Bordeaux partira voie M

Lecture vocale

Page 14: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Le TGV 847 à destination de Bordeaux partira voie L

Contrairement à ce qui a été annoncé, le TGV 847 à destination de Bordeaux partira voie M

Lecture vocale

En raison de la présence de manifestants sur le toit, le TGV 847 à destination de Bordeaux partira avec un retard d'au moins 15 minutes

Page 15: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Appeler Françoise

Je voudrais faire un appel en PCV

Écrire un nouveau message

De quel aéroport part le vol AF 8238 à destination de Séoul ?

Reconnaissance vocale

Page 16: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Agents conversationnels

Page 17: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Un faux agent conversationnel

Page 18: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Résumé (74 mots) de l'article de Wikipédia en français sur l'écriture coréenne (237 mots)

Le coréen utilise les « hanja » (mot coréen désignant les caractères chinois - « sinogrammes » - très proches de ceux utilisés en Chine et au Japon), bien qu'il tende aujourd’hui à ne plus s’écrire qu’avec le hangeul, l’alphabet coréen. L’alphabet hangeul comprend 40 lettres (19 consonnes et 21 voyelles). L'alphabet hangeul est utilisé en regroupant les lettres par syllabes occupant des blocs carrés, à raison de 2 à 4 lettres par syllabe.

Résumé automatique

Page 19: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Deux communautés scientifiques très différentes: les linguistes et les informaticiensUne difficulté à communiquer et interagir

Rapidité, efficacité ProfondeurMathématiques PhilosophieAnalyse Synthèse

Une familiarité avec la linguistique ou l'informatique nécessite au moins 4 années d'étudesPour les institutions, la pluridisciplinarité est difficile à gérerUn respect mutuelUne blague des années 1980 qui ridiculisait les linguistes: les problèmes NP-complets, VP-complets...

La linguistique et le traitement des langues (1/4)

Page 20: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Les informaticiens méfiants vis-à-vis des linguistes90 % du traitement des langues est sans dictionnaire« Un travail long, fastidieux et sujet à des erreurs »

Les linguistes réticents à codifier les informationsMarquage des séquences correctes et incorrectes

Je pense à Luc *Je lui pense« Une pluie d'étoiles exterminatrices »

La linguistique et le traitement des langues (2/4)

Page 21: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

La méthode du « sac de mots »On représente un document par son vocabulaireOn néglige l'ordre des mots et la notion de phraseUn document est représenté par un tableau de chiffresDes résultats spectaculairesPeu d'efforts : aucune information linguistique, des algorithmes simplesUne explosion du nombre d'utilisateursUn effet de la popularisation d'Internet depuis 1995

Des échecs prévisibles sur certaines langues (arabe) et certains problèmes (traduction)

La linguistique et le traitement des langues (3/4)

Page 22: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Les méthodes fondées sur la linguistiqueLexiques : propriétés des mots et des expressionsGrammaires : propriétés des constructions« Ressources linguistiques »Une communauté minoritaireUne réserve de solutions à long terme pour les problèmes difficiles

La linguistique et le traitement des langues (4/4)

Page 23: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Des contraintes spécifiques

FormalisationSeules des données codifiées sont exploitables

Confrontation avec la réalité de l'usage linguistiqueL'exploitation technique des résultats est une forme supplémentaire d'évaluation

La linguistique pour le traitement des langues (1/4)

Page 24: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

FormalisationSeules des données codifiées sont exploitablesExemple de données non codifiées

La linguistique pour le traitement des langues (2/4)

Page 25: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Exemple de données codifiées

La linguistique pour le traitement des langues (3/4)

Page 26: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Confrontation avec la réalité de l'usage linguistiqueL'application au traitement des langues donne une évaluation supplémentaire de la qualité des résultatsPrécautions méthodologiques :- Définition des notions par des critères- Observation de corpus- Entraînement du jugement d'acceptabilité- Entraînement à la construction d'exemples

La linguistique pour le traitement des langues (4/4)

Page 27: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Constructions à verbe support (CVS)Luc prend du reposLes immigrés prennent racine dans leur nouveau pays

Critère : l'emploi du nom sans le verbe

Prendre du repos a fait du bien à LucCe repos a fait du bien à Luc : CVS

Prendre racine dans un nouveau pays met du temps*Une racine dans un nouveau pays met du temps

Définition des notions par des critères

Page 28: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Observation de corpus

Page 29: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

*Du repos m'a fait du bienCe repos m'a fait du bien

Du repos me ferait du bien?Ce repos me ferait du bien

Une forme qui n'apparaît dans aucun corpus peut être acceptableL'introspection est la seule source d'information disponibleL'entraînement et le contrôle mutuel compensent la subjectivité de l'introspection

Entraînement du jugement d'acceptabilité

Page 30: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Ce repos m'a fait du bienDu repos me ferait du bien

Une série d'exemples construite d'une façon non systématique a moins de valeur probante

Entraînement à la construction d'exemples

Passé composé Conditionnel

du*Du repos m'a fait du

bienDu repos me ferait du

bien

ceCe repos m'a fait du

bien?Ce repos me ferait du

bien

Page 31: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Une responsabilité collective, internationale, des chercheursL'évaluation par les pairsProgressivement adoptée par la communauté scientifiqueCette pratique favorise les recherches appréciées par les autres chercheurs du même domaineDes pratiques moins désirablesFavoriser les chercheurs qui ont des relationsFavoriser les chercheurs qui peuvent financer leurs publications

L'évolution de la communauté scientifique (1/2)

Page 32: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

L'évaluation par les pairs n'est pas parfaiteCertains critères de qualité discutables favorisent les méthodes mathématico-informatiquesLa popularité auprès d'une population plus vasteLes informaticiens plus nombreux que les chercheurs pluridisciplinairesLa facilité, la simplicitéUn produit moins coûteux n'est pas forcément meilleurL'efficacité à court termeConstruction d'un dictionnaire : 5 à 15 ansLa « mode »

L'évolution de la communauté scientifique (2/2)

Page 33: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Les solutions exploitables à court termeRecherche privéeQuelques petites entreprises spécialiséesDes services de grandes entreprises :

- sac de mots- mémoire de traductions- achat de résultats de petites entreprises

Les universitésL'essentiel de l'activité universitaire en traitement des langues

Recherche appliquée

Page 34: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Problèmes fondamentaux, applications à long termeDictionnaires morpho-syntaxiques : 5 ans (Delaf)Dictionnaires syntaxico-sémantiques :

6 ans (Dicovalence)9 ans (Framenet, Verbnet)16 ans (Lexique-grammaire)25 ans (DiCo)

Une responsabilité de la recherche publiqueUne proportion minoritaire de l'activité universitaire en traitement des langues

Recherche fondamentale

Page 35: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

La normalisation des formats de ressources linguistiquesFaire fonctionner ensemble des systèmes indépendantsUn effort collectif, international depuis 2001ISO (Association internationale de normalisation)

La normalisation

Page 36: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Le Web sémantiqueLes ontologiesL'intelligence artificielleL'évaluation

Les débats actuels

Page 37: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Le Web pour les internautesLe Web pour les programmesUn parallèleLes dictionnaires pour lecteurs humains et les dictionnaires pour le traitement des langues

Le Web sémantique

Page 38: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Le Web pour les internautes

Page 39: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Le Web pour les programmes (?)

Page 40: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Dictionnaires pour les lecteurs humains

Page 41: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Dictionnaires pour les programmes

Page 42: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Les ontologies (1/3)

Page 43: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Une ontologie représente une façon de conceptualiser un domaine : objets, classes, attributs, relations, évènements

Une ontologie spécifie une représentation logico-sémantique suffisamment formelle pour permettre des raisonnements automatiques

Une ontologie décrit une façon de communiquer sur le domaine dans une communauté

Une ontologie inclut un réseau sémantique et la terminologie associée

Les ontologies (2/3)

Page 44: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Questions logiques : quel système formel ?

Questions linguistiques : comment représenter les présuppositions ? les informations implicites ?

Faible interaction entre linguistes et informaticiens

Ces questions sont étudiées de manière indépendante

Les objectifs sont-ils compatibles entre eux ?

Les ontologies (3/3)

Page 45: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Simuler sur ordinateur l'intelligence, y compris le langageAnnées 1960, 1970 et 1980 : enthousiasme et débats

L'intelligence artificielle

Des « cousins » de l'intelligenceLa mémoire : les programmes de jeu d'échecs battent le champion du monde (2006)La perception : reconnaissance des visagesLa statistique : classification de documents, financeEst-ce de l'intelligence ?

Page 46: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Les systèmes expertsSystèmes capables de traiter un problème complexe propre à un domaineIls utilisent un modèle du problème

Programmation orientée objetLe génie logiciel moderne met l'accent sur la modélisation des données du problème à résoudre

Démesure et réalismeLes recherches sur l'intelligence artificielle ont créé des techniques de modélisation efficaces

Intelligence artificielle et génie logiciel

Page 47: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Concours et défisMorpholympics (1994) : étiqueteurs lexicaux de l'allemandGrace (1997) : étiqueteurs lexicaux du françaisTechnolangue/Easy (2004) : analyseurs syntaxiques

Évaluer la qualité des résultats de la rechercheUn effort collectif, internationalParallèle avec l'évaluation par les pairsUne évaluation de plus en plus objectiveÉvaluation, compétition, motivation

Traitement des langues et évaluation

Page 48: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

La réflexion sur les indicateurs de qualité est pauvre en général

Pas d'indicateurs de qualitéLes recherches sans indicateurs de qualité sont dévalorisées

Indicateurs trompeurs

Indicateurs ludiquesLa compétition pour le plaisir

Imperfections de l'évaluation

Page 49: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Certaines recherches fondamentales ne produisent pas de résultats évaluables avant des annéesElles sont dévalorisées

Un progrès peut faire diminuer temporairement un indicateur de qualité

Exemple : l'étiquetage lexical

Pas d'indicateurs de qualité

Page 50: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Diminution d'un indicateur de qualité (1/3)

Page 51: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Diminution d'un indicateur de qualité (2/3)

Page 52: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

De plus en plus d'informations dans les étiquettesLe nombre d'analyses augmenteUn des indicateurs de qualité, la précision de l'étiquetage, diminueUne entente implicite entre chercheurs dans les années 1990 : on n'augmente pas la quantité d'informations dans les étiquettes tant qu'on ne sait pas choisir parmi les analyses Énumérer des analyses et sélectionner des analyses : deux problèmes distinctsL'entente équivalait à interrompre des programmes de recherches pour une raison d'évaluation

Diminution d'un indicateur de qualité (3/3)

Page 53: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (PP of (NP their countrymen)))

Indicateurs trompeurs (1/2)

(S (NP *) to (VP visit (NP Mexico)))) , (NP (NP a boatload (PP of (NP (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))))))) .)

Évaluation par comparaison avec une référence

Page 54: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Le Penn Treebank (1993) : corpus de l'anglais muni d'annotations syntaxiques, souvent utilisé comme référence pour des évaluations

Le Penn Treebank néglige les expressions multi-mots, pourtant déjà étudiées depuis longtemps à l'époque

Cela a ralenti les recherches dans ce domaine

Indicateurs trompeurs (2/2)

Page 55: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

La compétition pour le plaisir

Indicateurs ludiques (1/2)

Page 56: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Chaque juge doit dialoguer avec un agent conversationnel et avec une personne, puis deviner lequel des deux est la personne

L'agent conversationnel que les juges prennent pour une personne le plus souvent gagne 3000 euros

Indicateurs ludiques (2/2)

Page 57: Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France laporte/ Tendances actuelles.

Des débats sur les ressources linguistiques et la représentation des connaissances : ontologies, normalisation, indicateurs de qualité...

Les débats purement informatiques sont perçus comme moins pertinents : automates finis/grammaires algébriques

La communauté s'habitue progressivement à la pluridisciplinarité du traitement des langues

Conclusion