Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International...

37
Implémentation d’un fragment de grammaire HPSG de l’arabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA’2009 Mahmoud Fawzi Mammeri & Nacer Eddine Bouhassain Université de Blida, Algérie

Transcript of Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International...

Page 1: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

Implémentation d’un fragment de grammaire HPSG de l’arabe

sur la plate-forme LKB

3rd International Conference on Arabic Language Processing, CITALA’2009

Mahmoud Fawzi Mammeri & Nacer Eddine BouhassainUniversité de Blida, Algérie

Page 2: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

2

Plan

1. Introduction

2. La Head driven Phrase Structure Grammar (HPSG)

3. Le Linguistic Knowledge Base (LKB)

4. Une Grammaire LKB/HPSG pour l’Arabe

5. Conclusion

Page 3: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

3

Problématique Générale

La question fondamentale consiste à se demander :

comment représenter et traiter au mieux les phénomènes rencontrés dans la langue

arabe?

Page 4: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

4

Théorie linguistique vs. Formalisme ad hoc

• Éviter les formalismes ad hoc

• → choix d’une théorie linguistique

– de bénéficier des acquis des recherches linguistiques dans le traitement des problèmes syntaxiques, sémantiques, …, variés,

– et d’en attendre des solutions générales et cohérentes.

Page 5: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

5

De quoi avons-nous besoin ?

1. Une Grammaire et un Lexique Grammaire traditionnelle Grammaire formalisée⇒ Lexique traditionnel (dictionnaire électronique) Lexique ⇒

Computationnel

2. Un formalisme pour la représentation (modélisation)

3. Une plate-forme pour implémenter les phénomènes de langue modélisés

Page 6: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

6

Modèles existants

• Head-driven Phrase Structure Grammar (HPSG)• Lexicalized Tree-Adjoining Grammars (LTAG)• Lexical-Functional Grammars (LFG)• Functional Unification Grammar (FUG)

→ Construction Grammar (CG)

Page 7: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

7

Formalismes/SDD

• Réseaux Sémantiques

→ Graphes Conceptuels de Sowa (1984)• ATN, Réseaux de Transitions Augmentés• DCG, Definite Clause Grammars• TFS, Typed Feature Structures• DAG, Direct Acyclic Graph• Arbres

Page 8: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

8

Plates-formes de développements

1. HPSG1. LKB (Copestake, 1992,2002)2. PET (Callmeir, 2000)3. PAGE (Krieger & Schäfer, 1994)4. German NLP Processor BABEL (S. Müller, 1996)5. ConTroll (Grammar Development System ConTroll : Götz, 1995), 6. ALE (Atribute Logic Engine : Carpenter and Penn, 1995) 7. TRALE (grammar-implementation platform based on ALE and

ConTroll; Penn, 2003 )2. TAG

1. XTAG2. G-TAG (génération automatique de textes)3. DyALog (grammaires de clauses définies (DCG), BMG, RCG)

3. LFG1. XLE (Xerox Linguistics Environment; Butt et al. 1999)2. Grammar writer’s workbench for LFG (Kaplan & Maxwell, 1996)

Page 9: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

9

Choix

• Modèle : HPSG (Head-driven Phrase Structure Grammar)

• Formalisme : TFS (Typed Feature Structures)→ Carpenter (1992)

• Plate-forme : LKB (Linguistic Knowledge Builder)→ Copestake (1992)→ Copestake et al. (2002)

Page 10: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

10

Head driven Phrase Structure Grammar (HPSG)Histoire

1. HPSG1 : Pollard and Sag (1987)

2. HPSG2 : Pollard and Sag (1994)

3. HPSG3 : Pollard and Sag (1994)chapitre 9 « Reflexions and Revisions »

4. HPSG4? Plusieurs auteurs[Sag & Wassow, 1999] et [Sag & Wassow & Bender, 2003]

→ Grammaire à Large Couverture de Troisième Génération– très fort encodage hiérarchique des connaissances (Multidimensionnel)– déclarativité et réversibilité (supporte en même temps l’analyse et la

génération)– développement multi-langue

5. ?

Page 11: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

11

Head driven Phrase Structure Grammar (HPSG)inspirations

1. Syntaxe:• GPSG (Gazdard, Klein, Pullum, & Sag, 1985)• CG : Grammaire Catégorielle (Steedmar, 2000)• LFG (Kaplan & Bresnan, 1982) • Construction Grammar (Goldberg, 1995)• Grammaire Transformationnelle Chomskyenne e.g. Government

and Binding (Haegeman, 1994)

2. Sémantique• La Sémantique Situationnelle (Barwise & Perry, 1983)• DRT: Discourse Representation Theory (Kamp & Reyle, 1993)

Page 12: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

12

Head driven Phrase Structure Grammar (HPSG)matériaux

Règles de Grammaire (Schémas de règles) Lexique

Principes de bonne formation Règles Lexicales

Hiérarchie de Type Conditions d’Appropriation

Page 13: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

13

Head driven Phrase Structure Grammar (HPSG)formalisme de représentation

(TFS, Carpenter (1992))

HPSG repose sur l’idée de représenter les règles, les items lexicaux,

les principes, … par des :

Structures de Traits Typées

(ou TFS, Typed Feature Structures)

Page 14: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

14

Linguistic Knowledge Builder (LKB)la plate-forme (1)

Le système LKB – open source software Le système LKB est un environnement de développement de lexique et de grammaire pour utilisation avec des formalismes linguistiques à base de contraintes (grammaires de style HPSG).

http://lingo.stanford.edu/ftp

•Ann Copestake, (2002), Implementing Typed Feature Structure Grammars, CSLI Publications, Stanford, Ca..•Ann Copestake, Dan Flickinger, Carl Pollard and Ivan A. Sag, (2005), Minimal Recursion Semantics: An Introduction.

Page 15: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

15

Linguistic Knowledge Builder (LKB)la plate-forme (2)

Le système LKB est un environnement de développement spécialisé de très haut niveau, intégrant des facilités et masquant à l’utilisateur des aspects spécifiques aux langages de programmation.

Le LKB inclut :•Un analyseur•Un générateur•Un support pour des hiérarchies d’héritage à grande échelle•Divers outils pour la manipulation des représentations sémantiques•Un ensemble riche d’outils graphiques pour l’analyse et le débogage

de grammaire

Page 16: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

16

Linguistic Knowledge Builder (LKB)Caractéristiques

Common Lisp HPSG implémentées (Structures de Traits Typées )

Multi-langues Multi-formalismes

Utilisé en analyse comme en génération Modulaire

documentation Libre+Open source

≠ versions disponibles (Windows, Unix, Mac Os)

Support (?)

Page 17: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

17

Linguistic Knowledge Builder (LKB) Les fichiers LKB (1)

Une grammaire LKB se présente comme un ensemble de fichiers.

1. Les fichiers Lisp Le script Les fichiers de configuration

2. Les fichiers TDL Les fichiers de la grammaire

Page 18: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

18

Linguistic Knowledge Builder (LKB) Les fichiers LKB (2)

Le fichier script

charge l’ensemble de la grammaire 

• (typiquement : script.lsp)

Page 19: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

19

Linguistic Knowledge Builder (LKB) Les fichiers LKB (3)

Les fichiers LISP

utilisés pour la configuration du système (paramétrage, les préférences d’affichage, ...)

• globals.lsp• user-fns.lsp• user-prefs.lsp

Page 20: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

20

Linguistic Knowledge Builder (LKB) Les fichiers LKB (4)

Les fichiers TDL

nécessaires pour la confection de grammaires LKB

• types.tdl (définition de type)• lexicon.tdl (lexique)• rules.tdl (règles de grammaire)• lr.tdl (règles lexicales)• inflr.tdl (règles flexionnelles)• start.tdl (la structure de départ)• parse-nodes.tdl (écriture des nœuds sur l’arbre d’analyse)

Page 21: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

21

Linguistic Knowledge Builder (LKB)Type Description Language (TDL)

Les grammaires LKB sont implémentées en TDL.

Le TDL est un langage de description qui permet la spécification de TFSs ; donc de types, de contraintes, d’entrées lexicales, …

LKB prévoit l’utilisation d’une variété de langages de description. Le plus communément utilisé est celui adopté par (Copestake, 2002), qui est une version simplifiée de la syntaxe du TDL du système PAGE

(Krieger & Schäfer, 1994).

Page 22: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

22

Linguistic Knowledge Builder (LKB)Minimal Recursion Semantics (MRS)

MRS (Copestake et al., 2005) est un langage de description pour les formules de la logique du premier ordre (FOL)

La sous-spécification est la solution standard pour traiter des ambiguïtés de la portée.

Au lieu de spécifier les interprétations d’une expression ambiguë directement, un langage de description est utilisé pour représenter ces différentes interprétations.

→ Ce qui mène à une représentation sous-spécifiée compact; différentes interprétations peuvent être alors énumérés à partir de cette représentation en fonction du besoin.

MRS est le formalisme standard de sous-spécification utilisé à grande échelle dans les grammaires HPSG.

Page 23: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

23

Linguistic Knowledge Builder (LKB)Minimal Recursion Semantics (MRS)

Le LKB propose des facilités pour la sémantique

Phrase analysée → une représentation sémantique

MRS (représentation sémantique) peut être utilisée comme input du Générateur du LKB qui peut à son tour générer toutes les chaînes

correspondantes à la représentation.

Page 24: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

24

Grammaire LKB/HPSG pour l’ArabeRègles de grammaire

La grammaire HPSG/LKB de l’arabe consiste en:

• des règles de grammaire• des règles flexionnelles• des définitions de type• un lexique

Page 25: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

25

Grammaire LKB/HPSG pour l’ArabeRègles de grammaire

• Head-Complement Rules (2)• Head-Subject Rule (1)• Head-Modifier Rule (1)• head-specifier-rule (1)

Page 26: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

26

Grammaire LKB/HPSG pour l’Arabe Hiérarchie (1)

verb-lxm

intr-verb-lxm …ditr-verb-lxmtr-verb-lxm

Page 27: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

27

Grammaire LKB/HPSG pour l’Arabe Hiérarchie (2)

lexeme

noun-lxm verb-lxm const-lxmitr-lxm tr-lxm

str-tr-lxm ditr-np-np-lxm ditr-np-pp-lxm

prep-lxmdet-lxm dtr-np-np-v- lxm dtr-np-pp-v-lxmitr-n-lxm itr-v-lxm strict-tr-v-lxm

tr-n-lxm

Page 28: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

28

Grammaire LKB/HPSG pour l’Arabe Hiérarchie Globale (3)

Page 29: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

29

Grammaire LKB/HPSG pour l’Arabe Lexique (1)

aataa := verb-lxm-ditransitive-np-np &

[ ORTH <! "aataa" !>,

SEM.RELS.LIST.FIRST.PRED "aataa_rel" ].

Page 30: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

30

Grammaire LKB/HPSG pour l’Arabe Lexique (2)

verb-lxm := lexeme &[ HEAD verb & [AGRNV [GEND #gend]], SUBJ < phrase & [ HEAD noun & [AGRNV [GEND #gend] ]& [AGRN [case nom]],

SPR <>, COMPS optional-list ] >,

SEM [INDEX event ] ].

transitive-lxm := lexeme &[ COMPS < phrase & [ HEAD noun, OPT -, SPR <>, COMPS optional-list ], ... > ].

ditransitive-np-np-lxm := transitive-lxm &[ COMPS < [ ], phrase & [ HEAD noun, OPT -, SPR <>, COMPS optional-list ] > ].

verb-lxm-ditransitive-np-np := verb-lxm & ditransitive-np-np-lxm &[ SUBJ < [SEM [INDEX #arg1]] >, COMPS < [ HEAD noun & [AGRN [case acc]], SEM [INDEX #arg2]],

[HEAD noun & [AGRN [case acc]], SEM [INDEX #arg3]] >, SEM [RELS <! arg1-2-3-relation & [ARG1 #arg1,ARG2 #arg2,

ARG3 #arg3] !> ] ].

Page 31: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

31

Grammaire LKB/HPSG pour l’Arabe Règles Lexicales (1)

Dans le lexique, les adjectifs sont sous-spécifiés pour le cas et la définitude :

i.e. ni désinences casuelles

ni ils sont déterminés

Exemples:• mufiid• Kariim• naagih

Page 32: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

32

Grammaire LKB/HPSG pour l’Arabe Règles Lexicales (2)

Des règles flexionnelles sont nécessaires pour:

• L’instanciation du cas• Le marquage de l’indéfini (tanwiin)

Page 33: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

33

Grammaire LKB/HPSG pour l’Arabe Règles Lexicales (3)

D’autres Règles Lexicales seront nécessaires pour générer les formes féminines, plurielles, …

Exemples:

naagih → naagihun, naagihan, naagihatun, naagihatan, naagihuuna, ...

Page 34: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

34

Grammaire LKB/HPSG pour l’Arabe Règles Lexicales (4)

• null-irule • verb-3masc-irule• verb-3fem-irule• nominative-cn-lexical-rule• accusative-cn-lexical-rule• genetive-cn-lexical-rule• def-noun-lexical-rule• indef-cn-lexical-rule• …

Page 35: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

35

Ajustement de la version actuelleet bugs connus

• Au niveau de l’implémentation :o Finir l’implémentation de la head-specifier-rule

→ prendre en compte l’accord det-noun ( / / بنات ثالث أوالد ثالثة البنت، هذه الولد (هذاo intégrer les constructions en SVO (règle lexicale: VSO → SVO)o Réintégrer et réadapter les implémentation concernant les cas des verbes

exponentiels (classe de kaana, classe de hassiba et la classe de ‘a’lama) et les exposant non verbaux (classe de ‘inna)

• Au niveau du générateur :o Régler un problème au niveau de la génération

→ le générateur échoue à générer

• Au niveau de la « test suite » :o Réviser et réorganiser le fichier test (construction d’une test suite assez large)

→ l’analyse ne doit admettre que les phrases grammaticales (over generation, under generation, spurious ambiguity)

Page 36: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

36

Conclusion & Perspectives

• Accord (nom-adjectif, prep-nom, verb-sujet)• Modification (adjectivale et adverbiale)• Sous-catégorisation (verbale et prépositionnelle)• Flexion• Marquage de cas

Page 37: Implémentation dun fragment de grammaire HPSG de larabe sur la plate-forme LKB 3rd International Conference on Arabic Language Processing, CITALA2009 Mahmoud.

37

Conclusion & Perspectives

1. Continuer le développement de la grammaire

a. Choisir de nouveaux phénomènes à intégrer

b. Redéfinir les priorité pour la grammaire (se fixer sur un phénomène précis pour en élargir la couverture)

2. Travailler avec la Matrix