Building an Electronic Dictionary of Computer Science Terminology
description
Transcript of Building an Electronic Dictionary of Computer Science Terminology
Building an Electronic Dictionary of Computer Science
Terminology
Farida AOUGHLISUniversité de Tizi ouzou
Email:[email protected]
PLAN
• Introduction.• Terminologie,noms composés.• Extraction automatique de terminologie.• Extraction manuelle de terminologie.• Dictionnaire des termes de l’informatique:
DELAC_INF.• Extraction automatique des termes de longueur 2.• Conclusion.
TERMINOLOGIE, NOMS COMPOSES
• Terminologie
• Terme
• Nom composé
• Dictionnaire spécialisé
Extraction automatique de terminologie
• Approches linguistiques ou syntaxiques
• Approches statistiques ou numériques
• Approches mixtes ou hybrides
Approches linguistiques
• TERMINO David S.,1990
• LEXTER Bourigault D.,1995
• FASTER Jacquemin C.,1997
• XTERM Cerbah F.,1999
• LEXPRO Savary A.,2000
Approches statistiques
• ANA Enguehard C., 1992
• MANTEX Oueslati R., 1999
Approches mixtes
• XTRACT Smadja F., 1993
• ACABIT Daille B., 1994
• ASIUM Faure D., 1998
Extraction manuelle de termes
• Collecte d’ouvrages
• Extraction
• Acquisition
Dictionnaire des termes de l’informatique DELAC_INF
Différentes classes recensées
• Composants binaires : 2 mots pleins
• Composants ternaires : 3 mots pleins
• Les plus longs : 4 mots pleins
• Les plus longs : 5 mots pleins
Composés de longueur 2
• NA Adressage absolu
• NN Mémoire tampon
• NPN Adressage par octets
• NDN Allocation de ressources
• AN Arrière-plan
• PN Sous programme
Composés de longueur 2 (suite)
• NPV Demande pour émettre
• NCN Sauvegarde et restauration
• VPN Désactiver par commentaires
• APN Lié au calcul
• XN Pseudo langage
• XA Non valide
Composés de longueur 3
• NAPN Allocation dynamique de mémoire• NPNPN Allocation de ressources en batch• NPAA Algorithme du premier adapté• NPXA Algorithme du mieux adapté• NPXN Appel de sous programme• NPNA Architecture à mémoire partagée• NPAN Bit de demi retenue
Composés de longueur 3 (suite)
• NXA Interruption non masquable
• NACA Unité arithmétique et logique
• NNN Bus Local PCI
• NAA Circuit intégré décimal
• XNPN Non retour à zéro
Composés les plus longs
• NX4 Algorithme préemptif à priorités dynamiques
• NX5 Traitement différé à flot de travail unique
Répartition des classes de longueur 2
0
200
400
600
800
1000
1200
Répartition des classes de longueur 3
020406080
100120140160180
Codification d’une entréePour le terme arbre de décision : %arbre[N1]/de/décision,.N+NDN :ms/+ ;un/inform/ /DON89
• N1 code du 1er nom du terme• / pour séparer chaque champ• .N classe possible si on a seulement champ comme terme• + ou bien• NDN classe du terme complet • ms genre et nombre du terme masculin,singulier• -+ flexion en genre , pas de féminin – flexion en nombre , pluriel +• un : déterminant utilisé • inform : information sémantique : le terme est un terme d’informatique • DON89 : origine du terme extrait manuellement (bibliographie)
• Dans le fichier des formes fléchies DELACF_INF nous aurons les entrées :• arbre de décision,arbre de décision.N+NDN+z0:ms/un• arbres de décision,arbre de décision.N+NDN+z0:mp/un
Extrait de la liste des termes• %langage(N1)/adapté(A32)/au/calculateur,.N+NAPN:ms/-+;un
• %langage(N1)/adapté(A32)/aux/problèmes/de/gestion,.N+NX4 :ms/-+;un
• %langage(N1)/algébrique(A31),.N+NA:ms/-+;un/ / Cegos80
• %langage(N1)/algorithmique(A31),.N+NA:ms/-+;un/ / Cegos80
• %langage(N1)/artificiel(A40),.N+NA:ms/-+;un/ / Cegos80
• %langage(N1)/bas/niveau,.N+NAN:ms/-+;un/ / Cegos80
• %langage(N1)/conversationnel(A40),.N+NA:ms/-+;un/ / Cegos80
• %langage(N1)/de/assemblage,.N+NDN:ms/-+;un/ / Cegos80
• %langage(N1)/de/balisage,.N+NDN:ms/-+;un/ / Cegos80
• %langage(N1)/de/commande,.N+NDN:ms/-+;un/ / Cegos80
• %langage(N1)/de/compilation,.N+NDN:ms/-+;un/ / Cegos80
• %langage(N1)/de/description/de/page/HTML,.N+NX4:ms/-+;un
• %langage(N1)/de/description/des/données,.N+NPNPN:ms/-+;un/ / Cegos80
• %langage(N1)/de/manipulation/des/données,.N+NPNPN:ms/-+;un/ / Cegos80
Acquisition automatique de termes de longueur 2
• Patrons syntaxiques• ATN utilisés• Traitement phrase par phrase • Le terminologue valide ou rejette les
candidats termes• Les termes simples peuvent être rajoutés• Voir adaptation INTEX
Conclusion & Perspectives