BESOINS LEXICAUX A LA LUMIERE DE L'ANALYSE STA'FISTIQUE 
DU CORPUS DE TEXTES DU PRO JET "BREF" - LE LEXIQUE "BDLEX" DU 
FRANCAIS ECRIT ET ORAL. 
1. FERRANE, M. de CALMES, D. CO'lq'O, .I.M. PECA'ITE, G. PERENNOU. 
IRIT - UniversitY! Paul Sabatier 
118, route de Narbonne 
31062 TOULOUSE Cedex - FRANCE 
ABSTRACT 
In this paper, we describe lexical needs for 
spoken and written French surface processing, 
like automatic text correction, speech 
recognition and synthesis. 
We present statistical observations made on a 
vocabulary compiled from real texts like 
articles. These texts have been used for building 
a recorded speech database called BREF. 
Developed by the Limsi, within the research 
group GDR-PRC CHM (Groupe De Recherche 
Programme de Recherches Concertdes, 
Communication Homme-Machine -- Research 
Group - Concerted Research Program, Man 
Machine Communication), this database is 
intended for dictation machine development and 
assessment. 
In this study, the informations available in our 
lexical database BDLEX (Base de DonnEes 
LEXicales - Lexical Database) are used as 
reference materials. Belonging to the same 
research group than BREF, BDLEX has been 
developed for spoken and written French. Its 
purpose is to create, organize and provide 
lexical materials intended for automatic speech 
and text processing. 
Lexical covering takes an important part in such 
system assessment. Our fn'st purpose is to value 
the rate of lexical covering that a 50,000 word 
lexicon can reach. 
By comparison between the vocabulary 
provided (LexBref, composed of 84,900 items, 
mainly distinct inflected forms) and the forms 
generated from BDLEX, we obtain about 62% 
of known forms, taking in account some 
acronyms and abbreviations. 
Then, we approach tile unexpected word 
question looking into the 38% of left tbrms. 
Among them we can find numeration, 
neologisms, foreign words and proper names, 
as well as other acronyms and abbreviations. 
So, to obtain a large text covering, a lexical 
component must take in account all these kinds 
of words and must be fault tolerant, particularly 
with typographic faults. 
Last, we give a general description of the 
BDLEX project, specially of its lexical content. 
We describe sotoe lexical data recently inserted 
in BDLEX according to the observations made 
on real texts. It concerns more particularly the 
lexical item representation using phonograms 
(i.e. letters/sounds associations), inlbrnuttions 
about acronyms and abbreviations as well as 
morphological knowledge about derivative 
words. We also present a set of linguistic tools 
connected to BDLEX and working on tile 
phonological, orthographical and 
morphosyntactical levels. 
ACIES DE COL1NG-92, NANTES, 23-28 AO(rr 1992 1 2 0 3 I)I~o(:. OF C()LIN(;..92, NANTES. AUG. 23-28, 1992 
1. Introduction 
Darts le domalne des Industries de la Langue les 
lexiques 61ectroniques occupent une place 
importante. Dictionnaires et encyclop6dies sont 
maintenant disponibles sous DOC ; pour le 
fran~ais, on peut citer entre autres le dictionnaire 
Zyzomis d'Hachette et le Robert 61ecu'onique. 
Les syst~mes de traitement de texte actuels 
disposent dans leur environnement, de lexiques 
pouvant 8tre consult6s pour v6rifier 
l'orthographe ou la conjugaison d'un mot, pour 
la recherche de synonymes, etc. Les correcteurs 
automatiques font aussi appel/t des lexiques. 
Actuellement, tous ces mat6riaux lexicaux sont 
encore loin de satisfaire les besoins du 
traitement automatique de la parole et des textes. 
lls sont insuffisants lorsqu'on aborde des 
traitements linguistiques mettant en jeu une 
analyse s6mantique et syntaxique approfondie. 
Ils sont 6galement inadapt6s pour des 
traitements de surface tels que ceux qui 
interviennent dans la correction orthographique, 
la synth~se de la parole/t partir de texte, et la 
dict6e vocale. C'est pourquoi diff6rentes 
6quipes de recherche ont entrepris de 
developper leurs propres lexiques. 
Dans eet article, nous d6crivons les 
observations statistiques faites sur le 
vocabulaire extrait d'un corpus de textes r6els 
constitu6s d'articles de journaux. Ceux-ci sont 
utilis6s dans la base de donn6es BREF destin6e 
au d6veloppement et/i l'6valuation des machines 
d dieter. 
Cette 6tude met en 6vidence diff6rents besoins 
en mat6riaux lexicaux. Elle montre aussi la 
n6cessit6 de d6velopper tout un ensemble de 
proc&:lures pour traiter les inattendus qui, quelle 
que soit l'6tendue des mat6riaux lexicaux 
utilis6s, surviennent tr~s fr&luemment dans les 
textes usuels. 
Nous donnons ensuite une description de la 
base de donn6es lexicales du franqais 6crit et 
oral, BDLEX, dont l'objectif est de cr6er, 
d'organiser et de distribuer des mat6riaux 
lexicaux destin6s au traitement automatique de la 
parole et des textes \[P6rennou, 91\]. 
Les projets BREF et BDLEX sont d6velopp6s 
dans le cadre du GDR-PRC Communication 
Homme-Machine --groupe de recherches 
coordonn6es du Minist~re de la Recherche et de 
la Technologie, et du Centre National de la 
Recherche Scientifique. 
2. Couverture de textes r~els 
L'acc~s au lexique joue un r61e crucial dans des 
applications comme la correction automatique, 
et le traitement automatique de la parole. Si un 
mot est inconnu du lexique, le syst~me est mis 
en 6chec sans qu'il le sache toujours. En effet, 
l'acc~s 6tant tol6rant aux fautes ou aux 
impr6cisions de reconnaissance, il se trouvera 
toujours un mot plus ou moins proche pour 
remplacer celui qui est observ6. 
Le taux de couverture lexicale, ou proportion 
des mots d'un texte connus du lexique, est donc 
un des crit~res importants pour l'6valuation du 
niveau de performance des syst~mes de ce type. 
2.1. R~sultats classiques 
Diff6rentes 6tudes statistiques ont dej~t 6t6 
effectu6es sur ce point. On peut citer pour 
illustration les r6sultats obtenus par P. Guiraud 
\[Guiraud, 59\]. Ceux-ci 6tablissent que 100 
roots bien choisis assurent un taux de 
couverture d'environ 60%, tandis que 1 000 
mots couvrent 85% et 4 000 roots 97,5%. La 
couverture des 2,5% restant peut 6tre assur6e 
par un corpus de 40 000 roots. Pour un 
compl6ment sur ce type d'6tude, on peut se 
reporter ~ \[Catach, 84\]. 
En terme de formes de mots le taux de 
couverture est d6pendant de la langue 
consid6r6e. En effet, des statistiques bas6es sur 
l'6tude de corpus consdtu6s ~t partir de lettres 
d'affaire et 6tablies par Averbuch pour ranglais 
\[Averbuch, 87\] et M6rialdo pour le fran~ais 
\[M6rialdo, 88\], il ressort que le taux de 
couverture assur6 en anglais par un lexique de 
20 000 formes, soit environ 97,5%, est 
6quivalent "a celui assur6, en franqais, par un 
lexique 10 lois plus important \[P6rennou, 90\]. 
Ces taux de couverture relativement 61ev6s sont 
obtenus ~t partir de corpus oh chaque forme est 
pond6r6e par sa fr6quence d'apparition darts les 
textes consider6s. Ainsi, le pourcentage des 
formes rejet6es, g6n6ralement des formes rares 
ou tr~s SlX~cialis~es, reste tr~s falble. 
2.2. Le corpus BREF 
Les r6sultats ci-dessus sont fauss6s d~s que le 
corpus 6tudi6 n'est pond6r6 d'aucune 
information fr6quentielle et qu'il aborde des 
domaines aussi vastes que vari6s :finance, 
politique, gdographie, culture, spectacle .... Tel 
est le cas du corpus BREF, 6tabli ~t partir 
d'articles de journaux. 
ACRES DE COL1NG-92, NANTES. 23-28 AO~ 1992 I 2 0 4 PROC. OV COLING-92. NANTES, AUG. 23-28, 1992 
2.2.1. Etat des mat~riaux dtudi~s 
Nous donnons ici des statistiques portant sur le 
lexique des formes fl6chies extraites d'un 
corpus de textes constitu6 en vue de la crdafiou 
d'une base de donn6es de parole enregislrEe : la 
base de donn6es BREF. Celle-ci est destinEe ~t 
l'dvaluation de syst~mes de reconnaissance de 
grands vocabulaires. Cette base est d6velopp~ 
au LIMSI dans le cadre du GDR-PRC 
Communication Homme-Machine lLamel, 91\]. 
Nous nous int6resserons plus particuli~rement, 
la composition du vocabulaire apparaissant 
dans les textes du corpus BREF. Celui-ci nous 
a 6t6 communiqu6 sous la Ji~nne d'une liste de 
84 900 roots, que nous appelherons par la suite 
LexBref. Chaque forme est rcpr6sent6e en 
lettres minuscules ; la distinction entre nora 
propre et nora commun est done comph~tement 
perdue. I1 en va de m6me pour les rep6rages 
typographiques conventionnels des sigles, des 
abr6viations et de certains roots compos6s, les 
signes non alphanum6riques ayant 6t6 effaces. 
2.2.2. Taux de eouverture lexieahe 
Nous avons procgd6 h la comparaison des 
formes de LexBref avec celhes que nous avons 
g6n6rges ~t partir de notre base de donn6es 
hexicales BDLEX. 
La version BDLEX-1 comporte 23 000 entrees 
et permet d'acc6der ,h un corpus comptant 
environ 270 00{I formes fldchies. L'extension 
de ce lexique ~ 50 000 entrges constitue la 
version BDLEX-2. 
Dans la figure 1 nous avons repr6sent6 he 
pourcentage de formes de 1 ,exBref qui ont 6t6 
trouv6es dans BDLEX- 1 et BDLEX-2. 
r~f6rence ( 1 ) (2) 
BDLEX-1 \[ 40 931 I 1 542 \] 50% 
(23 000 entr6es)\] \] I 
BDLEX-2 * I ..... I .... I .... 
L~xBrefparr"pp°rtl~-,a~ I .... I ,,~ t~ BDLEX-2 ....... 
• : Compl6mcaataire de BDLEX- 1 par r~Fort ~t BDLEX-2 
Fig.l- Rdsultats obtenu.~ par comparaison de LexBref 
aux formes g~n&~es d partir de BDLEX-I et BDLEX.2. 
La cohoune (1) donne les rEsuhtats obtenus 
partir d'une recherche di~cte qui a permis de 
reconnaltre le plus grand nombre de formes. 
Nous avons ensuite supposg que d'autres 
fi~rmes pouvaient 5tre trouvEes, moyennant ha 
correction d'une faute d'accent. 
Les r6sultats port6s en colonne (2) de ce tableau 
ont 6t6 obtenus en utilisant le correcteur 
orthographique et typographique VORTEX 
\[P6rennou, 86, 91\], \[P6catte, 90\]. 
Pour affiner l'analyse, nous nous sommes 
int6ress6s aux sigles et aux abr6viations qui 
pouvaient figurer dans ce corpus. Pour cela 
nous l'avons comparg ~ une liste de sigles, 
fournie pat M. P16nat dans le cadre du GDR- 
PRC CHM, et 'A une liste d'abrdviations. Les 
rgsultats de cette recherche sont port6s dans la 
figure 2 ci-dessous. 
Corpus de 
rgfdrence 
SiglesdePl6nat 
(1 000 sigles) 
Abr~viafions 
(280 abrgv.) 
Sighcs ct abrEviafions 
de LcxBref reconnus 
Formes Pourcentage 
trouvdes 
380 0,45% 
70 0,08% 
, i, , , . ,, 
450 0,53 % 
Fig.2 - R dsultats obtenus par comparaison de LexBref d 
une liste de sigles et une liste d'abrdviations. 
En observant les figures 1 et 2, on constate 
qu'un ensemble important de formes de 
LexBref, environ 38%, n'ont pas 6t6 
identifi6es. 
L'6tude de |a structure de ce lexique r6siduel, 
LexR, peut ~,tre un moyen de pr6ciser les 
besoins eu mat6riaux et oufils lexicaux en vue 
d'augmenter ha proportion de formes reconnues. 
2.2.3. Analyse du corpus r~siduel LexR 
Pour d6terminer les diff6rents types de mots 
inattendus et leur propot~tion dans he corpus 
initial LexBref, nous avons appliqu6 diverses 
proc6dures que l'on peut qualifier de non 
hexicales puisqu'elhes ne font intervenir aucune 
consultation de lexique. 
® Formes mandriques 
Dans le corpus de BREF figurent des nombres 
cardinaux et ordinaux, exprim6s en chiffres 
arabes (1991, 200e,...), ou en chiffres romains 
(XVII e, XV .... ). On trouve ggalement des 
nombres exprimant un pourcentage (5%, 75%, 
,..). Ces unitgs repr6sentent environ 1,5% du 
corpus LexBref. 
Ac'lEs DE COLING-92, NANTES, 23-28 AO~r 1992 12 0 5 PROC. OF COLING 92, NANfES, AUG. 23-28, 1992 
• Mots dtrangers et Noms propres 
La gmnde diversit6 des sujets abordds dans un 
quotidien et la portde internationale des faits 
relatds font que de nombreux mots dtrangers 
apparaissent dans les textes (amnesty, congress, 
perestroi'ka, glasnost. . . ). 
Une analyse basde sur des critSres particuliers, 
eomme l'dtude des finales de roots 
n'appartenant pas/t la langue franqaise, mais 
frdquentes dans d'antres langues ou encore 
caractdristiques de noms propres ( -y, ~ss, -ski, 
-nn, -ff, -v, ~oux ...), nous a permis de 
distinguer un premier groupe de roots d'origine 
dtrang6re (academy, congress .... ) reprdsentant 
environ 15,5% du corpus initial. Ce 
pourcentage inclut 6galement les mots pouvant 
correspondre h des noms propres franqais ou 
6trangers (Chdteauroux, Einstein, Gorbatchev, 
Stravinski, Bonn .... ). 
• Ndologismes 
La cr6ation lexieale est un phdnom6ne 
linguistique f?dquent dans les m6dias : 
groupuscularisation, zapping .... Beaucoup de 
roots sont cr66s h partir de noms propres issus 
des milieux polifique, artistique ou littdraire : 
antigaulliste, mitterrandien, maccarthysme, 
hitchcockien, nabokovien .... 
La plupart sont produits par ddrivafion mais il 
existe de nombreux exemples obtenus par 
composition, comme par exemple vrai-faux 
(vraie-fausse facture, vrai-faux passeport, ...). 
Quelques ndologismes sont obtenus selon des 
procddds plus marginaux comme le veflan 
(ripoux, chdbran ...) et les roots-valises (motel, 
confipote .. . ). 
Nous avons examind les ndologismes 
ddrivafionnels construits de mani~re rdguli6re, 
par application de r6gles d6rivationnelles sur un 
mot de la langue ou un nom propre --\[Ferrand, 
91\] pour le traitement morphologique dans 
BDLEX. 
A partir d'une liste d'affixes productifs comme 
les prdfixes anti-, dd.., inter-, ndo-, sur-,.., et 
les suffixes -ation, -ien,-isme,-iste,-is(er), o 
itd,-ment ..... nous avons procdd6 h une 
recherche dans LexR qui nous a permis 
d'estimer respectivement /t 0,5% et 5,5% les 
roots de LexBref initialement rejetds et 
susceptibles d'etre analysds dans un deuxi~me 
temps comme prdfixds ou bien suffixds --lors 
du traitement des suffixes nous avons pris en 
compte les variations flexionnelles (par exemple 
les nx)ts comme hitchcockiennes sont ddtectds). 
La figure 3 ci-dessous reprend les diffdrentes 
estimations faites dans cette seconde phase 
d'dtude du corpus LexBref. 
Crit6res de 
recherche 
Nombres 1991, XX'VIIe .... 
Mots ~trangers et noms propres 
Mots supposes 
pr~fixds 
Mots supposds 
safflxds 
Exemples de formes Pourcentage 
~lectionndes par rapport h Le.xBref 
1,5% 
congress, amnesty, 15,5% 
roscoff, gorbatchev 
lnterafricain, 0,5 % 
ndobaroque .... 
hitchcockiennes, 
groupUseularisalion, 
zapping .... 
5,5% 
Mots extraits de LexBref par procddum 23% 
non lexicale 
Fig.3 - Analyse du corpus rdsiduel LexR. 
Parmi les 15% restant, on trouve notamment 
des sigles qui n'ont pas dtd rdpertorids dans la 
liste de rdf6rence que nous avions ~ notre 
dislx~sition (TF1, ADN,...). 
On trouve encore des ndologismes, des noms 
propres et des mots dtrangers d'emprunt pour 
lesquels aucune procddure non lexicale n'a pu 
&re appliqude. 
Enfin, on rencontre des mots incorrectement 
dcrits (le plus souvent h la suite d'une faute 
typographique) et d'autres qui seraient reconnus 
par un lexique plus dtendu que BDLEX-2. 
3. Le projet BDLEX 
Le projet BDLEX regroupe un ensemble de 
mat6riaux lexicaux et d'outils linguistiques. 
3.i. Mat6riaux lexicaux 
Selon l'application vis6e, diff6rents lexiques 
peuvent Ore ddrivds de BDLEX. La version 
BDLEX~ 1 est organisde en base de donndes 
relationnelle gdrde par le SGBD ORACLE sur 
station SUN. Les informations disponibles 
permettent d'aborder nombre d'applications en 
waitement automafique de la parole et des textes. 
Ce sont : 
• la graphie accentu6e, 
• la transcription phonologique incluant les 
fronti6res de syllabe et de pied, 
• la reprdsentation en phonogrammes mettant 
en dvidence les associations lettres/sons, 
• la morphologie flexionneUe : conjugaison 
des verbes, flexion des noms et adjectifs, 
Ac:i~s oJ~ COLING-92. NANTES. 23-28 ^O~l 1992 1 2 0 6 PROC. OF COLING-92. NANTES. AUG. 23-28. 1992 
• la morphosyntaxe, 
• des indices de fr6quence d'appafifion darts 
les textes, 
• la d6rivafion etla composition. 
1,e corpus de BDLEX-1 de 23 000 entr6es a 6t6 
6tendu "~ 50 000 entrees, en particulier en ce qui 
concerne les informations graphiques et 
morphosyntaxiques. BDLEX a d6ja 6t6 d6crit 
dans \[P6rennou, 90\] et \[Ferrau6, 911. 
Nous ne d6taillons ici que les informations 
introduites plus r6cemment eu fonction des 
observations effectu6es sur des textes reels, tels 
que le corpus de BREF ddcrit dans le 
paragraphe 2. 11 s'agit notamment de la 
reprdsentation en phonogrammes des entrees 
lexicales, des informations relatives aux sigles 
et aux abrdviations ainsi qu',~ la morphologie 
d6rivationnelle 
P honogramraes 
Ce sont des associations 616mentaires de lettres 
et de sons --voir par exemple \[Catach, 781\]. lls 
jouent un rfle important en correction 
automatique et en synth~ de la parole it partir 
de texte. 
Chaque entr6e lexicale de BDLEX dispose 
d'une representation en phonogrammes, comme 
cela est illustr6 dans le figure 4. Les 
associations lettres/sons ont 6t6 obtenues par un 
alignement entre la graphic accentu6e et la 
repr6sentation phonologique de l'entr6e. 
GR_AC I)HS F CS PHONOGRAMMES 
axe t~s o N (~,A)(x,ks)(o,o) 
bahut /bA/tJ N (b,b)(a,A)(h,E)(tl,y) (t,£) 
hache /*AI' e N (h,*)(a,A)(ch,f) (e,el 
skate /skEJt O N (S,s)(k,k)(~,EJ)(t,t)(o,o) 
Fig.4 - Extrait de BDLEX. : reprdsentation en 
phonogrammes --A : lettre ne correspondant d aucun 
son; * : h aspird ; / : fi'ontidre syllabique. 
On compte, en franqais, uue centaine de 
phonogrammes de base. Cependant, lorsqu'on 
prend en compte des roots d'emprunt 6trangers, 
ce uombre augmente consid6rablement : 450 
phonogrammes recens6s pour les 23 000 
enti6es de BDLEX-I. 
Sigles et abr~viatiotL~" 
Des travaux, ~t I'IRIT, portant sur le 
d6veloppement d'outils linguistiques out d6j~t 
donn6 lieu ~t la conception d'un noyau lexical de 
sigles et d'abrEviations. 
Co~mne cela est represent6 clans la figure 5, un 
sigle dispose d'informations concernant la 
graphic, la phonologie etla morphosyntaxe. 
GRJ~C GR Ext PHS F CS CF C~ 
c.-~t-d c'¢st-h-dire \]sEItAtdlr o A O0 
F IYmlc /frfi N Mn 01 
M. monsieur /m~/sJ\[~ N MS 00 
MM. messieurs /mE/sJ~ Lr N MP 00 
kg kilogrmnme /kl/10 N Mj 00 
kilo kilogramme /kt/lt\] N Mn 01 
S.V.P. s'il vous plait /slllvu/plE A 00 
Fig.5 - Extrait de BDLEX : Sigles et abr~viations. 
Les travaux sur les sigles sont ddveloppds ell 
liaison avec M. P16nat \[Pl6nat,91\]. 
Morphologie d~tivationnelle 
L'introduction clans BDLEX d'un ensemble de 
connaissances morphologiques ddrivationnelles 
dolt permettre non-seulement de lier entre elles 
ceitaines entI@s de BDLEX, mais 6galement de 
proc6dcr ~ l'analyse morphologique de 
n6ologismes ddi ivafionnels. 
En effet, bon nombre de ceux qui apparaissent 
darts its textes reels sont inconnus du lexique. 
Ccpendant, ils peuvent g6n6ralement ~tre 
rattach6s h uue entree lexicale : l'entrEe dont ils 
ddfivent (ou base). Ainsi, en appliquant la r~gle 
associde au suffixe -ment, forrnateur de noms 
masculin ~ partir d'une base verbate, on peut 
lier la forme aboutissement, trouv6e daus 
LexBref et non rdpertori6e dans BDLEX-2, ,5 
l'eutr6e aboutir, verbe connu du lexique. 
A l'heure actuelle 68 pr6fixes et 107 suffixes, 
essentiellement des suffixes ~ base verbale ou 
bien tormateurs de verbes, ont 6t6 rEpertorids 
dans BDLEX IFerran6, 91\]. 
3.20utils linguistiques 
Dans le cadre de BDLEX, nous avons 
d6velopp~ diffdrcnts outils linguistiques utiles 
pour la creation et l'utilisation des mat6riaux 
lexicaux. Ceux-ci op6rent aux diff6rents 
niveaux de la structure textuelle ou du message 
vocal. 
Sont disponibles actuellement : 
® G~ner, le g6n6rateur de formes fl6chies, 
, Amflex, l'analyseur morphologique 
flexionnel, 
VortexPlus, le correcteur orthographique qui 
peut 6galement fitre employ6 comme 
lemmatiseur tol6rant aux fautes (utilisable 
avec BDLEX-1 ou BDLFX-2), 
AcIEs DF, COLING-92. NAPeries, 23-28 Ao(rr 1992 1 2 0 7 Pgoc:. ov COl,ING-92, NArcrEs. Au(;. 23-28, 1992 
• diffgrentes fonctions d'acc~s particuli~res 
utilisEes par les psychoneurolinguistes, 
• GEPH, un syst~me expert en phonologic 
\[Tihoni, 91 \], 
• TEXOR pour le trrEtraitement linguistique des 
textes en vue de la synthEse/i partir de texte, 
• ASYSE, un gEnErateur d'analyseur 
linguistique ~t base d'ATN et d'opErations sur 
les schemas, en particulier runification. 
4. Conclusion 
Comme nous l'avons illustrE/i partir du lexique 
extrait du corpus de BREF, le traitement 
automatique de la parole et des textes requiert un 
ensemble de matEriaux lexicaux importants et 
varies, incluant les sigles et les abrEviations, 
ainsi que des ElEments de morphologie. Ils 
doivent ~tre complEtEs d'outils linguistiques 
ameliorant le traitement (correction, analyse 
morphologique .... ). 
Ceux-ci doivent, non seulement, prendre en 
compte les besoins classiques aux plans 
morphologique et syntaxique, mais encore ceux 
plus particuliers relatifs aux inattendus varies 
qui apparaissent darts les textes et les messages 
vocaux. 
Le projet BDLEX s'est dEveloppE dans ce 
contexte, avec pour objectif de rendre 
disponibles diffErents matEriaux et outils 
linguistiques. C'est ce qui a EtE partiellement 
rEalisd dans le cadre du GDR-PRC 
Communication Homme-Machine. 
Les extensions en cours visent tt 
l'enrichissement du vocabulaire et au 
dEveloppernent des traitements phonologiques et 
morphologiques ~pon 'dant aux besoins mis en 
Evidence dims cet article. 

Bibliography
\[Averbuch, 87\] A. Averbuch et 21 co- 
auteurs, Experiment with the TANGORA 
20,000 Word Speech Recognizer, CH2396- 
0/37/0000-0701,1987. 
\[Catach, 78\] N. Catach, L'orthographe, Que 
sais-je ?, Presses universitaires de France, 
1978. 
\[Catach, 84\] N. Catach, Les listes 
orthographiques de base du fran¢ais (LOB), 
Nathan Recherche, 1984. 
\[Ferran6, 91\] I. Ferran6, Base de donndes et 
de connaissances lexicales morphosyntaxiques, 
Th~se de doctorat de l'UniversitE Paul Sabatier, 
Toulouse III, 1991. 
\[Guiraud, 59\] P. Guiraud, Probldmes et 
m~thodes de la statistique linguistique, D. 
Reidel Pub. Company, 1959. 
\[Lamel, 91\] L.F. Lamel, J.L. Gauvain, M. 
EskEnazi, BREF, a Large Vocabulary Spoken 
Corpus for French, Proceedings of 
EUROSPEECH 91, Genova, 24-26 September 
1991, Vol.2, pp. 505-508. 
\[MErialdo, 88\] B. MErialdo, Multi-Level 
Decoding for Very Large Size Dictionary 
Speech Recognition, IBM Journal of R&D, 
1988. 
\[PEcatte, 92\] J.M. PEcatte, Tolerance aux 
fautes dans les interfaces homme-machine, 
ThOse de doctorat de lq3niversitE Paul Sabatier, 
Toulouse III, 1992. 
\[P~rennou, 86\] G. PErennou, La v~rification 
et la correction automatique des textes : le 
systdme VORTEX, Technique et Science 
Informatique, n°4, 1986, pp. 285-305. 
\[PErennou, 90\] G. PErennou, Le projet 
BDLEX de base de donndes et de connaissances 
lexicales et phonologiques, PremiEres journEes 
du GDR-PRC Communication Homme- 
Machine, EC2 Editeur, Paris, 24-25 Novembre 
1988, pp. 81-111. 
\[PErennou, 91\] G. PErennou, D. Cotto, M. 
de CalmEs, I. FerranE, J.M. PEcatte, J. Tihoni, 
Coraposantes phonologique et orthographique 
de BDLEX, DeuxiEmes journEes du GDR-PRC 
Communication Homme-Machine, EC2 
Editeur, Toulouse, 29-30 Janvier 1991, pp. 
351-362. 
\[Pl~nat, 91\] M. P1Enat, Vers d'une phond- 
misation des sigles, Deuxi/~mes journEes du 
GDR-PRC Communication Homme-Machine, 
EC2 Editeur, Toulouse, 29-30 Janvier 1991, 
pp. 363-371. 
\[Tihoni, 91\] J. Tihoni, G. PErennou, 
Phonotypical Transcription Through the GEPH 
Expert System, Proceedings of EURO- 
SPEECH 91, 2nd European Conf. on Speech 
Com. and Tech., Genova, Italy, pp.767-770, 
1991. 
