Voyellation automatique de l'arabe 
Fathi DEBILI (1) - Hadh~mi ACHOUR (2) 
(1) CNRS - CELLMA / IRMC - (2) ISG / IRMC 
20, rue Mohamed Ali Tahar - Mutuelleville - Tunis - Tunisie 
T~I. (216.1) 584 677 -Fax: (216.1) 797 376 
Courrier ~lectronique : debili~ehess.ff 
Abstract 
We tackle the problem of automatic, or at least 
assisted, voc..aliT~tiorl, a problem that arises from the 
almost universal absence of vowels in Arabic texts. 
We show that the problem of vocalization resides in 
the fact that the majority of Arabic words accept 
several potential vocalizations and are therefore 
ambiguous. 
In essence, the problem reduces to choosing, in 
context, the correct vocalization from among 
several. We focus here on the results obtained by 
starting with morphological analysis and 
proceeding to a grammatical (part-of-speech) 
tagging. 
In the proposed system, the vocalic ambiguity is 
detected by means of a double dictiona~ ofvoweled 
and non-voweled forms. The process of resolution is 
set in motion starting with morphological analysis 
and continuing through subsequent steps. The 
experiments described here concern the treatment as 
far as grammatical (part-of-speech) tagging. 
R&um~ 
Nous abordons le probl~me de la voyellation que 
nous voulons automatique ou du moins assistS, 
probl~me issu de l'absence quasi syst~matique des 
voyelles dans les textes arubes. 
Nous montrons que le probl~me de la voyellation 
r~side darts le fait clue les mots arabes a~-ptent 
dans leur majofit6 plusieurs voyellatious 
potentielles, qu'ils sent done ambigus. De fa~on 
essentielle, le probl~me revient fi choisir en contexte 
la bonne voyellation parm/plusieurs. 
Nous focalisons ici sur les r&ultats obtenus au sonir 
de l'armlyse morphologique d'abord et de 
l'~tiquetage grammatical ensuite. 
Darts le syst~me propose, l'ambiguit~ vo~lique est 
d~te~a~ au moyen d'un double di~ionnaire non 
voyell~/voyell~. Le processus de r&olution est 
enclenchd d~s l'analyse morphologique et se 
continue dans les drapes ult&ieures. Les 
ex~rimentafions d&rites ici concement les 
traitements qui vent jusqu'fi l'~tiquetage 
grammatical. 
42 
I. Introduction 
Un texte arabe non voyell~ est fortement 
ambigu. 74% des roots qui le composent 
acceptent plus d'unc voyellation lcxicale, et 
89,9% des noms qui Iv constituent acceptent 
plus d'une voyellc casudlc. La proportion des 
mots ambigus passe ~ 90,5% si les comptages 
portent sur lenrs voyellations globales (lexicales 
et casudles). 
Pour mieux comprendre ces chiffres prenons 
l'exemple du mot ~ / ktb et comptabilisons 
sos divcrses voycllations lcxicalcs ~ casucllcs. 
Le dictionnaire nous renvoie les sept 
voyellations lexicales suivantes: 
<< ~ / kataba >> fil a ~cr~O 
<< .~ / Imtiba >> Ol a ~t~ ~criO 
(< .~ I kutub, (des Bvres) 
<< .~ I katob >> (un ~crit) 
<< ~ / kattaba >> O/afait ~crire) 
<< ~ / kuttiba >> Oraire ~crire -formefactitive) 
<< ".~ / kattibo >> (fais ~crire) 
auxquelles en toute rigueur fl convient d'ajouter 
los denx voyellations correspondant A la 
segmentation .~n+,2 /k+tb: 
<< ~ / katabba, (comme trancher) 
<< ~ / katabb, (comme 'tranchement) 
ce qui donne neut'voyellations au total. 
Pour lcs norm, Ic dictionnairc nous renvoie 
d'autrc part l'ensemblc des cinq voyeUes 
casucUes suivantes \[ " ' "\]/\[a u i an un in\] i, 
ensemble quc nous appclons sch~ casucl. 
Commc on le voit, la voyeHe casuelle nc figure 
pas dam ce sch~na. La raison est qu'ellc nc 
s'applique pas aux graphics: ~ I kutub, ~ / 
katob et ~ / tabb mais aux graphics t,~/ 
kutuban, t~ / katoban et .~ / tabban qui, dam 
un dictionnairc de formes, constituent des 
entr~es distinctes. 
La combinatoirc des voyeUations lcxicales et 
casuelles associ~es ~ ~ /ktb donne donc au 
total ¢t minimalement 21 voyellations globales. 
Comment compter ? 
Derriere ces chiffres se cache unc double 
question : Comment mesurcr lc nombrc de 
voyeUations lexicalcs et casueHes diff6rentes 
d'unc forme simple7 Comment effcctuer ces 
m~mes mesures sur les forints agglutin6es? 
La r~ponse n'cst pas aussi simple qu'il n'y 
paratt au prime abord. La fusion des voyclles 
casuclles, du tanwin, des suffixes du pluricl ou 
du duel, d'une part, et l'agglutination, d'autre 
part, rendent difficilc pen ou prou les 
comptages. En effet, la distinction informatiquc 
de ces cliff, rents composants linguistiques n'est 
pas toujours chose aisle. 
S'il est trivial de compter les nombres de 
voyellations lcxicales et casuclles d'un mot 
commc L..~.b / mdrst, qu'en est-il de mots 
~Nous donnons dans la lisle suivante la codification 
des voyeUes que nons avons pr6coni~. Attention 
cette codification n'est utilis~e que pour representer 
les schemes vocaliques. La tramlit~ration u'tflis~ 
par afllenrs pour reprdsenter les mots arabes est ici 
circonstantieHe. 
o: ; a" , u:;i:,A:;U:*,X:;an:;un:; 
In:' in: ,An:;Un:', . . 
comme ~, :~- I mqhy, b.t,k.~ / mslmwn, ou 
t..~.tK/ ktlbl. Et quc deviennent ces nombres 
lorsquc ~ ces m&nes roots sont agglutin6s 
quelquc proclltiques ou enditiques. 
La di~cult~ vient ici de ce que la voyellc 
casuelle ne se trouve pas toujours pr6sente en 
position finale, qu'elle ne prend pas toujours la 
simple forme d'un signe diacritique cod6 au 
moyen d'un senl cara~re, et ClUe d6s lors cUe 
n'est pas toujours facilement ~Ic. 
n y a de surcrdt quc les comptages sont li6s ~ la 
repr6sentation informatique des donn~es 
lexicales et aux r6gles qui lenr sont assocides • 
scion quc l'on utilise un dictionnaire de lemmcs 
ou un dictionnaire de forints, les comptages 
autant que les objets (sch&x~.s vocaliques ou 
casuels) sur lesquels portent ces comptages 
scront diff~rents. 
Par exemplc ~. t_~. / bib aura scion qu'fl est issu 
d'un dictionnairc de lemmcs ou d'un dictionnaire 
de formes les schemas vocaliqucs et casucls 
suivants 2" 
Lemme sch6ma voc. sch6ma casucl 
I\[ "( ' l 
Forme sch6ma voc. sch6ma casuel 
o ~t ,,v.~ \[ * ' \] 
La voyclle ~ / anl n'est pas pr6sente clans ce 
demicr sch6ma casud car dam lc dictionnaire de 
formes il y a aussi l'entr6e t& / blbl ~ laqucUc 
43 
2 Notations • darts la rcpr~entation des sch~m~ 
voca/iques et casuels le (<.)> ind/qu¢ l'absence de 
signe vccalique pour les semi-voyetles (, j ~ ,¢) / (1 
w Y y) occupant la position correspondante dans la 
graphic du mot. De m6me, dans un sch~na casuel, 
1'((*)) dAn~ une position d~terrnin~¢, indique 
l'interdiction fare t la graphie d'avoir ce cas, ~tant 
entendu clue Its six positions d'un schema casuel 
Ow s sont respectivement associ~es at= six cas : ' / 
auianunin 
sent associds les schdmas vocaliques et casuels 
suivants • 
Forme schdma voc. schdma casuel 
~.b. \[** :***\] 
Enfin fly a que h description informatique 
introduit parfois des simplifications qui se font 
au prix de confusions qui l'dloignent du mod61e 
linguistique qu'elle est cens~e reprdsenter. 
Nous donnons ici au travers de diff6rents 
exemples les conventions et les choix de 
reprdsentation que nons avons prdconis6s. 
Rappelons que nous travaillons au moyen d'un 
dictionnaire de formes, celui-ci codant les 
voyellations de la fac~on suivante : 
Formes schema vocalique sch~.ma casuel 
L.,j..b 
o0o3 
o~X 
• • ,e 
~aot 
\[ ' \] 
\[ ' \] 
\[ ' \] 
# • 
\[ * , \] 
\[ * , \] 
G \[** ***\] 
\[** ***\] 
* * * 
* * * 
*\] 
*\] 
*\] \[~ * * 
~u \[* * * . . .\] 
• '- \[. . . ,.*\] 
i 
~,P'," I\[ \] 
d'abord de scMm~s casuels dont le nom 
devient quelque peu usurp6 puisque incluant 
parfois des voyelles qui ne sont que fina!es et 
non casuelles (par ex. ~l "'. / 
musoLimuwna); 
ensuite de sch~a~ms vocaliques incluant 
parfois les marques du tanwin comme pour 
,~- / mqhy, c~ qui conduit ~ l~g~rement v 
amplifier l'ambiguR~ lexicale puisque pour 
de tels roots l'on se retrouve ave~ uneou 
phsieurs voyellations lexicales 
suppldmentaires, cn l'occurrence ici aver" 
.o• / a o aet la voyellation lexicaJe 
• o• • 
suppldmentaire / a o an. Une ambigurt~ 
lexicale ~< artificieUe, est ahsi cr~Ae par 
l'apparition d'un schdma vocalique/-chant 
la marque du tanwin. 
Ces distorsions restent en fa/t assez marginales. 
Pour le traitement informatique de la voyellation 
elles sont sans consdquence. II n'y a que le taux 
d'ambiguRd lexicale moyen qui est tr6s 
Idg6rement amplifid an ddtriment de cclui de 
l'ambiguitA casuelle. Le tableau suivant donne 
prdcisdment les comptages relatifs aux entrdcs 
du dictionnaire qui donnent lieu ~ des schdmas 
vocaliques ou casuels << impropres ,. 
Mots 
du type 
Cette representation n'est pas comme on le volt 
sans cons~uence sur les comptages. De fafon ,sjb,.o 
fort simple, elle ne retient au compte des 
voyelles casuelles d'nne graphie que l'ensemble 
de ses seules voyelles finales. Simpl/cit~ done, 44 
mais au double d6triment : 
Voyellation Voyellation Nb mots 
lexicale lexicale du dict. 
Jo w~ (en plus) 
Wew (en plus) 
35 
744 
14071 • • e • • a* 
• _- 44502 
43747 
(en rempla- 
cement) 
• • ,in 
s 29750 
• • • 680 
Les cas qui conduisent a des comptages 
16g6rement erron6s an regard de la d6finition 
lln~uistique restent done en proportion 
relativement peu nombreux : an total 30 529 sur 
les 503 000 entr6es que compte le dict.ionn~ire, 
soit 6% du nombre total des mots non voyell~s. 
Et si l'on ne devait s'int&esser qu'aux seuls 
mots ayant re@u une voyeUation lexicale 
suppldmentaire ayant pour conshtuence d'en 
augmenter l'ambiguitd, nous constatons que leur 
hombre est ndgtigeable : 35 + 744 soit au total 
779, ce qui donne en proportion 0,15%. 
Le codage retenu n'introduit done au regard de 
ce qui aurait ~ souhaitable de comptabiliser 
qu'une tr~ ldg~re distorsion dent les 
cons~uencos dens la earact~risation 
quantitative du probl~me de la voyeUation ne 
sont pratiqucment pas visibles. 
D'autre part, il convient de remarquer que les 
comptages qui en db:oulent livrent au fond la 
v6ritable mesure des difficult~s que nous aurons 
r6soudre rant il est vrai qu'il nous faut bien 
#Be oo~ lever l'ambiguRd ~, ~'~-/~, ~,~-(maqohay / 
maqohany). 
IL AmbiguYtd vocalique 
If. 1. Mesure en d~finiaon 
Nous donnons dans le tableau suivant les 
comptages li~s aux voyellations lcxicales et 
casuelles des 503000 cilla'des du diO:ionnaire de 
formes utilis6. Les deux premieres lignes livrent 
respectivement les proportions d'entr~es non 
ambigues/ambigu~s au regard de la voyellation 
lexicale, casuelle et globale. La demi~re ligne 
donne le nombre moyen de voyeUations 
lexicales, casuelles et globales par entr6e. 
Di~'~ionnaire 
non ambigus 
ambigus 
nb moy. de 
voy. par mot 
voy. 
lexicale 
56% 
44% 
2,08 
voy. 
casuelle 
57% 
43% 
2,5 
voy. globale 
44% 
56% 
2,9 
II.Z Mesure en usage 
Le tableau suivant livre les comptages similaires 
effectu6s sur nn texte d'environ 23000 tmit~s 
morphologiques 3 avec r~p6"tition. Le hombre des 
voyellations associates it une forme agglutin~e 
6tant obtenu par la combinatoire des 
voyellations associ~.s aux diff~r~tes unit~s 
lexicales qui la constituent. 
Textes 
'non ambigus 
ambigus 
nb moy. de 
voy. par mot 
voy. 
lexicale 
25,6% 
74,4% 
6,2 
voy. 
casuelle 
10,1% 
89,9% 
5,07 
roy. 
globale 
9,5% 
90,5% 
II,S 
Parco que sous l'ansle de la solution 
informatique, le problhne de la voyeUation est 
analogue ~ colu/ do la r~.c~mtuafion 
automatique, nous donnons dam les d~x 
tableaux comparatifs suivants les comptages 
s/mfla/res relatffs ~ l'acc~tuafion du fi'anga/s. 
IL 3. Me.sure en d~finltlon 
DiCdonnaim 
non ambigus 
ambigus 
nb moy. de 
voy. par mot 
Franrdds 
96% 
4% 
1,04 
Arabe 
voy. voy. 
lexicale globale 
56% 44% 
44% 56% 
2,08 2,9 
45 
3 Nous d/st/nguons les unit~s lexifales, entrf~ du 
dicfionn~ires, des unit~s morphologiques, ch~Tnes 
de caract~res comprises entre deux s~atears forts 
dans un texte, lesquelles sent constitutes d'unit~s 
lexicales agglufin~.s. Les proclitiques, les formes 
simples et les enclitiques sent des unit~ lexicales. 
Les forints simples lorsque isol6:s ~n.¢ le textc ct 
les formes agglutin6~s sent des uait~s 
morphologiques. 
II.4. Mesure en usage 
Textcs 
non ambi~m 
ambil~s 
nb moy. de 
roy. par mot 
72% 
28% 
1,3 
Arabe 
Iw. Iv+. 
25,6% 9,5% 
74~4% 90t5% 
6,2 11,5 
Cos tableaux sugg~rcnt a priori que voyeller est 
sans doutc plus difficile quc r~acccntuer. Ne 
paxt-on pas en effct d'une situation bicn plus 
ambigu~ dans le eas de l'axabe : dam le lexique 
44% des mots ou m~me 56% si l'on prcnd cn 
comptc la voyelle casuelle sent ambigus, centre 
sculcrnent 4% pour le franf~is. En outrc, alors 
que l'ambigui)h fait porter au mot arabe 2 ou 3 
voydlations en moyenne, cUe n'attribue pour le 
fran~ds quc 1,04 accentuations cn moyenne. 
Les m&ues mesures effcctu~cs en usase 
accentuent encore plus la diffdrencc : 75% (sans 
voyellations casuclles) / 90% (avcc voyellations 
casuelles) des unit~s morphologiques consfituant 
un tcxtc axabe sent cn effet ambigu~s centre 
sculcmcnt 28% pour le franctais. LA aussi avcc 
de surcroh pour l'axabe un niveau d'ambiguith 
ncttcmcnt plus ~lev~ : de 6,2 (sans) / /~ 11,5 
(ave.c) voyeUations pax mot en moycnne centre 
1,3 accentuations cn moycnne pour lc francois. 
IIL Voyellation automatique 
Lo processus de la voyellation automatique est 
dam son prin¢ipe assez simple. Tout commo 
pour la r~accentuation, il op~re ¢u deux temps. 
Dam un premier temps il associe/~ clmque mot 
rctcnu l'ensemble de sos voyeUations 
potentiellcs. Dam un second temps, ct au travers 
de toutes Its ~mpes ult~rieures du traitement, le 
processus tente de r&hire le nombre de ¢es 
voyellations potentielles, la r~solution ~ant 
obtcnue s'il n'cn subsiste qu'une settle. 
III.1. Quelles connaissances pour la 
voyellation 
La voyellatiort, cornme la r~x, cntuation, 
ndccssito la raise en oeuvre de connai.csanccs de 
tous les niveaux : morphologique, syntaxique, 
s&uantique, pragmatique. Le tableau suivant 
donne des excmples earact~ristiques de 
situations off l'ambiguit~ vocalique (lexicale et 
easuelle) n&~essitc pour sa rdsohtion de tdles 
connnissnnces. 
46 
Nature des 
connaissances 
requises 
Morphologique 
Syntaxique 
Exemples 
Oj_'j"-" ,~l ,¢S{) 
Ces roots ne re~ivent ~ l'issue 
du traitemcnt morphologique 
qu'une seule voyellation, ns 
sent done d'cmbl~ voydlds. 
Nous nous inthressons ici a la 
voycllafion dc l'unith morpho- 
logique ~.~ +. CaUe-ci est 
constitu6e de l'unith lcxiealc 
a~.-, ~ laqucU¢ cst agglutind 
l'cnclifiquc o. Lc dictionnaire 
donne pour .~u~ l es voycU.ations po n. encs 
{,.. ,.. ,;. , • 
.,.. ,.. ,,.},ctpour0{ ,}.La 
syntaxc op~re dans lccas 
pr6scnt /t dcux niveaux. 
D'abord au niveau de la forme 
agghtin~e en ~'laninant les 
combinaisons illicitcs : 
Ca qui conduit d~j~ ~ uno 
r~hction de l'm, nbisu~th. 
Ensu/t~ au n/veau des relations 
syntax/ques pour no mtafir an 
compto de o~ ~ que h 
voydlation associ~c /~ son dmt 
de verbe + pronom po~-vcrbal, 
soit la fonne voydl~c o+a~u,. 
S6mantique 
Pragmafique 
A l'issue de l',~qape syntaxique, il 
I subsiae pour ot/_l v el ons 
poten enes :{ ,,, 
ur {, II , : {"}+ ' 
}. 
C'nst la compatibilit~ s~nantique 
qui peut aider ici A retenir la settle 
comb~nalson licite ~=,~J'~ ~f'ji 
A supposer que les ~-~apes 
syntaxique et s~mtique aient 
jou6 lenrs r61es ca 6 "laninant mutes 
les voyellations potenfielles 
incompatibles ou impropres au 
¢ontexte, il subsistera l~ur les 
mots +t ~l.ll et at denx, 
voyellations dormant lien /! deux 
lectures diff6rentes : i 
Le choix de I unc ou de I autrc 
lecture no pent ~e effectu6e ici 
qu'au moyen de cormaissances 
extm-linguistiques, en l'occur- 
fence celles qui privilCgient ici la 
prerr~6re lecture. 
Dans le travail pr~sentd ici nous explomns les 
contributions au traitement de la voyellation de 
l'analyse morphologique d'une part, et de 
l'~iquetage gmnmmtical d'autre part. Nous 
tentons d'en 6vaJuer les apports en termes de 
r6solution ou sinon de r&lu~don de l'ambiguR~ 
vocalique. 
ILL2.. Analyse morphologique 
A proprement parler, l'analyse morphologique 
ne fait clue mettre au jour les diverses 
vocalisatious potenfielles des mots d'un textc. Le 
probRme est trivial lorsqu'il s'agit de mots 
simples : les voyellations lexicales ct casuelles 
sont dircctement ~livr~es par le double 
dictio-na;re non voyell~/voyelld. Le mot est 
ambigu ou non ambigu d'cmbl~, et s'il est 
47 
ambigu, l'analyse morphologique ne peut lien 
faire de plus. Pour un texte donn6, c'est 
statistiquement le cas pour environ 52% des 
roots qui le composent 4. 
Le probRme est bien plus complexe lorsqu'il 
s'agit de formes agglutin~s, soit pour 58,27% 
des unit~ qui composent un texte. Darts ces cas, 
ranalyse morphologique se dolt de reconnaZtre 
routes les scgnumtations potentieUes licites et 
associer A toutes les ur~t~s lexicales qui en sont 
issues lenrs diverses voyellafions potenficlles. Or 
la reconnaissance des segmentations licites n'est 
pas ind6pendante de la voyellation des unit~s 
ainsi segment~es. L'61imination des 
segmentations illicites repose en effct sur 
l'ernploi de r~gles de compatibilit6 qui font appel 
aux propri~s linguistiques des unit~s 
segmentales pr~cis~ent voydl6es. Le rejet est 
prononcd lorsque pour une ddcomposition en 
proclitique + forme simple + enclitique donn~e, 
routes les comb!nalsons issues des divcrses 
voyellations respectives de ces ~l~ents sont 
d6clar~es incompatibles. Bien stir, ce processus 
n'aboutk pas toujours. Et c'est pr~is~nent 
lorsqu'il n'aboutk pas qu'il y a parfois r~lucfion 
voire r~solution de l'ambiguR~ vocalique. 
C'est ce processus qui conduit par exemple pour 
tree unit~ comme ,+ -~: / bktb A conserver la 
d&;omposition ,+- -¢" + ~. I b + ktb avec 
respectivement les senles possibilit~s vocaliques 
suivantes : 
pour ~ {.}lb{i},ctpour~{ , , , / 
{aoi, aoin, uui, uuin}, les a.utx~es possibilit~s 
4 52% de formes Slmples contre 48% de formes 
agginfin~s sont les proportions exactes mesur~ 
sot un texte d'environ 23000 unit~s pr~lablement 
an~/s4~es A la main. Au regard de l'~n~lyse 
morphologique ess proportions eh~nSent 
l~g~ement : la dis~mlns~on ~mit~ ~mn|es / 
unit~ agglutin6es n'6tant plus faites, il y a 
introduction d'une tmisi~me classe d'unit~ cetles 
qui sont potentiellement A la fois ~mples et 
aggl-tln~es. Les comptages donnent 41,71% de 
formes simples, 41,63% de formes agglulim~es, et 
16,64% de fonnes ambigues. 
{",",-,"Y} / {u~, aIo, aAa, uia, aaa} 
ayant ~ ~ "li~es. 
La contribution de l'analyse morphologique au 
processus de voyellation ne se limite done pas 
settlement it l'attribution des diverses 
vocal/sations potentieHes. Au travers de 
l'analyse des formes agglutin~es, die entame le 
processus d'dimination de certaines 
voealisations potentielles, done de r6duction de 
l'ambigtat~ voeal/que, la rdsolution ~'tant m&ne 
atteinte dans eertain.~ Cas. L¢ tableau suivant 
donne pr~eis~ment tree ~vahation chiffr~e de 
cette contribution. 
Textes voy. voy. voy. 
lexicale casuelle globale 
Avant applications r~gles de compatibilit6 
non ambigus 25,6% 
ambigus 74,4% 
nb moy. de 6,2 
voy. par mot 
10,1% 9,5% 
89,9% 90,5% 
5,07 11,5 
Apr& applications r6gles de eompatibilit6 
r&olus 
ambigus 
nb moy. de 
voy. par mot 
29,1% 
70, 9% 
4,5 
12,6% 
87,4% 
3,9 
10,9% 
89,1% 
7,5 
Relatif it l'analyse d'un texte d'environ 23000 
unit~s compl~tement non voyell~es, la ehadda 
~tant en partieulier elle aussi absente, ee tableau 
montre ee qu'apporte en sus l'analyse des unit~ 
agghtin&s. Pour la voyellation globale par 
exemple, l'on passe de 9,5% d'unit~s simples 
reconnues non ambigues d'embl&, it 9,5% + 
1,4% d'unit~s simples et agglutin~es r~sohes, 
soit 10,9%. On observe en m~me temps une 
diminution substantielle du degr6 de l'ambiguit6 
vocal/que : le hombre moyen de voyellations 
potentielles pour une unith morphologique passe 
de 11,5 a 7,5. Les colonnes dormant les r~sultats 
l/6s it la voyellation lexicale et ~ la voyellation 
casuelle se l/sent de la m&ne fa~n. On observe 
l~ aussi les m~mes tendances. 
IlL& Etiquetage grammatical 
L'~quetage gammatical n'est pas indZ~ndaat 
de la voyelhtion. En effet, les cheminements 
s~ques qu'il construit sont l/& aux 
,Jtiquettes grammaticales potentielles qui sont 
assoei&s non pas aux roots non voyell& mais 
aux diverses instaneiations voyell&s potentielles 
de ees derniers. Les vocalisations sont done 
intimement li&s aux ~,tiquettes grammaticales, et 
d~s lors, l'ambiguith vocal/que ~ l'ambiguR~ 
grammaticale. Si done les vocalisations sont une 
condition it la d~÷termination des diverses 
~quettes grammaticales potentielles d'tmmot, 
inversernent, la r&hction de cet ensemble 
d'~quettes n'est pas sans cons&luence sur la 
d~nition de l'ensemble des vocalisations 
potentielles de d~vart. 
La question est de savoirjusqu'a quel point la 
r6duction ou, mieux, la lev& des ambiguit~ 
grammaticales contribue-t-elle ~t la r&hction ou 
r&ohtion de l'ambiguit~ vocalique. 
Pour r~pondre a cette question, nous nous 
sommes l/vr& a deux exp6rimentations. 
Dam la premi&e, la situation ehoisie est id~ale. 
C'est celle o6 routes les ambiguit& 
grammaticales sont correctement lev~es. Darts la 
seconde, les conditions exp6rimentales sont 
normales, celles o/1 l'~dquetage est automatique 
et done non compl~Leraent r&oh. 
48 
Textes voy. voy. voy. 
lexicale casuelle globale 
Apr& &iquetage manuel 
76,5% 98,9% 
23,5% 1,1% 
1,39 1,01 
r~solus 
ambigus 
nb moy. de 
voy. par mot 
r~sohs 
ambigu$ 
nb moy. de 
voy. par mot 
76,3% 
23,7% 
1,4 
Apr~s ~tiquetage automatique 
72,1% 86,6% 68,5% 
27,7% 13,4% 31,5% 
1,46 1,14 1,51 
Commentaires 
Nous remarquons tout d'abord que clans la 
premi&e exp6rimentation, quand bienm~ane la 
levee des arnbiguit~s grammatieales est 
enti&ement rdalisde, la r6solution des ambigtat~ 
lexicales n'est obtenue que pour 76,5% des 
roots, tandis qu'elle plafonne /t 98,9% pour 
l'ambiguitd casuelle. Ces performances 
repr~sentent en fair les seuils qui ne pourront 
jamais &re depass~s au sortir de l'~iquetage 
grammatical. 
Les r~sultats affleh~s dam la seconde partie du 
tableau sont done /L ~valuer ~ l'aune de ees 
seui\]s. 

Bibliography
Fathl DEBILI, Christian FLUHR 
Modularit~ et construction d'informations 
linguistiques pour une approche industrielle du 
traitement automatique du langage naturelo 
Colloque \]nformatique et Langue naturelle, Nantes, 
12-13 octobre 1988. 

Marc EL-BEZE, Bernard MERIALDO, 
B~n~dicte ROZERON, Anne-Marie 
DEROUAULT 
Accentuation automatique de textes par des 
m~thodes probabilistes, Technique ct science 
informatique N%/1994. 

Djamal Eddine KOULOUGHLI 
Grammaire de l'arabe d'aujourd'hui, Pocket- 
Langues pour tous, 1994. 

Michel SIMARD 
Rdaccentuation automatique de textes franfais 

Emna SOUISSI 
Etiquetage grammatical de l'arabe voyell~ ou non, 
Th~se de doctorat, Universit~ de Paris 1/11, Octobre 
1997. 
