Etiquetage grammatical de I'arabe voyelM ou non 
Fathi DEBILI - Emna SOUISSI 
CNRS - CELLMA / IRMC 
20, me Mohamed Ali Tahar - Mutuelleville - Tunis - Tunisie 
T61. (216.1) 584 677 - Fax : (216.1) 797 376 
Courrier dlectronique : debili@ehess.fr 
R6sum6 
Nous abordons le probl~me de l'~tiquetage grammatical 
de l'arabe en reprermnt les m~thodes couramment utili- 
s~es, lesquelles sont fond6zs sur des r~gles de succession 
de deux ou trois ~tiquettes grammaticales. Nous montrons 
que l'on ne peut pas reprendre tels quels les algorithmes 
pr~onis6s pour le francais ou pour l'anglais, la raison 
~tant que l'arabe pose deux probl6mes : l'absence des 
voyelles et l'agglutination des enclinomdnes dont les 
segmentations potentielles induisent une combinatoire qui 
conduit fi r&~crire partiellement ces algorithmes. 
Les r6sultats obtenus pour l'arabe voyell6 sont 
comparables tt ce clue l'on obtient pour le francais ou pour 
l'anglais. Pour l'arabe non voyell6 par contre, les 
performances chutent assez sensiblement. L'explication 
r6side pr6cis6ment dams l'absence des voyellations et 
l'agglutination qui conduisent ~ une surmultiplication de 
l'ambiguRd granmmticale de ddpart. Pour amdliorer ccs 
rdsultats nous ddfinissons un nouveau jeu d'dtiquettes 
grammaticales qui amine fi une diminution de l'ambiguit~ 
de ddpart et~ un dlargisscment de la portde des r~gles de 
succession. Ces dtiqucttcs sont assocides aux formes non- 
rninimales de l'arabc telles clue rcncontrdes dams les 
tcxtes. II y a dams cc cas amelioration sensible, les 
rdsultats atteignant des sculls de rdsolution de 97% pour le 
voyclld et de 91% pour le non voyelld. 
1. Introduction 
Dam une tr6s large proportion, Ivs roots sont 
grammaticalemcnt ambigus. Par exemple ferme est 
hors eontexte substantif, adjectif, verbe ou adverbe. 
En arabe, ,~- ~ (kataba, dcrire) eat verbe dt la fl'= 
personne du singuBer de l'accompB actif La forme 
non voyelMe correspondante ,. --< (lab) admet par 
contre les cinq dtiquettes granmaaticales potentielles 
suivantes : 
1. Substantif masculin pluriel (:. ~ kutubun " les 
livres) 
2. Substantif masculin singulier (*.. ~" katbun: un 
 cr t) 
3. Verbe ¢~ la 3*" personm masculin singulier de 
l'accompB acaf (.~..J~ kataba • il a dcrit ou 
kattaba • il a fait ~crire) 
4. Verbe d la 3 ~=" personm masculin singuBer de 
1 'accompli passif(',.~ kutiba : il a dt~ dcrit ou ~" 
• s 
kuttiba, forint factitive correspondantc) 
5. Verbe dl l'impdratif 2 ~"~ personne masculin 
singulier ('.~" katfib : fais dcrire) 
auxquelles, en route rigueur, fl conviendrait d'ajouter 
les &iquettes associ6es aux deux autres formes 
voyelldes potenfielles ,. 7+,.3 ka+tabba (comme 
trancher) et .~+,.3 ka+tabbin (comme 'tranchement'). 
2. Ambigu\[td grammaticale : comptage en 
ddfinition 
Lc tableau suivant donne pour l'arabe les proportions 
de roots grammaticalemcnt ambigus mesur~es clans les 
dietionnaires de formes voyell6 et non voyelIE 
Dictionnaires Nombre total Nbr moyen 
arabe$ d'UL d'6Uq~mffi~L 
Voy¢ll~ 1 047 873 4,30 
Non voye~ 502 998 6,42 
UL : Unit~ Lex/cale. 
Fig. I. Ambigult~ grammat/cale dans les dictionna/r~ arabes 
La lecture de ce tableau est simple. 44,36% des mots 
voyell6s sont ambigus et acceptcnt 4,3 ~iqucttes 
grammaticales en moyenne. Ces chi~es passent 
respectivement/l 79,4% et 6,42 lorsquv mesur6s sur Iv 
non voyell6. Retenons pour l'instant que la difference 
UL non UL 
mu~ mnU~qm 
55,64 % 44,36 % 
20,60 % 79,40 % 
16 
est notable ; et voyons ce que ces mesures donnent sur 
les sous-lexiques associds a un texte voyell6 d'abord, 
puis ddvoyell~, les informations grammaticales 
provenant darts le premier cas du dictionnalre voyelld, 
et dans le second cas, du dictionnaire non voyelld. 
Sous-lexiques 
arabes 
Nombre 
total d'UL 
Texte non voyell~ 
Texte vo)~//~ 8 321 
7 303 
UL non IlL Nbr moyen 
mbigu~hJ mnbil~t~ d.~i¢l~ 
33,54 % 66,46 % 9,14 
4,96 % 95,04 % 12,48 
Fig. 2. AmbiguR~ grammaticale associ6c au vocabulaire d~n 
texte arabe : comptage en dAfmition. 
Commentaires : 
Nous remarquons 1/~ aussi que la version non voyen6 
est plus ambigu6 que la version voyell~e. L'on s'y 
attendait bien stir. Mais le plus notable est que cette 
ambiguRd est plus importante encore que celle qui est 
observde dans les dictionnaires gdn~raux. Pour le 
voyelld on passe de 44,36% ~t 66,46% et de 4,3 fi 9,14 
dtiquettes en moyenne. Pour le non voyell6, de 79,4% 
95,04% et de 6,42 ~ 12,48. Enrdsumd, les sous- 
lexiques voyelld et non voyelld issus d'un texte donnd 
sont plus ambigus que les dictionnaires gdndraux 
voyelld et non voyelld associds ~ la langue. 
Plusieurs factcurs semblent concourir pour expliquer 
ce constat. Le plus important est l'inversion des 
proportions noms/verbes que l'on observe lorsque l'on 
passe des dictionnaires aux sous-lexiques issus de 
textes, ainsi que les deux tableaux suivants le 
montrent. L'on passe en effet de la distribution 29% 
de noms/ 71% de verbes dans le dictionnaire voyelld 
la distribution 60% / 38% dans le lexique issu du texte 
voyelld. Pour le non voyelld on passe respectivement 
de 43% de noms/ 60% de verbes ~ 70% noms / 50% 
verbes (la somme des proportions n'est pas dgale 
100 ; la raison est qu'une m&ne entree est plusieurs 
lois comptabilisde lorsqu'eUe est ambigu6, c'est A dire 
lorsqu'elle est ~ la fois nora, verbe et/ou particule). II 
y a doric plus de verbes clue de noms dans les 
dictionnaires gdndraux, et inversement, plus de noms 
que de verbes dans les sous-lexiques issus de textes, et 
ce dans les deux cas voyell6 ou non voyeUd. Or, 
pr~cis~ent, les noms sont en moyenne plus ambigus 
que les verbes Oe dictionnaire voyeUd donne 11,63 
~iquettes en moyenne pour un nora contre 1,32 
6tiquettes pour un verbe, et clans sa version non 
voyelld, 11,68 6tiquettes en moyenne pour un nom 
contre 2,36 en moyenne pour un verbe). 
Dictionnaires UL Noms Verbe$ Partlcui~ 
Voyelld 1 047 873 302 260 745 427 186 
29% 71% 
Non voyell~ 502 998 160 214 992 
43% 
304 014 
60% 
Sous-lexiques UL 
Texte voyelld 8 321 
Texte non roy. 7 303 
Noms Verbes P~a~h= 
5 024 3 173 124 
60% 38% 1% 
5 105 3 626 127 
70% 50% 2% 
Ces rdsultats exhibent d'ores et d6j/t des niveaux de 
difficult~s bien plus ~lev6s pour l'arabe non voyell6 
que pour l'arabe voyelld, l'arabe voyell6 o,'Y,~t hi- 
m&he des seuils d'ambiguRd sup6rieur/t ceux du 
franfais. A flue comparatif, les tableaux suivants 
donnent les comptages analogues relatifs au fiznc~ds 
accentu6 et non accentu6 z. 
Dictionnaires Nombre UL non UL 
franfais total d'UL amblgu~ unbigu~s 
D~accentu¢~ 293 573 81,26 % 18,74 % 1,20 
ID~t. non accentu~ 282 033 80,58 % 19,42 % 1,21 
Fig. 3. AmbiguRd gramrrmticale dans les dictionnalres f2~rt~s 
Nbr moyon 
d'6Uquettes/UL 
Sous-lexiques 
franfals 
Texte accentu~ 
Texte non accenmd 
Nombre UL non UL 
total d'UL onblguh ambiguh 
15 065 63,75 % 36,25 % 
14 235 59,75 % 40,25 % 
Nbr moyen 
d'~tiquettes/UL 
1,31 
1,38 
Fig. 4. Ambigu~ gramnmticale associ~e au vocabulaire d~m 
texte frangais : comptage en d~fmRion. 
3. Ambigurtd grammaticale: comptage en usage 
Pour mieux circonscrire encore los contours du 
probl~'me de l'~quetage de l'arabe, considdrons 
maintenant les meznes mesures effectm~es eeRe fois sur 
des tex-~s. Ici les comptages tiennent compte de la 
rdpdtition des diverses uniths lexicales qui composent 
un text. S'agissant de fr~uences en usage, ces 
comptages offrent une meilleure apprdciation du 
niveau de difficult~ de la t~che d'~'tiquetage. 
17 
Le tableau suivant donne pr6cis6ment les proportions 
de roots grammatiealement ambigus mesur6es dam un 
texte voyell6 et clans sa version devoyeU&. 
Texte at'abe 
Texte non voyeUd 
Nombre UL non UL Nbr moym 
totald'UL mnbiguh ~ttbigtlh d%ttlq~ 
37 402 37,98 % 62,02 % 5,63 
40 485 24,15 % 75,85 % 8,71 
Fig. 5. AmbiguR6 grammaticale associ& au vocabulaire d~u 
texte arabe : comptage en usage. 
Commentaires : 
Compar~ au tableau donnant les taux d'arnbiguR6 
mesur6s sur les sous-lexiques issus de ce m&ue texte 
d'expdrimentation \[cf. fig. 2\], nous constatons une 
diminution des proportions des mots ambigus : 
62,02% avcc rdp6tition (en usage) \[respectivement 
75,85% pour le non voyell6\] centre 66,46% sans 
rdpdtition (en ddfinition) \[respectivement 95,04%\], 
avec en m~me temps une rdduction du hombre moyen 
d'dtiquettes par mot : 5,63 en usage centre 9,14 en 
d6fmition pour le voyelld, et 8,71 centre 12,48 pour le 
non voyell6. La r6pdtition textuelle semble done puiser 
&vantage dans le non ambigu que dans l'ambigu,/t 
l'invetse de ce que nous observons pour le francais, 
ainsi que le tableau suivant le sugg6re lorsqu'il est 
compar6 au tableau li6 au m~me texte donnant les taux 
d'ambiguRd mesur6s en d6finition \[cf. fig. 4\]. 
Texte frangais Nombre 
total d'UL 
Texte accentu# 427 560 
Te~cte non accent. 427 560 
UL non UL Nbr moyen 
mbigu~ mbiguh d'6tiquettm/UL 
39,19 % 60,81% 1,86 
36,55 % 63,45 % 1,88 
Fig. 6. Ambiguit~ grammaticale associ6e au vocab~hLre d~m 
texte fran~fis : comptage en usage. 
Il reste que m~ae si la r6p6fition textuelle conduit/L 
plus d'ambiguR6 dans le cas du franqais ¢t/L moins 
d'ambiguR6 dans le cas de l'arabe, fl n'y a pas 
rapprochement des niveaux de difficult6 : l'6tiquetage 
de l'arabe part d'une situation manifestement plus 
ambigu6, aussi bien en terme de proportion (75,85% 
des mots sent ambigus dans un texte non voyell6 alots 
qu'ils ne sent que 60,81% a l'&re dans un tex~ 
accentu6), qu'en terme de nombre moyen d'6tiquettes 
par mot (8,71 pour l'arabe centre 1,86 pour le 
fran s). 
18 
4. Etiquetage grammatlcal 
Les mots qui composent un texte voyell6 ou non 
voyell~ sent done 6minemment ambigus. Comment en 
contextc faire le ben choix. Autrement dit comment 
associer aux diffdrents mots qui composent un texte 
l'6tiquette qui leur convient compte tenue du contexte 
off ils occurrent. Tel est Iv but de l'dtiquctage 
grammatical, probldmatique posde d6s la fin des 
ann&s 60 \[cf. bibliographic\]. 
Le principe de r6solution le plus couramment utilis6 
fair intervenir des r6gles qui portent sur les 
successions pcrmiscs ou non de deux, trois ou n 
6tiqucttcs grammatieales. Parce que ne permcttant pas 
de r&oudrc l'ambiguR6 dans tout les eas, ces r6gles se 
sent vues adjoindre des poids statistiques afin de 
choisir les r6solutions les plus probables. Ces r6gles 
pcuvent &re lues de plusieuts fa~ns : on pent dire par 
cxcmple qu'apr6s teUe 6tiquctt¢, ce sent telle ou teUe 
6tiqucttes qui penvent suivre ; mais si l'on consid6re la 
demi6re 6tiquctt¢ on pent 6gMcment dire qu'eUe 
d6pcnd de ceUes qui la pr6c6dent. C'est ainsi la 
formulation probabilist¢ utilisant les sources de 
Markov comme mod61e qui s'est tr~s vite rdpandue 
d6s la fin des anndes 70 \[cf. bibliographic\]. 
Force est de constater cependant qu'au plan 
international, les r&ultats relatifs /t l'6tiquetage 
grammatical n'atteignent que diffcilement la barre des 
95% de taux de reconnaissance (99% pour l'anglais z, 
et 98% pour le francais 3 sent des performances 
obtenues dans des conditions de laboratoire). On ne 
parvient pas, en effet, /L d6passer de facon 
substantielle et sur de tr6s larges corpus cette barri6re 
de performance. IIne s'agit pas, bien entendu, de nier 
les potentialit~s d'applieations auxquelles ont pu 
conduire les recherches sur l'6tiquetage grammatical, 
quand bien m~me dans la limite de ces performances. 
II reste ClUe cette barri6re flni par poser probl6me. 
Dolt-on faire l'aveu d'un 6chec : le probl6me est bien 
pos6 mais la solution est difficfl¢/L trouver ou n'est 
que partielle pour l'instant, ou est-ce l/l le signe d'un 
probl6me real pos6, aucune solution compl6te n'dtant 
/t esp6rer d6s lots. 
A y regarder de plus pr6s, la situation peut rn~me 
paraitre plus inquidtante encore. En effet, 95% de 
bonncs reconnaissances correspond en fait/L une 
vision, nous dirons, optimiste des r&ultats, puisqu'eUe 
occulte le fair que bien des mots dans la langue sent 
d'emb16e non ambigus. Pour le fi-anc#is par exemple, 
80% des mots sent non ambigus clan.~ le lexique. Pour 
l'arabe voyeU6, 55,6% des mots sent non ambigus 
dans le lexique. Cette proportion passe/t 38% lorsque 
calcul~e sur des corpus voyeHds, elle est de 52% dans 
un corpus fxanf~is ~. Une vision plus precise dos 
performances amine par cons&luent /~ des r~sultats 
bien plus sdv~ros puisque los ambiguR~s correctement 
rdsolues pour le francois ne reprdsentent plus alors que 
89,5% (proportion des mots correctement r~solus 
rapport~ aux seuls roots ambigus) dans ce cas. C'ost 
done dire, d'une fagon gdndrale, que los rdsultats 
obtenus pour l'dtiquetage sent pour l'instant assez 
dtonnamment faiblos. 
Mieux encore. L'on constate que dans la tr~s fiche 
bibliographie relative ~t l'~quetage, qu'outm los 
travaux qui y ont dtd proprement consacrds, on trouve 
un tr~s grand nombre de travaux qui se sent fon~s 
sur los rdsultats de cet ~quetage alors mSme ClUe 
celui-ci restait ct reste encore non enti~rement rdsolu. 
C'est dans ce contexte g~ndral et avec ces 
interrogations qu'est abordd ici le probl&ne de 
l'dtiquetage grammatical de l'arabe voyelld ou non. 
Les ddfis sent multiples : ddflnltion d'un jen 
d'dtiquettes grammaticalos pour l'arabe tout d'abord. 
Voyellation ct agglutination qui rendent los 
algorithmiquos ddveloppdes pour le fi'anc, ais ou pour 
l'anglais inopdrantes telles queUes ensuite. Et bien 
entendu cette farneuse barridre de performance: 
allons-nous rdussir/~ faire mieux, aussi bien, ou moins 
bien que 95% de bonnes reconnaissances ? 
5. Etiquettes grammaticales : un problbne ouvert 
Le probl~me de la ddfinition des ~iquettes 
grammaticales reste en fair ouvert et actuel. C'est que 
le probl~me est tr~s difficile. I1 suffit, pour s'en ren&e 
compte, de comparer los diverses listes d'~¢iquettes 
grammaticales retenues pour le franq~is ou pour 
l'anglais, pour constater qu'eUos sent routes 
diffdrentes. Qu'il arrive m~e qu'au sein d'une re&no 
~luipe on entretienne, pour une m~me langue, 
plusieurs listes d'~tiqucttos grammaticalos ~. Que de 
surcroR, dans tous los cas, los crit~ros formels qui y 
conduisent ne sent nuUement enti~rement d~crits, mais 
seulement au mieux rdsumds. 
Quoiqu'extr~,'mement diffdrentes, ces listes ont en 
commun entre elles qu'elles sc fondent n~unoins sur 
le m~me hdritage : los parties du discours d'une part, 
et l'hypoth~se distributionneUe selon laqueUe les mots 
obdissent a des r~gles d'agencement d'autre part. 
En route riguenr, fl ost ditto/Iv en fait de trouver deux 
distributions identiquos pour deux mots cliff, rents. 11 
reste que sir on observe de fa~on grossi~re los 
distributions et ClUe l'on s'attache davantage aux 
rcsscmblancos qu'aux differences, alors force est 
d'admcttre qu'fl y a bien ~mergence do contextes 
distributionnels (quasi)identiquos, ct done de classes 
de mots. C'ost ainsi que tr~s rite, fl se d~gage un 
certain nombre de classes consensuellos comme par 
exemple la classe dos hems, des articles d~finis, etc. 
De sorte que, selon los ouvragos scolairos, l'on 
d~nombre pour le fi-an~ais par exemple de dix s a 
quarante classes grammaticalos. 
11 ne parak plus d~s lors dtonnant que los 
informaticiens linL, uistes aient construit des ensembles 
de classes grammaticales dent la car~t~ est 
variable, allant de la diT~inc/t quelquos centaines. En 
effct, la nature des algorithmos d'dtiquetage d'une 
part, et la recherche de la performance d'autre part, a 
conduit los chercheurs ~ observer avec plus d'acuit~ 
los contextes distributionnels. Or, plus cette acuit~ 
dtait grande, plus grand dmit le hombre d'~quettes 
grammaticalos ddfmios. C'est ce qui explique que la 
plupart des syst~mos utilisent plus de 100 ~qucttos 
grammaticales. 
Si done pour le fran~s l'on disposait d'une approche: 
distributionnelle en l'occurrence, ct d'un stock de 
d~part : quelques diT~irtes d'&iqucttes grammaticalos, 
de quoi disposions-nous pour l'dt.iquctagc de l'arabe ? 
La tradition grammatica\]e arabe nous l~gue en faJt un 
ensemble d'~quettes morphologiquos d'une part 
Lparticipe acfif, par~cipe passif, nora verbal, ... 
/ ... ,j, ~- ,j.~.~l~ -~ ,~L..~I ~_..i\], et un ensemble 
d'dtiqucttes syntaxico-sdmantiquos, d'autre part 
\[verbe, sujet, compl~ment d'objet, ... / 
... ,,..~ J,..~ ,,p~.a ,,j~\]. Dans le premier cas, Cost la 
notion de sch~ne qui occupe uric place importante, 
dans le second, los notions de fonction et de cas. 
Laissons de c6t~ los dtiqucttes syntaxico-sdmantiques 
dent on peut trouver r~luivalcnt pour le franc,~is ou 
l'anglais et comparons le reste. Alors que los 
~quettes grammaticalos du franc,~is ou de l'anglais 
nous viennent de l'approche distributionnelle avec une 
volont~ clairemcnt affich~ "d'~carter toute 
consideration relative au sens "~, los ~quettos 
h6rit~es de rarabe nous viennent d'une approche o6 la 
s~mmtique c~toie le formel lid /L la morphologie du 
mot, sans r6fdrence/~ la position de ce demier dans la 
phrase. 
19 
Le fait clue l'on air ~ fair¢ ~ des langues/t dominance 
positiennelle d'une part et easuelle d'autre part, n'est 
sans doute pas 6"traager/~ ces diff&ences d'approehes 
ou /t cettc dvolution historique. II falhait, en effot, se 
prdoccuper d'abord des faits les plus marquants. Ceha 
ne si~ifie done pas clue l'on ne puisse se prdoccuper 
du cas da,~ l'analyse du fi'anc, ais ou de l'anghais, et de 
ha position dans l'analyse de l'arabe. 
C'est en s'inscfivant dam cette perspective qu'uae 
lisle d'~quettes grammatieales a ~ d~finie pour 
l'arabe voyell~. 264 6etiquettes ont 6~ ainsi d~finies en 
tenant compte des parties du discours (substantif, 
verbe, adjectif, ...), de ha flexion casuelle des noms 
(nominatif, accusatif, g~nitij), de l'6tat des aortas 
(d~termind, inddtermin~, en annex'ion), de l'aspect 
(accompli, inaccompli, impdrati./), de ha modalit~ 
(indicatif, subjonctif, apocop~), de ha voix (active, 
passive), de la personne (premiere personne 
'locuteur', deuxi~me personne 'interlocuteur', 
troisi~me personne 'absenO ~, et bien stir des relations 
de position relative qu'entretiennent entre eux les roots 
et au del/t, les 6"tiquettes elles-mSmes. L'id~e 6croat 
qu'une &iquette nouvelle n'est erie que si die est 
discernable. 
6. Etiquetage grammatical de l'arabe 
Expdriences prdliminaires : nous donnons ici les 
r~sultats de l'6~dquetage grammatical d'un texte arabe 
voyelld d'abord, puis d6voyelld, darts deux conditions 
expdrimentales : 
I. avee un jeu de 264 &iquettes grammatieales ne 
faisant pas intervenir le genre et le nombre (GN) 
d'une part, 
2. et avec un jeu de 606 &iquettes grammatieales 
faisant intervenir le genre et le hombre d'autre part. 
L'dC.iquetage est fond6 sur l'emploi de r6gles de 
succession binaires et temaires apprises sur le texte 
lui-m~me. Les conditions d'expdrimentation peuvent 
done &re consid6r~es comme idd.ales. Ajoutons cnfm 
que l'~quetage recherch6 n'est pas d~enuinis-t¢. Si 
les r~gles ne s uffisent pas /l elles seules a r6soudre, 
alors on conserve l'ambiguR~, ~ventuellement r~duite, 
mais on ne cherehe pas/t choisir ha r~solution ha plus 
probable paxmi plusienrs. 
L'dvaluation de ha performance de l'6"tiqueteur est 
exprim~e en termes de r~solution d'une part et de 
r6duetion de l'ambigui~ d'autre part. Les tableaux 
suivants donnent les performances mesur~w,s sur un 
texte comptant 25 410 unit~s morphologiques (ehaines 
de earac~res comprises entre deux sdparateurs forts). 
20 
Les comptages portent rant& sur les unitds morpho- 
logiques (UM), rant& sur les unit/.s lexicales (UL) qui 
composent les unit~s morphologiques du fait de 
l'agglutination. Les proclitiques, les formes simples ¢t 
les enclitiques sent des unitds lexicales. Les forrnes 
simples lorsque isol6es dam le texte et les formes 
agglutindes sent des unitZ-s morphologiques. 
7¢~ voye.~ Nombre d'UL Etiquettes / UL R/:solutio~ (%), 
Apr~ AM 37 097 1,91 56,37 
EG urns ON (264) 36 695 1,04 94,84 
EG avec ON (606) 36 688 1,02 97,37 
AM : Analyse Morphologique. EG : Etiquetage Crrammatical. 
7¢xte non voye.//d Nombre d'UL Etiquettes / UL R~lution (%) 
Apr~ AM 40 121 5,33 27,97 
EG sans GN (264) 36 974 1,20 82,31 
36 855 EG avcc GN (606) 1,10 90,74 
Fig. 7. Performauces de l'~tiquetase vues sous l'angle des UL 
Bien clue dam des conditions d'exp~rimentation 
id~les, nous remarquons que ces r~sultats atteignent 
peine la qualit~ des r~sultats a~ch~s pour le franq~is 
ou l'anglais, alors mSme clue ceux-ci sent obtenus 
dam des conditions d'exp~rimentation somme route 
plus difficiles, puisque mesur~s sur des textes n'ayant 
pas en principe participd ~ l'entra~nement. De surcrolt, 
ces r~sultats no sent comparables que darts le cas de 
l'~quetage du texte voyell~. Pour le texte non voyell~, 
les r~sultats sent ~ l'~videncenettementmoins bons. 
Or, c'est l'arabe non voyell~ qui est le plus r~pandu et 
qui, bien ¢ntendu, nous int~resse le plus. 
Reprendre tel quel l'~quetage grammatical fond~ sur 
des r~gles de succession pour traiter l'arabe non 
voyell~ n'est done pas acceptable, d'autant plus que ce 
que nous avons obtenus, nous l'avons obtenus, rappe- 
lons-le, dam des conditions d'apprentissage ad-hoc. 
Essayons de voir les raisons qui ont pu conduir¢ a une 
telle baisse des performances. 
7. De l'absence des voyelles : amblgurtd vocallque 
Consid&ons les experimentations faites avec le jeu des 
~quettes granunaficales sans genre-nombre. Les 
tableaux de ha figure 7 montrent qu'il y a chute des 
performances lorsque l'on passe de l'~quetage du 
texte voyell~ ~ l'~quetage de sa version non voyeU~e. 
Les taux de r~solution passent de 94,84% ~ 82,31%. 
Si l'on tient eompte du genre et du nombre la 
d~gradation des performances nous fait passer de 
97,37% A 90,74%. Sous l'anglc de la r~duction de 
l'ambiguit6 il y a aussi d~gr~_d_ation. On observe en 
effet que l'on passe de 1,02 ~iqucttes en moyenne 
par unit6 lexicale apr6s ~dquetage ~ 1,10 dam le eas 
qui donne les meilleurs r6sultats, c'est-~-dire avec 
genre nombre. 
L'explication est simple. EUe r~side d'abord dam la 
surmultiplication de l'ambiguit6 qu'occasionne la 
d6voyellation, d~voyellation dont l'effet se 
manifeste doublement alnsi que les tableaux de la 
figure 7 l'exhibent assez bien. On remarque en effet 
qu'~ l'entr~e de l'6tiqueteur, selon que letexte est 
voyell6 ou non, les proportions de mots ambigus ne 
sont pas les m~mes, ni le nombre moyen des 
6tiquettes potentielles qui leurs sont associ6es. 
Ainsi, le texte voycll~ se pr~sente a l'entr6e de 
l'6tiqueteur avee 56,37% de roots non ambigus 
contre seulement 27,97% pour le texte non voyell6. 
Autrement dit, 43,63% des roots sont ambigus dam 
le texte voyell6, proportion qui grimpe h 72,03% 
lorsque le texte est d~voyell~. De sureroh, les roots 
sont bien plus ambigus clans le texte non voyell6 clue 
d a,~ le texte voyell6 : 5,33 &iquettes en moyenne 
pour le texte non voyell~, alors que l'on ne eompte 
que 1,91 6tiquettes en moyenne pour le texte 
voyell6. 
8. Agglutination : ambigu~td segmentale 
L'explieation r6side ensuite dam la surmultiplieation 
de l'ambiguit~ qu'oeeasiorme l'agglutination. Celle- 
ei induit en effet pour le non voyell6 tm nombre de 
segmentations en 
procliaque + forme ample + enclit~que (p + fs + e) 
plus important que pour le voyelld. 
Par exemple, le mot ~/'~('alamuhurn leurdouleur) 
dam sa forme voyellde n'aeeepte qu'tme seule 
segmentation" ~ * ~ ('alamu+hum) 
Dans sa forme non voyell6e ~+t, ('lmhm) le meme 
mot aeeepte par eontre les trois segmentations 
suivantes : 
• r~ ÷ ~.J + ! ('+lmm+hm les a-t-il ramassds) 
• r* * ~ ('lm+hm leur douleur, 
"Um+hm ~1 les a fait souffr~r) 
• r~ + ~ ('l+mhm l'important) 
Le tableau suivant don't la lecture est analogue/t 
eelle des tableaux de la figure 7, donne pour un texte 
arabe les proportions d'UM acceptant 
respectivement uric seule ou plusienrs 
segmentations. 21 
Nomlxe UM non UM Se&/ Nbr max 
UM ambiffae= =mbigue= UM de =eg. 
VoTell~ 25 410 96,61% 3~39 % 1~03 4 
Non vo 7. 25 410 78,00 % 22,00 % 1,30 6 
Fig. 8. Unit/:s morphologiques d,mnA.t lieu   des 
segmentations 
en proclitique + forme simple + enclitique ambigues 
Sous l'angle de l'agglutination, on remarque donc 
que la segmentation d'un texte non voyell6 est bien 
plus ambigu6 clue celle de son correspondant 
voyell6 : 
• Le nombre d'unit~s admettant plus d'une 
segmentation est d'abord plus important : 22% 
contre 3,39%. 
• De plus, le hombre moyen de segmentations par 
unit6 est plus grand pour le non voyell6 que 
pour le voyell6 : 1,3 segmentations en moyenne 
contre 1,03 pour le voyell6. Le tableau indique 
en outre que le nombre maximal de 
segmentations observ6es est de 4 pour le 
voyell6 et de 6 pour le non voyell6. 
L'intensifieation de l'ambiguit6 de segmentation 
s'op&e donc selon deux axes : 
• en proportion d'abord selon l'axe horizontal (il 
y a plus d'unit~s ambigues dam untexte non 
voyell6 que dans son correspondant voyell6), 
•mais aussi en profondeur selon l'axe vertical (il 
y a plus de segmentations dam le d6voyell6). 
La eons6quence est que cela introduit une deuxi6me 
source de surmultiplieation de l'ambiguit6 
grammaticale qui vient se surajouter ~, celle qui est 
due a l'absence de voyellations. La combinatoire 
concathnative des ~tiquettes li6es aux diff~rentes 
segmentations introduit en effet au compte d'une 
unit~ morphologique un nombre d'~tiquettes 
apparentes bien plus grand que le nombre 
d'~tiquettes associ~es aux unit~s lexicales dont elle 
est constitu6e. 
Exemple : 
Le mot ot_~j (accord) tel que voyell~, n'accepte 
qu'une senle segmentation. La cardinalit6 de 
l'ambiguit~ est clans ce eas 6gale /t 2 {substant~f 
g~nitif ind~termin~, compl~ment de nora 
ind~termin~}. Le m~me mot non voyell~ aeeepte 
par contre denx segmentations : 
• ur, j (accord) 
• dr, + ~ (et il a ddpass~) 
Ces deux segmentations engendrent 9 ~tiquettes 
apparentes, mutes assoei6es ~ l'unit6 
morphologique non voyell6e ,jtij. La figure suivante 
montre le processus qui y conduit : 
l Unit~ morphologique I 
Segmentation 1 
Segmentation 2 
d% 
Encl forme simple Proc 
b(, (a) 
~tiquettes ~ ,~ ~. 
grammatical~ 
associ~es ~ la ~ ,~ ,~ 
se\[~mentation 1 
~tiquettes gram. ¢.,~ ,~. 
associ/~.s ~ la 
segmentation 2 ~1 j|j 
grammatic~les t-~ o~t- ~.~ + ~ o~ 
apparentcs associ~cs t~' ~" ~ ÷ ',~ Jb 
Ain~i, c'est la combinatoire des dfiquettes des diverses 
unit~s segrnentales qui conduit aux 9 dfiqueRes 
apparentes associ~es au mot dt ~. Nous les avons 
qualifldes d'apparentes parce qu'eUes sont tantSt 
simples, tant6t composdes, et que ce sont elles 
prdcisdment qui interviennent dam l'61aborafion des 
diffdrcntes continuitds grammaficales que tente de 
construire l'6fiqueteur au moyen des r6gles de 
succession. 
L'ambiguit~ vocalique ct l'ambiguRd segmentale 
introduisent done une surmulfiplicafion de l'arnbiguRd 
~ticale. Consd.quence : une explosion combi- 
natoire au niveau de l'~quetage bien plus importante 
encore que celle provoqude par l'analyse d'un texte off 
le nombre d'dtiquettes par mot en moyenne est plus 
petit en m6me temps que leur proportion. 
ml m2 ,.. ml mo 
Vl pl ----~V2p2 , Vipi k k Vnpn 
MI M~ ... Mi Mo 
' V2p 2 " ' ' %, %- 
Ces deux schdmas essaient d'illustrer notre propos. 
Dans le premier schdma les n~ et les vij repr~sentent 
respectivernent les unit~s lexicales et les ¢'tiquettes qui 
leurs sont assocides. Les fl~hes repr~sentent les 
chewin, grmnnmficaux combinatoirement possibles. 
Dans le second schdrna les Mi et les V~ reprdsentent 
respectivement les tmit~s morphologiques et les 
ensembles de listes d'6tiquettes apparentes qui leurs 
sont assocides. Les fl~c.hes repr~sentent cette lois non 
plus une continuitd granmmficale simple, mais un 
ensemble de continuitds potenfieUes puisque les Vij 
sont non pas des dtiquettes simples mais des 
ensembles de listes d'dtiquettes. 
Exemple : 
,....4 
0--.~1 
C.,---," ..31 
c,--#1 
c-J- t 
o--: .-~ 
5," 
o" 
N, 
Fig. 9. AmbiguRd segmentale 
o" 
o" 
• L~, J 
• ~., J 
f.r 
o" 
J 
d 
J 
~d~.~l 
,h: 
*~..U 
,h: 
.*j 
PJ 
22 
9. Performance de I ' dtiquetage grammatical 
Les tableaux suivants donnent les performances de 
l'dtiquetage grammatical comptabilis~es sous l'angle 
des unitds morphologiques. Ces tableaux offrent une 
autre vision des rdsultats ddj/t prdsent~s clans les 
tableaux de la figure 7. Pax rapport /t ceux-ci, les 
comptages portent ici non sur les ~dquettes associc~es 
aux UL, mais sur les dtiquettes apparentes associc~es 
aux UM, prdcisdment reconstitudes /t partir des 
~iquettes ClUe l'analyseur a retenu au compte des UL. 
Te.~te vo.vellt Nombre d'UM 
Apr~ AM 25 410 
EG sam GN 25 410 
EG avec GN 25 410 
Etiquett~ R~luti¢~ 
apparemes / UM (%) 
2~65 44~53 
1~06 92,81 
1,03 96,28 
T~ non vo~e//~ Nombre d'UM 
Apre AM 25410 
EG sans GN 25 410 
EG avec GN 25 410 
Etiquettes IN~lution 
~ppaten~s / UM (%) 
I0~97 18~06 
1~8 76,86 
1,14 87,77 
Fig. I0. Performances de l'~tiquctage rues sous rangle des UM 
L'apprdciation des performances du m~mc dtiquctage 
s'av~re donc plus sdv~r¢ lorsque cos performances 
sont dvaludcs sous l'angle des UM ClUe sous l'angle 
des UL. La raison est simple : d~s lots qu'une unit~ 
lexicale rcstc ambigu~, ellc contaminc l'unit~ 
morphologique dont clle fair paxtie. 
10. Rdsolutions locales et 
~tiquettes grammaticales composdes 
Consid~rons l'unitd morphologique ,.~..t. Non voyclldc 
unitd donne lieu aux diverses segmentations ct 
ambiguRds grammaticales suivantcs : 
II II J (v~r~t~, droit) (le. lo) 
JJ 
(v~r~N, droiO (est-ce 
pour) \[ 
f 
f 
(suivre, 
~nne.l~) JP "F J 
(annexer, 
suivre) 
23 
La combinatoire concat~native des ~quettes engcndrc 
les successions potentidles suivantes, successions que 
nous avons appel~s plus haut ~tiquettes apparentes : 
,,j,, + ,,...~,~ =t~f 
,,j. + .,,.~ pt.~:...i 
,~ + ~,,.~ pt~:.,I 
,~. + ~,~ rq,~ 
+ .~; ftO:-a 
~'~'~, 
() t.~t.a., ba 
~.+ fto:.a 
+ ftO:.,I 
,.,. + pto:..~ 
~ + ~.L,~ 
~+..~ 
La rdsolution locale conserve 
suivantcs • 
les successions licites 
+ ~; pqz..I 
~. ~.~ + pL,~:..1 
,~ + ,J.U 
Nous appelons ~t~quettes grammat~cales compos~es 
ces successions licites. 
Pour arn~liorer les r~sultats de l'~quetage l'id~eest 
tout naturellement venue d'utiliser un nouveau jen 
d'~quettes grammaticales constimd par la r~'union 
enscmbliste des 6tiqucttes simplcs et des 6tiquettes 
compos~es. 1730 ~iquet~s ont ainsi ~~'es, 
avec les avantages pressentis suivants : 
* utiliser un dtiqueteur o/t l'on n'ait plus ~ traiter la 
combinatoir¢ due /t l'agglutination, en toutpoint 
donc analogue ~ oeux du franf~is ou de l'anglais ; 
* traiter des textes prdsentant des seuils d'ambiguRd 
moindre en termes de proportion et de nombre 
moyen d'~quettes ; 
* e~fin~ augmenter la pottle des r6gles de 
successions puisque ceUes-ci concement d~sormais 
des uniths morphologiques et non lexicales. Les 
deux cxemples suivants montrent comment en effet 
les r~gles de succession temaires peuvent 
embrasser jusqu'~ 9 unit~s lcxieales composant 
prdcisdment 3 unitds morphologiques. Darts lc 
premier excmple la r~gle temaJre embrasse 3 
unitds lexieales, alors que clans Ic second cue 
embrassc 9 unit~s lexicaJes. 
caMer d'un dl2,ve studieux 
i ,-.+e21+9 ,---+,.el~f'+,4 ,--.+~. L.'g'+-~. I =:> 9 UL 
avec son livre et son cah~r et son crayon 
A titre indicatif, le tableau suivant donne le nombre de 
successions ternah'es avec r6p6tition comptabilis6es 
dans le texte d'expdrimentation de 25 410 unit~s 
morphologiques. Nous observons que dans 81,5% des 
cas nous avons ~ faire ~ des successions qui mettent 
en oeuvre des ~iquelZes compos6~os. C'est dire que 
clans 81,5% des cas nous avons besoin de r6gles qui 
portent sur des unit~s non-minimales. L'impo~nce de 
cette proportionjustifie donc que l'on essaie d'utiliser 
des r6gles ~ large pottle. 
Nbr de successions ternnlres engendr~ 25 408 
Nbr de successions mettant en oeuvre 20 701 
minimalement uric ~tiquette compos~e (81,5%) 
Nbr de successions mettant en oeuvre des 4 707 
~tiquettes simples (18,5%) 
A l'appui encore de cette remarque le tableau suivant 
qui donne, pour le m~me texte d'exp~rimentation, les 
proportions des diverses UM considdr6es sous l'angle 
de lenr formation. 41% des UM sont compos~es, ee 
qui signifie que dans le texte plus d'une unith sur trois 
• st compos6e. 
Nature de I'UM .fs p + fs fs + e p+.fs +e p + e 
blbrd'UM 14755 7 188 2496 620 351 
Propor~on 59% 28% 10°~ 2% 1% 
1L Performance de l'gdquetage portant sur les 
UM 
L'6tiquetage du m~e texte, dans des conditions 
d'apprentissage toujours ad-hoc, ufilisant ce nouveau 
jcu d'6tiquettes a donn~ Its r~sultats suivants : 
7~ voyed~ Nombre d'UM Etiquettes 17J!c~lution 
oompos~/UM (%) 
Ap~ AM 25 410 2,44 45,15 
EG eui. compou~s 25 410 1,02 97,51 
Tcxte non vo),e//d Nombr¢ d'UM Etiquettes Re, solution 
compos~/uM (%) 
Apr~ AM 25 410 8,74 18,34 
F.O eul. compou~ 25410 1,13 91,55 
Fig. 11. Performances de l'~tiquetage utilisam lc jeu 
de 1730 ~dquettes simples et compos~es 
Par comparaison avec le tableau de la figure 10, nous 
enregistrons les ameliorations suivantes : 
1. pour lc voyelld, unc augmentation des taux de 
r~solution qui passent de 96,28%/t 97,51%, 
2. pour lc non voyell~, une amelioration qui fair 
passer la r~solution de 87,77% ~ 91,55%. 
12. Conclusion 
Parce que les seuils d'ambigui'th de l'arabe, non 
voyen~ notamment. ~mient d'embl6e bien plus 61ev~s 
que ceux du franfais par exemplc, quo par cons~uent 
los niveaux de diIiiculth pressentis 6taient sup~rienrs, 
nous avons voulu tester les potentialiths de 
l'6tiquetage grammatical tel que traditionnellement 
prafiqu6. Dans c.~tm perspective, nous avons choisi 
clans un premier temps de mener des experimentations 
dans des conditions d'apprentissage ad-hoc. Trois jeux 
d'dtiquettes grammaticales om ~ d~finies, mais seul 
lc demicr a donn~ des rdsultats satisfaisants. 
Les tests effectuds sur des textes n'ayant pas 
particip~s ~ l'apprentissagc ont donn6 des r~sultats 
24 
bien moins satisfaisants. Les tableaux suivants sont 
relatifs aux performances obtenues sur le livre de 
"Kalila et Dimna" comptant 39800 UM. 
K-m,, et D/z~.m Nombre d'UM Etiquetta R/=olution 
Texte voydi~ ~ / UM (%) 
Apres AM 39 800 2,51 49,48 
EG sans GN 39 800 1,05 84,89 
EG avec ON 39 800 1,08 85,42 
EG t.~. eompos~ 39 800 1,09 85,57 
Ka///a e¢ D/tuna Nombre d'UM Etiquettes l~solution 
T~ non voyeJ~ apparcmes / UM Q/S) 
Ap~AM 39 800 11,60 16,64 
I EGums ON 39 800 1,14 62,89 
EG avec GN 39 800 1,21 64,51 
EO ~1. compos&= 39 800 1,19 63,03 ; 
Fig. 12. Performances de l'~tiquctage sur des nouveaux tcxtcs 
n y a chute des performances ainsi que nous pouvons 
le constater. Mais parce que davantage lide au manque 
d'apprentissage, nous choisissons pour l'instant de ne 
point interpr~'ter ces r~sultats, m~me si a priori ils 
tendent en fair/L comforter nos conclusions. 
Car il reste que m~me dans des conditions 
d'entmlnement ad-hoc, les r~sultats obtenus ne sont 
satisfaisants et prometteurs que clans une seule 
perspective, /L savoir l'utilisation d'unjeu de plus de 
1700 dtiquettes granuuaticales assocides auxformes 
non-minimales de l'arabe. Conclusion difficile done 
puisque se pose immddiatement le probl~me de 
l'entminement, qui plus est, clans des conditions 
relafivement nouvelles. En effet, nous ne connaissons 
pas d'expdrimentations qui se soient effectudes avec 
autant d'dfiquettes grammaticales, I00/1250 6tant le 
nombre d'dtiqucttes couramment mis en oeuvre. Nous 
croyons voir dans ces rdsultats et dans ces n6cessit6s 
une mesure des difflculths que reste poser finalement 
l'dtiquetage de l'arabe non voyell6 et, au dell, 
l'dtiquetage fond6 sur la seule utilisation de r~gles de 
succession temaires. 

Bibliography
Alexandrc ANDREEWSKY, Christian FLUHR 
A learning method for natural language processing and 
application to information retrieval, IFIP Congress, 
August 1974.
 
Fathi DEBILI 
Traitements syntaxiques utilisant des matrices de 
precedence frdquentielles construites automatiquement 
par apprentissage, T~ de Docteur-lng~nieur, Paris VI~ 
Septembre 1977. 

Christian FLUHR 
Algorithmes ~ apprentissage, Tht~se de doctorat d'cqat, 
Paris XI, 1979. 

Marc EL-BEZE 
Les modules de langage probabilistes: Quelques domaines 
d'application, Habilitation ~ diriger des recherches, 
decembre 1992, Universit~ de Paris 13. 

Bernard MERIALDO 
Tagging English Text with Probabilistic Model, 
Computational Linguistics, June 1994, Vohune 20, 
Number 2. 

Kenneth W. CHURCH and Robert L. MERCER 
Introduction to the Special Issue on Computational 
Linguistics Using Large Corpora, Computational 
Linguistics, March 1993, Volume 19, Number 1. 

t Marc EL-BEZE, Bernard MERIALDO, B~n~dicte 
ROZERON, Anne-Made DEROUAULT 
Accentuation automatique de textes par des mdthodes 
probabilistes, Technique et science informatique 
N°6/1994. 

: Atro VOUTILAINEN 
A ~,ntax-basedpart-of-speech analyser, Research Unit for 
Multilingual Language Technology, Finland. 7th 
conference of the European chapter of the Association for 
Computational Linguistics. 27-31/03/1995 University 
College, DUBLIN. 

3 Jean Pierre CHANOD and Pasi TAPANAINEN 
Tagging French comparing statistical and a constraint- 
based method, Rank Xerox Research Centre, Grenoble. 
7th Conference of the European Chapter of the 
Association for Computational Linguistics. 27-31/03/1995 
University College, DUBLIN. 

4 Enma SOUISSI 
Etiquetage grammatical de l'arabe voyelld ou non, Th~se 
de doctomt, Universit~ de Paris VII, Octobre 1997. 

s j. DUBOIS, L. GUESPIN, M. GIACOMO, C. et J.-B. 
MARCELLESI, J.-P. MEVEL 
Dictionnaire de linguistique et des sciences du langage, 
Larousse 1994. 

6 Djamal Eddine KOULOUGHLI 
Grammaire de l'arabe d'aujourd'hui, Pocket-Langues 
pour toms, 1994. 
