File Information

File: 05-lr/acl_arc_1_sum/cleansed_text/xml_by_section/abstr/98/w98-1003_abstr.xml

Size: 6,329 bytes

Last Modified: 2025-10-06 13:49:32

<?xml version="1.0" standalone="yes"?>
<Paper uid="W98-1003">
  <Title>Etiquetage grammatical de I'arabe voyelM ou non</Title>
  <Section position="2" start_page="0" end_page="18" type="abstr">
    <SectionTitle>
1. Introduction
</SectionTitle>
    <Paragraph position="0"> Dam une tr6s large proportion, Ivs roots sont grammaticalemcnt ambigus. Par exemple ferme est hors eontexte substantif, adjectif, verbe ou adverbe.</Paragraph>
    <Paragraph position="1"> En arabe, ,~- ~ (kataba, dcrire) eat verbe dt la fl'= personne du singuBer de l'accompB actif La forme non voyelMe correspondante ,. --&lt; (lab) admet par contre les cinq dtiquettes granmaaticales potentielles  suivantes : 1. Substantif masculin pluriel (:. ~ kutubun &amp;quot; les livres) 2. Substantif masculin singulier (*.. ~&amp;quot; katbun: un cr t) 3. Verbe C/~ la 3*&amp;quot; personm masculin singulier de l'accompB acaf (.~..J~ kataba * il a dcrit ou kattaba * il a fait ~crire) 4. Verbe d la 3 ~=&amp;quot; personm masculin singuBer de 1 'accompli passif(',.~ kutiba : il a dt~ dcrit ou ~&amp;quot; * s kuttiba, forint factitive correspondantc) 5. Verbe dl l'impdratif 2 ~&amp;quot;~ personne masculin singulier ('.~&amp;quot; katfib : fais dcrire) auxquelles, en route rigueur, fl conviendrait d'ajouter les &amp;iquettes associ6es aux deux autres formes voyelldes potenfielles ,. 7+,.3 ka+tabba (comme trancher) et .~+,.3 ka+tabbin (comme 'tranchement'). 2. Ambigu\[td grammaticale : comptage en  ddfinition Lc tableau suivant donne pour l'arabe les proportions de roots grammaticalemcnt ambigus mesur~es clans les dietionnaires de formes voyell6 et non voyelIE  La lecture de ce tableau est simple. 44,36% des mots voyell6s sont ambigus et acceptcnt 4,3 ~iqucttes grammaticales en moyenne. Ces chi~es passent respectivement/l 79,4% et 6,42 lorsquv mesur6s sur Iv non voyell6. Retenons pour l'instant que la difference</Paragraph>
    <Paragraph position="3"> est notable ; et voyons ce que ces mesures donnent sur les sous-lexiques associds a un texte voyell6 d'abord, puis ddvoyell~, les informations grammaticales provenant darts le premier cas du dictionnalre voyelld, et dans le second cas, du dictionnaire non voyelld.</Paragraph>
    <Paragraph position="4">  texte arabe : comptage en dAfmition.</Paragraph>
    <Paragraph position="5"> Commentaires : Nous remarquons 1/~ aussi que la version non voyen6 est plus ambigu6 que la version voyell~e. L'on s'y attendait bien stir. Mais le plus notable est que cette ambiguRd est plus importante encore que celle qui est observde dans les dictionnaires gdn~raux. Pour le voyelld on passe de 44,36% ~t 66,46% et de 4,3 fi 9,14 dtiquettes en moyenne. Pour le non voyell6, de 79,4% 95,04% et de 6,42 ~ 12,48. Enrdsumd, les sous-lexiques voyelld et non voyelld issus d'un texte donnd sont plus ambigus que les dictionnaires gdndraux voyelld et non voyelld associds ~ la langue.</Paragraph>
    <Paragraph position="6"> Plusieurs factcurs semblent concourir pour expliquer ce constat. Le plus important est l'inversion des proportions noms/verbes que l'on observe lorsque l'on passe des dictionnaires aux sous-lexiques issus de textes, ainsi que les deux tableaux suivants le montrent. L'on passe en effet de la distribution 29% de noms/ 71% de verbes dans le dictionnaire voyelld la distribution 60% / 38% dans le lexique issu du texte voyelld. Pour le non voyelld on passe respectivement de 43% de noms/ 60% de verbes ~ 70% noms / 50% verbes (la somme des proportions n'est pas dgale 100 ; la raison est qu'une m&amp;ne entree est plusieurs lois comptabilisde lorsqu'eUe est ambigu6, c'est A dire lorsqu'elle est ~ la fois nora, verbe et/ou particule). II y a doric plus de verbes clue de noms dans les dictionnaires gdndraux, et inversement, plus de noms que de verbes dans les sous-lexiques issus de textes, et ce dans les deux cas voyell6 ou non voyeUd. Or, pr~cis~ent, les noms sont en moyenne plus ambigus que les verbes Oe dictionnaire voyeUd donne 11,63 ~iquettes en moyenne pour un nora contre 1,32  Ces rdsultats exhibent d'ores et d6j/t des niveaux de difficult~s bien plus ~lev6s pour l'arabe non voyell6 que pour l'arabe voyelld, l'arabe voyell6 o,'Y,~t him&amp;he des seuils d'ambiguRd sup6rieur/t ceux du franfais. A flue comparatif, les tableaux suivants donnent les comptages analogues relatifs au fiznc~ds  texte frangais : comptage en d~fmRion.</Paragraph>
    <Paragraph position="7"> 3. Ambigurtd grammaticale: comptage en usage Pour mieux circonscrire encore los contours du probl~'me de l'~quetage de l'arabe, considdrons maintenant les meznes mesures effectm~es eeRe fois sur des tex-~s. Ici les comptages tiennent compte de la rdpdtition des diverses uniths lexicales qui composent un text. S'agissant de fr~uences en usage, ces comptages offrent une meilleure apprdciation du niveau de difficult~ de la t~che d'~'tiquetage.</Paragraph>
    <Paragraph position="8">  texte arabe : comptage en usage.</Paragraph>
    <Paragraph position="9"> Commentaires : Compar~ au tableau donnant les taux d'arnbiguR6 mesur6s sur les sous-lexiques issus de ce m&amp;ue texte d'expdrimentation \[cf. fig. 2\], nous constatons une diminution des proportions des mots ambigus : 62,02% avcc rdp6tition (en usage) \[respectivement 75,85% pour le non voyell6\] centre 66,46% sans rdpdtition (en ddfinition) \[respectivement 95,04%\], avec en m~me temps une rdduction du hombre moyen d'dtiquettes par mot : 5,63 en usage centre 9,14 en d6fmition pour le voyelld, et 8,71 centre 12,48 pour le non voyell6. La r6pdtition textuelle semble done puiser &amp;vantage dans le non ambigu que dans l'ambigu,/t l'invetse de ce que nous observons pour le francais, ainsi que le tableau suivant le sugg6re lorsqu'il est  texte fran~fis : comptage en usage.</Paragraph>
    <Paragraph position="10"> Il reste que m~ae si la r6p6fition textuelle conduit/L plus d'ambiguR6 dans le cas du franqais C/t/L moins d'ambiguR6 dans le cas de l'arabe, fl n'y a pas rapprochement des niveaux de difficult6 : l'6tiquetage de l'arabe part d'une situation manifestement plus ambigu6, aussi bien en terme de proportion (75,85% des mots sent ambigus dans un texte non voyell6 alots qu'ils ne sent que 60,81% a l'&amp;re dans un tex~ accentu6), qu'en terme de nombre moyen d'6tiquettes par mot (8,71 pour l'arabe centre 1,86 pour le fran s).</Paragraph>
  </Section>
class="xml-element"></Paper>
Download Original XML