File Information
File: 05-lr/acl_arc_1_sum/cleansed_text/xml_by_section/metho/90/c90-1004_metho.xml
Size: 18,038 bytes
Last Modified: 2025-10-06 14:12:25
<?xml version="1.0" standalone="yes"?> <Paper uid="C90-1004"> <Title>DES HEURISTIQUES POUR LA RECHERCHE DU THEME</Title> <Section position="1" start_page="0" end_page="0" type="metho"> <SectionTitle> DES HEURISTIQUES POUR LA RECHERCHE DU THEME D~UN DISCOURS ET DE L~ANTECEDENT D~UN PRONOM </SectionTitle> <Paragraph position="0"/> </Section> <Section position="2" start_page="0" end_page="28" type="metho"> <SectionTitle> 13009 Marseille FRANCE </SectionTitle> <Paragraph position="0"> tel : 91.26. 90. 70 R~suxn~ \[In des probl6mes r6siduels pour le traitement des r6f6rences dans les interfaces en langage naturel est le grand nombre d'ambiguit6s que g6n~re un pronom du point de rue de la recherche d'ant6c&tent. Dans cet article, nous allons montrer comment l'utilisation de crit&es issus d'6tudes de psychologie exp6rimentale sur des m6thodes de construction d'un discours par des locuteurs peut apporter un plus pour r6soudre ce probl6me. Nous pr6sentons tout d'abord des r6sultats de tests faits par des psychologues autour de la notion de th~me et de repr6sentation interne du discours ; puis, nous utilisons ces r6sultats pour 6noncer un certain nombre de crit~res pragmatiques concernant la recherche d'ant6e6dents. Nous montrons enfin que ces crit~res, tout &ant concis et facilement programmables, sont assez g6n6raux au regard de ceux pr6sent6s dans des cadres similaires.</Paragraph> <Paragraph position="2"> Identifier rant6c6dent d'un pronom dans un texte est un processus complexe ~t r6aliser de mani~re automatique. Un des probl~mes r6siduels pour sa r6solufion dans un syst~me informatique d'interface en langage naturel est le grand nombre d'ambigu'ft6s que g6n6re l'emploi d'un pronom. Dans un premier temps, on peut ~tre tent6 de n'utiliser que des crit~res syntaxiques et s6mantiques, car ils ont l'avantage d'etre rigoureux. Cependant, ils sont en g6n6ral insuffisants pour identifier de mani~re unique un r6f6rent. Les crit~res syntaxiques (du type accord en genre et en nombre ou c-commande (voir \[Reinhart 81\])) sont des filtres~ c'est/~ dire qu'ils 61iminent des candidats plut6t qu'ils ne d6signent pr6cis6ment le syntagme nominal ant6c6dent. Ces filtres sont fix6s pour un sous-ensemble d'une langue donn6e et ne s'appliquent pas/~ tousles types de pronom (voir pour une 6tude plus pr6cise \[Rolbert 89\]); Ils ont l'avantage d'&re rigoureux mais ne sont pas extensibles. Les crit~res s6mantiques sont des r~gles d'accord de traits ou des r~gles bas6es sur des notions de pr6suppositions - le choix d'un ant6c6dent qui donne nne solution s6mantique absurde est rejet6. Leur efficacit6 d6pend 6troitement de la pr6cision de la s6mantique du domaine d'application.</Paragraph> <Paragraph position="3"> Pour des domaines s6mantiquement pauvrcs, ils seront assez inefficaces.</Paragraph> <Paragraph position="4"> II est donc n6cessaire d'introduire d'aulres crit~res, ind6pendants du domaine d'application clu syst~me, permettant de choisir l'ant6c6dent d'un pronom parmi les syntagrnes nominaux que la syntaxe et la s6mantique n'ont pas 6cart6s. C'est pourquoi, dans la plupart des syst~mes permettant l'emploi de pronoms, des crit~res pragmatiques sont aussi mis en oeuvre pour tenter de r6soudre ce probl~me (\[Guenthner & Lehmam~ 83\], \[Danlos 85\], \[St Dizier 86\], \[Asher & Wada 87\], \[Sedogbo 87\]...). Cependant, au del~ de la justification de l'emploi de r~gles pragmatiques, il nous a sembl6 important de faire le point sur leur contenu, celui-ci 6tant rarement justifi6. Pour cela, nous nous sommes bas6s sur des 6tudes faites sur la consU~ction d'un discours chez un locuteur.Celles-ci mettent en 6vidence l'importance de la notion de thdme pour notre approche et nous permettent d'6noncer 3 crit~res pour la recherche d'un th~me dans un discour,;. Nous les appliquons ensuite, compl6t6s par deux autres, a la recherche de l'ant6c6dent de pronoms puis les comparons /~ ceux habituellement utilis6s dans les syst~mes existants et montrons que l'ensemble de ces 5 crit~res forme un tout complet et g6n6ral.</Paragraph> <Paragraph position="5"> II - Des experiences sur le discours De nombreuses exp6riences sont faites par des psy~zhologues darts le domaine de la caract6risation de modules mentaux du discours. La probl~matique g6n6rale de ce type d'exp6rimentation est de comprendre comment un texte est analys6, compris et repr6sent6 dans la m6moire du lecteur. Les r6sultats s'appuyent principalement sur l'analyse de temps de r6ponse concernant'la r6solution d'anaphore suivant la pr~lominance du r6f6rent dans le discours et le type de criti~,res mis en jeu (\[Corbett & Chang 83\], \[Morrow 85\], \[Murphy 84\] etc...).</Paragraph> <Paragraph position="6"> On trouve plusieurs r6sultats mettant en relation le th6me et la cor6f6rence. \[Corbette & Chang 83\] avancent l'hypoth~se qu'un syntagme nominal est plus accessible s'il a 6t6 par ailleurs 'mis en valeur dans le texte'. \[Garrod & Sanford 85\] indiquent 6galement que la r6solution d'une r6f6rence liant un personnage principal du texte est toujours plus rapide que des r6f6rences similaires liant des personnages secondaires. On voit donc appara~tre l'importance du th~me.</Paragraph> <Paragraph position="7"> Comment d6tecter le th~me d'un discours ? En fait, on voit que ce qu'il faut rep6rer n'est pas vraiment le th~me du discours, mais un th~me local, propre au lecteur (darts notre cas, au locuteur) mis en valeur dans sa propre repr6sentation du discours. Des r6sultats d'exp6riences (\[Mckoon & Ratcliff 80\] cit6s dans \[Corbett & Chang 83\]) ont conduit h la conclusion qu'un nom qui a 6t6 repris par un pronom dans la derni~re phrase d'un texte est plus accessible dans le module du discours d'un lecteur qu'un nom qui n'a pas 6t6 r6f6renc6. \[Morrow 85\] va plus loin en disant que la pr6dominance d'un nom pour un lecteur (donc son th~me) est ddtermin6e par des propri6t6s de surface telles que l'ordre d'apparition ou la fr6quence de mention d'un objet cor6f6rent h ce nom.</Paragraph> <Paragraph position="8"> Dans une analyse presque similaire, la notion de sujet est jug6e pertinente du point de vue du th~me. A partir d'exp6riences faites sur l'6valuation d'un temps de r6ponse h propos de personnes cit6es dans un texte, apr~s lecture des deux phrases formant ce texte, la deuxi~me contenant un pronom r6f6rent ~ un 616ment variable de la premiere (\[Corbett & Chang 83\]), les auteurs d6duisent que le sujet (en temps que r61e fonctionnel tenu par un synmgrne) de la premiere phrase est plus accessible h la fm du texte que le nom pr6dicat (ici, un compl~ment d'objet direct) de cette m6me phrase, ind6pendemment des effets de la r6f6rence. Le sujet d'une phrase serait donc pr6dominant dans la repr6sentation du discours. Ils donnent comme explication possible de ce ph6nom~ne que le sujet fonctionne comme position topicalis6e de la phrase (c'est-h-dire qu'il repr6sente ce sur quoi parle la phrase).</Paragraph> <Paragraph position="9"> En ce qui concerne la r6solution de r6f6rence propement dite, on retrouve dans de nombreuses 6tudes une hypbth~se bas6e sur la proximit6 entre le pronom et son r6f6rent. Ces exp6riences ont montr6 qu'un ant6c6dent est plus accessible lorsqu'il appara~t dans la phrase pr6c6dent imm6diatement celle contenant le pronom. Nous verrons l'int6r6t de ce r6sultat ind6pendant de la notion de th~me en 111.2.</Paragraph> <Paragraph position="10"> En conclusion, nous pouvons dire que bien que les buts de ces exp6riences soient diff6rents du n6tre, les r6sultats qu'elles permettent d'obtenir sont int6ressants pour plusieurs raisons : -la notion de th~me est assez ancienne en linguistique (voir les theses de Math6sius et de l'6cole de Prague dans \[Firbas 64\]) mais cette approche exp6rimentale, si elle ne se soucie pas des probl~mes essentiellement linguistiques qui entourent cette notion (entre autre un probl~me de d6finition - voir en particulier h ce sujet et sur la place du th~me en intelligence artificielle \[Maradin 88\] ), aborde une analyse plus pragmatique des faits.</Paragraph> <Paragraph position="11"> - la plupart des exp6riences que nous citons sont bas6es sur des probl~mes de cor6f6rence. Leurs conclusions finales sont orient6es vers la mod61isation d'une repr6sentation du discours ; cependant, des r6sultats intermddiaires pr6sentent des hypotheses sur des processus inf6rentiels concernant la cor6f6rence.</Paragraph> <Paragraph position="12"> - ces exp6riences portent sur le comportement d'un lecteur, mais il nous semble que nous pouvons appliquer leurs r6sultats ~ celui d'un locuteur : un locuteur construit un discours pour se faire comprendre. I1 applique donc des r~gles de bonne formation du discours lors de la construction. Par exemple, il va employer un pronom uniquement s'il lui semble que celui-ci reprend de mani~re non (ou peu) ambigiie un des propositions, rdf6rence temporelle, etc...). Le problSme que nous nous posons est de d6terminer quel est rant6c6dent d'un pronom parmi les syntagmes nominaux pr6sents dans le texte.</Paragraph> <Paragraph position="13"> A partir des donn6es expdrimentales que nous venons de pr6senter, nous allons 6laborer tout d'abord des critSres permettant de retrouver les thSmes d'un discours.</Paragraph> <Paragraph position="14"> III.1 - Des crittres pour la recherche d'un thi~me clans un discours Un premier critSre que nous allons utiliser apparait h plusieurs reprises i~ travers les expdrimentations que nous avons 6voqu6es. I1 semble, en effet, que la r6pdtition d'un syntagme nominal (que ce soit une simple rdpdtition ou une reprise par un syntagme pronominal) joue un r61e trSs important dans la mise en valeur d'un objet dans un discours. On remarque en particulier que la rdp6tition d'un nom propre peut ~tre une maniSre de changer de thSme (puisqu'en gdn6ral, elle est motiv6e - par rapport i~ remploi d'un pronompar le fait que le personnage nomm6 n'est pas le thSme syntagmes sont plus prEpond6rants que d'autres ; en linguistique, on parle d'emphase, d'insistance. La position d'un syntagme h l'int6rieur d'une phrase semble aussi Etre un crit~re pour cat6goriser celui-ci comme th~me de la phrase. Nous reprenons ici les idles d6velopp6es autour de la fonction pr&lominante du sujet dans les expdriences cit6es, en remarquant que cette notion est addquate si ron ne considSre que des phrases d6claratives sans forme de focus marqude. Nous allons la gdn6raliser h des phrases interrogatives et d~s phrases comportant des syntagrnes en position de focus. Notre id6e est la suivante : &quot;un objet est mis en valeur dans une phrase lorsqu'il apparait en t&e de cette phrase et, de maniSre intuitive, au niveau le plus hauL&quot; Ceci est vrai pour des interrogatives : l'objet sur lequel porte une interrogative simple est en gdndral en t6te de la phrase.</Paragraph> <Paragraph position="15"> r6ellement compte de ce que ron peut appeler le 'topic' de la phrase. Certaines diff6rences plus subtile~ . entre deux positions syntaxiques sont 6galement pri~:~:s en compte en fonction de la profondeur (diff6rence d'importance entre un syntagme et son compl6ment de nom, moins grande importance des informations introduites au niveau d'une relative etc...). De plus, 30 3 pour des phrases dEclaratives, le syntagme nominal sujet de la phrase est bien le syntagme de t~te le plus 'haut' de la phrase. Notre criti~re est donc bien une gdnEmlisation de ce phdnom~ne.</Paragraph> <Paragraph position="16"> En se basant sur une representation du type Sstrucllure (\[Chomsky 82\]) de la phrase, ces considerations peuvent se resumer en : Lcri~;e 2.~/;s syn;agmes nom\]n~aux mis en valeur\] dans une phras.e sont ceux dont les nteuds\[ correspondant dans la S-structure de la, phrase sont\[ le plus haut et leplus d gauche de l arbre. ~U Pour permettre un changement de th~me dans un discours (ce qui peut arriver couramment), nous tiendrous dgalement compte de l'anciennet6 de la ptwase dans laquelle le syntagme apparait par rapport au dEveloppement du discours.</Paragraph> <Paragraph position="17"> Crit~re 3 : Un syntagme nominal r~cemment introduit est predominant par rapport aux syntagmes nominaux plus a nciensdans le d!scPSurs: ........</Paragraph> <Paragraph position="18"> Les crit~res 1, 2 et 3 permettent donc de determiner le th~me d'un discours. Voyons ieur utilisafion possible dans la recherche de l'antEcEdent d'un pronom.</Paragraph> <Paragraph position="19"> 111.2 - Application h la lev6e d'ambiguit6 dans le traitement des r6f6rences Pour choisir le r6fErent d'un pronom parmi les solutions non Ecartdes par la syntaxe et la sEmantique, on peut se baser sur le principe suivant : 'Un pronom a pour rEfErent de prEfErence le theme du discours'. On peut alors directement utiliser les crit~res 1-3.</Paragraph> <Paragraph position="20"> Cependant, d'autres crit~res spEcifiques ~ la recherche d'antEcEdent et indEpendants de la notion de th~me doivent Etre dgalement pris en compte. Nous allons en introduire deux en faisant le point sur ce qui est propose habituellement dans les syst~mes infonnatiques s'intEressant h ce problEme.</Paragraph> <Paragraph position="21"> Certains syst~mes infonnatiques int~grent dEjh des heuristiques concernant la recherche d'antEcfdent.</Paragraph> <Paragraph position="22"> Parmi les r~gles qui reviennent ie plus souvent, on peut citer : a) Les syntagmes nominaux dans une proposition principale sont prEfErgs/~ ceux inclus dans des subordonnEes (\[St Dizier 86\], \[Guenthner & Lehmann 83\]) b) Le syntagme nominal sujet est plus souvent repris que les autres (correspondant au Grammatical Function Filter de \[Asher & Wada 87\], cite Egalement dans \[Guenthner & Lehmann 83\] ) c) Un antEcEdent est plus probable pour une occurence de pronom donne si le pronom et l'antEcEdent ont le m~me r61e syntaxique (correspondant ~u Parallelism Filter de lAsher & Wada 87\]. Utilis6 Egalement dans \[Sedogbo 87\]. Correspond au crit~res de relations formelles entre phrases utilis6 pour la synth~se dans \[Danlos 85\]) d) L'antEcEdent d'un pronom le plus probable est celui qui est le plus prEs (\[St Dizier 86\] et Principe de ProximitE dans \[Guenthner & Lehmann 83\]) Remarquons d'abord que notre crit~re 2 est une gEnEralisation de a) et b). En ce qui concerne le crit~re de parallElisme c), il ne nous semble justifiE que dans des phrases dont les structures sont tr~s marquees ct dont la similarit6 est mise en Evidence par des mots tels que 'aussi', 'Egalement'. Nous ne l'utiliserons pas ici. Seul donc d) nous donne un principe supplEmentaire, dEtachE de la notion de th~me (donc non redondant avcc les hypotheses que nous avons faites prEcEdemment) et spEcifique &quot;/i la recherche d'antEcEdent. Nous l'avons de plus rencontre dans certains rEsultats des experiences que nous avons exposEcs (voir page 3). Nous posons donc tm quatriEme critEre : crit~re 4 (Prin?ipe de Proximit6) : Un syntagme nominal proche dun pronom est prddominant comme rdfdrent par rapport attx syntagmes nominaux plus dloignds dans le discours.</Paragraph> <Paragraph position="23"> Ce crit~re n'est pas redondant avec le crit~re 3 puisqu'il est spEcifique/i la recherche d'antEcddent et lie la position de chaque pronom.</Paragraph> <Paragraph position="24"> Pour le cas particulier de la cataphore, on peut utiliser une hypoth~se prEsentEe dans \[Guenthner & pronom sont prddominant comme rdfdrent par rapport d \[ ceux suivant le pronom (la rdfdrence en arridre est I d la cataphore) \]</Paragraph> <Section position="1" start_page="28" end_page="28" type="sub_section"> <SectionTitle> IV- Conclusion </SectionTitle> <Paragraph position="0"> A partir de ces crit~res, il est donc possible de choisir le syntagme nominal anttctdent d'un pronom parmi ceux que la syntaxe et la s6mantique n'ont .pas 6cartts. Remarquons que le crit~re 1 est totalement original et que le crit~re 2 est une g6ntralisation justifite de ce qui est utilis6 en gtntral. On peut dire que par l'ensemble des informations qu'ils prennent en compte et par leur modularitt, les crit~res que nous proposons peuvent jouer un r61e inttressant dans tm sysu3me informatique.</Paragraph> <Paragraph position="1"> I1 reste cependant ~t 6valuer quel est le poids de chacun d'eux par rapport aux autres, Sont-ils tous de mSme importance ? Par exemple, le crit~re 5 semble plus d6tcrminant que le Principe de Proximit6 : entre un syntagme nominal tr~s proche du pronom mais qui se trouve apr~s et un syntagme qui se trouve plus loin mais av~mt, on prtftrera sans doute celui qui se trouve avant. Leur rtle peut dtpendre 6galement du type du pronom (par exemple, le pronom 'celui-ci' a un comportement particulier). En fait, il ne nous semble possible de rtpondre/~ cette question qu'apr~s avoir rtellement test6 ces crit~res sur des textes en faisant varier leur influence rtciproque.</Paragraph> <Paragraph position="2"> Remarquons 6galement que les solutions que nous mentionnons ici pourraient &re inttgr6es dans un traitement plus 6labor6 du discours. Citons les recherches faites sur des modules informatiques de repr6sentation du discours, approche qui semble inttressante bien que la notion de module du discours ne soit pas encore vraiment dtfinie. Parmi ces modules, la DRT (\[Kamp 84\]) qui grhce h la notion de liste d'accessibilit6 et de sousdegdiscours est un pas vers l'inttgration de nouveaux crit~res dans la recherche d'ant6ctdent. I1 faut 6galement citer les travaux de linguistes sur les phtnom~ne d'&quot;empathie&quot; d'un discours et leur corrtlation avec des ph6nom~nes syntaxiques et la forme de surface d'une phrase. Les conceptz introduits dans \[Kuno & Kaburaki 77\] ('point de vue' du locuteur ~t Wavers la mani~re dont il s'exprime, verbe orient6 sujet et verbe orient6 objet, hidrarchie dans l'&quot;empathie&quot; suivant des critSres syntaxiques etc.) nous semblent inttressants.</Paragraph> </Section> </Section> class="xml-element"></Paper>