File Information

File: 05-lr/acl_arc_1_sum/cleansed_text/xml_by_section/metho/84/p84-1004_metho.xml

Size: 19,396 bytes

Last Modified: 2025-10-06 14:11:36

<?xml version="1.0" standalone="yes"?>
<Paper uid="P84-1004">
  <Title>UN OUTIL MULTIDIMENSIONNEL DE L'ANALYSE DU DISCOURS</Title>
  <Section position="1" start_page="0" end_page="0" type="metho">
    <SectionTitle>
UN OUTIL MULTIDIMENSIONNEL DE L'ANALYSE DU DISCOURS
J. CHAUCHE
</SectionTitle>
    <Paragraph position="0"> Laboratoire de Traitement de l'Information I.U.T. LE HAVRE Place Robert Schuman - 76610 LE HAVRE FRANCE &amp; C.E.L.T.A. 23, Boulevard Albert let - 54000 NANCY FRANCE</Paragraph>
  </Section>
  <Section position="2" start_page="0" end_page="0" type="metho">
    <SectionTitle>
RESUME :
</SectionTitle>
    <Paragraph position="0"> Le traitement automatique du discours suppose un traitement algorithmique et informatique. Plusieurs m~thodes permettent d'appr~hender cet aspect. L'utilisation d'un langage de programmation g~n~ral (par exemple PL/I) ou plus orient~ (par exemple LISP) repr~sente la premiere approche. A l'oppos~, l'utilisation d'un logiciel sp~cialis~ permet d'~viter l' ~tude algorithmlque n~cessaire dana le premier cas et de concentrer cette ~tude sur les aspects r~ellement sp~cifiques de ce traitement. Lea choix qui ont conduit ~ la d~finition du syst~ne SYGI4ART sont exposes ici. L'aspect multldimensionnel eat analys~ du point de rue conceptuel et permet de situer cette r~alisation par rapport aux diff~rents syst~mes existants.</Paragraph>
  </Section>
  <Section position="3" start_page="0" end_page="11" type="metho">
    <SectionTitle>
INTRODUCTION :
</SectionTitle>
    <Paragraph position="0"> Un iogiciel sp~cifique de traitement automatique du discours comporte plusieurs ~l~ments : en premier lieu la description des objets manipul~s permet de d~finir l'univers de travail du r~alisateur. En second lieu la mani~re de manipuler ces oh jets rend compte des potentialit~s de r~alisation d'application diverses. 11 eat n~cessaire au pr~alable de d~finir la nature du module sousjacent par rapport aux theories existantes. Dana le present article on exposera donc successivement une approche du module th~orique, une description des objets manipul~s et enfln, lea outils de manipulations. L'exemple du syst~me SYGMART montre une r~alisation concrete des choix pr~c~de,=,ent exposes. null Le module transformationnel.</Paragraph>
    <Paragraph position="1"> Du point de rue formel lea outils utilis~s pour le traitement automatique des langues naturelles peuvent se diviser en deux grandes categories : - le module g~n~ratif d~finissant un processus formel engendrant un langage. L'analyse consiste alors ~ retrouver le processus d~ductif condulsant la phrase ou au texte ~tudi~. C'est dana ce cadre que sont effectu~es la plupart des r~alisations actuelles. L'exemple le plus important eat sans doute la d~finitlon des grammaires syntagmatiques et des analyseurs associ~s. Nous pouvons sch~natiser une r~alisation par le graphe suivant : Gr~-,-,ire Algorithme d' analyse syntagnmtique &gt; / associ~ structure g~n~rative texte du texte Beaucoup de points s'opposent h cette d~marche.</Paragraph>
    <Paragraph position="2"> Lea principales dlfficult~s sont : Existe-t-il une gr,m,mlre compl~te des textes traiter ? Quel algorithme d'analyse mettre en oeuvre si lea restrictions formelles sont trop contraignantes ? Dana le cas du traitement des langues naturellea, l'slgorithme utilis~ est-il suffisa-~ent souple pour permettre une adaptabilit~ constante ? - Le module transformationnel qui d~finit une fonction d'un espace (textuel) dana un autre espace (relationnel) ou une fonctiou de l'espace relationnel sur lui-m~me.</Paragraph>
    <Paragraph position="3"> Le schema eat alors le suivant : D~flnition du module &gt; Algorithme de simulatransformationnel tion du modAle structure imag~ ~~'~'~ te!te Lea princlpales questions sont alors lea suivantes : Analyse : comment d~finir un accepteur d'un langage donn~ ? Preuve que la fonction transformationnelle eat partout d~finie.</Paragraph>
    <Paragraph position="4"> Existe-t-il un algorithme transformationnel acceptable et co~ment le d~crire ? Des r~alisations out d~j~ ~t~ effectu~es suivant cet aspect formel, nota-,-ent lea syst~nes Q, CETA puis ROBEA. Le but du present article eat d'exposer une ~volution de cette approche et en particulier l'approche multirelationnelle ou multidlmensionnelle.</Paragraph>
    <Paragraph position="5"> La s~paration relation ~tiquette ou structure at signification.</Paragraph>
    <Paragraph position="6"> Lorsque l'on utilise ~mod~le pour une application donn~e, on projette une signification sur un objet rowel. Pour cette raison chaque ~l~ent de la structure eat affect~ d'une ~tiquette ayant un sens particulier.</Paragraph>
    <Paragraph position="8"> Cette approche a l'inconv~nient de rassembler deux ~ldments distincts par leurs natures et leurs significations : la structure et les ~tiquettes.</Paragraph>
    <Paragraph position="9"> GN ART SUB le livre structure ~tiquettes Sans cette s~paration chaque point posskde une seule identit~ et la structure doit alors r~pondre ~ au moins deux objectifs : -les liaisons ou relations syntaxiques * -les liaisons ou relations qualltatives Noun aurons dana le premier can :</Paragraph>
  </Section>
  <Section position="4" start_page="11" end_page="14" type="metho">
    <SectionTitle>
GN
ART DEF SUB MAS
SING MAS
1 ivre
</SectionTitle>
    <Paragraph position="0"> Cette approche importante d~termine les objets qui seront manipul~s de fa~on abstraite (th~orique) ou concrete (progr---,e). Ainsi les syst~nes Q par exemple op~rent sur des Q-graphes dont chaque branche est ~tiquet~e par une arborescence slmplement ~tiquet~e. Le syst~me CETA op~re sur des arborescences multi-~tlquet~es. Dana ces deux can l'analyse du discours consiste &amp; rechercher une structure qui repr~sentera alors la compr~henslou du syst~ne pour ce texte. L'exploitation de cette structure d~finira alors t'application. Une ~tude approfondie conduit h d~flnir comme objet de base un triplet : structure, multi-~tiquette, fonction d' association.</Paragraph>
    <Paragraph position="2"> structure mul ti-~tiquettes fonction d' association La fonction d'associetion n'est pas n~cessairement injective. Cette propri~t~ permet de mieux dissocier structure et contenu :</Paragraph>
    <Paragraph position="4"> L'ellipse du mot 'arbre&amp;quot; n'existe pan dana la structure et existe par la d~finition de la fonction d'~tiquetage. Ce qui correspond sch~matiquement au graphe suivant : \.</Paragraph>
    <Paragraph position="5"> le grand le petit arbre La d~finitlon pr~c~dente permet de d~finir des algorithmes de traitements slmples et efficaces alors que pour ce dernler type de graphe lea traitements comporteront des algorlthmes complexes. Elements structures.</Paragraph>
    <Paragraph position="6"> Un ~l~ment structur~ est par d~finition un objet multidimensionnel ou multichamp. La structure pr~c@dente eat issue de l'~tude syntaxique des textes. Elle permet de d~finir une forme @labor~e du texte et d'avoir un acc~s h ses diff~rentes composantes en rapport avec leurs fonctions. Pour le traitement des langues naturelles il est bien sQr ~vident que cette analyse ne suffit pas. Cela ne signifie pan que tousles probl~mes li~s cette analyse soient r~solus mais que la levde des obstacles, de l'analyse syntaxique ou autre, suppose une ~tude plus approfondie. Lorsqu'une r~alisation utilise le m~ne espece d~finitionnel pour representer le seas et la forme les probl~mes ~voquds pr~cddemment sur les difficultds li~es la confusion strueture-~tiquette se multiplient et se transportent au niveau structurel. Comment representer deux structures d'un texte donn~ sous forme arborescente sices deux arborescences sont contradictoires ? Ce probl~me eat insoluble dens le cadre arborescent classique. On peut bien sQr d~finir plusieurs types d'analyses, obtenir plusieurs arborescences du m~me texte. Dans ce cas la liaison entre ces diff~rentes arborescences sera tr~s difficile sinon impossible h formaliser et ~ mettre en oeuvre. El est donc n~cessaire d' avoir un module de representation qui permette de d~finir plusieurs structures sur le m@me ensemble de points, chacun de ces points ~tant associ~ une multi-~tlquette suivant une fonction quelconque. Cette d4finition correspond ~ la d~finition</Paragraph>
    <Paragraph position="8"> la representation graphique d'un tel objet est plus facile lorsque l'on regarde une seule structure (une seule dimension ou champ). La synth~se graphique de cet exemple donne la figure suivante :</Paragraph>
    <Paragraph position="10"> Le problime classique de l'analyse textuelle, (ddfinir une grau.naire syntagmatlque engendrant un langage), est transform~ et devient : d~finir pour chaque ~l~ment du langage un ~l~nent structur~ associ~. Le probl~me qui se pose alors est similaire ~ celui obtenu dans le cadre des grammaires syntagmatiques : la d~finition de l'image structurelle recouvre-t-elle l'ensemble du langage ? On peut remarquer que le cas des grammaires syntagumtiques est un cas particulier de cette approche. L'association est alors la suivante : on affecte ~ chaque ~l~ment du langage engendr~ par la gr----nire la structure syntaxique de cet ~l~ment.</Paragraph>
    <Paragraph position="11"> Cette approche permet de ddfinir une association plus complexe par la multlplicitd des structures assocides au m~me ensemble de points. On aura donc associd ~ chaque texte ses structures syntaxiques, sdmantiques, logiques, etc... En pratique le nombre de champs ou dimensions est limit~ (par exemple 16 dans le cas du syst~me SYGMART).</Paragraph>
    <Paragraph position="12"> Rdseau transformationnel : Un objet formel est intdressant dans la mesure o~ il existe un moyen de le manipuler. Cet aspect algorithmique est n~cessaire ~ route r~allsation et limite la complexitd des objets ddfinis. Le module op~ratoire pour les ~l~ments structures d~finis ci-dessus est r~alis~ par un r~seau transformatlonnel. Chaque point du r~seau est constitu~ d'une grammaire transformationnelle et chaque arc partant d'un point de ce r~seau est ~tiquet~ d'une condition bas~e sur la presence d'un schema. Exemple : ~.,~' G2 /~ Le r~sultat de l'application du r~seau transformationnel est d~fini par l'~l~ment structur~ obtenu apr~s le parcours de ce r~seau d'un point d'entr~e E ~ un point de 9ortie S. Le r~seau d~finit donc une application de l'ensemble des ~l~ments structures dans lui-mSme. Le parcours de ce r~seau peut @tre simple ou r~cursif sulvant la nature des r~gles appliqu~es dans les gr---,-ires ~l~mentalres. Une gram,mire transformationnelle ~l~mentaire a donc pour but de d~finir une transformation de l'~l~ment structure. Cette transformation est r~alis~e par un ensemble de r~gles transformationnelles ordonn~es. Chaque r~gle d~finie un module de remplacement permetrant une modification d'un ~l~ment structur~ quelconque. Cette r~gle pouvant @tre simple ou r~cursive et dans ce dernier cas falre appel au r~seau pour son execution. Le point central d'une graummire ~l~mentaire est donc constitu~ par une r~gle ~l~mentaire. Une r~gle ~l~mentaire est d~finie par un ensemble de transformations d'arhorescences, chacunede ces transformations devant s'appliquer sur un champ simultan~ment aux autres transformations des autres champs. Des contraintes correspondant ~ des points communs inter-champs peuvent ~tre d~finies. On peut remarquer que le syst~me CETA constitue dans ce cadre un cas particulier de traitement sur un seul champ. La transformation dans un champ est une extension des d~finitlons de transformations d'arbre d~finies par Gladkij et Melcuk \[ 7 3. One gra~maire 41~mentaire poss~de ~galement un mode d'application permettant de limiter l'applicabilit4 des rAgles, cecl afin de d~finir un processus transformationnel fini. L'ensemble des r~gles d'une grammaire ~l~mentaire est ordonn~ et d~finl un algorithme de Markov ~ 8 ~ ~tendu aux ~l~ments structures. La d~finition d'un modAle de reconnaissance s'effectue suivant un processus analogue k la recherche d'un programme d~finlssant une fonctlon donn~e. Les objets trait~s sont des ob&amp;quot; jets non classiques en progra~Ination et les modifications de ces objets ne s'effectuent pas travers un parcours de l'objet traitS, mais par la d~finition de transformations oumodiflcatlons de sous-objets.</Paragraph>
    <Paragraph position="13"> Solt par exemple la d~finitlon de l'analyse d'une phrase par Wang Huilln \[ 9 ~ : phrase : &amp;quot;sur ces donn~es, l'ordinateur dolt effectuer certains calculs sulvant un programme</Paragraph>
    <Paragraph position="15"> Par convention le texte est projetd suivant la fomne d'dldment structurd la plus proche du texte: L'dcriture du r4seau de grammaire va d~finir un processus de transformations pour obtenir la structure souhait~e. Pour des raisons ~videntes nous avons simplifi4 la representation dans eat exemple en d~finissant sur chaque point une partie de l'ensemble des valeurs de l'dtiquette associde et an ne consld~rant qu'un seul champ.</Paragraph>
    <Paragraph position="16"> La premiare grammnlre dolt permettre une distinction entre phrase au cas o~ le texte en comporterait plusieurs (bien s~r ~galement dans le cas o~ l'analyse a dt~ choisie phrase par phrase). Ceci s'effectue en trois ~tapes :</Paragraph>
    <Paragraph position="18"> La structure recherch~e est d~duite de la structure syntaxique qui dana ce cas eat la suivante : ^~~ La r~gle suivante (rgnfl dans ~ 9 \] ~st utilis~e pour obtenir les regroupements GN : Cette r~gle appliqu~e sur le texte pr~cddent donne par exemple : &amp;quot;I '&amp;quot; &amp;quot;or dinar eur&amp;quot; &amp;quot;i ' &amp;quot; &amp;quot; &amp;quot; ordlnateur&amp;quot; Cet exemple utilise deux r~seaux de grammaires enchain4es, le premier correspondant ~ la recherche de la structure syntaxique, le second, ~ la construction de la structure choisie (grammaire FI2 et FI3 dans\[ 9 3).</Paragraph>
    <Paragraph position="19"> La s~paratlon structure-~tlquette induit une propri~t~ importante par rapport ~ la puissance de d~finition d'une r~gle : La g~n~ralit~ des transformations peut se d4finir en deux 4tapes : d~finition structurelle et d~finltion sdmantlque. La d4finition structurelle est tr~s g~n~rale et la d~finition s~mantique tr~s sp~cifique. La r~gle est alors applicable si la d~finition s4mantique adapt4e ~ la d~finition structurelle correspond ~ une rdallsation effective clans l'~l~ment structur4 trait4. Nous avons le ach~na fonctionnel suivant : I base de .connaissance \[ d~finition structurelle * r~gle produite Si par example on veut d~finir la transformation : apprendre quelque chose ~ quelqu'un ~ enseigner quelque chose ~ quelqu'un.</Paragraph>
    <Paragraph position="20"> la base de connaissance pr~cisera : apprendre / enseigner et la r~gle structurelle : l/O~3 i/O~3 dans ce cas prdcis il n'y a pas de modification struc-</Paragraph>
    <Paragraph position="22"> Avecla mame r~gle nous pouvons avoir dans la base de connaissance la transformation : offrir ~ / donner &amp; permettant la transformation : offrir quelque chose h quelqu'un / donner quelque chose ~ quelqu'un.</Paragraph>
    <Paragraph position="23"> hbus avons ainsi avec une seule r~gle structurelle d~fini deux r~gles potentiellement applicables. L'avantage d'une telle ddfinltion est 4vident : factorisatlon des r~gles, ind~pendance de la grammaire par rapport aux lexique, possibilitd de d~finir un comportement sp4cifique pour chaque ~1~ment du lexique sans avoir h d~flnir une gram.mire de transformations structurelles trop importante. null Le syst~me SYGMART : Le syst~me SYGMART est un syst~me op4ratlonnel simulant un module transformationnel d'~l~ments structur4s. II est compos~ de trois sous-syst~mes OPALE, TELESI et AGATE, chacun de ces sous-syst~mes correspondant aux diff~rentes fonctions essentielles de traitement d'un texte : OPALE effectue le passage texte 414ment structure. null TELESI effectue la transformation d'~l~ments structur4s.</Paragraph>
    <Paragraph position="24"> AGATE effectue le passage d'41~nent structur~ texte.</Paragraph>
    <Paragraph position="25"> La forme g4n4rale de l'applicatlon d'un sous syst~me est la suivante : l donn~es compil~ donn~es programmes compil4es texte , I simulationl , image  Les donn4es programes comportent deux ~l~ments : un dictionnaire d~finissant la base de connaissance et une grammaire d~finissant le processus transformationnel.</Paragraph>
    <Paragraph position="26"> Le sous-syst~me OPALE : Ce sous-syst~me permet de d~finir un ~14ment structur4 ~ partir d'un texte. Chaque champ comportera la m~me structure et chaque point de cette structure sera associ4 h une 4tiquette correspondant au r~sultat d'une analyse d'un mot suivant ce sous-syst~me. Cette analyse est bas4e sur un automate d'4tats finis permettant une lecture d'un dictionnaire avec segmentation. Au cours de cette segmentation diff~rents renseignements sont ~valu4s et m~moris~s dans l'~tiquette r~sultante de l'analyse.</Paragraph>
    <Paragraph position="27"> Le sous-syst~me TELESI : Ce sous-syst~me d~finit le processus central du syst~nne SYCMART. Ii permet de d~finlr un r4seau transformationnel. Ce r~seau est compos~ de grammaires comportant un ensemble (4ventuellement vide) de r~gles. Chaque gra~snaire d~finit une transformation d'414ments structures et le r~sultat de cette grannnaire d4finit le parcours du r~seau. Chaque granm~aire poss~de un mode d'application, le plus complexe ~tant le mode r~cursif qui permet de d4finir un parcours de l'objet transformS. Le r~seau d~finit lui-m~me une transformation d'41~ments structures. L'entr4e du syst~me est compos~ soit du r~sultat du sous-syst~me OPALE soit du r~sultat de l'application de ce sous-syst~me lui-m~me. Le dictionnaire associ4 au sous-syst~me TELESI d~finit la base de connaissances h associer auX r~gles de transformations. Cette application du contenu du dictionnaire par rapport aux r~gles de transformations, s'effectue de mani~re dynamique.</Paragraph>
    <Paragraph position="28"> Le sous-syst~me AGATE : Ce dernier sous-syst~me d~finit la transformation ~l~ment structur~ texte. Cette transformation est n~cessaire dans beaucoup d'application et s'effectue par le parcours canonique d'une arborescence d'un champ d~termin~. Chaque ~tiquette associ~e ~ un point de ce parcours permet de d~finir un mot ~ l'alde d'un automate d'~tats finis de synth~se, mirolr du sous-syst~me OPALE. La forme g~n~rale de l'application du syst~me SYGMART est la suivante : '~TELESI OPALE . ~l&amp;nent AGATE ) texte texte structur~ Du point de rue pratique, le syst~me SYGMART existe en trois versions. Deux versions PL/I et une version C. Les versions PL/I sont d~flnies sous les syst~nes IBM OS/MVS et Honeywell Multics. La version C est d~finie sous le syst~me UNIX et fonctionne sons un syst~me ~ base du microprocesseur MC680OO. Une r~alisatlon sur une traduction automatique Espagnol-Frangals effectu~e au CELTA avec le syst~me SYGMART donne un exemple du temps d'ex~cution n~cessaire : la traduction d'un texte de 800 mots trait~s ensembles (et non phrase par phrase, ce qui implique la manipulation d'arborescences et d'~l~ments structures de plus d'un millier de points) a ~t~ r~alis~e sur un Amdahl 470/V7 en 33 mn 38 s (soit 14 106 op~rations/mots) La version micro-ordinateur n~cessite une m~moire d'au moins 756 Ko et un dlsque dur d'au moins 20 Mo. Les trois exemples sulvants sont extraits de trois r~alisations distlnctes et repr4sentent des parties de gra*mnaires TELESI :</Paragraph>
  </Section>
class="xml-element"></Paper>
Download Original XML