UN OUTIL MULTIDIMENSIONNEL DE L'ANALYSE DU DISCOURS 
J. CHAUCHE 
Laboratoire de Traitement de l'Information 
I.U.T. LE HAVRE Place Robert Schuman - 76610 LE HAVRE FRANCE 
& C.E.L.T.A. 23, Boulevard Albert let - 54000 NANCY FRANCE 
RESUME : 
Le traitement automatique du discours suppose 
un traitement algorithmique et informatique. Plu- 
sieurs m~thodes permettent d'appr~hender cet as- 
pect. L'utilisation d'un langage de programmation 
g~n~ral (par exemple PL/I) ou plus orient~ (par 
exemple LISP) repr~sente la premiere approche. A 
l'oppos~, l'utilisation d'un logiciel sp~cialis~ 
permet d'~viter l' ~tude algorithmlque n~cessaire 
dana le premier cas et de concentrer cette ~tude 
sur les aspects r~ellement sp~cifiques de ce trai- 
tement. Lea choix qui ont conduit ~ la d~finition 
du syst~ne SYGI4ART sont exposes ici. L'aspect mul- 
tldimensionnel eat analys~ du point de rue concep- 
tuel et permet de situer cette r~alisation par 
rapport aux diff~rents syst~mes existants. 
INTRODUCTION : 
Un iogiciel sp~cifique de traitement automati- 
que du discours comporte plusieurs ~l~ments : en 
premier lieu la description des objets manipul~s 
permet de d~finir l'univers de travail du r~alisa- 
teur. En second lieu la mani~re de manipuler ces 
oh jets rend compte des potentialit~s de r~alisa- 
tion d'application diverses. 11 eat n~cessaire au 
pr~alable de d~finir la nature du module sous- 
jacent par rapport aux theories existantes. Dana 
le present article on exposera donc successivement 
une approche du module th~orique, une description 
des objets manipul~s et enfln, lea outils de mani- 
pulations. L'exemple du syst~me SYGMART montre une 
r~alisation concrete des choix pr~c~de,=,ent expo- 
ses. 
Le module transformationnel. 
Du point de rue formel lea outils utilis~s pour 
le traitement automatique des langues naturelles 
peuvent se diviser en deux grandes categories : 
- le module g~n~ratif d~finissant un processus 
formel engendrant un langage. L'analyse consiste 
alors ~ retrouver le processus d~ductif condulsant 
la phrase ou au texte ~tudi~. C'est dana ce 
cadre que sont effectu~es la plupart des r~alisa- 
tions actuelles. L'exemple le plus important 
eat sans doute la d~finitlon des grammaires 
syntagmatiques et des analyseurs associ~s. Nous 
pouvons sch~natiser une r~alisation par le graphe 
suivant : 
Gr~-,-,ire Algorithme d' analyse 
syntagnmtique > / associ~ 
structure g~n~rative texte 
du texte 
Beaucoup de points s'opposent h cette d~marche. 
Lea principales dlfficult~s sont : 
Existe-t-il une gr,m,mlre compl~te des textes 
traiter ? 
Quel algorithme d'analyse mettre en oeuvre si 
lea restrictions formelles sont trop contrai- 
gnantes ? 
Dana le cas du traitement des langues naturel- 
lea, l'slgorithme utilis~ est-il suffisa-~ent 
souple pour permettre une adaptabilit~ cons- 
tante ? 
- Le module transformationnel qui d~finit une 
fonction d'un espace (textuel) dana un autre 
espace (relationnel) ou une fonctiou de l'espa- 
ce relationnel sur lui-m~me. 
Le schema eat alors le suivant : 
D~flnition du module > Algorithme de simula- 
transformationnel tion du modAle 
structure imag~ ~~'~'~ te!te 
Lea princlpales questions sont alors lea 
suivantes : 
Analyse : comment d~finir un accepteur d'un 
langage donn~ ? 
Preuve que la fonction transformationnelle eat 
partout d~finie. 
Existe-t-il un algorithme transformationnel 
acceptable et co~ment le d~crire ? 
Des r~alisations out d~j~ ~t~ effectu~es suivant 
cet aspect formel, nota-,-ent lea syst~nes Q, 
CETA puis ROBEA. Le but du present article eat 
d'exposer une ~volution de cette approche et en 
particulier l'approche multirelationnelle ou 
multidlmensionnelle. 
La s~paration relation ~tiquette ou structure at 
signification. 
Lorsque l'on utilise ~mod~le pour une appli- 
cation donn~e, on projette une signification sur 
un objet rowel. Pour cette raison chaque ~l~ent 
de la structure eat affect~ d'une ~tiquette ayant 
un sens particulier. 
Ex~ple : 
11 
Cette approche a l'inconv~nient de rassembler deux 
~ldments distincts par leurs natures et leurs si- 
gnifications : la structure et les ~tiquettes. 
GN ART SUB le livre 
structure ~tiquettes 
Sans cette s~paration chaque point posskde une 
seule identit~ et la structure doit alors r~pon- 
dre ~ au moins deux objectifs : 
-les liaisons ou relations syntaxiques 
• -les liaisons ou relations qualltatives 
Noun aurons dana le premier can : 
GN d~finissant le groupe nominal 
/~ composd d'un article et d'un 
ART SUB substantlf 
dens le second can : 
ART ddfinissant l'article comme 
/ d~fini SINGle singul ier 
DEF 
La plupart des modules transformationnels ont 
dt~ d~finis avec un multi-~tiquetage. 
GN 
ART DEF SUB MAS 
SING MAS 
1 ivre 
Cette approche importante d~termine les objets qui 
seront manipul~s de fa~on abstraite (th~orique) ou 
concrete (progr---,e). Ainsi les syst~nes Q par 
exemple op~rent sur des Q-graphes dont chaque bran- 
che est ~tiquet~e par une arborescence slmplement 
~tiquet~e. Le syst~me CETA op~re sur des arbores- 
cences multi-~tlquet~es. Dana ces deux can l'ana- 
lyse du discours consiste & rechercher une struc- 
ture qui repr~sentera alors la compr~henslou du 
syst~ne pour ce texte. L'exploitation de cette 
structure d~finira alors t'application. Une ~tude 
approfondie conduit h d~flnir comme objet de base 
un triplet : structure, multi-~tiquette, fonction 
d' association. 
1 A : GN i ÷ A 
/k k B : ART DEF SING MAS 2 ÷ B 
2 4 C : le 3 "," C I ~ 
D : SUB HAS 4 ÷ D 3 
E : livre 5 "* E 
structure mul ti-~tiquettes fonction 
d' association 
La fonction d'associetion n'est pas n~cessairement 
injective. Cette propri~t~ permet de mieux disso- 
cier structure et contenu : 
Exemple : Le grand et le petit arbre. 
I 
/ ~ A : COORD II : grand 
2' 3 B : GN I : DEF A 
A\ "°" D : DEF K : SUB 
4 5 6 7 8 9 E : GA L : le 
G : le N : arbre 
i0 II 12 13 14 15 
I÷A 8÷J 
2÷B 9÷K 
3÷C IO÷G 
4÷D II÷H 
5+E 12÷N 
6÷F 13÷L 
7÷I 14÷M 
15÷N 
L'ellipse du mot 'arbre" n'existe pan dana la 
structure et existe par la d~finition de la fonc- 
tion d'~tiquetage. Ce qui correspond sch~matique- 
ment au graphe suivant : 
\. 
le grand le petit arbre 
La d~finitlon pr~c~dente permet de d~finir des al- 
gorithmes de traitements slmples et efficaces 
alors que pour ce dernler type de graphe lea trai- 
tements comporteront des algorlthmes complexes. 
Elements structures. 
Un ~l~ment structur~ est par d~finition un ob- 
jet multidimensionnel ou multichamp. La structure 
pr~c@dente eat issue de l'~tude syntaxique des 
textes. Elle permet de d~finir une forme @labor~e 
du texte et d'avoir un acc~s h ses diff~rentes 
composantes en rapport avec leurs fonctions. Pour 
le traitement des langues naturelles il est bien 
sQr ~vident que cette analyse ne suffit pas. Cela 
ne signifie pan que tousles probl~mes li~s 
cette analyse soient r~solus mais que la levde 
des obstacles, de l'analyse syntaxique ou autre, 
suppose une ~tude plus approfondie. Lorsqu'une 
r~alisation utilise le m~ne espece d~finitionnel 
pour representer le seas et la forme les probl~- 
mes ~voquds pr~cddemment sur les difficultds li~es 
la confusion strueture-~tiquette se multiplient 
et se transportent au niveau structurel. Comment 
representer deux structures d'un texte donn~ sous 
forme arborescente sices deux arborescences sont 
contradictoires ? Ce probl~me eat insoluble dens 
le cadre arborescent classique. On peut bien sQr 
d~finir plusieurs types d'analyses, obtenir plu- 
sieurs arborescences du m~me texte. Dans ce cas 
la liaison entre ces diff~rentes arborescences 
sera tr~s difficile sinon impossible h formaliser 
et ~ mettre en oeuvre. El est donc n~cessaire d' 
avoir un module de representation qui permette de 
d~finir plusieurs structures sur le m@me ensemble 
de points, chacun de ces points ~tant associ~ 
une multi-~tlquette suivant une fonction quelcon- 
que. Cette d4finition correspond ~ la d~finition 
des ~l~ments structurds dont l'approche formelle 
eat la suivante : 
Un ~l~ment structur~ est d~fini par un 
quadruplet (P,S,E,F) o~ : 
P :est un ensemble fini de points 
S :est un ensemble fini de structures arbores- 
centes sur les points de Pet tel que chaque 
point de P appartient ~ au moins une structu- 
re de S. 
E :est un ensemble fini de multi-~tiquettes. 
12 
F : est une application surjective de P sur E. 
Exemple : ~ ~ 6 
34 715 
{E 1, E2, E3, E4} { 1~E4, 2-~E1,3~E1,4+E4,5÷E3,6~E2, 
7-+E 1,8-~E3 } ) 
la representation graphique d'un tel objet est plus 
facile lorsque l'on regarde une seule structure 
(une seule dimension ou champ). La synth~se gra- 
phique de cet exemple donne la figure suivante : 
. 
.... .\., ', 
\\ LI I ",,,:" ... ', 
Le problime classique de l'analyse textuelle, 
(ddfinir une grau.naire syntagmatlque engendrant 
un langage), est transform~ et devient : d~finir 
pour chaque ~l~ment du langage un ~l~nent struc- 
tur~ associ~. Le probl~me qui se pose alors est 
similaire ~ celui obtenu dans le cadre des gram- 
maires syntagmatiques : la d~finition de l'image 
structurelle recouvre-t-elle l'ensemble du langa- 
ge ? On peut remarquer que le cas des grammaires 
syntagumtiques est un cas particulier de cette 
approche. L'association est alors la suivante : 
on affecte ~ chaque ~l~ment du langage engendr~ 
par la gr----nire la structure syntaxique de cet 
~l~ment. 
Cette approche permet de ddfinir une associa- 
tion plus complexe par la multlplicitd des struc- 
tures assocides au m~me ensemble de points. On 
aura donc associd ~ chaque texte ses structures 
syntaxiques, sdmantiques, logiques, etc... En 
pratique le nombre de champs ou dimensions est 
limit~ (par exemple 16 dans le cas du syst~me 
SYGMART). 
Rdseau transformationnel : 
Un objet formel est intdressant dans la mesure 
o~ il existe un moyen de le manipuler. Cet aspect 
algorithmique est n~cessaire ~ route r~allsation 
et limite la complexitd des objets ddfinis. Le 
module op~ratoire pour les ~l~ments structures 
d~finis ci-dessus est r~alis~ par un r~seau trans- 
formatlonnel. Chaque point du r~seau est consti- 
tu~ d'une grammaire transformationnelle et chaque 
arc partant d'un point de ce r~seau est ~tiquet~ 
d'une condition bas~e sur la presence d'un schema. 
Exemple : ~.,~' G2 /~ 
Le r~sultat de l'application du r~seau transfor- 
mationnel est d~fini par l'~l~ment structur~ obte- 
nu apr~s le parcours de ce r~seau d'un point 
d'entr~e E ~ un point de 9ortie S. Le r~seau 
d~finit donc une application de l'ensemble des 
~l~ments structures dans lui-mSme. Le parcours 
de ce r~seau peut @tre simple ou r~cursif sulvant 
la nature des r~gles appliqu~es dans les gr---,-i- 
res ~l~mentalres. Une gram,mire transformationnel- 
le ~l~mentaire a donc pour but de d~finir une 
transformation de l'~l~ment structure. Cette 
transformation est r~alis~e par un ensemble de 
r~gles transformationnelles ordonn~es. Chaque 
r~gle d~finie un module de remplacement permet- 
rant une modification d'un ~l~ment structur~ 
quelconque. Cette r~gle pouvant @tre simple ou 
r~cursive et dans ce dernier cas falre appel 
au r~seau pour son execution. Le point central 
d'une graummire ~l~mentaire est donc constitu~ 
par une r~gle ~l~mentaire. Une r~gle ~l~mentaire 
est d~finie par un ensemble de transformations 
d'arhorescences, chacunede ces transformations 
devant s'appliquer sur un champ simultan~ment 
aux autres transformations des autres champs. Des 
contraintes correspondant ~ des points communs 
inter-champs peuvent ~tre d~finies. On peut remar- 
quer que le syst~me CETA constitue dans ce cadre 
un cas particulier de traitement sur un seul 
champ. La transformation dans un champ est une 
extension des d~finitlons de transformations 
d'arbre d~finies par Gladkij et Melcuk \[ 7 3. One 
gra~maire 41~mentaire poss~de ~galement un mode 
d'application permettant de limiter l'applicabi- 
lit4 des rAgles, cecl afin de d~finir un proces- 
sus transformationnel fini. L'ensemble des r~gles 
d'une grammaire ~l~mentaire est ordonn~ et d~finl 
un algorithme de Markov ~ 8 ~ ~tendu aux ~l~ments 
structures. La d~finition d'un modAle de recon- 
naissance s'effectue suivant un processus analo- 
gue k la recherche d'un programme d~finlssant une 
fonctlon donn~e. Les objets trait~s sont des ob" 
jets non classiques en progra~Ination et les modi- 
fications de ces objets ne s'effectuent pas 
travers un parcours de l'objet traitS, mais par 
la d~finition de transformations oumodiflcatlons 
de sous-objets. 
Solt par exemple la d~finitlon de l'analyse d'une 
phrase par Wang Huilln \[ 9 ~ : 
phrase : "sur ces donn~es, l'ordinateur dolt 
effectuer certains calculs sulvant un programme 
d~termin~." 
Structure recherch~e : 
• ULF~A I 
~ol ~ ~in . 
.... o,a" I 
13 
Par convention le texte est projetd suivant la 
fomne d'dldment structurd la plus proche du texte: 
L'dcriture du r4seau de grammaire va d~finir un 
processus de transformations pour obtenir la 
structure souhait~e. Pour des raisons ~videntes 
nous avons simplifi4 la representation dans eat 
exemple en d~finissant sur chaque point une par- 
tie de l'ensemble des valeurs de l'dtiquette as- 
socide et an ne consld~rant qu'un seul champ. 
La premiare grammnlre dolt permettre une distinc- 
tion entre phrase au cas o~ le texte en comporte- 
rait plusieurs (bien s~r ~galement dans le cas o~ 
l'analyse a dt~ choisie phrase par phrase). Ceci 
s'effectue en trois ~tapes : 
initialisation • > ~ A 
r~.le ..n.rique /y~ '~ /~ 
X . X . PH 
• oA • y ~ 
r~gle finale • 
#A X 
La structure recherch~e est d~duite de la structu- 
re syntaxique qui dana ce cas eat la suivante : ^~~ 
La r~gle suivante (rgnfl dans ~ 9 \] ~st utilis~e 
pour obtenir les regroupements GN : 
Cette r~gle appliqu~e sur le texte pr~cddent donne 
par exemple : 
"I '" "or dinar eur" "i ' " " " ordlnateur" 
Cet exemple utilise deux r~seaux de grammaires 
enchain4es, le premier correspondant ~ la recher- 
che de la structure syntaxique, le second, ~ la 
construction de la structure choisie (grammaire 
FI2 et FI3 dans\[ 9 3). 
La s~paratlon structure-~tlquette induit une pro- 
pri~t~ importante par rapport ~ la puissance de 
d~finition d'une r~gle : 
La g~n~ralit~ des transformations peut se d4finir 
en deux 4tapes : d~finition structurelle et d~fi- 
nltion sdmantlque. La d4finition structurelle est 
tr~s g~n~rale et la d~finition s~mantique tr~s 
sp~cifique. La r~gle est alors applicable si la 
d~finition s4mantique adapt4e ~ la d~finition 
structurelle correspond ~ une rdallsation effec- 
tive clans l'~l~ment structur4 trait4. Nous avons 
le ach~na fonctionnel suivant : 
I base de .connaissance \[ 
d~finition structurelle • r~gle produite 
Si par example on veut d~finir la transformation : 
apprendre quelque chose ~ quelqu'un ~ enseigner 
quelque chose ~ quelqu'un. 
la base de connaissance pr~cisera : apprendre 
÷ enseigner 
et la r~gle structurelle : 
l/O~3 i/O~3 dans ce cas prdcis il n'y 
a pas de modification struc- 
I ~ I I turelle, la structure est 
2 4 2 4 n~ar~moins n~cessaire 
Avecla mame r~gle nous pouvons avoir dans la 
base de connaissance la transformation : 
offrir ~ ÷ donner & 
permettant la transformation : 
offrir quelque chose h quelqu'un ÷ donner 
quelque chose ~ quelqu'un. 
hbus avons ainsi avec une seule r~gle structurelle 
d~fini deux r~gles potentiellement applicables. 
L'avantage d'une telle ddfinltion est 4vident : 
factorisatlon des r~gles, ind~pendance de la 
grammaire par rapport aux lexique, possibilitd de 
d~finir un comportement sp4cifique pour chaque 
~1~ment du lexique sans avoir h d~flnir une gram- 
.mire de transformations structurelles trop im- 
portante. 
Le syst~me SYGMART : 
Le syst~me SYGMART est un syst~me op4ratlonnel 
simulant un module transformationnel d'~l~ments 
structur4s. II est compos~ de trois sous-syst~mes 
OPALE, TELESI et AGATE, chacun de ces sous-syst~- 
mes correspondant aux diff~rentes fonctions essen- 
tielles de traitement d'un texte : 
OPALE effectue le passage texte 414ment struc- 
ture. 
TELESI effectue la transformation d'~l~ments 
structur4s. 
AGATE effectue le passage d'41~nent structur~ 
texte. 
La forme g4n4rale de l'applicatlon d'un sous 
syst~me est la suivante : 
l donn~es compil~ donn~es 
programmes compil4es 
texte , I simulationl , image 
14 
Les donn4es programes comportent deux ~l~ments : 
un dictionnaire d~finissant la base de connaissan- 
ce et une grammaire d~finissant le processus 
transformationnel. 
Le sous-syst~me OPALE : 
Ce sous-syst~me permet de d~finir un ~14ment 
structur4 ~ partir d'un texte. Chaque champ com- 
portera la m~me structure et chaque point de 
cette structure sera associ4 h une 4tiquette 
correspondant au r~sultat d'une analyse d'un 
mot suivant ce sous-syst~me. Cette analyse est 
bas4e sur un automate d'4tats finis permettant 
une lecture d'un dictionnaire avec segmentation. 
Au cours de cette segmentation diff~rents 
renseignements sont ~valu4s et m~moris~s dans 
l'~tiquette r~sultante de l'analyse. 
Le sous-syst~me TELESI : 
Ce sous-syst~me d~finit le processus central 
du syst~nne SYCMART. Ii permet de d~finlr un 
r4seau transformationnel. Ce r~seau est compos~ 
de grammaires comportant un ensemble (4ventuel- 
lement vide) de r~gles. Chaque gra~snaire d~finit 
une transformation d'414ments structures et le 
r~sultat de cette grannnaire d4finit le parcours 
du r~seau. Chaque granm~aire poss~de un mode d'ap- 
plication, le plus complexe ~tant le mode r~cursif 
qui permet de d4finir un parcours de l'objet 
transformS. Le r~seau d~finit lui-m~me une trans- 
formation d'41~ments structures. L'entr4e du sys- 
t~me est compos~ soit du r~sultat du sous-syst~me 
OPALE soit du r~sultat de l'application de ce 
sous-syst~me lui-m~me. Le dictionnaire associ4 
au sous-syst~me TELESI d~finit la base de con- 
naissances h associer auX r~gles de transforma- 
tions. Cette application du contenu du dictionnai- 
re par rapport aux r~gles de transformations, 
s'effectue de mani~re dynamique. 
Le sous-syst~me AGATE : 
Ce dernier sous-syst~me d~finit la transfor- 
mation ~l~ment structur~ texte. Cette transfor- 
mation est n~cessaire dans beaucoup d'application 
et s'effectue par le parcours canonique d'une 
arborescence d'un champ d~termin~. Chaque ~tiquet- 
te associ~e ~ un point de ce parcours permet de 
d~finir un mot ~ l'alde d'un automate d'~tats 
finis de synth~se, mirolr du sous-syst~me OPALE. 
La forme g~n~rale de l'application du syst~me 
SYGMART est la suivante : 
'~TELESI 
OPALE . ~l&nent AGATE ) texte texte structur~ 
Du point de rue pratique, le syst~me SYGMART 
existe en trois versions. Deux versions PL/I et 
une version C. Les versions PL/I sont d~flnies 
sous les syst~nes IBM OS/MVS et Honeywell Multics. 
La version C est d~finie sous le syst~me UNIX et 
fonctionne sons un syst~me ~ base du microproces- 
seur MC680OO. Une r~alisatlon sur une traduction 
automatique Espagnol-Frangals effectu~e au CELTA 
avec le syst~me SYGMART donne un exemple du temps 
d'ex~cution n~cessaire : la traduction d'un texte 
de 800 mots trait~s ensembles (et non phrase par 
phrase, ce qui implique la manipulation d'arbo- 
rescences et d'~l~ments structures de plus d'un 
millier de points) a ~t~ r~alis~e sur un Amdahl 
470/V7 en 33 mn 38 s (soit 14 106 op~rations/mots) 
La version micro-ordinateur n~cessite une m~moire 
d'au moins 756 Ko et un dlsque dur d'au moins 20 
Mo. Les trois exemples sulvants sont extraits de 
trois r~alisations distlnctes et repr4sentent des 
parties de gra*mnaires TELESI : 
1) extrait de la grammaire d'analyse de l'espa- 
gnol C. VIGROUX CELTA France. 
2) extrait de la grammaire d'analyse du Chinois 
WANG HUIN LIN Institut de Linguistique 
Pekin Chine. 
3) extrait de la grammaire d'analyse du 
N~erlandais P. ROLF Universit~ Catholique 
de Nim~gue Hollande. 
--~ --m--= --~= --=--= --= --= -~=- 
REFERENCES : 
\[ 1 \] : BOITET C., GUILLAUME P., QUEZEL-AMBRUNAZ M 
Manipulation d'arborescences et parall~lis- 
me : syst~me ROBRA, COLING 1978. 
\[ 2 U : ~UORE 3. 
Transducteurs et arborescences 
Th~se, Grenoble 1975. 
\[ 3 \] : c  CHE j 
Le Syst~me SYGMART 
Document privisoire, Le Havre 1980. 
\[ 4 \] : CHAUCHE J., CHEBOLDAEFF V., JATTEAU M., 
LESCOEUR R. 
Specification d'un syst~me de traduction 
assist~e par ordinateur. 
\[ 5 \] : COU'~E~UER A. 
Les syst~mes Q, Universit~ de Montreal 
1970. 
\[ 6 \] : n.a~ A, BOURQUIN Me, ATTALI A., 
I~COMTE J. 
Les probl~mes li~s au passage de la structure 
de surface vers la structure d'interface. 
CELTA Nancy, 1981. 
\[ 7 \] : GLADKIJ A.V., MEL'CUK I.A. 
Tree grammars, Linguistics Mouton 1975. 
\[ 8 \] : MENDELSON 
Introduction to mathematical logic 
VAN NOSTRAND 1964 
\[9\] : WANG H. 
La place de la modalit~ dans un syst~me de 
traduction automatique trilingue 
Fran~ais-Anglals-Chinois. 
Thase, NANCY 1983 
15 
