Une representation s6mantique et un syst~me de transfert 
pour une traduction de haute qualit6. 
Prtsentation de projet 
Avec dtmonstration sur machines SUN 
K. BOESEFELDT et P. BOUILLON 
ISSCO 
54, route des ACACIAS 
1227 GENEVE 
kathy@divsun.unige.ch/pb @divsun.unige.ch 
1. Introduction 
Le projet que nous prtsentons clans oct article a 
pour but I'imptOnentation Can syst~me de traduction 
automatique pour des bulletins d'avalanches, qui 
utilise ELU, un environnement linguistique 
d'lmification, bast sur la mtthode du transfert. Un tel 
projet ntcessite l'tcriture et la maintenance de 
plusieurs grammaires et d'un ensemble de rtgles de 
transfert. 
Darts cet article, noas commencons par pr6senter 
de mani6re tr6s succincte le projet. Nous tentons 
ensulte de demontrer les iimites d'un sysl/:me inter- 
lingua. Nous montrons d'abord qu'une collaboration 
trds ~troite lors du dtveloppement des difftrentes 
grammaires nous permet gtntralement d'obtenir une 
m~me reprtsentation stmantique darts les deux 
langues, ce qui rend le transfer plus efficace et offre la 
possibilit6 de construire une modelisation gtntrale du 
domame. Mais nous mettons easuite en Evidence, h 
l'alde d'exemples concrets, qu'une traduction de 
bonne qualit~ ntcessite un syst~me de transfert, qui 
seul nons permet de falre face h des variations struc- 
turelles et culturelles imponantes. 
2. Le projet de traduetion automatique des bul- 
letins d'avalanches 
Ce projet a pour but l'impltmentation d'un 
syst~me de traduction automatique pour des bulletins 
d'avalanches 6mis par I'IFENA 1 , one ~t plusieurs lois 
par semame pendant l'hiver. Ecrits ifiitialement en 
allemand, ces bulletins doivent ensuite 6tre traduits 
dens les deux antres langues oflicielles suisses, le 
francals et l'italien. La possibilit~ de l'ouverture d'un 
lnstitut semblable en rtgion francophone, qui 
rtdigerait les bulletins en francais, nous a dtcidts 
adopter une approche bidirectionnelle. Pour I'instant, 
le travail se concentre sur le francais et l'allemand. 
Nous avons dejh montr6 que les bulletins d'avalanches 
constituent une application idtale pour la traduction 
automatique (BOUILLON et al., 1991 et 1992a, 
BOESEFELDT et al., 1991). lls traitent en effet du 
domaine limit~ des avalanches en Sulsse et utilisent tm 
sous-langage bien dtfini (SALM, 1982), quoique rela- 
tivement complexe. I1 est donc possible de limiter te 
traitement automatique ~t ce sous-langage et de 
btntficier de tons les avantages qu'il offre. Nons 
pouvons notamment ~viter de modifier le style des bul- 
letins, en tmitant toes les phtnomtnes du corpus et 
exclure toute post-&lition humame. 
3. La mise en oeuvre des grammaires et le choix de 
la repr6sentation s6mantique 
3.1. I~ Iogieiel 
Le syst~me de traduction des avalanches est mis 
en oeuvre avec ELU, un environnement linguistique 
d'unilication, dtvelopp~ gt I'ISSCO pour interprtter 
des grammaires ~'rites dans un langage particulier. II 
comprend quatre modules : un module lexical, an 
analyseur, un gtntrateur et une composante de 
mansfert fESTIVAL, 1990). L'analyseur permet 
d'obtenir pour une phrase les reprtsentatioas en struc- 
tures d'attributs permits par la grammaire. Le module 
de transfert 6tablit une relation binake entre deux 
structures de waits pour permettre le passage d'one 
langue h l'autre fESTIVAL et al., 1990b). Enfin, le 
gtntrateur part d'une reprtsentation en structures de 
traits et recherche darts la grammaire toutes les phrases 
qui peuvent 8Ire relites ~ la structure initiale. Comme 
chacun de ces modules ntilise la technique 
d'unification, ces trois 6tapes sont r~versibles 
(RUSSELL et al., 1990 et RUSSELL et al., 1991). 
(l'lnstitut F&l~ral pour 1'Etude de la Neise el des Avalanches). 
I Ce ptojet est lmrtiellement subventionn6 par I'IFENA 
AcrEs DE COLJNG-92, NANTES, 23-28 hOt~T 1992 9 9 8 PROC, OF COLING-92, NANTES, AUG. 23-28, 1992 
3.2. Les grammaires 
Depuis 1990, le travail a port6 sur la construc- 
tion de deux grammaires allemande et francaise, pour 
le traitement de tousles phEnom~mes syntaxiques 
rencontres dans le corpus des avalanches. Cette 6tape 
est loin d'etre triviale. Les bulletins prEsentent en effet 
un grand nombre de probl~mes synlaxiques, bien 
connus, mais pou impl&nentEs, comme celui de la 
coordination, des subordonn~es, des roots composes 
allemands, de la topicalisation, des temps, etc. Bien 
que les strategies adoptEes pour l'&xiture des gram- 
manes allemande et francaise different 
considErablement, nous avons essay6, lorsque c'est 
possible, d'obtenir la m~me reprEsentatiott sEmantique 
dans les deux lmtgues. Une simplification du transfert, 
moins bien expErimenlE jusqu'ici, pemlet ea effet de 
limiter le hombre de r~gles de transfert et de gagner en 
efficacitE. 
3.3. Une repr~ntation s6mantique orientt~e inter- 
lingua 
La liaison entre les expressions iinguistiques 
allemandes et francaises qui traitent d'un m~me con- 
tenu s'effeetue done an niveau de la representation 
sEmantique. Elle permet de fake abstraction des 
particularitEs syntaxiques de chaque langue et de ne 
representer que les informations nEcessaires ~ la tra- 
duction. Comme le donmine trait6 est bien moddlisE, il 
est possible de determiner h l'avance les dfffErentes 
composantes sOnantiques des phrases du corpus des 
avalanches, comme la description du danger, le type de 
neige, le lieu, le clinmt, le temps, etc. Avec le logiciel 
ELU qui utilise I'uniftcation, la representation 
sEmanlique se pr~sente sous la forme de structures 
d'attributs (SH1EBER, 1986). Darts notre projet, les 
traits PRED, ARGS, MOD, MORPH et POSITIF per- 
metlent d'encoder respectivement le pr&licat logique 
de la phrase, ses arguments, les diffErents modifieurs 
de la phrase, les indications morphologiques 
nOzessaires fi la traduction, comme le temps, hi voix et 
le camct~re positif ou nEgatif de la phrase. 
Par exemple, la phrase darts les Alpes subsiste un 
danger d'avalanches recevra ha structure sEnmntique 
suivante : 
args = \[ <81> compl : compl = \[1 
detype = non 
pred = avalanches 
pred = danger 
detype = indefinite 
mod : alt : pred = \[I 
expo : pred = \[11 
rood : alt : pred = \[\] 
Ioc : pred = Alpes 
detype = definite 
top = yes 
temps : pied = \[\] 
climat : pred = \[\] 
moiph : temps = present 
voix = actif 
posi6f = yes 
pred = subsister 
Cette stnlcture signifie que la phrase est positive, an 
present actif et indique que le pr&licat logique est le 
verbe intransitif subsister. Celui-ci a pour argument le 
sujet ind6termin6 un danger d'avalanches, encode 
dans unc liste. Un seul modifieur est r&alisE, le 
complement de lieu dans les Alpes. Le trait <* lop:, = 
yes signale qu'il est topicalisE. Les listes rides (\[\]) 
indiquent que la phrase ne contient pas d'autxes 
modifieurs. 
Darts ce cas-ci, l'&luivalent allemand in den 
Alpen besteht eine Lawinengefahr recevra la tnfime 
structure sEmanfique. Seules les valeurs des traits, les 
roots fram;ais, sont remplac~s par d'autres valeurs : 
les mots allemands. 
Pour obtenir une m~me representation darts les 
deux langues, nous avons dO complexifier les gram- 
maires et le lexique. Darts le cas de l'exemple cite plus 
haut, les lexiques et les grmnmaires doivent contriSler 
les pr~positions de lieu, qui ne font pas purtie de ha 
representation ~nmntique. Tous les syst~mes qui 
essayent d'Etablir une correspondance entre les 
prepositions se heurtent en effet ~t des problemes 
importants et sont obliges de dgfinir des algorithmes 
tres complexes, qui, daus notre cas, ralentiraient 
considErablement le syst~me (JAPKOWICS, 1991). 
De meme, les roots composes allenmnds so'at 
dEcomposEs dans le lexique, de mani~re h obtenir la 
m~me representation qu'en franCais. Cette technique 
nous pemmt un traitement ggnEral et unifig du 
probl~me des noms composes (BOUILLON et at., 
1992b). Enfin, le mode et le geme, qui varient en fonc- 
lion des hangues ont ErE exclus de la representation 
sEmantique. 
Parfois, l'obtenlion d'une mSme representation 
est lore d'Stre aisEe. Prenons l'exemple de ha coordina- 
tion des syntagmes nomhaaux. ~Fandis que le francais a 
tendance ~t r~p~ter l'article devant les diffErents noms 
qui composent le syntagme uominal coordonnE et per- 
met tr~s rarement l'Elision de l'article A l'int~rieur du 
syntagme coordonnE, l'allemand pout faire porter 
l'article sur tout le groupe coordonn6 dans diffErents 
cas: 
Sclmeeverfrachtungen Jfihrten zu einer leichten 
Setzung und VerJestigung der Sctmeedecke 
des accumulations de neige ont cause" une con- 
solidation et un tassement le'gers de la couver- 
ture de neige. 
Darts une optiquc monolingue, nous traduirions cette 
difference syntaxique an niveau de la repr6sentalion 
sEmantique du groupe coordonnE. En allemand, le trait 
ACl'ES DE COLING-92, NANTES, 23-28 AotYr 1992 9 9 9 PROC. OV COLING-92, NANTES. AUO. 23-28, 1992 
detype qui encode le type de l'article se trouverait en 
debors de la liste des arguments (1), ce qui permettrait 
de distinguer cette construction de celle qai implique 
une r~pEtilion de l'article, alors qu'en franc, ais, ce der- 
nier serait toujours rEpEt~ ~ o5t6 de chaque 61Ement de 
la liste (2) : 
(1) args : \[ <1> pred = setzung 
<2> pred = verfestigung \] 
detype = indefinite 
mod : pred = leicht 
pred = und 
(2) args = \[ <1> detype = indefinite 
pred = tassement 
<2> detype = indefinite 
pred = consolidation \] 
rnod : pred = leger 
pred = et 
Dam une optique multilingue, ceUe difference darts la 
repr6sentation constitue un probl~me au niveau du 
transfert. Elle nous oblige/t 6crire autant de r~gles de 
transfert qu'il peut y avoir d'61gments A l'int~rieur de 
la liste, ce qui est peu gEnEral et restrictiL De plus, une 
~tude du corpus montre que les deux types de Con- 
struction ne sent jamais utilis~s dans le m~me contexte 
et qu'il est possible de definir les conditions de rejet et 
d'acception de chacune de ces structures darts le cadre 
du sous-langage des bulletins d'avalancbes. Darts ce 
cas-cL nous avons donc prEfgr6 simplifier ie transfert 
et complexifier la gtmrtmaire aUemande, pour obtenir 
la mSme representation qu'en francais, avec r~'pEtition 
du trait <* detype> = indefinite ~. c8t6 de chaque 
~l~ment de la structure de liste ailemande, comme suit: 
args :\[ <1> delype = indefinite 
pred = setzung 
<2> detype = indefinite 
pred = verfestigung \] 
mod : pred = leicht 
pred = und 
3.4. Les limit~ de la representation interlingua 
La rEalisation d'une mSme reprgsenlation 
s'av~re cependant beaucoup plus difficile dens un cer- 
tain hombre de cas. Deux expressions de langues 
diffErentes n'expriment en effet pas nEcessairement de 
la mSme mani~re un fait identique. Tout d'abord, une 
rEalit6 peut 8tre plus ou moins importante en fonction 
du contcxte culturel et social dans lequel la langue 
6volue. D'autre part, une langue peut offrir plus de 
possibilit~s syntaxiques ou s~mantiques qu'une autre. 
Dans le co'pus des avalanches, de telles 
diffgrences sent 6videntes et nous allons le montrer 
l'aide de quelques exemples. 
Prenons d'abord en consideration une diver- 
gence temporelle. Alors que les bulletins allemands 
otilisent indiffEremment l'imparfait et ie pass6 com- 
pos~, pour designer un pass6 compose francais, les bul- 
letins franc, ais ne contiennent aucun imparfait, t~mps 
r(.servE pour des fails en train de so derouler darts la 
dur~e, exclus de la rEalit~ pr(.sente : 
am Alpensiidhang fielen 80 cm Schnee 
-> sur le versant sud des Alpes sent tombEs 80 
on de neige 
am Alpensiidhang sind 80 cm Schnee gefallen 
-> sur le versant sud des Alpes sent tomb~ 80 
cm de neige. 
Cette habitude en allemand peut s'expliquer de deux 
mani~res : d'une part, l'imparfait est plus ais~ ~ former 
et permet un acc~s plus rapide h l'information lexicale. 
D'autre part, les bulletins sent 6:tits par des locateurs 
du suisse aUemand, qai peuvent avoir tendance ~ beau- 
coup utili~r l'imparfait en allemand, inusit~ darts leur 
dialecte. Pour traiter cett~ diff~ence, diverses solu- 
tions ~taient envisageables. Nous pouvions interdire 
l'utilisation de l'imparfait en allemand, ce qui est peu 
ElEgant et tEmoigne d'un manque de souplesse. Nous 
pouvions aussi Eviter une telle restriction et definir 
deux r~gles de transfert qui Etablissent respectivement 
une correspondance entre le passe eompos~ allemand 
et le pass~ compos~ franc, ms et entre rimparfait 
allemand et le pass6 compose francais. Dans ee cas, 
nous devions aussi bloquer la rEversibilit~ de la 
seconde r~gle, pour emp~cher la gEnEration de deux 
solutions en allemand. Dans la syntaxe ELU, ces rdgles 
prEsentent la forme suivante : 
:T: tempo1 
:L1: <* morph temps> = passe_comp 
:1_2: <* morph temps> = passe_comp 
:X: - 
:T: tempo2 
:L1: <* morph temps> = imparfait 
:1_2: <* morph temps> = passe_comp 
<* reversibilite> = non 
:X: - 
La premise, tempol, ~tablit une correspondance entre 
les passes composes en allemand (LI) et en francais 
(L2). La seconde, tempo2, transforme l'imparfait 
allemand en un pass~ compose francais. Ces r~gles 
s'appliquent si la representation de 'la langue source est 
subsum~e par la structure de traits decrite clans LI et si 
la representation pour la langue cible unifie avec la 
structure de traits definie dang L2 (ESTIVAL et 
al.(1990b) et RUSSELL et a1.(1991)). 
Le trait <* reversibilite> = no, qui ne sera jamais sub- 
sum6 par une structure de traits francaise, bloque doric 
la rEversibiliu5 de cette rEgle (RUSSELL et al., 1991). 
Ainsi, tous les passes compos~s et les iurparfaits 
allemands se traduiront par des passes compos~s 
francais et le pass~ compo~ francais ne ~ traduira que 
par le pass6 compose allemand, ce qui semble ~ nos 
yeux la meilleure traduction. 
AcrF.s DE COLING-92, NANTES, 23-28 AO~r 1992 1 0 0 0 PRec. OF COLING-92, NANTES, AUG. 23-28, 1992 
Un probl~me similaire se pose, quand nous 
voulons traduire le p',uaicipe pr6sent ullenmnd. #dot's 
qu'en allemand, le participe pr6sent est ctmrarmnent 
utilis6, le franeais a teudance fi le remplacer par une 
relative. 
Par exemple, la phrase suivante : 
die anhaltenden NiederschliJge und die Setzung 
der Schneedecke fdhrten zu einer Abnahme der 
Lawinengefahr 
contient le participe anhaltenden qui se traduira de 
pr6f6rence en franqais par la relative qui continuent : 
les precipitations qui continuent et le tassement 
de la couverture de neige ont cause'une diminu- 
tion du danger d'avalanches. 
Comme les relatives existent anssi en allemand, il est 
peu souhaitable d'obtenir la m~me structure en 
franeais et en allemand, ce qui provoquerait une 
surg6n6mtion. Nons avons doric choisi de cr6er une 
r(3gle de transfert, qui 6tablit une correspondance entre 
la structure allemande : 
pred = Niederschl~tge 
rood : prod = anhalten 
rel = \[\] 
et la structure fr, meaise correspondante, ofl le signe 
#12 indiqae une structure r6entrante : 
pred = #12 pr6cipitation 
mod = \[\] 
rel : args : \[ pred = #12 \] 
pred = continuer 
Comme ces deax StrUctUreS sont assez diffdrentes, la 
r~gle est relativement complexe : elle stipule que le 
pr6dicat du moditiear en allemand Z1 correspond au 
pr6dicat de la relative Z2. Cette relative a pour argu- 
ment une liste IR\], dont le pr&licat X2 est semblable 
au pr6dicat de la phrase nominale (r6eutrance) et 
correspond au nom auquel se rapporte le participe 
allemand X 1. 
:T: part tel 
:L1 : <* pred> = X1 
<* rel> = \[\] 
<* rood prod> = Z1 
:L2: <* pred> = X2 
<* mod> = \[\] 
<* rel> = W 
<W args> = \[R\] 
<R prod> = X2 
<W pred> = Z2 
<* reversible> = non 
:X: Xl = X2 
Z1 =Z2 
La coordination anssi exige tm traitement sembl- 
able. Alors que l'allemand utilise indiffdremment la 
virgule ou la conjonction und pour coordonner deux 
adjectifs, le franeais ne pennet que la conjonction et : 
der feuchte, instabile Schnee hat zu einer 
ernsthaflen Lawinensituation gef~hrt 
der feuchte and instabile Schnee hat zu einer 
ernsthaften Lawinensituation gefiihrt 
la neige instable et humide a cause" une grave 
situation d' avalanches 
*la neige instable, humide a cause" une grave 
situation d' avalanches 
Pour permettre les deax constructions en allemand, il 
est donc indispensable d'Etablir une correspondance 
entre ces deux structures : 
(1) mod : \[< l > args : \[ <2> pred = feucht 
<3> pred = instabil \] 
pred =, \] 
(2) rood : \[<1> args : \[ <2> pred = humide 
<3> pred = instable \] 
pred = et \] 
La r~gle de transfert suivante 6tablit cetm eorrespon- 
dance. Elle stipule que si le trait MOD en allemand a 
pour valeur une liste dont le pr&licat est la virgule, 
nous obtiendrons une liste similaire en francats avec, 
pour pr6dicat, la conjonction et. 
:T: virget 
:LI: <* rood> = \[A\] 
<A pred> = ',' 
<A args> = X 
:L2: <* rood> = \[B\] 
<B pred> = et 
<B args> = Y 
<B bidirectionnel> = non 
:X: X = Y 
Cette r~gle n'est pas bidirectionnelle parce que nous ne 
voulons pas que tons les et franeais se traduisent par 
des virgules en 'allemand. 
Enfin, pour ne citer qu'un demier exemple, un 
grand hombre d'adjectifs en allemand se Waduisent de 
pr6f6rence par des noms en franeais : 
die iJstlichen Alpen -> la partie est des #dpes 
die mittleren Alpen -> le centre des Alpes 
L'utilisation d'adjectifs serait aussi possible dans les 
tr',alucaions franeaises, mats elle n'est pas conforme 
aux habitudes langagid:ms et dolt de ce fait ~tre 5vit(.e 
dans le cadre de bulletins d'avalanches. 
Nous avons donc prdf6r6 ddfinir une rdgle de transfert 
qui transformera la structure allemande sulvante : 
pred = Alpen 
detype = definite 
mod : pred = bstlich 
en une structure qui permettra la g~ngration des U'adue- 
tions propos~es ci-dessus : 
ACTUS DE COLING-92, NANTES, 23-28 AO(Zr 1992 1 0 0 l I'RO¢. OF COLING-92, NANTES° AUO. 23-28, 1992 
pred = partie 
detype = definite 
mod : prod = est 
compl : pred = Alpes 
detype = definite 
Notons que le syntagme les Alpes cemrales ne sera pas 
exclu pour autant par ha grammaire francalse. 
L'analyseur prodmra une structure semblable ~t eelle 
de I'ailemand et ce syntagme sera lift anssi traduit en 
allemand par d/e miuleren Alpen. 
4. Conclusion 
Darts cet article, nous avons mis en Svidence un 
certain nombre de probl~mes int~ressants de traduc- 
tion, auxquels nous sommes confront6s pore le traite- 
ment automatique des bulletins d'avalanches de la 
Suisse et nous avons montr6 comment le logiciel ELU 
permet de les r6soudre. M~me si une collaboration 
6troite lot's de l'6criture des grammaires permet 
d'obtenir une repr6sentation s6mantique coh6rente, qui 
mod61ise le domalne des avalanches ell Suisse, nous 
maintenons que, pour fake face ~t des variations struc- 
turelles ou des habitudes langagi~es, seul un syst~me 
bas6 sur le lransfert permet d'obtenir une traduction de 
qualitY. 
5. Bibliographie 
Boesefeldt (K.) et Bouillon (P.) (1991).- Le rble de la 
repr~sentatiou s~mantique dans un syst~me de 
traduction mullilingue.- in: Working Paper 58, 
ISSCO, 1991, Genc~ve. 
Bouillon (P.) et Boesefeldt (K.) (1991).- Applying an 
Experimental MT System to a Realistic 
Problem.- in: Proceedings of Machine Transla- 
tion Summit IlI, Washington, July 1991, pp. 45- 
49. 
Bouillon (P.) et BGesefeldt (K.) (1992a).- La Traduc- 
tion automatique des Bulletins Avalanches.- /t 
parai'tm m: Colloque International sur 
L'Environnement Traductionnel, Mons, 1992. 
Bouillon (P.), Bocsefeldt (K.) et Russell (G.) (1992b).- 
Compound Nouns in a Unification-Based MT 
System.- in: Proceedings of 3rd Conference on 
Applied Natural Language Processing, Trento, 
March-April 1992, pp. 209-215. 
Estival (D.) (1990a).- Elu User Manual.- in: Technical 
Nora 1, ISSCO, Gen~ve, 1990. 
Estival (D.) (1990b), Ballim (A.), Russell (G.) and 
Warwick (S.).- A Syntax and Semantics for 
Feature-Structure Transfer.- m: The Third Inter- 
national Conference on Theorical and Methodo- 
logical Issues in Machine Translation of Natural 
Language, 1990. 
Japkowicz (N.) et Wiebe (M.).- A System for Translat- 
ing Locative Prepositions from English to 
French.- in: 29th Annual meeting of The Associ- 
ation for Computational Linguistics, Berkeley, 
1991 
Russell (G.), Ballim (A.), Estival (D.) et Warwick (S.) 
(1991).- A Language for the Statement of Binary 
Relation over Feature Structures.- in: Proceed- 
ings of European Association for Computational 
Linguistics, 1991. 
Russell (G.), Can'oll (J.) et Warwick (S.) (1990).- 
Asymmetry in Parsing and Generating with 
Unification Grammars: Case Studies frcma ELU.- 
in: Proceedings of the 28th Annual Meeting of 
the Association for Computational Linguistics, 
June 1990, pp. 205-211. 
Salm (B.) (1982).- Lawinenkunde f& den Praktiker.- 
Bern: Verlag des SAC, 1982. 
Shieber (S.M.) (1986).- An Introduction to Unification 
Based Grammar.- in: CSLI Lecture Note No. 4, 
1986. 
AcrF.s DE COLING-92. NANTES. 23-28 AOL'T 1992 1 0 0 2 PROC. OF COLING-92. NANTES. AUG. 23-28. 1992 
