ALIGNING SENTENCES IN BILINGUAL TEXTS 
FRENCII - ENGLISH AND \]fRENCH - ARABIC 
Fathi DEBILI, Elyb.s SAMMOUDA 
CNRS-idl 
Conseil d'Etat, Palais Royal 
75001 Paris, France 
a.+_,Z_~ ,.p,t~. j - ~..,JI 
.,~_.~l ~ ...~.~,_uI +o,_aJi ~_pJi 
ABSTRACT 
In this paper, we will tackle the problem raised 
by the automatic alignment of sentences belonging 
to bilingual text pairs. "\[he method that we 
advocate here is inspired by what a person with a 
fair knowledge of the other langage would do 
intuitively. It is based on rite matching of the 
elements which are similar in both sentences. 
However, to match these elements correctly, we 
first have to match the sentences that contain 
them. There seems to be a vicious circle here. We 
will show how to break it. On the one hand, we 
will describe the hypotheses we made, and, nn the 
other hand, the algorithms which ensued. The 
experiments are carried out with French-English 
and French-Arabic text pairs• 
We will show that matching sentences and, 
later, expressions, amounts to raising a new 
problem in the machine translation field, i. e. the 
problem of recognition instead of that of 
translation, strictly speaking. 
REMERCIEMENTS : Le travail pr&~entg a b~n~fici4 
de l'aide de nombreuses personne~. Nous les 
remercions routes, en particulier E. Souissi et A. Zribi 
pour leurs contributions ; E. Mackaay, L Naddeo- 
Souriau, J.-L. Lemoigne et la revue Pour la Science 
pour la gentillesse avec laquelle ils ont accept4 de nous 
donner sur disquettes des textes ou fragments de textes 
monolingues ou bilingues ; J. Kouloughli et J.-B. 
Berthelin pour les dis~nssions et critiques qu'ils sont 
mujours pr~ts it faire. 
L~ L~ ~I ~++.,.l+,.Jl . ~E.JJI 
~t..~t.~ +Uji ~ J ~ ,.:,t_,d4Jl ,J.st_~ 
o~ ++,,-w~+ + .L~..~ .,.¢:Uf 4,~.I 
~t_~j 4~.1 4sL~ ~,',t__.4~I 
~.+.~ ~st_~JI 4st~ ~ 4~.1 
..+pJI ,::,L~.+M.JI c.A+"J ~M ++Jr ~+.~_Jt 
• r,.~lj..dl ,::, .L~., j,i~JI .JJ:~j ~L:,..,.,~l 
. t._~t s a~..,call 
Cette recherche a dt~ en partie finaacde par le R~seau des Industries de la IDmgue (contrat ACCT n ° 338/SG/C5) 
et en pattie par le MRT (ddcision d'aide n ° 90. K. 6434). 
Acids DE COLING-92, N^r, rr~s, 23-28 hot}l 1992 5 1 7 Pl¢oc, ov COLING-92, NANTES, AUG. 23-28, 1992 
APPARIEMENT DES PHRASES DE TEXTES BILINGUES 
FRAN~AIS - ANGLAIS ET FRAN~AIS = ARABES 
Fathi DEB1LI, Ely,s SAMMOUDA* 
CNRS-idl 
Conseil d'Etat, Palais Royal - 75001 Paris, France 
T61.: (33-1) 43 50 54 01 ; Fax : (33-1) 40 20 83 70 
* Systex, 91195 Saint Aubin, France 
RESUME 
Nous abordons clans ee papier le probl~me que pose 
la raise en eorrespondance automatique des phrases 
appartenant ~ des paires de textes bilingues. La 
m6thode que nous pr6conisons s'inspire de ce que 
ferait intuitivement une persorme eonnaissant 
moyennement I'autre langue. Elle se fonde sur 
l'appariement des 616meats qui constituent les phrases 
en regard. Or, pour apparier eorrectement ces 
616ments, il faut au pr~alable avoir appari~ les phrases 
qui les contiennent. 11 y a l/t en apparence un cercle 
vicieux. Nous montrons comment le casser. Nons 
d6crivons les hypoth~es que nous raisons d'une part, 
et les algorithmes qui en d6coulent d'autre part. Les 
experimentations sont effeetu~os sur les couples de 
langues franfais-anglais et fran¢ais-arabe. 
Nons montrons que l'appariement des phrases, et, 
darts 1'6tape d'apr~, des expressions, revient h po~r 
un probl~me nouveau en traduction automatique : la 
reconnaissance, et non la traduction proprement dire. 
Introduction : 
Des gisements d'informations linguistiques 
Ces derni~res armies ont vu apparaitre 
plusieurs travaux qui prennent pour d6part des 
corpus bilingues. L'int6r~t grandissant port6 ~ ces 
corpus est sans doute 1i6 ~t leur disponibilit6 sur 
supports informatiqnes. Mais lh n'est pas la raison 
essentielle. Celle-ci r~side plut6t dans l'id6e selon 
laquelle ces corpus sont autant de mines, encore 
tr~s largement inexploit~,es, qui renferment une 
tr~s grande quantit6 d'informations fort utiles 
pour les diverses probl6matiques que pose la 
traduetion, que celle-ci soit automatique ou non. 
Des objeetifs divers 
Les perspectives d'exploitation de ces 
gisements sont diverses. Pour P. Brown et al. 
d'IBM, le but est de calculer ies param~tres du 
module probabiliste de traduction automatique 
qu'ils veulent construire \[Brown et al., 1988 ; 
Brown et al., 1990\]. Pour \[Catizone et al. 1989\], 
c'est fournir des outils aux lexicographes et aux 
linguistes qui 6tudient la traduction. Pour \[Sadler, 
1989\], l'id~e est de construire une banque de 
connaissances bilingues. \[Sato et Nagao, 1990\] 
posent quant ~ eux le probl~me de la traduction 
par l'exemple. 
Notre objectif 
I1 est de construire automatiquement des 
dictionnaires de transfert d'expressions. En 
partant de paires de textes analys~s sous forme de 
d6pendances, nous essayons de mettre en 
correspondance des morceanx d'arbres \[Debili, 
1990\]. 
La reconnaissance : un probldme nouveau 
Le probl~me de la traduction n'est donc pas 
abord6 sous l'angle traditionnel de l'analyse- 
synthdse. I1 est consid6r6 sous l'angle de la 
reconnaissance. La diff6rence est importante, 
puisqu'il s'agit dans un cas de traduire, et dans 
l'autre, de reconnaitre qu'il y a bien traduction. 
Dans le premier cas, l'entr6e du syst~me est un 
texte, et la sortie, sa traduction. Dans le second 
cas, l'entr~e est un couple de textes pris dans deux 
langues, et la sortie est la r6ponse ~t la question : 
sont-ils traduction l'un de l'autre ? et si oui, dans 
quelle mesure ? 
A partir de l~t, les applications sont, on 
l'imagine, nombreuses. Elles vont de l'6valuation 
des syst~mes de traduction automatique ~ la 
d~tection du plagiat. 
Un d~nominateur commun 
Tous ces travaux ont en commun d'essayer 
d'extraire ~t partir de paires de textes bilingues, 
divers types d'informations linguistico- 
statistiques, et en eela, de contribuer aux efforts 
qui sont faits notamment darts le domaine de la 
traduetion automatique. Ils different par les 
objectifs, et surtout par les m6thodes et les 
moyens mis en oeuvre. 
AcaY~ DE COLING-92. NANTES, 23-28 AO1\]T 1992 5 1 8 PROC. OF COLING-92. NANTES, AUG. 23-28, 1992 
L 'appariem ent 
Un sous-probldme commun 
Un point de passage oblig~ dans tous ees 
projets est la n6cessaire raise en correspondance 
des ~16ments (phrases, syntagmes, roots, etc.) qui 
eomposent les textes en regard. C'est cet aspect 
du probl~me, que la terminologie anglaise semble 
d~jh consacrer sous le nora d'alignement, que 
nous abordons dans le present papier. 
La solution informatique n'est pas simple, 
m~me si, ~ l'exercice, la tache se r6v~le 
relativement ais6e pour qui connait moyennement 
l'autre langue. Comme chacun sait en effet, le 
processus de traduction, mOme s'il essaie de se 
conformer au principe de la conservation de la 
succession des "id6es", ne maintient pas toujours, 
au plan de la r6alisation textuelle, le mOme 
d6coupage en paragraphes, phrase.s, syntagmes, 
etc.. Le hombre et la taille de ce.s unit6s n'est 
done pas le m~me dans les textes en regard, ni 
non plus leur ordre, hi, loin s'en faut, leur torme. 
C'est le contraire qui constitue I'exception. 
Des approches diffdremes 
Quatre &luipes, ~t notre connaissance, se sont 
int~ress6es au probl~me. Deux m6thode.s semblent 
se d6gager. L'une, statistique, ne se fonde que sur 
les caract6ristiques formelles des textes eu regard: 
c'est la mille des phrases exprim~.e en nombre de 
mots pour \[Brown et aL, 1991\] ; c'e.st la taille des 
phrases exprim6e en nombre de caract~res pour 
\[Gale et Church, 1991\]. L'autre, linguistique 
dirons-nous, s'inspire de ce que uous ferions 
uous-m~mes intuitivement : elle se fonde sur 
l'appariement des unit~s lexicales qui composent 
les phrases, accompagn~e.s ~ventuellement de leur 
structure d6pendancielle. Elle fait intervenir en 
quelque sorte le contenu. C'est la vuie qui est 
suivie par Catizone et al., et par M. Kay, cit6 
dans \[Catizone et al., 1989\]. C'est aussi celle que 
nous avons emprunt6e. I1 reste que dans les deux 
cas on fait aussi interveuir, quand on en dispose, 
diff6rents marqueurs, comme par exemple les 
d6limiteurs de sections, de ehapitres, de 
paragraphes, etc.. Leur raise ~ profit am61iore 
certes les r6sultats, mais elle n'est pas obligatoire. 
Les deux m6thode.s ne s'opposent pas. Elles st 
compl~tent plut6t. Leurs potentialit&s sont en effet 
diff6rentes. Pour I'essentiel, I'approche statistique 
eonvient mieux si ie.s corpus sont tr~s gros, car 
elle est plus rapide. Si, par contre, les corpus sont 
de faible taille, h l'extr~me, si l'on veut 
simplement savoir dans quelle mesure deux 
phrases donm~s sont traduction I'une de I'autre, 
alors c'est incontestablement l'approche 
linguistique qui I'emporte, l'autre pouvant m~me 
devenir impratieable. 
L 'appariement des phrases 
iI consiste ~ jumeler les phrases qui se 
correspondent dans un couple de textes bilingues ; 
c'est-,'t-dire ~ relier les phrase.s qui sont traduction 
les unes des autres. Le probl~me vient de ee qu'il 
n'y a pas toujours correspondance biunivoque 
entre les phrases des textes en regard. A une 
phrase il peut en correspondre deux, parfois plus. 
Darts d'autres cas, il u'en correspondra aucune. 
En outre, il arrive qu'il y ait inversion. La figure 
suivante illustre ces diff6rents cas. F i d6signe leg 
phrases du texte fran~ais, Ej celles du texte 
anglais. 
F 1 
El 
1~ 2 1:3 1' 4 1751:6 ... // X 
E2 E 3 E4 I", 5 E 6 ... 
D'autres cas plus complexes encore peuvent se 
produire, m6me s'ils restent rares. Par exemple 
ceux de la figure suivante : 
~ I~ r,~ ... Ej Ej+ I ... 
Pourquoi apparier des phrases ? 
Pourquoi fant-il apparier les phrases ? 
Pourquoi ne pas tenter d'apparier directement les 
morceaux de structures d6pendancielles 
correspondant aux expre,~sions, puisque c'est 1~ le 
but final recherch6 ? Parce qu'il est plus facile 
d'approcher puis d'atteindre que d'atteindre 
d'embl6e. 
A I'apl)ui, plusieurs raisons interd6pendantes. 
1.~ R#duire la combinatoire : l'id6e est de 
d61imiter d'abord les champs d'investigatioa, 
c'est-~-dire les parcelles du texte en vis-~t-vis oh 
est susceptible de se trouver I'expressiou 
correspondante recherch6e. Or les expressions 
que nous voulons mettre en correspondance sont 
internes ~t des phrases. Nous aimerions done que 
la recherche se fasse ~t l'int6rieur de l'unit6 que 
cnnstitue la phrase. De sorte que, les possibilit~ 
de choix 6tant r&luites, les probabilit6s d'erreurs 
s'en trouvent h l eur tour minimis6es. 
2." Utiliser une rdgle de cohesion : 
rechereher les correspondances dans une paire de 
phrases, on fait intervenir les contextes darts 
AcrES DE COL1NG-92, NANTES, 23-28 Ao(rr 1992 519 I)l~oc. OF COLING-92, NANTES, AU(|. 23-28, 1992 
lesquels baignent les expressions que nous 
souhaitons apparier. En cas d'ambigu'\[t6, 
l'appariement des 616ments alentours, s'il n'est 
pas ambigu, aidera ~t faire la d6cision. Nous 
pouvons penser que nous aurons ainsi moins 
d'erreurs. L'hypothdse sous-jaceme que nous 
faisons est que les constituants d'une phrase ont 
tendance d rester ensemble lors du processus de 
traduction. 
Dans la figure suivante, Xwl d6signe 
l'expression de rang 1 dans la phrase fran~aise F1, 
etc.. 
F1 F2 
~- XIF 1 ~- X2F 1 "~ 
I x\ 
I \ I \x 
~- XlE1 ---t--- XIE2 --- X2E~ -------t 
g I E2 
La r~gle de cohesion stipule que darts le cas 
pr4sent N1F 1 dolt &re mis en correspondance avee 
Xt~ 2 de la phrase anglaise E2, en raison de la 
presence du lien qui existe entre X2F 1 et X2E2, 
plut6t qu'avec X1E 1 de la phrase E 1. L'ambiguit~ 
est done ainsi levee. Cette r~gle n'est cependant 
pas absolue. 
3.- Ces raisons sont confort~.es par le fait 
qu'apparier des phrases semble a priori plus 
simple qu'apparier des expressions. En effet leur 
d~limitation est plus simple, il y a done moins 
d'erreurs. Par ailleurs, 6tant plus Iongues, elles 
pr~sentent davantage de points d'ancrage pour la 
mise en correspondance. Les risques d'erreur sont 
done 1~t anssi moindres. Enfin, 6tant moins 
nombreuses, les possiblit~ de choix seront 
r~uites d'autant, et les probabilit~s d'erreurs 
aussi. 
4.- Conservation de la sdquentialit~ des 
"idles" dans le processus de traduction : 
Enfin, en faveur de I'appariement des phrases 
d'abord, puis des expressions ensuite (que nous 
avons r6sum6 par la formule approcher puis 
atteindre), il y a l'hypoth~se que nous faisons de 
la conservation de la sdquentialitd des "idles" 
dans le processus de traduction. Le eorollaire de 
cette hypoth~se peut ~tre pr6sent~ comme suit : 
dans le processus de traduction. 
la siquentialit~ des ehapitres d'un livre par 
exemple est davantage respect~e que 
la s~quentialitd des paragraphes qui le 
constituent, laquelle est davantage 
respect~e que 
celle des phrases, plus respecMe que 
celle des propositions, elle-m~me mieux 
conserv~e que 
celle des expressions, qui, d son tour, est 
mieux conservOe que 
celle des roots, dont nous ajoutons, si cela 
a un sens, qu'elle est elle-m~me bien 
entendu mieux conservde que 
celle des camct~res. 
II y a en quelque sorte de plus en plus de 
d6sordre ~ mesure que l'on descend dans 
l'6chelle. Dans cette liste, une eassure semble a 
priori se produire au niveau du point d'entr~e 
"phrases". En effet, au delh, on est s(lr que 
l'ordre sera souvent alt6r6. La phrase est au prime 
abord la plus petite unit6 dont l'ordre sera presque 
toujours maintenu. 
En cons6quence, la s6quentialit6 des phrases 
&ant davantage respect6e que celle des 
expressions, nous ferons en principe moins 
d'erreurs \[1 apparier lea phrases d'abord, puis les 
expressions ensuite, qui en b6n~ficieront. 
L'appariement des phrases apparait donc 
clairement comme une 6tape pr4alable aux 
diverses autres &apes d'appariements que nous 
pourrions imaginer (celles des expressions 
nominales, verbales, etc.). 
Nos hypotheses 
Dans ce paragraphe, nous donnons les 
hypoth~es qui sont ~t la base de notre algorithme. 
Leur mise en oeuvre doit en principe conduire au 
meilleur appariement possible entre phrases. Elles 
se traduiront pour la plupart par des crit~res de 
choix. 
1.- Tout d'abord, nons ne tenons aucunement 
compte de la distinction source-cible, attach6e 
pourtant de fait aux paires de textes retenues. 
Pour un couple de langues donn6es, il se pou/'rait 
en effet que les paires de textes aient des 
propri6t~s formelles diff6rentes selon le sens de 
traduction. Par exemple, le rapport du nombre 
moyen de mots de la phrase fran¢aise au nombre 
moyen de mots de la phrase anglaise pourrait t~tre 
diff6rent selon que les textes ont 4t4 traduits dans 
un sens ou dans l'autre. Nous n'avons pas fait de 
mesures dans ce sens. Quoiqu'il en soit, nou8 
supposons pour I'instant que cette distinction n'est 
pas d6terminante pour l'appariement des phrases. 
Autrement dit, nous faisons I'hypoth~se de la 
bidirectionnalit4 des appariements que nou8 
souhaitons reconnaitre. 
2.- Nous disons que deux phrases sont d'autant 
plus traduction I'une de l'autre que : 
i) elles pr6sentent les "mt~mes" mots, 
AcrEs DE COL1NG-92, NANTES, 23-28 AOI';r 1992 5 2 0 PROC. OF COL1NG-92, NANTES, AUG. 23-28, 1992 
ii) en outre, ces roots entretiennent entre eux 
des relatiom analogues. 
L'appariement des phrases repose done sur 
l'appariement des mots. Or, dans le paragraphe 
prgc&lent, nous avons expliqu6 que pour apparier 
des unit~s plus petites, en l'occurrence des mots, 
il fallait auparavant avoir appari6 les phrases qui 
les contiennent. En r6sum6 : 
pour apparier les roots U faut apparier les phrases 
pour apparier les phrases il faut apparier les roots 
Nous sommes donc en pr6sence d'un cercle 
vicieux. Pour le briser, il faut en fait dire 
simplement : 
Pour obtenir un appariement fin des roots il faut 
apparier les phrases ; 
Pour apparier les phrases on peut se contenter 
d'un appariement grassier des roots. 
3.- Praximitd de rang 
Le principe de la conservation de la 
s6quemialit6 des phrases, mSme s'il n'est pas 
toujours respect6, nous amSne ~ faire I'hypothSse 
que les rangs des phrases en correspondance sont 
en gdndral proches. C'est-h-dire que si F et E. 
sont traduction I'une de I'antre, alors i-j es~ 
toujours inf6rieur ~t un certain seuil s dont la 
valeur pourrait 8tre d6termin6e ~t partir de 
l'observation des textes ~t aligner. Nous avons fix6 
a priori ce seuil h 3. Autrement dit, le 
correspondant de chaque phrase est suppos6 ~tre 
dans une fen~tre du texte en vis-h-vis dont la 
largeur est 6gale h 2xs + 1, soit 7 phrases darts le 
cas pr6sent. 
Attention ! i et j ne sont pas des tangs absolus. 
lls sont relatifs. I1 faut en effet rattraper les 
d6calages introduits par les appariement~s autres 
que (1, 1). i et j sont donc r6initialis6s 
r6guli~rement, au fur et ~ mesure que I'on avance 
dans l'appariement. 
Cela veut dire aussi qu'en cas d'ambigu'ft6, ce 
sont les phrases de rang proche qui seront 
privil6gi6es. Au plan algorithmique, ceci sera 
obtenu en multipliant la note mesurant la parent6 
de deux phrases par le facteur suivant : 
c~=l-li-jl/(i+j) 0<c~<=l 
4.- Proximitg de taille 
En relation avec le point 4 de la page 
pr6c&lente, nous supposons que le processus de 
traduction conserve davantage l'dgalit( : 
du nombre de ehapitres d'un livre par exemple 
que celui des paragraphes par chapitre 
que celui des phrases par paragraphe 
que celui (darts l'ordre) des 
proposi~ons 
expressions 
mots pleins 
ou )nots rides 
par phrase. 
C'est 1~ une expression g6n&alis~e de I'id~e 
simple selon laquelle une phrase aura tendance ~t 
~tre traduite par une phrase longue si elle est 
longue, et par une phrase courte si elle est courte. 
En eas d'ambigui't6, nous chercherons par 
cons6quent ~ privil6gier le, s phrases de taille 
voisine. 
La mise en oeuvre de cette hypoth~e est pour 
l'instant simple. Elle consiste ~t faire intervenir nn 
coefficient de normalisation d6fini comme suit : 
B = l- I L(FI)-LO~) I /(L(Fi) +L(Fs)) 
0<fl<=l 
dans le calcul de la distance entre deux phrases. 
L(P) e,st la taille de la phrase P exprim6e en 
nombre de roots. 
D~fini ainsi, ce faeteur ne tient pas compte du 
rapport pratiquement constant qui s'6tablit entre 
les tailles moyennes des phrases pour un couple 
de langues donn6es. Pour le couple fran~ais- 
anglais par exemple, ce rapport est d'environ 
1,15. C'est-h-dire que les phrases fran~aises sont 
en moyenne plus Iongues d'environ 15%. 
L'utilisatiou de I1 tel quel conduirait done h 
favoriser des phrases de m~me taille, alors qu'il 
faudrait favoriser celles dont la taille est 
16g~rement plus longue ou plus courte, selon la 
langue de d6part. 
Pour rattraper cette diff6rence de taille, une 
solution simple consiste ~ faire intervenir ce 
rapport dans la d6finition de 11. I1 suffit de 
multiplier la taille de l'une ou de I'autre phrase 
par un facteur correctif, - dans le cas prgsent, la 
taille de la phrase anglaise par 1,15. 
Nous avons song6 un moment h ne retenir dans 
le calcul de la taille des phrases que les mots 
pleins, et non la totalit6. Cet espoir s'est en fait 
tr~s vite envoi6. Le rapport des tallies moyenne~s 
des phrases fran~aise et anglaise ne baisse que de 
quelques centi~mes lorsque I'on ne comptabilise 
que les mots pleins. 
L 'algorithme 
Pour simplifier l'expos6 nous allons consid6rer 
le cas fran~;ais-anglais en adoptant les notations 
suivantes : 
F 1 : est la l-~me phrase du texte fran~ais 
E 1 ; est la J-~me phrase du texte anglais 
fi : est la forme canonique du i-~me mot de F I 
ej : est la forme canonique du j-t~me mot de F~ 
ek, i : est la k-i~me traduction anglaise de fi 
Jtd : est la l-i~me traduction franqaise de ej 
En outre, nous n'allons consid6rer pour 
l'instant que les cas d'appariements (1, 1). Nous 
verrons par la suite comment traiter les autres cas: 
(1, 01, (1, n), et (n, m) avec net m > 1. 
ACTES I)E COLING-92. NANTES, 23-28 AO~t ~ 1992 5 2 1 |)ROC. OF COLING-92, NANTItS. AUG. 23-28, 1992 
L'appariement des phrases 
Le probl~me est de reconnaltre pour une 
phrase donn~e du texte de d6part, disons F~, la 
phrase qui lui correspond le mieux dans le texte 
d'arriv~, disons E r Mais attention, cela ne suffit 
pas pour d~cr~ter l'appariement (F~, Ej). II fant en 
effet qu'il y ait r~eiproeit6 : F~ doit ~tre/~ son tour 
la meilleure phrase candidate pour ia phrase de 
d6part E ~. 
La figure suivante illustre ee que le programme 
doit effectuer. 
e 1 F "",,~-I E e 
n l F o'¢ -~Ej n 
t FI~--~ ~"- E r F s'~' ' ,,,~ E t 
r 
e F" "~E e 
Chaeune des phrases des deux textes doit ~tre 
compar~e ~t l'ensemble des phrases qui sont 
suseeptibles de lui eorrespondre. L'appariement 
se fera ensure sur la base de ces comparaisons. 
Dans le eas pr~ent, F~ doit ~tre compar~e 
toutes les phrases de la fen~tre eens6e contenir la 
phrase Ej rechereMe, lnversement, E~ doit ~tre 
compar6e ~ toutes les phrases de la fen~tre qui lui 
est assoei~e. Si F~ et Ej sont mutuellement 
meilleure traduction l'une de l'autre, alors leur 
appariement est retenu. Cette condition est tr~s 
restrictive. Nous verrons les modulations qui lui 
doivent ~tre apport~es pour construire les 
appariements autres que (1, 1). 
La eomparaison de deux phrases 
EIle repose sur l'appariement des mots qui les 
eomposent. Plus eet appariement est dense, plus 
les phrases sont proehes ; moins il est dense, 
moins elles sont proehes. Nous cherchons 
ealculer une note qui puisse refl6ter cette 
proximit6. Nous voudrions qu'elle soit d'autant 
plus importante que : 
i) les deux phrases eomportent les m~mes roots, 
ii) que ees mots sont longs, 
iii) et que leur S&luentialit6 est respect6e. 
Les relations de d6pendance n'interviennent 
done pas. C'est que nous supposons possible de 
s'en passer pour I'instant, et que pour 
l'appariement des phrases, l'on peut par 
cons&luent se contenter d'un appariement 
relativement grossier des roots. 
L'appariement des mots 
A bien des 6gards, il est analogue h celui des 
phrases. Les probl~mes sont similaires ; les 
solutions semblables. En partieulier, les 
hypotheses de rang el de taille sont transposables. 
Consid6rons deux phrases F z et Ej. 
L'appariement des mots qui les composent est 
obtenu en comparant suecessivement ehaeun des 
mots de F I ~t tous les roots de Ej. Les 
comparaisons (fl ~) sont ~tablies h l'aide d'un • . . ' j 
d~etlonna~re de transfert de roots simples. Les 
r6sultats sont eonsign~s darts une matrice - 
Matmot - dont ies lignes correspondent aux roots 
de Fl, et les colonnes, aux roots de Ej. 
La comparaison de deux roots 
Chaque ~l~ment (fl, ~) de la matriee Marmot 
reqoit une note que nous voulons d'autant plus 
forte que les deux roots fi et ej sont traduetion l'un 
de l'autre. Nous voulons en outre que eette note 
refl~te la taille des mots compar6,~ ; et qu'enfin, 
elle tienne eornpte de la proximit~ de leurs rangs 
respeetifs dans les phrases d'oh ils sont extraits. 
Le ealeul de la note s'~tablit de la fa¢on 
suivante. Les traduetions e k i de fl sont compar~es 
une ~ une ~ e., et celles de ~. e'est4t-direJ}., ~ fl J .1' " 
Se pose par cons&luent un probl~me ~evenu 
elassique : celui de la comparaison dynamique. 
Nous utilisons l'algorithme de Bellman \[Bellman, 
1957 ; Lauri~re, 1979\] non pour ealeuler une 
distance, mais pour d6terminer les sous-ehalnes 
maximales communes aux deux graphics 
compar6es. Le probl~me n'est pas vu sons I'angle 
du coQt /~ payer pour passer de l'une \[t I'autre. 11 
est plutOt de consid6rer que deux graphics sont 
d'autant plus proches qu'elles ont en commun les 
m~mes sous-ehaines, et que celles-ei sont ies plus 
longues possibles. La note que nous avons retenue 
pour l'instant, et qui s'est montr~e satisfaisante 
dans une autre probl6matique, est donn~e par la 
formule suivante : elle est 6gale ~ la somme des 
earr~s des tailles des sous-ehaines maximales 
communes multipli6e par un faeteur de 
normalisation analogue ~ ft. 
N = \[1-(\]L(q)-L(ca) \]/(L(q)-L(%)))\]~n(t).t 2 
oi~ L(c) est ia taille en nombre de caraet&es de la 
ehaine e, et n(t) le nombre de sous-ehaines 
maximales communes de longueur t. 
Chaque eomparaison se traduit par une note. 
Nous notons Nf. e la meilleure note obtenue dans 
le sens franCais-anglais, et Ne_ f dans le sens 
contraire. La note globale est obtenue en 
additionnant Nf. e et Ne. f. Cette note est dite 
intrins~que car elle ne tient pas eompte des rangs 
des deux roots dans leurs phrases respectives. 
Afin de favoriser pr~cis6ment les mots de rang 
proehe, le r6sultat est multilpli6 par un faeteur 
analogue a ~. 
Prenons un exemple : 
ACRES DE COLING-92, NArCrgs, 23-28 aofYr 1992 5 2 2 PROC. OF COL1NG-92, NANTES, AUG. 23-28, 1992 
min~t~re ~ ~m!n~. ter 
~mlnl$t~ agency / 
crown ~- pasteur 
department~1 ~ secr~taire 
ministry 
office 
Nf_ e = \[ 1 -( \[ 9-81/(9 + 8))\] (62 + 2 ~) = 37,647 
No.f= \[1-(18-81/(8 + 811\](62 + 121 = 37 
Pour ~tre plus discriminantes encore, les notes 
partielles Nf_ e et N~_f pourraient ~tre calcui6es en 
faisant intervenir d'autres donn~.es contextuelles 
comme par exemple les categories grammaticales 
ou du nombre des graphics compar6es. 
Retour tt l'apparieraent des roots 
Pour une paire de phrases F Iet Ej donn~,es, 
nous disposons maintenant d'une matrice remplie. 
II importe de remarquer que l'appariement des 
mots ne peut ~tre recherch6 ~ cette 6tape du 
traitement. En effet, nous ne sommes pas encore 
stirs que F 1 et Ej sont bien traduction l'une de 
l'autre. Les appariements que nous allons faire 
sont donc hypoth~tiques. Ils ne servent qu'h 
marquer les 61~ments de la matrice qui 
interviendront dans la comparaison de deux 
phrases. 
L'appariement des roots est obtenu en 
effectuant un double balayage de la matrice. Pour 
chaque ligne fi on d~termine la meilleure colonne 
.ej, que nous marquons ~t l'aide de la lettre e. Nous 
indiquons ainsi que le mot e: est, parmi les mots 
• J . de la phrase Ej, la medleure traductton de fi ; sa 
note ~tant baptis~e Tf. e. Nous faisons de meme 
pour chaque colonne, mais nous marquons cette 
fois d'un f la meilleure ligne retenue, la note 
correspondante 6tant baptis6e T~_f. Lorsqu'il y a 
coincidence nous mettons x pour indiquer que les 
deux mots sont mutuellement meilleure traduction 
l'un de l'autre. 
Ainsi construite, la matrice Matmot repr~sente 
l'ensemble des liens qui s'6tablissent entre deux 
phrases donn~,,s. Ces liens sont orient6s, lls sont 
en outre caract6ris~ par un nombre cens6 mesurer 
leur force. 
Retour It la comparaison de deux phrases 
Le but est de mesurer la force globale de ces 
liens. II s'agit par cons6quent de traduire la 
matrice qui a servi It les 6tablir en un scalaire. La 
solution retenue est simple : elle consiste 
calculer deux notes partielles. La premi&e, NF.E, 
est obtenue en additionnant les valeurs maximales 
rencontr~,s en parcourant ies lignes de la matrice. 
La deuxi~me, NE_F, est obtenue en parcourant les 
colonnes. Les deux notes 6tant bien entendu 
multipli6es par le facteur de normalisation IL 
NF. E = I~ ~ jn~ax Matmot(fi, ej) = fl Z Tf_ e 
NE_ F = 1~ j~ m~x Matmot(fi, e j) = II I~ Te_ f 
La premiere note refl~te en quelque sorte la 
force avec laquelle Ej est traduction de F I. La 
seconde, la force avec laquelle F Iest traduction 
de Ej. La note globale est obtenue en additionnant 
ces deux notes partielles. Nous disons ClUe cette 
note est intrins&lue car elle ne fait pas encore 
intervenir les rangs dans leurs textes respectifs des 
deux phrases compar~,s. 
Le facteur multiplicatif qui joue ce r61e, c'est- 
a-dire c~, intervient en fait lors de l'appariement 
des phrases. C'est que les rangs consid6r& ne 
peuvent 6tre des tangs absolus. En effet, pour des 
textes longs, des d~calages importants peuvent 
s'introduire, suite aux appariements autres que 
(1, 1). Ne pas en tenir compte conduirait 
d6favoriser des paires de phrases qui pourtant sont 
bien traduction l'une de l'autre. L'id6e est donc 
de consid6rer les rungs qu'ont les phrases d~s Iors 
qu'elles entrent dans I'une des deux fen~tres de 
travail. Plus encore, ~ sera d6termin6 de fa~on 
dynamique, puisque les positions relatives des 
deux phrases consid6r6es changeront au fur et 
mesure que seront ~vacu6es les phrases qui les 
pr6c&lent. 
Remarque : Quoique la comparaison de deux 
phrases puisse rappeler la comparaison de deux 
chaines de caract~res, comme par exemple dans le 
domaine de la d6tection-correction des graphics 
fautives, ou de deux images acoustiques, comme 
en reconnaissance de la parole, on ne pout en 
adopter la solution de la comparaison dynamique. 
I1 est difficile en effet d'imaginer ce que 
pourrait ~tre le calcul d'une distance consid6r~e 
comme ~tant le cott des op6rations ~t effectuer 
pour passer d'une phrase h une autre. I1 y a en 
outre une diff6rence fondamentale : alors que darts 
le premier cas, la s~quentialit6 parall~le des 
6v6nements h comparer est une donn6e, dans le 
second, cette s6quentialit6 n'est nullement une 
donn6e du probl~me. Dans le premier cas, it s'agit 
d'ajuster des 6v6nements qui ont des indices 
diff6rents mais qui n6anmoins se pr~sentent scion 
la m6me s&tuentialit6, uu presque. Dans le 
second, les 616ments des deux phrases peuvent se 
correspondre ind6pendamment de leur 
s6quentialit~ respective. Par exemple, le premier 
mot de l'une des deux phrases pout tr~ bien 
correspondre au dernier mot de l'autre. 
Retour It l'appariement des phrases 
L'appariement des phrases de deux textes 
ressemble ~ I'appariement des mots de deux 
phrases. La construction des appariements repose 
sur l'emploi d'une matrice dont les lignes 
correspondent aux phrases fran~aises, et les 
colonnes, aux phrases anglaises. Chaque 616ment 
de la matrice re4:oit la note issue de la 
comparaison des deux phrases correspondantes. Si 
AcrEs DE COLING-92. NANTES, 23-28 AOfJT 1992 5 2 3 PROC. OF COLING-92. NANTES. AUG. 23-28. 1992 
deux phrases se ddplacent dans la matrice, alors 
leur note eat r~valu6e puisque leurs rangs relatifs 
ont change. L'appariement des phrases eat fond6 
sur la d6termination des notes maximales lignes et 
colonnes. Seules les phrases qui occupent dans le 
cas present lea quatre premieres lignes ou 
colonnes peuvent ~tre apparMes, at par suite 
6vacu6es de la matriee. Apr~s quoi il y a 
d6ealage, puis entr~,e des phrases suivantes, at 
ainsi de suite. 
R#sultats 
L'algorithme, qui n'est pas encore fig6, donne 
darts sa version d'aujourd'hui des r6sultats qui 
vont du m&liocre ~ l'excellent, scion la nature des 
textes soumis. Sur lea deux textes juridique et 
technique qui ont servi aux exp6rimentations, lea 
r~sultats sont satisfaisants comme le montre le 
tableau partiel suivant qui en donne le cumul. 
Nb phr. fr.:339 ; Nb phr. angl. : 350 
(I,i) 
(1,2) 
269 83.5% 
12 3,7% 
33,3% 
0.0% 
(i, 2) (i, 3) 
34110.5%_ ~\[ 1,2% 
1 0.3% 0.0% 
_8~-~ _0 t 0.0% 
2 \] 13 • 3% 0 0 . 0% 
o~ l'on doit lire que parmi lea relations (1,2) par 
exemple, 8 ont 4t4 reconnues, deux correspondent 
~t du bruit, et 5 sont partiellement reconnues. 
Sur les paires de textes provenant de la revue 
Pour la Science, les r6sulats sont plut6t 
m6diocres. C'est que dans ce tag il y a 
"r46criture" plut6t que traduction. II y a aussi que 
les taux de couverture en usage des dictionnaires 
de transfert sont relativement faibles, de l'ordre 
de 57 %, parfois moins, selon les textes. 
Nous ne pouvons d6tailler et donner dans le 
peu de place qui reste les diff6rents tableaux de 
r~ultats que nous avons obtenus. L'id6e g6n6rale 
qui se d4gage est que l'algorithme est au stade 
actuel davantage bruyant que silencieux. Enfin, il 
convient de souligner que les relations de type 
(1,0) ne sont pour le moment nullement 
reconrlues. 
C'est donc dire combien le probl~me de 
l'appariement des phrases, qui selon nous pose 
celui de la reconnaissance de la traduction, est 
difficile. 
Conclusion 
L'algorithme que nous avons pr~sent~ est 
relativement simple. I1 repose sur la construction 
de deux matrices. La premiere permet de 
comparer deux phrases en en appariant les mots. 
La seconde permet, en comparant deux textes, 
d'en proposer les meilleurs appariements de 
phrases. On consid6rera qu'il est peut ~tre 
coQteux en temps. C'est la un aspect que nous 
avons d61aiss6 volontairement, voulant pour 
l'instant r4ussir ~t reconna?tre si deux phrases 
donn~es sont bien traduction l'une de l'autre, at si 
oui, dans quelle mesure. - D'abord dans des 
conditions facilitant grandement la t,qche, car ies 
phrases sont extraites de textes dont on salt a 
priori qu'ils sont traduction ies uns des autres. En 
ce sens, la reconnaissance est contextuelle, car 
elle est fond6e davantage sur le rejet des phrases 
alentours qui ne vont pas, que sur une v6ritable 
reconnaissance de celle(s) qui vont. - Puis dans 
des conditions plus difficiles, en essayant de 
r6pondre sans l'appui de cette connaissance 
apriorique. 

Bibliography

IBellman, 1957\] Bellman. R. Dynamic programming, Prlnecton 
University Press. 

\[Brown et aL, 1988\] Brown, P., J. Coeke, S. Delle Pieml, V. Delle 
Pietra, F. Jelinek, R. Mercer, and P. Roouin. "A Statlstlcal 
Approach to Language Translation', In Proceedings of the 12th 
International Conference on Computational Linguistics, 
Budapest, Hungary (1988). 

\[Brown el al., 1990\] Brown, p., J. Cooke, S. Delle Pietra, V. Dell© 
Plelra, F. Jeli,ek, J. Lafferty, R. Mercer, and P. RooMin. "A 
Staticlical Approach to Machine Ttanllifion', In Computational 
Linguistics, Vol. 16, Number 2, pp. 79-85 (June 1990). 

1Brown et al., 1991\] Brown, p., J. Lai, R. Mercer. "Aligning 
Sentences in Plrallel Corpora'. In proceedings of the 29th 
Annual Meeting of the Association for Computational 
Linguistics. Berkeley, California, (1991). 

lCatizone et aL, 19891 Catizone, R., G. Ru~ll, and S. Warwick 
"Deriving Translation Data from Bilingual Texta', In U. 
Zernick (ed.) Proceedings of the First Le.tical Acquisition 
Workshop, Detroit, (1989). 

\[Debili, 19901 Debili, F. "Consiruetlon aulonmlique de dlctlonnaites 
de transfert d'expre~ions frenqais-anglais et fran~ais-arabe'. 
Rapport final d'~t/cution du Projet soumis au R~seau Franfais 
des Indz~stries de la Langue, Contrat n* 338/SG/C3, ACCT-UA 
962 du CNRS, Paris 0111211990). 

\[Gale and Church, 1991\] Gale, W. and K. Church "A Program for 
Aligning Sentences in Bilingual Corpora', In Proceedings of the 
29th Annual Meeting of the Association for Computational 
Linguistics, Berkeley, California, (1991). 

\[Laurii~re, 19791 Laurie:re J. L. EMments de programmation 
dynamique, Gauthient-Villara. 

\[Sadler, 1989\] Sadler V. "The bilingual Knowledge Bank - A aew 
conceptual basis for MT'. BSO/Research, Utrecht (1989). 

\[Sata and Nagao, 19901 Sato, S. and M. Nagao. " Towld 
Memory-baud Tranalation', In Proceedings of the 13th Int. 
Conference on Computational Linguistics, Helsinki, (1990). 

\[Watavick and Rus~ll, 1990\] Warwick S. and G. Ruuell, "Bilingual 
Coneordaneing and Bilingual Lexicography', In EURALEX 4¢h 
International Congress, Malaga, Spain (1990) 
