Parole et traduction automatique : 
le module de reconnaissance RAPHAEL 
Mohammad AKBAR 
GEOD, CLIPS/IMAG 
Universit6 Joseph Fourier, BP. 53 
38041 Grenoble cedex 9, France 
Mohammad.Akbar@imag.fr 
Jean CAELEN 
GEOD, CLIPS/IMAG 
Universit6 Joseph Fourier, BP. 53 
38041 Grenoble cedex 9, France 
Jean.Caelen@imag.fr 
R~sum~ 
Pour la traduction de parole, il est 
n6cessaire de disposer d'un syst~me de 
reconnaissance de la parole spontan6e grand 
vocabulaire, tournant en temps r6el. Le 
module RAPHAEL a 6t6 con~u sur la plate- 
forme logicielle de JANUS-III d6velopp6e 
au laboratoire ISL (Interactive Systems 
Laboratory) des universit6s Karlsruhe et 
Carnegie Mellon. Le corpus BREF-80 
(textes lus extraits du Journal Le Monde) a 
6t6 utilis6 pour le d6veloppement, 
l'apprentissage et l'6valuation du module. 
Les r6sultats obtenus sont de l'ordre de 91% 
de bonne reconnaissance de mots. L'article 
d6crit l'architecture du module de 
reconnaissance et son int6gration ~ un 
module de traduction automatique. 
Introduction 
La traduction des documents 6crits a fait de r6els 
progr6s pendant ces derni6res ann6es. Nous 
pouvons constater l'6mergence de nouveaux 
syst~mes de traduction de textes qui proposent 
une traduction soign6e en diff~rentes 
langues\[1\]. I1 semble envisageable de les 
adapter pour la traduction de l'oral, ~ condition 
d'en am61iorer le temps de r6ponse et la 
robustesse : c'est le ~ challenge >> pos6 /~ ces 
syst~mes mais aussi au module de 
reconnaissance de Ia parole. Un syst6me de 
traduction de l'oral repose sur l'int6gration des 
modules de reconnaissance et de synth~se de la 
parole et des modules de traduction, pour obtenir 
une boucle complete d'analyse et de synth~se 
entre les deux intedocuteurs \[Fig. 1\]. Le projet 
CSTAR-II \[3\] est un projet international darts 
lequel toutes les 6quipes travaillent sur tousles 
aspects de ce module. 
Pour permettre /l deux personnes de 
communiquer, il faut deux s&ies de processus 
sym6triques dans les deux langues : un module 
de reconnaissance pour acqu6rir et transcrire les 
6nonc6s dits par un locuteur dans sa langue pals 
un module de traduction qui traduit la 
transcription dans la langue du destinateur ou 
dans un format d'6change standard (IF = 
Interchange Format) et enfin un module de 
synth~se de la parole (et de g6n6ration si on 
utilise le format IF) dans la langue cible du 
Synth~se ~ Traduction 
de la parole instantan6 
• / Transmission du texte 
I Reconnaissance Traduction • ~ de la parole . instantan6 
~Reconnaissance 1 
de la parole \] 
Synth6se \] 
de la parole 
Fig. 1. L'architecture d'un syst~me de traduction instantan6e. 
36 
destinateur. Dans le cadre du projet C-STAR II 
nous avons en charge la conception et la 
r6alisation du module de reconnaissance de la 
parole continue ~ grand vocabulaire pour le 
frangais. Nous collaborons avec l'6quipe GETA 
du laboratoire CLIPS-IMAG et le laboratoire 
LATL pour la traduction automatique et le 
laboratoire LAIP pour la synth6se de la parole. 
Ce consortium s'est fix6 l'objectif de r6aliser un 
syst+me de traduction de l'oral pour le frangais. 
Dans cet article nous allons tout d'abord 
pr6senter l'architecture du syst6me de traduction 
et la plate-forme de d6veloppement JANUS-III 
\[2\], puis les diff6rentes 6tapes du d6veloppement 
du module RAPHAEL et enfin, les premiers 
r6sultats obtenus. 
1 RAPHAEL pour la Traduction 
L'architecture du syst~me de traduction de 
parole est compos6e de trois modules essentiels 
(la reconnaissance, la traduction et la synth~se 
de la parole) \[Fig. 2\]. Dans ce projet nous 
utilisons ARIANE et GB \[3\] pour la traduction 
et LAIP-TTS \[4\] pour la synth~se. Le 
I Reconnaissance de la Parole \] RAPHAEL (CLIPS/IMAG-ISL) 
Texte Contr01e 
I Traduction Automatique 1 ARIANE (GETA), GB (LATL) 
I Synth~se de la Parole \] LAIP-TTS (LAIP) 
Fig. 2. Les composants du syst~me 
d~veloppement du module de reconnaissance 
RAPHAEL a 6t6 effectu6 sur la plate-forme 
logicielle de JANUS-Ill. RAPHAEL donne en 
sortie un treillis de mots sous le protocole 
TCP/IP. Le traducteur utilise ce r6sultat pour en 
donner une version traduite. Cette version est 
ensuite envoy6e au synth6tiseur de la parole. 
Dans cet article nous nous int6resserons 
seulement au module de reconnaissance 
RAPHAEL. Pour l'instant la strat6gie d'6change 
entre les modules est enti6rement s6quentielle. 
Afin d'am61iorer le r6sultat final (surtout du 
point de vue de la robustesse) nous envisageons 
l'int~gration d'une seconde couche de contr61e 
pour permettre le ~ restoring >> des hypotheses 
en tenant compte des taux de confiance associ~s 
aux diff~rents mots de l'~nonc~ reconnu. 
1.1 Plate-forme de JANUS-Ill 
Cette plate-forme de traduction a 6t~ d~velopp~e 
dans le laboratoire d'ISL des universit6s 
Carnegie Mellon et Karlsruhe et contient tousles 
composants n6cessaires au d~veloppernent d'un 
syst/~me de reconnaissance phon~mique ~ grand 
vocabulaire /l base de Chaines de Markov 
Cach~es (CMC) et de r~seaux de neurones. La 
facilit6 d'~crire un module de reconnaissance en 
langage Tcl/Tk avec JANUS-Ill nous permet 
d'adapter ses capacit~s selon les besoins 
d'application et les caract~ristiques du frangais. 
De cette plate-forme, seul le moteur de 
reconnaissance est directement exploitS. Mais le 
travail de preparation des bases de donn~es, 
l'apprentissage des modules de phonemes, 
l'6valuation sont ~galement effectu~s dans cet 
environnement de programmation. Le langage 
PERL est en grand partie utilis6 parall~lement 
pour traitement du texte du corpus. 
Les d~tails techniques de JANUS-Ill sont 
donn~s dans \[2\], \[5\], \[6\]. Cependant nous en 
pr~sentons bri~vement quelques points ci-apr~s. 
2 Le Module RAPHAEL 
L'architecture du module de reconnaissance 
RAPHAEL est pr6sent6e sur la \[Fig. 3\]. 
L'analyse de la parole produit une suite de 
vecteurs de param6tres acoustiques. Ces 
vecteurs sont utilis6s par un moteur de recherche 
base de CMC pour estimer la suite des 
phon6mes 6none6s. Un module de langage 
stochastique /~ bigramme et trigramme, et un 
dictionnaire des variantes phon6tiques sont en 
parall61e exploit6s pour restreindre le champ de 
recherche I. Au cours de la recherche le 
dictionnaire phon6tique fournit le(s) phon6me(s) 
suivant(s). Le mod61e probabiliste de langage 
base de bigramme et de trigramme est utilis6 
lors de la transition entre deux mots pour fournir 
un ensemble de mots \[Fig. 4\]. 
I Avec 45 phonemes en moyenne une suite de cinq phonemes se transforme th~oriquement en un arbre 
de d6cision de 455= 184,528,125 feuilles ! 
37 
tion  1 la parole 
Traitement num6rique, Estimation des 
param~tres acoustiques 
ModUle stochastique de langage 
(bigramme et trigramme) 
I Base de donn6es des param~tres \] 
des Chaines de Markov Cach6es 
~ Cha~nes de Markov Cach~es pour 1 la reconnaissance phon6mique 
Dictionnaire phon~tique 
(vocabulaire de reconnaissance) 
no.j~,j, 
chsmbr~. 
Fig. 3. Schema du module de reconnaissance phon~mique RAPHAEL. 
2.1 Cha\[ne de Markov Cach~es 
Pour utiliser les CMC il faut conduire une phase 
d'apprentissage pr6alable dans laquelle on 
adapte les probabilit6s des transitions et des 
symboles sortis pour un phon6me donn6 de 
mani~re /~ ce que la probabilit6 du processus 
associ6 soit maximale. Les param~tres des 
modules et la transcription phon6tique des 
6nonc6s du corpus sont deux 616ments essentiels 
d'apprentissage. 
RAPHAEL comporte 45 CMC repr6sentant 42 
phonemes de base du frangais et 3 mod61es pour 
le silence et le bruit. A quelques exceptions pros 
les CMC se composent de trois 6tats. Le vecteur 
de param~tres d'entr6e est de dimension 122. Les 
CMC ont 16 distributions Gaussiennes pour 
chaque 6tat. 
Lors de l'apprentissage nous produisons la 
transcription phon6tique correspondante /~ 
chaque 6nonc6 (cela se fait /~ l'aide du 
dictionnaire phon6tique). Pour chaque 6nonc6 
les CMC correspondant aux phon6mes sont 
concat6n6es pour cr6er une longue chaSne. 
Ensuite l'algorithme de Viterbi \[5\] propose un 
alignement de l'6nonc6 avec cette chaine. Avec 
2 Les coefficients MFCC \[5\] d'ordre 16 sont calcul6s 
sur une trame de 16 ms de parole, avec un pas 
d'avancement de 10ms. La parole est 6chantillonn6e 
16 kHz et sur 16 bits. Les MFCC, l'6nergie du 
signal, et leurs premi6re et seconde d6riv6es (51 
valeurs) subissent ensuite une analyse en 
composantes principales (ACP) pour r6duire la 
dimension du vecteur /~ 12. La matrice d'ACP est 
calcul6e avant la phase d'apprentissage, sur un grand 
corpus enregistr6. 
cet alignement l'algorithme de Baum-Welch \[5\] 
proc~de ~ l'estimation des param6tres de chaque 
CMC pr6sente dans la cha~ne. Ce proc6d6 est 
r6p6t6 pour tous les 6nonc6s du corpus 
d'apprentissage et cela plusieurs fois. La 
pr6sence des diff6rents contextes phon6miques 
permet /lce proc6d6 de minimiser le taux 
d'erreur de reconnaissance. L'6valuation du taux 
d'erreur /l la fin de chaque it6ration permet 
d'6tudier l'avancement de l'apprentissage. 
2.2 ModUle de langage stoehastique 
Afin de r6duire le champ de recherche, un 
mod61e de langage doit ~tre utilis6. Bien que 
dans les syst6mes /l commande vocale qui 
utilisent une syntaxe r6duite les grammaires 
finies ou r6currentes peuvent ~tre utilis6es, 
celles-ci ne sont pas capables de d6crire tous les 
ph6nom6nes de la langue parl6e (ellipses, 
h6sitations, r6p6titions, etc.). Pour cette raison il 
est souhaitable d'utiliser un module stochastique 
qui estime dans un contexte donn6, la probabilit6 
de succession des mots. Dans le mod61e actuel 
les contextes gauches d'ordres un et deux 
(bigramme et trigramme) sont en m~me temps 
exploit6s. Le bigramme est utilis6 dans la 
premiere phase de recherche pour cr6er un 
treillis de mots, puis le trigramme est utilis6 pour 
raffiner le r6sultat et d6terminer les N meilleurs 
phrases plausibles. Le mod61e de langage se 
charge en m~me temps de la r6solution de 
l'accord en frangais. 
Le calcul des param~tres de ce module a ~t~ 
effectu6 ~ partir des corpus enregistr6s et 
transcrits. Dans l'6tat actuel un vocabulaire de 
7000 mots a 6t6 s61ectionn6. 
38 
d 
Repr6sentation d'un phon6me 
Darts un mot le 
dictionnaire 
phon6tique est 
utilis~ pour trouver 
et encha~ner les 
phonemes suiv~mts 
selon les variantes 
phon6tiques 
disponibles. 
L'hypoth6se de mot #1 ~- 
..... 
Pour d6terminer les 
roots et les phon6mes 
suivants le mod61e 
stochastique du 
langage et le 
vocabulaire transcrit 
en phon6tique sont en 
m~me temps utilis6s. 
L'hypoth6se de mot #2 
Fig. 4. Repr6sentation de I'algorithme de recherche 
2.3 Dictionnaire Phon6tique 
La conversion d'une chalne d'hypoth6ses 
phon6tiques en une chaine orthographique se fait 
/t partir d'un dictionnaire phon6tique. Pour 
couvrir un grand hombre de prononciations 
diff6rentes dues aux diff6rents dialectes de la 
langue et aux habitudes des locuteurs, ce 
dictionnaire contient pour chaque mot un 
ensemble de variantes phon6tiques. A chaque 
hypoth6se de mot propos6 par le mod61e de 
langage on associe cet ensemble de variantes. 
Ind6pendamment done de la variante utilis6e 
dans l'6nonc6, nous obtenons la m~me 
transcription orthographique. Nous utilisons 
sp6cifiquement cette technique pour couvrir les 
variantes produites par la liaison, par exemple : 
Je suis parti de la maison. (-Z& sHi paRti ...) 
Je suis alld ~ la maison. (Z& sHiz ale ...) 
ensemble de BREF-80 comprenant les 6nonc6s 
de 4 femmes et 4 hommes a 6t6 utilis6 pour 
l'6valuation 4. Le vocabulaire a 6t6 transcrit soit 
manuellement, soit /l partir du dictionnaire 
phon6tique BDLEX-23000. Le mod61e de 
langage a 6t6 estim6 h partir de BREF-80 et un 
corpus de texte d'/t peu pr6s 10 millions de mots 
extrait du journal Le Monde. 
Pour l'initialisation des CMC, au lieu d'utiliser 
les valeurs al6atoires (technique habituelle), 
nous avons choisi d'utiliser les modules issus du 
projet GlobalPhone \[7\]. Pour chaque phoneme 
de notre module nous avons manuellement 
choisi un phon6me dans une des langues 
support6es par GlobalPhone (principalement 
allemande) et nous avons utilis6 ses param6tres 
comme valeurs initiales de nos CMC. Ensuite 
ces mod61es ont 6t6 adapt6s au fran~ais au 
moyen de l'algorithme d'apprentissage d6crit en 
2.1. A la fin de chaque it6ration et ce pour 3 
3 L'apprentissage 
Le corpus BREF-80 \[8\] comportant 5330 
6nonc6s par 80 loeuteurs (44 femmes et 36 
hommes) 3 a 6t6 utilis6 pour les phases 
d'apprentissage et d'6valuation. Un sous- 
3 BREF-80 contient 3747 textes diff6rents et environ 
150,000 mots. 
4 Les sous-corpus de l'apprentissage et de 
l'6valuation n'ont aucun 6none6 et locuteur en 
commun. En r6alit6, nous avons enlev6 tous les 
6nonc6s en communs entre ces deux sous corpus. 
Ainsi le sous-corpus d'apprentissage comprend 4854 
~nonc6s et le sous-corpus d'6valuation 371 6nonc6s. 
Nous avons retir6 105 6nonc6s pour assurer la 
disjonetion des deux sous-corpus. 
39 
itdrations, le syst~me a 6t6 6valu6 avec le sous 
corpus de l'dvaluation. 
4 R6sultats 
Les r6sultats d'6valuation en terme de taux de 
reconnaissance sont donn6s dans le \[Tableau 1\]. 
Syst~mes % mots reconnus 
ModUles issus de GlobalPhone 29 
Premi&e itdration 88,8 
Troisidme itdration 91,1 
Tableau 1. Les r6sultats de l'6valuation 
4.1 Commentaires 
Une tr~s bonne initialisation de certaines 
consonnes identiques dans des diffdrentes 
langues (p, t, k, b, d, g, etc.) a rapidement permis 
d'obtenir un syst~me fonctionnel. 
On constate une saturation tr~s rapide du taux de 
reconnaissance d~s la troisi~me itdration. Nous 
pouvons distinguer trois types de probldme qui 
nous em#chent d'atteindre un meilleur taux de 
reconnaissance : 
• Fautes de frappe darts le texte du corpus, 
• Transcription erronde ou insuffisamment 
ddtai116e des 6noncds, 
• La couverture partielle de toutes les 
variantes phondtiques d'un mot. 
Ces trois probl~mes sont les causes d'un grand 
nombre d'erreurs d'alignement qui vont 
directement influencer le rdsultat final. Nous 
devons donc effectuer une vdrification compldte 
du corpus et du dictionnaire phondtique. 
Les mots hors du vocabulaire sont /~ l'origine 
d'un pourcentage important d'erreurs. En effet, 
dans 371 6noncds du sous-corpus de l'dvaluation 
nous rencontrons environ 300 mots hors 
vocabulaire. Ces mots reprdsentent environ 
3,5 % de la taille du vocabulaire. I1 ne sont pas 
reprdsentds dans le corpus d'apprentissage et 
leur transcription n'existe pas darts le 
dictionnaire phon&ique. 
Conclusion et perspectives 
Dans cet article nous avons bri~vement ddcrit, 
en termes d'avancement de projet, notre syst~me 
de reconnaissance RAPHAEL /l grand 
vocabulaire et rapport6 des premiers rdsultats 
obtenus. Notre but est d'amdliorer le taux de 
reconnaissance par l'utilisation des moddles 
phondtiques contextuels et d'61argir le 
vocabulaire utilis6/t plus de 10000 mots. Pour 
atteindre ce but nous allons spdcialiser le 
vocabulaire dans le domaine du tourisme et 
utiliser d'autres corpus de la parole spontande 
dans ce domaine avec un nombre plus important 
de locuteurs. En mdme temps nous ddfinirons un 
protocole d'dchange plus 6labor6 avec le module 
de traduction afin de permettre la 
communication d'informations linguistiques et 
statistiques au module de traduction, toujour 
dans le but d'amdliorer les performances de 
notre systdme. 
Remerciement 
Nous remercions Alex Waibel pour la mise /l 
disposition de JANUS-III et Tanja Schultz pour 
son support scientifique et technique dans 
l'utilisation des rdsultats du projet GlobalPhone. 

References
1 Hutchins W. J. (1986) Machine Translation : Past, 
Present, Future. Ellis Horwood, John Wiley & 
Sons, Chichester, England, 382 p. 
2 Finke M., Geutner P., Hild H., Kemp T., Ries K., 
Westphal M. (1997) : The Karlsruhe- Verbmobil 
Speech Recognition Engine, Proc. of ICASSP, 
Munich, Germany. 
3 Boitet Ch., (1986) GETA's MTmethodology and a 
blueprint for its adaptation to speech translation 
within C-STARII, ATR International Workshop on 
Speech Translation, Kyoto, Japan. 
4 Keller, E. (1997). Simplification of TTS 
architecture versus Operational quality, 
Proceedings of EuroSpeech'97, Rhodes, Greece. 
5 Rabiner L., Juang B.H. (1993), Fundamentals of 
Speech Recognition, Prentice Hall, 507 p. 
6 Haton J.P., Pierrel J.M., Perennou G., Caelen J., 
Gauvain J.L. (1991), Reconnaissance automatique 
de laparole, BORDAS, Paris, 239 p. 
7 Schultz T. Waibel A., Fast Bootstrapping of 
L VCSR systems with multilingual phonem sets, 
Proceedings of EuroSpeech'97, Rhodes, Greece. 
8 Lamel L.F., Gauvain J.L., Eskenazi M. (1991), 
BREF, a Large Vocabulary Spoken Corpus for 
French, Proceedings of. EuroSpeech'91, Genoa, 
Italy. 
