METHODES D'APPRENTISSAGE POUR L "ANALYSE AUTOMATIQUE 
MORPHOSYNTAXIQUE ET LEXICALE-SENANTIQUE DE LA LANGUE ESPAGNOLE 
A.Andreewsky +, M.Desi, C.Pluhr 
+LIMSI -CNRS, B.P.30, 91406 Orsay, Prance 
S,m.ary: TRAINING I~ETHODS YOR THE AUTONATIC MORPHOSTNTACTIC 
AND LEXICO-SmIANTIC ANALYHIS OP SPANISH 
We describe herein the setting up of an automatic morpho- syntactic and lexico-semantlc analysis system for Spanish. 
This system uses learning methods analogous to those used for 
French (of. Andreewski etal.: 1973, Dunod, 1974 and 1977 IFIP proceedings). 
The learning is going on step by step (I.000 words each) a~d a syntactical parsing (specific 
to Spanish) attributes ~ammatical labels to specific words and suffixes, chosen for 
their low rate of grammatical ambiguities. An ambiguity accumulation dictionary and morphosyntactic 
rules allowing for the resolution of these ambiguities are ob- tained aut~natically. They are progressively stabilized with 
the growing of the corpus. The method is discussed: 
- first, how to obtain lexico-semantic relations by filtering 
methods ! 
- second, how to handle the linguistic processing in Spanish with the nSPIRIT" automatic system (indexing and retrieval 
in natural language ). 
INTHODUCTION I~opos6e en 1971-72 dans le but de r~soudre un certain 
niveau d'smbigu~t~8 du lsngage, la m~thode d'apprentissage que 
nous appliquons ici ~ la langue espagnole est tr~s analogue 
cells utilis6e pour la langue fran~aise et pour laquelle de 
tr~s bons r~sultats ont ~t~ obtenus (1). 
Rappelons qus le concept d'apprentissage auquel nous fai- 
sons appel repose su~r le fair que dang route chains lexicale 
des ambigu~t6s apparaissent constamment, st que l'on dolt sup- 
poser (pour l'hc~ne) qu°~ chaqus fois dee procedures de d6sam- 
biguation sont dynamiquement raises en oeuvre pour lee traiter. 
- 11 - 
L'smbigu~t6 que l'on traite est celle qui provient de la 
~utilisation d'un m~e mot ou ~oupe de mote aveo des valeurs 
syntaxiquee (cat~gorieation ~ammaticale) ou s~mantiquee dif- 
f6rentes. Pou~ un traitement satiefaisant de cos smbigu'~t~s 
dane lee applications ~ 1 °lndexation autcmatique et l'inter- 
rogation de bases de donn~es en langage naturel, on a ~tg 
smen~ ~ formuler deux hypotheses eseentielles- 
- le oontexte limitg aux termes voisins dolt pemettre de lever 
un nomb~ tr~s important d'ambigu~t6s syntsxiques; 
- l°6tiquetage g~a~.natical du texte dolt permettre d'obtenir 
pa~ "flltrage" d~s relations ditee "lexicales s~mantiques" 
et de traiter lee ambigu\[t~s 86mantiques. (Hypotheses qui su~ 
le frangai8 ont donn~ de bone r~sultats.) 
D'autre part le texts d'apprentise~e espaF~ol est aeeum- 
pagn6 de la traduction correspondante frangaise, afin de sioux 
6tudier et pr~cieer lee probl~nes de la micro-idi~.atique dane 
le prooessus de la traduotion (pas n~oessairement automatique). 
LA METHODE D "APPRENTISSAG~ 
Le principe de la m~thode d'apprentlssaEe , largement d~- 
orit dan- (I), est le suivant: on analyse manuellement un 
taxte T dit d*"apprentiesage" aocompagn6 de sa traduction, 
d'une analyse de te~minaison et "d'une analyse grammaticale, 
comae eels est indiqu~ dane l'exemple ei-deeeous o~ l'on 
trouve: dane la p~emi~e eolonne le texte T lui-meme, dane la 
deuxi~me colonne ls traduotion, dang la t~oisi~me colonne la 
tezminaison ~ventuelle du mot espagnol, et dane la quatri~ne 
eollone le cat~gorie ETammatlcale r~alis~e dane le texte. 
a emarq ue,9: 
1. On s'efforcs de fairs use traduo~ion aussi proohe que pos- 
sible du texts, maim intelligible. Lee mote indispensables 
l'intelliglbilit~ et qui ne sent pae dane le texts 
espagnol, sent mis entre parentheses en frangale. 
2. Lee terminaisons sent ehoisies en fonction de leu~ ca~ac- 
tore diecrimiDant, c "est-a-di~e qu'elles ne sent caraotd- 
ristiques que d °use seule ear,Eerie ~smmaticale en g~n~ral, 
- 12 - 
3. 
de~x au plus. Si elles ont deux catSgories gra~naticales, 
il eat euppoa~ que le contexte voisin permettra de lever 
l°ambigu~t~, oe qua. set v~rifi~ dane l'autocoh6rence. 
Des rar~ements par ordre elphab~tiqae de chaoune des quatre 
oolonnes, pe~ettent au tours de l'apprentissage de v~ri- 
fier la qualit~ du codage ~ savoir: correction des erreurs 
ortho~aphiques, inooh~rences dane lee codes grammatioaax 
dane la terminaison (deux tre~n~naisons diff~rentes pour 
unmeme mot) dane la traduotion. 
como comma ~ conjonction subordination 
son (iIs) sont ~ verbe d'~tat indicatif 
interesantes int~ressants antes attribut 
para pour ~ pr~position 
topos tous ~ pronom g~n~ral compl~ment 
los les ~ article d~fini 
documentos documents mentos substantif 
no ne ~ n~gation no 
estan sont (pas) ~ verbe d'~tat indicatif 
en dans ~ pr~position 
la la ~ article d~fini 
biblioteca biblioth~que teca substantif 
sino mais ~ ~l~ment de la n~gation 
sobre sur ~ pr~position 
la la ~ article d~fini 
mesa table ~ substantif. 
Un grand nanbre de mote de oette phrase sont ambigus, 
comme on psut le constater en examinant lee phrases qv~t sui- 
vent: ba~lar al son de guitarra; como una naranJa; el tiempo 
se para y mi sino se Juega abora; los heohos ~nportantes son 
los de la exper~nentac~on; la ouenta est~ en el sobre; el la 
y el mt de mi p~ano suenan ~l. 
Si ensuite, ~ partir du texte d°apprentissage, on oonsti- 
tue un dictionaire de ¢~nul, il aura la forms (loi ne 
figurent qua lea mote mnbigue): 
como : conjonction de subordination, verbe indicatif, ... 
\]a : article d~fini, substantif, ... 
\]os : article d~fini, pronom attribut, ... 
para : pr~position, verbe conjugu~, ... 
sino : pr~position, substantif .... 
sobre : pr~position, substantif .... 
son : verbe ~tat indicatif, substantif, ... 
- 13 - 
De meme, eet oonstttu~ un dlottonatre de o~ul dee 
tezmtnateons, par exemple= 
antes : attribut, adjectif post~rieur, substantif 
mentos . : substantif 
teca : substantif 
D6s que le texte dev£ent aeeez long, 1el 1tome lexloa~x 
ee renoontrent aveo des 6ttquettes eyntaxtquee et des aooep- 
ttons dtff~rentee, male pour lee termtnaleons cola ee product 
aeeez rite° C "est po~luo$ on a effeotu6 un apprentleeaEe 
m~te qu~ porte ~ la lots tur lee mote pletns sans te~nfnalson, 
lee terminaleons et lee mote relatlonnele. 
A partir du tezte t~Lttal Tet du dlotlo~atre de oumul, 
un texte ambtgu T A eet or~ (leeterminateons eont pr6o~d~ee 
d'un ttret)o ll a la forme= 
como 
son 
-antes 
para todos 
los -mentos 
no 
estan en 
\]a 
-teca 
sine sobre 
la 
mesa 
(conjonction de subordination, verbe indicatif) (verbe ~tat indicatif, substantif) 
(attribut, adjectif po~t~rieur, substantif) (pr~position, verbe conjugu~) 
(pronom g~n~ral compl~ment) 
(article d~fini, prenom attribut) (substantif) 
(n~gation no) 
(verbe d'~tat indicatif) (proposition) 
(article d~fini, substantif) 
(substantif) 
(~l~ment de la n~gation, substantif) " 
(prOposition, substantif) 
(article d~fini, substantif) 
(substantif) 
Et la comparateon de Tet T~ permet d'obte~t~ des r~gles de 
r6eolutlon qut par exemple ~ l'ordre trois ~veo le texte 
choet auront la £o~ne- 
(oon~ sub, verb tnd) w (verb 6tat tnd, eubetanttf) zt (attrtbut, 
ad~ p,eubetanttf) 
oh l°aet~rteque ~ se lit: eatvt de, et oh noue avons eurltgn~ 
lee ~eoluttons obtenuee pa~ ¢omparaieon de T A aveo T. On re- 
marque que (attrfbut, adJ p, cuber) eet une amblg~t~ o~ul~e 
par une termtnaison. 
- 14 - 
RESULTATS ET CONCLUSIONS 
Le corpus d "apprentissage a ~t6 cons#itu6 ~ partlr de 
textes varies lltt~raires ou soientifiques. II eat actuelle- 
ment de olnq mille mote, se qua nousa amen~ ~ effec~uer, une 
oat~gorisation grsmmaticale assez complete (120 categories 
aotuellement) et hOe a permis d'obtenir une diversit~ syntaxi- 
que suffieante pour lee applloations envlsag~es. 
Cee dernl~res sont essentlellement orlent~es vers 1 "In- 
dexatlon autometlque et 1 "interrogation en langage naturel 
dane le cadre du syst~m~SPIHIT qul impose tout d'abord une 
normalleatlon oorreote dee mote du texts afin d "en feire des 
oomptages ooh~rents, Pour obtenir cette normalisation, on sup- 
pose que sont identlfi~s les elnguliers et plurlels dee sub- 
stantifs, lee flexions de la conJugalson, eto.o, ce qui dolt 
A ~tre fair en relation aveo l'analyse syntaxique, grace ~.~ 
A dio~ionnaire en formes completes du meme type que le diction- 
--ire de ou~ul d~crit plus haut, La normalisation ee fait 
alors euivant le schema: 
tsxte+ lexique en formee o0mpl~tes -~ texte embigu -~ eyntaxe -> 
"F normalisatlon 
D'autrs part t Is syst~me SPIRIT prend en compte lee mote com- 
pOS~S qui, grace ala syntexe d~crlte, peuvent e~re obtenue 
par filtrage. Ce problems a 6t6 ~tudi6 par ocmparaieon aveo 
lem m~thodee ~tudi~ee en fran@ale. 
Rappelons que (2) le filtrable ooneiste ~ trier aut~natique- 
ment l'ensemble des oba~nes du corpus de structure grammatioale 
dorm, s: par exemple : 
substantif ~ ad~sotif • sstudlos metalogr~fioos 
eubstantif ~ del ~ eubetantif: energla dsl ~tomo 
subetantif ~ adJectif ~ de la ~ eubetantif: control 
conetente de la radiactividad 
inflnitif ~ lee ~ eubstantif a edJectif: absorber las 
radiaolonee peligroeas 
- 15 - 
Par allle~rs la structure donn6e peut, selon le contexte, re- 
presenter ou non un concept. En consequence, la structure du 
contexte dolt ~tre pr~cis~e: par exemple la structure: 
substantif q de un ~ subetantif set un concept dane: fiJacion 
al ayuntsmiento de un aviso et n'en est pas un dan-: fiJacion 
al ayunte~tento de un pueblo. Par contre, pr~c~d~e d'm~ point 
st un article et suivie d'un verbs tortugaS, cette structure 
n'est plus ambigu~. 
Lee filtres obtenus en fran~ais semblent s'appliquer 
l'espagnol aveo toutefois certaines modifications dues aux 
diff6rencss par rapport au frangais (pronoms agglutin~s au 
verbs, absence fr@quente du pronom personnel, de l'article 
ind4finl au pluriel, de l'Inverslon de su~et par rapport au 
verbe, etOo.o). 

References

A. Andreewski, C. Plub~ 
- Apprent~ssage - Analyse automatlque du langage, appli- 
cation a la dooumentatlon. Dunod - documents de linguls- 
tiqae quantitative, no 21, 1973 (1lyre 250 pages). 

A. Andreewski, C. Plub~ 
- Analyse canparati~e du contenu, indexation automatique./ 
SImlnaire IRIA, f~vrlsr 1974. 

A. Andreewski, C. Plub~ 
- A learning method for natural language processing and 
ap~lication to information retrieval. IFIP congress, 
ao~t 1974, pp. 924-926, Stockholm, 6d. North-Holland. 

A. Andreewski, F. Debill, C. Fluhr 
- Compatatlonal learning of semantic lexlcal relations for 
the generation and automatic analys~s of content. (pp. 
667-673), IFIP congress Toronto, aoh't 1977. 

A. Andreewski, F. Debill, C. Fluhr 
- Apprentiesage en syntaxe st s4mantique. Revue du Palais 
de la D6couverte, Yolo 9, No 83, pp. 17-40, d~oembre 1980. 

Y. N. Xarohuk 
- Diotionnair~e contexto-logique de traduction des poly- 
semes de i anglais en fusee. Moscou, 1976. 
