Indexation de textes : l'apprentissage des concepts 
C. Enguehard* - P. Malvache**- P. Trigano * 
• Universit6 de Technologie de Compi~gne 
URA CNRS 817 - GI 
BP 649 
60206 Compi~gne CEDEX - FRANCE 
EMail : Tligano@FRUTC51.bitnet 
• * Commissariat "~ L'Energie Atomique 
Centre d'Etudes de Cadarache 
13108 Saint-Paul-Lez-Durance - FRANCE 
ABSTRACT 
hi technical fields, mmly documents go unread 
due to a lack of awareness of their existence. A 
system which indexes texts can find all 
relevant texts in response to a query. The 
problem is to establish the indexation. At 
present, adwmced full text systems 
automatically index texts on the complete 
thesaurus with computed weights. Another 
way of doing this carl be a person choosing the 
set of relevant concepts. This second solution 
is better but more costly and dependent on the 
classification choices made by the operator. 
To meet these problems, ANA (Auomatic 
Natural Acquisition) had been developed. This 
system automatically extracts relevant 
concepts from free texts to produce a semantic 
network. It does not rely on grammar or 
lexicon but, instead, is based on ,an original 
statistical method. 
This research brings about two developments : 
oll one hand the system is also capable of 
extracting the simple grammatical structures it 
encounters, most often in order to improve its 
performance, and on the other hand this will 
lead to an automatic definition of semantic 
classes of concepts, in order to structure the 
network. 
ACRES DE COLING-92, NANTES. 23-28 ^Ol~q" 1992 1 I 9 7 PROC. OF COLING-92. NANI'ES, AUG. 23-28. 1992 
1 - INTRODUCTION : 
Le domaine des grandes bases de comlaissances, 
rassemblant des textes, est apparu vers les anndes 50 
comme une des applications privilEgiEes de la puissance 
des ordinateurs. Deux besoins cruciaux out Et6 
identifi~s : l'indexation des textes doit Otre correcte, la 
recherche dolt /~tre efficace en rdponse ~ une simple 
question. 
Au cocur de ces probl~mes, se pesent le choix des 
concepts et, plus gEnEralement, la definition de 
nouveaux thesaurus. Sahon avait prEconisd d~s 1966 
l'automatisation de ces tilches car leur rEalisation 
manuelle est coflteuse et non dEtemfiniste \[SALT 66\]. 
Nous prEsentons ici le syst~me ANA 
(Apprentissage Naturel AutomatisE) qui sElectionne les 
concepts (sur lesquels seront indexes les textes de la 
base), eL les structures afin de faciliter las interrogations 
uttErieures. 
Nous avons choisi de travailler avec le minimum 
de connaissances, sails analyseur syntaxique, sans 
dictiormaire, uniquement par l'observation statistique des 
textes. Les concepts sElectionnEs sont alors directement 
issus de la langue employee. A cette exigeucc dc 
simplicitE, nous avons ajoutd la robustesse. Le systEme 
dolt supporter les dysfonctionnements que pourrait 
causer une lacune clans ses connaissances. Enfin, la 
simplicitd des ressources utilisEes permet au syst~me 
d'auto-dEcouvrir les connaissances dont il a besoin. 
lndexation manuelle 
Les syst~mes les plus simples et les plus rEpandas 
sont bases sur la selection de mots-clEs clans les textes. 
Une question utilisant ces mots donne accEs aux textes 
ainsi sdlectionnEs. Ces syst~mes prEsentent 
l'ineonvEnient d'&re tr~.s rigides : I'ajout d'un nouveau 
mot-clE oblige ,h reparcourir tousles textes dEjb. indexes 
pour y rechercher sa presence. M~me automatisEe, cette 
procedure est trb, s contraignante. De plus Salton 
\[SALT 86\] a dEmontr6 les inconvEnients de I'indexation 
manuelle. A titre d'exemple, deux sujets diffErcnts ne 
choisissent quhh 70% des mots-clEs identiques pour 
indexer un m~me document ~ I'aide du m~me thesaurus. 
De plus, des informations, qui, hun moment dnnnd, ne 
semblent pas pertinentes/~ l'indexeur peuvent jouer un 
r61e contexte important \[ANDRa\] 
MEthodes statistiques 
Le probi~me du choix des concepts est contournE 
Iorsque l'on utilise le thesaurus en entier. 
Des crit~:res purement statistiques, se rEfErant ~t la valeur 
des termes d'indexation et non/1 leur sens \[DACH\] sont 
utilisds pour indexer les textes. 
Trb~s t6t, Stiles a montrd l'intdrt~.t de prendre en 
compte les occurrences simultandes de termes 
\[STIL 61\]. Plus rEcemment sont apparus les rEseaux 
connexionistes qui permettent de gErer dynamiquement 
les liens et les coefficients de ponddration affectant les 
termes d'indexation du thesaurus \[KIMO 90\]. Dans 
\[ANDRc\], on utilise les probabilitEs de Bayes 
actualis~es en fonction des rEponses et du poids 
sEmantique des termes dans le thesaurus (ou le 
dictionnaire). Cette thEorie oblige /1 distinguer 
homographes et synonymes car ceux-ci peuvent 
provoquer des biais importants. Turtle tente de simplifier 
les calculs de probabilitE dont la complexitE grandit de 
fad:on exponentielle avecla taille de la base \[TURT 91\]. 
D'autres mEthodes sont dEveloppEes pour 
representer le contenu sEmantique de chaque document, 
en particulier ~ raide de matrices : les lignes 6tant les 
documents et les colonnes les mots-clEs. C'est la 
mdthode de la structuration de la sEmantique latente 
\[FURN\], \[DEER 88\], \[DEER 90\], 
Approches mixtes 
Entre ces deux extremes, l'intervention de 
l'intelligence humaine darts l'indexation manuelle, et la 
prise en compte de tout le thesaurus (sans 
comprehension), l'Intelligence Artificielle oriente ses 
recherches vers I'automatisation du choix des concepts 
porteurs de l'indexatiou. Le problEme est alors de dEfinir 
les crit~res qui permettront la selection des concepts. 
Certains syst~mes utilisent des connaissances 
lexicales, syntaxiques, parrots sEmantiques (les 
synonymes). S. David pense que l'analyse morpho- 
syntaxique est une 6tape indispensable : l'utilisation de 
patrons catEgoriels permet d'isoler les groupes de roots 
intEressants \[DAVI\]. Ces approches linguistiques, h 
priori les plus appropriEes, sont aussi les plus difficiles h 
implanter. 
De nombreux systEmes mixtes font intervenir b. la 
fois des outils linguistiques et statistiques. Le systEme 
Spirit en est un boll exemple. Les textes y sont analyses 
dans le but de repdrer les ElEments articulatoires du 
langage qu' utilise l'analyse linguistique pour 
sElectionner les concepts jugEs pertinents. Des filtres 
statistiques Evaluent les pondErations \[ANDRa\]. 
2 - PRESENTATION 
Nous avons choisi d'utiliser l'apprentissage pour 
acqudrir les concepts correspondants aux textes traitEs, 
L'apprentissage automatique da langage (russe) par le 
comptage d'occurrences a dEj/t 6t~. EtudiE par 
Andreewsky \[ANDRb} mats le but Etait alors de 
dEcouvrir la grammaire de le langue h travers 
l'agencernent des ddclinaisons. 
Notre idEe a 6rE de concevoir un syst~:me aussi 
simple que possible avec le minimum de connaissance, 
mOme incomplete. 
Ce syst~me rEpond au problb~me du choix des 
concepts en n'utilisant ni l'analyse syntaxique ou 
sEmantique nile dictionnaire. 
Nous avons essayE d'Evaluer et de rEduire autant 
que possible les colmaissances, explicites et implicites, 
fournies au systb, me. Celui-ci est efficace lorsque les 
textes se referent h un domaine technique. /Is sont alors 
gEnEralement Ecrits dans un langage dit "opEratif", un 
langage precis comportant peu d'homographes ou de 
synonymes \[FALZI. 
La mise en oeuvre d'heuristiques tr~s simples 
permet au syst~me d'acquErir une experience des objets 
familiers du domaine qui apparaissent darts les textes 
foumis. Cette connaissance se rEf~re directement au 
langage utilisE dans les textes, m~me si ceux-ci ne sont 
pas syntaxiqaemant corrects ou si les roots employEs ont 
un sans different de leur definition. 
Nous prEsenterons dans un premier temps les processus 
mis en oeuvre dans le syst~me ANA. Ensuite, nous 
ACTES DE COLING-92, NAhTE.~, 23-28 hOt~ 1992 1 I 9 8 PgOC. OF COLING-92. NANTES, AUG. 23-28. 1992 
examinerons ses llouvelles fonctioanalitds et los 
extensions que nous lui avons apportdes. Enfin, scront 
prdsent~,s les rdsultats d'un test sur un corpus de 120 000 
lOOtS. 
Notons que nous utilisons uu module qui permet de 
ddfinir, d'instancier et de g6rer des classes d'objets et des 
liens (Property Driven Model \[BART 79\]). 
Cette pr6sentation sera inustrde de nonlbreux 
exemples pour lesquels nous nollS situerons dans le 
cadre d'une application domestiquc. 
3 - LE SYSTEME ANA \[EN(-IU 911: 
Le prentier objectif est Ic choix automatiquc de 
concepts en vu de I'indexation de textes. Un concept est 
la forme canonique corrcspolldant ~ ant classe de nlots 
ou de syntagmes. "VERRE", par excmplc, klentific les 
roots "verre", "verres". 
• Les connaissances proc6durales 
Nous avons utilis6 un ix)stulat se r6fdrant h des aspects 
statistiquas ou surl~.ciques du hmgage : 
Les 6v~nements frdqnents soot slgnifieatlfs. 
Ce postulat peut 6tre appliqu6 : 
- pour rechercher des sdquences de roots r6p6titives, 
- pour identifier des configurations d6notant des 
concepts. 
Ces configurations privildgidts sont implantdes 
sous forme de deux modules sym6triques que I'on tentera 
de faire con'espondre avec le texte. 
Si l'on rencontre l'ane de ces configurations : 
, ,. \[ ' mot mot spdcifiant concept'~ 
incomm an scll~nla con.ha J Qconc pt 
u'n sch,ma \[ in~I°tn 0 I mot Sl~Scifiant I connu 
Alors le loot incollou es\[ considdrd col/line 
susceptible de dcvcnir un concept. 
Les roots sp~cifiallt les scht~mas soot acquis par 
appremissage si le corpus est suffisamment imlmrtant, 
ou donnds snag lorme d6clarative. 
-~bootstrap' 
Le reseau de concepts est initialise par un 
6chantillon de concepts que notls appelons 'bootstrap' 
dans l'esprit de Pitrat \[PITR\]. 
Durant le processus, le syst~me essaie de confirmer 
cet ensemt)le : tin concept est 'confirmC st, 616 du 
bootstrap, il est ddcouvert par le syst~me en cours de 
fonctionnement. 
• Les connaissances d~claratives 
1 -Llste de roots vides 
La liste de roots vides rasstmble quelques 
pr6positions, conjonctions, adverbes .... qui soot 
consid6r6s contme non significatifs, ns ne pourront ni 
obtenir le statut de concept b. titre individuel, ni figurer 
au ddbut ou ~ la fin ffun concept. 
2 - Liste de roots fortement li(~s 
Certains roots vnisins penvent st fondre en an 
unique mot au mdpris de la nuance exprim6e darts le 
texte. Par exentple, darts ces phrases, la variation de sens 
est trop fine pour que nous onus y attachions. 
11 a mangd des fraises 
nu II a mangd toutes les fraises 
12J cld de la porte 
on La cld de cette porte 
J'ai signd routes ces lettres urgentes 
ou J'ai signd les lettres urgentes. 
l.es termes fortement lids, consid6r6s comme un 
unique ternte, soot g6n6ralement de la forint 
pr6position-articte cnnmle "de la" ou "d'une". 
3 - Les sehdmas 
Eidm, les configurations intdressantes signal6es ci- 
dessus (nous los appelltrons des 'sch6mas') prennent la 
forme d'une simple lisle de roots comme "de", "de la", 
"de 1", "en", etc. 
. ModiSe 
Nous utilisons plusieurs classes d'objcts : 
- l,' " "" ' n' : 
Ses instmtces sont les concepts connu5 du domaine 
auxquels viendront s'ajnuter les concepts dgcouverts par 
Ic syst~'.me, lls soot lids par la relation "amont" qui est 
role premiere structurati(m du rdseau. 
Darts les figures Its concepts sont toujours entourds 
d'un double cadrc, darts le texte, ils sont 6crits en 
capitales. 
- ~es tspressions et des candidats : 
Ces dcux classes correspondent h deux mdcanismes 
dc d6couvertc de nouvcal.lx concepts, lls pennettent de 
stocker les occarrellgCS de textes jugdes intdressantes, et 
de noter la fr6.1tucnce de cos configurations. 
Fonctionnement 
1 ° Analyse lexicale 
L'mmlyse lexicale sc limite ,5 la reconnaissance des 
COllCepts connus. Toutes les marques de ponctuation sont 
61imindes. Cette reconnaissance est tol6rante aux fames 
d'orthograpbe et aux diffdrentes flexions qui peuvent ~tre 
reucontrdes. 
Le texte amsi per~u est analys6 en appliquant le 
postulat au colltcxte local autour des concepts. 
2 - Recueil des occurrences 
Wechniquement, le texte est vu an travers d'une 
fen&re de quatre roots. Les mots rides et ceux de moills 
de deux lettres ne sont pas pris en compte dans le calcul 
de l'empan de cette fen~tre. 
La fent~tre est d6placde tout le long du texte, son 
contenu ast recueilli suivant trois voles diffiSrentes en 
flmction de sa nature. 
AcrEs DE COLlNG-92, Nam'v2s, 23-28 AO~r 1992 1 1 9 9 PIIoc. OF COL1NG-92, NANTES. AUG. 23-28, 1992 
Cas 1 
Lorsque le systEme voit deux concepts, il note 
I'occurrence, c'est ~ dire l'extrait de texte que laisse voir 
la fen~tre, dmls un objet du type "expression" particulier 
ces deux concepts, 
ex : Soit le texte : "je voudrais un VERRE d'EAU 
ou de ..." 
L'occurrence "VERRE d EAU" est dcrite dans 
l'objet expression eorrespondant. 
Cas 2 
S'il ne voit qu'un concept (ici "VERRE"), le 
contexte local est analyse pour repErer un schema, et 
done un mot potenticllemcnt intEressant ("lair"). Un 
objet de type candidat portant son nora recueillc 
l'occurrence. 
ex : Soit le texte "j'ai renversd mon VERRE de lail 
devanl.,." 
L'occurrence "VERRE de lait" est dcrite darts 
le candidat "lait" 
Cas 3 
Si l'examen du contexte local ne fair apparai'tre 
aucun sch6ma connu, l'occurrence est 6galement 
conservEe dans un champ spEcifique. Elie sera traitde 
diffEremment. 
ex : Soit le texte "Voici de I'EAU mindrale" 
L'occurrence "Voici de I'EAU mindrale" est 
6trite dans le candidat "EAU" 
3 - Analyse des oceurrenc~ 
Cette phase de lecture est suivie de I'ex,'m~en des 
informations recueillies. Seuls les objets ayant recueilli 
plus de n occurrences sont examines. 
Les expressions 
Si la m~me configuration, aux variations morpho- 
syntaxiques prt:s, se prEsente n fois au moins, elle 
devient un concept sous sa forme la plus frEqucnte, 
ex : Voici les occnrrcnces de l'expression 
rassemblant "VERRE" et "EAU" : 
"je voudrais un VERRE d'EAU ou de..." 
"Bois un VERRE d'EA U pour faire..." 
"aspirine dans ton VERRE d'EAU..," 
L'analyse va qualifier le nouveau concept "VERRE 
D'EAU" 
Les candidats et les schemas 
Les candidats dont la frEquence est supErieure au 
scull m deviennent eux-m~mes des concepts sous la 
forme morpho-syntaxique la plus fr~luente. 
ex : Voici les occurrences du candidat "lair" : 
"j'ai renversd mon POT de lair devant.,." 
"distribuer un VERRE de lait ~ chacun.,." 
"Boire un VERRE de lait c'est..." 
"Je prdfdre un VERRE de lait t~ature., " 
"J'ai vidd la BOUTEILLE de lair qui dtait../' 
L'analyse va qualifier le nouveau concept "LAIT" 
Les eandidats sans schema 
Les concepts existants prEsentant n fois le mOme 
contexte local engendrent un nouveau concept intEgrant 
ce contexte. 
ex : Voici les occurrences sans schema du candidat 
"VERRE" : 
"Bois un grand VERRE cela ira mieur,.." 
'7'ai achetd un VERRE d bidre..." 
"Voici ce grand VERRE dont je t'ai parld..." 
L'analyse va qualifier le nouveau concept 
"GRAND VERRE" 
Les seuils net m sum arbitrairement fix6s aux valeurs 3 
et 5 qui se sore expErimentalement rEvElEes correctes 
pour des corpus de 40 D00 A 200 000 roots. Cependant il 
semblerait nEcessaire de les rendre adaptatifs quand le 
corpus devient trEs grand. 
Le r~seau obtenu 
Nous reprEsentons les rEsultats obtenus sur les 
exemples prEcEdents : 
f~gure l 
4 - Les r~sultats : 
Ce systEme rEpond de fac¢on trSs satisfaisante tt nos 
attemes. 
Voici les rEsultats de son fonctionnement sur des textes 
totalisant environ 120 000 roots et provenant 
d'interviews relatives au retour d'expErience du 
dEmarrage du rEacteur ~ neutrons rapides Super-PhEnix. 
La base initiale comprenait 350 concepts effectivement 
utilisEs dans les textes analyses. 
L'analyse a donn6 lieu/t la dEcouverte de 700 nouveaux 
concepts dont les deux-tiers ont 6t6 jugSs 
qualitativcment trEs bons. D'autre part, 260 des concepts 
du bootstrap om 6t6 confirmEs. 
D'autres rEsultats sont dEtaillEs darts \[ENGU 91\]. 
4 - LES EXTENSIONS 
Nous abordons l'apprentissage des connaissances 
utilisEes pour l'apprentissage ! Nous avons vu comment 
dEcouvrir des concepts. Le syst~.me va maintenant 
apprendrc une partie des connaissmlces nEcessaires ~ ce 
premier apprentissage, c'est h dire les connaissances 
ddclaratives : la liste des roots rides, la liste de roots 
fortement lies et les roots spEcifiant les schemas. 
Les rEsultats de cet apprentissage, les listes que le 
syst~me va 6tablir, ne seront pas exactement identiques 
aux listes fixdes h I'avance qui, jusqu'b, present, lui 
dtaient fournies. Nous nous attentions b. ce que son 
fonctionnement en soit amdliord : le processus va 
n6gliger certains schemas, rares darts l'6chantillon, en 
mettre de nouveaux h jour auxquels noas n'avions pas 
pens6. Bref, l'addquation ~ la langue manipul6e darts les 
textcs sera meilleure. 
Les extensions de l'apprentissage 
Le postulat est applique ~ la structure interne des 
concepts afin de ddcouvrir la fagon dont ils sont formEs. 
Ac-r~ DE COLING-92. NAN'r~s, 23-28 Ao~'r 1992 l 2 0 0 PROC. OF COLING-92, N.~t~s, AUC. 23-28, 1992 
Les configurations les plus frdquentes toumir0nt des 
gdn6ralisations qui serviront ,5 ddgager les schdmas de 
ddcouverte des nouveaux concepts. 
Examinons l'apprentissage des conuaissances 
ddclaratives qui auparavant 6talent fournies au syst~me : 
la liste des mots rides, la liste de roots fortement lids et 
les roots spdcifiant les schdnlas. 
L"~pprentissage des ennn'dssances d~elaratives 
Afin de moddliser la structure interne des concepts, 
nous ddfinissons une nouvene classe d'objets. 
Ulle nouvellc classe d'objets : les termes 
Les temles sont les roots composant les concepts. 
lls SORt lids entre eux par la relation "voisin" qui 
mdmorise la frdquence de chaque association. De chaque 
terrae nous eonnaissons le nonrbre d'occarreuces et lc 
fait qu'il soit, ou non, concept ~ titre individuel. Les 
termes sont entourds d'un simple cadre dulls les 
repr6sentations graphiques. 
II WmSE DE dAFfy\[ 
~'.Voisij~ ' voi~in 
BOL DE cA~ I 
f~gure 2 
Cet exemple montre la ddcomposition des concepts 
"TASSE DE CAFE" et "BOL DE CAFE" en trois 
termes chacun. Remarquons que les termes '"I'ASSE" et 
"CAFE" sum eux-mt:mes des concepts, alors que "bol" 
et "de" n'en sont pus. 
D¢~grmination ~le la list~ de roots vi(tc~ 
Pour obtenir une liste de bonne qualit6, il est 
ndcessaire d'utiliser un 6chantillon de textes d'au nloins 
40 000 mots, soit environ 100 pages (minimum issu de 
l'examen de diffdrents corpus). 
Le syst~me lit l'dchantillon et compte tousles roots 
qu'il rencontre. Un terme est ici strictement ddfini par sa 
forme, par la chatne ordonnde de caractdres qui le 
composent. Ainsi, "chaise" et "chaises" sont considdrds 
comme deux termes diffdrents. 
Les diffdrents termes sont ensuite classds en 
fonction de leurs frdquences ddcroissantes el affectds 
d'un numdro correspondant ,5 leur rmlg. 
La courbe, frdqucnce = f (log (rang)), est seuillde 
au rang s tel que raire As (d6finie par la courbe, raxe des 
abscisses, I'axe des ordonndes et la droite x = s), 
approche 95 % de l'aire totale A (ddfinie par la coarbe et 
l'axe des abscisses). 
Soient : n, le hombre de temles de l'dchantinor 
A - f(x).log (x) , 
x=l 
s 
Cherchons s tel que 
A s < 0,95 A < As+ 1 
DEs lors, tous les rook'; de rang x <- s sont des inols 
rides, lls sont 6crits dmls la liste addquate. 
k ~ • -rots "tbrtement li~.s et des mots tie 
Les roots caractdrisant les schdmas ont la propridtd 
de lier des cuncepts. Nous utilisons cette particularit6 
pour les isoler. 
A I'initialisation du syst~me nous disposons de 
l'ensemble des concepts dOlulds dans le tmotstrap. 
Dans un premier temps, dliminons les concepts 
composds de plusieurs termes, ceux-ci risqucraient de 
biaiser notre analyse furore, et Iravaillons avec les seuls 
concepts simplcs. 
La premiere opdration utilise ces concepts et un 
6chantillon de textes pour en ddduire des concepts 
composds par la collecte d'occurrences assocides `5 des 
expressions. A ce stade, aucune connaissance 
n'intervient, nous ne raisons qu'appliquer le postulat pour 
regrouper les concepts prdsents afill d'en forlner de plus 
complexes. 
Aa fur et ,~ mesure de leur crdation, ces concepts 
sum ddcomposds en termes. Nous utilisons une 
information cruciale attachde `5 chaque terme : Est-il un 
concept de fa~on individuelle ? 
Alors, les listes que nous cherchoas peuvent 61re 6tablies 
- les mots fortement lids : 
Ce sont Its couples de termes voisins qui ne sont ni run 
ni fautrc des concepts ,5 titre individuel. 
- les mots de schdma : 
Pour accdder ,5 ce statut, un lerme dolt vdrifier plusieurs 
critdres : 
- 11 n'est pas un concept de fa~on individuel, 
- Ses frdquences de voisinage droit et gauche sont 
du mOme ordre de grmldeur, 
- 11 lie souvent des ternles qui, eu.x, sont des 
concepts. 
Quelques r~sultats 
Nous avons appliqud ce nouveau processus ,5 un 
6chantillon de 60 000 mots. 
L'analyse statistique 6tablit une liste de 35 mots rides : 
"a", "'au", "avait', "c', "ce', "cela", "d", "clans", 
"de", "des", "done", "du', "en", "est', "et", "altair", 
"fait", "il", "je", "1", "la", "le", "its", "n', "he", "on", 
"pus", "ixmr", "qu", "que", "qui", "sur", "un', "une", -y,,. 
Acl .'gs DE COLING-92, NANTES, 23-28 AOOr 1992 1 2 0 1 PROC. OF COLING-92, NANTES, AUG. 23-28, 1992 
Nous obtenons 110 nouveaux concepts dont voici 
quelques exemples : 
"CAPTEURS DE DEPLACEMENT" 
"CIRCUIT DE VIDANGE DE L'INTERCUVE" 
"CODES DE CALCULS" 
"CONTROLE COMMANDE" 
"CUVE DE RETENTION" 
L'analyse de ces concepts pernlet : 
- d'unlfier les termes : 
"b. la", "de 1", "de la". 
- de qualifier ies termes earact~ristiqnes de schemas : 
"de la", "d', "des", "de", "du". 
Nous constatons que les tools de sch6rnas retrouv6s 
par le syst~me sont les plus productifs quant aux 
nouveaux concepts qu'ils sont susceptibles de d6couvrir. 
D'autres r6sultats seront expos6s durant la 
conf6rence. 
5 - CONCLUSION 
\[DAVI\] 
\[DEER 88\] 
\[DEER 901 
\[ENGU 
Le contr0le des connaissances de notre syst~me 
ainsi que leur introduction sous forme d6clarative nous 
ont permis d'exploiter le rdseau de concepts et de termes. 
Toutefois, il nous reste /t explorer de nouvelles 
extensions vers une plus grande structuration du r6seau : 
la d6finition automatique de classes de mots. \[FURN\] 
Le processus d'induction de ces classes sera has6 
sur rexamen des contextes droits et gauches des termes 
eomposant les concepts. L'utilisation des termes dans le 
langage reflStant la manipulation des objets dims le 
monde physique. Cet isomorphisme pr6suppos6 des 
structures, des termes et des objets, correspond /1 la 
th~orie psychologique de capture des classes par \[KIMO 90\] 
prototypage. 
\[FALZ 89\] 

BIBLIOGRAPHY
Andreewsky A., Fluhr C., "lndexation 
automatique - Construction automatique  
des th6saurus classification 
automatique", .Note CEA-N- 1795 

Andrcewsky A., Fluhr C., "Le probl~me 
de l'identification automatique des 
concepts ", Note CEA-N- 1816 

Andreewski A., Debili F., Fluhr C., Hlal 
Y., Nicaud L., "R6sum6 des probl~mes de 
I'indexation automatique tels qu'ils sont 
abord6s par le groupe de recherche en 
liuguistique automatique" 

Barthes J.P., Vayssade M., Zzmmierovska 
M., "Property Driven Databases", 
Tokyo, 1979 

Daehelet R., "Etat de l'art de la recherche 
en informatique documentaire : la 
repr6sentation des documents et l'acc~s 
rinfommtion", Ranoort n ° 1201.- 32 pages 
o Programme 8 - Communication homme- 
machine, INRIA 

David S., Plante P., "De la n6cessit6 d'une 
approcbc morpho-syntaxique en analyse 
de textes" 

Dcerwester S., Dumais S.T., Funms G., 
Landaeur T.K., Harshman R., "Using 
latent semantic analysis to improve access 
to textual information", :~A\[\[I~, pp : 281 - 
286 

Deerwester S., Dumais S.T., Fumas G., 
Landacur T.K., Harshman R., "Indexing 
by latent semmuic analysis", Journal of the 
mil.~c_~an society for information science. 
pp: 391 -407, n ° 41, 1990 

9fll|guehard C., Malvache P., 
"Apprentissage Naturel Automatisd", 
~onventiorl IA 91, pp : 145 - 163, 1991 

Falzon P., "Ergonomic cognitive du 
dialogue", Presses Universitaires de 
Grenoble. Sciences et Technotooies de la 
~, chapitre 4, 1989 

Fumas G.W., "lnfomlation retrieval using 
a singular value decomposition model of 
latent semantic structure", 2JAB_A.C,M 
International Conference on research and 
development in information retrieval, pp : 
465 - 480 

Kimoto H., Iwadera T., "Construction of a 
dynamic thesaurus and its use for 
associated information retrieval", 13th 
~onal Conference on research and 
development in reformation retrieval, pp : 
227 - 240, 1990 

Pitrat J., "Textes, ordinateurs et 
compr6hension", Eyrolles, 1985 

Sahon G, "Information dissemination and 
automatic information systems", 
IEEEE, 54, 12, December, 1966 

Salton G., "Another look at aotomatic text- 
retrieval systems", Communications of the 
A.Cc._.M, 29 (7), pp : 648 - 656, 1986 

Stiles H.F., "The association factor in 
information retrieval", journal of the 
vol. 8, pp : 271-279, 1961 

Spirit, Pr6sentation + Manuel utilisateur 

Turtle H.R , Croft W.B, "Efficient 
probalistic inference for text retrieval", 
IAg!A.Q\[~, p : 644 
