LES EXPERIENCES D'INDEXATION A L'INIST 
ROYAUTE J. 
SCHMIIT L. 
OLIVETAN E. 
Ddpartement Recherche et Produits Nouveaux 
INIST- CNRS 
2, All~e du Parc de Brabois 
54514 VANDOEUVRE LES NANCY 
FRANCE 
ABSTRACT 
We talk, in this paper, about the operation of indexation at 
INIST. We present two experiments carried out within the 
Department of Research and New Products that aim at the 
automation of indexation process. The first one comes 
within the scope of scientometric studies on text database. 
We have developped a software toolbox with which we can 
build a chain of treatments up to the generation of 
hyperdocuments. Therefore, indexation from a large corpus 
of source documents is the first module of that chain. In 
this part, we use linguistic and statistical methods to 
produce keywords from a stream of data. Linguitic 
heuristics are used to extract compound nouns or noun 
phrases from the text and combinational treatments 
determine the importance of each term according to the 
document. Keywords are here the input of an hypertext 
system. The second one is tile development of a 
workstation for the information specialist integrating a 
computer-aided indexing system on title and abstract in 
bibliographical records. This indexing process works on a 
single bibliographical record and combines both linguistic 
methods and ,artificial intelligence (keywords generation). 
We use the ,,mine extraction module based on linguistic and 
add a knowledge based system to deduce implicit keywords. 
Finally, we show that the original specifications and 
purpose of each experiment are different and we start a 
discussion on the interest of these methods in relation to 
the kind of indexation wanted and file qualities expected 
from automatic indexing systems. 
ACrEs DE COLING-92. NANTES, 23-28 AOOT 1992 I 0 5 8 PROC. OF COLING-92. NANTES, AUG. 23-28. 1992 
1 - L'INIST : producteur et consommaleur 
d'indexation 
L'INIST est une centrale documentaire qui produit deux 
bases de donn6es (PASCAL et FRANCIS) couvrant 
l'ensemble des sciences et des techniques. Darts le but 
d'assister les Ing6nieurs Documentalistes qui fabriquent 
cos deux bases, nous av0ns r6alis6 un prototype de 
station de travail ergonomique et convivial dont la 
principale fonctionnalit6 est une indexafion assist6. 
Les mots-cl6s de l'indexation peuvent ~tre aussi le point 
d'entr6e de syst~mes informatiques fabriquant de 
l'information Elabor6e. C'est ainsi que nous construisons 
des hyperdocuments h p',mir de donnEes bibliographiques 
ou textuelles pour des Etudes bibliom6triques et 
scientom6triques \[5\]. 11 est possible ainsi de regrouper 
les documents initlaux en classes sEmantiques (soit les 
documents se rEfErant ~t un m~me domaine, soit ceux 
issus d'un m~me labomtoire ou ville, soit ceux co-signals 
par Its m~mes auteurs, etc ...) \[6\]. 
2 - L'indexation dans le dispositif d'analyse 
infom~trique 
Nous avons ddvelopp6 un ensemble d'outils permettant 
de passer d'un ensemble de textes non index6s ~ une 
structure hypertexte via un processus d'indexation 
automatique des textes ct des mEcanismes de 
clusterisation opdrant un regroupement des mots-clds en 
classes (mEthode des roots associ6s utili~nt I'algorithme 
du simple lien \[16\]). 
\[£,t ~it d~m d ~le t /~x~ Iat tl 5tul~ b~ 
./ -... 
I ..................... I I I 
Fig. 1 : analyse infomdtrique 
Lc mdcanisme d'indexation automatique qne nous 
prEsentons dans cette ~ction ol~re sur de gros volumes 
de texte et associe 6ventuellement des m6thodes 
linguistiqnes h des traitements statistiques. 
2.1 _MCt!~odes statistiaues d'indexation. 
Ces outils d'indexation dEveloppEs au dEpartement ont 
6tE Elabords h partir des mgthodes statistiques prEsentEes 
dans \[1\]. lls reposent pour l'essentiel sur le repErage de 
mots ou de groupes de mots dans le corpus aprEs 
ACRES DE COLING-92. NANTES, 23-28 AOLrr 1992 1 0 5 9 
suppression de "mots outils" : articles, prepositions, 
pronoms, etc ... Les traitements statistiques consistent 
en un filtrage distributif, par calcul de la variance de 
chaque objet et en un calcul d'une "fonction 
d'indexation" mesurant la reprdsentativit6 mutuelle 
objet/document, Un seuil permet de retenir ou non cet 
objet comme pertinent du point de vue de l'indexation. 
Ces mEthodes sont intEressantes parce que simples 
mettre en ceuvre du point de rue de la programmation. 
Elles ne requiErent pas nEcessairement I'accEs hun 
dictionnaire Electronique rEpertoriant la ou les 
appartenances syntaxiques de chaque mot. Elles 
prEsentent cependant l'inconvdnient d'avoir des sorties 
bruitEes dans la me, sure off route sequence de mots isolEs 
pour l'indexation ne correspond pas nEcessairement hun 
groupe nominal, mais peut inelure une sequence verbale 
plus ou moins figEe (N correspondant d N, N soumis d 
N, N semble ...)~ ou encore une locution adverbiale ou 
prdpositionnelle figEe (de fa~on & de manidre d, en 
re, on de, etc ...). Ces deux types de sequences sont trEs 
nombreux dans les langues de spEcialitE. Cet 
inconvenient peut 5tre limitE, mais pas de faqou 
significative, en ajoutant un anti-lexique de mots vides, 
c'est-~t-dire ayant une sEmantique faible du point de vue 
de l'indexatioa, panni lesquels peuvent figurer : fa~on, 
manidre, raison, etc ... 11 faut cependant gErer cet anti- 
lexique : plusiears passages du processus d'indexation 
sont ndcessaires pour l'incrdmenter. 
Le principal problEme dans les systEmes n'utilisant que 
des mEthodes stutistiques et combinatoires n'est donc pas 
la faqon d'affecter des poids aux objets (termes simples 
ou pluritermes,) en rue d'Eventuels filtrages sar leur 
distribution "darts I'ensemble du corpus, mais la maniEre 
de reconnaitre ces objets. En effet, les systEmes 
d'indexation ne faisant intervenir la linguistique qu'au 
niveau de la lemmatisation sur le genre et le nombre, 
segmentent le texte de faqon souvent brutale : l'objet 
minimal Etunt le mot. La construction des pluritermes se 
fait par agrEgation d'unitermes respectant des rEgles de 
proximitd. Cette mdthode de reconnaissance et dc 
construction des objets de depart (sur lesqnels vont 
s'effectuer les comptages) gEnEre un bruit syntaxique 
important et accorde une place exagErEe aux unitermes 
par rapport aux termes composes \[16\]. 
2.2 Mdthodes lint, uisti0ues. 
Afin de rdduire les ddfauts inhdrents aux mEthodes 
statistiques et de rdeupdrer un maximum de termes 
reprEsenlatifs de la termiuologie du domaine, nous avons 
d6velopp6 des proc6dures automatiques d'extraction 
reposant sur des ob~rvations linguistiques. Beaucoup de 
travaux sur l'indexation automatique sont fond6s sur une 
extraction des groupes nominaux (GN). Ce choix est 
Dans la suite de cene expos~ N d~signe un nom, D~t un 
determinant, Pr~p une preposition, Adj un adjeetif. Qua un 
quantifieur, V ml verbe conjugud. Le signe + indique une 
alternative, le symbole Ecorrespand au mot vide. 
Paoc. OF COLING-92. NANTES, AUO. 23-28, 1992 
justifi6 dans la mesure off pour les domaines de 
sp6cialit6, l'information pertinente est localis6e 
pr6f6rentiellement clans le GN \[9\]. Nous nous int6res- 
sons/1 ce sous-ensemble particulier des GN que sont les 
noms compos6s, lls ont suscit6 un hombre important 
d'6tudes linguistiques ces derni6res ann6es et on estime 
lear nombrc, pour le franqais, largement sup6rieur h celui 
des noms simples. 
Si les noms compos6s sont num6riquement importants 
dans la langue ordinaire, c'est dans les langues de 
sp6cialit6 que leur fr6qucnce est la plus 61ev6e. Un 
dictionnaire terminologique ou un lexique d'indexation 
peut 6tre considdr6 pour sa plus grande part comme 6tant 
un sous-ensemble des noms compos6s \[171. Le recours 
la s6mantique pour les identifier semble 6tre une voie 
difficilc. Le plus souvent leurs sens ne d6rivent pas de la 
composition des parties du fair du figement : un ac/er 
doux fait r6f6rence ~ une vari6t6 particuli~re d'ac~r et 
l'adjectif doux ne sp6cifie enrien le nom ac/er. Des 
formcs de surface identiques ont des s6mantiques 
diff6rentes : N d N =: machine d vapeur (1) 
=: roue d aubes "2 (2) 
Notre strat6gie d'analyse s'appuie donc sur des 
observations linguistiques les concemant \[7\]\[8\]. Ces 
diff6rent travaux ainsi que nos propres observations 
montrent que les formes les plus productives dans la 
terminologie scientifique et technique sont du type : 
N de N =: vitesse de corrosion 
N Prdp N =: corrosion sous tension 
N Adj =: film passif 
Contrairement h la strat6gie de recherche des GN qtfi 
d6pend essentiellement de la capacit6 h isoler diff6rents 
synmgmcs avec des grammaires adapt6es, il n'existe pas 
de solutions algorithmiques permettant d'isoler les noms 
compos6s. Aussi sommes nous conduits h utiliser des 
heuristiques linguistiques, dont l'efficacit6 d6pend 
6troitement du degr6 de figement des textes soumis t) 
l'analyse. Ces heuristiques sont de trois types : 
- Celles qui se fondent sur des s6quences de la langue qui 
ne sont possibles qu'en pr6sence de noms compos6s. De 
telles s6quences peuvent 6tre : D& Pr~p, Dfft Qua, D& 
N Qua, Ddt V comme dans un d coup, un chasse 
goupille, un (moteur + E) deux temps 
- Celles qui identifient des roots s6par6s par un trait 
d'union : ultra-vide, traction-tension, nickel-~tain, etc ... 
- Celles qui s'appuient sur la probabilit6 de certaines 
suites th pouvoir ~tre des noms compos6s. L'observation 
empirique montre que l'absence de d6terminant apr~s La 
pr6position dans des suites N Pr~p Nest un bon indice 
de figement (Ex: corrosion par fatigue). La juxtaposition 
de deux noms N N l'est 6galement (Ex : solution 
tampon). Dans notre corpus de la m6tallurgie nous 
observons 6galement un hombre important de formes de 
type N d D~t N qui sont 6galement fig6es (Ex : 
r~sistance d la corrosion). 
2 Dans (1) il s'agit d'une machine qui fonctiorme h la 
vapeur, dans (2) une roue constitu6e d'aubes. 
Les principales pbases du processus d'indexation sont les 
suivantes : 
- Etiquetage syntaxique de tousles mots du texte par 
comparaison avec le dictionnaire 61ectronique DELA1 ~ 
du Laboratoire d'Automatique Documentaire et 
Linguistique (LADL) \[3\]. 
-Rep6rage de locutions adverbiales, pr6positives ou 
conjonctives : de mani~re d, de fafon d, de sorte que ... 
- R6duction des appartenances syntaxiques multiples des 
roots, en alimentant un fichier de mots r6duits ~t leur 
appartenance syntaxique la plus probable et aussi par 
rutili~tion de r6gles locales de d6sambiguisation. 
- indexation par nne recherche syst&natique, h l'aide de 
grummaires r6guli6res, de formes syntaxiques 
indicatrices du figement des noms compos6s et les plus 
repr6sentatives de la terminologie scientifique et 
technique. Les principales sont : 
N1 # Prdp # N2 # Prdp # N3 # =: spectromdtrie 
photoglectronique d rayons X 
N1 Adj =: acier doux 
N1 N2 =: solution tampon 
N1 d Ddt N2 =: stabilit~ d la corrosion 
Le chiffre qui suit le symbole N indique sa position 
dans le groupe nominal. N1 est toujours un nom. N2 
est un nom ou par d6faut un mot non reconnu dans le 
dictionuaire. Le symbole # d6signe une insertion 
optionnelle d'un adjcctif, d'un nom ou d'un mot non 
reconnu ; signalons enfin que Prdp # N3 # est 
optionnel. Nous proposons 6galement comme candidnt 
libre tousles noms simples qui ne s'ins~rent pas dans 
ces sch6mas distibutionnels. La possibili~ de traiter les 
mots non reconnus dans le dictionnaire et d'accepter des 
formes qui peuvent 6tre ambigiies confrere au syst6me 
une certaine souplesse. 
Les r6sullats obtenus montrent que le bruit d'ordre 
syntaxique, dfi essentiellement aux homographes ou 
aux mots non reconnus, est faible. Les termes de 
fr6quence 1 repr6sentent 85% de l'ensemble des termes 
extraits. Parmi eux, on peut distinguer deux groupes : 
- des expressions fig6es, fortement repr6sentatives du 
domaine :spectroscopie de r~sonnance gamma. 
-des expressions non fig6es, mais souvent 
reprf~entatives de la terminologie, dont le nom de t6te a 
une occurrence forte : solution de nitrate, solution de 
borate, solutionfluor~e, etc ... L'indexation statistiquc 
ne retiendrait que le terme solution. Les termes de 
fr6quence sup6rieure h un sont le plus souveut fig6s et 
pour la plupart repr6sentatifs du domaine : 
microscopie dlectronique d balayage, fissuration par 
corrosion sott~ tension, etc ... 
NOUS mettons en 6vidence certaines r6gularit6s utiles ~ la 
recherche ult6rieure d'informations : 
Le DELAF identifie 580 000 formes flfchies du 
fran~ais et leurs diff6rentes appartenances syntaxiques (soit 
environ 80 000 formes lemmatisfes). Pour l'anglais nous 
utilisons un autre dictiormaire 61ectronique. Pour cette 
langue notre stratdgie d'analyse s'apparente h celle de \[12\]. 
ACTES DE COLING-92, NAtCrES, 23-28 ^OUT 1992 I 0 6 0 PROC. OF COLING-92, NANTES, AUG. 23-28, 1992 
- Un petit nombre de noms simples apparait tr0,s 
souvent dans les noms composds que nous isolons. 
Parrot les plus fr6quents citons : corrosion, alliage, 
acier, r6~istance, etc ... I1 est possible d'organiser une 
recherche intelligente autour de ces noms h partir des 
suites : N N, N Adj, N Prdp N , etc ... 
ex: acier Adj , pemlet de rfcup6rer acier doux, acier 
austdnitique, acier inoxydable. 
- Les pr6posidons utilis6es sont en hombre limit6. 
Celles qui reviennent le plus souvent sont : de, & en, 
Ix*r, sous. I1 est possible de rcchercher Mlectivement les 
suites : N de N (densitd de courant), N c'* N (corrosion d 
chtuM), N par N (zingage par immersion), N sous N 
(refusion sous laser). 
2.3 Anolications. 
Dans nos applications, oous cherchons h combiner les 
deux m6thodes en fonction du volume de donn6es ,5 
traite~ Les m6thodes linguistiques que nous proposoos 
peuvent 6tre ufilis6es telles quelles sur de petits volumes 
ou chins le cadre d'une indexation "au fil de l'eau". Pour 
ties volumes plus importants, les comptages deviennent 
pertinents. II est donc inl~ressant d'udliser les sorties du 
traitcment lmguistique comme entr6es d'un traitement 
statistique. Le gain est double : premi~rement le 
compLage se fait sur des 61dments homog~nes (des GN 
qui sont pour la plupart des noms compos6s), r6sultats 
du filtrage linguistique; deuxi~mement le traitement 
statistique se limite ici h on calcul de la pertinence du 
mot-el6 consid6r6 en fonctiou de sa rdparfifion dans le 
corpus et darts le document. 
3 - L'indexation dans le cadre de la production 
d'une notice bibliographique 
La principale fftche de l'ing6nieur docmnentaliste (1D) 
dans la constitution des notices bibliographiques est la 
lonction d'indexation. Le processus d'indexation mis en 
(euvre d~ms ce projet utilise des mdthodes linguisdqaes 
ct des proc6dds d'intelligence artificielle de type "syst~me 
h base de connaissanees" \[4\]. 
3.1 Mod61isation du processus d'indexation 
Ce processus consiste, pour I'ID, h transcrire le contenu 
d'un document darts un langage documentaire aprbs avoir 
extraitpar analyse \[14\] les 616ments d'infl)rmatioa le,s 
plus significatifs pour une recherche ult6rieure. Certaines 
parties du document, telles que le titre et le r6sum6, 
apparaissant comme les plus porteurs d'inlormations, 
sont privil6gi6es. Les termes apparaissant explicitement 
dans le document sont reconnas directemeot lors de la 
lecture. La lecture pent 6galement "'faire penser" h des 
mots-cl6s non explicitement ddcrits, qui tont r6f6rence h 
la connaissance implicite du domaine qu'a le lccteuc Une 
fois cet ensemble de mots-cl6s (explicitcs et implicite~s) 
isol6 dans le document, I'ID dolt etlectner une s61eedon 
pour ne garder que ceux qui lui paraissent les plus 
pertinents dans le syst~me docmnentaire, c'est-h-dire 
prioritairement ceux du lexique de rdf6rence PASCAL. 
Les tem~es appartenant ~ce lexique sont appel6s termes 
contrfilgs. Ils peuvent ~tre consid6r6s comme les 
616menm de base de hi connaissance de I'ID. 
Le syst~me que nous pr6sentons ci-apr~s pout 6tre 
consid6r6 eomme une modglisation de la d6marche 
logique d'indexation pour un domaine particulier. Cette 
mod61isation s'est faite en collaboration avec les 
ing6nieurs assumnt la couverture du dotnaine des sciences 
de l'information (Sl). Elle nous a conduits h structurer le 
sous-lexique des SI en une base de connaissauces. 
3.2 Organisatiou du syst~me d'aide ~ l'indox~10on, 
Nous avons r6alis6 un syst~me d'aide iX l'index~ttion 
interastif. Ainsi, h partir des tcrmes cootrfl6s du titre et 
du r6sum6 d'un documeut, nous g6ndrons un ensemble de 
termes pertinents pour l'iodexatiml du document, parmi 
lesquels I'ID fail son choix pour r6aliser l'iodexation 
finale. 
a~ 
Fig. 2 : station tie tlavail de I'ID 
La reconnaissance de termes conU'616s apparaissant darts 
le titre et le r6sum6 do document h indexer s'aplmie sur 
uo pr6-traitcment linguistique. Les phrases du texte soul 
d6coup6es en groupes nominaux qui sont lemmatis6s 
puts compar6s au lexique de r6f6rence PASCAL. Ce 
ddcoupage en GN se tait `5 partir de mots ou s6quences de 
roots se comportant comme des s6parateurs dans la 
phrase. 11 s'agit de s6qoences verbales, conjonctions, 
locutions (pr6positionnelles, adverbiales ou 
conjooctives). Par comparaison avec le lexique de 
rdfdrence, nous obtenons ainsi uqe liste de termes 
contr6tds, appel6s termes contr61ds explicites. Nous 
proposons aossi comme temles 6mergeants les termes 
extraits quand ils n'appartieonent pas au lexique 
PASCAL apr~s application du module d'extractiou des 
noms composds (cf. 2.2). L'ID a la possibilit6 d'ins6rer 
uo ou plusieurs tie ces termes s'il les jugent pertinents. 
I1 a la possibilit6 de se cr6er et d'alimenter son propre 
lexique tenninologique h par tit de ce module d'extraction. 
D'autre part, noas avons construit un thdsaurus ~t parfir 
d'un sous-ensemble du lexique PASCAL concemant les 
S1. La connaissance par I'ID de son domaine est ainsi 
ACRES DE COLING.92, NANTES, 23-28 aO(n' 1992 1 0 6 1 PROC. OF COLING-92, NANTES, AUG. 23-28, 1992 
repr6sent~e par un ensemble de termes contr616s et de 
concepts entre lesquels il existe des liaisons de diffErents 
types, stock6s darts une base de faits de type th6saurus. 
La base de fair est organis6e, darts son 6tat initial sous 
forme d'arbre. Nous nommons concepts tousles noeuds 
de cet arbre, tes feuilles sont, elles, des termes contr616s. 
Chacun de ces concepts peut regrouper d'autres concepts 
(~ des niveaux de profondeur quelconque) ou des termes 
contr616s. Les relations clans cet arbre sont du type 
"g6n6rique-sp&:ifique". La racine repr&sente le concept 
g6n6ral d6crivant le domaine dans son entier (Fig A). Un 
concept est d6crit par un sous-ensemble du vocabulaire 
form6 de termes contr616s dont ha signification est proche 
pour le domaine concern6. Nous pouvons ainsi proposer 
une cat~gorisation du vocabulaire de chaque domaine (les 
S 1 pour notre exl~rimentation). Les concepts de premier 
niveau d6crivent les diff6rents aspects les plus g6n6raux 
du domaine trait~ et sont nomm6s index. Parmi ceux-ci 
un index particulier regroupe l'ensemble des th~mes 
principaux du domaine. Chaque index est lui-m6me 
red6coup6 en sous-concepts ; le niveau de profondeur 
d'un concept dans l'arbre correspond au niveau de 
sp6cificit6 du concept pour rindex concernE. I1 peut 
exister 6galement des liaisons entre des concepts 
n'appartenant pas au m~me index : ce sont des liaisons 
d'ordre associatif dnnt la signification est 'Tobjet de 
d6part fair penser h I'objet d'arriv~e" \[2\]. Ces liaisons ne 
sont doric pas typ6es s6mantiquement : elles ne 
dependent pas d'un domaine pr6cis. Elles serviront de 
support ~ la phase de d&laction des concepts implicites. 
Ce type de liaison poss&le deux attributs : la force de ha 
liaison et le niveau de propagation. I1 peut se limiter aux 
seuls termes attaches au concept atteint ou concemer 
l'ensemble des termes attuch6s ~ tons les concepts ills du 
concept atteint. 
,/l 
: hi~m kLk~r~lqv® 
Fig. 3 : une petrie de la base de faits 
La structure finale retenue pour mod6liser ha base de faits 
est un graphe (Fig 3). Un n~eud de ce graphe peut ~tre de 
deux types : un terme contr616 ou un concept. Un arc 
peut repr6senter deux liaisons diff6rentes : une liaison 
hi6rurchique ou une liaison associative pond~r6e. 
Lors de ia phase de d6duction, les termes contrfilEs 
extralts du titre et du r6sum6 sont les entr6es dans le 
graphe reprEsentant la base de faits. Le m6canisme de 
d&luction va activer l'ensemble des liaisons associatives 
dont l'objet de depart est un terme explicite, celles 
partant du concept anquel le terme appartient ainsi que 
les liaisons partant de ses concepts g6n6riques. 
L'activation de cet ensemble de liaisons ne s'effectue 
qu'une seule fois ~ parfir de la liste des termes explicites. 
Le m6canisme n'est pas r~ctiv6 sur les termes d&luits. 
Sur la figure 3, si les termes extraits sont catalogue et 
bibliotl~que, alors le terme catalogage sera d6duit 
directement par biblioth~que et par le concept "Sources 
secondaires", concept auc~tre de catalogue. Sur cet 
exemple simple, on ne se pr6occupe pas des pond6rations 
des liaisons. Le r6sultat de cette phase est uue prise en 
compte de l'ensemble de l'infonnation apport6e par les 
termes explicites en positionnant pour chaque terme 
deduit un certain hombre d'attibuts dont : le nombre de 
fois o6 le terme a 6t6 d6duit quelque soit l'objet de 
depart, le nombre de fois ofa le terme a Et~ d&luit par une 
liaison partant d'un objet appurtenant It l'index des 
th~mes, le nombre de fois of~ le terme a 6t6 d&luit par 
une liaison forte. 
Pour ne pas pr6senter l'ensemble des termes d6duits de 
fa~on uniforme, on effectue un tri sur plusieurs des 
attributs de ces termes. Des heuristiques sur les valeurs 
des attributs, positionn6s lors de la phase de d6duction, 
permettent de proposer h l'int~rieur d'un index deux listes 
de termes (6ventuellement vides) : role liste principale of\] 
sont r6pertori6s les termes les plus pertinents et une liste 
secondaire qui contient des termes pouvant apporter des 
pr6cisions int6ressantes ~ I'ID. 
Le domaine choisi pour tester le syst6me d'aide 
l'indexation est celui des Sciences de l'Infonnation. Pour 
2/3 des 200 documents test&s, les termes de l'indexation 
maaaelle se retrouvent enti~rement dans les listes 
propos6es par le syst~me, 2/3 de ceux-ci 6tant r6pertori6s 
dans la liste principale. Le comportement du syst6me est 
coh6rent vis-a-vis des habitudes des ID du domaine et le 
hombre total de termes g6n6r6s les satisfait pleinement. 
4 M~thode d'indexation et types 
d'applications 
Notre propos n'est pas d'6valuer les diff6rentes m6thodes, 
mais plut6t d'6tudier, ~t partir de leurs caract6ristiques 
propres, comment les combiner en fonction des objectifs 
atteindre. Sch6matiquement, nous pouvons distinguer 
deux stra~gies d'indexation : ceUe r6alis6e au fil de l'eau 
(notice par notice) par les ID et celle portant sur un 
volume important de notices bibliographiques. 
Nous distinguons dans le processus d'indexation au fll de 
l'eau, une phase d'extraction et une phase de g6n6ration. 
L'extraction concerne principaiement l'identification de 
termes explicites et met en ~euvre des traitements 
linguistiques. Elte consiste en une recherche des termes 
ACTas DE COLING-92, NAN'rF.S, 23-28 AO~" 1992 1 0 6 2 Pate. oF COLING-92, NANTES, AUG. 23-28, 1992 
du texte appartenant au lexique PASCAL et en une 
recherche des noms compos6s. Cette derniSre est le 
garant de la slx~cificit6 de l'indexation et doit en outre 
permettre d'enrichir de fa~on incr6meatale des 
dictionnaires tenninologiques. 
Alors que les heuristiques linguistiques de recherche de 
noms compos6s positionnent l'indexation du point de 
vue de la sp6cificit6 et de l'6mergence de termes 
nouveaux pouvant ~tre les futures vedettes d'un dmnaine 
scientifique, le couple extracdon/g6n6ration de termes 
contrfl6s se situc surtout dans la logique de son 
homog6n6it6. Les objectifs sont d'all6ger la charge de 
travail de I'ID lots d'unc analyse de document et de 
garantir une certaine coh6rence h l'int6rieur des bases 
bibliographiques, en gui 'dant les indexeurs vers des choix 
similaires. Une certaine exhaustivit6 de l'indexation est 
6galement garantie en proposant des termes pour tousles 
aspects principaux du domaine trait6. 
Pour l'indexation de volumes importants de documents, 
nous pouvons choisir ou combiner des m6thodes 
statistiques ou linguistiques. Ces traitements sont 
souvent la premiere 6rope d'un traitement statistique 
permettant de produire une information 61abor6e par des 
m6thodes de elusterisation ou de classificatiou (§ 1, § 2). 
Ces m6thodes peuvent donner lieu ~ des produits de ty~ 
hypertextes permettant de naviguer 'dans un r6seau de 
mots-el6s et d'acc6der aux r6f6rences bibliographiques. 
Elles peuvent ~tre le support d'6tudes scientom6triques 
ou un outil d'6valuation de l'indexation produite. 
L'int6r~t peat se porter aussi sur les termes de fr6quence 
1, que seules les m6thodes linguistiques peuvent faire 
6merger. Une m6thodologie reste il mettre en place, qui 
diff6rencie des formes non fig6es et tr~s productives 
(solution de borate, solution de HCI .... ) pouvant ~tre 
regroup6es sous un vocable plus g6n6rique, des formes 
fig6es (solution tampon, ...). 
5 - Conclusion 
Cette pr6sentation des diff6rentes aides ~t l'indexation que 
uous proposons tend h montrer qu'il n'y apas une 
strat6gie unique pour r6soudre le probl6me, mais 
ditT6rentes approches adaptSes h des besoins particuliers, 
celles-ci apparaissant souvent compl6mentaires. C'est la 
raison pour laquelle nous nous efforqons de ne pas 
d6velopper des produits monolithiques, difficiles h 
maintenir, mais des modules outils pouvant se combiner 
en fonction du type d'application concern6. 
\[ 1 \] CHARTRON G. 
Analyse des corpus de donndes textuelles, sondage de 
flux d'informations - Th~se de nouveau doctorat en 
traitement de l'information - PARIS-VII, Juin 1988. 
\[2\] CHAUMIER J. 
Le traitement linguistique de l' information -Entreprise 
Modeme d'Edition, PARIS (F), pp. 149-162, 1988. 
\[31 COURTOIS B. 
Un systdme de dictionnaires dlectroniques pour les roots 
simples dufran¢ais - Lmlgue fran~aise N ° 87, PARIS 
(F), 1990. 
\[4\] DISCROLL P.H. 
The operation and performance of an artificially 
intelligent keywording system - Information Processing 
& Management Vol. 27, N ° 1. 
\[5\] DUCLOY J. ; GRIVEL L. ; LAMIREL J.C. ; 
POLANCO X. ; SCHMI'Iq' L. 
INIST'S experience in hyper-document building from 
bibliographic databases - Conf6rence RIAO 91 
BARCELONE (SP), 2-5 avril 1991. 
\[6\] GRIVEL L. ; LAMIREL J.C. 
SDOC, a generator of hypertext structures - 2nd 
Conference Multimedia Informatiou - CAMBRIDGE 
(UK), 15-18 juillet 1991. 
\[7\] GROSS G. 
Structure des noms compos~s - Colloque Informatique et 
Langue naturelle - NANTES (F), 12-13 octobre 1988. 
\[8\] GROSS G. ; DUGAS A. 
Analyse des groupes N de N - Colloque lnformatique et 
Langue naturelle - NANTES (F), 23-24 janvier 1991. 
\[9 \] GROSS M. 
Les #dUstries de la langue et l' ~tude du fran¢ais - Langue 
Franvaise n°83, pp. 88-100, PARIS (F), 1989. 
110\] GROSS M. 
La construction de dictionnaires dlectroniques - Ann. 
T616commun., tome 44, n ° 1-2, pp. 4-19, 1989. 
\[ 11 \] GROSS M. 
Les Banques de donndes du LADL. Analyse automatique 
du fran#ais et couverture - Colloque Informatique et 
Langue naturelle - NANTES (F), 23-24 janvier 1991. 
\[ 12 \] KLINGBIEL P.H. 
A technique for machine-aided indexing - Information 
Storage and Retrieval, vol 9, pp 477-494 ~ Pergamon 
Press, 1973. 
\[ 13 \] LAPOIZI'E E. 
Reconnaissance des expressior~ figdes lors de l'analyse 
automatique. - Langages n ° 90, Larousse, pp 117-126, 
PARIS (F), 1988. 
1141 MENILLET D. 
Rdgles d'indexation pour la base de donn~es 
bibliogaphiques PASCAL - INIST PARIS, 1990. 
\[ 15 \] MICItELET B. 
L'analyse des associations - Th~se de nouveau doctorat 
en traitement de l'information - Universit6 de PARIS- 
VII, Octobre 1988. 
\[16\] POLANCO X. ; SCHM1TT L. ; BESAGN1 D. ; 
GRIVEL L. 
A la recherche de la diversitd perdue : est-il possible de 
mettre en dvidence les ~ldments h~tdrog~nes d' un front 
de recherche ? - Journ6es d'6tude sur les syst~mes 
d'information 61abor6e : bibliom6trie, information 
strat6gique, veille technologique - 1LE ROUSSE (F), 2-5 
juin 1991. 
\[ 17 \] WAGNER H. 
Dictionnaires, bases de donndes lexicales et 
lexicographie des langues de spdcialitd : le traitement 
des unit~s complexes - Colloque lnformatique et Langue 
Naturelle - NANTES (F), 23-24 janvier 1991. 
AClT.S DE COLING-92, NANTES, 23-28 no~r 1992 1 0 6 3 I'ROC. OF COLING-92, NANTES, AUG. 23-28, 1992 
