GILLES MALONEY 
LE P1LOJET HIPPO: P,.ECHER.CHE EN AUTOMATISATION 
DE DONN\]~ES STYLOMI~TRIQUES ~ PAKTIR. DE L'OEUVtkE 
D'HIPPOCR.ATE 
Le Projet Hippo est une recherche sur l'oeuvre d'Hippocrate men6e 
depuis trois ans par une ~quipe de quatre professeurs, d'assistants, d'un 
analyste et d'un programmeur, ainsi que d'une soci~t~ commerciale de 
consultants en statistique. Poursuivi ~. l'universit~ Laval de Qu6bec, 
ce travail est subventionn~ par l'universit6 elle-m~me, par le Gouver- 
nement du Qu6bec et par le Conseil des Arts du Canada. 
Les hell6nistes qui abordent la lecture du Corpus hippocraticum se 
trouvent en pr6sence d'une multitude de trait6s divers, mais ils consta- 
tent bient6t que cet ensemble manque d'homog~n~it6 et que, parmi 
ces quelques 70 oeuvres, ~ peine une vingtaine portent la marque de la 
m6decine positive pr6n6e par Hippocrate. Les philologues ont pu dis- 
tinguer dans ce groupe des 6crits relevant de trois ~coles de pens6e 
diff~rente, mais n'ont pas encore r6ussi ~t attribuer avec une certitude 
suffisante un groupe prdcis d'oeuvres appartenant ~t Hippocrate et en- 
core moins ~ attribuer d'autres trait6s ~. d'autres noms. 
Le Projet Hippo vise donc ~t analyser et b. classifier tousles trait~s 
du Corpus par des Etudes quantitatives de style appuyant leurs conclu- 
sions sur la statistique et ex~cut6es par ordinateur; nous esp6rons en 
arriver ~ une hypoth~se g6n6rale capable de grouper les trait6s en sous- 
ensembles prEsentant des affmitEs suffisamment pr6cises pour hisser 
croire qu'ils se rattachent ~ des auteurs cliff, rents. 
I1 faut souligner clue nous n'avons aucunement la pr6tention d'at- 
tribuer telle ou telle oeuvre ~. tel persomlage historique precis, m~me 
si le Projet, entant que recherche litt~raire et historique, a pour but 
ultime de classifier les pi~ces du Corpus. Nous ne pourrons pas non plus 
attribuer des oeuvres ~ Hippocrate lui-m~me, faute de rep~res ext~rieurs 
au Corpus. Beaucoup plus modestement, nous essayons de mettre en 
lumi~re un certain nombre de faits stylom~triques, en accordant ~ des 
tests statistiques une importance ~t laquelle la philologie classique n'est 
84 GILLES MALONEY 
pas habitude lorsqu'il s'agit de comparer des donn6es quantitatives 
avec des r6sultats d'analyse de contenu. 
Nous avons estim6 que le Corpus contient environ 350.000 roots soit 
2.500.000 caract~res, et qu'il faudrait ajouter un autre total de 4.200.000 
caract~res pour la codification grammaticale et les lexiclues, sans compter 
la programmation. Nous pr6voyons donc avoir besoin d'emmagasiner 
environ 7.000.000 de caract&es. Pour le moment nous utilisons envi- 
ron 700 K d'espace. Etant donn6 l'ampleur relative de l'entreprise et 
les hasards qui nous attendaient ~t coup stir, nous avons d'abord d&id~ 
de tenter un Pr&projet portant sur trois trait~s, qui nous permettraient 
de sonder l'k-propos de cette recherche du point de vue de la philologie 
et d'en ~valuer les chances de r~alisation technique dans notre universitY. 
Cette phase a ~t4 parcourue en deux ans avec des r&ultats qui nous ont 
encouragd ~ r&liser l'ensemble du Projet, dont nous pr4voyons une 
fin d'~tape pour septembre 1975. 
Le Projet Hippo dtant con~u comme tm travail exp&imental dans 
tout son ensemble, et puisque nous ne sommes aucunement certains 
d'apporter une solution au probl~me d'authenticit6 que nous posons 
h propos du Corpus, nous prenons soin d'obtenir, tout en avan~ant, 
des r&ultats concrets qui seront valables quelle que puisse &re l'issue de 
notre recherche. 
Nous avons donc mis au point un syst~me d'entr&-sortie sur APL 
qui nous permet de travailler directement en grec, en utilisant majus- 
cules, minuscules, accentuation et ponctuation, par l'interm6diaire 
d'un terminal Selectric 2741. Nous en sommes er~ effet venus ~t la con- 
clusion que I'APL &ait actuellement te syst~me ideal pour produire des 
textes; sur disque, et de 1~ sur ruban magn~tique, vu sa grande flexibilit4 
dans les manoeuvres de modifications de donn~es. Dans le travail 
d'entr~e, de correction ou de sortie nous utilisons un format de 4 ou 5 
K, clue nous appelons <~ page ~, reproduisant 40 lignes ou moins de texte 
qui or~t la m~me longueur et la m~me disposition que dans le livre dont 
elles provierment. Au moment de l'entr~e nous pouvons corriger un 
mot real &tit aussi souvent qu'on veut, modifier la ligne, supprimer 
celle-ci s'il le faut, gr,~ce ~t la possibilit4 de marche arri~re clue les con- 
soles 2741 permettent. A la sortie nous pouvons obtenir par une seule 
commande soit une ligne pr&ise d'un traitS, soit une page, soit plusieurs 
pages en s6quence ou non, soit un trait~ au complet soit l'ensemble 
des trait&. Lorsclu'il faut modifier le texte par suite d'erreurs constat&s, 
il est possible d'ajouter, n'importe oh et directement, des espaces ou 
des caract~res ou m~me d'ins~rer des lignes oubli~es, ou au contraire 
LE PROJET HIPPO: RECHERCHE EN AUTOMATISATION DE DONN\]~ES ... 85 
de supprimer des espaces, des caract~res, des mots, des lignes et m~me 
des pages, pour ainsi dire instantan6ment. Nous pouvons dire actuelle- 
ment sans grande modestie que, pour ce qui regarde la pr6paration fid~le 
~t l'original d'un texte grec sur ruban magn&ique, nous nous sommes 
pay~s toutes les fantaisies dont nous avions besoin. 
Cette fonction devient alors une addition aux ressources de notre 
Centre de Traitement de l'Information (CTI), qui, ne poss~dant que 
deux ordinateurs a jug~ bon d'en distinguer les juridictions: tm IBM 
370-155 exdcute les travaux en OS tandis qu'un IBM 370-145 est consacr6 
tmiquement ~ I'APL: quelques 105 consoles lui sont reli&s par lignes 
t61~phoniques et actuellement il en g&e plus de 65 simultan6ment. En 
partageant ainsi le temps l'usager gagne en &onomie d'argent ce qu'il 
perd en espace de mdmoire pour lui disponible. C'est justement pour 
cette raison que nous traitons nos propres donn~es en OS par langage PL/1. 
Ainsi nous produisons des documents en APL sur disques et lorsque 
nous les jugeons sans faute nous en raisons une copie sur ruban qui est 
alors trait~ par rautre ordinateur. Quant ~ l'approche en APL, elle est 
suftisamment simple pour que m~me un non-initial au maniement des 
ordinateurs puisse apprendre ~t la maltriser en cluelques heures. Autre 
avantage: en plus de la console plac~e dans le local qui est attribud an 
Projet, nous pouvons utiliser toutes celles qui sont diss~min&s un peu 
partout dam l'tmiversit6. Enfin, I'APL permet de travailler ~ plusieurs en 
mSme temps au Projet, rant sur les textes que sur la programmation. 
En ce qui concernc l'aspect productif du Projet, on peut dire que les 
r~sultats obtenus se rangent en trois classes. D'abord, nous enregistrons 
des textes sur rubans: nous en sommes actuellement au septi~me traitd 
du Corpus. De ce point de vue notre travail n'a pas &6 inutile, mSme 
pour les nombreux philologues int~ress6s ~ l'oeuvre d'Hippocrate, 
puisqu'ils peuvent disposer sur un ruban magn&ique compatible avec 
la plupart des machines des textes que nous croyons sans fautes et des 
lexiques qui d~passent de loin par leur vari&~ l'index d'Hippocrate 
qu'tm groupe d'hell~nistes allemands est en train de confectionner ~t 
Hambourg par des proc~dds traditionnels. 
En effet nous obtenons aussi ce qui constitue g~n&alement des rou- 
tines dans les blocs de programmation: ~ savoir des lexiques. Nous im- 
primons pour chaque trait~ un lexique alphab&ique, un autre selon les 
fr~quences d'emploi, un selon les categories morphologiques convention- 
nelles et un dernier qui classe les hapax. Une fois l'oeuvre compl&e 
enregistrde sur ruban nous produirons quatre index g~n~raux du Corpus. 
86 GILLES MALONEY 
En troisi~me lieu, nous entretenons ~t propos des donn&s num&i- 
ques une crainte parmi nous: celle d'&re inondds par une masse de chif- 
fres que nous ne pourrons jamais analyser nous-m~mes et qui n'int& 
resseront personne. Aussi nous en tenons-nous ~t la connaissance~des 
faits suivants: 
1) le detail s4quentiel du nombre de roots par phrase, accompagn6 
du num4ro d'ordre de la phrase et de la r4fdrence; 
2) le nombre total de roots par traitE; 
3) la longueur moyenne des roots; 
4) la distribution des fr6quences de roots par phrase; 
5) la comparaison de la position duns la phrase du premier subs- 
tantif et du premier verbe ~. forme personnelle ou de tout autre paire 
de categories morphologiques; 
6) la rEpartition des roots selon les categories morphologiques; 
7) enfin, une double matrice de 22 × 22 compilant les voisinages 
primaires et secondaires des roots selon leur cat6gorie. Celles-ci indi- 
quent combien de lois un substantif est suivi d'un autre substantif, com- 
bien de fois par un adjectif, par une conjonction, et le reste; puis, com- 
bien de lois un adjectif est suivi d'un substantif, d'un infinitif, et ainsi 
de suite. De plus, combien de fois on trouve un mot entre deux subs- 
tantifs, entre un substantif et tm adjectif, entre un participe et un in- 
finitif, et le reste. Cette matrice est tr~s fiche en renseignements; elle 
fournit par exemple la r4partition des roots en d4but et en fin de 
phrase. 
Le traitement statistique de ces donn4es par rapport au probl~me que 
nous d6finissons h propos du Corpus s'est rEvEIE au cours du Pr&Projet 
trop complexe et hasardeux pour nos forces. Nous avons donc recours 
aux services de professionnels dans le domaine, la Soci&6 de Math4ma- 
tiques Appliqu4es (SMA) de Montreal, compagnie de consultants qui 
est unique au Qu4bec. Comme nous n'avons pas affaire ~. un v4ritable 
probl~me d'authenticit4 mais ~ une discussion sur des groupements 
hypoth&iques, nous avons r&olu de n'appliquer pour le moment ~t 
nos donn6es que deux types de tests: l'un portant sur l'entropie des 
oeuvres, l'autre &ant le test d'analyse factorielle dit ANAFACO, fourni 
par Metra International. Jusqu'~t maintenant les r4sultats de ces essais 
coYncident avec les hypoth&es commun4ment admises par les philo- 
logues; nous continuerons donc ~ les appliquer dans les m~mes con- 
ditions pour tousles trait4s, quitte ~t ajouter en cours de route quelques 
tentatives diff4rentes. L~t encore nous essayons de garder un juste milieu 
entre l'emploi syst4matique du Z ~, par exemple, et des tests si complexes 
LE PROJET HIPPO: RECHERCHE ~N AUTOMATISATION DE DONNI~ES ... 87 
qu'ils risquent de ne plus &re compatibles avec l'aspect litt&aire d'tm 
texte. 
Pour revenir au traitement du texte, il faut dire que les lexiques que 
nous obtenons ne sont pas lemmatis&, et que 1'analyse morphologique 
que l'ordinateur en connalt est tr~s E16mentaire. 
En effet, dans les trois premiers traitEs que nous avons enregistr&, 
nous raisons suivre chaque mot d'une cote allant de 1 h 22 et correspon- 
dant ~ une cat6gorie morphologique. De 1~ nous avons tire tin lexique 
alphab&ique contenant la fr6quence, la forme, son code morphologique 
et ses rEfErences. Nous avons reportE sur disque le lexique du premier 
traitE d'Hippocrate (L'ancienne mMecine), amputE de ses rEfErences, 
lui attribuant une cinquantaine de pages en APL. I1 est alors devenu 
mall6able comme les autres textes: nous demandons done une ligne qui 
imprime disons, ~5 0~¥0~0o6g~, c'est&-dire: adjectif 0~¢0~0o6g. Comme le 
format des lignes est variable, nous Ecrivons ~ une certaine distance 
la suite du mot: &~'~06g. Puis nous raisons suivre une analyse compl~te 
qui dEtaille le ~ 5 ~ qui caract&isait le mot jusqu'fi ce moment: elle con- 
siste en 10 El~ments num6riques qui indiquent si le mot est un lemme 
ou non, puis s'il est un homonyme ou non, les 8 autres ElEments codi- 
fiant l'analyse morphologique d&aill& de la forme rencontr&. Bien 
entendu, cette analyse manuelle peut se fake en &apes successives. C'est 
~l construire ce lexique au complet que nous travaillons actuellement, 
les sections qui en sont terminEes nous permettant de roder la program- 
marion subsEquente. 
Car ce lexique va constituer la base de l'analyse semi-automatique 
de tout le Corpus: par comparaison avec lui le lexique non-lemmatisE 
du trait~ Des Airs, des eaux et des lieux recevra l'analyse complete de 
tous les roots non-homonymes. Nous compl~terons sur console APL 
l'analyse des formes nouvelles et celle des homonymes, et par tm fondu 
des lexiques 1 et 2 nous ferons un petit index g~n&al lemmatisE d'Hip- 
pocrate; celui-ci sera compare au lexique non-lemmatisE du traitE des 
Epid3mies et ainsi de suite. I1 n'est pas difficile k ce moment-lk de b,~tir 
un index d6finitif bas6 sur les lemmes en faisant reporter automati- 
quement chaque forme ~t la suite de son lemme et d'obtenir ainsi un 
lexique lemmatisE pour chaque traitE et de m~me un lexique gEnEral 
du Corpus. 
Une fois ce bloc de programmation terminE, il nous faudra trans- 
porter ces donnEes sur rordinateur 370-155 et l~t commencera la tier- 
nitre &ape du Projet, qui consistera fi rendre possible le traitement des 
88 GILLES MALONEY 
donn~es num~riques et lexicologiques en TSO, c'est-~.-dire en direct, 
par l'intermddiaire l~t aussi d'une console. 
Comme les personnes surtout engag~es dam le Projet Hippo font 
pattie d'un d~partement des litt~ratures, nous esp~rons que cette re- 
cherche continuera ~t avoir des effets utiles pour nos coll~gues: il n'est 
pas difficile en effet de passer d'un caract~re d'imprimerie ~t l'autre sur 
console 2741, et tout ce que nous raisons devient imm~diatement ap- 
plicable ~ des textes en d'autres langues. En m~me temps les ~tudes lit- 
tdraires automatis~es feront chez nous des progr~s, en s'installant parmi 
les activit~s du Centre de Traitement de l'Information, ~ c6t~ de la 
g~rance de la biblioth~que, de la consultation par t~16-information des 
Statuts du Quebec offerte aux juristes, de la Banque d'Information en 
Bibliographie Patristique, et de quelques recherches importantes en 
linguistique. 
C'est ainsi Clu'Hippocrate serait sans doute ~tonn6 de voir que ses 
carnets aident maintenant un groupe d'universitaires ~ demeurer dam 
leur 6poque. 
