Exp6rimentation en apprentissage 
d'heuristiques pour l'analyse syntaxique 
Sylvain DELISLE 
Drpartement de mathrmatiques et d'informatique 
Universit6 du Qurbec a Trois-Rivirres 
Trois-Rivirres, Qurbec, Canada, G9A 5H7 
Sylvain_Delisle @uqtr.uquebec.ca 
Sylvain LI~TOURNEAU, Stan MATWlN 
School of Information Technology and 
Engineering, University of Ottawa 
Ottawa, Ontario, Canada, KIN 6N5 
sletour@ai.iit.nrc.ca, stan@site.uottawa.ca 
Les syst~mes ou programmes de traitement de la langue naturelle doivent prendre des drcisions quant 
au choix des meilleures stratrgies ou rrgles h appliquer en cours de rrsolution d'un probl~me particulier. 
Pour un analyseur syntaxique constitu6 d'une base de rrgles symboliques, le cas auquel nous nous 
intrressons ici, ces drcisions peuvent consister h srlectionner les rrgles ou l'ordonnancement de celles-ci 
permettant de produire la plus rapide ou la plus prrcise analyse syntaxique pour un 6noncr, un type 
d'rnonc6 ou m~me un corpus sprcifique. La complexit6 de telles bases de rrgles grammaticales et leurs 
subtilitrs computationnelles et linguistiques font en sorte que la prise de ces drcisions constitue un 
probl~me difficile. Nous nous sommes donc fix6 comme objectif de trouver des techniques qui 
permettraient d'apprendre des heuristiques performantes de prise de drcision afin de les incorporer ~ un 
analyseur syntaxique existant. Pour atteindre une telle adaptabilitr, nous avons adopt6 une approche 
d'apprentissage automatis6 supportre par l'utilisation de syst~mes de classification automatique. 
Nos travaux ont 6t6 rralisrs sur un analyseur syntaxique ~ large couverture syntaxique de l'anglais 
6crit et ont port6 sur un sous-ensemble prrcis de celui-ci : le niveau le plus haut qui doit drcider avec 
quelle(s) r~gle(s)----et, s'il yen a plusieurs, dans quel ordre--lancer l'analyse syntaxique de l'rnonc6 en 
cours de traitement, selon que cet 6nonc6 semble comporter des phrnom~nes de coordination structurelle 
plus ou moins compliqurs. Ce problbme de drcision se traduit naturellement en un probl~me de 
classification, d'o~ notre utilisation de systrmes de classification automatique de plusieurs types : r~gles 
de drcision, bas6 sur les instances, rrseaux de croyances et rrseaux de neurones. Soulignons que notre 
analyseur syntaxique poss~dait drj~ des r~gles heuristiques d~dires ~ ce probl~me de d~cision. Elles 
avaient 6t6 composres par le premier auteur sans avoir recours h aucun mrcanisme automatique. Nous 
drsirions maintenant trouver de nouvelles heuristiques qui seraient encore plus performantes que les 
anciennes et qui pourraient donc les remplacer. 
La mrthodologie que nous avons utilisre est la suivante. Premi~rement, nous avons drfini les attributs 
les plus pertinents pour reprrsenter les exemples (rnoncrs). I1 importait d'identifier des attributs 
facilement calculables de fa~on automatique et qui permettraient d'obtenir de nouvelles heuristiques 
intrressantes. Par exemple, la prrsence de conjonctions de coordination et la longueur de l'rnonc6 sont 
deux attributs utiles. Deuxi~mement, nous avons soumis les exemples, traduits en termes des attributs 
srlectionnrs, aux syst~mes classificateurs afin d'obtenir des rbgles. Nous avons ensuite srlectionn6 les 
r~gles les plus intrressantes, c'est-h-dire celles qui 6taient les plus discriminantes tout en demeurant 
intelligibles dans une perspective linguistique. Troisi~mement, nous avons incorpor6 les rrgles 
srlectionnres ~ notre analyseur syntaxique en remplacement des anciennes. Finalement, nous avons 
6valu6 la nouvelle version de l'analyseur obtenue grace ~ ces nouvelles r~gles et effectu6 une 
comparaison avec l'ancienne version. Les rrsultats que nous avons obtenus se rrsument ainsi : nous avons 
trouv6 de nouvelles heuristiques qui sont significativement meilleures que les anciennes et qui, en 
particulier, poss~dent un taux d'erreur de 35% infrrieur h celui des anciennes. Qui plus est, ces rrsultats 
ont 6t6 obtenus sur des 6noncrs tout ?~ fait indrpendants de ceux utilisrs pour l'entra~nement avec les 
syst~mes classificateurs. Ces rrsultats drmontrent que des techniques d'apprentissage automatis6 peuvent 
concourir h l'optimisation adaptive de certaines drcisions importantes en analyse syntaxique. 
314 
