Combining Stochastic and Rule-Based Methods for Disambiguation 
in Agglutinative Languages 
Ezeiza N., Alegria I., Arriola J.M., Urizar R. 
Informatika Fakultatea 
649 P.K Donostia E-20080 
jibecran@si.ehu.es 
http://ixa.si.ehu.es 
Aduriz I. 
UZEI 
Aldapeta, 20. 
Donostia E-20009 
uzei@sarenet.es 
Laburpena 
Artikulu honetan metodo estokastiko eta erregeletan oinarritutako metodoen arteko konbinaketa 
euskarari aplikatzearen emaitzak aurkeztuko ditugu.Desanbiguazioan erabilitako metodoak 
Murrizpen Gramatika (CG) eta MULTEXT proiektuak garatutako HMMn oinarritutako etiketatzailea 
dira. 
Euskara hizkuntza eranskaria izaki, hitz bakoitzari dagozkion irakurketa guztiak esleitzeko 
analizatzaile morfologikoa beharrezkoa da. Ondoren, CG erregelak informazio morfologiko guztiari 
aplikatzen zaizkio eta prozesu honek testuen anbiguotasuna gutxitzen du. Azkenik, geratutako 
etiketen artean bakarra hautatzeko MULTEXT proiektuko tresnak erabiltzen dira. 
Metodo estokastikoa soilik erabiltzean, errore-tasa %14 ingurukoa da, baina etiketatzailearen 
doitasuna hitz ezezagunekin lexikoa aberastuz gero %2 hobe daitekeen arren. Metodo biak 
konbinatzen direnean, berriz, prozesu osoaren errore-tasa % 3.5ekoa da. Ikasketarako corpusa 
nahikoa txikia dela, HMM eredua lehenengo mailakoa eta euskararako Murrizpen Gramatika 
oraindik ere garapen prozesuan dagoela kontuan izanik, gure ustez metodo konbinatu hau erabilita 
emaitza onak lor daitezke eta beste hizkuntza eranskarietarako bereziki egokia izan daiteke. 
Resum 
En aquest article presentem els resultats de la combinaci6 de m~todes estoc/lstics i basats en regles 
aplicats a la desambiguaci6 morfosinthcfica de l'euskara. Els m6todes utilitzats per a la desambiguaci6 
s6n: les Gramhtiques de Restrictions (CG) i l'etiquetador basat en HMM del projecte MULTEXT. 
E1 carhcter aglutinant de l'euskara fa necessari la utilitzaci6 d'un analitzador morfolbgic per assignar a 
cada paraula totes les seves interpretacions. Les regles de CG s'apliquen utilitzant la informaci6 
morfol6gica completa i aquest proc6s redueix parcialment rambigtiitat dels textos. A continuaci6, 
s'apliquen les eines de MULTEXT per escollir una finica etiqueta. 
Utilitzant nom6s el m6tode estoc/lstic la taxa d'error 6s aproximadament del 14%, encara que la 
precisi6 de l'etiquetador es pot incrementar en un 2% utilitzant les paraules desconegudes per enriquir 
el 16xic. En canvi, la combinaci6 d'ambd6s m6todes permet reduir l'error fins al 3.5%. 
Tenint en compte que el corpus d'aprenentatge 6s bastant petit, que el model HMM 6s de primer 
ordre i que la Gramhtica de Restriccions de l'euskara esth encara en fase de desenvolupament, creiem 
que els resultats del m6tode combinat s6n bons i que la combinaci6 de m6todes 6s especialment 
adequada per a llengiies aglutinants. 
Resumen 
En este articulo presentamos los resultados de la combinaci6n de m6todos estoc~sticos y basados en 
reglas aplicados al euskara. Los m6todos utilizados para la desambiguaci6n son las Gram~iticas de 
Restricciones (CG) y el etiquetador basado en HMM del proyecto MULTEXT. 
Siendo el euskara una lengua aglutinante, serfi necesario un analizador morfol6gico para asignar a 
cada palabra todas sus interpretaciones. A continuaci6n se aplican las reglas de CG ufilizando toda la 
informaci6n morfol6gica y este proceso disminuye la ambigtiedad de los textos. Por filfimo, las 
herramientas de MULTEXT escoger~in una finica etiqueta. 
Utilizando finicamente el m6todo estoc~tstico la tasa de error es de alrededor del 14°/o, aunque la 
precisi6n del etiquetador puede incrementarse en un 2% ufilizando las palabras desconocidas para 
enriquecer el 16xico. En cambio, combinando ambos m6todos la tasa de error del proceso completo 
es del 3.5%. Teniendo en cuenta que el corpus de aprendizaje es bastante pequefio, que el modelo 
HMM es de primer orden y que la Gramfitica de Restricci6n del euskara esth afin en fase de 
desarrollo, creemos el m6todo combinado obtiene buenos resultados y puede ser adecuado para otras 
lenguas aglufinantes. 
379 
