UNIVERSIDAD DEL PAÍS VASCO

Investigadores de la UPV/EHU desarrollan herramientas para utilizar la web como corpus en

Los corpus son muestras referenciales del lenguaje escrito, gigantescas recopilaciones de textos y de palabras. Aunque para muchos el propio término sea desconocido, los corpus son fundamentales para las tecnologías del lenguaje: sin corpus, no habría sistemas de traducción automática ni aplicaciones para el reconocimiento de la voz, ni existirían los diccionarios modernos. Varios investigadores de la UPV/EHU utilizan la web como fuente inagotable para crear corpus en euskera. Dicha utilización permite elaborar más fácilmente corpus de gran tamaño que haciéndolo de forma manual, pero deben utilizarse las herramientas adecuadas. El euskera ya dispone, en este momento, de dichas herramientas.

En la jerga de la lingüística de corpus suele decirse aquello de “more data is better data”, es decir, “más datos significa mejores datos”. Y, en lo que a cantidad se refiere, no hay quien supere a Internet. Cuando comenzó esta investigación, el mayor corpus en euskera contaba con pocas palabras (25 millones). Y es que hasta ahora, los corpus se han creado de forma manual. “En la década de los 90, otras lenguas ya habían superado la barrera de los 100 millones de palabras”, según el investigador Igor Leturia, quien recuerda que “nos marcamos como objetivo superar dicho límite cuando comenzamos a analizar si la web podría ser una fuente de abastecimiento adecuada para crear corpus en euskera”.

Las lenguas que superaron hace tiempo el citado límite no recurrieron a métodos manuales para crear gigantescas recopilaciones de palabras, sino a herramientas automáticas y a la “web como corpus”. La principal limitación de los corpus tradicionales es su coste, ya que se necesita mucha mano de obra para recopilar y adaptar los textos (de formatos y fuentes muy diversas) y, posteriormente, extraer de estos recopilaciones de palabras referenciales de una lengua. La web, por el contrario, es inmensa, y contiene textos de cualquier género, dominio o lengua que, además, están disponibles en un formato estándar fácil de manejar: en HTML. Una ventaja añadida es que la web se actualiza permanentemente. “Utilizando métodos automáticos para extraer textos de la web, es mucho más rápido y barato crear corpus variados, actualizados y de gran tamaño”, señala Leturia, que ha llevado a cabo esta investigación en la unidad de Lengua y Tecnología de Elhuyar, bajo la dirección del grupo de investigación IXA de la Facultad de Informática de la UPV/EHU. La investigación tenía por objeto demostrar, por una parte, que la metodología “la web como corpus” sirve para crear, en euskera, recopilaciones de palabras con gran calidad, amplitud y diversidad; por otra, desarrollar las herramientas para lograr dicho objetivo.

“Es muy fácil extraer textos de la web en inglés —afirma Leturia—, pero como la presencia del euskera en la web es menor, no sabíamos si seríamos capaces de elaborar determinados tamaños o tipos de corpus”. Leturia ha utilizado los métodos automáticos que emplean otras lenguas para, posteriormente, elaborar los suyos propios, teniendo en cuenta las peculiaridades del euskera y buscando soluciones adaptadas a estas.

El trabajo se ha desarrollado en cuatro ámbitos distintos. En el primero, el investigador ha demostrado que se puede consultar directamente la web como si fuera un corpus en euskera, utilizando para ello dos herramientas. Una de ellas sirve para superar el “problema” de la declinación: “La herramienta crea las declinaciones y conjugaciones de la palabra que se quiere buscar, y se envían al buscador, dentro de una orden OR, para conseguir resultados reales en euskera”, explica Leturia. Otra de las herramientas utilizadas es el filtro, imprescindible para que el sistema traduzca solo textos que están en euskera. Fruto del citado trabajo es la herramienta de búsqueda CorpEus.

En el segundo de los ámbitos, el investigador ha creado, a partir de la web, un corpus general (en euskera) de 210 millones de palabras, utilizando el método de extracción automática denominado “crawling”. Puede consultarse dicho corpus en el portal de corpus de la web. Este corpus extraído de la web es mayor que los tradicionales, y ofrece más información sobre las palabras. Según Leturia, “más del 95 % de las palabras que contienen los corpus tradicionales también están en los nuestros, además de otras muchas que no están en aquellos”. Concretamente, su aportación de nuevas palabras a los corpus tradicionales es del 85 %.

Por otra parte, Leturia ha investigado también si la web sirve, además de para crear corpus genéricos, para elaborar corpus de determinadas disciplinas, tanto para recopilaciones de textos en euskera como para bilingües. En ambos casos, los corpus de dominio extraídos de la web eran equiparables a los elaborados “a mano”. El citado investigador ha trabajado, entre otros, con corpus de informática, de física de partículas y de turismo.

“Partimos más tarde y con menos recursos que otras lenguas con más hablantes que la nuestra —reflexiona Leturia—, pero también hay que mirarlo desde este otro punto de vista: algunas lenguas de muchos hablantes (el inglés, por ejemplo) son morfológicamente más simples para ser tratadas automáticamente, contienen una gran masa de texto, y aplicando solamente la estadística obtienen muy buenos resultados. El euskera, en cambio, al contar con una masa de texto menor y al ser más complejo para el tratamiento automático, nos ha situado ante problemas más complejos y nos ha obligado a elaborar herramientas que no existen en las lenguas con muchos hablantes. Hemos tenido, por tanto, la oportunidad de hacer aportaciones originales y novedosas al ámbito de las tecnologías del lenguaje”. Según Leturia, las herramientas desarrolladas sirven, además de al euskera, a otras lenguas con necesidades y características similares a aquella.

Información complementaria

Igor Leturia Azkarate es doctor en Informática e investigador de las tecnologías del lenguaje en Elhuyar. Su tesis (‘Weba euskarazko corpus gisa’) ha sido dirigida por los investigadores Xabier Arregi y Kepa Sarasola, ambos del grupo de investigación Ixa de la Facultad de Informática de la UPV/EHU.

Referencias

LETURIA, I., GURRUTXAGA, A., ARETA, N., ALEGRIA, I. eta EZEIZA, A. 2013. «Morphological query expansion and language-filtering words for improving Basque web retrieval». Language Resources and Evaluation, 47 (2), 425–448.

LETURIA, I. 2012. «Evaluating different methods for automatically collecting large general corpora for Basque from the web». Proceedings of the 24th International Conference on Computational Linguistics (COLING), Mumbai, India.

GURRUTXAGA, A., LETURIA, I., SARALEGI, X. eta SAN VICENTE, I. 2009. «Evaluation of an automatic process for specialized web corpora collection and term extraction for Basque». Proceedings of eLexicography Conference 2009, Louvain-la-Neuve, Belgium.

GURRUTXAGA, A., LETURIA, I., SAN VICENTE, I. eta SARALEGI, X. 2013. «Automatic comparable web corpora collection and bilingual terminology extraction for specialized dictionary making». BUCC – Building and Using Comparable Corpora, Sharoff, S., Rapp, R., Zweigenbaum, P. eta Fung, P. (arg.), 51–75. Springer, Dordrecht, The Netherlands.