UNIVERSIDAD DEL PAÍS VASCO

21 idiomas europeos en peligro de extinción digital

Un estudio realizado por expertos en tecnologías lingüísticas advierte de que la mayoría de lenguas europeas tiene pocas probabilidades de sobrevivir en la era digital

La mayoría de las lenguas europeas se enfrentan a la extinción digital, según un reciente estudio realizado por expertos europeos en tecnologías lingüísticas. Después de evaluar el nivel de soporte tecnológico con el que cuentan 30 de las cerca de 80 lenguas europeas, los expertos concluyen que el apoyo digital para 21 de los 30 idiomas investigados es “inexistente” o “débil”, en el mejor de los casos. El estudio ha sido realizado por META-NET, una red europea de excelencia que cuenta con 60 centros de investigación en 34 países, entre ellos el grupo de investigación de la UPV/EHU AhoLab Signal Processing Laboratory, un grupo de referencia en el campo de las tecnologías del habla para el euskera.

El estudio, elaborado por más de 200 expertos y publicado en la serie de Libros Blancos META-NET (disponibles tanto en línea como en papel), evalúa el soporte tecnológico para cada idioma en cuatro áreas diferentes: la traducción automática, la interacción con la voz, el análisis textual y la disponibilidad de recursos lingüísticos. Según los expertos, un total de 21 de los 30 idiomas (o sea, el 70%) se sitúan en la categoría más baja, según la cual el soporte tecnológico es “débil o inexistente” al menos en una de las áreas. Varios idiomas, como el islandés, el letón, el lituano y el maltés, reciben la puntuación más baja en las cuatro áreas. En el otro extremo del espectro, y aunque no se considera que ninguna lengua goza de un soporte “excelente”, sólo el inglés recibe “un buen soporte”, seguido del español que, junto con el francés, el alemán, el neerlandés y el italiano cuentan con un “apoyo tecnológico moderado”. Por otro lado, el catalán y el euskera, junto a otras lenguas como el búlgaro, el griego, el húngaro y el polaco presentan una situación de soporte “fragmentario”, lo cual los sitúa también en el conjunto de lenguas de alto riesgo.

“Los resultados de nuestro estudio son muy alarmantes. La mayoría de las lenguas europeas carecen de los recursos tecnológicos básicos y algunas están abandonadas casi por completo. En este sentido, hay que decir que muchas de nuestras lenguas no están todavía preparadas para el futuro.”, manifiesta el profesor Hans Uszkoreit, coordinador de META-NET y coeditor del estudio. Georg Rehm, el otro editor del estudio, añade: “Existen grandes diferencias en el soporte tecnológico que reciben las distintas lenguas europeas. La brecha entre las lenguas ‘grandes’ y ‘pequeñas’ es cada vez mayor. Tenemos que asegurarnos de que todas las lenguas cuenten con las tecnologías básicas necesarias, de lo contrario estas lenguas están condenadas a la extinción digital”.

La tecnología lingüística produce software capaz de procesar el lenguaje humano, ya sea hablado o escrito. Los ejemplos más conocidos de software lingüístico incluyen correctores ortográficos y gramaticales, asistentes personales interactivos para smartphones (como Siri en iPhone), sistemas de diálogo telefónico, traductores automáticos, motores de búsqueda web y las voces sintéticas utilizadas por los sistemas de navegación GPS. Hoy en día las aplicaciones de tecnología lingüística se basan fundamentalmente en métodos estadísticos, que requieren cantidades muy grandes de datos. Obtener la cantidad necesaria de datos resulta particularmente difícil para los idiomas pequeños, y eso revierte en la escasa calidad de muchos sistemas estadísticos, como puede verse, por ejemplo, en las traducciones, a menudo absurdas, producidas por los sistemas de traducción automática en línea más populares, como Google translator, para algunas lenguas.

Europa ha conseguido eliminar casi todas las fronteras entre los países. Sin embargo, existe todavía una frontera que parece impenetrable: las barreras del idioma, que impiden el libre flujo de conocimientos e información. Esta frontera también perjudica el objetivo de establecer un mercado digital único, ya que impide la libre circulación de bienes, productos y servicios. Tecnologías como la traducción automática, resultan esenciales para superar las barreras del idioma. Sin embargo, los resultados del estudio de META-NET muestran claramente que muchos de los idiomas europeos todavía no están preparados, debido, entre otros factores, a una investigación lingüística poco sistematizada y a la falta de compromiso político y de recursos financieros.

Hace falta un esfuerzo coordinado a gran escala en Europa para llenar estos huecos y para facilitar la transferencia tecnológica entre las diferentes lenguas. Existen razones de peso para afrontar este inmenso reto de forma colectiva, en un esfuerzo que implique a la Unión Europea, a los Estados miembros y a países asociados, así como a la industria. Estas razones incluyen: el alto coste relativo de estas tecnologías para las comunidades lingüísticas más pequeñas, la necesidad de transferencia tecnológica entre las lenguas así como de de interoperabilidad entre recursos, herramientas y servicios, así como el hecho de que las fronteras lingüísticas a menudo no coinciden con las fronteras políticas. Europa debe tomar medidas para preparar sus lenguas para la era digital. Estas constituyen un componente valioso de nuestro patrimonio cultural y, como tal, merecen un futuro mejor.

El 26 de septiembre el Consejo de Europa celebra el Día Europeo de las Lenguas, un día en que se reconoce la importancia de fomentar y desarrollar el rico patrimonio lingüístico y cultural de nuestro continente. El trabajo de META-NET constituye un claro recordatorio de los desafíos y posibilidades a los que enfrenta nuestro patrimonio lingüístico en esta era de la información Tecnología lingüística: situación actual.

La tecnología lingüística ya forma parte de nuestro entorno cotidiano, cuando escribimos correos electrónicos o compramos entradas en línea. Nos ayuda cuando hacemos búsquedas por internet y cuando traducimos de forma automática una página web; cuando corregimos un texto en nuestro procesador, cuando utilizamos comandos de voz con nuestro teléfono móvil o seguimos las indicaciones de nuestro navegador GPS. En un futuro próximo, podremos dialogar con ordenadores, e incluso aparatos domésticos, de manera natural. La eliminación de la barrera comunicativa entre personas y máquinas cambiará nuestro mundo.

La tecnología lingüística constituye hoy en día una de las áreas clave de crecimiento en la tecnología de la información. Las grandes corporaciones internacionales como Google, Microsoft, IBM y Nuance han hecho inversiones sustanciales en este área. En Europa, cientos de pequeñas y medianas empresas se han especializado en determinadas aplicaciones o servicios. Esta tecnología permite a las personas colaborar, aprender, hacer negocios y compartir conocimientos por encima de las fronteras lingüísticas e independientemente de sus habilidades informáticas.

La serie de Libros Blancos de META-NET

La serie de Libros Blancos de META-NET “Las lenguas en la Sociedad de la Información europea” informa sobre el estado de 30 idiomas europeos con respecto a la tecnología lingüística y explica los riesgos y las oportunidades más urgentes. La serie abarca todas las lenguas oficiales de los Estados miembros de la UE y otros idiomas que se hablan en Europa. Si bien ya existían estudios científicos valiosos en este ámbito, hasta ahora no existía ningún compendio exhaustivo que presentara de forma sintética el estado de la cuestión y los desafíos planteados para cada lengua con respecto al soporte tecnológico de una Europa multilingüe. Los 30 volúmenes de esta serie vienen a llenar este vacío. El estudio muestra por qué la mayoría de los idiomas se enfrenta a problemas graves e identifica las deficiencias más importantes. En total, más de 200 autores han colaborado en la preparación de los distintos informes.

Cada volumen de la serie está dedicado a una lengua europea de las 30 que incluye el estudio, y consta de una versión en dicha lengua y su correspondiente traducción al inglés. Las lenguas son: alemán búlgaro, catalán, croata, checo, danés, eslovaco, esloveno español, estonio, euskera, finés, francés, gallego, griego, holandés, húngaro, inglés, irlandés, italiano, islandés, letón, lituano, maltés, noruego, polaco, portugués, rumano, serbio y sueco.

Acerca de META-NET y META

META-NET, una red de excelencia que consta de 60 centros de investigación en 34 países, tiene como objetivo la construcción de las bases tecnológicas de la sociedad de la información en una Europa multilingüe. META-NET está cofinanciada por la Comisión Europea a través de cuatro proyectos.

META-NET está forjando META, la Alianza Europea de Tecnología Multilingüe. Más de 600 organizaciones de 55 países, incluyendo centros de investigación, universidades, empresas pequeñas y medianas, así como varias empresas grandes, ya se han sumado a esta alianza.

Sobre Aholab

AhoLab Signal Processing Laboratory es un grupo de investigación con amplia experiencia en todos los campos relacionados con las tecnologías del habla. Es el creador del primer conversor de Texto a Voz para el euskera, AhoTTS (http://aholab.ehu.es/tts), con tecnología íntegramente desarrollada en el laboratorio, y actualmente proporciona servicios de conversión de texto a voz para el euskera, inglés, castellano, catalán y gallego. Ha trabajado también en reconocimiento de habla, locutor y emociones. Además ha desarrollado importantes y numerosos recursos orales para el euskera y diferentes herramientas de procesado de voz.

En el estudio, y en el contexto de los Language White Papers, AhoLab ha elaborado, en colaboración con expertos del grupo IXA, Elhuyar, Departamento de Política Lingüística del Gobierno Vasco, y del CNRS de Baiona, el LWP para el euskera.