El catalán tiene más de 1.400 años de historia y hoy lo hablan 9 millones de personas; el gallego, más de 800 años y 2,7 millones de hablantes; y la lengua vascónica, que es de las más antiguas del mundo y que pervive a través de la unificación plasmada en el euskera batúa, data de al menos hace 2.000 años y lo utilizan alrededor de 900.000 personas. Sin embargo, la supervivencia de estos idiomas en el mundo que viene, el de la digitalización y la inteligencia artificial, podría depender de que sean capaces de integrarse en el lenguaje de ‘unos y ceros’.

«La tecnología va a avanzar muy rápido en los próximos años. No hablamos de un desafío a corto plazo, sino para las próximas décadas. ¿Crees que si cuando gestionemos nuestras cuentas bancarias, cuando pidamos una cita médica o cuando hablemos a nuestro asistente de voz no podemos hacerlo en gallego, euskera, catalán o valenciano estos idiomas van a pervivir? Dejarán de ser útiles, y si algo no es útil corre el riesgo de desaparecer. Salvarlos depende de cosas como esta», explica a este periódico Senén Barro, director del Centro Singular de Investigación en Tecnologías Inteligentes de la Universidad de Santiago de Compostela (CiTIUS).

Barro es, además, el responsable de uno de los tres proyectos que aspiran a asegurar la presencia de las lenguas cooficiales en el mundo digital: AINA para el catalán, NÓS para el gallego y GAITU para el euskera.

La idea se nutre de los fondos europeos del PERTE de la Nueva Economía de la Lengua lanzado por el Gobierno en el marco del Plan de Recuperación, para lo que cuenta con 7,5 millones de euros de presupuesto: tres millones para el catalán, dos millones para el gallego y otros dos millones para el euskera. Vives, el proyecto para el valenciano, solo ha recibido 500.000 euros, pero porque se espera que se beneficie del catalán por la cercanía entre las dos lenguas.

Para llevar a cabo esta labor, todos los proyectos deberán construir antes del 31 de diciembre de 2025 unos corpus lingüísticos, tanto escritos como orales, que serán de licencia abierta y que se pondrán a disposición de las grandes tecnológicas para que los integren en sus tecnologías de lenguaje natural.

«Hay buena predisposición por parte de estas empresas, piensa que todo lo que les facilite ganar dinero y que encima sea gratis va a ser bienvenido. Pero para eso nosotros tenemos que conseguir y generar millones de datos para los corpus: textos en todos sus registros, es decir, históricos, literarios, periodísticos, descripciones de productos, médicos..., pero también conversaciones en voz sobre diferentes temas, en diferentes acentos y con personas de diferentes edades, por ejemplo», explica a este periódico Marta Villegas, investigadora del Centro Nacional de Supercomputación de Barcelona (BSC) y líder del proyecto AINA.

A pesar de que a día de hoy estas lenguas no corren el riesgo de verse excluidas, el desafío, explica ella, es la velocidad con la que está evolucionando la tecnología y, en concreto, la inteligencia artificial: «En este momento, por ejemplo, se están desarrollando modelos de reconocimiento de voz multilingües que son una pasada, como Whisper. Hace nada, hace apenas unos meses, parecía impensable tener algo parecido. Va a inundar nuestro día a día», señala.

Durante el último mes, y no dentro de unas décadas, el fenómeno que más ha servido para dar a conocer la IA para el gran público ha sido el ChatGPT, un modelo de lenguaje natural interactivo que alardea de saberlo prácticamente todo y que, sin embargo, «como no encuentra suficientes datos categorizados en catalán en internet a veces contesta con faltas de ortografía o directamente en castellano».

630 millones de palabras en gallego

Para que estas nuevas máquinas sean capaces de expresarse y reconocer material en lenguas cooficiales necesitan de un alimento de datos que, por sí misma, a la iniciativa privada nunca le iba a ser rentable elaborar pese a las oportunidades que abre.

Para las empresas que vienen de fuera de estos territorios, y para las que quieren exportar su actividad fuera de ellos, el idioma puede llegar a ser una pequeña barrera que desincentive la decisión.

Poder ofrecer los servicios y productos a los clientes en la lengua cooficial es un añadido, dicen los expertos, que hasta ahora era más difícil por el coste que conllevaba la traducción. Sin embargo, el lenguaje natural, el cambio entre un idioma y otro de forma automática y correcta o la asistencia de chatbots virtuales en cualquier lengua puede revitalizarlas para que sigan «siendo útiles».

«Hace falta dinero para proyectos como el nuestro y hacen falta datos. Elaborar los corpus desde cero es prácticamente imposible, así que lo que hacemos es acudir a las transcripciones de las sesiones parlamentarias regionales, a las televisiones autonómicas, a los periódicos, a los archivos nacionales... Gran parte de nuestra labor consiste en ir a buscar datos y en pedir permiso para integrarlos aquí», explica a este periódico Germán Rigau, responsable del proyecto GAITU a través del Centro Vasco de Tecnología de la Lengua (HiTZ).

El objetivo, por ejemplo, del equipo que dirige Barro para la conservación del gallego en el mundo digital tiene como objetivo durante los tres próximos años «compilar aproximadamente 30 millones de frases alineadas en gallego-español y gallego-inglés», generar un corpus textual de 630 millones de palabras y elaborar un corpus de voz de alta calidad compuesto por 20.000 frases (alrededor de 30 horas de grabación).

Cada lengua, un desafío

La idea, además, de que se debe aumentar la representación de las lenguas minoritarias en el mundo digital, parte también de la Unión Europea, que considera que los 24 idiomas oficiales dentro de su territorio tienen que tener al menos un nivel de tecnología lingüística similar. Para ello, tiene en marcha un programa llamado Red de Igualdad entre las Lenguas Europeas (ELEN) que pretende promoverlo pese a que reconoce la «dificultad» de equiparar la representación en internet de, por ejemplo, el español y el estonio.

Sin embargo, la UE no considera el gallego, el vasco o el catalán un idioma propio, razón por la que ha tenido que ser el Gobierno de España el que haya destinado una partida específica del Plan de Recuperación para ellos.

«Estas lenguas tienen un soporte tecnológico muy débil. El catalán es el mejor situado porque tiene un proyecto del BSC que está más avanzado y en el que llevan trabajando años. Después estaría el euskera, y, a la cola, el gallego, pero por suerte estamos colaborando entre nosotros para complementarnos en lo que podamos», apunta Barro.

«Las expectativas son realmente buenas porque se trata de proyectos que de verdad van a ser transformadores y que van a permitir desarrollar sistemas de inteligencia artificial para que estas lenguas sean más accesibles, rentables y atractivas para la administración y las empresas», explican a este periódico desde el Gobierno, donde recuerdan que en julio se financió el proyecto LEIA de la RAE para hacer lo mismo con el español.

Por su parte, NÓS, por ejemplo, empezó a trabajar hace aproximadamente un año y medio gracias a la financiación de la Xunta de Galicia, pero es ahora, con los dos millones previstos dentro del PERTE de la Nueva Economía de la Lengua y la red formada con las otras lenguas cooficiales, cuando esperan poder dar un impulso definitivo.

«Todos los proyectos coincidimos en que no se trata de crear un corpus único para nuestra lengua, sino de generar una industria alrededor de las tecnologías lingüísticas, porque si no lo hacemos significará que no hemos hecho bien nuestro trabajo. Necesitamos crear el incentivo para que luego sean las diferentes disciplinas y empresas las que vayan enriqueciendo ese modelo con su lenguaje propio para que sea algo que se mantenga vivo, igual que cualquier lengua», asegura el director del CiTIUS.