II FÓRUM EUROPEO

El Cenid usa la inteligencia artificial para recopilar las variantes del valenciano

Los diferentes acentos se albergan en una plataforma web para impulsar el uso y la difusión de la lengua en el ámbito digital

El director del Cenid, Manuel Palomar, en una imagen de archivo.

El director del Cenid, Manuel Palomar, en una imagen de archivo. / PILAR CORTÉS

J. A. Martínez

"La inteligencia artificial puede hacer muchas cosas, però encara no t'entén si li parles en valencià". Con esta frase arranca la campaña NEL- VIVES, una iniciativa desarrollada por CENID, el Centro de Inteligencia digital de la Universidad de Alicante, con la que busca entrenar a la IA a través de la recogida de las diferentes voces de la Comunidad Valenciana para impulsar la difusión del valenciano en el ámbito digital. Un ambicioso proyecto para el que se ha dedicado un gran tiempo y esfuerzo y que ahora empieza a dar sus primeros pasos.

Para llevar a cabo la recogida de voces, se ha desarrollado una plataforma alojada en la página web de VIVES encargada de registrar de forma totalmente segura las diferentes voces de las variantes dialectales. Todo ello con el objetivo de acumular un corpus de datos lingüísticos que posteriormente permita a los investigadores entrenar a diversos sistemas de IA para entender y hablar el valenciano. Todas las variantes y acentos alojados dentro de una misma plataforma web. En esta página se da la opción a los voluntarios a que dejen su voz para contar con el mayor número de muestras posibles para esta gran recopilación de datos.

“Este proyecto va dirigido a un público intergeneracional. Queremos que esta iniciativa sea capaz de captar voces de todas las edades hablando tantas variantes como sea posible: Tortosí, Septentrional, Central, Meridional y Alacantí. De este modo, todos contribuimos a preservar el valenciano en la era digital”, asegura Manuel Palomar, director de CENID. 

Sobre NEL-VIVES

Esta campaña forma parte del proyecto ‘NEL’ (Nueva Economía de la Lengua), una iniciativa coordinada entre las diferentes lenguas del estado, coordinado entre cuatro proyectos propios con metodologías, objetivos y técnicas compartidas. Todos los recursos que va generando el proyecto, incluyendo los modelos y prototipos, son generalmente accesibles para investigadores y empresas, de modo que puedan utilizarlos y aplicarlos contribuyendo a un avance cualitativo en las empresas del sector en mercados nacionales e internacionales. 

Imagen de uno de los carteles promocionales de esta campaña del Cenid.

Imagen de uno de los carteles promocionales de esta campaña del Cenid. / INFORMACIÓN

“NEL busca desarrollar las infraestructuras necesarias para que la inclusión de las lenguas ibéricas en las aplicaciones de la IA sea atractiva y viable, tanto para las grandes compañías tecnológicas como para la industria nacional.”, concluye Manuel Palomar. “Queremos animar a todo aquel que quiera participar donando su voz para que juntos hagamos historia”.

Los distintos carteles promocionales muestran distintas imágenes diseñadas por inteligencia artificial. Una mujer, un edificio, unas zapatillas deportivas, destacando lo que esta herramienta es capaz de hacer. Añadiendo que aún la máquina no entiende, cuando le hablan en valenciano. Éste es precisamente el objetivo de la iniciativa, que el valenciano no sea un extraño para la inteligencia artificial y lo conozca a fondo.

Los objetivos principales del proyecto VIVES son: la creación de corpus masivos (en formado texto y voz) del valenciano; impulsar campañas de adquisición de datos de voz y textos a partir de la participación ciudadana y de los recursos existentes en la administración pública, Las Cortes Valencianas, y la radio y televisión valenciana (A punt); El estudio de las implicaciones de privacidad para las personas y garantía de preservación de la privacidad de estas en la captura y análisis de los datos; generar modelos del lenguaje para cada una de las variedades del valenciano, y establecer correlación y comparación entre ellos; generar modelos del lenguaje especializados en un ámbito concreto (turismo y audiovisual) o en una tarea concreta (por ejemplo, resúmenes y simplificación de textos); definir estrategias de calidad de los datos; estudiar la interacción entre los sistemas que utilizan los modelos del lenguaje y sus usuarios, con un foco especial en las consideraciones éticas de esta interacción; fomentar la inclusión digital en la administración pública, y proporcionar herramientas digitales para personas con discapacidad y diversidad cognitiva, para conseguir lenguas accesibles.