“La culminación de AINA asegurará que nunca más ninguna empresa grande o pequeña pueda tener una excusa para no incorporar el catalán en sus servicios textuales, visuales o de audio”, ha asegurado el director asociado del BSC, Josep M. Martorell
El objetivo de AINA es garantizar el futuro de la lengua catalana en el mundo digital al mismo nivel que otras lenguas de alcance global.
El Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC-CNS) recibirá una inversión de 12 millones de euros durante los próximos cuatro años para seguir desarrollando el proyecto AINA. La Generalitat de Catalunya ha anunciado este lunes una inyección anual de 3 millones hasta el año 2026 para garantizar la continuidad y la culminación de una iniciativa cuyo objetivo es asegurar el futuro de la lengua catalana en el mundo digital al mismo nivel que otras lenguas de alcance global.
El anuncio lo han hecho el consejero de Empresa y Trabajo, Roger Torrent i Ramió, y el director asociado del BSC, Josep Maria Martorell, después de mantener una reunión de trabajo en la que también han participado la secretaria de Políticas Digitales, Gina Tost i Faus; el secretario de Política Lingüística, Francesc Xavier Vila Moreno; el director del BSC, Mateo Valero; y la responsable del proyecto AINA y colíder de la Unidad de Minería de Textos del BSC, Marta Villegas.
“Disponer de una financiación plurianual hasta el año 2026 es una noticia excepcional que nos permite dar continuidad al equipo que trabaja en el proyecto AINA y seguir invirtiendo en desarrollar nueva tecnología. La culminación de AINA garantizará que nunca más ninguna empresa grande o pequeña pueda tener una excusa para no incorporar el catalán en sus servicios textuales, visuales o de audio”, ha asegurado el director asociado del BSC, Josep M. Martorell, después de la reunión.
AINA es un proyecto liderado por el BSC que se basa en tecnologías de datos e inteligencia artificial (AI) con el objetivo último de conseguir que la tecnología entienda y hable catalán, de modo que la ciudadanía pueda participar plenamente en el mundo digital en catalán.
Para alcanzar este objetivo, el proyecto AINA está desarrollando la infraestructura necesaria para que la inclusión del catalán en las aplicaciones de IA sea lo suficientemente atractiva y viable, tanto para las grandes compañías tecnológicas como para la industria local, de forma que cualquier empresa u organización pueda utilizar los recursos generados por AINA, como los corpus (conjuntos masivos de datos) y los modelos de la lengua catalana, para desarrollar soluciones o servicios específicos (traductores, asistentes personales, sintetizadores de voz, clasificadores de textos, etc.) en catalán.
A día de hoy, el proyecto AINA ha creado ya el mayor “corpus de texto” que se ha hecho nunca de la lengua catalana. Este corpus se ha obtenido y sigue creciendo a base de descargar textos de diferentes fuentes digitales en catalán (páginas web, archivos, etc.) y procesarlos para poder ser utilizados como datos de entrenamiento por las redes neuronales que utilizan los modelos de la lengua.
AINA ha empezado a construir también un gran corpus de voz del catalán, que se nutre principalmente de los datos obtenidos a través de la iniciativa "La nostra llengua és la teva veu (Nuestra lengua es tu voz)", consistente en un llamamiento a la participación altruista de la ciudadanía de habla catalana para que dé su voz y valide la aportada por otras personas a través de la plataforma Common Voice de Mozilla.
Entre los primeros prototipos desarrollados durante 2022, destacan las nuevas voces sintéticas entrenadas por AINA mediante su uso en un asistente virtual de la empresa Bookline; una herramienta de transcripción automática (oTranscribe+) que permite y facilita la edición garantizando la privacidad de los datos; y un chatbot de voz que responde a preguntas sobre el proyecto AINA y que puede servir de base para crear otras experiencias conversacionales en catalán.
Este 2023, se seguirá trabajando en estas líneas para ampliar los corpus de texto y voz y los modelos de lengua entrenados a partir de estos corpus. Al final del proyecto AINA, en 2026, se dispondrá de todas las piezas necesarias para que cualquier empresa u organización pueda combinarlos para crear sus soluciones o servicios garantizando que éstos entiendan y hablen correctamente el catalán en cualquiera de sus variantes.