Aina impulsa la primera solució de veu que incorpora les diferents variants del català

23 Abril 2024
El nou model Matxa ja està disponible per ser testejat i executat a la plataforma d’IA de codi obert Hugging Face

El projecte Aina d’intel·ligència artificial i tecnologies del llenguatge celebra Sant Jordi publicant el primer model de síntesi de veu en les principals variants dialectals del català, que porta el nom de Matxa. Es tracta de la primera solució tecnològica publicada com a model lingüístic en obert que ofereix interpretació de text a veu (Text To Speech/TTS) en català central, nord-occidental, balear i valencià. El projecte Aina està impulsat i finançat per la Generalitat de Catalunya.

Tots els usuaris poden accedir al model disponible a Hugging Face, la comunitat d’IA amb recursos d’open source o codi obert, des d’on pot ser testejat i executat. La tecnologia desenvolupada per la Unitat de Tecnologies del Llenguatge del Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC-CNS) s’entrena amb diferents datasets o conjunts de dades, entre els quals es troba el Festcat, l’OpenSLR69 o el recentment creat Frescat que inclou enregistraments en quatre variants dialectals i 8 parlants diferents.

Matxa suposa un pas endavant en termes de rendiment, ja que manté la naturalitat i les característiques de les veus escollides per a entrenar-lo. Per a la seva composició, es basa en la combinació de les arquitectures Matcha-TTS i Vocos que destaquen per la seva novetat i temps d’execució molt baixos a través de xarxes neuronals. El sistema de dialectes ha estat configurat i entrenat a través del nou superordinador MareNostrum 5 i FinisTerrae III del Centro de Supercomputación de Galicia (CESGA).

A través de la demo pública, es pot fer un primer testatge del funcionament de Matxa:

 

El nou conjunt de dades Frescat és un desenvolupament pioner en l’àmbit dels recursos digitals en català, ja que incorpora fins a 8 parlants amb diferents característiques. En total, dues veus per cada un dels principals dialectes. El dataset es farà públic a les pròximes setmanes i estarà disponible per a la seva descàrrega i ús per part de tots els usuaris. Per l’investigador del BSC, especialitzat en veu, Baybars Külebi, es tracta “d’un recurs innovador que posa a disposició de tothom recursos digitals que tenen en consideració la pluralitat del català”.

El desenvolupament de les tecnologies de síntesi de veu obre la porta a un gran volum de possibles aplicacions. De fet, el Projecte Aina, a través del BSC, ja treballa amb empreses i institucions per oferir solucions específiques de la mà de les eines d’intel·ligència artificial desenvolupades al centre.