1. Sobre o proxecto

1.1 O Proxecto Nós

O proxecto Nós nace co obxectivo de colocar a lingua galega na vangarda das Tecnoloxías Lingüísticas. Con esta finalidade, dende o proxecto desenvolveranse corpus, modelos e recursos tecnolóxicos de alta calidade para o procesamento automático do galego, tanto oral como escrito. Os recursos desenvolvidos no proxecto Nós serán de libre acceso a terceiros, o que permitirá e facilitará o desenvolvemento de produtos e servizos en lingua galega por empresas, institucións e organizacións, tanto públicas como privadas.

O proxecto Nós pretende ser un tractor económico e de impacto, posto que entre as súas finalidades está contribuír á creación dun ecosistema empresarial e de investigación centrado na xeración de recursos para o galego. Á vez, as potencialidades do seu impacto social son profundas, dado que se pretende proporcionar ás galegas e aos galegos a posibilidade de vivir a súa vida no ámbito dixital na súa lingua e contribuír así tamén á normalización lingüística.

1.2 Que é Nós-TTS?

Nós-TTS é un demostrador de síntese de voz (TTS ou "Text-To-Speech") en galego baseado en redes neuronais artificiais. Por agora, este sistema permite a elección entre dous modelos de voz feminina de distintas características:

Celtia. Modelo obtido a partir dun corpus de 20.000 frases gravadas por unha actriz de dobraxe profesional.
Sabela. Modelo obtido a partir dun corpus de 10.000 frases gravadas por unha locutora de radio profesional.
Icía. Modelo obtido a partir dun corpus de 3.000 frases gravadas por unha locutora amateur.

O sistema atópase en fase de mellora continua, polo que seguimos traballando no perfeccionamento da calidade dos modelos, así como na ampliación do catálogo de voces.

1.2 Como funciona o sistema?

Ao longo dos anos houbo moitos enfoques diferentes para a tarefa de síntese de voz, sendo os máis destacados a síntese concatenativa por selección de unidades e a síntese estatística paramétrica. En termos xerais, o primeiro enfoque consiste en seleccionar e concatenar unidades dunha voz pregravada e almacenada nunha base de datos. Pola contra, o enfoque estatístico implica adestrar un modelo a partir dos datos.

Durante os últimos anos, seguindo o éxito alcanzado noutras áreas, os enfoques TTS baseados en redes neuronais profundas xurdiron como unha potente alternativa á síntese tradicional. Os modelos baseados en redes neuronais demostraron ser quen de xerar voces cunha gran calidade e naturalidade. Emporiso, estes sistemas precisan dunha gran cantidade de datos para seren adestrados. No caso de linguas con poucos recursos, como o galego, obter este tipo de datos é sumamente custoso, xa que require que locutores profesionais graven corpus específicos moi longos nun ambiente controlado.

Nós-TTS utiliza arquitecturas avanzadas de aprendizaxe profunda baseadas en redes neuronais. Polo momento, integra tres modelos de voz (Celtia, Sabela e Icía) adestrados a partir dun corpus de 20.000, 10.000 e 3.000 frases, respectivamente. O modelo Celtia foi adestrado a partir de grafemas. Pola súa banda, os modelos de Sabela e Icía foron adestrados a partir de transcricións fonéticas. Todo estes modelos inclúen un módulo de preprocesamento baseado no front-end de Cotovía.

Os corpus empregados para o adestramento dos modelos e os modelos integrados en Nós-TTS pódense atopar na sección de Descargas. Os detalles técnicos dos corpus pódense consultar en Zenodo (Nos_Celtia-GL), mentres que as fichas técnicas dos modelos están publicadas en HuggingFace (modelo Celtia, modelo Sabela).

1.3 Cal é a calidade do sistema?

Tradicionalmente, para avaliar a calidade dun sistema de síntese de voz, empréganse tests de escoita perceptiva realizados por humanos. Normalmente, nestes test úsanse medidas subxectivas como MOS (Mean Opinion Score) para valorar características da voz como a calidade xeral, a naturalidade ou a similitude coa voz natural orixinal.

Este tipo de valoracións subxectivas son o gold standard para a tarefa de síntese, pero son custosas, lentas e requiren un gran esforzo para preparar as probas e conseguir xuíces. Por este motivo, os modelos adoitan avaliarse inicialmente a través de probas de escoita informais, reservando as probas formais, a maior escala, para os modelos finais.

Xa que os modelos de Nós-TTS se atopan nunha fase experimental, polo momento, os distintos sistemas avaliáronse a través de probas informais. Nunha segunda fase, os modelos que acaden os mellores resultados nestas probas informais, avaliaranse a través de tests de escoita formais cun número de xuíces estatisticamente relevante.

1.4 Como podes axudarnos a mellorar o sistema?

No caso de que desexes colaborar na mellora dos modelos que estamos a desenvolver, só tes que solicitar ser incluído na nosa comunidade e poñerte en contacto co equipo de voz. Es sempre benvido/a!