Warning: Undefined array key "margin_tablet" in /var/www/avantgardeit.es/wp-content/plugins/elementor/core/files/css/base.php on line 778
Warning: Undefined array key "margin_mobile" in /var/www/avantgardeit.es/wp-content/plugins/elementor/core/files/css/base.php on line 778
Warning: Undefined array key "padding_tablet" in /var/www/avantgardeit.es/wp-content/plugins/elementor/core/files/css/base.php on line 778
Warning: Undefined array key "padding_mobile" in /var/www/avantgardeit.es/wp-content/plugins/elementor/core/files/css/base.php on line 778
Voces sintéticas
Que la Inteligencia Artificial (IA) ha revolucionado la forma en que interactuamos con la tecnología en nuestro día a día no es nada nuevo. Dentro de la larga lista de aplicaciones que la IA puede tener, una de las que más ha ido perfeccionándose durante el último año tiene que ver con la generación de voces sintéticas, también conocidas como “texto a voz” (en inglés “text-to-speech o TTS) o “síntesis de la voz”, tanto que actualmente la aplicación de tecnología de voces sintéticas puede conseguir que sea difícil distinguir entre una voz sintética y una humana.
Esto se debe en parte a la mejora de los algoritmos de aprendizaje automático y a la mayor cantidad de datos disponibles para entrenar a los modelos. Además, algunas empresas ya están utilizando técnicas como el deep learning y el modelado de secuencias para mejorar aún más la calidad de las voces sintéticas.
Estas voces generadas a partir de Inteligencia Artificial utilizan algoritmos de aprendizaje automático para imitar el habla humana que después pueden utilizarse como asistentes virtuales, lectores de pantalla y sistemas de información telefónica.
Pero… ¿cómo generar una voz que no existe a través de la tecnología?
Entendiendo el funcionamiento de las voces sintéticas
La generación de voces sintéticas está basada en el concepto de las redes neuronales, que son algoritmos que simulan el funcionamiento de las neuronas cerebrales humanas y establecen conexiones por similitud de experiencias anteriores.
Es decir, el algoritmo pasa un valor de entrada por distintas capas y en función de una serie de valores umbrales, se elige a qué “neurona” debe ir. Dicha neurona aplica un factor de corrección y la dirige a la siguiente, haciendo este proceso iterativo por todos los niveles de la capa o capas de la red.
Existen muchos tipos de redes neuronales, pero las más habituales en la generación de voces y audio son las recursivas, que por su recursividad, aprenden. Sin embargo, ya existen estudios muy interesantes que buscan la eficiencia en el coste computacional combinándolas con redes convolucionales (como este de la BBC publicado en el año 2022).
Una vez entendido el concepto de red neuronal, el sistema para generar una voz es bastante estándar y consigue transformar texto al dominio de la frecuencia, generando lo que se conoce como espectrograma de MEL.
El sistema más avanzado que realiza este proceso es Tacotron 2 de Google, basado en un modelo o Corpus con el que alimentar a la IA para que genere nuestra red. Este modelo es la base de experiencias anteriores con las que la red es capaz de generar nuevas salidas (en nuestro caso espectrogramas). Posteriormente, el espectrograma se pasa por un sistema de codificación de voz (Vocoder), el cual también se alimenta con un modelo de datos, y con el que seremos capaces de generar nuestro audio.
La amplitud y calidad del modelo determinará la calidad de los audios generados, ya que, aunque se puedan realizar procesos de postproducción al audio, es un proceso muy laborioso puesto que hay que definir frases fonéticamente balanceadas y que cubran todo el espectro auditivo de un idioma.
Y es este, sin ninguna duda, uno de los mayores problemas en las IA asociadas al audio y que les hace ir un paso por detrás del resto de IAs generativas. El modelo depende del idioma y no se puede reutilizar, ya que los fonemas y sonidos no son iguales en español que en inglés o alemán y es importante trabajar en un corpus por cada idioma.
¿Qué oportunidades tienen las voces sintéticas?
La posibilidad de generar voces sintéticas no ha dejado indiferente a nadie y ya es una realidad que está al alcance de cualquiera. De hecho, es posible que estemos hablando del futuro del audio online en muchos ámbitos.
Un ejemplo de ello es la plataforma online Auris.audio, que además de ofrecer una herramienta que permite generar audios a partir de voces sintéticas, también da la posibilidad de elegir género, nacionalidad y acento de dichas voces.
Auris.audio permite transformar cualquier texto a audio empleando voces en español tanto de España como de todos los países de LATAM, pasando por voces de altísima calidad en alemán, inglés británico, inglés estadounidense y francés.
Esta herramienta permite incluir, además de varias voces, música al audio generado, crear un reproductor que se puede insertar en cualquier web con un sencillo código que también puede personalizarse con colores y recopilar estadísticas y datos de escucha.
De esta forma, Auris.audio pone la generación de voces sintéticas al alcance de todo tipo de empresas y creadores de contenido ofreciendo la posibilidad de añadir voz a sus contenidos, como vídeos o Stories, y, por supuesto, transformar cualquier texto (newsletters, boletines diarios, noticias, artículos de un medio o de un blog, etc.) a audio en cuestión de segundos.