OpenAI ahora es capaz de clonar voces humanas en segundos

Con el lanzamiento de su más reciente herramienta, denominada Voice Engine, OpenAI demuestra que clonar la voz humana con un realismo impresionante ahora es posible utilizando una muestra de audio de apenas 15 segundos.

Esta innovación, según palabras de la propia firma, permite generar habla natural que imita de manera muy precisa la voz del hablante original. “Es sorprendente que, con un modelo pequeño y una sola muestra de audio de 15 segundos, seamos capaces de crear voces que no solo suenan realistas, sino también cargadas de emoción”, señaló OpenAI en un comunicado reciente.

El funcionamiento de Voice Engine es simple pero poderoso. Los usuarios solo necesitan proporcionar una muestra de audio breve. A partir de ahí, la herramienta puede leer cualquier texto proporcionado con el tono y timbre de la voz original. Y lo que es aún más fascinante, el texto a convertir en audio no necesita estar en el mismo idioma que la muestra de voz original, abriendo un abanico de posibilidades para la traducción y la creación de contenido multilingüe.

Además de la generación de voz, Voice Engine posee una capacidad notable para mantener el acento nativo del hablante al realizar traducciones. Por ejemplo, si se proporciona una muestra de un hablante nativo de francés, el sistema es capaz de generar habla en inglés con un acento francés auténtico.

Sin embargo, conscientes de las implicaciones éticas y de privacidad que conlleva una herramienta con tal poder de replicación de la voz humana, OpenAI ha decidido, por el momento, limitar el acceso a Voice Engine, optando por realizar pruebas a pequeña escala. Esta decisión responde a la preocupación legítima sobre los riesgos de suplantación de identidad que herramientas de este tipo podrían facilitar.