VALL-E es una nueva inteligencia artificial que imita la voz humana.
El software solo necesita 3 segundos de grabación para generar una grabación. Microsoft está desarrollando un nuevo programa que será capaz de «escuchar», aprender e imitar voces humanas después de estar expuesto a muestras de voz durante unos segundos.
Esta inteligencia artificial, conocida como VALL-E, se basa en una herramienta digital que genera voz a partir de texto analizándolo y convirtiéndolo en «voz digitalizada». Las grabaciones humanas necesarias para generar la nueva voz solo sirven como guía para que el software genere palabras completamente diferentes, tratando de imitar no solo el sonido de la voz humana, sino también diferentes acentos, entonaciones, expresiones humorísticas y más. Variantes probadas en las primeras etapas del desarrollo de esta inteligencia artificial.
«Las capacidades de aprendizaje contextual de VALL-E se pueden usar para sintetizar voz personalizada de alta calidad simplemente grabando una grabación de 3 segundos de un hablante invisible como una señal de audio», dijo Microsoft. El entorno acústico también es una variable útil en los resultados de Microsoft AI, ya que puede imitar las voces grabadas en una llamada telefónica, lo que permite sonidos personalizados que se asemejan más a diferentes entornos físicos. fue documentado originalmente.
A veces, esta voz generada por IA puede tener sonidos poco realistas, como una pronunciación lenta o incorrecta. Este es un artefacto del proceso de síntesis de voz, por lo que los mensajes generados por computadora pueden ser reconocidos, al menos en la primera versión beta.
Por otro lado, la empresa también reconoce que puede haber obligaciones éticas involucradas en el uso más amplio de la tecnología. Microsoft, cada experimento realizado como parte de este trabajo se realizó con el consentimiento de los oradores que prestaron sus voces a la inteligencia artificial para imitar. Además, se señaló que es importante que las personas acepten ejecutar el software capturando sus voces. Esto destaca los problemas éticos que surgen al usar esta herramienta virtual, ya que los usuarios pueden solicitar imitar la voz de una celebridad para distribuir un discurso ilusorio que puede usarse en una variedad de contextos, incluso donde no es legal o legítimo. . Esto puede ser un inconveniente para los propietarios de audio involucrados en el proceso.
Esta no será la única aplicación que desarrollará la empresa de tecnología para integrarla en su servicio. Ya en octubre de 2022 se anunció el proceso de integración del software DALL-E al motor de búsqueda Bing para que los usuarios pudieran generar sus propios resultados de búsqueda de imágenes sin utilizar otros servicios.
Microsoft Image Creator funcionará como otros programas que convierten descripciones de texto en imágenes con diferentes estilos. La herramienta aún no está disponible en todo el mundo, pero ya está disponible en versión beta o vista previa en algunos mercados, dijo la compañía.