Un nuevo modelo de inteligencia artificial desarrollado por la empresa permite crear y transformar cualquier combinación de música, voces y sonidos, ya sea con indicaciones de texto, archivos de audio, o ambos.
La innovación en inteligencia artificial sigue empujando los límites de la creatividad humana, y Fugatto, el último modelo de NVIDIA, se presenta como un verdadero “cuchillo suizo” del audio. Esta herramienta generativa permite a los usuarios crear y transformar cualquier combinación de música, voces y sonidos, ya sea con indicaciones de texto, archivos de audio, o ambos.
Mientras que otros modelos de IA se especializan en tareas puntuales, como componer música o alterar voces, Fugatto destaca por su flexibilidad. Es capaz de generar sonidos completamente nuevos, cambiar emociones o acentos en grabaciones, agregar o eliminar instrumentos de una canción e incluso crear escenarios sonoros únicos, como una tormenta que se disuelve gradualmente en el canto de los pájaros al amanecer.
Ido Zmishlany, productor multi-platino y cofundador de One Take Audio, no oculta su entusiasmo: “La idea de crear sonidos completamente nuevos en el estudio, en tiempo real, es increíble. Estamos escribiendo el próximo capítulo de la historia de la música con esta herramienta”.
Fugatto no solo apunta al ámbito artístico. Sus capacidades tienen un amplio rango de aplicaciones en diferentes sectores:
Producción musical: Los artistas pueden prototipar canciones, experimentar con estilos y mejorar la calidad de sus pistas con solo unos clics.
Publicidad: Las agencias pueden adaptar campañas globales modificando acentos o emociones en locuciones para ajustarse a diferentes mercados.
Aprendizaje de idiomas: Herramientas educativas pueden personalizarse con la voz de un familiar o amigo, haciendo la experiencia más inmersiva.
Videojuegos: Los desarrolladores pueden generar efectos de sonido dinámicos en tiempo real, adaptando los paisajes sonoros al progreso del jugador.
El modelo utiliza técnicas avanzadas, como ComposableART, que combina atributos independientes en resultados complejos. Por ejemplo, puede generar una voz con un acento francés y un tono melancólico, ajustando el nivel de ambas características según lo desee el usuario.
Además, su capacidad para crear sonidos que evolucionan en el tiempo —como un trueno que se desvanece en la distancia— redefine cómo los creativos pueden construir narrativas sonoras.
Rafael Valle, líder del equipo detrás de Fugatto y compositor orquestal, destaca: “Queríamos que el modelo entendiera y generara sonido como lo hacen los humanos, fusionando aprendizaje no supervisado con síntesis y transformación de audio”.
Este avance no sería posible sin una infraestructura masiva. Fugatto, con sus 2.500 millones de parámetros, fue entrenado en sistemas NVIDIA DGX que incluyen 32 GPUs H100 Tensor Core, utilizando millones de muestras de audio en diversos idiomas y acentos.
El proceso de desarrollo, que tomó más de un año, incluyó la creación de datasets híbridos que ampliaron el rango de tareas que el modelo puede realizar. Según Valle, los momentos decisivos llegaron cuando Fugatto generó su primera pieza musical y, más tarde, cuando sincronizó ladridos de perros con música electrónica, provocando carcajadas entre los desarrolladores.
Comments