Google DeepMind ha revelado una nueva herramienta de IA que promete revolucionar la creación de bandas sonoras para videos. Esta herramienta utiliza píxeles de video y prompts de texto para generar automáticamente el audio que mejor se ajusta a cada escena. ¡Suena increíble, ¿verdad?!
¿Cómo funciona esta nueva herramienta?
Según la fuente, la herramienta de DeepMind no solo genera audio a partir de un texto, sino que también toma en cuenta el contenido del video. Esto significa que puedes crear escenas con música dramática, efectos de sonido realistas o diálogos que coincidan perfectamente con los personajes y el tono del video.
Por ejemplo, para un video de un coche conduciendo por una ciudad de estilo cyberpunk, Google utilizó el prompt “coches derrapando, motor de coche acelerando, música electrónica angelical” para generar el audio. Los sonidos de los derrapes se sincronizan perfectamente con el movimiento del coche.
Ejemplos impresionantes y flexibilidad en los prompts
Otro ejemplo que destaca DeepMind es la creación de un paisaje sonoro submarino con el prompt “medusas pulsando bajo el agua, vida marina, océano”. Aunque los usuarios pueden incluir un prompt de texto, DeepMind asegura que es opcional.
No necesitas sincronizar meticulosamente el audio generado con las escenas adecuadas. La herramienta puede generar un número ilimitado de bandas sonoras para videos, permitiendo a los usuarios crear un flujo interminable de opciones de audio.
Diferenciándose de otras herramientas de IA
Esta capacidad podría ayudar a la herramienta de DeepMind a destacarse de otros generadores de efectos de sonido, como el de ElevenLabs, que utiliza prompts de texto para generar audio. También podría facilitar la combinación de audio con videos generados por IA de herramientas como Veo y Sora de DeepMind.
DeepMind ha entrenado su herramienta de IA con videos, audios y anotaciones que contienen descripciones detalladas de sonidos y transcripciones de diálogos. Esto permite que el generador de video a audio empareje eventos de audio con escenas visuales de manera precisa.
Limitaciones actuales y futuro de la herramienta
La herramienta aún tiene algunas limitaciones. Por ejemplo, DeepMind está trabajando para mejorar su capacidad de sincronizar el movimiento de los labios con los diálogos. En un video de una familia de plastilina, se puede ver que todavía hay margen de mejora.
Además, la calidad del video es un factor crucial. Videos granulados o distorsionados pueden llevar a una caída notable en la calidad del audio generado.
Disponibilidad y medidas de seguridad
La herramienta de DeepMind aún no está disponible para el público en general, ya que debe pasar por rigurosas evaluaciones de seguridad y pruebas. Cuando esté disponible, el audio generado incluirá la marca de agua SynthID de Google para indicar que fue creado por IA.
En resumen, la nueva herramienta de Google DeepMind para generar bandas sonoras de videos tiene un potencial enorme para facilitar la creación de contenido audiovisual de alta calidad. Aunque aún enfrenta algunos desafíos, las posibilidades que ofrece son impresionantes y estamos ansiosos por ver cómo evoluciona.
Fuente: https://www.theverge.com/2024/6/18/24180854/google-deepmind-ai-video-pixels-text-prompts-generate-video-soundtracks