VideoPoet,¿qué es la última creación de Google?

VideoPoet,¿qué es la última creación de Google? 2

¡Atención, amantes de la tecnología! Google Research acaba de presentar VideoPoet, un modelo de inteligencia artificial (IA) que genera videos impresionantes a partir de varios inputs. Este modelo no es cualquier cosa: se basa en un modelo de lenguaje grande (LLM), típicamente usado para generar texto y código, pero entrenado para producir videos usando una enorme base de datos de 270 millones de videos y más de 1 mil millones de pares texto-imagen.

¿Cómo funciona VideoPoet?

VideoPoet se basa en la arquitectura transformer, un diseño de red neuronal que facilita un aprendizaje eficiente y flexible de datos secuenciales. Convierte los datos de entrada en incrustaciones de texto, tokens visuales y tokens de audio, y los usa como «condiciones» para generar el video de salida. Por ejemplo, si el input es una descripción textual, creará un video que coincida con esa descripción.

Según la fuente, esto lo diferencia de la mayoría de los modelos de generación de videos actuales, que utilizan métodos basados en difusión. Estos modelos empiezan con un modelo de imagen preentrenado que produce imágenes de alta fidelidad para cuadros individuales y luego ajustan el modelo para mejorar la consistencia temporal entre cuadros de video. Sin embargo, los modelos basados en difusión a menudo tienen problemas para producir movimientos grandes coherentes y tienden a generar artefactos o fallos cuando el movimiento es demasiado grande o complejo.

VideoPoet,¿qué es la última creación de Google? 3

¿Por qué VideoPoet es mejor?

Por otro lado, VideoPoet puede generar movimientos más grandes y consistentes en videos más largos de 16 cuadros, sin comprometer la calidad o el realismo del video. También puede simular diferentes movimientos de cámara, estilos visuales y estéticos, e incluso generar audio nuevo para que coincida con el video. Además, puede manejar una variedad de inputs, incluyendo texto, imágenes y videos, y usarlos como prompts para generar nuevos videos.

Es una solución integral para la creación de videos, ya que integra todas estas capacidades de generación de videos dentro de un solo LLM. Esto elimina la necesidad de múltiples componentes especializados, ofreciendo una experiencia versátil y sin fisuras para los usuarios.

Comparación con otros modelos

El equipo de Google Research ha demostrado los impresionantes resultados de VideoPoet en su paper de pre-revisión y en su blog. También han comparado VideoPoet con otros modelos de generación de videos, como Source-1, VideoCrafter y Phenaki, que utilizan métodos basados en difusión. Mostraron clips de video generados por VideoPoet y los modelos competidores a evaluadores humanos, quienes prefirieron VideoPoet en la mayoría de los casos.

Según el blog de Google Research: «En promedio, las personas seleccionaron entre el 24-35% de los ejemplos de VideoPoet como mejores en seguimiento de los prompts en comparación con un 8-11% para los modelos competidores. Los evaluadores también prefirieron entre el 41-54% de los ejemplos de VideoPoet por su movimiento más interesante en comparación con el 11-21% para otros».

Orientación y disponibilidad de VideoPoet

VideoPoet está diseñado para producir videos en orientación vertical por defecto, atendiendo al mercado de videos móviles popularizado por Snap y TikTok. Sin embargo, el equipo de Google Research tiene planes de expandir las capacidades de VideoPoet para soportar tareas de generación «de cualquier a cualquier», como texto-a-audio y audio-a-video, ampliando así los límites de lo posible en la generación de video y audio.

La única desventaja es que actualmente no está disponible para uso público. El equipo de Google Research no ha anunciado cuándo se lanzará ni cómo se integrará con los productos y servicios de Google. Hasta entonces, tendremos que esperar ansiosamente su llegada para ver cómo se compara con otras herramientas en el mercado.

Fuente:https://hyscaler.com/insights/videopoet-googles-new-ai-for-video-generation/


También podría ser de tu interés:

Deja un comentario