Google DeepMind ha demostrado cómo los robots pueden navegar en entornos complejos usando solo un video de un recorrido grabado con un smartphone. Esta innovadora tecnología se basa en las capacidades de entrada multimodal y la ventana de contexto grande del Gemini 1.5 Pro.
Navegación en entornos complejos
Los investigadores utilizaron la habilidad del Gemini 1.5 Pro para procesar hasta un millón de tokens multimodales y permitir que los robots naveguen por espacios desconocidos con instrucciones humanas, guías de video y razonamiento del modelo. En un experimento, los científicos guiaron a los robots por áreas específicas, mostrándoles lugares importantes como “el escritorio de Lewi” o “el área de escritorios temporales”.
Después, los robots fueron capaces de encontrar su camino de regreso a estos lugares por sí mismos. Esta tecnología funciona incluso para objetos pequeños; por ejemplo, un usuario podría mostrarle al robot un video de su casa y luego preguntar, “¿Dónde dejé mi posavasos?”. El robot navegaría hasta el lugar correcto.
Capacidades del modelo de lenguaje integrado
Gracias al modelo de lenguaje integrado, el robot también puede hacer abstracciones. Si un usuario pide un lugar para dibujar, el robot puede asociarlo con una pizarra y llevar al usuario allí. Según la fuente, Google DeepMind sugiere que en el futuro, un robot podría inferir las preferencias del usuario a partir de la información audiovisual y actuar en consecuencia.
Por ejemplo, si un usuario tiene muchas latas de una marca particular de refresco en su escritorio, el robot podría preferentemente llevarle esa bebida desde el refrigerador. Estas capacidades podrían mejorar enormemente la interacción humano-robot.
Arquitectura del sistema y pruebas adicionales
La arquitectura del sistema procesa la entrada multimodal para crear un gráfico topológico, una representación simplificada de la sala. Este gráfico se construye a partir de imágenes individuales de los recorridos en video y captura la conectividad general del entorno, permitiendo al robot navegar sin un mapa detallado.
En pruebas adicionales, los robots recibieron instrucciones multimodales adicionales, como esquemas de mapas en una pizarra, indicaciones de audio relacionadas con ubicaciones en el recorrido y señales visuales como una caja de juguetes. Con estas entradas, los robots pudieron realizar diferentes tareas para diferentes personas.
Resultados y limitaciones
En 57 pruebas en un entorno de oficina real de 836 metros cuadrados, Mobility VLA alcanzó tasas de éxito de hasta un 90% en la realización de varias tareas de navegación multimodal. Para instrucciones complejas que requerían razonamiento, logró una tasa de éxito del 86%, en comparación con el 60% de un sistema basado en texto y el 33% de un enfoque basado en CLIP.
A pesar de los resultados prometedores, los investigadores señalan algunas limitaciones. Por ejemplo, el sistema tarda entre 10 y 30 segundos en procesar un comando, lo que resulta en retrasos en la interacción. Además, no puede explorar el entorno por sí mismo, dependiendo del video de demostración proporcionado.
Planes futuros
Google DeepMind planea extender Mobility VLA a otras plataformas de robots y ampliar las capacidades del sistema más allá de la navegación. Pruebas preliminares indican que el sistema también podría realizar tareas más complejas, como inspeccionar objetos y reportar los resultados. Con estos avances, el futuro de la interacción humano-robot parece prometedor y lleno de posibilidades.
Fuente: https://www.theverge.com/2024/7/11/24196402/google-deepmind-gemini-1-5-pro-robot-navigation