
Google ha lanzado una nueva funcionalidad que está revolucionando el desarrollo de agentes inteligentes, y según la fuente oficial, el nuevo modelo Gemini 2.5 Computer Use promete cambiar la manera en la que las IA interactúan con interfaces gráficas y sistemas digitales. Este avance, anunciado por Google DeepMind, abre la puerta a una inteligencia artificial capaz de controlar navegadores web y aplicaciones móviles con agilidad y precisión.
Gemini 2.5 Computer Use lleva la IA a un nuevo nivel
Según informes de Google, este modelo especializado se ha construido sobre la arquitectura Gemini 2.5 Pro, famosa por su capacidad de razonamiento visual. El resultado es una IA que supera a los principales competidores en benchmarks de control tanto en navegación web como en aplicaciones móviles, y que, además, funciona con menor latencia, es decir, más rápido que nunca.
Una de las claves del nuevo modelo Gemini reside en su integración a través de la API en Google AI Studio y Vertex AI, mediante el uso de una herramienta llamada computer_use. Este sistema permite a los desarrolladores controlar agentes que pueden interpretar solicitudes, analizar imágenes del entorno digital, y ejecutar acciones como hacer clic, escribir o interactuar con menús sin necesidad de programación tradicional.
La IA no se limita a tareas sencillas. Ahora puede rellenar formularios, manejar menús desplegables e, incluso, operar detrás de páginas protegidas por inicio de sesión, lo que la convierte en un recurso valioso para automatizar procesos complejos y ahorrar tiempo en tareas repetitivas o manuales.
Funcionamiento avanzado en entornos digitales
Según Google, el flujo de trabajo del modelo empieza con la entrada de la petición del usuario, una captura de pantalla del entorno y el historial de acciones recientes. El modelo analiza estos datos y genera una respuesta: normalmente una acción de interfaz como hacer clic o escribir, siempre velando por la seguridad y por evitar acciones no autorizadas.
Tras ejecutar la acción, se envía una nueva captura de pantalla y la URL actual para continuar el bucle hasta que la tarea concluye. Este proceso iterativo permite automatizar tareas en el navegador e incluso en aplicaciones móviles, aunque aún no está optimizado para sistemas operativos de escritorio.
El potencial demostrado en pruebas internas y externas ha confirmado que Gemini 2.5 Computer Use es líder en precisión y velocidad, según informes que detallan su rendimiento en plataformas como Browserbase y Online-Mind2Web.
Medidas de seguridad integradas en Gemini 2.5
La seguridad es fundamental. La fuente recalca que los agentes que controlan ordenadores presentan riesgos únicos, como el uso indebido intencionado, comportamientos inesperados y ataques mediante prompt injection. Por ello, la IA incorpora mecanismos que detectan y previenen acciones potencialmente peligrosas. Estos mecanismos van desde servicios externos de verificación de cada paso, hasta directrices de sistema que pueden requerir confirmación del usuario antes de ejecutar acciones delicadas, como compras o modificaciones críticas.
Además, los desarrolladores tienen acceso a controles adicionales para limitar cualquier posibilidad de daño, como la manipulación de CAPTCHAs o la intervención en dispositivos médicos, siguiendo las recomendaciones de Google Vertex AI para entornos empresariales.
La documentación oficial incluye guías para implementar buenas prácticas y realizar pruebas exhaustivas antes de poner cualquier sistema en marcha, destacando la responsabilidad como eje central en el despliegue de agentes inteligentes.
Casos de uso y experiencias de los primeros testers
Google ya ha puesto este modelo en producción en varios de sus propios proyectos internos, como la automatización de pruebas de interfaz (UI testing), lo que está acelerando la creación y validación de software, especialmente en proyectos como Firebase Testing Agent y Project Mariner.
Los usuarios del programa de acceso temprano han experimentado resultados sólidos, tanto en el desarrollo de asistentes personales como en la automatización de flujos de trabajo digitales. Las opiniones compartidas en la comunidad de desarrolladores resaltan la capacidad del modelo para afrontar tareas complicadas y organizar información de manera eficiente, como se indica en demos públicas que muestran casos de uso concretos —por ejemplo, la gestión de notas en tableros virtuales o la administración de citas en sistemas CRM de mascotas.
La buena acogida y el impacto positivo en la productividad han hecho que muchos equipos adopten Gemini 2.5 Computer Use como complemento en sus pruebas y procesos internos.
Disponibilidad y primeros pasos con Gemini 2.5 Computer Use
Google anuncia que, desde hoy, el modelo está en public preview y disponible a través de la Gemini API. Los interesados pueden probarlo en el entorno de demostración de Browserbase, empezar a construir bucles de agentes usando Playwright, o desplegar pruebas en la nube.
La documentación y la comunidad de desarrolladores están abiertas para quienes quieran aportar comentarios o sugerencias. Tanto empresas como usuarios individuales pueden sumarse al desarrollo de soluciones basadas en esta tecnología y guiar la evolución de la hoja de ruta futura.
Fuente: https://blog.google/technology/google-deepmind/gemini-computer-use-model/