{"id":127257,"date":"2024-07-11T22:36:34","date_gmt":"2024-07-11T20:36:34","guid":{"rendered":"https:\/\/quondos.com\/mag\/?p=127257"},"modified":"2024-07-11T22:36:35","modified_gmt":"2024-07-11T20:36:35","slug":"google-dice-que-gemini-ai-esta-haciendo-que-sus-robots-sean-mas-inteligentes","status":"publish","type":"post","link":"https:\/\/quondos.com\/mag\/google-dice-que-gemini-ai-esta-haciendo-que-sus-robots-sean-mas-inteligentes\/","title":{"rendered":"Google dice que Gemini AI est\u00e1 haciendo que sus robots sean m\u00e1s inteligentes"},"content":{"rendered":"\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"1024\" src=\"https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/11\/DALL\u00b7E-2023-11-13-12.31.40-An-illustration-showing-Google-developing-a-search-robot-named-Steve.-The-scene-is-set-in-a-high-tech-laboratory-with-Googles-logo-prominently-displa.webp\" alt=\"google bard\" class=\"wp-image-125751\" title=\"\" srcset=\"https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/11\/DALL\u00b7E-2023-11-13-12.31.40-An-illustration-showing-Google-developing-a-search-robot-named-Steve.-The-scene-is-set-in-a-high-tech-laboratory-with-Googles-logo-prominently-displa.webp 1024w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/11\/DALL\u00b7E-2023-11-13-12.31.40-An-illustration-showing-Google-developing-a-search-robot-named-Steve.-The-scene-is-set-in-a-high-tech-laboratory-with-Googles-logo-prominently-displa-300x300.webp 300w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/11\/DALL\u00b7E-2023-11-13-12.31.40-An-illustration-showing-Google-developing-a-search-robot-named-Steve.-The-scene-is-set-in-a-high-tech-laboratory-with-Googles-logo-prominently-displa-150x150.webp 150w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/11\/DALL\u00b7E-2023-11-13-12.31.40-An-illustration-showing-Google-developing-a-search-robot-named-Steve.-The-scene-is-set-in-a-high-tech-laboratory-with-Googles-logo-prominently-displa-768x768.webp 768w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>Google DeepMind ha demostrado c\u00f3mo los robots pueden navegar en entornos complejos usando solo un video de un recorrido grabado con un smartphone. Esta innovadora tecnolog\u00eda se basa en las capacidades de entrada multimodal y la ventana de contexto grande del Gemini 1.5 Pro.<\/p>\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_76 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice de contenidos<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabla de contenidos\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/quondos.com\/mag\/google-dice-que-gemini-ai-esta-haciendo-que-sus-robots-sean-mas-inteligentes\/#Navegacion_en_entornos_complejos\" >Navegaci\u00f3n en entornos complejos<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/quondos.com\/mag\/google-dice-que-gemini-ai-esta-haciendo-que-sus-robots-sean-mas-inteligentes\/#Capacidades_del_modelo_de_lenguaje_integrado\" >Capacidades del modelo de lenguaje integrado<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/quondos.com\/mag\/google-dice-que-gemini-ai-esta-haciendo-que-sus-robots-sean-mas-inteligentes\/#Arquitectura_del_sistema_y_pruebas_adicionales\" >Arquitectura del sistema y pruebas adicionales<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/quondos.com\/mag\/google-dice-que-gemini-ai-esta-haciendo-que-sus-robots-sean-mas-inteligentes\/#Resultados_y_limitaciones\" >Resultados y limitaciones<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/quondos.com\/mag\/google-dice-que-gemini-ai-esta-haciendo-que-sus-robots-sean-mas-inteligentes\/#Planes_futuros\" >Planes futuros<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"Navegacion_en_entornos_complejos\"><\/span>Navegaci\u00f3n en entornos complejos<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Los investigadores utilizaron la habilidad del Gemini 1.5 Pro para procesar hasta un mill\u00f3n de <strong>tokens multimodales<\/strong> y permitir que los robots naveguen por espacios desconocidos con instrucciones humanas, gu\u00edas de video y razonamiento del modelo. En un experimento, los cient\u00edficos guiaron a los robots por \u00e1reas espec\u00edficas, mostr\u00e1ndoles lugares importantes como \u201cel escritorio de Lewi\u201d o \u201cel \u00e1rea de escritorios temporales\u201d.<\/p>\n<p>Despu\u00e9s, los robots fueron capaces de <strong>encontrar su camino<\/strong> de regreso a estos lugares por s\u00ed mismos. Esta tecnolog\u00eda funciona incluso para objetos peque\u00f1os; por ejemplo, un usuario podr\u00eda mostrarle al robot un video de su casa y luego preguntar, \u201c\u00bfD\u00f3nde dej\u00e9 mi posavasos?\u201d. El robot navegar\u00eda hasta el lugar correcto.<\/p>\n\n<h2><span class=\"ez-toc-section\" id=\"Capacidades_del_modelo_de_lenguaje_integrado\"><\/span>Capacidades del modelo de lenguaje integrado<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Gracias al modelo de lenguaje integrado, el robot tambi\u00e9n puede hacer abstracciones. Si un usuario pide un lugar para dibujar, el robot puede asociarlo con una pizarra y llevar al usuario all\u00ed. Seg\u00fan la fuente, Google DeepMind sugiere que en el futuro, un robot podr\u00eda inferir las <strong>preferencias del usuario<\/strong> a partir de la informaci\u00f3n audiovisual y actuar en consecuencia.<\/p>\n<p>Por ejemplo, si un usuario tiene muchas latas de una marca particular de refresco en su escritorio, el robot podr\u00eda preferentemente llevarle esa bebida desde el refrigerador. Estas capacidades podr\u00edan mejorar enormemente la interacci\u00f3n humano-robot.<\/p>\n\n<h2><span class=\"ez-toc-section\" id=\"Arquitectura_del_sistema_y_pruebas_adicionales\"><\/span>Arquitectura del sistema y pruebas adicionales<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>La arquitectura del sistema procesa la entrada multimodal para crear un gr\u00e1fico topol\u00f3gico, una representaci\u00f3n simplificada de la sala. Este gr\u00e1fico se construye a partir de im\u00e1genes individuales de los recorridos en video y captura la <strong>conectividad general<\/strong> del entorno, permitiendo al robot navegar sin un mapa detallado.<\/p>\n<p>En pruebas adicionales, los robots recibieron instrucciones multimodales adicionales, como esquemas de mapas en una pizarra, indicaciones de audio relacionadas con ubicaciones en el recorrido y se\u00f1ales visuales como una caja de juguetes. Con estas entradas, los robots pudieron realizar diferentes tareas para diferentes personas.<\/p>\n\n<h2><span class=\"ez-toc-section\" id=\"Resultados_y_limitaciones\"><\/span>Resultados y limitaciones<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>En 57 pruebas en un entorno de oficina real de 836 metros cuadrados, Mobility VLA alcanz\u00f3 tasas de \u00e9xito de hasta un 90% en la realizaci\u00f3n de varias tareas de navegaci\u00f3n multimodal. Para instrucciones complejas que requer\u00edan razonamiento, logr\u00f3 una tasa de \u00e9xito del 86%, en comparaci\u00f3n con el 60% de un sistema basado en texto y el 33% de un enfoque basado en CLIP.<\/p>\n<p>A pesar de los resultados prometedores, los investigadores se\u00f1alan algunas limitaciones. Por ejemplo, el sistema tarda entre 10 y 30 segundos en procesar un comando, lo que resulta en <strong>retrasos en la interacci\u00f3n<\/strong>. Adem\u00e1s, no puede explorar el entorno por s\u00ed mismo, dependiendo del video de demostraci\u00f3n proporcionado.<\/p>\n\n<h2><span class=\"ez-toc-section\" id=\"Planes_futuros\"><\/span>Planes futuros<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Google DeepMind planea extender Mobility VLA a otras plataformas de robots y ampliar las capacidades del sistema m\u00e1s all\u00e1 de la navegaci\u00f3n. Pruebas preliminares indican que el sistema tambi\u00e9n podr\u00eda realizar tareas m\u00e1s complejas, como inspeccionar objetos y <strong>reportar los resultados<\/strong>. Con estos avances, el futuro de la interacci\u00f3n humano-robot parece prometedor y lleno de posibilidades.<\/p>\n\n\n\n<p>Fuente: https:\/\/www.theverge.com\/2024\/7\/11\/24196402\/google-deepmind-gemini-1-5-pro-robot-navigation<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Google DeepMind ha demostrado c\u00f3mo los robots pueden navegar en entornos complejos usando solo un video de un recorrido grabado &#8230; <\/p>\n<p class=\"read-more-container\"><a title=\"Google dice que Gemini AI est\u00e1 haciendo que sus robots sean m\u00e1s inteligentes\" class=\"read-more button\" href=\"https:\/\/quondos.com\/mag\/google-dice-que-gemini-ai-esta-haciendo-que-sus-robots-sean-mas-inteligentes\/#more-127257\" aria-label=\"Leer m\u00e1s sobre Google dice que Gemini AI est\u00e1 haciendo que sus robots sean m\u00e1s inteligentes\">Leer m\u00e1s<\/a><\/p>\n","protected":false},"author":850,"featured_media":125751,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1474],"tags":[],"class_list":["post-127257","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-inteligencia-artificial","generate-columns","tablet-grid-50","mobile-grid-100","grid-parent","grid-50","no-featured-image-padding"],"_links":{"self":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/127257","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/users\/850"}],"replies":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/comments?post=127257"}],"version-history":[{"count":2,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/127257\/revisions"}],"predecessor-version":[{"id":127259,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/127257\/revisions\/127259"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/media\/125751"}],"wp:attachment":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/media?parent=127257"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/categories?post=127257"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/tags?post=127257"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}