{"id":127518,"date":"2024-09-24T15:40:37","date_gmt":"2024-09-24T13:40:37","guid":{"rendered":"https:\/\/quondos.com\/mag\/?p=127518"},"modified":"2024-09-24T15:40:37","modified_gmt":"2024-09-24T13:40:37","slug":"los-investigadores-ponen-a-prueba-o1-de-openai-es-tan-bueno-como-lo-pintan","status":"publish","type":"post","link":"https:\/\/quondos.com\/mag\/los-investigadores-ponen-a-prueba-o1-de-openai-es-tan-bueno-como-lo-pintan\/","title":{"rendered":"Los investigadores ponen a prueba o1 de OpenAI, \u00bfes tan bueno como lo pintan?"},"content":{"rendered":"\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"900\" height=\"736\" src=\"https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/09\/V-1_OpenAI.jpg\" alt=\"\" class=\"wp-image-125239\" title=\"\" srcset=\"https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/09\/V-1_OpenAI.jpg 900w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/09\/V-1_OpenAI-300x245.jpg 300w, https:\/\/quondos.com\/mag\/wp-content\/uploads\/2023\/09\/V-1_OpenAI-768x628.jpg 768w\" sizes=\"auto, (max-width: 900px) 100vw, 900px\" \/><\/figure>\n\n\n\n<p>Investigadores han puesto a prueba el \u00faltimo modelo de inteligencia artificial de OpenAI, o1, revelando tanto avances significativos como limitaciones importantes.<\/p>\n\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_76 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice de contenidos<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabla de contenidos\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/quondos.com\/mag\/los-investigadores-ponen-a-prueba-o1-de-openai-es-tan-bueno-como-lo-pintan\/#El_modelo_o1_y_su_evaluacion_en_PlanBench\" >El modelo o1 y su evaluaci\u00f3n en PlanBench<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/quondos.com\/mag\/los-investigadores-ponen-a-prueba-o1-de-openai-es-tan-bueno-como-lo-pintan\/#Detalles_del_benchmark_PlanBench\" >Detalles del benchmark PlanBench<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/quondos.com\/mag\/los-investigadores-ponen-a-prueba-o1-de-openai-es-tan-bueno-como-lo-pintan\/#Pruebas_adicionales_y_resultados\" >Pruebas adicionales y resultados<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/quondos.com\/mag\/los-investigadores-ponen-a-prueba-o1-de-openai-es-tan-bueno-como-lo-pintan\/#Limitaciones_en_tareas_mas_complejas\" >Limitaciones en tareas m\u00e1s complejas<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/quondos.com\/mag\/los-investigadores-ponen-a-prueba-o1-de-openai-es-tan-bueno-como-lo-pintan\/#Consumo_de_recursos_y_eficiencia\" >Consumo de recursos y eficiencia<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/quondos.com\/mag\/los-investigadores-ponen-a-prueba-o1-de-openai-es-tan-bueno-como-lo-pintan\/#Comentarios_de_los_investigadores\" >Comentarios de los investigadores<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/quondos.com\/mag\/los-investigadores-ponen-a-prueba-o1-de-openai-es-tan-bueno-como-lo-pintan\/#Conclusiones_y_recomendaciones\" >Conclusiones y recomendaciones<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/quondos.com\/mag\/los-investigadores-ponen-a-prueba-o1-de-openai-es-tan-bueno-como-lo-pintan\/#Perspectivas_futuras\" >Perspectivas futuras<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"El_modelo_o1_y_su_evaluacion_en_PlanBench\"><\/span>El modelo o1 y su evaluaci\u00f3n en PlanBench<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Seg\u00fan la fuente, un nuevo estudio examina independientemente las capacidades de planificaci\u00f3n del m\u00e1s reciente modelo de OpenAI, o1. Aunque los resultados muestran <strong>mejoras importantes<\/strong> sobre los modelos de lenguaje tradicionales, persisten limitaciones significativas.<\/p>\n<p>Investigadores de la Universidad Estatal de Arizona probaron las capacidades de planificaci\u00f3n de o1 utilizando el benchmark PlanBench. Sus hallazgos revelan que este \u00abLarge Reasoning Model\u00bb (LRM) logra avances sustanciales en comparaci\u00f3n con los modelos de lenguaje grandes convencionales (LLMs), pero a\u00fan no logra resolver las tareas completamente.<\/p>\n\n<h2><span class=\"ez-toc-section\" id=\"Detalles_del_benchmark_PlanBench\"><\/span>Detalles del benchmark PlanBench<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Desarrollado en 2022, PlanBench eval\u00faa las habilidades de planificaci\u00f3n de sistemas de inteligencia artificial. Incluye 600 tareas del dominio \u00abBlocksworld\u00bb, donde se deben apilar bloques en \u00f3rdenes espec\u00edficos.<\/p>\n<p>En estas tareas, o1 alcanz\u00f3 un <strong>97.8% de precisi\u00f3n<\/strong>, superando ampliamente al mejor modelo de lenguaje anterior, LLaMA 3.1 405B, que solo resolvi\u00f3 el 62.6%. En una versi\u00f3n cifrada m\u00e1s desafiante llamada \u00abMystery Blocksworld\u00bb, o1 alcanz\u00f3 un 52.8% de precisi\u00f3n, mientras que los modelos convencionales fallaron casi por completo.<\/p>\n\n<h2><span class=\"ez-toc-section\" id=\"Pruebas_adicionales_y_resultados\"><\/span>Pruebas adicionales y resultados<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Los investigadores tambi\u00e9n probaron una nueva variante aleatoria para descartar la posibilidad de que el rendimiento de o1 se debiera a que ten\u00eda datos del benchmark en su conjunto de entrenamiento. La precisi\u00f3n de o1 disminuy\u00f3 al 37.3% en esta prueba, pero a\u00fan super\u00f3 con creces a los modelos anteriores, que obtuvieron puntuaciones cercanas a cero.<\/p>\n<p>No obstante, el rendimiento disminuy\u00f3 significativamente a medida que las tareas se volvieron m\u00e1s complejas. En problemas que requer\u00edan de 20 a 40 pasos de planificaci\u00f3n, la precisi\u00f3n de o1 en la prueba m\u00e1s simple cay\u00f3 del 97.8% a solo <strong>23.63%<\/strong>.<\/p>\n\n<h2><span class=\"ez-toc-section\" id=\"Limitaciones_en_tareas_mas_complejas\"><\/span>Limitaciones en tareas m\u00e1s complejas<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>El modelo tambi\u00e9n tuvo dificultades para identificar tareas insolubles, reconoci\u00e9ndolas correctamente solo el 27% de las veces. En el 54% de los casos, gener\u00f3 planes completos pero imposibles.<\/p>\n<p>Aunque o1 muestra una <strong>\u00abmejora cu\u00e1ntica\u00bb<\/strong> en el rendimiento del benchmark, no ofrece garant\u00edas sobre la correcci\u00f3n de las soluciones. Algoritmos de planificaci\u00f3n cl\u00e1sicos como Fast Downward logran precisi\u00f3n perfecta con tiempos de c\u00f3mputo mucho m\u00e1s cortos.<\/p>\n\n<h2><span class=\"ez-toc-section\" id=\"Consumo_de_recursos_y_eficiencia\"><\/span>Consumo de recursos y eficiencia<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>El estudio tambi\u00e9n destaca el alto consumo de recursos de o1. Ejecutar las pruebas cost\u00f3 cerca de $1,900, mientras que los algoritmos cl\u00e1sicos pueden ejecutarse en computadoras est\u00e1ndar con un costo pr\u00e1cticamente nulo.<\/p>\n<p>Los investigadores enfatizan que las comparaciones justas de sistemas de inteligencia artificial deben considerar la <strong>precisi\u00f3n<\/strong>, eficiencia, costos y confiabilidad. Sus hallazgos muestran que, si bien modelos como o1 est\u00e1n progresando en tareas de razonamiento complejo, estas capacidades a\u00fan no son robustas.<\/p>\n\n<h2><span class=\"ez-toc-section\" id=\"Comentarios_de_los_investigadores\"><\/span>Comentarios de los investigadores<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Seg\u00fan la fuente, los investigadores se\u00f1alaron:<\/p>\n<blockquote>\n  \u00abCon el tiempo, los LLMs han mejorado su rendimiento en Blocksworld est\u00e1ndar\u2014con el mejor modelo hasta la fecha, LLaMA 3.1 405B, alcanzando un 62.5% de precisi\u00f3n. Sin embargo, su p\u00e9simo rendimiento en las versiones ofuscadas (\u00abMystery\u00bb) del mismo dominio revela su esencial naturaleza de <strong>recuperaci\u00f3n aproximada<\/strong>. En contraste, los nuevos modelos o1, a los que llamamos LRMs (Large Reasoning Models)\u2014en consonancia con las propias caracterizaciones de OpenAI\u2014no solo casi saturan el conjunto de pruebas de Blocksworld de instancias peque\u00f1as originales, sino que muestran el primer indicio de progreso en versiones ofuscadas. Animados por esto, tambi\u00e9n hemos evaluado el rendimiento de o1 en problemas m\u00e1s largos y en instancias insolubles, y encontramos que estas mejoras de precisi\u00f3n no son generales ni robustas.\u00bb\n<\/blockquote>\n<p>Este comentario resalta que, aunque hay progreso, las mejoras no son consistentes en todos los tipos de problemas.<\/p>\n\n<h2><span class=\"ez-toc-section\" id=\"Conclusiones_y_recomendaciones\"><\/span>Conclusiones y recomendaciones<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Los investigadores subrayan que, si bien o1 representa un avance, <strong>no garantiza la correcci\u00f3n<\/strong> de sus soluciones. Por el contrario, los algoritmos de planificaci\u00f3n convencionales logran precisi\u00f3n perfecta con tiempos de computaci\u00f3n m\u00e1s cortos y costos menores.<\/p>\n<p>Para una comparaci\u00f3n justa, es necesario considerar no solo la precisi\u00f3n, sino tambi\u00e9n la eficiencia, el costo y la confiabilidad. Las capacidades de razonamiento complejo de modelos como o1 a\u00fan <strong>no son robustas<\/strong>.<\/p>\n\n<h2><span class=\"ez-toc-section\" id=\"Perspectivas_futuras\"><\/span>Perspectivas futuras<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Se espera que futuros desarrollos en modelos de inteligencia artificial aborden estas limitaciones. La comunidad investigadora continuar\u00e1 evaluando y mejorando estos sistemas para lograr un rendimiento m\u00e1s consistente y fiable en tareas complejas.<\/p>\n<p>Mientras tanto, es importante considerar el uso complementario de algoritmos cl\u00e1sicos y modelos de lenguaje avanzados para aprovechar lo mejor de ambos mundos.<\/p>\n\n\n\n<p>Fuente: https:\/\/the-decoder.com\/researchers-put-openais-o1-through-its-paces-exposing-both-breakthroughs-and-limitations\/<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Investigadores han puesto a prueba el \u00faltimo modelo de inteligencia artificial de OpenAI, o1, revelando tanto avances significativos como limitaciones &#8230; <\/p>\n<p class=\"read-more-container\"><a title=\"Los investigadores ponen a prueba o1 de OpenAI, \u00bfes tan bueno como lo pintan?\" class=\"read-more button\" href=\"https:\/\/quondos.com\/mag\/los-investigadores-ponen-a-prueba-o1-de-openai-es-tan-bueno-como-lo-pintan\/#more-127518\" aria-label=\"Leer m\u00e1s sobre Los investigadores ponen a prueba o1 de OpenAI, \u00bfes tan bueno como lo pintan?\">Leer m\u00e1s<\/a><\/p>\n","protected":false},"author":850,"featured_media":125239,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1474],"tags":[],"class_list":["post-127518","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-inteligencia-artificial","generate-columns","tablet-grid-50","mobile-grid-100","grid-parent","grid-50","no-featured-image-padding"],"_links":{"self":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/127518","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/users\/850"}],"replies":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/comments?post=127518"}],"version-history":[{"count":2,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/127518\/revisions"}],"predecessor-version":[{"id":127520,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/posts\/127518\/revisions\/127520"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/media\/125239"}],"wp:attachment":[{"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/media?parent=127518"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/categories?post=127518"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/quondos.com\/mag\/wp-json\/wp\/v2\/tags?post=127518"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}