Los investigadores ponen a prueba o1 de OpenAI, ¿es tan bueno como lo pintan?

Los investigadores ponen a prueba o1 de OpenAI, ¿es tan bueno como lo pintan? 2

Investigadores han puesto a prueba el último modelo de inteligencia artificial de OpenAI, o1, revelando tanto avances significativos como limitaciones importantes.

El modelo o1 y su evaluación en PlanBench

Según la fuente, un nuevo estudio examina independientemente las capacidades de planificación del más reciente modelo de OpenAI, o1. Aunque los resultados muestran mejoras importantes sobre los modelos de lenguaje tradicionales, persisten limitaciones significativas.

Investigadores de la Universidad Estatal de Arizona probaron las capacidades de planificación de o1 utilizando el benchmark PlanBench. Sus hallazgos revelan que este «Large Reasoning Model» (LRM) logra avances sustanciales en comparación con los modelos de lenguaje grandes convencionales (LLMs), pero aún no logra resolver las tareas completamente.

Detalles del benchmark PlanBench

Desarrollado en 2022, PlanBench evalúa las habilidades de planificación de sistemas de inteligencia artificial. Incluye 600 tareas del dominio «Blocksworld», donde se deben apilar bloques en órdenes específicos.

En estas tareas, o1 alcanzó un 97.8% de precisión, superando ampliamente al mejor modelo de lenguaje anterior, LLaMA 3.1 405B, que solo resolvió el 62.6%. En una versión cifrada más desafiante llamada «Mystery Blocksworld», o1 alcanzó un 52.8% de precisión, mientras que los modelos convencionales fallaron casi por completo.

Pruebas adicionales y resultados

Los investigadores también probaron una nueva variante aleatoria para descartar la posibilidad de que el rendimiento de o1 se debiera a que tenía datos del benchmark en su conjunto de entrenamiento. La precisión de o1 disminuyó al 37.3% en esta prueba, pero aún superó con creces a los modelos anteriores, que obtuvieron puntuaciones cercanas a cero.

No obstante, el rendimiento disminuyó significativamente a medida que las tareas se volvieron más complejas. En problemas que requerían de 20 a 40 pasos de planificación, la precisión de o1 en la prueba más simple cayó del 97.8% a solo 23.63%.

Limitaciones en tareas más complejas

El modelo también tuvo dificultades para identificar tareas insolubles, reconociéndolas correctamente solo el 27% de las veces. En el 54% de los casos, generó planes completos pero imposibles.

Aunque o1 muestra una «mejora cuántica» en el rendimiento del benchmark, no ofrece garantías sobre la corrección de las soluciones. Algoritmos de planificación clásicos como Fast Downward logran precisión perfecta con tiempos de cómputo mucho más cortos.

Consumo de recursos y eficiencia

El estudio también destaca el alto consumo de recursos de o1. Ejecutar las pruebas costó cerca de $1,900, mientras que los algoritmos clásicos pueden ejecutarse en computadoras estándar con un costo prácticamente nulo.

Los investigadores enfatizan que las comparaciones justas de sistemas de inteligencia artificial deben considerar la precisión, eficiencia, costos y confiabilidad. Sus hallazgos muestran que, si bien modelos como o1 están progresando en tareas de razonamiento complejo, estas capacidades aún no son robustas.

Comentarios de los investigadores

Según la fuente, los investigadores señalaron:

«Con el tiempo, los LLMs han mejorado su rendimiento en Blocksworld estándar—con el mejor modelo hasta la fecha, LLaMA 3.1 405B, alcanzando un 62.5% de precisión. Sin embargo, su pésimo rendimiento en las versiones ofuscadas («Mystery») del mismo dominio revela su esencial naturaleza de recuperación aproximada. En contraste, los nuevos modelos o1, a los que llamamos LRMs (Large Reasoning Models)—en consonancia con las propias caracterizaciones de OpenAI—no solo casi saturan el conjunto de pruebas de Blocksworld de instancias pequeñas originales, sino que muestran el primer indicio de progreso en versiones ofuscadas. Animados por esto, también hemos evaluado el rendimiento de o1 en problemas más largos y en instancias insolubles, y encontramos que estas mejoras de precisión no son generales ni robustas.»

Este comentario resalta que, aunque hay progreso, las mejoras no son consistentes en todos los tipos de problemas.

Conclusiones y recomendaciones

Los investigadores subrayan que, si bien o1 representa un avance, no garantiza la corrección de sus soluciones. Por el contrario, los algoritmos de planificación convencionales logran precisión perfecta con tiempos de computación más cortos y costos menores.

Para una comparación justa, es necesario considerar no solo la precisión, sino también la eficiencia, el costo y la confiabilidad. Las capacidades de razonamiento complejo de modelos como o1 aún no son robustas.

Perspectivas futuras

Se espera que futuros desarrollos en modelos de inteligencia artificial aborden estas limitaciones. La comunidad investigadora continuará evaluando y mejorando estos sistemas para lograr un rendimiento más consistente y fiable en tareas complejas.

Mientras tanto, es importante considerar el uso complementario de algoritmos clásicos y modelos de lenguaje avanzados para aprovechar lo mejor de ambos mundos.

Fuente: https://the-decoder.com/researchers-put-openais-o1-through-its-paces-exposing-both-breakthroughs-and-limitations/


También podría ser de tu interés:

Deja un comentario