Una de las grandes promesas de los modelos de inteligencia artificial generativa de Google, Gemini 1.5 Pro y 1.5 Flash, es su capacidad para procesar y analizar grandes cantidades de datos. Según Google, estos modelos pueden realizar tareas imposibles anteriormente gracias a su «contexto largo», como resumir documentos de cientos de páginas o buscar en escenas de filmaciones.
Las capacidades de análisis de datos de Gemini no son tan buenas como Google afirma
Sin embargo, según investigaciones recientes, estos modelos no son tan buenos en esas tareas como se afirma. Dos estudios independientes analizaron cómo los modelos Gemini y otros entienden grandes cantidades de datos, similares a obras extensas como «Guerra y Paz». Ambos estudios concluyen que los modelos Gemini 1.5 Pro y 1.5 Flash tienen dificultades para responder correctamente a preguntas sobre grandes conjuntos de datos; en una serie de pruebas basadas en documentos, los modelos respondieron correctamente solo entre el 40% y el 50% de las veces.
«Aunque modelos como Gemini 1.5 Pro pueden técnicamente procesar contextos largos, hemos visto muchos casos que indican que los modelos no ‘entienden’ realmente el contenido», comentó Marzena Karpinska, investigadora postdoctoral en UMass Amherst y coautora de uno de los estudios, a TechCrunch.
El contexto de Gemini es insuficiente
El contexto de un modelo, o ventana de contexto, se refiere a los datos de entrada (por ejemplo, texto) que el modelo considera antes de generar la salida (por ejemplo, texto adicional). Una pregunta simple —»¿Quién ganó la elección presidencial de EE.UU. en 2020?»— puede servir como contexto, al igual que un guion de película, un programa o un clip de audio. Y a medida que las ventanas de contexto crecen, también lo hace el tamaño de los documentos que se pueden incorporar.
Las versiones más recientes de Gemini pueden tomar hasta 2 millones de tokens como contexto. Los «tokens» son bits subdivididos de datos en bruto, como las sílabas «fan», «tas» y «tic» en la palabra «fantastic». Esto equivale a aproximadamente 1.4 millones de palabras, dos horas de video o 22 horas de audio, el contexto más grande de cualquier modelo comercialmente disponible.
En una presentación a principios de este año, Google mostró varias demostraciones pregrabadas para ilustrar el potencial de las capacidades de largo contexto de Gemini. Una de ellas mostró a Gemini 1.5 Pro buscando en la transcripción de la teletransmisión del alunizaje del Apolo 11 —alrededor de 402 páginas— citas con chistes, y luego encontrar una escena en la teletransmisión que se pareciera a un boceto a lápiz.
Oriol Vinyals, vicepresidente de investigación en Google DeepMind, describió el modelo como «mágico». “1.5 Pro realiza este tipo de tareas de razonamiento en cada página, cada palabra”, dijo.
Eso podría haber sido una exageración. En uno de los estudios mencionados anteriormente que evaluaron estas capacidades, Karpinska, junto con investigadores del Instituto Allen para la IA y Princeton, pidieron a los modelos que evaluaran declaraciones verdaderas o falsas sobre libros de ficción escritos en inglés. Los investigadores eligieron obras recientes para que los modelos no pudieran «hacer trampa» confiando en conocimientos previos, y añadieron detalles específicos y puntos de la trama que serían imposibles de comprender sin leer los libros en su totalidad.
Dado una declaración como «Usando sus habilidades como Apoth, Nusis es capaz de revertir el tipo de portal abierto por la clave de reactivos encontrada en el cofre de madera de Rona», Gemini 1.5 Pro y 1.5 Flash —habiendo ingerido el libro relevante— tenían que decir si la declaración era verdadera o falsa y explicar su razonamiento.
Probado en un libro de aproximadamente 260,000 palabras (~520 páginas), los investigadores encontraron que 1.5 Pro respondió correctamente el 46.7% de las declaraciones verdaderas/falsas, mientras que Flash respondió correctamente solo el 20% de las veces. Eso significa que una moneda es significativamente mejor para responder preguntas sobre el libro que el último modelo de aprendizaje automático de Google. Promediando todos los resultados de referencia, ninguno de los modelos logró superar el azar en términos de precisión en la respuesta a preguntas.
«Hemos notado que los modelos tienen más dificultad para verificar afirmaciones que requieren considerar partes más grandes del libro, o incluso el libro completo, en comparación con afirmaciones que pueden resolverse recuperando evidencia a nivel de oración», dijo Karpinska. «Cualitativamente, también observamos que los modelos tienen dificultades para verificar afirmaciones sobre información implícita que es clara para un lector humano pero que no está explícitamente indicada en el texto».
Estudios adicionales revelan limitaciones de Gemini
El segundo de los dos estudios, coescrito por investigadores de UC Santa Barbara, probó la capacidad de Gemini 1.5 Flash (pero no 1.5 Pro) para «razonar sobre» videos, es decir, buscar y responder preguntas sobre el contenido en ellos.
Los coautores crearon un conjunto de datos de imágenes (por ejemplo, una foto de un pastel de cumpleaños) emparejadas con preguntas para que el modelo respondiera sobre los objetos representados en las imágenes (por ejemplo, «¿Qué personaje de dibujos animados está en este pastel?»). Para evaluar los modelos, seleccionaron una de las imágenes al azar e insertaron imágenes «distractoras» antes y después para crear un metraje tipo presentación de diapositivas.
Flash no se desempeñó muy bien. En una prueba que tenía al modelo transcribiendo seis dígitos escritos a mano de una «presentación de diapositivas» de 25 imágenes, Flash acertó alrededor del 50% de las transcripciones. La precisión bajó a alrededor del 30% con ocho dígitos.
«En tareas reales de respuesta a preguntas sobre imágenes, parece ser particularmente difícil para todos los modelos que probamos», comentó Michael Saxon, estudiante de doctorado en UC Santa Barbara y uno de los coautores del estudio, a TechCrunch. «Esa pequeña cantidad de razonamiento —reconocer que un número está en un cuadro y leerlo— podría ser lo que está rompiendo el modelo».
Google podría estar sobreprometiendo con Gemini
Ninguno de los estudios ha sido revisado por pares, ni tampoco investigan las versiones de Gemini 1.5 Pro y 1.5 Flash con contextos de 2 millones de tokens. (Ambos probaron las versiones de contexto de 1 millón de tokens). Y Flash no está diseñado para ser tan capaz como Pro en términos de rendimiento; Google lo publicita como una alternativa de bajo costo.
No obstante, ambos estudios añaden leña al fuego que Google ha estado sobreprometiendo —y no cumpliendo— con Gemini desde el principio. Ninguno de los modelos que los investigadores probaron, incluidos GPT-4o de OpenAI y Claude 3.5 Sonnet de Anthropic, se desempeñó bien. Pero Google es el único proveedor de modelos que ha dado prioridad a la ventana de contexto en sus anuncios.
«No hay nada de malo en la afirmación simple, ‘Nuestro modelo puede tomar X cantidad de tokens’ basada en los detalles técnicos objetivos», comentó Saxon. «Pero la pregunta es, ¿qué cosa útil puedes hacer con eso?»
La IA generativa, en términos generales, está siendo sometida a un escrutinio creciente a medida que las empresas (e inversores) se frustran con las limitaciones de la tecnología.
En un par de encuestas recientes de Boston Consulting Group, alrededor de la mitad de los encuestados —todos ejecutivos de alto nivel— dijeron que no esperan que la IA generativa genere ganancias sustanciales en productividad y que están preocupados por el potencial de errores y compromisos de datos que surgen de las herramientas impulsadas por IA generativa. PitchBook informó recientemente que, durante dos trimestres consecutivos, los acuerdos de IA generativa en las etapas más tempranas han disminuido, cayendo un 76% desde su pico en el tercer trimestre de 2023.
Frente a chatbots que resumen reuniones y que inventan detalles ficticios sobre personas y plataformas de búsqueda de IA que básicamente equivalen a generadores de plagio, los clientes están en busca de diferenciadores prometedores. Google, que ha corrido, a veces torpemente, para ponerse al día con sus rivales de IA generativa, estaba desesperado por hacer del contexto de Gemini uno de esos diferenciadores. Pero parece que la apuesta fue prematura.
«No hemos establecido una manera de mostrar realmente que está teniendo lugar un ‘razonamiento’ o ‘comprensión’ sobre documentos largos, y básicamente cada grupo que publica estos modelos está improvisando sus propias evaluaciones para hacer estas afirmaciones», dijo Karpinska. «Sin el conocimiento de cómo se implementa el procesamiento de contextos largos —y las empresas no comparten estos detalles— es difícil decir cuán real istas son estas afirmaciones».
Google no respondió a una solicitud de comentarios.
Ambos, Saxon y Karpinska, creen que los antídotos para las afirmaciones exageradas sobre la IA generativa son mejores puntos de referencia y, en la misma línea, un mayor énfasis en la crítica de terceros. Saxon señala que una de las pruebas más comunes para el contexto largo (citada ampliamente por Google en sus materiales de marketing), «buscar una aguja en un pajar», solo mide la capacidad de un modelo para recuperar información particular, como nombres y números, de conjuntos de datos, no para responder preguntas complejas sobre esa información.
«Todos los científicos y la mayoría de los ingenieros que usan estos modelos están esencialmente de acuerdo en que nuestra cultura de puntos de referencia existente está rota», comentó Saxon, «por lo que es importante que el público entienda que debe tomar estos informes gigantes que contienen números como ‘inteligencia general a través de puntos de referencia’ con una gran dosis de escepticismo».
Fuente: https://techcrunch.com/2024/06/29/geminis-data-analyzing-abilities-arent-as-good-as-google-claims/