Google «leakea» conversaciones de Gemini en los resultados de búsqueda

google admite su derrota

Si te has preguntado por qué aparecían conversaciones de Google Gemini en los resultados de búsqueda, la explicación te sorprenderá. Apenas 24 horas después de su lanzamiento, algunos usuarios notaron que los chats eran visibles públicamente en Google. La respuesta de Google ante lo que parecía una filtración es bastante reveladora y menos siniestra de lo que parece.

¿Cómo se filtraron las páginas de chat de Google Gemini?

Google Gemini ofrece una forma de crear un enlace hacia una versión pública de un chat privado. No es que Google cree automáticamente páginas web a partir de chats privados, sino que son los usuarios quienes generan estas páginas a través de un enlace.

Según un tuit de @shemiadhikarath, motores de búsqueda como Bing indexaron conversaciones públicas de Gemini pocas horas después de su lanzamiento. Aunque en una captura se veía un mensaje que decía: «Nos gustaría mostrarte una descripción aquí, pero el sitio no lo permite».

¿Por qué se indexaron las páginas de chat de Gemini?

La razón obvia por la que se rastrearon e indexaron las páginas de chat es porque Google olvidó colocar un archivo robots.txt en la raíz del subdominio Gemini (gemini.google.com).

Un archivo robots.txt sirve para controlar la actividad de los rastreadores en los sitios web. Sin embargo, al revisar el robots.txt de Google Gemini el 13 de febrero a las 4:19 AM, se confirmó que ya estaba en su lugar, lo que contradice la razón más obvia.

Descubrimiento e indexación de páginas de chat privadas

A pesar de tener un robots.txt que bloqueaba a los rastreadores, las páginas terminaron siendo rastreadas e indexadas. Esto podría deberse a la existencia de un enlace público o tal vez a través del historial de navegación vinculado desde cookies. Bill Hartzer descubrió un enlace público a una de las páginas indexadas, indicando que es muy probable que un enlace público haya causado la indexación.

¿Por qué comenzaron a desaparecer las páginas de chat de los resultados de búsqueda?

Si existía un enlace público, ¿por qué Google comenzó a eliminar las páginas de chat de sus resultados de búsqueda? Es posible que Google haya creado una regla interna para que el rastreador de búsqueda excluya las páginas web de la carpeta /share/ del índice de búsqueda, incluso si están vinculadas públicamente.

Este incidente brinda una visión interesante sobre cómo Bing y Google indexan contenido. Mientras Google mostraba tres resultados de búsqueda en la mañana del 13 de febrero, Bing solo mostraba uno, destacando la naturaleza aparentemente aleatoria de lo que se indexaba y cuánto de ello.

Lecciones aprendidas del «leak» de Gemini

Los hechos conocidos nos llevan a reflexionar sobre por qué estas páginas comenzaron a desaparecer de los resultados de búsqueda de Google y Bing. Google tenía un robots.txt desde el 8 de febrero, pero ambos motores de búsqueda indexaron páginas del subdominio gemini.google.com. A pesar del archivo robots.txt, los motores de búsqueda indexaron el contenido y luego comenzaron a eliminarlo. Esto nos hace pensar que las páginas de chat de Google Gemini son páginas web de baja calidad que no merecen ser mostradas para búsquedas que son esencialmente de cola larga (site:gemini.google.com/share/).

El contenido bloqueado por Robots.txt todavía puede ser descubierto, rastreado y terminar en el índice de búsqueda, y si las páginas son útiles, también pueden clasificar, a menos que no sean útiles, que parece ser el caso aquí. Quizás Google debería seguir su propio consejo y permitir el rastreo en el archivo robots.txt, añadiendo una etiqueta noindex en las páginas para asegurarse de que no se indexen.

Fuente: https://www.searchenginejournal.com/google-gemini-leak/508126/


También podría ser de tu interés:

Deja un comentario