Una Filtración Revela Cómo Google Clasifica Las Páginas Web Y Usa Datos De Chrome

Un testimonio filtrado por el Departamento de Justicia de EE.UU. nos da una mirada inédita al corazón del algoritmo de Google: cómo se determina la calidad de las páginas, qué señales influyen en el ranking y cómo datos recopilados desde Chrome podrían jugar un papel más importante de lo que se pensaba.

Índice de contenidos

Google utiliza señales “hechas a mano” para afinar su algoritmo

Según los documentos divulgados, Google se apoya en señales que no son completamente automáticas. Estas se describen como señales “hechas a mano”, lo cual no significa que alguien las introduzca manualmente, sino que los ingenieros diseñan los algoritmos de forma específica y supervisada.

La idea detrás de esto, según la fuente, es mantener un control detallado de los sistemas para facilitar correcciones cuando algo falla, lo que difiere del enfoque más automatizado de competidores como Bing.

Estas señales toman datos de calidad, clics y otros factores para generar puntuaciones basadas en tres grandes grupos conocidos como señales ABC.

Las señales ABC: anclas, contenido y comportamiento del usuario

El sistema clasifica estas señales así: A de Anchors (enlaces que apuntan a una página), B de Body (contenido y coincidencia con términos de búsqueda) y C de Clicks (el tiempo que el usuario permanece antes de volver a los resultados).

Estos tres componentes sirven como base para definir la relevancia de una página respecto a una consulta. De hecho, forman parte de una puntuación llamada T*, que mide la «topicalidad» o adecuación temática del contenido frente a lo buscado.

La fuente aclara que esta solo es una parte del proceso, ya que Google emplea cientos de algoritmos adicionales en etapas como el análisis de enlaces, la personalización y la lucha contra el spam.

La calidad de la página es clave, pero no depende de cada búsqueda

Uno de los puntos más reveladores es que Google trata la calidad de una página como algo generalmente estático. Esto quiere decir que una página considerada de alta calidad lo es para múltiples consultas, sin importar el término específico buscado.

Sin embargo, sí puede haber una mezcla en ciertos casos donde la calidad se cruza con la relevancia de la consulta, ajustando los resultados si se busca algo técnico o muy específico.

La señal Q*, que mide la confiabilidad y autoridad de una página, juega un papel central en el ranking. Incluso se afirma que es el aspecto sobre el que más se quejan los usuarios… y que la inteligencia artificial no ha ayudado mucho a mejorar.

eDeepRank: la IA también tiene su lugar en el algoritmo

Google ha incorporado señales basadas en modelos de lenguaje como BERT a través de sistemas como eDeepRank. Este sistema busca descomponer las señales que provienen de IA en componentes más comprensibles para los ingenieros.

Esto permite que los modelos no solo sean más efectivos al entender el lenguaje, sino que sean más transparentes y manejables dentro del complejo sistema de ranking de Google.

La idea es que los ingenieros puedan identificar con mayor facilidad por qué se posiciona una página en lugar de otra, incluso cuando el proceso ha pasado por capas de IA.

PageRank sigue vivo, pero evolucionado

El clásico PageRank de Google, que mide la autoridad de una página por la cantidad y calidad de sus enlaces entrantes, sigue formando parte del sistema actual, aunque adaptado.

Hoy, se habla de algoritmos basados en la distancia a sitios semilla confiables, lo que significa que una página que esté más cerca de fuentes autorizadas en su temática es considerada más confiable.

Este componente también alimenta el cálculo de calidad, reforzando la noción de autoridad temática que tanto valora el buscador.

Un misterioso factor de popularidad basado en datos de Chrome

Uno de los detalles más llamativos es la mención de una señal de popularidad cuyo nombre ha sido ocultado, pero que estaría alimentada por datos obtenidos a través de Chrome.

Esto ha generado muchas especulaciones sobre si se confirma que Google usa datos del navegador para influir en sus rankings. Aunque los ingenieros insisten en que no se puede revertir el algoritmo solo con esos datos, la sospecha permanece.

Algunos expertos creen que estos datos son usados principalmente con fines de rendimiento, como medir Core Web Vitals, pero otros apuntan a un posible uso más profundo en el sistema de clasificación.

Lo que sabemos y lo que aún queda por descubrir

El testimonio ofrece un vistazo fascinante al funcionamiento interno del buscador más usado del mundo. Sin embargo, la mayoría de los datos presentados son generales y no permiten reconstruir completamente el algoritmo.

Según el ingeniero, incluso con documentos filtrados, los detalles como curvas y umbrales siguen siendo inaccesibles sin acceso a los datos en bruto que usa Google.

Este nuevo escenario abre más interrogantes que certezas, pero una cosa queda clara: Google está muy lejos de ser una “caja negra” automática. Cada señal, cada ajuste y cada decisión parece pasar por manos humanas, aunque se apoyen en la mejor IA disponible.

Fuente: https://www.searchenginejournal.com/googlers-deposition-offers-view-of-googles-ranking-systems/546901/

Una filtración revela cómo Google clasifica las páginas web y usa datos de Chrome