
Google ha lanzado una nueva serie llamada «Crawling December» en la que recomienda alojar recursos web en diferentes hostnames para optimizar el presupuesto de rastreo y mejorar el indexado de las páginas.
Google aconseja optimizar el presupuesto de rastreo alojando recursos por separado
Según informes, Google sugiere a los propietarios de sitios web que alojen recursos como JavaScript y CSS en CDNs o subdominios. Esto ayuda a conservar el presupuesto de rastreo del sitio principal, permitiendo una mejor indexación.
El presupuesto de rastreo es la cantidad de páginas que Googlebot puede y quiere rastrear en un sitio web. Alojar recursos en un hostname diferente puede reducir la carga en el sitio principal y mejorar la eficiencia del rastreo.
Googlebot cachea recursos por 30 días independientemente de las configuraciones HTTP
Google ha revelado que su Servicio de Renderizado Web (WRS) cachea todos los recursos, como JavaScript y CSS, por hasta 30 días, sin importar las configuraciones de caché HTTP establecidas por los desarrolladores.
Esta estrategia de caché ayuda a ahorrar el presupuesto de rastreo, ya que evita que Googlebot tenga que descargar los mismos recursos repetidamente. Es importante que los desarrolladores tengan esto en cuenta al optimizar sus sitios.
Recomendaciones para optimizar el presupuesto de rastreo
Google ofrece varias recomendaciones para ayudar a los webmasters a optimizar su presupuesto de rastreo. Una de ellas es reducir el uso de recursos, utilizando menos scripts y estilos para mejorar la experiencia del usuario y facilitar el renderizado de la página.
Otra sugerencia es alojar recursos en un hostname diferente, como un CDN o subdominio. Esto puede ayudar a desplazar la carga del presupuesto de rastreo lejos del sitio principal, permitiendo que Googlebot se enfoque en el contenido importante.
Además, Google advierte sobre el uso de parámetros para romper la caché. Cambiar las URLs de los recursos puede hacer que Google los vuelva a comprobar, incluso si el contenido es el mismo, lo que podría desperdiciar el presupuesto de rastreo.
Precaución al bloquear recursos en robots.txt
Google señala que bloquear el rastreo de recursos críticos mediante el archivo robots.txt puede ser arriesgado. Si Google no puede acceder a recursos necesarios para renderizar una página, podría tener problemas para entender su contenido y clasificarla adecuadamente.
Es importante permitir que Googlebot acceda a todos los recursos necesarios para renderizar y entender la página. Esto asegura una mejor indexación y posicionamiento en los resultados de búsqueda.
Herramientas de monitoreo recomendadas
El equipo de Google Search Central recomienda revisar los logs de acceso en bruto del sitio para ver qué recursos está rastreando Googlebot. Esto puede ayudar a los webmasters a entender y optimizar el comportamiento de rastreo.
Se puede identificar a Googlebot por su dirección IP, utilizando los rangos publicados en la documentación para desarrolladores de Google. Esto permite una mejor monitorización y análisis del rastreo del sitio.
Importancia para SEO y desarrolladores
Entender cómo Google maneja el rastreo y la indexación es crucial para los profesionales de SEO y desarrollo web. La gestión de recursos afecta directamente al presupuesto de rastreo y, por ende, a la visibilidad del sitio en los resultados de búsqueda.
Tomar decisiones informadas sobre dónde alojar scripts y estilos, y cómo permitir el acceso a recursos, puede tener un impacto significativo en cómo Google puede rastrear e indexar el sitio web.
Para más información y detalles, se puede consultar la serie «Crawling December» en el blog oficial de Google Search Central, donde se profundiza en estos y otros aspectos del rastreo web.
Fuente: https://www.searchenginejournal.com/google-host-resources-on-different-hostname-to-save-crawl-budget/534317/