
Google ha recordado a los propietarios de sitios web la importancia de utilizar el archivo robots.txt para bloquear las URLs de acción, como «añadir al carrito», evitando así el uso innecesario de recursos del servidor.
Google recomienda usar robots.txt para bloquear URLs de acción
Según Gary Illyes, analista de Google, es fundamental usar el archivo robots.txt para impedir que los rastreadores accedan a URLs que desencadenan acciones como añadir artículos al carrito o a la lista de deseos.
Illyes destacó en una publicación de LinkedIn que muchas quejas sobre el tráfico innecesario de rastreadores, que sobrecargan los servidores, provienen de bots de motores de búsqueda rastreando URLs destinadas a acciones de usuario.
Él escribió: «Mirando lo que estamos rastreando de los sitios en las quejas, demasiadas veces son URLs de acción como ‘añadir al carrito’ y ‘añadir a la lista de deseos’. Estas son inútiles para los rastreadores y probablemente no quieras que sean rastreadas».
Para evitar esta carga innecesaria en el servidor, Illyes recomendó bloquear el acceso en el archivo robots.txt a las URLs con parámetros como “?add_to_cart” o “?add_to_wishlist”.
Como ejemplo, sugirió: «Si tienes URLs como:
https://example.com/product/scented-candle-v1?add_to_cart y https://example.com/product/scented-candle-v1?add_to_wishlist, deberías añadir una regla de desautorización para ellas en tu archivo robots.txt.»
Aunque el uso del método HTTP POST también puede evitar el rastreo de tales URLs, Illyes señaló que los rastreadores aún pueden hacer solicitudes POST, por lo que sigue siendo aconsejable usar robots.txt.
Refuerzo de las mejores prácticas de décadas
Alan Perkins, quien participó en el hilo, señaló que esta guía refleja los estándares web introducidos en la década de 1990 por las mismas razones.
Citó un documento de 1993 titulado «Un estándar para la exclusión de robots»: «En 1993 y 1994 ha habido ocasiones en las que los robots han visitado servidores WWW donde no eran bienvenidos por diversas razones… los robots recorrieron partes de servidores WWW que no eran adecuadas, p. ej., árboles virtuales muy profundos, información duplicada, información temporal o scripts CGI con efectos secundarios (como votaciones)».
El estándar robots.txt, proponiendo reglas para restringir el acceso de los rastreadores bien comportados, surgió como una solución de «consenso» entre los interesados en la web en 1994.
Obediencia y excepciones
Illyes afirmó que los rastreadores de Google obedecen completamente las reglas de robots.txt, con raras excepciones documentadas a fondo para escenarios que involucran «recuperaciones desencadenadas por el usuario o contractuales».
Esta adhesión al protocolo robots.txt ha sido un pilar de las políticas de rastreo web de Google.
Por qué esto es importante
Aunque el consejo puede parecer rudimentario, la reaparición de esta práctica recomendada de décadas subraya su relevancia.
Al aprovechar el estándar robots.txt, los sitios pueden ayudar a controlar los rastreadores excesivamente entusiastas que consumen ancho de banda con solicitudes improductivas.
Cómo esto puede ayudarte
Ya sea que administres un pequeño blog o una gran plataforma de comercio electrónico, seguir el consejo de Google para utilizar robots.txt y bloquear el acceso de los rastreadores a las URLs de acción puede ayudarte de varias maneras:
- Reducción de la carga del servidor: Puedes reducir las solicitudes innecesarias al servidor y el uso del ancho de banda evitando que los rastreadores accedan a URLs que invocan acciones como añadir artículos al carrito o a la lista de deseos.
- Mejora de la eficiencia del rastreo: Dar reglas más explícitas en tu archivo robots.txt sobre qué URLs deben evitar los rastreadores puede llevar a un rastreo más eficiente de las páginas y contenido que deseas que se indexen y clasifiquen.
- Mejor experiencia de usuario: Con los recursos del servidor enfocados en las acciones reales de los usuarios en lugar de en los golpes innecesarios de los rastreadores, los usuarios finales probablemente experimentarán tiempos de carga más rápidos y una funcionalidad más fluida.
- Alinémonos con los estándares: Implementar esta guía pone tu sitio en conformidad con los estándares ampliamente adoptados del protocolo robots.txt, que han sido prácticas recomendadas en la industria durante décadas.
Revisar las directivas de robots.txt podría ser un paso simple pero impactante para los sitios web que buscan ejercer más control sobre la actividad de los rastreadores.
Fuente: https://www.searchenginejournal.com/google-reminds-websites-to-use-robots-txt-to-block-action-urls/519215/