Google confirma que Robots.txt no puede impedir el acceso no autorizado

Google confirma que Robots.txt no puede impedir el acceso no autorizado 2

Google ha confirmado que el archivo robots.txt no puede proteger los sitios web de accesos no autorizados. Gary Illyes de Google explicó las limitaciones de esta herramienta y ofreció una visión general sobre los controles de acceso que deberían conocer todos los SEOs y propietarios de sitios web.

Google confirma que robots.txt no puede evitar accesos no autorizados

Fabrice Canel de Microsoft Bing comentó que Bing a menudo encuentra sitios web que intentan ocultar áreas sensibles con robots.txt, lo que inadvertidamente expone URLs sensibles a los hackers. Según Canel, “frecuentemente encontramos sitios que exponen contenido privado y tratan de ocultar el problema de seguridad usando robots.txt”.

Gary Illyes coincidió con esta afirmación y aclaró: “robots.txt no puede prevenir el acceso no autorizado al contenido”. A pesar de que esta es una afirmación común en las discusiones sobre robots.txt, Illyes enfatizó que nadie familiarizado con robots.txt ha afirmado lo contrario.

La función real de robots.txt

Illyes desglosó el proceso de bloqueo de rastreadores en términos de elegir una solución que controla o cede el control a un sitio web. Describió el uso de robots.txt como una solicitud de acceso, que depende del rastreador para decidir si cumple o no con la instrucción.

Illyes ofreció ejemplos de control: uso de firewalls, protección con contraseña, y autenticación basada en certificados SSL/TLS o cookies. Estos métodos son más efectivos para controlar el acceso a recursos que simplemente confiar en robots.txt.

Usa las herramientas adecuadas para controlar bots

Existen muchas formas de bloquear bots de scraping, bots de hackers, rastreadores de búsqueda y visitas de agentes de usuario de IA. Además de bloquear rastreadores, un firewall es una buena solución porque pueden bloquear según el comportamiento, dirección IP, agente de usuario y país.

Las soluciones típicas pueden estar a nivel de servidor con herramientas como Fail2Ban, basadas en la nube como Cloudflare WAF, o como un plugin de seguridad para WordPress como Wordfence. Estas herramientas ofrecen controles más robustos y confiables para proteger el acceso a los sitios web.

Reflexiones finales

El archivo robots.txt es útil para guiar a los rastreadores en cómo interactuar con un sitio web, pero no debe considerarse una herramienta de autorización de acceso. Para eso, existen muchas herramientas más efectivas que pueden proporcionar un control más seguro y preciso.

Es importante que los propietarios de sitios web implementen medidas de seguridad adecuadas para proteger sus datos sensibles y garantizar que solo los usuarios autorizados puedan acceder a ciertas áreas de su sitio.

Finalmente, siempre es recomendable mantenerse actualizado sobre las mejores prácticas de seguridad web y utilizar una combinación de herramientas para asegurar el sitio contra accesos no deseados.

Fuente: https://www.searchenginejournal.com/google-confirms-robots-txt-is-ineffective-against-unauthorized-access/523632/


También podría ser de tu interés:

Deja un comentario