Web Robots (también conocidos como Web Wanderers, Crawlers o Spiders), son programas que atraviesan la Web automáticamente. Los motores de búsqueda como Google los usan para indexar el contenido web, los spammers los usan para buscar direcciones de correo electrónico y tienen muchos otros usos.
En este sitio puede obtener más información sobre los robots web.
Sobre /robots.txt
- Al decidir qué cobrar por el desarrollo de un sitio web personalizado de WordPress, ¿aumenta el costo de los complementos que utiliza?
- ¿Cuáles son las tareas laborales del desarrollador Junior JavaScript?
- Cómo prepararse financieramente para un campamento de codificación
- ¿Qué lenguaje de programación usa Facebook para hacer actualizaciones instantáneas?
- ¿Cómo puedo crear un sitio de red social con un formato de Facebook diseñado específicamente para el entorno educativo?
Los propietarios de sitios web usan el archivo /robots.txt para dar instrucciones sobre su sitio a los robots web; esto se llama el protocolo de exclusión de robots .
Funciona así: un robot quiere visitar la URL de un sitio web, por ejemplo, http://www.example.com/welcome.html. Antes de hacerlo, primero comprueba http://www.example.com/robots.txt y encuentra:
Agente de usuario: *
No permitir: /
Los ”
Agente de usuario: *
“significa que esta sección se aplica a todos los robots. El”
No permitir: /
“le dice al robot que no debe visitar ninguna página del sitio.
Hay dos consideraciones importantes al usar /robots.txt:
- Los robots pueden ignorar su /robots.txt. Especialmente los robots de malware que escanean la web en busca de vulnerabilidades de seguridad y los recolectores de direcciones de correo electrónico utilizados por los spammers no prestarán atención.
- El archivo /robots.txt es un archivo disponible públicamente. Cualquiera puede ver qué secciones de su servidor no desea que usen los robots.
Así que no intentes usar /robots.txt para ocultar información.