Según Bing: puede usar un archivo robots.txt para controlar qué directorios y archivos en su servidor web no puede visitar un rastreador de motor de búsqueda compatible con el Protocolo de Exclusión de Robots (REP) (también conocido como robot o bot), es decir, secciones que no deben rastrearse. Es importante comprender que esto, por definición, implica que una página que no se rastrea tampoco se indexará . Para ver cómo evitar que una página se indexe.
PASOS
- Identifique qué directorios y archivos en su servidor web desea bloquear para que el rastreador no los rastree
- Identifique si necesita o no especificar instrucciones adicionales para un robot de motor de búsqueda en particular más allá de un conjunto genérico de directivas de rastreo
- Utilice un editor de texto para crear el archivo robots.txt y las directivas para bloquear el contenido.
- Opcional: agregue una referencia a su archivo de mapa del sitio (si tiene uno)
- Verifique los errores al validar su archivo robots.txt
- Cargue el archivo robots.txt en el directorio raíz de su sitio.
- ¿Cuáles son los mejores sitios de colaboración para el desarrollo?
- ¿Cuánto tiempo se necesita para mantenerse actualizado con el desarrollo / programación web?
- ¿Por qué no puedo elegir entre Rails, Django o Node.Js para mi primer proyecto?
- Cómo implementar mi API RESTful que he desarrollado en mi webhost compartido
- ¿Cuál es la diferencia entre TLS, SSL y HTTPS?