Cómo crear un archivo robots.txt para mi sitio web

Según Bing: puede usar un archivo robots.txt para controlar qué directorios y archivos en su servidor web no puede visitar un rastreador de motor de búsqueda compatible con el Protocolo de Exclusión de Robots (REP) (también conocido como robot o bot), es decir, secciones que no deben rastrearse. Es importante comprender que esto, por definición, implica que una página que no se rastrea tampoco se indexará . Para ver cómo evitar que una página se indexe.

PASOS

  1. Identifique qué directorios y archivos en su servidor web desea bloquear para que el rastreador no los rastree
  2. Identifique si necesita o no especificar instrucciones adicionales para un robot de motor de búsqueda en particular más allá de un conjunto genérico de directivas de rastreo
  3. Utilice un editor de texto para crear el archivo robots.txt y las directivas para bloquear el contenido.
  4. Opcional: agregue una referencia a su archivo de mapa del sitio (si tiene uno)
  5. Verifique los errores al validar su archivo robots.txt
  6. Cargue el archivo robots.txt en el directorio raíz de su sitio.

Este es el contenido básico del archivo robot.txt que permite a todos los motores de búsqueda rastrear el sitio web y todos sus enlaces. Si no tiene ninguna personalización, puede usar este código escrito a continuación.

Agente de usuario: *
Rechazar:
Rastreo-retraso: 0
Mapa del sitio:

También puede generar este archivo a través de la herramienta Google Webmaster. Puede generar el uso de esta herramienta de generador de robot y tomaría solo 5 segundos crear un archivo txt de robot básico usando esta herramienta de SEO.

Esta herramienta es de uso gratuito.

Captura de pantalla:

El archivo descargado aparece así.

Esta herramienta de SEO también tiene una opción avanzada a través de la cual puede definir qué motor de búsqueda desea incluir o excluir.

Verifique estas capturas de pantalla:

¡Espero que esto ayude!

Escribir un archivo robots.txt es extremadamente fácil. Es solo un archivo de texto ASCII que coloca en la raíz de su dominio. Por ejemplo, si su dominio es http://www.mywebsite.com , coloque el archivo en http://www.mywebsite.com/robots.txt

Para aquellos que no saben qué es un archivo de texto ASCII, es solo un archivo de texto sin formato que se crea con un tipo de programa llamado editor de texto ASCII. Si usa Windows, ya tiene un editor de texto ASCII en su sistema, llamado Bloc de notas.

El archivo básicamente enumera los nombres de las arañas en una línea, seguido de la lista de directorios o archivos a los que no está permitido acceder en líneas posteriores, con cada directorio o archivo en una línea separada. Es posible usar el carácter comodín “*” (solo el asterisco, sin las comillas) en lugar de nombrar arañas específicas. Cuando lo haces, se supone que todas las arañas tienen nombre.

Tome el siguiente archivo robots.txt, por ejemplo:

Agente de usuario: *
No permitir: / cgi-bin /

Las dos líneas anteriores, cuando se insertan en un archivo robots.txt, informan a todos los robots (dado que se utilizó el carácter de asterisco comodín “*”) que no se les permite acceder a nada en el directorio cgi-bin y sus descendientes. Es decir, no se les permite acceder a cgi-bin / whatever.cgi o incluso a un archivo o script en un subdirectorio de cgi-bin.

Si tiene en mente un robot en particular, como el robot de búsqueda Baidu, puede incluir líneas como las siguientes:

Usuario-agente: Baidu
No permitir: /

Esto significa que el bot de búsqueda, “Baidu”, no debe intentar acceder a ningún archivo en el directorio raíz “/” y todos sus subdirectorios. Esto significa que está prohibido obtener cualquier archivo de todo su sitio web.

Puede tener varias líneas Disallow para cada agente de usuario (es decir, para cada araña). Aquí hay un ejemplo de un archivo robots.txt más largo:

Agente de usuario: *
No permitir: / images /
No permitir: / cgi-bin /

Usuario-agente: Baidu
No permitir: /

El primer bloque de texto no permite a todas las arañas del directorio de imágenes y el directorio cgi-bin. El segundo bloque de código no permite a la araña Baidu de cada directorio.

Es posible excluir a una araña de indexar un archivo en particular. Por ejemplo, si no desea que el robot de búsqueda Baidu indexe una imagen en particular, por ejemplo, mybike.jpg, puede agregar lo siguiente:

Usuario-agente: Baidu
No permitir: /images/mymugshot.jpg

¡Espero que esto te ayude!

1. Abra un archivo .txt (bloc de notas).
2. Ahora escriba uer-agent- *
3. A continuación, deshabilite la ruta de la categoría (como, deshabilitar, / optimización del motor de búsqueda /).

y luego guárdelo con el texto robots.txt

agente de usuario- *
no permitir- / seo / construcción de enlaces /

user-agent describe el rastreador o robot de un motor de búsqueda, y (*) aquí significa para todos los robots, si solo desea para Google, coloque (googlebot) en lugar de (*)

y no permitir significa la ruta de una página web que no desea que indexe un motor de búsqueda.

Agente de usuario: *

No permitir: / cgi-bin /

Las dos líneas anteriores, cuando se insertan en un archivo robots.txt, informan a todos los robots (dado que se utilizó el carácter de asterisco comodín “*”) que no se les permite acceder a nada en el directorio cgi-bin y sus descendientes. Es decir, no se les permite acceder a cgi-bin / whatever.cgi o incluso a un archivo o script en un subdirectorio de cgi-bin, como /cgi-bin/anything/whichever.cgi.

Simplemente busque los sitios web relevantes de su sitio o el sitio web de su competencia y visite: http://www.xyz.com/robots.txt de ese sitio web y copie ese código y colóquelo en su directorio. Será útil entre diferentes tipos de sitios como WordPress, Drupal, sitios ASP.Net

Si tiene alguna pregunta sobre SEO, comuníquese con nuestros expertos en SEO.

más información: Servicio de SEO gestionado: servicios de SEO gestionados rentables en Londres

El archivo Robots.txt es muy útil porque le dice al motor de búsqueda qué cosa debe rastrearse o no en el motor de búsqueda.

Los propietarios de sitios web usan el archivo /robots.txt para dar instrucciones sobre su sitio a los robots web; esto se llama el protocolo de exclusión de robots .

Funciona así: un robot quiere visitar la URL de un sitio web, por ejemplo, http://www.example.com/welcome.html . Antes de hacerlo, primero comprueba http://www.example.com/robots.txt y encuentra:

Más detalles: las páginas web de robots

Simplemente cree un archivo robots.txt con las directivas que desea proporcionar a los robots y colóquelo en el directorio raíz de su sitio web.

Normalmente, este sería su directorio public_html / o www /.

Si no sabe para qué sirve el archivo Robots.txt, utilice algunas herramientas. Hay varias herramientas disponibles en línea que generarán automáticamente el archivo Robots.txt para usted. Google simple

Aquí hay una guía breve y crujiente para ti. Y comentar. Su respuesta es muy valiosa para nosotros para mejorar la experiencia de los buscadores de información como usted

Esperamos que te sea útil

Todo lo que quieres saber sobre ROBOTS.txt – College Sip

aquí debajo otra referencia.

Las páginas web de robots

En lugar de publicar o hacer preguntas de una sola línea, puede buscarlo en Google para encontrar el mejor resultado.

Saludos cordiales
Servicios de SEO en Chennai
Diseño web responsivo en Chennai

Guarda tus robots . archivo txt Debe aplicar las siguientes convenciones de guardado para que Googlebot y otros rastreadores web puedan encontrar e identificar sus robots . Archivo txt : debe guardar sus robots . código txt como archivo de texto, debe colocar el archivo en el directorio de nivel más alto de su sitio (o la raíz de su dominio), y.

Su archivo Robots.txt como

Agente de usuario: *

Rechazar:

¿Tiene partes de su sitio web que no desea indexar? Asegúrese de utilizar un validador robot.txt para no arruinar su sitio indexado por Google.

Puede crear archivos de robots con el bloc de notas fácilmente. Solo necesita saber si desea rastrear todas las páginas o no. Dependiendo de esto, puede crear su archivo robots.txt.

Simplemente enloquece el archivo y colócalo en tu servidor web. Escriba todos los enlaces que desea que la araña de búsqueda no indexe y los enlaces que no desea indexar. Este enlace se envía para ser muy útil.

Depende de tu sitio. Si tiene un sitio de wordpress, use Yoast SEO y vaya al área de “herramientas”. Verá editar archivos y allí puede crear uno con un solo clic.

Si tiene un sitio diferente, deberá crear el archivo y colocarlo en la carpeta que contiene todos los demás archivos que componen su sitio web. Esto requerirá acceso de nivel de alojamiento a través de algo como C-panel, o tendrá acceso FTP.

Si todo esto le parece demasiado, puede consultar a un profesional.

Una guía detallada e ilustrada sobre cómo funciona el archivo robots.txt y qué debería decir.

¿Qué es el archivo robots.txt y cómo funciona?

http://tools.seobook.com/robots-
puede usar para generar el archivo robot.txt para cualquier sitio web.

Después de crear su archivo robot.txt, inicie sesión en la carpeta raíz del sitio y simplemente agregue su archivo usando un cliente FTP o usando el administrador de archivos cpanel.