¿Qué es un archivo Robots.txt? ¿Y cómo se crea uno? (Tutorial para principiantes)

¿Sabía que tiene un control total sobre quién rastrea e indexa su sitio, hasta las páginas individuales?

¿Qué es un archivo Robots.txt? ¿Y cómo se crea uno? (Tutorial para principiantes)

La forma de hacerlo es a través de un archivo llamado Robots.txt.

Robots.txt es un simple archivo de texto ubicado en el directorio raíz de su sitio web. Indica a los "robots" (por ejemplo, las arañas de los motores de búsqueda) qué páginas de su sitio web deben rastrear y qué páginas deben ignorar.

El archivo Robots.txt, aunque no es estrictamente necesario, le ofrece un gran control sobre la forma en que Google y otros motores de búsqueda ven su sitio.

Utilizado correctamente, esto puede mejorar el rastreo e incluso tener un impacto en la optimización de los motores de búsqueda.

Pero, ¿cómo se crea exactamente un archivo Robots.txt eficaz? ¿Cómo se utiliza una vez que se ha creado? ¿Y qué errores hay que evitar al utilizarlo?

En este post, aprenderás todo lo que necesitas saber sobre el archivo Robots.txt y cómo utilizarlo en tu blog.

Vamos a sumergirnos:

¿Qué es un archivo Robots.txt?

En los primeros días de Internet, los programadores e ingenieros desarrollaron "robots" o "arañas" para rastrear e indexar páginas en la web. Estos robots también se denominan "agentes de usuario".

A veces estos robots llegaban a páginas que los propietarios del sitio no querían que se indexaran. Por ejemplo, una página en construcción o un sitio web privado.

Para resolver este problema, Martijn Koster, un ingeniero holandés que desarrolló el primer motor de búsqueda del mundo (Aliweb), propuso una serie de normas que todo robot debe cumplir. Estas normas se propusieron por primera vez en febrero de 1994.

El 30 de junio de 1994, varios autores de robots y pioneros de la Web se pusieron de acuerdo sobre las normas.

Estas normas se adoptaron como Protocolo de Exclusión de Robots (REP).

El archivo Robots.txt es una implementación de este protocolo.

El REP define un conjunto de reglas que cualquier rastreador o araña legítima debe seguir. Si Robots.txt indica a los robots que no indexen una página web, cualquier robot legítimo -desde Googlebot hasta MSNbot- debe seguir las instrucciones.

Nota: Puede encontrar una lista de rastreadores legítimos aquí .

Tenga en cuenta que algunos robots maliciosos -malware, spyware, recolectores de correo electrónico, etc.- pueden no seguir estos protocolos. - pueden no seguir estos protocolos. Por esta razón, es posible que vea tráfico de bots en páginas que ha bloqueado a través de Robots.txt.

También hay robots que no siguen las normas de la REP y no se utilizan para nada cuestionable.

Puede ver el robots.txt de cualquier sitio web accediendo a esa URL:

http:

Por ejemplo, aquí está el archivo Robots.txt de Facebook:

Y aquí está el archivo Robots.txt de Google:

Uso de Robots.txt

Robots.txt no es un documento esencial para un sitio web. Su sitio web puede clasificarse y crecer muy bien sin este archivo.

Sin embargo, el uso de Robots.txt tiene algunas ventajas:

Evitar que los bots rastreen las carpetas privadas - Aunque no es perfecto, hacer que los bots rastreen las carpetas privadas las hace mucho más difíciles de indexar - al menos por los bots legítimos (como las arañas de los motores de búsqueda).

Controle el uso de recursos - Cada vez que un bot rastrea su sitio, consume el ancho de banda y los recursos del servidor, recursos que podrían emplearse mejor en los visitantes reales. Para los sitios con mucho contenido, esto puede aumentar los costes y dar a los visitantes reales una mala experiencia. Puede utilizar Robots.txt para bloquear el acceso a scripts, imágenes irrelevantes, etc. para ahorrar recursos.

Dar prioridad a las páginas importantes - Usted quiere que las arañas de los motores de búsqueda rastreen las páginas importantes de su sitio web (por ejemplo, las páginas de contenido) y no malgasten recursos escarbando en páginas inútiles (por ejemplo, los resultados de las consultas de búsqueda). Al bloquear estas páginas inútiles, puede dar prioridad a las páginas en las que se centran los bots.

Cómo encontrar su archivo Robots.txt

Como su nombre indica, Robots.txt es un simple archivo de texto.

Este archivo se almacena en el directorio raíz de su sitio web. Para encontrarlo, simplemente abra su herramienta FTP y navegue hasta el directorio de su sitio web en public_html.

Se trata de un archivo de texto minúsculo: el mío tiene poco más de 100 bytes.

Utilice cualquier editor de texto, como el Bloc de notas, para abrirlo. Puede que veas algo así:

Existe la posibilidad de que no vea un archivo Robots.txt en el directorio raíz de su sitio web. En este caso, debe crear usted mismo un archivo Robots.txt.

He aquí cómo:

Cómo crear un archivo Robot.txt

Dado que Robots.txt es un simple archivo de texto, crearlo es MUY fácil: basta con abrir un editor de texto y guardar un archivo en blanco como robots.txt.

Para subir este archivo a su servidor, utilice su herramienta FTP favorita (recomiendo WinSCP ) para entrar en su servidor web. A continuación, abra la carpeta "public_html" y abra el directorio raíz de su sitio web.

Dependiendo de cómo esté configurado su alojamiento web, la raíz de su sitio web puede estar directamente en la carpeta public_html. O puede ser una carpeta dentro de esta carpeta.

Una vez que haya abierto el directorio raíz de su sitio web, simplemente arrastre y suelte el archivo Robots.txt en ese directorio.

También puede crear el archivo Robots.txt directamente en su editor FTP.

Para ello, abra el directorio raíz de su sitio y haga clic con el botón derecho del ratón en "Crear nuevo archivo".

En el cuadro de diálogo, escriba "robots.txt" (sin comillas) y haga clic en Aceptar.

Debería ver un nuevo archivo robots.txt allí:

Por último, asegúrese de que ha establecido los permisos correctos para el archivo Robots.txt. Usted quiere que el propietario -usted- pueda leer y escribir en el archivo, pero no los demás o el público.

Su archivo Robots.txt debería mostrar "0644" como código de permiso.

Si no es así, haga clic con el botón derecho en su archivo Robots.txt y seleccione "Permisos de archivo...".

Ahí lo tiene: un archivo Robots.txt totalmente funcional.

Pero, ¿qué se puede hacer realmente con este archivo?

A continuación, le mostraré algunas instrucciones generales que puede utilizar para controlar el acceso a su sitio web.

Cómo utilizar Robots.txt

Recuerde que Robots.txt controla esencialmente cómo los robots interactúan con su sitio.

¿Quiere impedir que los motores de búsqueda accedan a todo su sitio web? Simplemente cambie los permisos en Robots.txt.

¿Quieres evitar que Bing indexe tu página de contacto? Tú también puedes hacerlo.

El archivo Robots.txt por sí solo no mejorará su optimización en los motores de búsqueda, pero puede utilizarlo para controlar el comportamiento de los rastreadores en su sitio.

Para añadir o modificar el archivo, basta con abrirlo en su editor FTP y añadir el texto directamente. Una vez que guarde el archivo, los cambios se aplicarán inmediatamente.

Aquí hay algunos comandos que puede utilizar en su archivo Robots.txt:

1. bloquear todos los bots de su sitio web

¿Quiere evitar que todos los robots rastreen su sitio web?

Pegue este código en su archivo Robots.txt:

Agente de usuario: * undefined Disallow:

Así es como se vería en el archivo real:

En pocas palabras, este comando indica a cada agente de usuario (*) que no acceda a ningún archivo o carpeta de su sitio.

Aquí está la explicación completa de lo que ocurre exactamente aquí:

User-agent:* - El asterisco (*) es un carácter "comodín" que se aplica a cualquier objeto (como los nombres de archivo o en este caso el bot). Si buscas "*.txt" en tu ordenador, aparecerá cualquier archivo con extensión .txt. Aquí, el asterisco significa que su comando se aplica a cualquier agente de usuario.

No lo dejes:

Nota: Esto es ideal si usted está ejecutando un sitio web privado, como un sitio de membresía. Pero tenga en cuenta que esto impedirá que los robots legítimos, como Google, rastreen su sitio. Utilízalo con precaución.

2. bloquear el acceso de todos los bots a una carpeta específica

¿Y si quieres evitar que los bots rastreen e indexen una carpeta específica?

Por ejemplo, el

Utiliza este comando:

Agente de usuario: * undefined Disallow:

Si quieres evitar que los bots accedan al

Este comando es útil si tienes una carpeta de recursos que no quieres saturar con peticiones de robots rastreadores. Puede ser una carpeta con scripts sin importancia, imágenes obsoletas, etc.

Nota: El

Los motores de búsqueda no suelen ver con buenos ojos que los administradores de sitios web impidan a sus robots rastrear carpetas que no sean de imágenes, así que tenga cuidado al utilizar este comando. A continuación he enumerado algunas alternativas al Robots.txt para evitar que los motores de búsqueda indexen ciertas páginas.

3. bloquear ciertos bots de su sitio web

¿Y si quiere impedir que un robot específico -como Googlebot- acceda a su sitio web?

Este es el orden para ello:

Agente de usuario: [nombre del robot] indefinido Disallow:

Por ejemplo, si quieres bloquear el Googlebot de tu sitio web, usarías esto:

Cada bot o agente de usuario legítimo tiene un nombre específico. Por ejemplo, la araña de Google se llama simplemente "Googlebot". Microsoft maneja tanto "msnbot" como "bingbot". El bot de Yahoo se llama "Yahoo! Slurp".

Los nombres exactos de los diferentes agentes de usuario (por ejemplo, Googlebot, bingbot, etc.) pueden encontrarse en esta página.

Nota: El comando anterior bloquearía un bot específico de todo su sitio. Googlebot sólo se utiliza como ejemplo. En la mayoría de los casos, nunca querrá impedir que Google rastree su sitio. Un caso de uso específico para bloquear bots específicos es mantener los bots que son útiles para usted en su sitio, mientras que se detienen los bots que no son útiles para su sitio.

4. bloquear un archivo específico para el rastreo

El Protocolo de Exclusión de Robots le ofrece un control detallado sobre los archivos y carpetas a los que desea bloquear el acceso de los robots.

Este es el comando que puede utilizar para evitar que un archivo sea rastreado por cualquier robot:

Agente de usuario: * undefined Disallow:

Así que si quieres bloquear un archivo llamado "img_0001.png" de la carpeta de imágenes, utilizarías este comando:

5. bloquear el acceso a una carpeta, pero permitir la indexación de un archivo

El comando Disallow bloquea el acceso de los bots a una carpeta o archivo.

El comando "Permitir" tiene el efecto contrario.

El comando Permitir sustituye al comando No Permitir cuando el primero se dirige a un solo archivo.

Esto significa que puede bloquear el acceso a una carpeta, pero seguir permitiendo que los agentes de usuario accedan a un solo archivo dentro de la carpeta.

Este es el formato a utilizar:

Agente de usuario: * undefined Disallow:

Por ejemplo, si quieres evitar que Google rastree la carpeta "images", pero darle acceso al archivo "img_0001.png" almacenado en ella, utilizarías el siguiente formato:

Para el ejemplo anterior, se vería así:

Esto afectaría a todas las partes en el

¿Y si quiere evitar que se indexen todas las páginas que coincidan con una determinada extensión (por ejemplo, ".php" o ".png")?

Usa esto:

Agente de usuario: * undefined Disallow:

El carácter ($) representa aquí el final de la URL, es decir, la extensión es la última cadena de la URL.

Si quieres bloquear todas las páginas con la extensión ".js" (para javascript), utilizarías lo siguiente:

Este comando es especialmente efectivo cuando se quiere evitar que los bots rastreen los scripts.

6. evitar que los bots rastreen su sitio web con demasiada frecuencia

En los ejemplos anteriores, es posible que haya visto este comando:

Agente de usuario: * indefinido Retraso de rastreo: 20

Este comando ordena a todos los bots que esperen al menos 20 segundos entre las solicitudes de rastreo.

El comando de retardo de rastreo se utiliza a menudo en sitios web grandes con contenidos que se actualizan con frecuencia (por ejemplo, Twitter). Este comando ordena a los bots que esperen un tiempo mínimo entre peticiones sucesivas.

Esto asegura que el servidor no se sobrecargue con demasiadas peticiones de diferentes bots al mismo tiempo.

Por ejemplo, este es el archivo Robots.txt de Twitter, que indica a los bots que deben esperar al menos 1 segundo entre peticiones:

Incluso puedes controlar el retraso de rastreo de cada uno de los bots. Esto garantiza que no haya demasiados bots rastreando su página al mismo tiempo.

Por ejemplo, puedes tener un conjunto de comandos como este:

Nota: Realmente no necesitarás este comando a menos que tengas un sitio web enorme con miles de páginas nuevas creadas cada minuto (como Twitter).

Errores comunes que deben evitarse al utilizar Robots.txt

El archivo Robots.txt es una poderosa herramienta para controlar el comportamiento de los bots en su sitio web.

Sin embargo, también puede conducir a un desastre de SEO si no se utiliza correctamente. No ayuda el hecho de que haya una serie de conceptos erróneos sobre Robots.txt flotando por Internet.

Estos son algunos de los errores que hay que evitar al utilizar el Robots.txt:

Error

Si se "desautoriza" una carpeta en el archivo Robots.txt, los robots legítimos no podrán rastrearla.

Pero eso sigue significando dos cosas:

Los bots QUIEREN rastrear el contenido de la carpeta que está enlazada desde fuentes externas. Por ejemplo, si otro sitio web enlaza con un archivo de su carpeta bloqueada, los bots lo seguirán y lo indexarán.

Bots maliciosos: spammers, spyware, malware, etc. - suelen ignorar las instrucciones de Robots.txt e indexan su contenido de todos modos.

Esto hace que Robots.txt sea una herramienta pobre para evitar que el contenido sea indexado.

Esto es lo que deberías usar en su lugar: Utilice la etiqueta 'meta noindex'.

Añada la siguiente etiqueta a las páginas que no deben ser indexadas:

<meta name="robots" content="noindex">

Este es el método recomendado por el SEO para evitar que una página sea indexada (aunque no bloquea a los spammers).

Nota: Si utilizas un plugin de WordPress como Yoast SEO o All in One SEO, puedes hacer esto sin editar ningún código. Por ejemplo, en el plugin Yoast SEO puedes añadir la etiqueta noindex por post

Sólo hay que desplegar y publicar

Además, a partir del 1 de septiembre, Google dejará de admitir el uso de "noindex" en los archivos robots.txt. Este artículo de SearchEngineLand contiene más información.

Error

Si tiene contenido privado -como los PDF de un curso por correo electrónico- bloquear el directorio mediante el archivo Robots.txt ayuda, pero no es suficiente.

He aquí la razón:

Su contenido puede seguir siendo indexado si está enlazado desde fuentes externas. Además, los bots maliciosos seguirán rastreándolo.

Un método mejor es mantener todo el contenido privado detrás de un inicio de sesión. Esto garantiza que nadie -bots legítimos o maliciosos- pueda acceder a su contenido.

La desventaja es que significa que sus visitantes tienen que pasar por un aro adicional. Pero su contenido será más seguro.

Error

El contenido duplicado es un gran no-no cuando se trata de SEO.

Sin embargo, el uso de Robots.txt para evitar que este contenido sea indexado no es una solución. De nuevo, no hay garantía de que las arañas de los motores de búsqueda no encuentren este contenido a través de fuentes externas.

Aquí hay 3 maneras más de lidiar con el contenido duplicado:

Eliminar el contenido duplicado - Esto eliminará el contenido por completo. Sin embargo, esto significa que dirigirá a los motores de búsqueda a páginas 404 - no es lo ideal. Por este motivo, no se recomienda su eliminación.

Utilice una redirección 301 - Una redirección 301 indica a los motores de búsqueda (y a los visitantes) que una página ha sido trasladada a una nueva ubicación. Simplemente añada una redirección 301 al contenido duplicado para dirigir a los visitantes a su contenido original.

Añadir la etiqueta "rel="canonical" - Esta etiqueta es una versión 'meta' de la redirección 301. La etiqueta "rel=canonical" indica a Google cuál es la URL original de una página determinada. Por ejemplo, este código: undefined <link href="http:

Si quiere que los visitantes accedan al contenido duplicado, utilice la etiqueta rel="canonical". Si no quiere que los visitantes o los bots accedan al contenido, utilice una redirección 301.

Tenga cuidado al implementar ambos, ya que afectará a su SEO.

Sobre ti

El archivo Robots.txt es un útil aliado para configurar la forma en que las arañas de los motores de búsqueda y otros bots interactúan con su sitio web. Cuando se utiliza correctamente, puede tener un impacto positivo en su clasificación y hacer que su sitio web sea más fácil de rastrear.

Utilice esta guía para entender cómo funciona Robots.txt, cómo instalarlo y algunas formas comunes de utilizarlo. Y evitar los errores que hemos comentado anteriormente.

Lea más:

Las mejores herramientas de seguimiento de rangos para bloggers, comparadas

La guía definitiva para conseguir Sitelinks de Google

5 potentes herramientas de búsqueda de palabras clave en comparación

Porción de 1K

Categoria: sin categoria