Archivo robots.txt – Cómo afecta al SEO

Home  /  SEO   /  Archivo robots.txt – Cómo afecta al SEO

Archivo robots.txt – Cómo afecta al SEO

archivo robots.txt

Hoy os vamos a presentar a nuestro amigo, el archivo robots.txt.

Para los que no lo conozcáis, se trata de un archivo en formato texto con extensión txt.

Se encuentra en la carpeta raíz (/), dentro del servidor donde tengáis alojada vuestra página web.

Para consultarlo, lo podéis hacer de la siguiente forma:

  • Escribir en la barra superior del navegador la dirección de tu página web y al final, añadir una barra y “robots.txt”
  • Un ejemplo de lo comentado anteriormente sería: midominio.com/robots.txt

Donde “midominio.com” sería la dirección de vuestra página.

Ejemplo robots.txt para WordPress

ejemplo archivo robots.txt

Ahora que ya sabemos dónde localizarlo y cómo consultarlo, vamos a ver para qué sirve.

¿Para qué sirve el archivo robots.txt?

Básicamente este archivo sirve para decirle a los bots/crawlers dónde tienen acceso y dónde no, dentro de nuestra web.

Te preguntarás: ¿Qué son los bots/crawlers?

Se trata de programas que acceden a las páginas web para rastrearlas, analizar su contenido, y en el caso de el Bot de Google, indexar tu web para que aparezca en sus resultados de búsqueda.

Con este archivo, podemos regular en cierta medida el acceso a estos rastreadores, así como el tiempo entre accesos.

¿Dónde está el archivo robots.txt?

Para encontrar el archivo en cuestión, os voy a comentar los 2 casos más habituales.

Una vez instalado debemos acceder a través del menú de la izquierda a la sección SEO, y dentro de esta al apartado HerramientasEditor de archivos.

robots.txt wordpress

Una vez accedemos al Editor de archivos, veremos que, en la parte superior de la página, Yoast SEO nos ha creado un archivo robots.txt básico.

Veremos también que hay otro archivo editable. Se trata del .htaccess. Otro día ya explicaremos para qué sirve este archivo. Por el momento os recomiendo no tocarlo.

  • La otra opción que os comentaba para editar el robots, es a través del servidor donde esté alojada la página web.

Para ello, debéis pedir las claves de acceso a vuestro servidor de hosting (empresa a la que habéis contratado el alojamiento de la página web).

Con un programa como FileZilla, y las credenciales que os hayan facilitado, podréis acceder al servidor, y por lo tanto, a la carpeta raíz donde este vuestra página.

Se trata de un método para todos aquellos cuya web no esté hecha en WordPress, o bien, sea una página hecha a medida. De esta forma podrán editar, subir y bajar archivos que estén alojados en el servidor.

Si, por el contrario, vuestra web está implementada en WordPress, os recomiendo instalar el plugin Yoast SEO y realizar las modificaciones a través del editor de archivos que os comentaba anteriormente.

¿Cómo se crea el archivo robots.txt?

Ahora que ya sabemos para qué sirve y dónde está, vamos a ver cómo se crea el archivo robots.txt:

En primer lugar, tenemos que definir el comando “User-agent: ”. En caso de NO querer impedir el acceso de ningún bot/crawler a nuestra página web, debemos poner lo siguiente:

User-agent: *

Si por lo contrario queremos bloquear el acceso a algún bot/crawler, deberíamos hacer:

User-agent: Nombre Crawler (Aquí especificamos el campo del crawler que queremos que no pueda rastrear nuestra página web)

Disallow: / (Con el comando disallow, lo que estamos diciéndole es que este crawler en concreto, tenga deshabilitado el acceso a todo el dominio. Desde la /Home en adelante).

disallow robots.txt

Al final del post os daré un listado de varios crawlers que podéis inhabilitar para que accedan a vuestra página web.

Después del comando User-agent:, habitualmente tenemos que añadir el siguiente comando:

Crawl-delay: 60 (Lo que estamos indicándole al bot/crawler, es que debe esperar 60 segundos entre 2 accesos consecutivos a nuestra página web. Este comando se añade para evitar que los rastreadores puedan sobresaturar el servidor donde se aloja nuestra página web si acceden en exceso).

A partir de este punto, 2 son los comandos principales para ir configurando nuestro archivo robots.txt

  • Allow: /nombre_carpeta/ (Con este comando le estamos diciendo a los bots que pueden acceder a esta carpeta).
  • Disallow: /nombre_carpeta/ (Mientras que, con este comando, les estamos denegando el acceso a dicha carpeta).

Todas esas páginas que contengan errores 404, contenidos duplicados o de poco valor, que queramos desindexar de Google y que no las pueda rastrear, se recomienda añadirlas con el comando Disallow.

Si por ejemplo tenemos un Blog implementado en WordPress, y queremos evitar contenidos duplicado. (Penalizados por Google). Deberíamos hacer un Disallow de los paths /category/, /tag/, /author/, etc.

Si, por lo contrario, no os sentís muy cómodos editando este documento, hay muchas opciones para hacer un disallow que se pueden activar desde el Plugin de Yoast SEO.

En cualquier lugar dentro del archivo robots, podemos añadir un comentario. Para introducir cualquier descripción o frase que nos aclare el contenido, justo delante de la frase debemos poner el símbolo #.

De tal forma que podemos añadir comentarios para recordar en un futuro porqué deshabilitamos unas determinadas URL’s por ejemplo.

Ej: # URL’s con Errores 404

Y debajo haríamos un Disallow de todas ellas.

Para acabar con el archivo, es bueno añadir la dirección del Sitemap.xml de la siguiente forma:

# Sitemap

Sitemap: https://tu_dominio.com/tu_sitemap.xml

Y aquí os dejo el listado de los crawlers/bots poco útiles, que tratarán de acceder a vuestras webs:

MSIECrawler, WebCopier, HTTrack, Microsoft.URL.Control, libwww, Orthogaffe, UbiCrawler, DOC, Zao, sitecheck.internetseer.com, Zealbot, MSIECrawler, SiteSnagger, WebStripper, WebCopier, Fetch, Offline Explorer, Teleport, TeleportPro, WebZIP, linko, HTTrack, Microsoft.URL.Control, Xenu, larbin, libwww, ZyBORG, Download Ninja, wget, grub-client, k2spider, NPBot, WebReaper.

Aunque son poco útiles, tengo que decir que yo no les prohíbo el acceso, puesto que no son dañinos. Simplemente rastrean tu página web y pueden extraer información que sea útil para ellos.

Lo que si me gusta es añadir el Crawl-delay para evitar que saturen el servidor y mi página vea afectado su tiempo de carga.

Espero que os haya podido aclarar qué es el archivo robots.txt y para qué sirve.

Y ahora, ¡todos a implementarlo en vuestras páginas web!

Si os ha parecido interesante o creéis que le puede ser útil a alguien, por favor compartirlo.

¡Gracias!

Archivo robots.txt – Cómo afecta al SEO
5 (100%) 5 votes

Consultor en marketing digital, especializado en SEO. Después de haber vivido la experiencia en el mundo de la empresa, decidí encaminar mi futuro profesional hacia lo que siempre había deseado. Gestionar mis propios proyectos. Destacando entre ellos el Blog de Mr Dupon.

No hay comentarios
Deja un comentario