Guía para crear el archivo robots txt para Google ¿Qué son y cómo funcionan?

Los motores de búsqueda usan programas llamados bots para rastrear los sitios web, en busca de cambios o nuevo contenido. Esto llevó a que en 1994, Martijn Koster propusiera la creación del archivo robots.txt para bloquear bots maliciosos que atacaban los sitios web.

1. ¿Qué es el archivo Robots txt?

Es un archivo de texto, que contiene las instrucciones de las acciones que tienen permitidas los rastreadores web cuando visitan un sitio web. En el archivo robots.txt, se señala a los robots o bots de los buscadores, las partes del sitio web pueden rastrear y las que no.

Lo primero que hace un robot, cuando acceda a un sitio web, es descargar el archivo denominado robots.txt y, basándonos en lo que encuentre en el archivo, ejecutará las instrucciones allí descritas respecto al sitio que está visitando.

Si el sitio web, no tiene creado el archivo robots.txt, los bots accederán, pero no tendrán directivas que seguir, lo que puede ser perjudicial en sitios con mucho contenido., Ya que la información que está en el archivo robots.txt son instrucciones, no reglas, y sin él, los buscadores harán cualquier cosa.

En resumen, es recomendable tener este archivo optimizado, ya que contribuir a un mejor posicionamiento del sitio web.

2. Comodines usados en el archivo robots txt

Los comodines usados en el archivo robots txt para completar las directivas son los siguientes:

Asterisco (*)

El asterisco es un símbolo que representa cualquier secuencia de caracteres, por lo que si se escribe: /*.pdf hace referencia a todos los archivos que contengan .pdf.

Almohadilla (#)

El numeral o almohadilla es usado para escribir comentarios dentro del archivo robot.txt, por lo que todo lo que empiece por # será ignorado por los bots.

Por ejemplo: #bloqueo de búsquedas

De esta forma, se tiene mejor control y orden en el archivo robots.txt.

Símbolo de dólar ($)

El símbolo de dólar es un comodín que indica que no le aplicará el comando a cualquier carácter que se encuentre después del $.

Es decir, que si en el archivo robots.txt aparece: /*.pdf$ se está indicando que la directiva solamente aplica para los archivos que terminen en .pdf. El comodín $ también se utiliza para indicar el final de una URL.

3. Directivas usadas en el archivo robots txt

Los comandos o directivas usadas en el archivo robots txt funcionan de forma similar a HTML y a otros lenguajes de programación. Las instrucciones o directivas usadas con mayor frecuencia son las siguientes:

User-agent

La directiva User-agent o agente de usuario indica a cuales bots quieres dirigirte, aunque lo normal es que todos los robots puedan acceder a tu sitio web:

User-agent: *

El comando anterior significa que es aplicable a cada agente de usuario. Mientras que, si solo quieres que el robot de Google sea el único que tenga acceso, la directiva que debes escribir es:

User-agent: Googlebot

Y todo lo que agregues debajo de este comando, aplicará solamente para el bot de Google.

Disallow

La instrucción Disallow, como su nombre lo indica, evita que los buscadores rastreen una página web o cualquier parte de ella. Si en el archivo robots.txt, aparece la instrucción:

Disallow: /

Le estás diciendo a los motores de búsqueda, como Google, que no rastree nada de tu sitio web.

Allow

La directiva Allow ejecuta una acción contraria al comando Disallow, es decir, que permite a los buscadores el rastreo. Se utiliza, exclusivamente, para permitir el acceso a partes específicas, que antes fueron bloqueadas por un Disallow.

Por ejemplo, si quieres bloquear el blog completo, salvo una entrada, las instrucciones son como sigue:

User-agent: *
Disallow: /blog
Allow: /blog /post-permitido

4. ¿Cómo crear robots txt para Google?

Crear robots txt para Google es realmente fácil, ya que puede hacerse con cualquier editor de texto que tengas a la mano.
Lo primero es redactar el contenido del archivo usando las directivas y los comodines necesarios, para cumplir con el propósito que tiene el robots.txt.
A continuación, hay que guardarlo como un archivo con extensión .txt.
Como punto final, hay que indicarle la ubicación del SiteMap o mapa del sitio web, añadiéndole la siguiente línea al final del robots.txt: midominio.com/sitemap.xml
Con la ubicación del SiteMap incluida en el robots.txt, solo resta subirlo al directorio raíz de tu sitio web, usando el panel del servidor o por FTP.
Para comprobar que está ubicado correctamente, solo hay que añadir al nombre de tu dominio “/robots.txt”, así: https://midominio.com/robots.txt.

robots txt

5. ¿Cómo generar robots txt WordPress?

Generar robots txt WordPress es un proceso automático que se realiza, de forma predeterminada, cuando se crea un sitio web usando este CMS.
El código de tres líneas, que se genera por defecto, en WordPress, para el archivo robots.txt es el siguiente:

#Permitir a todos los buscadores el rastreo de tu web
o User-agent: *

#Exclusión de robots o evitar el rastreo del administrador de WordPress
o Disallow: /wp-admin/

#Permitir que solamente se rastree el admin-ajax.php
o Allow: /wp-admin/admin-ajax.php

#Aquí hay que agregar la línea de tu SiteMap.
o Para añadir la línea de tu SiteMap, hay que editar el archivo robots txt WordPress generado, para lo que se recomienda usar un plugin.

WordPress tiene dos plugins de SEO, que traen un complemento para editar directamente el robots.txt:

Rank Math: se encuentra en: Ajustes generales > Editar robots.txt.
Yoast: se encuentra en: Herramientas > Editor de archivos.

Aprende a crear tu Blog en WordPress (2022). Haz clic aquí.
Robot txt

6. ¿Qué es un robots txt Generator?

Un Robots txt Generator es un programa que genera un archivo robots.txt de forma automática, con solo establecer algunos parámetros; siendo una forma fácil de crear robots txt para Google y otros buscadores.!HI!

7. ¿Qué es y para qué sirve el Google Search Console?

Google dispone para tu sitio web un servicio para verificar la salud de tu sitio web con sus tecnologías de rastreo e indexación, un aspecto básico para ver de propia mano, que esta funcionando y que no para tu sitio web. Para nuestro caso en este artículo, Google te informa si tu archivo robots está correctamente configurado, fecha del último rastreo o incluso validación de su estructura algún tema que mejorar.

Google Search console archivo robots txt

8. ¿Para qué sirve el archivo robots txt?

El archivo robots txt sirve para dar órdenes específicas a los bots, por lo que, cuando este archivo está bien creado, ayuda a:

  • Realizar tareas de mantenimiento, al poder incluir un comando: Disallow: /
  • Evitar el acceso a páginas restringidas o irrelevantes, como el checkout o el carrito de compra: Disallow: /checkout/ y Disallow: /cart/
  • Bloquear el acceso a los archivos de recursos, que son poco relevantes, para prevenir la sobrecarga del hosting, evitando peticiones a páginas innecesarias.
  • Evitar el desperdicio del presupuesto de rastreo de Google, lo que incrementa la probabilidad de tener un mejor acceso y por más tiempo, a página relevantes.
  • Evitar el contenido duplicado.

9. Conclusión

El archivo robots txt sirve para garantizar un mejor funcionamiento del rastreo que hacen los buscadores de los sitios web, en su búsqueda de cambios y nuevos contenidos. Evitan rastreos innecesarios que sobrecargan el hosting donde está alojada la página web y que la ralentizan, afectando el posicionamiento SEO.

Por ello, es recomendable tener el robots.txt y mantenerlo optimizado, para que los motores de búsqueda prioricen el sitio web en sus rastreos.

Comenta lo que quieras

Unete a la charla
Solo ingresa tu email