¿Qué Son Los Archivos Robots.txt? ¿Para Qué sirven? Y Como Sacar el Mejor Provecho

Cuando tenemos un website para nuestro negocio, blog, o nuestros hobbies, lo que más queremos es que nuestro tráfico sea abundante. Una de las fuentes más grandes de tráfico para nuestros sitios web son los motores de búsqueda, siendo Google el más reconocido y más utilizado.

Para que los motores de búsqueda de internet puedan enviarnos tráfico, primero deben descubrir nuestro sitio y agregarlo a su base de datos. Para este fin, los motores como Google usan unos Bots que llaman “spiders” o arañas.

Estos bots, se encargan de leer la url, la información meta, y el contenido de las páginas de tu sitio para así poderla clasificar dentro de las categorías de la base de datos de Google.

Todo esto suena fácil, pero en realidad es un proceso muy complejo que involucra complejos algoritmos para poder llevar respuestas y contenido a sus usuarios.

Por otra parte, nosotros podemos controlar que tanto de nuestro website necesitan ver estos bots de Google o Bing. Y tiene sentido, ya que existen páginas y contenidos que no necesitamos mostrarle a los buscadores, como páginas de inicio de sesión o registro.

Para instruir a estos bots que partes de nuestro sitio deben y no deben ver, usaremos algo llamado los archivos Robot.txt. Así que, como lo habíamos prometido en nuestra anterior entrega, veamos que son los robots.txt, para qué sirven y cómo podemos sacar el mejor provecho de estos.

¿Qué son los archivos Robots.txt?

Los Robots.txt son archivos de texto que usamos los webmasters para darle instrucciones a los bots de los buscadores en que páginas ver, cuáles omitir, y cómo deben indexar nuestro sitio. Al nivel más básico, la función de dichos archivos es la de bloquear a los crawlers de ver tu website por completo, solo permitir que se vea una porción de tu site, ver únicamente los contenidos importantes o ayudar a indexar tu website.

Estos archivos están dentro de tu website. Si quieres ver tu archivo Robots.txt, solo basta con ir a TuDominio.com/robots.txt. En nuestro caso, seria WebKreativo.com/robot.txt.

Este archivo es importante ya que Google, y otros buscadores, recomiendan tenerlo para facilitar la indexación de tu sitio. Si no lo tienes, existe la posibilidad que Google no indexe tu sitio rápidamente.

El formato básico es:

User-agent: [nombre del bot, usuario o agente]

Disallow: [URL que no se debe leer por el bot]

Allow: [URL a la que queremos darle acceso al bot]

Ejemplos:

User-agent: Googlebot

Disallow: /log-in

User-agent: Bingbot

Disallow: /log-in

En este ejemplo, le estamos pidiendo a Google bot y a Bing Bot que no indexen nuestras pagina /log-in/.

Estas dos líneas se pueden considerar un archivo de texto Robots completo. Y aunque en la mayor parte de las ocasiones, este archivo contiene más líneas, en el nivel básico, este hace el trabajo necesario. También podemos agregar otras instrucciones para los bots como, Allow, disallow, o crawl:delay, pero por ahora nos vamos a enfocar solo en Allow y Disallow (Permitir y Rechazar).

Como ya te pudiste dar cuenta, en los archivos robot.txt podemos darle instrucciones diferentes a cada bot que visita nuestro sitio.

Una función más de los archivos robots.txt es la de indicar los sitemaps que tengas en tu sitio.

Ejemplo:

User-agent: *

Disallow: /wp-admin/

Disallow: /autor/

Sitemap: https://www.midominio.com/sitemap_index.xml

En el anterior ejemplo, primero indicamos que le estamos hablando a todos los bots/agentes con el símbolo *. En las siguientes 2 líneas, le pedimos a todos estos agentes que NO vean las páginas de inicio de WordPress con el /wp-admin/, y la de los autores del sitio con el /autor/.

Y por último, le estamos diciendo en donde se encuentra nuestro sitemap.

¿Qué páginas de mi website NO deberían ver los bots?

No todo el contenido que está en tu website es de importancia para los buscadores. Páginas con contenido muy escaso, o que tienen formularios de inicio de sesión no son relevantes para los buscadores, así que no es necesario que éstos los vean.

Si dentro de tu website tienes una función de “buscar” para que tus visitantes encuentren lo que necesitan rápido, deberás tener en cuenta que estas pueden generar errores en la indexación al ser dinámicas. Así que ante los ojos de Google tendrás muchísimas páginas, y algunas con contenido duplicado.

¿Qué crees que debes hacer para evitar esto?

¡Exacto! Debes usar «disallow» para evitar que Google intente indexar tu página de búsquedas.

¿Qué páginas de mi website SI deberían ver los bots?

Todas las páginas que contengan contenido original, bien estructurado, URLs claras y concisas, y sean útiles para el usuario. Tus páginas de servicio, tu home page, tu página de “contáctenos”.

Todas estas páginas deben estar en «Allow».

El atributo “Allow” viene por default, es decir, si no pones una página en Disallow, se entiende que quieres que los bots vean tu página. Pero no esta de más ponerlo, y más aún si le has dado instrucciones a otros bots de no ver alguna página.

Ejemplo

User-agent: *

Disallow: /log-in

User-agent: Bingbot

Allow: /log-in

En el ejemplo anterior. En las dos primeras líneas, le pedimos a todos los bots que no vean nuestra página /log-in/. Pero en las siguientes dos le damos la instrucción a BingBot de ver nuestra página de /log-in/.

Conclusión.

Usar correctamente los archivos Robots.txt en nuestro website es de vital importancia, ya que cualquier error nos puede llevar a que nuestro website sea ignorado, o indexado por los bots de los motores de búsqueda.

Si te estas preguntando cuáles páginas debo bloquear y cuáles mostrar, simplemente respóndete lo siguiente:

¿Hay contenido robusto dentro de la página?
¿Cuál es el propósito de la página?
¿Hay riesgo que mi página sea considerada contenido duplicado?
¿La URL es dinámica, o estática?

Si tienes suficiente contenido, la página tiene un propósito claro para tu empresa y para tus usuarios, no existe el riesgo de contenido duplicado, y tienes una URL estática, lo mejor es que esa pagina SI sea indexada por los bots.

Si por el contrario, tu contenido es muy delgado, el propósito de la página es ajeno a los motores de búsqueda y no necesita ser indexada, puede ser calificada como contenido duplicado, y tu URL es dinámica. Lo mejor es que los bots no la vean.

Si tienes mas preguntas sobre qué páginas deberían, o no, ver los buscadores, no dudes en dejarnos un comentario, y estaremos pendientes para responderte.

¿Te gustó? ¡Comparte este artículo con tus amigos!