Introducción

El archivo robots.txt es un archivo de texto simple que se coloca en el directorio raíz de un sitio web. Su propósito principal es comunicar a los motores de búsqueda qué partes del sitio web deben o no deben rastrear. Aunque no es una garantía de que los motores de búsqueda respeten estas directrices, es una práctica estándar en la optimización técnica de SEO.

¿Qué es el archivo Robots.txt?

El archivo robots.txt es un archivo de texto que utiliza el Protocolo de Exclusión de Robots (REP) para indicar a los rastreadores web (bots) qué páginas o secciones del sitio web deben ser ignoradas. Este archivo es especialmente útil para:

  • Evitar la sobrecarga del servidor al limitar el acceso de los bots a ciertas áreas del sitio.
  • Prevenir la indexación de contenido duplicado.
  • Proteger información sensible que no debería ser rastreada o indexada.

Estructura del archivo Robots.txt

Un archivo robots.txt típico tiene una estructura simple y se compone de directivas que indican a los bots qué hacer. Aquí hay un ejemplo básico:

User-agent: *
Disallow: /admin/
Disallow: /private/

Desglose del Ejemplo

  • User-agent: Especifica a qué bots se aplican las directivas siguientes. El asterisco (*) indica que las directivas se aplican a todos los bots.
  • Disallow: Indica las rutas que no deben ser rastreadas. En este caso, los directorios /admin/ y /private/ no serán rastreados por los bots.

Directivas Comunes

User-agent

Esta directiva especifica a qué bots se aplican las reglas siguientes. Puedes especificar un bot en particular o usar el asterisco (*) para aplicarlo a todos los bots.

User-agent: Googlebot
Disallow: /no-google/

Disallow

Esta directiva indica las rutas que no deben ser rastreadas. Puedes especificar directorios completos o archivos individuales.

Disallow: /private/
Disallow: /temp/file.html

Allow

Esta directiva se utiliza para permitir el acceso a subdirectorios o archivos específicos dentro de un directorio que ha sido desautorizado.

User-agent: *
Disallow: /images/
Allow: /images/public/

Sitemap

Puedes incluir la ubicación de tu sitemap en el archivo robots.txt para ayudar a los bots a encontrarlo fácilmente.

Sitemap: https://www.example.com/sitemap.xml

Ejemplo Completo de Robots.txt

Aquí tienes un ejemplo más completo que incluye varias directivas:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml

User-agent: Googlebot
Disallow: /no-google/

Ejercicio Práctico

Ejercicio 1: Crear un archivo Robots.txt

Objetivo: Crear un archivo robots.txt que:

  1. Bloquee todos los bots de acceder al directorio /admin/.
  2. Permita a todos los bots acceder al directorio /public/.
  3. Bloquee a Googlebot de acceder al directorio /no-google/.
  4. Incluya la ubicación del sitemap.

Solución:

User-agent: *
Disallow: /admin/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml

User-agent: Googlebot
Disallow: /no-google/

Ejercicio 2: Analizar un archivo Robots.txt

Objetivo: Analizar el siguiente archivo robots.txt y explicar qué hace cada directiva.

User-agent: *
Disallow: /private/
Disallow: /temp/
Allow: /temp/public/
Sitemap: https://www.example.com/sitemap.xml

User-agent: Bingbot
Disallow: /no-bing/

Solución:

  • User-agent: *: Las directivas siguientes se aplican a todos los bots.
  • Disallow: /private/: Bloquea el acceso al directorio /private/ para todos los bots.
  • Disallow: /temp/: Bloquea el acceso al directorio /temp/ para todos los bots.
  • Allow: /temp/public/: Permite el acceso al subdirectorio /temp/public/ dentro del directorio bloqueado /temp/ para todos los bots.
  • Sitemap: https://www.example.com/sitemap.xml: Proporciona la ubicación del sitemap.
  • User-agent: Bingbot: Las directivas siguientes se aplican solo al bot de Bing.
  • Disallow: /no-bing/: Bloquea el acceso al directorio /no-bing/ para el bot de Bing.

Conclusión

El archivo robots.txt es una herramienta esencial en la optimización técnica de SEO. Permite controlar qué partes de tu sitio web son rastreadas por los motores de búsqueda, lo que puede ayudar a mejorar la eficiencia del rastreo y proteger áreas sensibles de tu sitio. Asegúrate de revisar y actualizar tu archivo robots.txt regularmente para reflejar cualquier cambio en la estructura de tu sitio web.

En el próximo tema, exploraremos los Datos Estructurados y Marcado de Esquema, que te ayudarán a mejorar la visibilidad de tu sitio web en los resultados de búsqueda.

Curso de SEO (Optimización para Motores de Búsqueda)

Módulo 1: Introducción al SEO

Módulo 2: Investigación de Palabras Clave

Módulo 3: SEO en la Página

Módulo 4: SEO Técnico

Módulo 5: SEO Fuera de la Página

Módulo 6: SEO Local

Módulo 7: Análisis y Reportes de SEO

Módulo 8: Estrategias Avanzadas de SEO

Módulo 9: Herramientas y Recursos de SEO

© Copyright 2024. Todos los derechos reservados