Introducción
El archivo robots.txt
es un archivo de texto simple que se coloca en el directorio raíz de un sitio web. Su propósito principal es comunicar a los motores de búsqueda qué partes del sitio web deben o no deben rastrear. Aunque no es una garantía de que los motores de búsqueda respeten estas directrices, es una práctica estándar en la optimización técnica de SEO.
¿Qué es el archivo Robots.txt?
El archivo robots.txt
es un archivo de texto que utiliza el Protocolo de Exclusión de Robots (REP) para indicar a los rastreadores web (bots) qué páginas o secciones del sitio web deben ser ignoradas. Este archivo es especialmente útil para:
- Evitar la sobrecarga del servidor al limitar el acceso de los bots a ciertas áreas del sitio.
- Prevenir la indexación de contenido duplicado.
- Proteger información sensible que no debería ser rastreada o indexada.
Estructura del archivo Robots.txt
Un archivo robots.txt
típico tiene una estructura simple y se compone de directivas que indican a los bots qué hacer. Aquí hay un ejemplo básico:
Desglose del Ejemplo
- User-agent: Especifica a qué bots se aplican las directivas siguientes. El asterisco (
*
) indica que las directivas se aplican a todos los bots. - Disallow: Indica las rutas que no deben ser rastreadas. En este caso, los directorios
/admin/
y/private/
no serán rastreados por los bots.
Directivas Comunes
User-agent
Esta directiva especifica a qué bots se aplican las reglas siguientes. Puedes especificar un bot en particular o usar el asterisco (*
) para aplicarlo a todos los bots.
Disallow
Esta directiva indica las rutas que no deben ser rastreadas. Puedes especificar directorios completos o archivos individuales.
Allow
Esta directiva se utiliza para permitir el acceso a subdirectorios o archivos específicos dentro de un directorio que ha sido desautorizado.
Sitemap
Puedes incluir la ubicación de tu sitemap en el archivo robots.txt
para ayudar a los bots a encontrarlo fácilmente.
Ejemplo Completo de Robots.txt
Aquí tienes un ejemplo más completo que incluye varias directivas:
User-agent: * Disallow: /admin/ Disallow: /private/ Allow: /public/ Sitemap: https://www.example.com/sitemap.xml User-agent: Googlebot Disallow: /no-google/
Ejercicio Práctico
Ejercicio 1: Crear un archivo Robots.txt
Objetivo: Crear un archivo robots.txt
que:
- Bloquee todos los bots de acceder al directorio
/admin/
. - Permita a todos los bots acceder al directorio
/public/
. - Bloquee a Googlebot de acceder al directorio
/no-google/
. - Incluya la ubicación del sitemap.
Solución:
User-agent: * Disallow: /admin/ Allow: /public/ Sitemap: https://www.example.com/sitemap.xml User-agent: Googlebot Disallow: /no-google/
Ejercicio 2: Analizar un archivo Robots.txt
Objetivo: Analizar el siguiente archivo robots.txt
y explicar qué hace cada directiva.
User-agent: * Disallow: /private/ Disallow: /temp/ Allow: /temp/public/ Sitemap: https://www.example.com/sitemap.xml User-agent: Bingbot Disallow: /no-bing/
Solución:
- User-agent: *: Las directivas siguientes se aplican a todos los bots.
- Disallow: /private/: Bloquea el acceso al directorio
/private/
para todos los bots. - Disallow: /temp/: Bloquea el acceso al directorio
/temp/
para todos los bots. - Allow: /temp/public/: Permite el acceso al subdirectorio
/temp/public/
dentro del directorio bloqueado/temp/
para todos los bots. - Sitemap: https://www.example.com/sitemap.xml: Proporciona la ubicación del sitemap.
- User-agent: Bingbot: Las directivas siguientes se aplican solo al bot de Bing.
- Disallow: /no-bing/: Bloquea el acceso al directorio
/no-bing/
para el bot de Bing.
Conclusión
El archivo robots.txt
es una herramienta esencial en la optimización técnica de SEO. Permite controlar qué partes de tu sitio web son rastreadas por los motores de búsqueda, lo que puede ayudar a mejorar la eficiencia del rastreo y proteger áreas sensibles de tu sitio. Asegúrate de revisar y actualizar tu archivo robots.txt
regularmente para reflejar cualquier cambio en la estructura de tu sitio web.
En el próximo tema, exploraremos los Datos Estructurados y Marcado de Esquema, que te ayudarán a mejorar la visibilidad de tu sitio web en los resultados de búsqueda.
Curso de SEO (Optimización para Motores de Búsqueda)
Módulo 1: Introducción al SEO
- ¿Qué es el SEO?
- Por qué el SEO es Importante
- Cómo Funcionan los Motores de Búsqueda
- Terminología Básica de SEO
Módulo 2: Investigación de Palabras Clave
- Introducción a la Investigación de Palabras Clave
- Herramientas para la Investigación de Palabras Clave
- Encontrando las Palabras Clave Correctas
- Analizando la Competencia de Palabras Clave
Módulo 3: SEO en la Página
- Etiquetas de Título y Descripciones Meta
- Etiquetas de Encabezado y Estructura de Contenido
- URLs Amigables para SEO
- Enlazado Interno
- Optimización de Imágenes
Módulo 4: SEO Técnico
- Optimización de la Velocidad del Sitio Web
- Optimización Móvil
- Sitemaps XML
- Robots.txt
- Datos Estructurados y Marcado de Esquema
Módulo 5: SEO Fuera de la Página
- Estrategias de Construcción de Enlaces
- Blogging como Invitado
- Redes Sociales y SEO
- Gestión de la Reputación Online
Módulo 6: SEO Local
Módulo 7: Análisis y Reportes de SEO
Módulo 8: Estrategias Avanzadas de SEO
- Técnicas Avanzadas de Investigación de Palabras Clave
- Marketing de Contenidos y SEO
- Optimización para Búsqueda por Voz
- SEO Internacional
- SEO para Comercio Electrónico