Cerramos la Parte V con un problema muy real que afecta a toda infraestructura gestionada con código: el drift (deriva o desviación). Ocurre cuando la infraestructura real deja de coincidir con lo que dice tu código. En este subcapítulo entenderás por qué pasa, por qué es peligroso, y cómo detectarlo y corregirlo automáticamente. Es la guinda de un flujo de Infraestructura como Código maduro.
Qué es el drift
Recuerda la idea central de Terraform: tu código describe cómo debe ser la infraestructura, y Terraform hace que la realidad coincida con él (Capítulo 9). El drift (deriva) es cuando la infraestructura real se desvía de lo que dice el código, sin que el código haya cambiado.
Tu código dice: servidor con 2 CPUs, puerto 443 abierto
La realidad es ahora: servidor con 4 CPUs, puerto 22 también abierto
↑ alguien lo cambió por fuera = DRIFTEl código y la realidad ya no coinciden. Esa diferencia es el drift.
Por qué ocurre el drift
El drift aparece cuando alguien o algo modifica la infraestructura por fuera de Terraform:
- Cambios manuales: alguien entra en la consola de AWS y modifica un recurso «rápidamente» para resolver una urgencia (abre un puerto, cambia un tamaño...), sin actualizar el código.
- Otras herramientas o scripts que tocan los mismos recursos.
- Procesos automáticos de AWS que modifican algo (raro, pero posible).
- Autoescalado u otros sistemas que cambian el número de recursos.
El caso más común y peligroso: un cambio manual «de emergencia». A las 3 de la madrugada hay un incidente, alguien entra en la consola de AWS y cambia algo a mano para apagar el fuego, y luego se olvida de reflejarlo en el código. A partir de ahí, el código miente: ya no describe la realidad.
Analogía: el drift es como tener los planos de una casa que ya no coinciden con la casa real porque alguien tiró un tabique sin actualizar los planos. Si más adelante un constructor trabaja guiándose por los planos antiguos, puede provocar un desastre, porque la realidad es otra.
Por qué el drift es peligroso
El drift socava toda la confianza en tu Infraestructura como Código:
- El código deja de ser la fuente de la verdad: ya no puedes confiar en que el código describe lo que hay de verdad.
- Sorpresas en el próximo
apply: cuando alguien vuelva a aplicar Terraform, este intentará «corregir» el cambio manual (revertirlo a lo que dice el código), lo que puede romper lo que se arregló a mano, ¡o eliminar un parche de seguridad! - Riesgos de seguridad ocultos: si el cambio manual abrió un puerto peligroso, el código no lo refleja, así que las revisiones de seguridad (Capítulo 21) no lo detectan. El agujero queda oculto.
- Pérdida de reproducibilidad: si recreas la infraestructura desde el código, no obtendrás lo que realmente había, porque el código está desactualizado.
Cómo detectar el drift
La buena noticia es que detectar el drift es sencillo, porque Terraform ya sabe comparar el código con la realidad. Recuerda que terraform plan (subcapítulo 11.4) hace exactamente eso: compara código, estado y realidad. Si hay drift, el plan lo muestra:
terraform plan
→ si NO hay drift → "No changes" ✓ (código y realidad coinciden)
→ si HAY drift → muestra las diferencias:
~ aws_security_group.web: puerto 22 abierto (no está en el código) ⚠️Detección automática y periódica
La clave es no esperar a que alguien ejecute un plan por casualidad. La detección de drift automática consiste en ejecutar terraform plan periódicamente (por ejemplo, cada noche) de forma automática, y avisar si detecta diferencias:
Cada noche, automáticamente:
terraform plan
→ ¿hay cambios inesperados?
→ SÍ → ALERTA al equipo (Slack, email...): "hay drift en producción"
→ NO → todo en orden, nada que reportarAsí, si alguien hizo un cambio manual, el equipo se entera al día siguiente, no semanas después cuando ya causó un problema. Plataformas como HCP Terraform (subcapítulo 22.3) ofrecen esta detección de drift integrada; también puedes montarla con un pipeline programado (recuerda los schedules de EventBridge, subcapítulo 15.3, o un cron en tu CI).
La reconciliación: corregir el drift
Detectar el drift es solo la mitad; luego hay que reconciliar (volver a alinear código y realidad). Hay dos formas, según qué cambio sea el «correcto»:
Opción A: el código es la verdad → revertir el cambio manual
Si el cambio manual no debía hacerse, ejecutas terraform apply para que Terraform devuelva la infraestructura a lo que dice el código, eliminando la desviación.
Opción B: el cambio manual era necesario → actualizar el código
Si el cambio manual era correcto (un ajuste que hay que mantener), entonces actualizas el código para que refleje ese cambio, y lo subes mediante un PR (subcapítulo 12.5). Ahora el código vuelve a ser la verdad.
Reconciliación automática: algunos equipos configuran que, ante ciertos drifts, el sistema revierta automáticamente al estado del código (opción A) sin intervención. Esto es potente para forzar que todo cambio pase por código, pero hay que usarlo con cuidado: revertir automáticamente un cambio que era un parche de emergencia legítimo podría reabrir un problema. Por eso muchos prefieren detección automática + decisión humana sobre cómo reconciliar.
La lección de fondo: todo cambio, por código
El drift refuerza el mensaje central de toda la Infraestructura como Código: todos los cambios deben hacerse a través del código, nunca a mano. La detección de drift es la vigilancia que hace cumplir esa regla, avisando cuando alguien se la salta.
Ejemplo del mundo real: una empresa ejecuta detección de drift cada noche en producción. Una mañana, la alerta avisa: «el Security Group de la base de datos tiene el puerto 5432 abierto a internet, y no está en el código». Investigan: un desarrollador lo abrió a mano la tarde anterior para una prueba y se olvidó de cerrarlo. Gracias a la detección de drift, lo descubren en horas (no cuando un atacante lo encuentre) y lo corrigen. Sin esa vigilancia, ese agujero podría haber pasado meses desapercibido.
Lo que debes recordar
- El drift (deriva) es cuando la infraestructura real deja de coincidir con el código, normalmente por cambios manuales hechos por fuera de Terraform (el clásico parche de emergencia que no se refleja en el código).
- Es peligroso: el código deja de ser la fuente de la verdad, el próximo
applypuede revertir cambios importantes, oculta riesgos de seguridad y rompe la reproducibilidad. Como unos planos que ya no coinciden con la casa. - Se detecta con
terraform plan(compara código y realidad); lo ideal es la detección automática y periódica (ej. cada noche) que alerta al equipo ante diferencias. - Se reconcilia de dos formas: revertir el cambio manual con
apply(si el código es la verdad) o actualizar el código vía PR (si el cambio manual era válido). - La lección de fondo: todos los cambios deben hacerse por código; la detección de drift es la vigilancia que hace cumplir esa regla.
¡Has terminado el Capítulo 22 y la Parte V! Ya dominas Terraform a nivel avanzado: módulos, entornos, estado, testing y CI/CD. En la Parte VI cambiamos el foco hacia los aspectos transversales de AWS que distinguen a un profesional: empezaremos por la seguridad en profundidad.
Cloud, AWS & Terraform — De cero a experto
Capítulo 1 · Qué es el cloud computing
- 1.1 El modelo cliente-servidor tradicional
- 1.2 Problemas que venía a resolver la nube
- 1.3 On-premise vs cloud vs híbrido
- 1.4 Los tres modelos de servicio: IaaS, PaaS, SaaS
- 1.5 Los cinco pilares del cloud (según NIST)
- 1.6 Ventajas reales: elasticidad, pago por uso, disponibilidad global
Capítulo 2 · El mercado cloud y los grandes proveedores
- 2.1 AWS, Azure y GCP: diferencias y cuotas de mercado
- 2.2 Por qué aprender AWS primero
- 2.3 Conceptos que son universales entre proveedores
Capítulo 3 · Regiones, zonas de disponibilidad y edge
- 3.1 Qué es una región AWS y cómo elegirla
- 3.2 Availability Zones: alta disponibilidad desde el diseño
- 3.3 Edge locations y CloudFront
- 3.4 Latencia, resiliencia y soberanía de datos
Capítulo 4 · Cómputo: EC2
- 4.1 Instancias: tipos, familias y cuándo elegir cada una
- 4.2 AMIs, key pairs y Security Groups
- 4.3 Ciclo de vida de una instancia
- 4.4 Elastic IPs y Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítulo 5 · Almacenamiento: S3
- 5.1 Buckets, objetos y claves
- 5.2 Clases de almacenamiento (Standard, IA, Glacier…)
- 5.3 Versionado y ciclo de vida de objetos
- 5.4 Políticas de bucket y ACLs
- 5.5 Hosting de sitios web estáticos
Capítulo 6 · Redes: VPC
- 6.1 Qué es una VPC y por qué la necesitas
- 6.2 Subredes públicas y privadas
- 6.3 Internet Gateway y NAT Gateway
- 6.4 Route Tables y Network ACLs
- 6.5 VPC Peering y endpoints
Capítulo 7 · Identidad y acceso: IAM
- 7.1 Usuarios, grupos, roles y políticas
- 7.2 El principio de mínimo privilegio
- 7.3 Políticas basadas en identidad vs en recurso
- 7.4 MFA y credenciales temporales (STS)
- 7.5 Buenas prácticas de seguridad IAM
Capítulo 8 · Bases de datos gestionadas
- 8.1 RDS: motores, Multi-AZ y réplicas de lectura
- 8.2 Aurora y sus ventajas sobre RDS vanilla
- 8.3 DynamoDB: modelo clave-valor / documentos
- 8.4 ElastiCache para caché en memoria
- 8.5 Cuándo usar cada tipo de base de datos
Capítulo 9 · Por qué Infraestructura como Código
- 9.1 Problemas del aprovisionamiento manual
- 9.2 IaC declarativo vs imperativo
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El ciclo plan → apply → destroy
Capítulo 10 · HCL: el lenguaje de Terraform
- 10.1 Bloques resource, variable, output, locals
- 10.2 Tipos de datos: string, number, bool, list, map, object
- 10.3 Expresiones, referencias y funciones built-in
- 10.4 Condicionales y bucles (count, for_each, for)
Capítulo 11 · Providers y estado
- 11.1 Cómo funciona el provider de AWS
- 11.2 El fichero terraform.tfstate y su importancia
- 11.3 State local vs state remoto (S3 + DynamoDB)
- 11.4 Comandos esenciales: init, plan, apply, destroy, fmt, validate
Capítulo 12 · Tu primera infraestructura real en Terraform
- 12.1 Crear una VPC con subredes desde cero
- 12.2 Levantar una instancia EC2 pública
- 12.3 Asociar un Security Group y una Elastic IP
- 12.4 Outputs y referencias entre recursos
- 12.5 Flujo de trabajo en equipo: PR review de planes
Capítulo 13 · Balanceo de carga y autoescalado
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners y reglas
- 13.3 Auto Scaling Groups: políticas y métricas
- 13.4 Warm pools y lifecycle hooks
Capítulo 14 · Serverless con Lambda
- 14.1 El modelo de ejecución de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestión de dependencias y capas (Layers)
- 14.4 Cold starts y estrategias para reducirlos
- 14.5 Límites y antipatrones
Capítulo 15 · Mensajería y eventos
- 15.1 SQS: colas estándar vs FIFO, DLQ
- 15.2 SNS: topics, suscripciones, fan-out
- 15.3 EventBridge: event buses y reglas
- 15.4 Patrones: pub/sub, desacoplamiento, saga
Capítulo 16 · Entrega de contenido y DNS
- 16.1 Route 53: tipos de registros y routing policies
- 16.2 CloudFront: distribuciones, cachés y origins
- 16.3 ACM: certificados SSL/TLS gratuitos
- 16.4 WAF integrado con CloudFront
Capítulo 17 · Contenedores en AWS
- 17.1 Docker: repaso exprés de conceptos clave
- 17.2 ECR: registro privado de imágenes
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: cuándo Kubernetes y cuándo no
Capítulo 18 · Módulos: reutilización y composición
- 18.1 Anatomía de un módulo Terraform
- 18.2 Variables de entrada, outputs y dependencias
- 18.3 Módulos locales vs módulos del Terraform Registry
- 18.4 Versionado de módulos con Git tags
- 18.5 Diseño de módulos genéricos vs específicos de dominio
Capítulo 19 · Workspaces y gestión de entornos
- 19.1 Workspaces de Terraform: casos de uso y limitaciones
- 19.2 Estrategia de directorios por entorno (dev/stg/prod)
- 19.3 Terragrunt: DRY para configuraciones de entorno
- 19.4 Variables de entorno y archivos .tfvars
Capítulo 20 · Backends remotos y locking
- 20.1 Configurar S3 + DynamoDB como backend
- 20.2 State locking: evitar corrupción en equipo
- 20.3 Migración de estado entre backends
- 20.4 terraform import: traer recursos existentes al estado
Capítulo 21 · Testing de infraestructura
- 21.1 Terraform validate y fmt en CI
- 21.2 Checkov y tfsec: análisis de seguridad estático
- 21.3 Terratest: tests de integración en Go
- 21.4 Contract testing entre módulos
Capítulo 22 · Terraform en CI/CD
- 22.1 Pipeline básico: lint → plan → apply en GitHub Actions
- 22.2 Atlantis: GitOps para Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection y reconciliación automática
Capítulo 23 · Seguridad en profundidad
- 23.1 AWS Organizations y Service Control Policies
- 23.2 AWS Config: compliance continuo
- 23.3 GuardDuty: detección de amenazas
- 23.4 Security Hub: visión centralizada
- 23.5 KMS: gestión de claves y rotación
- 23.6 Secrets Manager vs Parameter Store
Capítulo 24 · Observabilidad: logs, métricas y trazas
- 24.1 CloudWatch Logs, métricas y alarmas
- 24.2 CloudWatch Dashboards y Contributor Insights
- 24.3 X-Ray: trazado distribuido
- 24.4 OpenTelemetry en AWS
- 24.5 Managed Grafana y Managed Prometheus
Capítulo 25 · Optimización de costes
- 25.1 AWS Cost Explorer y presupuestos con alertas
- 25.2 Trusted Advisor y Compute Optimizer
- 25.3 Rightsizing: cómo detectar sobredimensionamiento
- 25.4 Savings Plans vs Reserved Instances: decisión estratégica
- 25.5 FinOps: cultura y procesos para controlar el gasto
Capítulo 26 · Alta disponibilidad y disaster recovery
- 26.1 RTO y RPO: definir los objetivos
- 26.2 Estrategias: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks y failover automático
- 26.4 AWS Backup: política centralizada de copias
Capítulo 27 · Well-Architected Framework de AWS
- 27.1 Los seis pilares: excelencia operacional, seguridad, fiabilidad, eficiencia de rendimiento, optimización de costes, sostenibilidad
- 27.2 Well-Architected Tool: revisiones formales
- 27.3 Cómo aplicar el framework en decisiones de diseño
Capítulo 28 · Arquitecturas serverless a escala
- 28.1 Event-driven architecture con Lambda + EventBridge
- 28.2 Saga pattern para transacciones distribuidas
- 28.3 Step Functions: orquestación de workflows complejos
- 28.4 Lambda@Edge y CloudFront Functions
Capítulo 29 · Plataformas de datos en AWS
- 29.1 Data Lake con S3, Glue y Athena
- 29.2 Kinesis Data Streams y Firehose para streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: gobierno del dato
Capítulo 30 · Multi-cuenta y landing zones
- 30.1 Por qué separar workloads en cuentas distintas
- 30.2 AWS Control Tower y Account Factory
- 30.3 Gestión centralizada de logs y seguridad
- 30.4 Terraform a escala multi-cuenta con módulos compartidos
Capítulo 31 · Platform Engineering e Internal Developer Platform
- 31.1 Golden paths y abstracciones sobre Terraform
- 31.2 Service Catalog de AWS
- 31.3 Backstage como portal de desarrolladores
- 31.4 Módulos Terraform como producto interno
Capítulo 32 · Certificaciones AWS relevantes
- 32.1 Cloud Practitioner: ¿vale la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítulo 33 · Proyectos para consolidar lo aprendido
- 33.1 Proyecto 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Proyecto 2: API REST con ECS Fargate + RDS + ALB
- 33.3 Proyecto 3: plataforma de datos con Glue + Athena + Redshift
- 33.4 Proyecto 4: landing zone multi-cuenta con Terraform y Control Tower
