En el subcapítulo anterior vimos estrategias de disaster recovery donde, al fallar el sistema principal, el tráfico debe pasar a un sistema de respaldo. Pero ¿cómo se detecta que el principal ha fallado y se redirige a la gente automáticamente, sin que un humano tenga que intervenir a las 3 de la madrugada? La respuesta combina dos funciones de Route 53 (el DNS de AWS que vimos en el subcapítulo 16.1): los health checks (comprobaciones de salud) y el failover (conmutación por error).
Recordatorio: qué hace Route 53
Recuerda del subcapítulo 16.1 que Route 53 es el servicio de DNS de AWS: traduce un nombre de dominio (como mitienda.com) a la dirección del servidor que debe atender. Es lo primero que consulta el navegador de un usuario para saber a dónde conectarse. Esto le da una posición privilegiada: Route 53 decide a dónde se dirige el tráfico. Y ahí está la clave del failover automático.
El problema: redirigir a la gente cuando algo falla
Imagina que tienes tu sistema principal en una región y un respaldo en otra (como en las estrategias del subcapítulo 26.2). Si el principal se cae, necesitas que los usuarios dejen de ir al principal (caído) y vayan al respaldo (sano). Y necesitas que esto pase:
- Automáticamente (sin esperar a que un humano se entere y actúe).
- Rápido (cada minuto de caída cuenta).
- De forma fiable (sin enviar gente a un sistema roto).
Para esto, primero hay que detectar que el principal falló, y luego redirigir. Route 53 hace ambas cosas.
Health checks: vigilar si un sistema está sano
Un health check (comprobación de salud) de Route 53 es una vigilancia automática que comprueba periódicamente si tu sistema responde correctamente. Route 53 «pregunta» a tu sistema cada poco tiempo: «¿estás bien?», y según la respuesta lo marca como sano o enfermo.
Route 53 cada X segundos: "¿sistema principal, estás bien?" → responde correctamente → SANO ✓ (sigue enviando tráfico ahí) → no responde / da errores → ENFERMO ✗ (deja de enviar tráfico ahí)
Analogía: un health check es como tomarle el pulso a un paciente cada pocos minutos. Mientras el pulso es normal, todo bien. Si el pulso se detiene o se vuelve anormal, salta la alarma y se actúa. Route 53 «toma el pulso» a tus sistemas continuamente para saber cuáles están vivos y sanos.
El health check puede comprobar cosas como: ¿responde la web?, ¿devuelve un código correcto?, ¿responde a tiempo? Tú defines qué significa «estar sano».
Failover: cambiar al respaldo automáticamente
Aquí está la magia. Failover (conmutación por error) es la capacidad de Route 53 de redirigir el tráfico automáticamente del sistema principal al de respaldo cuando el health check detecta que el principal está enfermo.
Recuerda las routing policies del subcapítulo 16.1: una de ellas es precisamente la de failover. Configuras Route 53 así:
Route 53 (política de failover): Principal: región A (con health check) Respaldo: región B Mientras A esté SANO → todo el tráfico va a A Si A se vuelve ENFERMO → Route 53 redirige AUTOMÁTICAMENTE a B Cuando A vuelva a estar SANO → vuelve a enviar tráfico a A
Funcionamiento normal: Tras fallo de A:
Usuarios → [Región A ✓] Usuarios → [Región A ✗]──╳
└──────────► [Región B ✓]Analogía: el failover es como un generador eléctrico de emergencia en un hospital. Mientras hay luz de la red (sistema principal sano), todo funciona con normalidad. En el instante en que se va la luz (el principal falla), un sistema detecta el corte automáticamente y arranca el generador (respaldo) en segundos, sin que nadie tenga que correr a hacerlo. El hospital sigue funcionando sin que los pacientes lo noten. Health check = detector de corte; failover = arranque automático del generador.
Cómo trabajan juntos health checks y failover
Los dos son inseparables: el health check detecta, el failover reacciona:
HEALTH CHECK → vigila y detecta que el principal cayó
│
▼
FAILOVER → redirige automáticamente el tráfico al respaldoSin el health check, Route 53 no sabría que algo falló. Sin el failover, saber que falló no serviría de nada. Juntos consiguen una recuperación automática del tráfico, que es justo lo que hace que las estrategias de DR (26.2) funcionen sin intervención humana.
Ejemplo del mundo real: una empresa tiene su web principal en la región de Irlanda y un respaldo (warm standby, subcapítulo 26.2) en Fráncfort, con Route 53 configurado en failover. Una madrugada, la región de Irlanda sufre un problema y la web deja de responder. El health check de Route 53 lo detecta en segundos y marca Irlanda como enferma. El failover redirige automáticamente a todos los usuarios a Fráncfort, que estaba lista. Los clientes apenas notan una breve interrupción. Nadie del equipo tuvo que despertarse ni hacer nada: el sistema se recuperó solo. A la mañana siguiente, cuando Irlanda se restablece, el tráfico vuelve automáticamente. Eso es resiliencia bien hecha.
Más allá del failover: balanceo geográfico
Estas mismas capacidades (health checks + routing policies de Route 53) sirven también para repartir usuarios entre regiones por cercanía (recuerda las políticas de geolocalización y latencia del subcapítulo 16.1), enviando a cada usuario a la región más cercana y sana. Así, la salud de los sistemas se tiene en cuenta no solo para emergencias, sino también para dar el mejor servicio en el día a día.
Lo que debes recordar
- Route 53 (el DNS de AWS, subcap. 16.1) decide a dónde va el tráfico, lo que le permite gestionar la conmutación automática ante fallos.
- Un health check comprueba periódicamente si un sistema responde bien y lo marca como sano o enfermo. Como tomarle el pulso a un paciente continuamente.
- El failover redirige el tráfico automáticamente del sistema principal al de respaldo cuando el health check detecta que el principal está enfermo (y lo devuelve cuando se recupera). Como un generador de emergencia que arranca solo al irse la luz.
- Trabajan juntos: el health check detecta, el failover reacciona. Juntos logran una recuperación automática del tráfico, sin intervención humana, que hace funcionar las estrategias de DR.
- Las mismas capacidades sirven para balanceo geográfico (enviar a cada usuario a la región más cercana y sana), no solo para emergencias.
En el último subcapítulo del capítulo (y de la Parte VI) veremos cómo proteger tus datos con copias de seguridad centralizadas y automáticas: AWS Backup.
Cloud, AWS & Terraform — De cero a experto
Capítulo 1 · Qué es el cloud computing
- 1.1 El modelo cliente-servidor tradicional
- 1.2 Problemas que venía a resolver la nube
- 1.3 On-premise vs cloud vs híbrido
- 1.4 Los tres modelos de servicio: IaaS, PaaS, SaaS
- 1.5 Los cinco pilares del cloud (según NIST)
- 1.6 Ventajas reales: elasticidad, pago por uso, disponibilidad global
Capítulo 2 · El mercado cloud y los grandes proveedores
- 2.1 AWS, Azure y GCP: diferencias y cuotas de mercado
- 2.2 Por qué aprender AWS primero
- 2.3 Conceptos que son universales entre proveedores
Capítulo 3 · Regiones, zonas de disponibilidad y edge
- 3.1 Qué es una región AWS y cómo elegirla
- 3.2 Availability Zones: alta disponibilidad desde el diseño
- 3.3 Edge locations y CloudFront
- 3.4 Latencia, resiliencia y soberanía de datos
Capítulo 4 · Cómputo: EC2
- 4.1 Instancias: tipos, familias y cuándo elegir cada una
- 4.2 AMIs, key pairs y Security Groups
- 4.3 Ciclo de vida de una instancia
- 4.4 Elastic IPs y Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítulo 5 · Almacenamiento: S3
- 5.1 Buckets, objetos y claves
- 5.2 Clases de almacenamiento (Standard, IA, Glacier…)
- 5.3 Versionado y ciclo de vida de objetos
- 5.4 Políticas de bucket y ACLs
- 5.5 Hosting de sitios web estáticos
Capítulo 6 · Redes: VPC
- 6.1 Qué es una VPC y por qué la necesitas
- 6.2 Subredes públicas y privadas
- 6.3 Internet Gateway y NAT Gateway
- 6.4 Route Tables y Network ACLs
- 6.5 VPC Peering y endpoints
Capítulo 7 · Identidad y acceso: IAM
- 7.1 Usuarios, grupos, roles y políticas
- 7.2 El principio de mínimo privilegio
- 7.3 Políticas basadas en identidad vs en recurso
- 7.4 MFA y credenciales temporales (STS)
- 7.5 Buenas prácticas de seguridad IAM
Capítulo 8 · Bases de datos gestionadas
- 8.1 RDS: motores, Multi-AZ y réplicas de lectura
- 8.2 Aurora y sus ventajas sobre RDS vanilla
- 8.3 DynamoDB: modelo clave-valor / documentos
- 8.4 ElastiCache para caché en memoria
- 8.5 Cuándo usar cada tipo de base de datos
Capítulo 9 · Por qué Infraestructura como Código
- 9.1 Problemas del aprovisionamiento manual
- 9.2 IaC declarativo vs imperativo
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El ciclo plan → apply → destroy
Capítulo 10 · HCL: el lenguaje de Terraform
- 10.1 Bloques resource, variable, output, locals
- 10.2 Tipos de datos: string, number, bool, list, map, object
- 10.3 Expresiones, referencias y funciones built-in
- 10.4 Condicionales y bucles (count, for_each, for)
Capítulo 11 · Providers y estado
- 11.1 Cómo funciona el provider de AWS
- 11.2 El fichero terraform.tfstate y su importancia
- 11.3 State local vs state remoto (S3 + DynamoDB)
- 11.4 Comandos esenciales: init, plan, apply, destroy, fmt, validate
Capítulo 12 · Tu primera infraestructura real en Terraform
- 12.1 Crear una VPC con subredes desde cero
- 12.2 Levantar una instancia EC2 pública
- 12.3 Asociar un Security Group y una Elastic IP
- 12.4 Outputs y referencias entre recursos
- 12.5 Flujo de trabajo en equipo: PR review de planes
Capítulo 13 · Balanceo de carga y autoescalado
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners y reglas
- 13.3 Auto Scaling Groups: políticas y métricas
- 13.4 Warm pools y lifecycle hooks
Capítulo 14 · Serverless con Lambda
- 14.1 El modelo de ejecución de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestión de dependencias y capas (Layers)
- 14.4 Cold starts y estrategias para reducirlos
- 14.5 Límites y antipatrones
Capítulo 15 · Mensajería y eventos
- 15.1 SQS: colas estándar vs FIFO, DLQ
- 15.2 SNS: topics, suscripciones, fan-out
- 15.3 EventBridge: event buses y reglas
- 15.4 Patrones: pub/sub, desacoplamiento, saga
Capítulo 16 · Entrega de contenido y DNS
- 16.1 Route 53: tipos de registros y routing policies
- 16.2 CloudFront: distribuciones, cachés y origins
- 16.3 ACM: certificados SSL/TLS gratuitos
- 16.4 WAF integrado con CloudFront
Capítulo 17 · Contenedores en AWS
- 17.1 Docker: repaso exprés de conceptos clave
- 17.2 ECR: registro privado de imágenes
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: cuándo Kubernetes y cuándo no
Capítulo 18 · Módulos: reutilización y composición
- 18.1 Anatomía de un módulo Terraform
- 18.2 Variables de entrada, outputs y dependencias
- 18.3 Módulos locales vs módulos del Terraform Registry
- 18.4 Versionado de módulos con Git tags
- 18.5 Diseño de módulos genéricos vs específicos de dominio
Capítulo 19 · Workspaces y gestión de entornos
- 19.1 Workspaces de Terraform: casos de uso y limitaciones
- 19.2 Estrategia de directorios por entorno (dev/stg/prod)
- 19.3 Terragrunt: DRY para configuraciones de entorno
- 19.4 Variables de entorno y archivos .tfvars
Capítulo 20 · Backends remotos y locking
- 20.1 Configurar S3 + DynamoDB como backend
- 20.2 State locking: evitar corrupción en equipo
- 20.3 Migración de estado entre backends
- 20.4 terraform import: traer recursos existentes al estado
Capítulo 21 · Testing de infraestructura
- 21.1 Terraform validate y fmt en CI
- 21.2 Checkov y tfsec: análisis de seguridad estático
- 21.3 Terratest: tests de integración en Go
- 21.4 Contract testing entre módulos
Capítulo 22 · Terraform en CI/CD
- 22.1 Pipeline básico: lint → plan → apply en GitHub Actions
- 22.2 Atlantis: GitOps para Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection y reconciliación automática
Capítulo 23 · Seguridad en profundidad
- 23.1 AWS Organizations y Service Control Policies
- 23.2 AWS Config: compliance continuo
- 23.3 GuardDuty: detección de amenazas
- 23.4 Security Hub: visión centralizada
- 23.5 KMS: gestión de claves y rotación
- 23.6 Secrets Manager vs Parameter Store
Capítulo 24 · Observabilidad: logs, métricas y trazas
- 24.1 CloudWatch Logs, métricas y alarmas
- 24.2 CloudWatch Dashboards y Contributor Insights
- 24.3 X-Ray: trazado distribuido
- 24.4 OpenTelemetry en AWS
- 24.5 Managed Grafana y Managed Prometheus
Capítulo 25 · Optimización de costes
- 25.1 AWS Cost Explorer y presupuestos con alertas
- 25.2 Trusted Advisor y Compute Optimizer
- 25.3 Rightsizing: cómo detectar sobredimensionamiento
- 25.4 Savings Plans vs Reserved Instances: decisión estratégica
- 25.5 FinOps: cultura y procesos para controlar el gasto
Capítulo 26 · Alta disponibilidad y disaster recovery
- 26.1 RTO y RPO: definir los objetivos
- 26.2 Estrategias: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks y failover automático
- 26.4 AWS Backup: política centralizada de copias
Capítulo 27 · Well-Architected Framework de AWS
- 27.1 Los seis pilares: excelencia operacional, seguridad, fiabilidad, eficiencia de rendimiento, optimización de costes, sostenibilidad
- 27.2 Well-Architected Tool: revisiones formales
- 27.3 Cómo aplicar el framework en decisiones de diseño
Capítulo 28 · Arquitecturas serverless a escala
- 28.1 Event-driven architecture con Lambda + EventBridge
- 28.2 Saga pattern para transacciones distribuidas
- 28.3 Step Functions: orquestación de workflows complejos
- 28.4 Lambda@Edge y CloudFront Functions
Capítulo 29 · Plataformas de datos en AWS
- 29.1 Data Lake con S3, Glue y Athena
- 29.2 Kinesis Data Streams y Firehose para streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: gobierno del dato
Capítulo 30 · Multi-cuenta y landing zones
- 30.1 Por qué separar workloads en cuentas distintas
- 30.2 AWS Control Tower y Account Factory
- 30.3 Gestión centralizada de logs y seguridad
- 30.4 Terraform a escala multi-cuenta con módulos compartidos
Capítulo 31 · Platform Engineering e Internal Developer Platform
- 31.1 Golden paths y abstracciones sobre Terraform
- 31.2 Service Catalog de AWS
- 31.3 Backstage como portal de desarrolladores
- 31.4 Módulos Terraform como producto interno
Capítulo 32 · Certificaciones AWS relevantes
- 32.1 Cloud Practitioner: ¿vale la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítulo 33 · Proyectos para consolidar lo aprendido
- 33.1 Proyecto 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Proyecto 2: API REST con ECS Fargate + RDS + ALB
- 33.3 Proyecto 3: plataforma de datos con Glue + Athena + Redshift
- 33.4 Proyecto 4: landing zone multi-cuenta con Terraform y Control Tower
