En el subcapítulo anterior definimos el RTO (cuánto tiempo puedo estar caído) y el RPO (cuántos datos puedo perder). Ahora veremos las cuatro estrategias clásicas de disaster recovery, que van desde la más barata y lenta hasta la más cara e instantánea. Tu RTO y RPO determinan cuál elegir. Es un abanico de opciones donde, en general, menos coste = recuperación más lenta, y más coste = recuperación más rápida.
El abanico: del más barato y lento al más caro e instantáneo
Las cuatro estrategias forman un espectro. A medida que avanzas, la recuperación es más rápida (RTO y RPO menores), pero cuesta más mantenerla:
MÁS BARATO ────────► MÁS CARO RTO/RPO altos ────────► RTO/RPO bajos (recuperación lenta) ────────► (recuperación rápida) 1. Backup & Restore 2. Pilot Light 3. Warm Standby 4. Multi-site
Vamos una por una.
Estrategia 1: Backup & Restore (copia y restaura)
La más sencilla y barata. Haces copias de seguridad de tus datos (y configuración) y, si ocurre un desastre, reconstruyes todo desde esas copias. No tienes nada duplicado funcionando: solo guardas copias.
Normal: [copias guardadas] (esperando, sin coste de cómputo) Desastre: reconstruir TODO desde las copias → tarda (horas)
- RTO: alto (horas o más: hay que reconstruirlo todo).
- RPO: depende de cada cuánto hagas copias.
- Coste: muy bajo (solo pagas el almacenamiento de las copias).
Analogía: es como tener las copias de tus fotos en un disco duro guardado en un cajón. Si tu ordenador se rompe, no pierdes las fotos, pero tendrás que comprar un ordenador nuevo y restaurarlas, lo que lleva tiempo. Barato de mantener, pero la recuperación no es inmediata.
Ideal para: sistemas que toleran estar caídos horas (RTO alto), como herramientas internas o archivos.
Estrategia 2: Pilot Light (luz piloto)
Un paso más. Mantienes una versión mínima del sistema siempre encendida en otro sitio: lo esencial (sobre todo los datos, copiándose continuamente), pero sin la capacidad completa funcionando. En un desastre, «enciendes» el resto a partir de esa base.
Normal: sistema completo + "luz piloto" mínima en otra región
(solo lo esencial encendido, datos sincronizándose)
Desastre: arrancar el resto desde la luz piloto → más rápido que reconstruir- RTO: medio (más rápido que backup, porque lo esencial ya está listo).
- RPO: bajo (los datos se replican continuamente).
- Coste: bajo-medio (mantienes solo lo mínimo encendido).
Analogía: es como la llama piloto de una caldera de gas: siempre hay una pequeña llama encendida (lo mínimo), lista para que, cuando necesites calor, el sistema se encienda rápido a partir de ella, sin tener que arrancar de cero. Mantienes lo justo para arrancar deprisa.
Ideal para: sistemas importantes que necesitan recuperarse en bastante poco tiempo, pero donde pagar una copia completa siempre encendida sería excesivo.
Estrategia 3: Warm Standby (reserva templada)
Mantienes una copia completa pero reducida del sistema funcionando en otro sitio: todo está en marcha, pero a menor escala (menos capacidad). En un desastre, solo tienes que escalarla a tamaño completo y redirigir el tráfico.
Normal: sistema completo + copia COMPLETA pero pequeña en otra región
(todo funcionando, a escala reducida)
Desastre: escalar la copia a tamaño completo + redirigir tráfico → rápido- RTO: bajo (la copia ya funciona, solo hay que agrandarla).
- RPO: muy bajo.
- Coste: medio-alto (mantienes una copia completa funcionando, aunque pequeña).
Analogía: es como tener un coche de repuesto más modesto siempre listo en el garaje, con el motor a punto. Si tu coche principal falla, te subes al de repuesto al instante y sigues tu camino (quizá con menos lujos, pero funciona). No tienes que arrancar nada de cero ni esperar.
Ideal para: sistemas críticos que necesitan recuperarse muy rápido (RTO bajo), pero donde puedes tolerar unos minutos de ajuste.
Estrategia 4: Multi-site (activo-activo)
La más robusta y cara. Tienes el sistema funcionando completo y a plena capacidad en varios sitios a la vez (por ejemplo, dos regiones), atendiendo tráfico simultáneamente. Si uno falla, el otro absorbe todo de forma casi transparente, sin apenas interrupción.
Normal: sistema COMPLETO funcionando en región A Y en región B
(ambas atendiendo tráfico a la vez)
Desastre: la región que queda absorbe todo → recuperación casi instantánea- RTO: casi cero (el otro sitio ya está atendiendo).
- RPO: casi cero.
- Coste: alto (mantienes el sistema completo duplicado y activo).
Analogía: es como tener dos coches idénticos, ambos en marcha, llevándote por rutas paralelas. Si uno se avería, ya estás (también) en el otro: sigues sin detenerte ni un segundo. Máxima seguridad, pero pagas por dos coches completos funcionando.
Ideal para: sistemas que no pueden caerse bajo ningún concepto (pagos, servicios críticos), donde el coste de estar caído supera con creces el coste de la duplicación.
Tabla comparativa
| Estrategia | RTO | RPO | Coste | Qué mantienes encendido |
|---|---|---|---|---|
| Backup & Restore | Horas | Según copias | Muy bajo | Solo copias guardadas |
| Pilot Light | Medio | Bajo | Bajo-medio | Lo mínimo esencial |
| Warm Standby | Bajo | Muy bajo | Medio-alto | Copia completa pequeña |
| Multi-site | ~Cero | ~Cero | Alto | Sistema completo duplicado |
Cómo elegir: tu RTO y RPO mandan
La estrategia se elige según el RTO y RPO que el negocio necesite (subcapítulo 26.1) y el presupuesto:
¿Toleras horas de caída? → Backup & Restore (barato) ¿Necesitas recuperarte pronto? → Pilot Light o Warm Standby ¿No puedes caerte nunca? → Multi-site (caro pero infalible)
💡 No todo necesita lo mismo: una empresa usa distintas estrategias para distintos sistemas. Su plataforma de pagos puede ser multi-site, mientras su sistema de informes internos usa simple backup & restore. Aplicas a cada sistema la estrategia que su criticidad justifica.
Ejemplo del mundo real: una empresa de comercio electrónico decide su DR por sistemas. La web de ventas (crítica) usa Warm Standby: una copia reducida lista en otra región que escalan en minutos si la principal falla, equilibrando coste y rapidez. El sistema de facturación usa Pilot Light: los datos se replican siempre, pero el resto se arranca solo si hace falta. Y el almacén de informes históricos usa Backup & Restore: copias diarias y nada más. Así, gastan mucho donde es crítico y poco donde no, optimizando coste y resiliencia a la vez.
Lo que debes recordar
- Hay cuatro estrategias clásicas de disaster recovery, en un espectro de menos coste/más lento a más coste/más rápido:
- Backup & Restore: solo guardas copias y reconstruyes en un desastre. Muy barato, RTO alto (horas). Como fotos en un disco en el cajón.
- Pilot Light: mantienes lo mínimo esencial encendido (datos replicándose) y arrancas el resto al fallar. Coste bajo-medio, RTO medio. Como la llama piloto de una caldera.
- Warm Standby: mantienes una copia completa pero reducida funcionando, y la escalas al fallar. Coste medio-alto, RTO bajo. Como un coche de repuesto con el motor a punto.
- Multi-site (activo-activo): sistema completo y duplicado atendiendo en varios sitios a la vez. Caro, RTO/RPO casi cero. Como dos coches idénticos en marcha.
- Eliges según tu RTO/RPO (26.1) y presupuesto, y puedes usar estrategias distintas para sistemas distintos según su criticidad.
En el siguiente subcapítulo veremos una pieza clave para que el cambio al sistema de respaldo sea automático: los health checks y el failover con Route 53.
Cloud, AWS & Terraform — De cero a experto
Capítulo 1 · Qué es el cloud computing
- 1.1 El modelo cliente-servidor tradicional
- 1.2 Problemas que venía a resolver la nube
- 1.3 On-premise vs cloud vs híbrido
- 1.4 Los tres modelos de servicio: IaaS, PaaS, SaaS
- 1.5 Los cinco pilares del cloud (según NIST)
- 1.6 Ventajas reales: elasticidad, pago por uso, disponibilidad global
Capítulo 2 · El mercado cloud y los grandes proveedores
- 2.1 AWS, Azure y GCP: diferencias y cuotas de mercado
- 2.2 Por qué aprender AWS primero
- 2.3 Conceptos que son universales entre proveedores
Capítulo 3 · Regiones, zonas de disponibilidad y edge
- 3.1 Qué es una región AWS y cómo elegirla
- 3.2 Availability Zones: alta disponibilidad desde el diseño
- 3.3 Edge locations y CloudFront
- 3.4 Latencia, resiliencia y soberanía de datos
Capítulo 4 · Cómputo: EC2
- 4.1 Instancias: tipos, familias y cuándo elegir cada una
- 4.2 AMIs, key pairs y Security Groups
- 4.3 Ciclo de vida de una instancia
- 4.4 Elastic IPs y Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítulo 5 · Almacenamiento: S3
- 5.1 Buckets, objetos y claves
- 5.2 Clases de almacenamiento (Standard, IA, Glacier…)
- 5.3 Versionado y ciclo de vida de objetos
- 5.4 Políticas de bucket y ACLs
- 5.5 Hosting de sitios web estáticos
Capítulo 6 · Redes: VPC
- 6.1 Qué es una VPC y por qué la necesitas
- 6.2 Subredes públicas y privadas
- 6.3 Internet Gateway y NAT Gateway
- 6.4 Route Tables y Network ACLs
- 6.5 VPC Peering y endpoints
Capítulo 7 · Identidad y acceso: IAM
- 7.1 Usuarios, grupos, roles y políticas
- 7.2 El principio de mínimo privilegio
- 7.3 Políticas basadas en identidad vs en recurso
- 7.4 MFA y credenciales temporales (STS)
- 7.5 Buenas prácticas de seguridad IAM
Capítulo 8 · Bases de datos gestionadas
- 8.1 RDS: motores, Multi-AZ y réplicas de lectura
- 8.2 Aurora y sus ventajas sobre RDS vanilla
- 8.3 DynamoDB: modelo clave-valor / documentos
- 8.4 ElastiCache para caché en memoria
- 8.5 Cuándo usar cada tipo de base de datos
Capítulo 9 · Por qué Infraestructura como Código
- 9.1 Problemas del aprovisionamiento manual
- 9.2 IaC declarativo vs imperativo
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El ciclo plan → apply → destroy
Capítulo 10 · HCL: el lenguaje de Terraform
- 10.1 Bloques resource, variable, output, locals
- 10.2 Tipos de datos: string, number, bool, list, map, object
- 10.3 Expresiones, referencias y funciones built-in
- 10.4 Condicionales y bucles (count, for_each, for)
Capítulo 11 · Providers y estado
- 11.1 Cómo funciona el provider de AWS
- 11.2 El fichero terraform.tfstate y su importancia
- 11.3 State local vs state remoto (S3 + DynamoDB)
- 11.4 Comandos esenciales: init, plan, apply, destroy, fmt, validate
Capítulo 12 · Tu primera infraestructura real en Terraform
- 12.1 Crear una VPC con subredes desde cero
- 12.2 Levantar una instancia EC2 pública
- 12.3 Asociar un Security Group y una Elastic IP
- 12.4 Outputs y referencias entre recursos
- 12.5 Flujo de trabajo en equipo: PR review de planes
Capítulo 13 · Balanceo de carga y autoescalado
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners y reglas
- 13.3 Auto Scaling Groups: políticas y métricas
- 13.4 Warm pools y lifecycle hooks
Capítulo 14 · Serverless con Lambda
- 14.1 El modelo de ejecución de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestión de dependencias y capas (Layers)
- 14.4 Cold starts y estrategias para reducirlos
- 14.5 Límites y antipatrones
Capítulo 15 · Mensajería y eventos
- 15.1 SQS: colas estándar vs FIFO, DLQ
- 15.2 SNS: topics, suscripciones, fan-out
- 15.3 EventBridge: event buses y reglas
- 15.4 Patrones: pub/sub, desacoplamiento, saga
Capítulo 16 · Entrega de contenido y DNS
- 16.1 Route 53: tipos de registros y routing policies
- 16.2 CloudFront: distribuciones, cachés y origins
- 16.3 ACM: certificados SSL/TLS gratuitos
- 16.4 WAF integrado con CloudFront
Capítulo 17 · Contenedores en AWS
- 17.1 Docker: repaso exprés de conceptos clave
- 17.2 ECR: registro privado de imágenes
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: cuándo Kubernetes y cuándo no
Capítulo 18 · Módulos: reutilización y composición
- 18.1 Anatomía de un módulo Terraform
- 18.2 Variables de entrada, outputs y dependencias
- 18.3 Módulos locales vs módulos del Terraform Registry
- 18.4 Versionado de módulos con Git tags
- 18.5 Diseño de módulos genéricos vs específicos de dominio
Capítulo 19 · Workspaces y gestión de entornos
- 19.1 Workspaces de Terraform: casos de uso y limitaciones
- 19.2 Estrategia de directorios por entorno (dev/stg/prod)
- 19.3 Terragrunt: DRY para configuraciones de entorno
- 19.4 Variables de entorno y archivos .tfvars
Capítulo 20 · Backends remotos y locking
- 20.1 Configurar S3 + DynamoDB como backend
- 20.2 State locking: evitar corrupción en equipo
- 20.3 Migración de estado entre backends
- 20.4 terraform import: traer recursos existentes al estado
Capítulo 21 · Testing de infraestructura
- 21.1 Terraform validate y fmt en CI
- 21.2 Checkov y tfsec: análisis de seguridad estático
- 21.3 Terratest: tests de integración en Go
- 21.4 Contract testing entre módulos
Capítulo 22 · Terraform en CI/CD
- 22.1 Pipeline básico: lint → plan → apply en GitHub Actions
- 22.2 Atlantis: GitOps para Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection y reconciliación automática
Capítulo 23 · Seguridad en profundidad
- 23.1 AWS Organizations y Service Control Policies
- 23.2 AWS Config: compliance continuo
- 23.3 GuardDuty: detección de amenazas
- 23.4 Security Hub: visión centralizada
- 23.5 KMS: gestión de claves y rotación
- 23.6 Secrets Manager vs Parameter Store
Capítulo 24 · Observabilidad: logs, métricas y trazas
- 24.1 CloudWatch Logs, métricas y alarmas
- 24.2 CloudWatch Dashboards y Contributor Insights
- 24.3 X-Ray: trazado distribuido
- 24.4 OpenTelemetry en AWS
- 24.5 Managed Grafana y Managed Prometheus
Capítulo 25 · Optimización de costes
- 25.1 AWS Cost Explorer y presupuestos con alertas
- 25.2 Trusted Advisor y Compute Optimizer
- 25.3 Rightsizing: cómo detectar sobredimensionamiento
- 25.4 Savings Plans vs Reserved Instances: decisión estratégica
- 25.5 FinOps: cultura y procesos para controlar el gasto
Capítulo 26 · Alta disponibilidad y disaster recovery
- 26.1 RTO y RPO: definir los objetivos
- 26.2 Estrategias: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks y failover automático
- 26.4 AWS Backup: política centralizada de copias
Capítulo 27 · Well-Architected Framework de AWS
- 27.1 Los seis pilares: excelencia operacional, seguridad, fiabilidad, eficiencia de rendimiento, optimización de costes, sostenibilidad
- 27.2 Well-Architected Tool: revisiones formales
- 27.3 Cómo aplicar el framework en decisiones de diseño
Capítulo 28 · Arquitecturas serverless a escala
- 28.1 Event-driven architecture con Lambda + EventBridge
- 28.2 Saga pattern para transacciones distribuidas
- 28.3 Step Functions: orquestación de workflows complejos
- 28.4 Lambda@Edge y CloudFront Functions
Capítulo 29 · Plataformas de datos en AWS
- 29.1 Data Lake con S3, Glue y Athena
- 29.2 Kinesis Data Streams y Firehose para streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: gobierno del dato
Capítulo 30 · Multi-cuenta y landing zones
- 30.1 Por qué separar workloads en cuentas distintas
- 30.2 AWS Control Tower y Account Factory
- 30.3 Gestión centralizada de logs y seguridad
- 30.4 Terraform a escala multi-cuenta con módulos compartidos
Capítulo 31 · Platform Engineering e Internal Developer Platform
- 31.1 Golden paths y abstracciones sobre Terraform
- 31.2 Service Catalog de AWS
- 31.3 Backstage como portal de desarrolladores
- 31.4 Módulos Terraform como producto interno
Capítulo 32 · Certificaciones AWS relevantes
- 32.1 Cloud Practitioner: ¿vale la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítulo 33 · Proyectos para consolidar lo aprendido
- 33.1 Proyecto 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Proyecto 2: API REST con ECS Fargate + RDS + ALB
- 33.3 Proyecto 3: plataforma de datos con Glue + Athena + Redshift
- 33.4 Proyecto 4: landing zone multi-cuenta con Terraform y Control Tower
