Cerramos la Parte VI con el Capítulo 26: Alta disponibilidad y disaster recovery, que trata sobre cómo conseguir que tus sistemas resistan fallos y desastres. Porque las cosas fallan: un servidor se cae, una región tiene problemas, alguien borra datos por error. La pregunta no es si fallará algo, sino cuándo, y cómo de preparado estás. Antes de ver estrategias y herramientas, necesitamos dos conceptos fundamentales que guían todas las decisiones de recuperación: RTO y RPO.
El punto de partida: los fallos son inevitables
Una verdad incómoda de los sistemas: todo falla en algún momento. Discos, servidores, redes, incluso centros de datos enteros. Las empresas serias no fingen que no pasará; se preparan para cuando pase. A esa preparación para recuperarse de fallos graves se le llama disaster recovery (recuperación ante desastres, DR).
Pero «estar preparado» cuesta dinero y esfuerzo, y no todas las aplicaciones necesitan el mismo nivel. ¿Cuánto debes invertir en recuperación? Para responder, primero hay que definir qué nivel de recuperación necesitas, y eso se mide con dos preguntas: RTO y RPO.
RTO: ¿cuánto tiempo puedo estar caído?
RTO (Recovery Time Objective) es el tiempo máximo que tu sistema puede estar caído tras un desastre antes de recuperarse. Responde a la pregunta: «si esto se cae, ¿en cuánto tiempo necesito que vuelva a funcionar?»
Desastre ocurre Sistema recuperado
│ │
▼ ▼
├──────── RTO ─────────────┤
│ (tiempo de caída │
│ que puedo tolerar) │Ejemplos de RTO según el tipo de sistema:
- Una tienda online en plena campaña: RTO de minutos (cada minuto caído = ventas perdidas).
- Una herramienta interna de informes: RTO de horas (molesto, pero tolerable).
- Un sistema de archivo histórico: RTO de días (casi nadie lo nota).
Analogía: el RTO es como preguntarte, si se te avería el coche, «¿cuánto tiempo puedo estar sin coche?». Si lo necesitas para trabajar cada día, quieres que esté arreglado en horas (RTO bajo), aunque eso signifique pagar una grúa urgente y un taller exprés. Si es un coche de fin de semana, puedes esperar una semana sin problema (RTO alto) y buscar la reparación más barata.
RPO: ¿cuántos datos puedo permitirme perder?
RPO (Recovery Point Objective) es la cantidad máxima de datos (medida en tiempo) que puedes permitirte perder en un desastre. Responde a: «si esto se cae, ¿hasta qué momento en el pasado necesito recuperar los datos sin que sea un problema?». En la práctica, marca cada cuánto necesitas hacer copias de seguridad.
Si tu última copia fue hace 1 hora y ocurre un desastre, pierdes la última hora de datos. Ejemplos:
- Un banco: RPO de segundos (no puede perder ni una transacción).
- Una tienda online: RPO de minutos (perder unos minutos de pedidos sería grave pero no catastrófico).
- Un blog: RPO de horas o un día (perder los últimos comentarios es tolerable).
Analogía: el RPO es como preguntarte «¿cuánto trabajo puedo permitirme perder si se apaga el ordenador sin guardar?». Si guardas cada 5 minutos, como mucho pierdes 5 minutos de trabajo (RPO de 5 min). Si solo guardas una vez al día, podrías perder un día entero de trabajo. Cuanto menos puedas permitirte perder, más a menudo debes guardar (copias más frecuentes).
RTO y RPO juntos: dos preguntas distintas
Es fundamental no confundirlos: miden cosas diferentes.
┌──────────── DESASTRE ────────────┐ │ │ RPO mira al PASADO RTO mira al FUTURO "¿cuántos datos pierdo?" "¿cuánto tardo en volver?" (frecuencia de copias) (velocidad de recuperación)
| RTO | RPO | |
|---|---|---|
| Mide | Tiempo de caída tolerable | Datos que puedes perder |
| Pregunta | ¿Cuánto tardo en volver? | ¿Cuántos datos pierdo? |
| Mira hacia | El futuro (recuperación) | El pasado (última copia) |
| Afecta a | La velocidad de recuperación | La frecuencia de las copias |
Por qué importan: definen tu estrategia (y tu coste)
RTO y RPO son la brújula de todo tu plan de recuperación. Cuanto más exigentes sean (RTO y RPO de minutos o segundos), más cuesta la solución (necesitas sistemas duplicados, copias constantes, automatización...). Cuanto más relajados, más barato.
RTO/RPO muy bajos (minutos/segundos) → solución cara y compleja RTO/RPO altos (horas/días) → solución barata y simple
Por eso, el primer paso siempre es preguntar al negocio: «¿cuánto tiempo de caída y cuántos datos podemos tolerar?». La respuesta determina cuánto invertir. No tiene sentido gastar una fortuna en recuperación instantánea para un sistema que nadie echaría de menos durante un día.
Ejemplo del mundo real: una empresa define RTO y RPO para cada sistema. Para su plataforma de pagos: RTO de 5 minutos y RPO de 0 (no pueden perder ninguna transacción ni estar caídos), así que invierten en una arquitectura duplicada y costosa. Para su sistema interno de informes: RTO de 8 horas y RPO de 24 horas, así que una simple copia diaria y una recuperación manual bastan, ahorrando mucho dinero. Misma empresa, estrategias muy distintas, cada una ajustada a lo que cada sistema realmente necesita. Definir RTO y RPO primero les permite invertir el dinero donde de verdad importa.
Lo que debes recordar
- Todo falla en algún momento; las empresas serias se preparan para recuperarse (disaster recovery). Pero «estar preparado» cuesta, y cada sistema necesita un nivel distinto.
- RTO (Recovery Time Objective): el tiempo máximo de caída tolerable antes de recuperarse («¿en cuánto vuelvo?»). Mira al futuro; afecta a la velocidad de recuperación.
- RPO (Recovery Point Objective): la cantidad máxima de datos (en tiempo) que puedes perder («¿cuántos datos pierdo?»). Mira al pasado; marca la frecuencia de las copias.
- No se confunden: RPO mira al pasado (datos perdidos), RTO mira al futuro (tiempo de vuelta).
- Cuanto más exigentes (minutos/segundos), más cara la solución. Por eso el primer paso es preguntar al negocio qué puede tolerar, e invertir en consecuencia.
En el siguiente subcapítulo veremos las distintas estrategias de disaster recovery (de la más barata a la más rápida) que eliges según tu RTO y RPO.
Cloud, AWS & Terraform — De cero a experto
Capítulo 1 · Qué es el cloud computing
- 1.1 El modelo cliente-servidor tradicional
- 1.2 Problemas que venía a resolver la nube
- 1.3 On-premise vs cloud vs híbrido
- 1.4 Los tres modelos de servicio: IaaS, PaaS, SaaS
- 1.5 Los cinco pilares del cloud (según NIST)
- 1.6 Ventajas reales: elasticidad, pago por uso, disponibilidad global
Capítulo 2 · El mercado cloud y los grandes proveedores
- 2.1 AWS, Azure y GCP: diferencias y cuotas de mercado
- 2.2 Por qué aprender AWS primero
- 2.3 Conceptos que son universales entre proveedores
Capítulo 3 · Regiones, zonas de disponibilidad y edge
- 3.1 Qué es una región AWS y cómo elegirla
- 3.2 Availability Zones: alta disponibilidad desde el diseño
- 3.3 Edge locations y CloudFront
- 3.4 Latencia, resiliencia y soberanía de datos
Capítulo 4 · Cómputo: EC2
- 4.1 Instancias: tipos, familias y cuándo elegir cada una
- 4.2 AMIs, key pairs y Security Groups
- 4.3 Ciclo de vida de una instancia
- 4.4 Elastic IPs y Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítulo 5 · Almacenamiento: S3
- 5.1 Buckets, objetos y claves
- 5.2 Clases de almacenamiento (Standard, IA, Glacier…)
- 5.3 Versionado y ciclo de vida de objetos
- 5.4 Políticas de bucket y ACLs
- 5.5 Hosting de sitios web estáticos
Capítulo 6 · Redes: VPC
- 6.1 Qué es una VPC y por qué la necesitas
- 6.2 Subredes públicas y privadas
- 6.3 Internet Gateway y NAT Gateway
- 6.4 Route Tables y Network ACLs
- 6.5 VPC Peering y endpoints
Capítulo 7 · Identidad y acceso: IAM
- 7.1 Usuarios, grupos, roles y políticas
- 7.2 El principio de mínimo privilegio
- 7.3 Políticas basadas en identidad vs en recurso
- 7.4 MFA y credenciales temporales (STS)
- 7.5 Buenas prácticas de seguridad IAM
Capítulo 8 · Bases de datos gestionadas
- 8.1 RDS: motores, Multi-AZ y réplicas de lectura
- 8.2 Aurora y sus ventajas sobre RDS vanilla
- 8.3 DynamoDB: modelo clave-valor / documentos
- 8.4 ElastiCache para caché en memoria
- 8.5 Cuándo usar cada tipo de base de datos
Capítulo 9 · Por qué Infraestructura como Código
- 9.1 Problemas del aprovisionamiento manual
- 9.2 IaC declarativo vs imperativo
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El ciclo plan → apply → destroy
Capítulo 10 · HCL: el lenguaje de Terraform
- 10.1 Bloques resource, variable, output, locals
- 10.2 Tipos de datos: string, number, bool, list, map, object
- 10.3 Expresiones, referencias y funciones built-in
- 10.4 Condicionales y bucles (count, for_each, for)
Capítulo 11 · Providers y estado
- 11.1 Cómo funciona el provider de AWS
- 11.2 El fichero terraform.tfstate y su importancia
- 11.3 State local vs state remoto (S3 + DynamoDB)
- 11.4 Comandos esenciales: init, plan, apply, destroy, fmt, validate
Capítulo 12 · Tu primera infraestructura real en Terraform
- 12.1 Crear una VPC con subredes desde cero
- 12.2 Levantar una instancia EC2 pública
- 12.3 Asociar un Security Group y una Elastic IP
- 12.4 Outputs y referencias entre recursos
- 12.5 Flujo de trabajo en equipo: PR review de planes
Capítulo 13 · Balanceo de carga y autoescalado
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners y reglas
- 13.3 Auto Scaling Groups: políticas y métricas
- 13.4 Warm pools y lifecycle hooks
Capítulo 14 · Serverless con Lambda
- 14.1 El modelo de ejecución de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestión de dependencias y capas (Layers)
- 14.4 Cold starts y estrategias para reducirlos
- 14.5 Límites y antipatrones
Capítulo 15 · Mensajería y eventos
- 15.1 SQS: colas estándar vs FIFO, DLQ
- 15.2 SNS: topics, suscripciones, fan-out
- 15.3 EventBridge: event buses y reglas
- 15.4 Patrones: pub/sub, desacoplamiento, saga
Capítulo 16 · Entrega de contenido y DNS
- 16.1 Route 53: tipos de registros y routing policies
- 16.2 CloudFront: distribuciones, cachés y origins
- 16.3 ACM: certificados SSL/TLS gratuitos
- 16.4 WAF integrado con CloudFront
Capítulo 17 · Contenedores en AWS
- 17.1 Docker: repaso exprés de conceptos clave
- 17.2 ECR: registro privado de imágenes
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: cuándo Kubernetes y cuándo no
Capítulo 18 · Módulos: reutilización y composición
- 18.1 Anatomía de un módulo Terraform
- 18.2 Variables de entrada, outputs y dependencias
- 18.3 Módulos locales vs módulos del Terraform Registry
- 18.4 Versionado de módulos con Git tags
- 18.5 Diseño de módulos genéricos vs específicos de dominio
Capítulo 19 · Workspaces y gestión de entornos
- 19.1 Workspaces de Terraform: casos de uso y limitaciones
- 19.2 Estrategia de directorios por entorno (dev/stg/prod)
- 19.3 Terragrunt: DRY para configuraciones de entorno
- 19.4 Variables de entorno y archivos .tfvars
Capítulo 20 · Backends remotos y locking
- 20.1 Configurar S3 + DynamoDB como backend
- 20.2 State locking: evitar corrupción en equipo
- 20.3 Migración de estado entre backends
- 20.4 terraform import: traer recursos existentes al estado
Capítulo 21 · Testing de infraestructura
- 21.1 Terraform validate y fmt en CI
- 21.2 Checkov y tfsec: análisis de seguridad estático
- 21.3 Terratest: tests de integración en Go
- 21.4 Contract testing entre módulos
Capítulo 22 · Terraform en CI/CD
- 22.1 Pipeline básico: lint → plan → apply en GitHub Actions
- 22.2 Atlantis: GitOps para Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection y reconciliación automática
Capítulo 23 · Seguridad en profundidad
- 23.1 AWS Organizations y Service Control Policies
- 23.2 AWS Config: compliance continuo
- 23.3 GuardDuty: detección de amenazas
- 23.4 Security Hub: visión centralizada
- 23.5 KMS: gestión de claves y rotación
- 23.6 Secrets Manager vs Parameter Store
Capítulo 24 · Observabilidad: logs, métricas y trazas
- 24.1 CloudWatch Logs, métricas y alarmas
- 24.2 CloudWatch Dashboards y Contributor Insights
- 24.3 X-Ray: trazado distribuido
- 24.4 OpenTelemetry en AWS
- 24.5 Managed Grafana y Managed Prometheus
Capítulo 25 · Optimización de costes
- 25.1 AWS Cost Explorer y presupuestos con alertas
- 25.2 Trusted Advisor y Compute Optimizer
- 25.3 Rightsizing: cómo detectar sobredimensionamiento
- 25.4 Savings Plans vs Reserved Instances: decisión estratégica
- 25.5 FinOps: cultura y procesos para controlar el gasto
Capítulo 26 · Alta disponibilidad y disaster recovery
- 26.1 RTO y RPO: definir los objetivos
- 26.2 Estrategias: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks y failover automático
- 26.4 AWS Backup: política centralizada de copias
Capítulo 27 · Well-Architected Framework de AWS
- 27.1 Los seis pilares: excelencia operacional, seguridad, fiabilidad, eficiencia de rendimiento, optimización de costes, sostenibilidad
- 27.2 Well-Architected Tool: revisiones formales
- 27.3 Cómo aplicar el framework en decisiones de diseño
Capítulo 28 · Arquitecturas serverless a escala
- 28.1 Event-driven architecture con Lambda + EventBridge
- 28.2 Saga pattern para transacciones distribuidas
- 28.3 Step Functions: orquestación de workflows complejos
- 28.4 Lambda@Edge y CloudFront Functions
Capítulo 29 · Plataformas de datos en AWS
- 29.1 Data Lake con S3, Glue y Athena
- 29.2 Kinesis Data Streams y Firehose para streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: gobierno del dato
Capítulo 30 · Multi-cuenta y landing zones
- 30.1 Por qué separar workloads en cuentas distintas
- 30.2 AWS Control Tower y Account Factory
- 30.3 Gestión centralizada de logs y seguridad
- 30.4 Terraform a escala multi-cuenta con módulos compartidos
Capítulo 31 · Platform Engineering e Internal Developer Platform
- 31.1 Golden paths y abstracciones sobre Terraform
- 31.2 Service Catalog de AWS
- 31.3 Backstage como portal de desarrolladores
- 31.4 Módulos Terraform como producto interno
Capítulo 32 · Certificaciones AWS relevantes
- 32.1 Cloud Practitioner: ¿vale la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítulo 33 · Proyectos para consolidar lo aprendido
- 33.1 Proyecto 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Proyecto 2: API REST con ECS Fargate + RDS + ALB
- 33.3 Proyecto 3: plataforma de datos con Glue + Athena + Redshift
- 33.4 Proyecto 4: landing zone multi-cuenta con Terraform y Control Tower
