En el subcapítulo anterior vimos arquitecturas event-driven donde un proceso se reparte en muchos pasos independientes. Pero esto crea un problema delicado: ¿qué pasa si un proceso tiene varios pasos y uno de ellos falla a mitad? Por ejemplo, en un pedido se cobra el pago pero luego falla la reserva de stock. Quedaría un cliente cobrado sin producto: un estado inconsistente. El patrón Saga es la solución para coordinar procesos de varios pasos que pueden fallar, manteniendo todo coherente. Lo mencionamos brevemente en el subcapítulo 15.4; aquí lo vemos a fondo.
El problema: transacciones repartidas entre servicios
En un sistema de un solo bloque con una base de datos, hay un mecanismo clásico para esto: las transacciones. Una transacción dice «o se hacen todos los pasos, o no se hace ninguno»; si algo falla a mitad, todo se deshace automáticamente (rollback) y se queda como al principio. Es el principio de «todo o nada».
Pero en una arquitectura de microservicios (Capítulo 17) o serverless (Capítulo 28), cada paso lo hace un servicio distinto, con su propia base de datos. No hay una transacción única que los abarque a todos. Si el paso 3 de 5 falla, los pasos 1 y 2 ya se ejecutaron en otros servicios y no se deshacen solos:
Proceso de pedido (cada paso en un servicio distinto):
Paso 1: cobrar pago ✓ hecho
Paso 2: reservar stock ✓ hecho
Paso 3: asignar envío ✗ FALLA
Paso 4: notificar (no se llega)
→ problema: el pago ya se cobró y el stock ya se reservó,
pero el pedido no se puede completar. ¡Estado inconsistente!Necesitas una forma de mantener la consistencia cuando una operación se reparte entre varios servicios y algo falla a mitad. Eso es la Saga.
Qué es el patrón Saga
El patrón Saga gestiona una operación de varios pasos repartidos entre servicios, de forma que, si un paso falla, los pasos anteriores se deshacen mediante acciones compensatorias (operaciones que cancelan lo ya hecho). En vez de un «rollback automático» (que no existe entre servicios), defines cómo deshacer cada paso, y la Saga las ejecuta en orden inverso si algo falla.
Saga del pedido:
Paso 1: cobrar pago → compensación: reembolsar pago
Paso 2: reservar stock → compensación: liberar stock
Paso 3: asignar envío ✗ FALLA
→ la Saga ejecuta las compensaciones de los pasos ya hechos, en orden inverso:
liberar stock (deshace paso 2)
reembolsar pago (deshace paso 1)
→ el sistema vuelve a un estado consistente (como si nada hubiera pasado)Analogía: una Saga es como reservar unas vacaciones por partes (vuelo, hotel y coche de alquiler, cada uno en una web distinta). Reservas el vuelo ✓, reservas el hotel ✓... y al ir a alquilar el coche, no hay disponibilidad ✗. Como no puedes ir sin coche, tienes que cancelar lo anterior: cancelas el hotel (y te devuelven el dinero) y cancelas el vuelo. Cada cancelación es una acción compensatoria que deshace una reserva. Al final, estás como al principio, sin reservas a medias. La Saga automatiza exactamente esa lógica de «si algo falla, deshago lo anterior paso a paso».
La idea clave: compensar en vez de deshacer mágicamente
La diferencia esencial con una transacción tradicional: en una Saga no hay un rollback automático. En su lugar, tú defines explícitamente cómo deshacer cada paso (su acción compensatoria), y la Saga las ejecuta cuando hace falta. Esto requiere pensar, para cada paso, «¿cómo cancelo esto si luego algo falla?».
Transacción tradicional: rollback AUTOMÁTICO (la base de datos lo hace) Saga: compensaciones que TÚ defines (deshacer paso a paso)
Por eso, al diseñar una Saga, para cada acción piensas también en su acción contraria: cobrar ↔ reembolsar, reservar ↔ liberar, crear ↔ borrar.
Cómo se implementa una Saga en AWS
Hay dos formas habituales de coordinar una Saga, conectadas con lo que ya sabes:
- Por coreografía (con eventos): cada servicio reacciona a eventos (estilo event-driven del subcapítulo 28.1) y, si algo falla, emite un evento de fallo que dispara las compensaciones. No hay un «director»; los servicios se coordinan entre sí por eventos.
- Por orquestación (con un coordinador): un componente central dirige los pasos y, si uno falla, ordena las compensaciones. En AWS, la herramienta ideal para esto es Step Functions, que veremos en el siguiente subcapítulo (28.3): permite definir el flujo de pasos y qué hacer si cada uno falla, de forma visual y controlada.
Cuándo usar el patrón Saga
- Cuando tienes un proceso de varios pasos repartido entre varios servicios (microservicios, serverless) y necesitas que sea consistente aunque algo falle a mitad.
- Procesos de negocio críticos como pedidos, pagos, reservas, donde dejar algo «a medias» sería un problema grave.
⚠️ Si tu operación cabe en un solo servicio con una base de datos, usa una transacción normal (es más simple). La Saga es para cuando la operación cruza varios servicios y no hay transacción común posible.
Ejemplo del mundo real: una plataforma de viajes procesa la reserva de un paquete completo: vuelo, hotel y traslado, cada uno gestionado por un servicio distinto (a veces de proveedores externos). Implementan una Saga: reservan el vuelo, luego el hotel, luego el traslado. Si en el último paso el traslado no está disponible, la Saga ejecuta las compensaciones: cancela el hotel y cancela el vuelo automáticamente, devolviendo al cliente a un estado limpio (sin reservas parciales ni cobros indebidos). El cliente recibe un «no ha sido posible completar la reserva» en vez de quedarse con un vuelo y un hotel pero sin forma de llegar. La Saga garantiza que el proceso es todo o nada, aunque por dentro sean muchos servicios independientes.
Lo que debes recordar
- En microservicios/serverless, una operación de varios pasos se reparte entre varios servicios sin una transacción común; si un paso falla a mitad, los anteriores ya se ejecutaron y quedaría un estado inconsistente.
- El patrón Saga gestiona esos procesos de forma que, si un paso falla, los anteriores se deshacen mediante acciones compensatorias (operaciones que cancelan lo ya hecho), volviendo a un estado consistente. Como cancelar por partes una reserva de vacaciones si algo no cuadra.
- La clave: no hay rollback automático como en una base de datos; tú defines cómo deshacer cada paso (cobrar↔reembolsar, reservar↔liberar).
- Se implementa por coreografía (eventos, estilo 28.1) o por orquestación (un coordinador como Step Functions, subcap. 28.3).
- Úsalo para procesos críticos de varios servicios (pedidos, pagos, reservas). ⚠️ Si todo cabe en un servicio con una base de datos, usa una transacción normal (más simple).
En el siguiente subcapítulo veremos la herramienta de AWS ideal para orquestar estos flujos de varios pasos de forma visual y controlada: Step Functions.
Cloud, AWS & Terraform — De cero a experto
Capítulo 1 · Qué es el cloud computing
- 1.1 El modelo cliente-servidor tradicional
- 1.2 Problemas que venía a resolver la nube
- 1.3 On-premise vs cloud vs híbrido
- 1.4 Los tres modelos de servicio: IaaS, PaaS, SaaS
- 1.5 Los cinco pilares del cloud (según NIST)
- 1.6 Ventajas reales: elasticidad, pago por uso, disponibilidad global
Capítulo 2 · El mercado cloud y los grandes proveedores
- 2.1 AWS, Azure y GCP: diferencias y cuotas de mercado
- 2.2 Por qué aprender AWS primero
- 2.3 Conceptos que son universales entre proveedores
Capítulo 3 · Regiones, zonas de disponibilidad y edge
- 3.1 Qué es una región AWS y cómo elegirla
- 3.2 Availability Zones: alta disponibilidad desde el diseño
- 3.3 Edge locations y CloudFront
- 3.4 Latencia, resiliencia y soberanía de datos
Capítulo 4 · Cómputo: EC2
- 4.1 Instancias: tipos, familias y cuándo elegir cada una
- 4.2 AMIs, key pairs y Security Groups
- 4.3 Ciclo de vida de una instancia
- 4.4 Elastic IPs y Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítulo 5 · Almacenamiento: S3
- 5.1 Buckets, objetos y claves
- 5.2 Clases de almacenamiento (Standard, IA, Glacier…)
- 5.3 Versionado y ciclo de vida de objetos
- 5.4 Políticas de bucket y ACLs
- 5.5 Hosting de sitios web estáticos
Capítulo 6 · Redes: VPC
- 6.1 Qué es una VPC y por qué la necesitas
- 6.2 Subredes públicas y privadas
- 6.3 Internet Gateway y NAT Gateway
- 6.4 Route Tables y Network ACLs
- 6.5 VPC Peering y endpoints
Capítulo 7 · Identidad y acceso: IAM
- 7.1 Usuarios, grupos, roles y políticas
- 7.2 El principio de mínimo privilegio
- 7.3 Políticas basadas en identidad vs en recurso
- 7.4 MFA y credenciales temporales (STS)
- 7.5 Buenas prácticas de seguridad IAM
Capítulo 8 · Bases de datos gestionadas
- 8.1 RDS: motores, Multi-AZ y réplicas de lectura
- 8.2 Aurora y sus ventajas sobre RDS vanilla
- 8.3 DynamoDB: modelo clave-valor / documentos
- 8.4 ElastiCache para caché en memoria
- 8.5 Cuándo usar cada tipo de base de datos
Capítulo 9 · Por qué Infraestructura como Código
- 9.1 Problemas del aprovisionamiento manual
- 9.2 IaC declarativo vs imperativo
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El ciclo plan → apply → destroy
Capítulo 10 · HCL: el lenguaje de Terraform
- 10.1 Bloques resource, variable, output, locals
- 10.2 Tipos de datos: string, number, bool, list, map, object
- 10.3 Expresiones, referencias y funciones built-in
- 10.4 Condicionales y bucles (count, for_each, for)
Capítulo 11 · Providers y estado
- 11.1 Cómo funciona el provider de AWS
- 11.2 El fichero terraform.tfstate y su importancia
- 11.3 State local vs state remoto (S3 + DynamoDB)
- 11.4 Comandos esenciales: init, plan, apply, destroy, fmt, validate
Capítulo 12 · Tu primera infraestructura real en Terraform
- 12.1 Crear una VPC con subredes desde cero
- 12.2 Levantar una instancia EC2 pública
- 12.3 Asociar un Security Group y una Elastic IP
- 12.4 Outputs y referencias entre recursos
- 12.5 Flujo de trabajo en equipo: PR review de planes
Capítulo 13 · Balanceo de carga y autoescalado
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners y reglas
- 13.3 Auto Scaling Groups: políticas y métricas
- 13.4 Warm pools y lifecycle hooks
Capítulo 14 · Serverless con Lambda
- 14.1 El modelo de ejecución de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestión de dependencias y capas (Layers)
- 14.4 Cold starts y estrategias para reducirlos
- 14.5 Límites y antipatrones
Capítulo 15 · Mensajería y eventos
- 15.1 SQS: colas estándar vs FIFO, DLQ
- 15.2 SNS: topics, suscripciones, fan-out
- 15.3 EventBridge: event buses y reglas
- 15.4 Patrones: pub/sub, desacoplamiento, saga
Capítulo 16 · Entrega de contenido y DNS
- 16.1 Route 53: tipos de registros y routing policies
- 16.2 CloudFront: distribuciones, cachés y origins
- 16.3 ACM: certificados SSL/TLS gratuitos
- 16.4 WAF integrado con CloudFront
Capítulo 17 · Contenedores en AWS
- 17.1 Docker: repaso exprés de conceptos clave
- 17.2 ECR: registro privado de imágenes
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: cuándo Kubernetes y cuándo no
Capítulo 18 · Módulos: reutilización y composición
- 18.1 Anatomía de un módulo Terraform
- 18.2 Variables de entrada, outputs y dependencias
- 18.3 Módulos locales vs módulos del Terraform Registry
- 18.4 Versionado de módulos con Git tags
- 18.5 Diseño de módulos genéricos vs específicos de dominio
Capítulo 19 · Workspaces y gestión de entornos
- 19.1 Workspaces de Terraform: casos de uso y limitaciones
- 19.2 Estrategia de directorios por entorno (dev/stg/prod)
- 19.3 Terragrunt: DRY para configuraciones de entorno
- 19.4 Variables de entorno y archivos .tfvars
Capítulo 20 · Backends remotos y locking
- 20.1 Configurar S3 + DynamoDB como backend
- 20.2 State locking: evitar corrupción en equipo
- 20.3 Migración de estado entre backends
- 20.4 terraform import: traer recursos existentes al estado
Capítulo 21 · Testing de infraestructura
- 21.1 Terraform validate y fmt en CI
- 21.2 Checkov y tfsec: análisis de seguridad estático
- 21.3 Terratest: tests de integración en Go
- 21.4 Contract testing entre módulos
Capítulo 22 · Terraform en CI/CD
- 22.1 Pipeline básico: lint → plan → apply en GitHub Actions
- 22.2 Atlantis: GitOps para Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection y reconciliación automática
Capítulo 23 · Seguridad en profundidad
- 23.1 AWS Organizations y Service Control Policies
- 23.2 AWS Config: compliance continuo
- 23.3 GuardDuty: detección de amenazas
- 23.4 Security Hub: visión centralizada
- 23.5 KMS: gestión de claves y rotación
- 23.6 Secrets Manager vs Parameter Store
Capítulo 24 · Observabilidad: logs, métricas y trazas
- 24.1 CloudWatch Logs, métricas y alarmas
- 24.2 CloudWatch Dashboards y Contributor Insights
- 24.3 X-Ray: trazado distribuido
- 24.4 OpenTelemetry en AWS
- 24.5 Managed Grafana y Managed Prometheus
Capítulo 25 · Optimización de costes
- 25.1 AWS Cost Explorer y presupuestos con alertas
- 25.2 Trusted Advisor y Compute Optimizer
- 25.3 Rightsizing: cómo detectar sobredimensionamiento
- 25.4 Savings Plans vs Reserved Instances: decisión estratégica
- 25.5 FinOps: cultura y procesos para controlar el gasto
Capítulo 26 · Alta disponibilidad y disaster recovery
- 26.1 RTO y RPO: definir los objetivos
- 26.2 Estrategias: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks y failover automático
- 26.4 AWS Backup: política centralizada de copias
Capítulo 27 · Well-Architected Framework de AWS
- 27.1 Los seis pilares: excelencia operacional, seguridad, fiabilidad, eficiencia de rendimiento, optimización de costes, sostenibilidad
- 27.2 Well-Architected Tool: revisiones formales
- 27.3 Cómo aplicar el framework en decisiones de diseño
Capítulo 28 · Arquitecturas serverless a escala
- 28.1 Event-driven architecture con Lambda + EventBridge
- 28.2 Saga pattern para transacciones distribuidas
- 28.3 Step Functions: orquestación de workflows complejos
- 28.4 Lambda@Edge y CloudFront Functions
Capítulo 29 · Plataformas de datos en AWS
- 29.1 Data Lake con S3, Glue y Athena
- 29.2 Kinesis Data Streams y Firehose para streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: gobierno del dato
Capítulo 30 · Multi-cuenta y landing zones
- 30.1 Por qué separar workloads en cuentas distintas
- 30.2 AWS Control Tower y Account Factory
- 30.3 Gestión centralizada de logs y seguridad
- 30.4 Terraform a escala multi-cuenta con módulos compartidos
Capítulo 31 · Platform Engineering e Internal Developer Platform
- 31.1 Golden paths y abstracciones sobre Terraform
- 31.2 Service Catalog de AWS
- 31.3 Backstage como portal de desarrolladores
- 31.4 Módulos Terraform como producto interno
Capítulo 32 · Certificaciones AWS relevantes
- 32.1 Cloud Practitioner: ¿vale la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítulo 33 · Proyectos para consolidar lo aprendido
- 33.1 Proyecto 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Proyecto 2: API REST con ECS Fargate + RDS + ALB
- 33.3 Proyecto 3: plataforma de datos con Glue + Athena + Redshift
- 33.4 Proyecto 4: landing zone multi-cuenta con Terraform y Control Tower
