Tienes un balanceador repartiendo tráfico entre varios servidores. Pero queda una pregunta: ¿quién crea esos servidores y cuántos debe haber? Si pones 10 fijos, pagas de más por la noche cuando hay poco tráfico; si pones 2, te saturas en hora punta. La solución es el Auto Scaling Group (ASG): el componente que crea y elimina servidores automáticamente según la demanda. Esta es la otra mitad de una arquitectura elástica.
El problema: la demanda no es constante
El tráfico de casi cualquier aplicación sube y baja:
Tráfico de una tienda online a lo largo del día:
Alto │ ██████
│ ███ ███
│ ██ ██
Bajo │ ████ ████
└────────────────────────────
00h 12h 18h 24hSi dimensionas para el pico, desperdicias dinero la mayor parte del tiempo. Si dimensionas para la media, te caes en los picos. La respuesta es no tener un número fijo: ajustar la cantidad de servidores en tiempo real. Eso es el autoescalado, y es una de las grandes ventajas de la nube que vimos en el Capítulo 1 (elasticidad).
Qué es un Auto Scaling Group
Un Auto Scaling Group (ASG) es un grupo de instancias EC2 que AWS mantiene y ajusta automáticamente. Tú defines unos límites y unas reglas, y el ASG se encarga de crear o destruir servidores para cumplirlas.
Se configura con tres números clave:
┌─────────── Auto Scaling Group ───────────┐ │ Mínimo: 2 servidores (nunca menos) │ │ Deseado: 3 servidores (ahora mismo) │ │ Máximo: 10 servidores (nunca más) │ └───────────────────────────────────────────┘
- Mínimo: el número que siempre habrá, aunque no haya tráfico (garantiza disponibilidad).
- Deseado: cuántos hay en este momento; este es el que el ASG va ajustando.
- Máximo: el tope, para que un pico (o un error) no dispare la factura sin control.
La autorreparación: una ventaja enorme
El ASG no solo escala: también se autorrepara. Si una instancia se cae o falla su health check, el ASG la detecta y crea una nueva para mantener el número deseado.
Deseado = 3, pero un servidor se cae:
Servidor 1 ✓ Servidor 2 ✓ Servidor 3 ✗ (caído)
│
El ASG lo detecta y...
▼
Servidor 1 ✓ Servidor 2 ✓ Servidor 4 ✓ (nuevo, recién creado)Esto es potentísimo: combinado con el balanceador del subcapítulo anterior, tu aplicación se cura sola. Si un servidor muere a las 3 de la madrugada, nadie tiene que levantarse: el ASG crea uno nuevo y el balanceador empieza a usarlo en cuanto está sano. Aquí cobra sentido el
user_datadel subcapítulo 12.2: cada servidor nuevo se autoconfigura solo al nacer.
Las políticas de escalado: cuándo crear o quitar servidores
¿Cómo decide el ASG que hace falta escalar? Mediante políticas de escalado basadas en métricas (datos de CloudWatch, que veremos en el Capítulo 24). La más común es el uso de CPU.
Target Tracking (seguimiento de objetivo): la más sencilla y recomendada
Le dices al ASG un objetivo y él hace lo necesario para mantenerlo. Por ejemplo: «mantén el uso medio de CPU en el 50 %».
Política: mantener CPU media al 50% CPU sube al 80% → el ASG AÑADE servidores → la CPU media baja CPU baja al 20% → el ASG QUITA servidores → la CPU media sube
Es como el climatizador de un coche: le dices «mantén 22 grados» y él solito enciende o apaga el aire según haga falta. No te preocupas de los detalles. Por su sencillez, es la política recomendada para empezar.
Otras políticas (para conocer)
| Política | Cómo funciona | Cuándo usarla |
|---|---|---|
| Target Tracking | Mantiene una métrica en un valor objetivo | La opción por defecto, la más fácil |
| Step Scaling | Añade/quita N servidores según escalones de la métrica | Control más fino del escalado |
| Scheduled | Escala según un horario previsto | Picos predecibles (ej. rebajas a las 9h) |
Un ejemplo de escalado programado (scheduled): una web de venta de entradas sabe que cada lunes a las 10:00 saca entradas y recibe una avalancha. Programa el ASG para subir a 20 servidores a las 9:55, antes de que llegue la gente, en vez de esperar a que la CPU suba.
Métricas: en qué se basa la decisión
Las políticas reaccionan a métricas. Las más habituales:
- Uso de CPU: la más común; alta CPU = servidores saturados.
- Número de peticiones por servidor: muy útil con un balanceador (peticiones del Target Group).
- Uso de memoria o de red.
- Métricas personalizadas: por ejemplo, el número de mensajes en una cola (lo veremos con SQS, Capítulo 15).
El conjunto completo: balanceador + ASG
Juntando los tres subcapítulos, esta es la arquitectura elástica clásica:
Usuarios
│
┌───────▼────────┐
│ Balanceador │ (reparte tráfico, subcap. 13.1-13.2)
└───────┬────────┘
┌────────┼────────┐
▼ ▼ ▼
Servidor Servidor Servidor ← Auto Scaling Group
(el ASG crea/destruye según la demanda y los repara)El balanceador reparte entre los servidores que haya; el ASG ajusta cuántos hay y los mantiene sanos. Juntos dan una aplicación que escala sola y se cura sola.
Lo que debes recordar
- Un Auto Scaling Group (ASG) crea y elimina servidores automáticamente según la demanda, dentro de unos límites: mínimo, deseado y máximo.
- El ASG también se autorrepara: si un servidor falla, crea uno nuevo para mantener el número deseado (aquí brilla el
user_dataque autoconfigura cada servidor). - Las políticas de escalado deciden cuándo escalar según métricas (la más común, el uso de CPU).
- Target Tracking («mantén la CPU al 50 %») es la política más sencilla y recomendada para empezar; existen también Step y Scheduled (escalado programado para picos previsibles).
- Balanceador + ASG = arquitectura que escala sola y se cura sola.
En el último subcapítulo del capítulo veremos dos técnicas avanzadas para afinar el autoescalado: los warm pools y los lifecycle hooks.
Cloud, AWS & Terraform — De cero a experto
Capítulo 1 · Qué es el cloud computing
- 1.1 El modelo cliente-servidor tradicional
- 1.2 Problemas que venía a resolver la nube
- 1.3 On-premise vs cloud vs híbrido
- 1.4 Los tres modelos de servicio: IaaS, PaaS, SaaS
- 1.5 Los cinco pilares del cloud (según NIST)
- 1.6 Ventajas reales: elasticidad, pago por uso, disponibilidad global
Capítulo 2 · El mercado cloud y los grandes proveedores
- 2.1 AWS, Azure y GCP: diferencias y cuotas de mercado
- 2.2 Por qué aprender AWS primero
- 2.3 Conceptos que son universales entre proveedores
Capítulo 3 · Regiones, zonas de disponibilidad y edge
- 3.1 Qué es una región AWS y cómo elegirla
- 3.2 Availability Zones: alta disponibilidad desde el diseño
- 3.3 Edge locations y CloudFront
- 3.4 Latencia, resiliencia y soberanía de datos
Capítulo 4 · Cómputo: EC2
- 4.1 Instancias: tipos, familias y cuándo elegir cada una
- 4.2 AMIs, key pairs y Security Groups
- 4.3 Ciclo de vida de una instancia
- 4.4 Elastic IPs y Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítulo 5 · Almacenamiento: S3
- 5.1 Buckets, objetos y claves
- 5.2 Clases de almacenamiento (Standard, IA, Glacier…)
- 5.3 Versionado y ciclo de vida de objetos
- 5.4 Políticas de bucket y ACLs
- 5.5 Hosting de sitios web estáticos
Capítulo 6 · Redes: VPC
- 6.1 Qué es una VPC y por qué la necesitas
- 6.2 Subredes públicas y privadas
- 6.3 Internet Gateway y NAT Gateway
- 6.4 Route Tables y Network ACLs
- 6.5 VPC Peering y endpoints
Capítulo 7 · Identidad y acceso: IAM
- 7.1 Usuarios, grupos, roles y políticas
- 7.2 El principio de mínimo privilegio
- 7.3 Políticas basadas en identidad vs en recurso
- 7.4 MFA y credenciales temporales (STS)
- 7.5 Buenas prácticas de seguridad IAM
Capítulo 8 · Bases de datos gestionadas
- 8.1 RDS: motores, Multi-AZ y réplicas de lectura
- 8.2 Aurora y sus ventajas sobre RDS vanilla
- 8.3 DynamoDB: modelo clave-valor / documentos
- 8.4 ElastiCache para caché en memoria
- 8.5 Cuándo usar cada tipo de base de datos
Capítulo 9 · Por qué Infraestructura como Código
- 9.1 Problemas del aprovisionamiento manual
- 9.2 IaC declarativo vs imperativo
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El ciclo plan → apply → destroy
Capítulo 10 · HCL: el lenguaje de Terraform
- 10.1 Bloques resource, variable, output, locals
- 10.2 Tipos de datos: string, number, bool, list, map, object
- 10.3 Expresiones, referencias y funciones built-in
- 10.4 Condicionales y bucles (count, for_each, for)
Capítulo 11 · Providers y estado
- 11.1 Cómo funciona el provider de AWS
- 11.2 El fichero terraform.tfstate y su importancia
- 11.3 State local vs state remoto (S3 + DynamoDB)
- 11.4 Comandos esenciales: init, plan, apply, destroy, fmt, validate
Capítulo 12 · Tu primera infraestructura real en Terraform
- 12.1 Crear una VPC con subredes desde cero
- 12.2 Levantar una instancia EC2 pública
- 12.3 Asociar un Security Group y una Elastic IP
- 12.4 Outputs y referencias entre recursos
- 12.5 Flujo de trabajo en equipo: PR review de planes
Capítulo 13 · Balanceo de carga y autoescalado
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners y reglas
- 13.3 Auto Scaling Groups: políticas y métricas
- 13.4 Warm pools y lifecycle hooks
Capítulo 14 · Serverless con Lambda
- 14.1 El modelo de ejecución de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestión de dependencias y capas (Layers)
- 14.4 Cold starts y estrategias para reducirlos
- 14.5 Límites y antipatrones
Capítulo 15 · Mensajería y eventos
- 15.1 SQS: colas estándar vs FIFO, DLQ
- 15.2 SNS: topics, suscripciones, fan-out
- 15.3 EventBridge: event buses y reglas
- 15.4 Patrones: pub/sub, desacoplamiento, saga
Capítulo 16 · Entrega de contenido y DNS
- 16.1 Route 53: tipos de registros y routing policies
- 16.2 CloudFront: distribuciones, cachés y origins
- 16.3 ACM: certificados SSL/TLS gratuitos
- 16.4 WAF integrado con CloudFront
Capítulo 17 · Contenedores en AWS
- 17.1 Docker: repaso exprés de conceptos clave
- 17.2 ECR: registro privado de imágenes
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: cuándo Kubernetes y cuándo no
Capítulo 18 · Módulos: reutilización y composición
- 18.1 Anatomía de un módulo Terraform
- 18.2 Variables de entrada, outputs y dependencias
- 18.3 Módulos locales vs módulos del Terraform Registry
- 18.4 Versionado de módulos con Git tags
- 18.5 Diseño de módulos genéricos vs específicos de dominio
Capítulo 19 · Workspaces y gestión de entornos
- 19.1 Workspaces de Terraform: casos de uso y limitaciones
- 19.2 Estrategia de directorios por entorno (dev/stg/prod)
- 19.3 Terragrunt: DRY para configuraciones de entorno
- 19.4 Variables de entorno y archivos .tfvars
Capítulo 20 · Backends remotos y locking
- 20.1 Configurar S3 + DynamoDB como backend
- 20.2 State locking: evitar corrupción en equipo
- 20.3 Migración de estado entre backends
- 20.4 terraform import: traer recursos existentes al estado
Capítulo 21 · Testing de infraestructura
- 21.1 Terraform validate y fmt en CI
- 21.2 Checkov y tfsec: análisis de seguridad estático
- 21.3 Terratest: tests de integración en Go
- 21.4 Contract testing entre módulos
Capítulo 22 · Terraform en CI/CD
- 22.1 Pipeline básico: lint → plan → apply en GitHub Actions
- 22.2 Atlantis: GitOps para Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection y reconciliación automática
Capítulo 23 · Seguridad en profundidad
- 23.1 AWS Organizations y Service Control Policies
- 23.2 AWS Config: compliance continuo
- 23.3 GuardDuty: detección de amenazas
- 23.4 Security Hub: visión centralizada
- 23.5 KMS: gestión de claves y rotación
- 23.6 Secrets Manager vs Parameter Store
Capítulo 24 · Observabilidad: logs, métricas y trazas
- 24.1 CloudWatch Logs, métricas y alarmas
- 24.2 CloudWatch Dashboards y Contributor Insights
- 24.3 X-Ray: trazado distribuido
- 24.4 OpenTelemetry en AWS
- 24.5 Managed Grafana y Managed Prometheus
Capítulo 25 · Optimización de costes
- 25.1 AWS Cost Explorer y presupuestos con alertas
- 25.2 Trusted Advisor y Compute Optimizer
- 25.3 Rightsizing: cómo detectar sobredimensionamiento
- 25.4 Savings Plans vs Reserved Instances: decisión estratégica
- 25.5 FinOps: cultura y procesos para controlar el gasto
Capítulo 26 · Alta disponibilidad y disaster recovery
- 26.1 RTO y RPO: definir los objetivos
- 26.2 Estrategias: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks y failover automático
- 26.4 AWS Backup: política centralizada de copias
Capítulo 27 · Well-Architected Framework de AWS
- 27.1 Los seis pilares: excelencia operacional, seguridad, fiabilidad, eficiencia de rendimiento, optimización de costes, sostenibilidad
- 27.2 Well-Architected Tool: revisiones formales
- 27.3 Cómo aplicar el framework en decisiones de diseño
Capítulo 28 · Arquitecturas serverless a escala
- 28.1 Event-driven architecture con Lambda + EventBridge
- 28.2 Saga pattern para transacciones distribuidas
- 28.3 Step Functions: orquestación de workflows complejos
- 28.4 Lambda@Edge y CloudFront Functions
Capítulo 29 · Plataformas de datos en AWS
- 29.1 Data Lake con S3, Glue y Athena
- 29.2 Kinesis Data Streams y Firehose para streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: gobierno del dato
Capítulo 30 · Multi-cuenta y landing zones
- 30.1 Por qué separar workloads en cuentas distintas
- 30.2 AWS Control Tower y Account Factory
- 30.3 Gestión centralizada de logs y seguridad
- 30.4 Terraform a escala multi-cuenta con módulos compartidos
Capítulo 31 · Platform Engineering e Internal Developer Platform
- 31.1 Golden paths y abstracciones sobre Terraform
- 31.2 Service Catalog de AWS
- 31.3 Backstage como portal de desarrolladores
- 31.4 Módulos Terraform como producto interno
Capítulo 32 · Certificaciones AWS relevantes
- 32.1 Cloud Practitioner: ¿vale la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítulo 33 · Proyectos para consolidar lo aprendido
- 33.1 Proyecto 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Proyecto 2: API REST con ECS Fargate + RDS + ALB
- 33.3 Proyecto 3: plataforma de datos con Glue + Athena + Redshift
- 33.4 Proyecto 4: landing zone multi-cuenta con Terraform y Control Tower
