Los logs y las métricas (subcapítulos 24.1 y 24.2) están muy bien cuando tu aplicación es una sola pieza. Pero las arquitecturas modernas se componen de muchos servicios que colaboran: una petición pasa por un balanceador, luego por una Lambda, que llama a otra, que consulta una base de datos, que escribe en una cola... Cuando algo va lento o falla, ¿en qué parte del recorrido está el problema? Para responder a eso existe el trazado distribuido, y en AWS la herramienta es X-Ray.
El problema: el viaje de una petición por muchos servicios
Recuerda los microservicios y las arquitecturas desacopladas que hemos visto (Lambda en el Capítulo 14, mensajería en el 15, contenedores en el 17). Una sola petición de un usuario puede recorrer muchos componentes:
Si esa petición tarda 5 segundos (demasiado), ¿dónde está la lentitud? ¿En Lambda A? ¿En la base de datos? ¿En Lambda B? Con logs sueltos de cada servicio es muy difícil reconstruir el viaje completo y ver dónde se pierde el tiempo. Necesitas seguir el rastro de esa petición concreta a través de todo el sistema.
Qué es el trazado distribuido
El trazado distribuido (distributed tracing) consiste en seguir una petición a lo largo de todos los servicios por los que pasa, midiendo cuánto tarda en cada uno. El resultado es una traza: el mapa completo del viaje de esa petición, con los tiempos de cada etapa.
Traza de una petición (cuánto tardó en cada parte): API Gateway ▕█▏ 20 ms Lambda A ▕███▏ 80 ms Lambda B ▕██▏ 50 ms Base de datos ▕██████████▏ 4.500 ms ← ¡aquí está el problema! ────────────────────────────────── TOTAL: ~4.650 ms
Analogía: el trazado distribuido es como el seguimiento de un paquete que envías por mensajería. No solo sabes que tardó 3 días: ves cada etapa del recorrido —«recogido en origen (1h), en el centro logístico A (2 días ⚠️), en reparto (3h), entregado»— y descubres exactamente dónde se quedó atascado. Sin ese seguimiento, solo sabrías que tardó mucho, sin saber por qué.
Qué es X-Ray
AWS X-Ray es el servicio de trazado distribuido de AWS. Sigue las peticiones a través de tus servicios (Lambda, API Gateway, ECS, etc.) y te muestra:
- Un mapa de servicios: un diagrama visual de cómo se conectan tus componentes y cómo fluyen las peticiones entre ellos.
- Las trazas detalladas: el viaje de cada petición, con el tiempo que pasó en cada servicio.
- Dónde están los cuellos de botella y los errores: qué parte es lenta o falla.
Mapa de servicios de X-Ray:
[API Gateway] ──► [Lambda A] ──► [Base de datos] 🔴 lenta
└──────► [Lambda B] ✓X-Ray colorea y marca los servicios según su salud (verde = bien, rojo = problemas), así que de un vistazo ves dónde mirar.
Para qué sirve X-Ray
- Encontrar cuellos de botella: ver exactamente qué servicio hace que una petición sea lenta (como la base de datos del ejemplo).
- Localizar errores: ver en qué punto del recorrido se produce un fallo.
- Entender tu arquitectura: el mapa de servicios muestra cómo se conectan realmente tus componentes (a veces sorprende ver dependencias que no recordabas).
- Optimizar el rendimiento: medir y mejorar las partes lentas con datos concretos, no a ojo.
Ejemplo del mundo real: una aplicación de reservas se queja de que «la página de confirmación tarda mucho». El equipo activa X-Ray. La traza revela que la petición pasa por cuatro servicios, y que el 90 % del tiempo se va en una llamada a un servicio externo de pago que responde lento. El problema no estaba en su código, sino en una dependencia externa. Con ese dato, añaden una respuesta «en proceso» mientras el pago se confirma en segundo plano, y la página vuelve a ser rápida. Sin X-Ray, habrían perdido días buscando el problema en el sitio equivocado.
X-Ray frente a logs y métricas
Los tres se complementan y responden preguntas distintas:
| Herramienta | Pregunta que responde |
|---|---|
| Métricas (24.1) | ¿Cuánto? (CPU, errores, latencia total) |
| Logs (24.1) | ¿Qué pasó exactamente en un servicio? (el detalle) |
| Trazas / X-Ray (este) | ¿Por dónde pasó la petición y dónde se ralentizó? |
Métricas, logs y trazas son los tres pilares de la observabilidad. Las métricas te alertan de que algo va mal en general, las trazas te dicen en qué servicio del recorrido está el problema, y los logs de ese servicio te dan el detalle de la causa.
Lo que debes recordar
- En arquitecturas de muchos servicios, una petición recorre varios componentes, y es difícil saber dónde está un problema de lentitud o error solo con logs sueltos.
- El trazado distribuido sigue una petición a lo largo de todos los servicios por los que pasa, midiendo el tiempo en cada uno. El resultado es una traza (el mapa del viaje). Como el seguimiento de un paquete.
- AWS X-Ray es el servicio de trazado distribuido de AWS: ofrece un mapa de servicios visual, trazas detalladas con tiempos por etapa, y marca cuellos de botella y errores.
- Sirve para encontrar cuellos de botella, localizar errores, entender tu arquitectura real y optimizar el rendimiento con datos.
- Métricas (cuánto), logs (qué/detalle) y trazas (por dónde/dónde se ralentiza) son los tres pilares de la observabilidad y se complementan.
En el siguiente subcapítulo veremos un estándar abierto que unifica logs, métricas y trazas sin atarte a un proveedor: OpenTelemetry.
Cloud, AWS & Terraform — De cero a experto
Capítulo 1 · Qué es el cloud computing
- 1.1 El modelo cliente-servidor tradicional
- 1.2 Problemas que venía a resolver la nube
- 1.3 On-premise vs cloud vs híbrido
- 1.4 Los tres modelos de servicio: IaaS, PaaS, SaaS
- 1.5 Los cinco pilares del cloud (según NIST)
- 1.6 Ventajas reales: elasticidad, pago por uso, disponibilidad global
Capítulo 2 · El mercado cloud y los grandes proveedores
- 2.1 AWS, Azure y GCP: diferencias y cuotas de mercado
- 2.2 Por qué aprender AWS primero
- 2.3 Conceptos que son universales entre proveedores
Capítulo 3 · Regiones, zonas de disponibilidad y edge
- 3.1 Qué es una región AWS y cómo elegirla
- 3.2 Availability Zones: alta disponibilidad desde el diseño
- 3.3 Edge locations y CloudFront
- 3.4 Latencia, resiliencia y soberanía de datos
Capítulo 4 · Cómputo: EC2
- 4.1 Instancias: tipos, familias y cuándo elegir cada una
- 4.2 AMIs, key pairs y Security Groups
- 4.3 Ciclo de vida de una instancia
- 4.4 Elastic IPs y Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítulo 5 · Almacenamiento: S3
- 5.1 Buckets, objetos y claves
- 5.2 Clases de almacenamiento (Standard, IA, Glacier…)
- 5.3 Versionado y ciclo de vida de objetos
- 5.4 Políticas de bucket y ACLs
- 5.5 Hosting de sitios web estáticos
Capítulo 6 · Redes: VPC
- 6.1 Qué es una VPC y por qué la necesitas
- 6.2 Subredes públicas y privadas
- 6.3 Internet Gateway y NAT Gateway
- 6.4 Route Tables y Network ACLs
- 6.5 VPC Peering y endpoints
Capítulo 7 · Identidad y acceso: IAM
- 7.1 Usuarios, grupos, roles y políticas
- 7.2 El principio de mínimo privilegio
- 7.3 Políticas basadas en identidad vs en recurso
- 7.4 MFA y credenciales temporales (STS)
- 7.5 Buenas prácticas de seguridad IAM
Capítulo 8 · Bases de datos gestionadas
- 8.1 RDS: motores, Multi-AZ y réplicas de lectura
- 8.2 Aurora y sus ventajas sobre RDS vanilla
- 8.3 DynamoDB: modelo clave-valor / documentos
- 8.4 ElastiCache para caché en memoria
- 8.5 Cuándo usar cada tipo de base de datos
Capítulo 9 · Por qué Infraestructura como Código
- 9.1 Problemas del aprovisionamiento manual
- 9.2 IaC declarativo vs imperativo
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El ciclo plan → apply → destroy
Capítulo 10 · HCL: el lenguaje de Terraform
- 10.1 Bloques resource, variable, output, locals
- 10.2 Tipos de datos: string, number, bool, list, map, object
- 10.3 Expresiones, referencias y funciones built-in
- 10.4 Condicionales y bucles (count, for_each, for)
Capítulo 11 · Providers y estado
- 11.1 Cómo funciona el provider de AWS
- 11.2 El fichero terraform.tfstate y su importancia
- 11.3 State local vs state remoto (S3 + DynamoDB)
- 11.4 Comandos esenciales: init, plan, apply, destroy, fmt, validate
Capítulo 12 · Tu primera infraestructura real en Terraform
- 12.1 Crear una VPC con subredes desde cero
- 12.2 Levantar una instancia EC2 pública
- 12.3 Asociar un Security Group y una Elastic IP
- 12.4 Outputs y referencias entre recursos
- 12.5 Flujo de trabajo en equipo: PR review de planes
Capítulo 13 · Balanceo de carga y autoescalado
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners y reglas
- 13.3 Auto Scaling Groups: políticas y métricas
- 13.4 Warm pools y lifecycle hooks
Capítulo 14 · Serverless con Lambda
- 14.1 El modelo de ejecución de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestión de dependencias y capas (Layers)
- 14.4 Cold starts y estrategias para reducirlos
- 14.5 Límites y antipatrones
Capítulo 15 · Mensajería y eventos
- 15.1 SQS: colas estándar vs FIFO, DLQ
- 15.2 SNS: topics, suscripciones, fan-out
- 15.3 EventBridge: event buses y reglas
- 15.4 Patrones: pub/sub, desacoplamiento, saga
Capítulo 16 · Entrega de contenido y DNS
- 16.1 Route 53: tipos de registros y routing policies
- 16.2 CloudFront: distribuciones, cachés y origins
- 16.3 ACM: certificados SSL/TLS gratuitos
- 16.4 WAF integrado con CloudFront
Capítulo 17 · Contenedores en AWS
- 17.1 Docker: repaso exprés de conceptos clave
- 17.2 ECR: registro privado de imágenes
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: cuándo Kubernetes y cuándo no
Capítulo 18 · Módulos: reutilización y composición
- 18.1 Anatomía de un módulo Terraform
- 18.2 Variables de entrada, outputs y dependencias
- 18.3 Módulos locales vs módulos del Terraform Registry
- 18.4 Versionado de módulos con Git tags
- 18.5 Diseño de módulos genéricos vs específicos de dominio
Capítulo 19 · Workspaces y gestión de entornos
- 19.1 Workspaces de Terraform: casos de uso y limitaciones
- 19.2 Estrategia de directorios por entorno (dev/stg/prod)
- 19.3 Terragrunt: DRY para configuraciones de entorno
- 19.4 Variables de entorno y archivos .tfvars
Capítulo 20 · Backends remotos y locking
- 20.1 Configurar S3 + DynamoDB como backend
- 20.2 State locking: evitar corrupción en equipo
- 20.3 Migración de estado entre backends
- 20.4 terraform import: traer recursos existentes al estado
Capítulo 21 · Testing de infraestructura
- 21.1 Terraform validate y fmt en CI
- 21.2 Checkov y tfsec: análisis de seguridad estático
- 21.3 Terratest: tests de integración en Go
- 21.4 Contract testing entre módulos
Capítulo 22 · Terraform en CI/CD
- 22.1 Pipeline básico: lint → plan → apply en GitHub Actions
- 22.2 Atlantis: GitOps para Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection y reconciliación automática
Capítulo 23 · Seguridad en profundidad
- 23.1 AWS Organizations y Service Control Policies
- 23.2 AWS Config: compliance continuo
- 23.3 GuardDuty: detección de amenazas
- 23.4 Security Hub: visión centralizada
- 23.5 KMS: gestión de claves y rotación
- 23.6 Secrets Manager vs Parameter Store
Capítulo 24 · Observabilidad: logs, métricas y trazas
- 24.1 CloudWatch Logs, métricas y alarmas
- 24.2 CloudWatch Dashboards y Contributor Insights
- 24.3 X-Ray: trazado distribuido
- 24.4 OpenTelemetry en AWS
- 24.5 Managed Grafana y Managed Prometheus
Capítulo 25 · Optimización de costes
- 25.1 AWS Cost Explorer y presupuestos con alertas
- 25.2 Trusted Advisor y Compute Optimizer
- 25.3 Rightsizing: cómo detectar sobredimensionamiento
- 25.4 Savings Plans vs Reserved Instances: decisión estratégica
- 25.5 FinOps: cultura y procesos para controlar el gasto
Capítulo 26 · Alta disponibilidad y disaster recovery
- 26.1 RTO y RPO: definir los objetivos
- 26.2 Estrategias: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks y failover automático
- 26.4 AWS Backup: política centralizada de copias
Capítulo 27 · Well-Architected Framework de AWS
- 27.1 Los seis pilares: excelencia operacional, seguridad, fiabilidad, eficiencia de rendimiento, optimización de costes, sostenibilidad
- 27.2 Well-Architected Tool: revisiones formales
- 27.3 Cómo aplicar el framework en decisiones de diseño
Capítulo 28 · Arquitecturas serverless a escala
- 28.1 Event-driven architecture con Lambda + EventBridge
- 28.2 Saga pattern para transacciones distribuidas
- 28.3 Step Functions: orquestación de workflows complejos
- 28.4 Lambda@Edge y CloudFront Functions
Capítulo 29 · Plataformas de datos en AWS
- 29.1 Data Lake con S3, Glue y Athena
- 29.2 Kinesis Data Streams y Firehose para streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: gobierno del dato
Capítulo 30 · Multi-cuenta y landing zones
- 30.1 Por qué separar workloads en cuentas distintas
- 30.2 AWS Control Tower y Account Factory
- 30.3 Gestión centralizada de logs y seguridad
- 30.4 Terraform a escala multi-cuenta con módulos compartidos
Capítulo 31 · Platform Engineering e Internal Developer Platform
- 31.1 Golden paths y abstracciones sobre Terraform
- 31.2 Service Catalog de AWS
- 31.3 Backstage como portal de desarrolladores
- 31.4 Módulos Terraform como producto interno
Capítulo 32 · Certificaciones AWS relevantes
- 32.1 Cloud Practitioner: ¿vale la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítulo 33 · Proyectos para consolidar lo aprendido
- 33.1 Proyecto 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Proyecto 2: API REST con ECS Fargate + RDS + ALB
- 33.3 Proyecto 3: plataforma de datos con Glue + Athena + Redshift
- 33.4 Proyecto 4: landing zone multi-cuenta con Terraform y Control Tower
