Cerramos el capítulo de observabilidad con dos herramientas muy populares en el mundo del código abierto que AWS ofrece como servicios gestionados: Prometheus (para recopilar y almacenar métricas) y Grafana (para visualizarlas en paneles preciosos). Son el estándar de facto en muchas empresas, especialmente con Kubernetes, y entender qué son y por qué usarlos en su versión gestionada te abre la puerta a un ecosistema enorme.
El contexto: el ecosistema open source de observabilidad
Además de CloudWatch (la herramienta nativa de AWS), existe un ecosistema de herramientas de código abierto muy extendido para observabilidad. Dos de las más populares son:
- Prometheus: para recopilar y almacenar métricas.
- Grafana: para visualizar esas métricas (y otras) en paneles.
Mucha gente las usa juntas y son casi un estándar, sobre todo en entornos con Kubernetes (recuerda EKS, subcapítulo 17.4). El problema: instalarlas y mantenerlas tú mismo da trabajo (servidores, actualizaciones, escalado, copias...). Por eso AWS ofrece versiones gestionadas de ambas, donde AWS se encarga de toda esa operación (recuerda la idea de «servicio gestionado» que vimos con RDS en el Capítulo 8).
Qué es Prometheus (y Managed Prometheus)
Prometheus es un sistema de código abierto para recopilar y almacenar métricas, muy popular, especialmente en el mundo de los contenedores y Kubernetes. Recoge métricas de tus aplicaciones y servicios y las guarda de forma optimizada para consultarlas.
Amazon Managed Service for Prometheus es la versión gestionada que ofrece AWS: tú usas Prometheus, pero AWS se encarga de los servidores, el escalado, la disponibilidad y el mantenimiento. Tú te centras en tus métricas, no en operar la infraestructura de Prometheus.
Tus aplicaciones / Kubernetes
│ (emiten métricas)
▼
Managed Prometheus (recopila y almacena las métricas)
│ AWS gestiona los servidores, escalado, disponibilidad...
▼
listas para consultar y visualizarAnalogía: Prometheus es como un almacén especializado en guardar mediciones (millones de números a lo largo del tiempo), muy bien organizado para encontrarlas rápido. La versión gestionada es como alquilar ese almacén con todo el personal incluido: tú metes y consultas las mediciones, pero no te preocupas de mantener el edificio, la seguridad ni de ampliarlo cuando se llena. AWS lo opera por ti.
Qué es Grafana (y Managed Grafana)
Grafana es una herramienta de código abierto para visualizar datos en paneles (dashboards) muy potentes, flexibles y atractivos. Es famosa por sus gráficas espectaculares y por poder juntar datos de muchas fuentes distintas en un mismo panel (de Prometheus, de CloudWatch, de bases de datos...).
Amazon Managed Grafana es la versión gestionada: AWS opera Grafana por ti (servidores, actualizaciones, escalado, seguridad), y tú solo creas y usas tus dashboards.
┌──────────── Dashboard de Grafana ────────────┐ │ Datos de Managed Prometheus + CloudWatch │ │ + base de datos + otras fuentes, JUNTOS │ │ 📊 gráficas potentes y personalizables │ └───────────────────────────────────────────────┘
Analogía: Grafana es como un estudio de diseño de paneles de control profesional: coge datos de donde sea y los convierte en pantallas visuales claras, bonitas y muy configurables. La versión gestionada es contratar ese estudio «llave en mano»: tú diseñas tus paneles, pero no mantienes el local ni los equipos.
Cómo trabajan juntos Prometheus y Grafana
La combinación clásica es Prometheus recopila, Grafana visualiza:
Aplicaciones → Managed Prometheus (recopila y guarda métricas)
│
▼
Managed Grafana (visualiza esas métricas en dashboards)Prometheus es el «almacén de números» y Grafana la «pantalla bonita» que los muestra. Juntos forman una solución de observabilidad completa y muy usada en la industria.
¿Por qué usar estas versiones gestionadas?
La pregunta clave: si ya existe CloudWatch, ¿por qué usar Prometheus y Grafana gestionados? Razones habituales:
- Estándar de la industria: Prometheus y Grafana son el estándar de facto en muchísimas empresas, sobre todo con Kubernetes. Si tu equipo ya los conoce o tu ecosistema los usa, tiene mucho sentido.
- Sin el dolor de operarlos: obtienes estas potentes herramientas open source sin tener que instalarlas ni mantenerlas (AWS lo hace).
- Flexibilidad de Grafana: Grafana puede juntar datos de muchas fuentes (Prometheus, CloudWatch, otras nubes, bases de datos...) en un mismo panel, ideal para entornos multi-nube o híbridos.
- Portabilidad: como son herramientas estándar, tu inversión en dashboards y configuración es portable (encaja con la filosofía de OpenTelemetry del subcapítulo 24.4: evitar el lock-in).
Ejemplo del mundo real: una empresa que ejecuta sus aplicaciones en Kubernetes (EKS) ya usa Prometheus y Grafana, como es habitual en ese mundo. En lugar de mantener esos sistemas ellos mismos (con el trabajo de operación que conlleva), adoptan Managed Prometheus y Managed Grafana. Conservan exactamente las herramientas que su equipo domina, sus dashboards funcionan igual, pero ahora AWS se ocupa de mantenerlos disponibles y escalados. Además, en Grafana juntan en un mismo panel las métricas de Prometheus y algunas de CloudWatch, teniendo una visión unificada. Lo mejor de ambos mundos: herramientas estándar que conocen, operadas por AWS.
CloudWatch vs Prometheus/Grafana: ¿cuál?
No es que uno sea mejor; depende del contexto:
| CloudWatch | Managed Prometheus + Grafana | |
|---|---|---|
| Origen | Nativo de AWS | Open source (estándar de la industria) |
| Integración con AWS | Total e inmediata | Buena, pero menos «nativa» |
| Ideal si | Estás centrado en AWS y quieres lo más simple | Usas Kubernetes, multi-nube, o tu equipo ya domina estas herramientas |
| Portabilidad | Ligada a AWS | Alta (herramientas estándar) |
Para empezar y si solo usas AWS, CloudWatch es lo más directo. Si vienes del mundo Kubernetes/open source o trabajas multi-nube, Prometheus + Grafana gestionados encajan mejor.
Lo que debes recordar
- Existe un ecosistema open source de observabilidad muy extendido; dos piezas clave son Prometheus (recopila y almacena métricas) y Grafana (las visualiza en dashboards), muy usadas juntas, sobre todo con Kubernetes.
- AWS ofrece versiones gestionadas: Amazon Managed Service for Prometheus y Amazon Managed Grafana, donde AWS opera los servidores, escalado y mantenimiento (como cualquier servicio gestionado).
- Prometheus = «almacén de mediciones» optimizado; Grafana = «estudio de paneles» que junta datos de muchas fuentes en gráficas potentes. Combinación clásica: Prometheus recopila, Grafana visualiza.
- Se usan por ser el estándar de la industria (especialmente con Kubernetes), para evitar el dolor de operarlos, por la flexibilidad de Grafana con múltiples fuentes, y por su portabilidad (sin lock-in, en línea con OpenTelemetry).
- CloudWatch es ideal si te centras en AWS y quieres simplicidad; Prometheus + Grafana gestionados, si usas Kubernetes/multi-nube o tu equipo ya los domina.
¡Has completado el Capítulo 24 y, con él, dominas la observabilidad en AWS: logs, métricas, alarmas, dashboards, trazado distribuido, el estándar OpenTelemetry y las herramientas gestionadas open source! En el Capítulo 25 abordaremos otro aspecto crucial de operar en la nube: la optimización de costes.
Cloud, AWS & Terraform — De cero a experto
Capítulo 1 · Qué es el cloud computing
- 1.1 El modelo cliente-servidor tradicional
- 1.2 Problemas que venía a resolver la nube
- 1.3 On-premise vs cloud vs híbrido
- 1.4 Los tres modelos de servicio: IaaS, PaaS, SaaS
- 1.5 Los cinco pilares del cloud (según NIST)
- 1.6 Ventajas reales: elasticidad, pago por uso, disponibilidad global
Capítulo 2 · El mercado cloud y los grandes proveedores
- 2.1 AWS, Azure y GCP: diferencias y cuotas de mercado
- 2.2 Por qué aprender AWS primero
- 2.3 Conceptos que son universales entre proveedores
Capítulo 3 · Regiones, zonas de disponibilidad y edge
- 3.1 Qué es una región AWS y cómo elegirla
- 3.2 Availability Zones: alta disponibilidad desde el diseño
- 3.3 Edge locations y CloudFront
- 3.4 Latencia, resiliencia y soberanía de datos
Capítulo 4 · Cómputo: EC2
- 4.1 Instancias: tipos, familias y cuándo elegir cada una
- 4.2 AMIs, key pairs y Security Groups
- 4.3 Ciclo de vida de una instancia
- 4.4 Elastic IPs y Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítulo 5 · Almacenamiento: S3
- 5.1 Buckets, objetos y claves
- 5.2 Clases de almacenamiento (Standard, IA, Glacier…)
- 5.3 Versionado y ciclo de vida de objetos
- 5.4 Políticas de bucket y ACLs
- 5.5 Hosting de sitios web estáticos
Capítulo 6 · Redes: VPC
- 6.1 Qué es una VPC y por qué la necesitas
- 6.2 Subredes públicas y privadas
- 6.3 Internet Gateway y NAT Gateway
- 6.4 Route Tables y Network ACLs
- 6.5 VPC Peering y endpoints
Capítulo 7 · Identidad y acceso: IAM
- 7.1 Usuarios, grupos, roles y políticas
- 7.2 El principio de mínimo privilegio
- 7.3 Políticas basadas en identidad vs en recurso
- 7.4 MFA y credenciales temporales (STS)
- 7.5 Buenas prácticas de seguridad IAM
Capítulo 8 · Bases de datos gestionadas
- 8.1 RDS: motores, Multi-AZ y réplicas de lectura
- 8.2 Aurora y sus ventajas sobre RDS vanilla
- 8.3 DynamoDB: modelo clave-valor / documentos
- 8.4 ElastiCache para caché en memoria
- 8.5 Cuándo usar cada tipo de base de datos
Capítulo 9 · Por qué Infraestructura como Código
- 9.1 Problemas del aprovisionamiento manual
- 9.2 IaC declarativo vs imperativo
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El ciclo plan → apply → destroy
Capítulo 10 · HCL: el lenguaje de Terraform
- 10.1 Bloques resource, variable, output, locals
- 10.2 Tipos de datos: string, number, bool, list, map, object
- 10.3 Expresiones, referencias y funciones built-in
- 10.4 Condicionales y bucles (count, for_each, for)
Capítulo 11 · Providers y estado
- 11.1 Cómo funciona el provider de AWS
- 11.2 El fichero terraform.tfstate y su importancia
- 11.3 State local vs state remoto (S3 + DynamoDB)
- 11.4 Comandos esenciales: init, plan, apply, destroy, fmt, validate
Capítulo 12 · Tu primera infraestructura real en Terraform
- 12.1 Crear una VPC con subredes desde cero
- 12.2 Levantar una instancia EC2 pública
- 12.3 Asociar un Security Group y una Elastic IP
- 12.4 Outputs y referencias entre recursos
- 12.5 Flujo de trabajo en equipo: PR review de planes
Capítulo 13 · Balanceo de carga y autoescalado
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners y reglas
- 13.3 Auto Scaling Groups: políticas y métricas
- 13.4 Warm pools y lifecycle hooks
Capítulo 14 · Serverless con Lambda
- 14.1 El modelo de ejecución de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestión de dependencias y capas (Layers)
- 14.4 Cold starts y estrategias para reducirlos
- 14.5 Límites y antipatrones
Capítulo 15 · Mensajería y eventos
- 15.1 SQS: colas estándar vs FIFO, DLQ
- 15.2 SNS: topics, suscripciones, fan-out
- 15.3 EventBridge: event buses y reglas
- 15.4 Patrones: pub/sub, desacoplamiento, saga
Capítulo 16 · Entrega de contenido y DNS
- 16.1 Route 53: tipos de registros y routing policies
- 16.2 CloudFront: distribuciones, cachés y origins
- 16.3 ACM: certificados SSL/TLS gratuitos
- 16.4 WAF integrado con CloudFront
Capítulo 17 · Contenedores en AWS
- 17.1 Docker: repaso exprés de conceptos clave
- 17.2 ECR: registro privado de imágenes
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: cuándo Kubernetes y cuándo no
Capítulo 18 · Módulos: reutilización y composición
- 18.1 Anatomía de un módulo Terraform
- 18.2 Variables de entrada, outputs y dependencias
- 18.3 Módulos locales vs módulos del Terraform Registry
- 18.4 Versionado de módulos con Git tags
- 18.5 Diseño de módulos genéricos vs específicos de dominio
Capítulo 19 · Workspaces y gestión de entornos
- 19.1 Workspaces de Terraform: casos de uso y limitaciones
- 19.2 Estrategia de directorios por entorno (dev/stg/prod)
- 19.3 Terragrunt: DRY para configuraciones de entorno
- 19.4 Variables de entorno y archivos .tfvars
Capítulo 20 · Backends remotos y locking
- 20.1 Configurar S3 + DynamoDB como backend
- 20.2 State locking: evitar corrupción en equipo
- 20.3 Migración de estado entre backends
- 20.4 terraform import: traer recursos existentes al estado
Capítulo 21 · Testing de infraestructura
- 21.1 Terraform validate y fmt en CI
- 21.2 Checkov y tfsec: análisis de seguridad estático
- 21.3 Terratest: tests de integración en Go
- 21.4 Contract testing entre módulos
Capítulo 22 · Terraform en CI/CD
- 22.1 Pipeline básico: lint → plan → apply en GitHub Actions
- 22.2 Atlantis: GitOps para Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection y reconciliación automática
Capítulo 23 · Seguridad en profundidad
- 23.1 AWS Organizations y Service Control Policies
- 23.2 AWS Config: compliance continuo
- 23.3 GuardDuty: detección de amenazas
- 23.4 Security Hub: visión centralizada
- 23.5 KMS: gestión de claves y rotación
- 23.6 Secrets Manager vs Parameter Store
Capítulo 24 · Observabilidad: logs, métricas y trazas
- 24.1 CloudWatch Logs, métricas y alarmas
- 24.2 CloudWatch Dashboards y Contributor Insights
- 24.3 X-Ray: trazado distribuido
- 24.4 OpenTelemetry en AWS
- 24.5 Managed Grafana y Managed Prometheus
Capítulo 25 · Optimización de costes
- 25.1 AWS Cost Explorer y presupuestos con alertas
- 25.2 Trusted Advisor y Compute Optimizer
- 25.3 Rightsizing: cómo detectar sobredimensionamiento
- 25.4 Savings Plans vs Reserved Instances: decisión estratégica
- 25.5 FinOps: cultura y procesos para controlar el gasto
Capítulo 26 · Alta disponibilidad y disaster recovery
- 26.1 RTO y RPO: definir los objetivos
- 26.2 Estrategias: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks y failover automático
- 26.4 AWS Backup: política centralizada de copias
Capítulo 27 · Well-Architected Framework de AWS
- 27.1 Los seis pilares: excelencia operacional, seguridad, fiabilidad, eficiencia de rendimiento, optimización de costes, sostenibilidad
- 27.2 Well-Architected Tool: revisiones formales
- 27.3 Cómo aplicar el framework en decisiones de diseño
Capítulo 28 · Arquitecturas serverless a escala
- 28.1 Event-driven architecture con Lambda + EventBridge
- 28.2 Saga pattern para transacciones distribuidas
- 28.3 Step Functions: orquestación de workflows complejos
- 28.4 Lambda@Edge y CloudFront Functions
Capítulo 29 · Plataformas de datos en AWS
- 29.1 Data Lake con S3, Glue y Athena
- 29.2 Kinesis Data Streams y Firehose para streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: gobierno del dato
Capítulo 30 · Multi-cuenta y landing zones
- 30.1 Por qué separar workloads en cuentas distintas
- 30.2 AWS Control Tower y Account Factory
- 30.3 Gestión centralizada de logs y seguridad
- 30.4 Terraform a escala multi-cuenta con módulos compartidos
Capítulo 31 · Platform Engineering e Internal Developer Platform
- 31.1 Golden paths y abstracciones sobre Terraform
- 31.2 Service Catalog de AWS
- 31.3 Backstage como portal de desarrolladores
- 31.4 Módulos Terraform como producto interno
Capítulo 32 · Certificaciones AWS relevantes
- 32.1 Cloud Practitioner: ¿vale la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítulo 33 · Proyectos para consolidar lo aprendido
- 33.1 Proyecto 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Proyecto 2: API REST con ECS Fargate + RDS + ALB
- 33.3 Proyecto 3: plataforma de datos con Glue + Athena + Redshift
- 33.4 Proyecto 4: landing zone multi-cuenta con Terraform y Control Tower
