Seguimos en la Parte VII con el Capítulo 29: Plataformas de datos en AWS, donde entramos en el mundo de los datos a gran escala: almacenar, procesar y analizar enormes cantidades de información. Empezamos por el concepto central de la analítica moderna: el data lake (lago de datos), y cómo construirlo en AWS con tres servicios que trabajan juntos: S3 (almacén), Glue (catálogo y procesamiento) y Athena (consultas). Es la base para extraer valor de los datos de una empresa.
El problema: las empresas generan datos por todas partes
Una empresa moderna genera muchísimos datos, de fuentes muy variadas: ventas, registros de la web, sensores, redes sociales, aplicaciones... y en formatos diferentes (tablas, texto, registros, archivos). Estos datos, bien aprovechados, son oro: revelan patrones, ayudan a decidir, alimentan la inteligencia artificial. Pero hay un problema:
Datos dispersos por todas partes: ventas (en una base de datos) registros web (en archivos de log) sensores (en streaming) encuestas (en hojas de cálculo) → difíciles de juntar, analizar y aprovechar de forma conjunta
Necesitas un sitio donde reunir todos esos datos y poder analizarlos juntos. Ese sitio es el data lake.
Qué es un data lake
Un data lake (lago de datos) es un repositorio central donde guardas enormes cantidades de datos de cualquier tipo y formato, en su forma original, para analizarlos cuando quieras. La idea: primero guardas todo (sin tener que estructurarlo de antemano), y decides cómo analizarlo después.
Muchas fuentes de datos
│ (vuelcan sus datos)
▼
┌─────────────────────────────┐
│ DATA LAKE │ ← todos los datos juntos,
│ (datos de todo tipo, │ en su formato original
│ en su formato original) │
└─────────────────────────────┘
│
▼ (analizas cuando y como quieras)Analogía: un data lake es como un gran almacén/biblioteca donde guardas TODO tal cual llega (documentos, fotos, grabaciones, datos...), sin tener que clasificarlo perfectamente al entrar. La gracia es que lo tienes todo en un sitio y, cuando necesitas responder una pregunta, vas y lo analizas. Se contrapone a un almacén muy ordenado donde solo entra lo que encaja en estanterías predefinidas (eso sería más bien un data warehouse, que veremos en el subcapítulo 29.3). El lago acepta todo; ya le darás forma cuando lo necesites.
💡 Lago vs almacén: un data lake guarda datos en bruto, de cualquier tipo, y decides la estructura al consultarlos («schema-on-read»). Un data warehouse (Redshift, subcap. 29.3) guarda datos ya estructurados y optimizados para consultas rápidas. Son complementarios; cada uno tiene su papel.
Las tres piezas en AWS: S3, Glue y Athena
En AWS, un data lake se construye típicamente con tres servicios que colaboran:
S3: el almacén del data lake
S3 (Capítulo 5) es el lugar donde se guardan los datos del data lake. Recuerda sus virtudes: almacenamiento prácticamente ilimitado, muy barato, duradero y que admite cualquier tipo de archivo. Es el sitio perfecto para volcar enormes cantidades de datos de cualquier formato. S3 es, literalmente, el lago: el contenedor de todos los datos.
S3 = el almacén del data lake (ilimitado, barato, cualquier formato) /ventas/... /logs-web/... /sensores/... (todo junto en S3)
Glue: el catálogo y el procesamiento
Tener millones de archivos en S3 no sirve de mucho si no sabes qué hay y dónde. AWS Glue resuelve eso. Hace dos cosas clave:
- Cataloga los datos: descubre qué datos hay en tu S3 y crea un catálogo (como un índice o inventario) que dice qué información contiene cada conjunto de datos, su estructura, etc. Así, los datos del lago se vuelven localizables y entendibles.
- Procesa y transforma los datos (ETL): permite limpiar, transformar y preparar los datos (por ejemplo, convertir formatos, juntar fuentes), para que estén listos para analizar.
Glue: 📇 Cataloga → crea un inventario de qué datos hay en S3 (los hace "encontrables") 🔧 Procesa → limpia y transforma los datos para dejarlos listos
Analogía: Glue es como el bibliotecario del gran almacén: recorre todo lo que hay guardado, crea un catálogo (sabes qué hay y dónde encontrarlo) y, cuando hace falta, prepara y organiza materiales para que puedas usarlos. Sin el bibliotecario, el almacén sería un caos imposible de aprovechar.
Athena: consultar los datos directamente
Amazon Athena te permite hacer consultas (con SQL) directamente sobre los datos guardados en S3, sin tener que moverlos a una base de datos. Usando el catálogo de Glue, haces preguntas a tus datos como si fueran una base de datos, y Athena las responde leyendo directamente de S3.
Athena: "SELECT ... " (SQL) directamente sobre los datos en S3 → respuestas a tus preguntas sin mover los datos a ningún sitio → pagas solo por las consultas que ejecutas (serverless)
Lo potente: Athena es serverless (sin servidores que gestionar, recuerda la filosofía del Capítulo 14) y pagas solo por las consultas que haces. Es ideal para analizar datos del lago de forma puntual y flexible.
Analogía: Athena es como poder hacerle preguntas directamente a la biblioteca y obtener respuestas, sin tener que sacar primero todos los libros y llevarlos a otra sala. Le preguntas «¿cuántas ventas hubo en marzo en España?» y te responde consultando directamente los datos donde están (en S3).
Cómo trabajan juntos
El trío forma un data lake completo:
Datos → S3 (se guardan: el lago)
│
Glue cataloga (sabes qué hay) y procesa (prepara los datos)
│
Athena consulta con SQL directamente sobre S3 (obtienes respuestas)S3 guarda, Glue organiza y prepara, Athena consulta. Juntos te permiten reunir todos los datos de tu empresa y sacarles valor sin montar infraestructura compleja.
Ejemplo del mundo real: una empresa de comercio quiere analizar el comportamiento de sus clientes juntando datos de ventas, navegación web y campañas de marketing. Construyen un data lake: vuelcan todos esos datos en S3 (cada fuente en su carpeta). Glue recorre S3, cataloga qué hay y prepara los datos (unifica formatos, limpia). Luego, los analistas usan Athena para preguntar con SQL cosas como «¿qué productos compran más los clientes que vinieron de tal campaña?», consultando directamente sobre S3, sin montar ninguna base de datos. Descubren patrones valiosos que antes, con los datos dispersos, eran invisibles. Y todo serverless: pagan por el almacenamiento barato de S3 y por las consultas que ejecutan, sin servidores que mantener.
Lo que debes recordar
- Las empresas generan muchísimos datos dispersos de fuentes y formatos variados; aprovecharlos requiere reunirlos en un sitio: el data lake.
- Un data lake es un repositorio central donde guardas enormes cantidades de datos de cualquier tipo, en su formato original, para analizarlos cuando quieras (guardas todo primero, decides cómo analizarlo después). Como un gran almacén que acepta todo.
- En AWS se construye con tres piezas: S3 (el almacén: ilimitado, barato, cualquier formato — es el lago), Glue (cataloga qué datos hay y los procesa/prepara — el bibliotecario) y Athena (consulta con SQL directamente sobre S3, serverless — preguntar a la biblioteca).
- Juntos: S3 guarda, Glue organiza, Athena consulta, permitiendo sacar valor a todos los datos sin infraestructura compleja.
- 💡 Un data lake (datos en bruto) se complementa con un data warehouse (datos estructurados, Redshift, subcap. 29.3).
En el siguiente subcapítulo veremos cómo capturar y procesar datos que llegan en tiempo real, de forma continua, con Kinesis.
Cloud, AWS & Terraform — De cero a experto
Capítulo 1 · Qué es el cloud computing
- 1.1 El modelo cliente-servidor tradicional
- 1.2 Problemas que venía a resolver la nube
- 1.3 On-premise vs cloud vs híbrido
- 1.4 Los tres modelos de servicio: IaaS, PaaS, SaaS
- 1.5 Los cinco pilares del cloud (según NIST)
- 1.6 Ventajas reales: elasticidad, pago por uso, disponibilidad global
Capítulo 2 · El mercado cloud y los grandes proveedores
- 2.1 AWS, Azure y GCP: diferencias y cuotas de mercado
- 2.2 Por qué aprender AWS primero
- 2.3 Conceptos que son universales entre proveedores
Capítulo 3 · Regiones, zonas de disponibilidad y edge
- 3.1 Qué es una región AWS y cómo elegirla
- 3.2 Availability Zones: alta disponibilidad desde el diseño
- 3.3 Edge locations y CloudFront
- 3.4 Latencia, resiliencia y soberanía de datos
Capítulo 4 · Cómputo: EC2
- 4.1 Instancias: tipos, familias y cuándo elegir cada una
- 4.2 AMIs, key pairs y Security Groups
- 4.3 Ciclo de vida de una instancia
- 4.4 Elastic IPs y Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítulo 5 · Almacenamiento: S3
- 5.1 Buckets, objetos y claves
- 5.2 Clases de almacenamiento (Standard, IA, Glacier…)
- 5.3 Versionado y ciclo de vida de objetos
- 5.4 Políticas de bucket y ACLs
- 5.5 Hosting de sitios web estáticos
Capítulo 6 · Redes: VPC
- 6.1 Qué es una VPC y por qué la necesitas
- 6.2 Subredes públicas y privadas
- 6.3 Internet Gateway y NAT Gateway
- 6.4 Route Tables y Network ACLs
- 6.5 VPC Peering y endpoints
Capítulo 7 · Identidad y acceso: IAM
- 7.1 Usuarios, grupos, roles y políticas
- 7.2 El principio de mínimo privilegio
- 7.3 Políticas basadas en identidad vs en recurso
- 7.4 MFA y credenciales temporales (STS)
- 7.5 Buenas prácticas de seguridad IAM
Capítulo 8 · Bases de datos gestionadas
- 8.1 RDS: motores, Multi-AZ y réplicas de lectura
- 8.2 Aurora y sus ventajas sobre RDS vanilla
- 8.3 DynamoDB: modelo clave-valor / documentos
- 8.4 ElastiCache para caché en memoria
- 8.5 Cuándo usar cada tipo de base de datos
Capítulo 9 · Por qué Infraestructura como Código
- 9.1 Problemas del aprovisionamiento manual
- 9.2 IaC declarativo vs imperativo
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El ciclo plan → apply → destroy
Capítulo 10 · HCL: el lenguaje de Terraform
- 10.1 Bloques resource, variable, output, locals
- 10.2 Tipos de datos: string, number, bool, list, map, object
- 10.3 Expresiones, referencias y funciones built-in
- 10.4 Condicionales y bucles (count, for_each, for)
Capítulo 11 · Providers y estado
- 11.1 Cómo funciona el provider de AWS
- 11.2 El fichero terraform.tfstate y su importancia
- 11.3 State local vs state remoto (S3 + DynamoDB)
- 11.4 Comandos esenciales: init, plan, apply, destroy, fmt, validate
Capítulo 12 · Tu primera infraestructura real en Terraform
- 12.1 Crear una VPC con subredes desde cero
- 12.2 Levantar una instancia EC2 pública
- 12.3 Asociar un Security Group y una Elastic IP
- 12.4 Outputs y referencias entre recursos
- 12.5 Flujo de trabajo en equipo: PR review de planes
Capítulo 13 · Balanceo de carga y autoescalado
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners y reglas
- 13.3 Auto Scaling Groups: políticas y métricas
- 13.4 Warm pools y lifecycle hooks
Capítulo 14 · Serverless con Lambda
- 14.1 El modelo de ejecución de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestión de dependencias y capas (Layers)
- 14.4 Cold starts y estrategias para reducirlos
- 14.5 Límites y antipatrones
Capítulo 15 · Mensajería y eventos
- 15.1 SQS: colas estándar vs FIFO, DLQ
- 15.2 SNS: topics, suscripciones, fan-out
- 15.3 EventBridge: event buses y reglas
- 15.4 Patrones: pub/sub, desacoplamiento, saga
Capítulo 16 · Entrega de contenido y DNS
- 16.1 Route 53: tipos de registros y routing policies
- 16.2 CloudFront: distribuciones, cachés y origins
- 16.3 ACM: certificados SSL/TLS gratuitos
- 16.4 WAF integrado con CloudFront
Capítulo 17 · Contenedores en AWS
- 17.1 Docker: repaso exprés de conceptos clave
- 17.2 ECR: registro privado de imágenes
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: cuándo Kubernetes y cuándo no
Capítulo 18 · Módulos: reutilización y composición
- 18.1 Anatomía de un módulo Terraform
- 18.2 Variables de entrada, outputs y dependencias
- 18.3 Módulos locales vs módulos del Terraform Registry
- 18.4 Versionado de módulos con Git tags
- 18.5 Diseño de módulos genéricos vs específicos de dominio
Capítulo 19 · Workspaces y gestión de entornos
- 19.1 Workspaces de Terraform: casos de uso y limitaciones
- 19.2 Estrategia de directorios por entorno (dev/stg/prod)
- 19.3 Terragrunt: DRY para configuraciones de entorno
- 19.4 Variables de entorno y archivos .tfvars
Capítulo 20 · Backends remotos y locking
- 20.1 Configurar S3 + DynamoDB como backend
- 20.2 State locking: evitar corrupción en equipo
- 20.3 Migración de estado entre backends
- 20.4 terraform import: traer recursos existentes al estado
Capítulo 21 · Testing de infraestructura
- 21.1 Terraform validate y fmt en CI
- 21.2 Checkov y tfsec: análisis de seguridad estático
- 21.3 Terratest: tests de integración en Go
- 21.4 Contract testing entre módulos
Capítulo 22 · Terraform en CI/CD
- 22.1 Pipeline básico: lint → plan → apply en GitHub Actions
- 22.2 Atlantis: GitOps para Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection y reconciliación automática
Capítulo 23 · Seguridad en profundidad
- 23.1 AWS Organizations y Service Control Policies
- 23.2 AWS Config: compliance continuo
- 23.3 GuardDuty: detección de amenazas
- 23.4 Security Hub: visión centralizada
- 23.5 KMS: gestión de claves y rotación
- 23.6 Secrets Manager vs Parameter Store
Capítulo 24 · Observabilidad: logs, métricas y trazas
- 24.1 CloudWatch Logs, métricas y alarmas
- 24.2 CloudWatch Dashboards y Contributor Insights
- 24.3 X-Ray: trazado distribuido
- 24.4 OpenTelemetry en AWS
- 24.5 Managed Grafana y Managed Prometheus
Capítulo 25 · Optimización de costes
- 25.1 AWS Cost Explorer y presupuestos con alertas
- 25.2 Trusted Advisor y Compute Optimizer
- 25.3 Rightsizing: cómo detectar sobredimensionamiento
- 25.4 Savings Plans vs Reserved Instances: decisión estratégica
- 25.5 FinOps: cultura y procesos para controlar el gasto
Capítulo 26 · Alta disponibilidad y disaster recovery
- 26.1 RTO y RPO: definir los objetivos
- 26.2 Estrategias: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks y failover automático
- 26.4 AWS Backup: política centralizada de copias
Capítulo 27 · Well-Architected Framework de AWS
- 27.1 Los seis pilares: excelencia operacional, seguridad, fiabilidad, eficiencia de rendimiento, optimización de costes, sostenibilidad
- 27.2 Well-Architected Tool: revisiones formales
- 27.3 Cómo aplicar el framework en decisiones de diseño
Capítulo 28 · Arquitecturas serverless a escala
- 28.1 Event-driven architecture con Lambda + EventBridge
- 28.2 Saga pattern para transacciones distribuidas
- 28.3 Step Functions: orquestación de workflows complejos
- 28.4 Lambda@Edge y CloudFront Functions
Capítulo 29 · Plataformas de datos en AWS
- 29.1 Data Lake con S3, Glue y Athena
- 29.2 Kinesis Data Streams y Firehose para streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: gobierno del dato
Capítulo 30 · Multi-cuenta y landing zones
- 30.1 Por qué separar workloads en cuentas distintas
- 30.2 AWS Control Tower y Account Factory
- 30.3 Gestión centralizada de logs y seguridad
- 30.4 Terraform a escala multi-cuenta con módulos compartidos
Capítulo 31 · Platform Engineering e Internal Developer Platform
- 31.1 Golden paths y abstracciones sobre Terraform
- 31.2 Service Catalog de AWS
- 31.3 Backstage como portal de desarrolladores
- 31.4 Módulos Terraform como producto interno
Capítulo 32 · Certificaciones AWS relevantes
- 32.1 Cloud Practitioner: ¿vale la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítulo 33 · Proyectos para consolidar lo aprendido
- 33.1 Proyecto 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Proyecto 2: API REST con ECS Fargate + RDS + ALB
- 33.3 Proyecto 3: plataforma de datos con Glue + Athena + Redshift
- 33.4 Proyecto 4: landing zone multi-cuenta con Terraform y Control Tower
