Cerramos el Capítulo 29 con un aspecto crucial cuando una empresa acumula muchos datos: el gobierno de datos (data governance). Tener un data lake (subcapítulo 29.1) lleno de información valiosa está muy bien, pero plantea preguntas serias: ¿quién puede ver qué datos? ¿Cómo proteges la información sensible? ¿Cómo controlas el acceso de forma centralizada cuando tienes datos de toda la empresa? Para responder a esto, AWS ofrece Lake Formation: un servicio para construir, asegurar y gobernar tu data lake de forma centralizada.
El problema: un data lake sin control es un riesgo
Un data lake reúne muchos datos de toda la empresa en un sitio (S3). Eso es potente, pero también peligroso si no controlas bien quién accede a qué:
En el data lake hay datos de todo tipo: - Datos públicos (catálogo de productos) - Datos internos (ventas) - Datos SENSIBLES (datos personales de clientes, finanzas...) → NO todos deberían poder ver TODO
Sin un buen control de acceso:
- Cualquiera con acceso al lago podría ver datos sensibles que no le corresponden (un riesgo grave, recuerda la privacidad y el cumplimiento del Capítulo 23).
- Gestionar los permisos «a mano» sobre millones de archivos en S3 sería inviable y propenso a errores.
- Sería difícil demostrar (a auditores, por normativa) que los datos están bien protegidos.
Necesitas una forma centralizada y fina de gobernar quién accede a qué datos. Eso es Lake Formation.
Qué es Lake Formation
AWS Lake Formation es un servicio que facilita construir, asegurar y gobernar un data lake de forma centralizada. Su función más destacada es el control de acceso fino y centralizado a los datos: definir, desde un solo sitio, quién puede acceder a qué datos (hasta el nivel de tablas y columnas concretas), de forma sencilla.
Lake Formation (gobierno centralizado del data lake): ├── construir el data lake más fácilmente ├── controlar el acceso de forma FINA y centralizada │ "este equipo ve la tabla de ventas, pero NO la columna de datos personales" └── auditar quién accede a qué
Analogía: Lake Formation es como el sistema de control de accesos y seguridad de una gran biblioteca o archivo nacional. No basta con tener todos los documentos guardados (eso es el data lake); necesitas controlar quién puede entrar a qué sección: el público general accede a la sala común, los investigadores acreditados a los archivos especiales, y solo personal autorizado a los documentos confidenciales. Lake Formation es ese sistema que, desde un punto central, decide y vigila quién accede a cada parte de tus datos.
Qué te aporta Lake Formation
- Construir el data lake más fácil
Ayuda a montar el data lake de forma más sencilla: facilita traer datos, organizarlos y catalogarlos (trabaja junto con Glue, subcapítulo 29.1). Simplifica los pasos de crear el lago.
- Control de acceso fino y centralizado
Esta es la pieza estrella. Desde un solo sitio, defines quién puede acceder a qué datos, con mucho detalle:
Ejemplos de permisos finos con Lake Formation:
- "El equipo de marketing puede ver la tabla de clientes,
pero NO las columnas de email y teléfono" (nivel columna)
- "El equipo de finanzas ve los datos de ventas completos"
- "Los analistas solo ven datos agregados, no individuales"En vez de gestionar permisos archivo por archivo en S3 (un caos), defines reglas claras a nivel de datos (bases de datos, tablas, columnas), de forma centralizada. Esto conecta con el mínimo privilegio que vimos en IAM (subcapítulo 7.2): cada quien accede solo a los datos que necesita.
- Proteger datos sensibles
Gracias a ese control fino, puedes proteger la información sensible (datos personales, financieros) asegurando que solo quien debe puede verla, mientras otros acceden al resto. Es clave para cumplir normativas de privacidad.
- Auditoría y cumplimiento
Permite registrar y demostrar quién accede a qué datos, lo cual es esencial para auditorías y para cumplir regulaciones (enlaza con el cumplimiento del Capítulo 23). Tienes una visión central de la seguridad de tus datos.
Por qué importa: del «caos de datos» al «data lake gobernado»
El gran valor de Lake Formation es convertir un data lake potencialmente caótico e inseguro en uno gobernado: donde sabes exactamente quién accede a qué, proteges lo sensible y puedes demostrarlo. Sin gobierno, un data lake lleno de datos valiosos es también una bomba de relojería de seguridad y cumplimiento. Con Lake Formation, es un activo seguro y bien controlado.
Sin gobierno: data lake = muchos datos + acceso descontrolado = RIESGO Con Lake Formation: data lake = muchos datos + acceso controlado = ACTIVO SEGURO
Ejemplo del mundo real: una empresa de salud tiene un data lake con datos de pacientes (muy sensibles), datos operativos y datos públicos. Usan Lake Formation para gobernarlo. Definen, de forma centralizada: los investigadores acceden a datos anonimizados y agregados (sin ver identidades), el personal médico autorizado accede a los datos completos de sus pacientes, y el equipo de marketing solo accede a datos públicos. Las columnas con datos personales identificables están protegidas y solo visibles para quien tiene autorización explícita. Cuando llega una auditoría de protección de datos, la empresa demuestra fácilmente quién accede a qué. Lo que sin gobierno sería un riesgo legal enorme, con Lake Formation es un sistema controlado, seguro y conforme a la normativa.
Cómo cierra el Capítulo 29
Lake Formation completa la plataforma de datos que hemos construido en este capítulo:
S3 + Glue + Athena (29.1) → guardar y consultar el data lake Kinesis (29.2) → ingerir datos en tiempo real Redshift (29.3) → analítica rápida a gran escala (data warehouse) Lake Formation (este) → GOBERNAR y ASEGURAR todo (quién accede a qué)
Las primeras piezas construyen y explotan los datos; Lake Formation se asegura de que todo ello sea seguro, controlado y conforme. Una plataforma de datos completa necesita las dos cosas: capacidad y gobierno.
Lo que debes recordar
- Un data lake reúne muchos datos (incluidos sensibles) de toda la empresa; sin control de acceso, es un riesgo grave de seguridad y cumplimiento, y gestionar permisos «a mano» sobre millones de archivos es inviable.
- AWS Lake Formation facilita construir, asegurar y gobernar un data lake de forma centralizada. Como el sistema de control de accesos de un gran archivo.
- Su pieza estrella es el control de acceso fino y centralizado: defines desde un solo sitio quién accede a qué datos, hasta nivel de tablas y columnas (en línea con el mínimo privilegio de IAM), en vez de gestionar archivos sueltos en S3.
- Aporta: construir el lago más fácil, proteger datos sensibles (clave para la privacidad) y auditoría/cumplimiento (demostrar quién accede a qué).
- Convierte un data lake caótico e inseguro en uno gobernado y seguro: la diferencia entre un riesgo y un activo. Capacidad (29.1-29.3) más gobierno (Lake Formation) = plataforma de datos completa.
¡Has completado el Capítulo 29 y dominas las plataformas de datos en AWS: data lakes, streaming, data warehouse y gobierno de datos! En el Capítulo 30 volveremos al terreno de la organización a gran escala: cómo estructurar múltiples cuentas y landing zones para empresas grandes.
Cloud, AWS & Terraform — De cero a experto
Capítulo 1 · Qué es el cloud computing
- 1.1 El modelo cliente-servidor tradicional
- 1.2 Problemas que venía a resolver la nube
- 1.3 On-premise vs cloud vs híbrido
- 1.4 Los tres modelos de servicio: IaaS, PaaS, SaaS
- 1.5 Los cinco pilares del cloud (según NIST)
- 1.6 Ventajas reales: elasticidad, pago por uso, disponibilidad global
Capítulo 2 · El mercado cloud y los grandes proveedores
- 2.1 AWS, Azure y GCP: diferencias y cuotas de mercado
- 2.2 Por qué aprender AWS primero
- 2.3 Conceptos que son universales entre proveedores
Capítulo 3 · Regiones, zonas de disponibilidad y edge
- 3.1 Qué es una región AWS y cómo elegirla
- 3.2 Availability Zones: alta disponibilidad desde el diseño
- 3.3 Edge locations y CloudFront
- 3.4 Latencia, resiliencia y soberanía de datos
Capítulo 4 · Cómputo: EC2
- 4.1 Instancias: tipos, familias y cuándo elegir cada una
- 4.2 AMIs, key pairs y Security Groups
- 4.3 Ciclo de vida de una instancia
- 4.4 Elastic IPs y Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítulo 5 · Almacenamiento: S3
- 5.1 Buckets, objetos y claves
- 5.2 Clases de almacenamiento (Standard, IA, Glacier…)
- 5.3 Versionado y ciclo de vida de objetos
- 5.4 Políticas de bucket y ACLs
- 5.5 Hosting de sitios web estáticos
Capítulo 6 · Redes: VPC
- 6.1 Qué es una VPC y por qué la necesitas
- 6.2 Subredes públicas y privadas
- 6.3 Internet Gateway y NAT Gateway
- 6.4 Route Tables y Network ACLs
- 6.5 VPC Peering y endpoints
Capítulo 7 · Identidad y acceso: IAM
- 7.1 Usuarios, grupos, roles y políticas
- 7.2 El principio de mínimo privilegio
- 7.3 Políticas basadas en identidad vs en recurso
- 7.4 MFA y credenciales temporales (STS)
- 7.5 Buenas prácticas de seguridad IAM
Capítulo 8 · Bases de datos gestionadas
- 8.1 RDS: motores, Multi-AZ y réplicas de lectura
- 8.2 Aurora y sus ventajas sobre RDS vanilla
- 8.3 DynamoDB: modelo clave-valor / documentos
- 8.4 ElastiCache para caché en memoria
- 8.5 Cuándo usar cada tipo de base de datos
Capítulo 9 · Por qué Infraestructura como Código
- 9.1 Problemas del aprovisionamiento manual
- 9.2 IaC declarativo vs imperativo
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El ciclo plan → apply → destroy
Capítulo 10 · HCL: el lenguaje de Terraform
- 10.1 Bloques resource, variable, output, locals
- 10.2 Tipos de datos: string, number, bool, list, map, object
- 10.3 Expresiones, referencias y funciones built-in
- 10.4 Condicionales y bucles (count, for_each, for)
Capítulo 11 · Providers y estado
- 11.1 Cómo funciona el provider de AWS
- 11.2 El fichero terraform.tfstate y su importancia
- 11.3 State local vs state remoto (S3 + DynamoDB)
- 11.4 Comandos esenciales: init, plan, apply, destroy, fmt, validate
Capítulo 12 · Tu primera infraestructura real en Terraform
- 12.1 Crear una VPC con subredes desde cero
- 12.2 Levantar una instancia EC2 pública
- 12.3 Asociar un Security Group y una Elastic IP
- 12.4 Outputs y referencias entre recursos
- 12.5 Flujo de trabajo en equipo: PR review de planes
Capítulo 13 · Balanceo de carga y autoescalado
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners y reglas
- 13.3 Auto Scaling Groups: políticas y métricas
- 13.4 Warm pools y lifecycle hooks
Capítulo 14 · Serverless con Lambda
- 14.1 El modelo de ejecución de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestión de dependencias y capas (Layers)
- 14.4 Cold starts y estrategias para reducirlos
- 14.5 Límites y antipatrones
Capítulo 15 · Mensajería y eventos
- 15.1 SQS: colas estándar vs FIFO, DLQ
- 15.2 SNS: topics, suscripciones, fan-out
- 15.3 EventBridge: event buses y reglas
- 15.4 Patrones: pub/sub, desacoplamiento, saga
Capítulo 16 · Entrega de contenido y DNS
- 16.1 Route 53: tipos de registros y routing policies
- 16.2 CloudFront: distribuciones, cachés y origins
- 16.3 ACM: certificados SSL/TLS gratuitos
- 16.4 WAF integrado con CloudFront
Capítulo 17 · Contenedores en AWS
- 17.1 Docker: repaso exprés de conceptos clave
- 17.2 ECR: registro privado de imágenes
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: cuándo Kubernetes y cuándo no
Capítulo 18 · Módulos: reutilización y composición
- 18.1 Anatomía de un módulo Terraform
- 18.2 Variables de entrada, outputs y dependencias
- 18.3 Módulos locales vs módulos del Terraform Registry
- 18.4 Versionado de módulos con Git tags
- 18.5 Diseño de módulos genéricos vs específicos de dominio
Capítulo 19 · Workspaces y gestión de entornos
- 19.1 Workspaces de Terraform: casos de uso y limitaciones
- 19.2 Estrategia de directorios por entorno (dev/stg/prod)
- 19.3 Terragrunt: DRY para configuraciones de entorno
- 19.4 Variables de entorno y archivos .tfvars
Capítulo 20 · Backends remotos y locking
- 20.1 Configurar S3 + DynamoDB como backend
- 20.2 State locking: evitar corrupción en equipo
- 20.3 Migración de estado entre backends
- 20.4 terraform import: traer recursos existentes al estado
Capítulo 21 · Testing de infraestructura
- 21.1 Terraform validate y fmt en CI
- 21.2 Checkov y tfsec: análisis de seguridad estático
- 21.3 Terratest: tests de integración en Go
- 21.4 Contract testing entre módulos
Capítulo 22 · Terraform en CI/CD
- 22.1 Pipeline básico: lint → plan → apply en GitHub Actions
- 22.2 Atlantis: GitOps para Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection y reconciliación automática
Capítulo 23 · Seguridad en profundidad
- 23.1 AWS Organizations y Service Control Policies
- 23.2 AWS Config: compliance continuo
- 23.3 GuardDuty: detección de amenazas
- 23.4 Security Hub: visión centralizada
- 23.5 KMS: gestión de claves y rotación
- 23.6 Secrets Manager vs Parameter Store
Capítulo 24 · Observabilidad: logs, métricas y trazas
- 24.1 CloudWatch Logs, métricas y alarmas
- 24.2 CloudWatch Dashboards y Contributor Insights
- 24.3 X-Ray: trazado distribuido
- 24.4 OpenTelemetry en AWS
- 24.5 Managed Grafana y Managed Prometheus
Capítulo 25 · Optimización de costes
- 25.1 AWS Cost Explorer y presupuestos con alertas
- 25.2 Trusted Advisor y Compute Optimizer
- 25.3 Rightsizing: cómo detectar sobredimensionamiento
- 25.4 Savings Plans vs Reserved Instances: decisión estratégica
- 25.5 FinOps: cultura y procesos para controlar el gasto
Capítulo 26 · Alta disponibilidad y disaster recovery
- 26.1 RTO y RPO: definir los objetivos
- 26.2 Estrategias: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks y failover automático
- 26.4 AWS Backup: política centralizada de copias
Capítulo 27 · Well-Architected Framework de AWS
- 27.1 Los seis pilares: excelencia operacional, seguridad, fiabilidad, eficiencia de rendimiento, optimización de costes, sostenibilidad
- 27.2 Well-Architected Tool: revisiones formales
- 27.3 Cómo aplicar el framework en decisiones de diseño
Capítulo 28 · Arquitecturas serverless a escala
- 28.1 Event-driven architecture con Lambda + EventBridge
- 28.2 Saga pattern para transacciones distribuidas
- 28.3 Step Functions: orquestación de workflows complejos
- 28.4 Lambda@Edge y CloudFront Functions
Capítulo 29 · Plataformas de datos en AWS
- 29.1 Data Lake con S3, Glue y Athena
- 29.2 Kinesis Data Streams y Firehose para streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: gobierno del dato
Capítulo 30 · Multi-cuenta y landing zones
- 30.1 Por qué separar workloads en cuentas distintas
- 30.2 AWS Control Tower y Account Factory
- 30.3 Gestión centralizada de logs y seguridad
- 30.4 Terraform a escala multi-cuenta con módulos compartidos
Capítulo 31 · Platform Engineering e Internal Developer Platform
- 31.1 Golden paths y abstracciones sobre Terraform
- 31.2 Service Catalog de AWS
- 31.3 Backstage como portal de desarrolladores
- 31.4 Módulos Terraform como producto interno
Capítulo 32 · Certificaciones AWS relevantes
- 32.1 Cloud Practitioner: ¿vale la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítulo 33 · Proyectos para consolidar lo aprendido
- 33.1 Proyecto 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Proyecto 2: API REST con ECS Fargate + RDS + ALB
- 33.3 Proyecto 3: plataforma de datos con Glue + Athena + Redshift
- 33.4 Proyecto 4: landing zone multi-cuenta con Terraform y Control Tower
