El tercer proyecto te lleva al mundo de los datos a gran escala, que vimos en el Capítulo 29. Mientras los proyectos anteriores construían aplicaciones (un blog, una API), este construye una plataforma de datos: un sistema para almacenar, procesar y analizar grandes cantidades de información. Combinarás Glue, Athena y Redshift para crear una plataforma capaz de extraer valor de los datos. Es un proyecto de nivel más avanzado que consolida una especialidad muy demandada: la ingeniería de datos.

Qué construyes: una plataforma para analizar datos

El objetivo es montar un sistema donde reunir datos de distintas fuentes, prepararlos y poder analizarlos para sacar conclusiones útiles. Recuerda el Capítulo 29: una plataforma de datos permite a una empresa convertir sus datos dispersos en información valiosa para tomar decisiones.

   Lo que vas a construir:
   datos en bruto → se preparan → se analizan → conclusiones útiles
   (un "data lake" + analítica, todo lo del Capítulo 29)

Las piezas y cómo encajan

El proyecto combina los servicios de datos del Capítulo 29, cada uno con su papel:

S3: el data lake (almacenar todo)

S3 (Capítulo 5) es el data lake (subcapítulo 29.1): el almacén central, barato e ilimitado, donde guardas todos los datos en bruto, de cualquier formato. Es el corazón de la plataforma: el sitio donde «aterrizan» todos los datos.

S3 → el data lake: guarda todos los datos en bruto (el "lago")

Glue: catalogar y preparar los datos

AWS Glue (subcapítulo 29.1) cataloga los datos del data lake (crea un inventario de qué hay y dónde) y los procesa/transforma (los limpia y prepara para analizar). Es el «bibliotecario» que organiza el lago y deja los datos listos.

Glue → cataloga (sabes qué datos hay) y prepara (limpia, transforma) los datos

Athena: consultar el data lake con SQL

Amazon Athena (subcapítulo 29.1) te permite consultar los datos directamente en S3 con SQL, sin moverlos, de forma serverless. Es para análisis flexibles y puntuales: haces preguntas a tus datos del lago y obtienes respuestas.

Athena → consultas SQL directamente sobre el data lake (S3), serverless

Redshift: el data warehouse (análisis intensivo)

Amazon Redshift (subcapítulo 29.3) es el data warehouse: para los análisis complejos y recurrentes sobre los datos estructurados más importantes, que carga desde el data lake. Es donde se hacen los informes de negocio que se consultan a menudo y deben responderse rapidísimo.

Redshift → data warehouse: análisis complejos y rápidos sobre datos refinados

La arquitectura completa

Así encajan las piezas, siguiendo el patrón del Capítulo 29:

   Fuentes de datos (ventas, logs, etc.)
        │ (se vuelcan)
        ▼
   S3 (DATA LAKE: todos los datos en bruto)
        │
   Glue cataloga y prepara los datos
        │
        ├──► Athena (consultas SQL flexibles sobre el lago)
        │
        └──► Redshift (DATA WAREHOUSE: análisis complejos y recurrentes)
                 → informes de negocio, paneles de BI

Los datos llegan a S3 (el lago); Glue los cataloga y prepara; desde ahí, puedes consultarlos de forma flexible con Athena, o cargar los más importantes en Redshift para análisis intensivos y recurrentes. Recuerda que el data lake y el data warehouse se complementan (subcapítulo 29.3): el lago guarda todo, el almacén potencia el análisis frecuente.

Conceptos clave que consolidas

Este proyecto afianza el dominio de los datos en AWS, una especialidad muy valorada:

   Conceptos del libro que consolidas:
   - Data lake con S3 (Caps. 5, 29.1)
   - Glue: catálogo y ETL (Cap. 29.1)
   - Athena: consultas serverless sobre S3 (Cap. 29.1)
   - Redshift: data warehouse (Cap. 29.3)
   - La diferencia y complementariedad lake vs warehouse (Cap. 29.3)
   - Gobierno de datos (quién accede a qué, con Lake Formation, Cap. 29.4)
   - ¡Todo con Terraform! (Partes II-V)

💡 Amplía si quieres: puedes enriquecer el proyecto añadiendo Kinesis (subcapítulo 29.2) para ingerir datos en tiempo real hacia el data lake, y Lake Formation (subcapítulo 29.4) para gobernar quién accede a qué datos. Así cubres el Capítulo 29 completo.

Ejemplo del mundo real: alguien interesado en la ingeniería de datos (un campo muy demandado) quiere consolidar lo aprendido en el Capítulo 29 con un proyecto real. Construye una plataforma para analizar datos de ventas: vuelca datos de ventas (de varias fuentes, en distintos formatos) en un data lake en S3; usa Glue para catalogarlos y prepararlos; analiza de forma exploratoria con Athena («¿qué productos se venden más por región?»); y carga los datos clave en Redshift para los informes mensuales que la dirección consulta. Todo lo despliega con Terraform. Al construirlo, entiende de verdad cómo fluyen los datos por una plataforma analítica y la diferencia práctica entre un data lake y un data warehouse. Acaba con una plataforma de datos funcional y un perfil sólido en un área muy buscada. La teoría del Capítulo 29 se convierte en habilidad real.

Lo que debes recordar

  • El proyecto de plataforma de datos te lleva al mundo de los datos a gran escala (Cap. 29): un sistema para almacenar, procesar y analizar información y extraer valor. Construye un data lake + analítica.
  • Combina las piezas del Cap. 29: S3 (el data lake: todos los datos en bruto, Cap. 29.1), Glue (cataloga y prepara los datos, Cap. 29.1), Athena (consultas SQL flexibles sobre S3, serverless, Cap. 29.1) y Redshift (el data warehouse para análisis complejos y recurrentes, Cap. 29.3).
  • Arquitectura: datos → S3 (lago) → Glue (cataloga/prepara) → Athena (consultas flexibles) y/o Redshift (análisis intensivos). Lago y almacén se complementan (Cap. 29.3).
  • Consolida una especialidad muy demandada (ingeniería de datos); 💡 amplíalo con Kinesis (tiempo real, Cap. 29.2) y Lake Formation (gobierno, Cap. 29.4). Todo con Terraform.

En el último subcapítulo del capítulo veremos el proyecto más ambicioso, que ata muchos conceptos avanzados: una landing zone multi-cuenta con Terraform y Control Tower.

Cloud, AWS & Terraform — De cero a experto

Capítulo 1 · Qué es el cloud computing

Capítulo 2 · El mercado cloud y los grandes proveedores

Capítulo 3 · Regiones, zonas de disponibilidad y edge

Capítulo 4 · Cómputo: EC2

Capítulo 5 · Almacenamiento: S3

Capítulo 6 · Redes: VPC

Capítulo 7 · Identidad y acceso: IAM

Capítulo 8 · Bases de datos gestionadas

Capítulo 9 · Por qué Infraestructura como Código

Capítulo 10 · HCL: el lenguaje de Terraform

Capítulo 11 · Providers y estado

Capítulo 12 · Tu primera infraestructura real en Terraform

Capítulo 13 · Balanceo de carga y autoescalado

Capítulo 14 · Serverless con Lambda

Capítulo 15 · Mensajería y eventos

Capítulo 16 · Entrega de contenido y DNS

Capítulo 17 · Contenedores en AWS

Capítulo 18 · Módulos: reutilización y composición

Capítulo 19 · Workspaces y gestión de entornos

Capítulo 20 · Backends remotos y locking

Capítulo 21 · Testing de infraestructura

Capítulo 22 · Terraform en CI/CD

Capítulo 23 · Seguridad en profundidad

Capítulo 24 · Observabilidad: logs, métricas y trazas

Capítulo 25 · Optimización de costes

Capítulo 26 · Alta disponibilidad y disaster recovery

Capítulo 27 · Well-Architected Framework de AWS

Capítulo 28 · Arquitecturas serverless a escala

Capítulo 29 · Plataformas de datos en AWS

Capítulo 30 · Multi-cuenta y landing zones

Capítulo 31 · Platform Engineering e Internal Developer Platform

Capítulo 32 · Certificaciones AWS relevantes

Capítulo 33 · Proyectos para consolidar lo aprendido

Capítulo 34 · Recursos y comunidad

© Copyright 2024. Todos los derechos reservados