En el subcapítulo 29.1 vimos el data lake (S3 + Glue + Athena) para guardar y consultar datos en bruto. Mencionamos que existe un concepto complementario: el data warehouse (almacén de datos), optimizado para análisis muy rápidos sobre datos estructurados. En AWS, ese servicio es Amazon Redshift. En este subcapítulo vemos qué es un data warehouse, qué hace Redshift y cuándo elegirlo frente a (o junto con) un data lake. Es la herramienta para hacer analítica seria y rápida sobre grandes volúmenes de datos.

El problema: analizar enormes cantidades de datos, muy rápido

Imagina una empresa que quiere responder, en segundos, preguntas complejas sobre años de datos de ventas: «¿cuáles fueron los 10 productos más vendidos por región y trimestre en los últimos 3 años, comparados con el año anterior?». Esto implica analizar millones o miles de millones de registros, cruzando y agregando datos.

Una base de datos normal (como las que vimos en el Capítulo 8, pensadas para gestionar las operaciones del día a día: registrar un pedido, consultar un cliente) no está optimizada para este tipo de análisis masivo. Haría esas consultas gigantes muy lentamente. Necesitas una herramienta especializada en análisis a gran escala: un data warehouse.

Qué es un data warehouse

Un data warehouse (almacén de datos) es una base de datos especializada en analizar enormes cantidades de datos estructurados de forma muy rápida. Está diseñada específicamente para consultas analíticas complejas (agregaciones, comparaciones, informes) sobre grandes volúmenes, normalmente datos históricos de toda la empresa.

   Base de datos normal (Cap. 8):  optimizada para OPERACIONES del día a día
                                    (registrar/consultar cosas individuales, rápido)
   Data warehouse:                 optimizado para ANÁLISIS a gran escala
                                    (consultas complejas sobre millones de registros)

Analogía: la diferencia es como entre la caja registradora de una tienda y el departamento de análisis de la central. La caja registradora (base de datos normal) está hecha para operaciones rápidas e individuales: cobrar una compra, devolver un producto. El departamento de análisis (data warehouse) está hecho para coger todas las ventas de todas las tiendas durante años y sacar conclusiones: tendencias, comparativas, informes. Son herramientas distintas para trabajos distintos.

Qué es Amazon Redshift

Amazon Redshift es el servicio de data warehouse de AWS: una base de datos analítica, gestionada y muy escalable, optimizada para ejecutar consultas complejas sobre enormes volúmenes de datos a gran velocidad. Es donde las empresas hacen su analítica e inteligencia de negocio (business intelligence) seria.

   Grandes volúmenes de datos estructurados (ventas, finanzas...)
                    │
                    ▼
            Amazon Redshift (data warehouse)
                    │
                    ▼
   Consultas analíticas complejas respondidas RÁPIDO
   (informes, paneles de BI, análisis de tendencias)

Por qué Redshift es tan rápido en análisis

Sin entrar en tecnicismos, Redshift logra su velocidad porque está diseñado de raíz para análisis: organiza y almacena los datos de forma optimizada para consultas analíticas, y reparte el trabajo de una consulta entre muchos recursos en paralelo (procesamiento masivo en paralelo). Así, una consulta que cruzaría millones de registros se resuelve en segundos en vez de horas.

Analogía: Redshift es como tener un equipo enorme de analistas trabajando en paralelo en vez de uno solo. Si le pides analizar millones de registros, no lo hace una sola «persona» secuencialmente (lento); reparte el trabajo entre muchos que trabajan a la vez y juntan el resultado. Por eso responde rápido incluso a preguntas enormes.

Data lake vs data warehouse: ¿cuál uso?

Esta es la pregunta clave, y la respuesta suele ser «los dos, para cosas distintas». No compiten; se complementan:

Data Lake (S3+Glue+Athena, 29.1) Data Warehouse (Redshift)
Guarda Datos en bruto, cualquier formato Datos estructurados y preparados
Estructura Flexible (defines al consultar) Definida y optimizada de antemano
Ideal para Explorar, guardar todo, datos variados Análisis rápido y repetido, informes de BI
Velocidad de consulta Buena, flexible Muy alta para análisis complejos
Coste Muy barato (S3) Mayor (más potencia analítica)
   Patrón habitual combinado:
   Datos en bruto → DATA LAKE (S3) → se preparan los más importantes
                                          │
                                          ▼
                                    DATA WAREHOUSE (Redshift)
                                    → análisis rápido y repetido para informes

💡 Patrón común: muchas empresas usan ambos: el data lake (S3) guarda todos los datos en bruto y baratos, y los datos más importantes y estructurados se cargan en Redshift para hacer análisis rápidos y recurrentes (los informes diarios de negocio, los paneles que la dirección consulta cada mañana). El lago es el «todo»; el almacén es lo «refinado y listo para análisis intensivo».

Ejemplo del mundo real: una cadena de tiendas guarda en su data lake (S3) absolutamente todos sus datos en bruto: ventas, inventario, logs web, datos de fidelización... baratos y completos. Cada noche, un proceso (con Glue, subcapítulo 29.1) prepara y carga los datos de ventas e inventario en Redshift. Allí, el equipo de análisis ejecuta cada mañana informes complejos —«ventas por categoría, región y semana, con comparativa interanual»— que Redshift responde en segundos pese a abarcar años de datos. La dirección consulta paneles de BI que beben de Redshift para tomar decisiones. El data lake guarda todo; Redshift potencia el análisis rápido del día a día. Juntos forman una plataforma de datos completa.

Lo que debes recordar

  • Analizar enormes volúmenes de datos muy rápido (informes complejos sobre años de datos) no es para lo que sirve una base de datos normal (optimizada para operaciones del día a día); hace falta un data warehouse.
  • Un data warehouse es una base de datos especializada en análisis a gran escala sobre datos estructurados, optimizada para consultas analíticas complejas. Como el departamento de análisis de la central frente a la caja registradora.
  • Amazon Redshift es el data warehouse de AWS: gestionado, muy escalable y rapidísimo en análisis, porque está diseñado para ello y reparte el trabajo en paralelo (como un gran equipo de analistas trabajando a la vez).
  • Data lake (29.1) y data warehouse (Redshift) se complementan, no compiten: el lago guarda todo en bruto (barato, flexible); el almacén guarda lo estructurado y refinado para análisis rápido y repetido.
  • 💡 Patrón común: el data lake (S3) guarda todo, y los datos importantes se cargan en Redshift para los informes de negocio del día a día.

En el último subcapítulo del capítulo veremos cómo gobernar y asegurar todos estos datos de forma centralizada con Lake Formation.

Cloud, AWS & Terraform — De cero a experto

Capítulo 1 · Qué es el cloud computing

Capítulo 2 · El mercado cloud y los grandes proveedores

Capítulo 3 · Regiones, zonas de disponibilidad y edge

Capítulo 4 · Cómputo: EC2

Capítulo 5 · Almacenamiento: S3

Capítulo 6 · Redes: VPC

Capítulo 7 · Identidad y acceso: IAM

Capítulo 8 · Bases de datos gestionadas

Capítulo 9 · Por qué Infraestructura como Código

Capítulo 10 · HCL: el lenguaje de Terraform

Capítulo 11 · Providers y estado

Capítulo 12 · Tu primera infraestructura real en Terraform

Capítulo 13 · Balanceo de carga y autoescalado

Capítulo 14 · Serverless con Lambda

Capítulo 15 · Mensajería y eventos

Capítulo 16 · Entrega de contenido y DNS

Capítulo 17 · Contenedores en AWS

Capítulo 18 · Módulos: reutilización y composición

Capítulo 19 · Workspaces y gestión de entornos

Capítulo 20 · Backends remotos y locking

Capítulo 21 · Testing de infraestructura

Capítulo 22 · Terraform en CI/CD

Capítulo 23 · Seguridad en profundidad

Capítulo 24 · Observabilidad: logs, métricas y trazas

Capítulo 25 · Optimización de costes

Capítulo 26 · Alta disponibilidad y disaster recovery

Capítulo 27 · Well-Architected Framework de AWS

Capítulo 28 · Arquitecturas serverless a escala

Capítulo 29 · Plataformas de datos en AWS

Capítulo 30 · Multi-cuenta y landing zones

Capítulo 31 · Platform Engineering e Internal Developer Platform

Capítulo 32 · Certificaciones AWS relevantes

Capítulo 33 · Proyectos para consolidar lo aprendido

Capítulo 34 · Recursos y comunidad

© Copyright 2024. Todos los derechos reservados