En el subcapítulo anterior construimos un data lake para analizar datos almacenados. Pero muchos datos llegan en tiempo real, de forma continua: clics en una web mientras los usuarios navegan, lecturas de sensores cada segundo, transacciones según ocurren... ¿Cómo capturas y procesas ese flujo continuo de datos en el momento, sin perder nada? Para eso existe Amazon Kinesis, el servicio de AWS para datos en tiempo real (streaming). Veremos sus dos componentes principales: Kinesis Data Streams y Kinesis Data Firehose.
El problema: datos que llegan sin parar, ahora mismo
Hay datos que no llegan «de vez en cuando» en archivos, sino como un chorro continuo que no para:
Ejemplos de datos en tiempo real (streaming): - Clics y navegación de miles de usuarios en una web (cada segundo) - Lecturas de sensores de IoT (temperatura, GPS...) cada segundo - Transacciones financieras según ocurren - Eventos de una aplicación en vivo
Procesar esto plantea retos: llega constantemente y en gran volumen, no puedes perder datos, y a menudo quieres reaccionar al instante (detectar un fraude mientras ocurre, no al día siguiente). Necesitas algo capaz de capturar y mover ese flujo continuo de forma fiable y escalable.
Qué es el procesamiento en streaming
El procesamiento de datos en tiempo real (streaming) consiste en capturar y procesar los datos a medida que se generan, de forma continua, en lugar de esperar a tener un lote grande y procesarlo luego (lo que sería procesamiento «por lotes» o batch).
Procesamiento por lotes: esperas → juntas muchos datos → procesas (luego) Procesamiento en streaming: los datos llegan → los procesas YA (al momento)
Analogía: la diferencia es como entre una presa y un río. El procesamiento por lotes es como una presa: acumulas el agua y la sueltas de golpe cada cierto tiempo. El streaming es como un río que fluye sin parar: el agua (los datos) pasa continuamente y la aprovechas según fluye. Kinesis es el «cauce» preparado para gestionar ese río de datos sin que se desborde ni se pierda.
Qué es Kinesis
Amazon Kinesis es la familia de servicios de AWS para capturar, procesar y analizar datos en tiempo real (streaming) a gran escala. Te permite ingerir flujos enormes de datos continuos de forma fiable. Tiene varios componentes; veremos los dos principales.
Kinesis Data Streams: el flujo en tiempo real
Kinesis Data Streams captura un flujo continuo de datos en tiempo real y lo pone a disposición para que tus aplicaciones lo procesen al instante. Los datos entran en el «stream» y tus consumidores (por ejemplo, Lambdas, recuerda que Kinesis puede ser un trigger de Lambda, subcapítulo 14.2) los leen y procesan en el momento.
Productores (web, sensores...) → Kinesis Data Streams → Consumidores
envían datos sin parar (el flujo en vivo) procesan AL INSTANTE
(Lambda, analítica...)- Para qué: cuando necesitas reaccionar en tiempo real a los datos (detectar fraude al instante, alertar de una anomalía de un sensor, actualizar un panel en vivo).
- Clave: los datos están disponibles para procesarse inmediatamente, con mínima latencia.
Analogía: Kinesis Data Streams es como una cinta transportadora en vivo en la que van pasando los datos, y tus trabajadores (aplicaciones) los van cogiendo y procesando según pasan, sin esperar. Ideal cuando cada dato importa ahora.
Kinesis Data Firehose: cargar el flujo en un destino
Kinesis Data Firehose se centra en algo distinto: recoger un flujo de datos y entregarlo automáticamente en un destino de almacenamiento o análisis (como S3 —tu data lake del subcapítulo 29.1—, Redshift, etc.), sin que tengas que programar nada para gestionarlo. Es la forma más sencilla de cargar datos de streaming en un sitio donde guardarlos o analizarlos.
Productores → Kinesis Data Firehose → entrega automáticamente en S3 / Redshift / ... datos continuos (recoge y carga) (tu data lake, almacén de datos...)
- Para qué: cuando quieres llevar un flujo de datos a tu data lake (S3) u otro destino de forma automática y sencilla, sin necesidad de procesarlo al instante.
- Clave: es totalmente gestionado y muy fácil: configuras el origen y el destino, y Firehose se encarga de mover los datos (puede incluso transformarlos o agruparlos por el camino).
Analogía: si Data Streams es una cinta transportadora en vivo, Firehose (cuyo nombre significa «manguera de bombero») es como una manguera que canaliza el chorro de datos directamente hasta el depósito (S3). No te preocupas de gestionar la cinta ni los trabajadores: solo conectas la manguera al depósito y los datos fluyen allí automáticamente.
Streams vs Firehose: cuándo cada uno
| Kinesis Data Streams | Kinesis Data Firehose | |
|---|---|---|
| Para qué | Procesar el flujo en tiempo real | Entregar el flujo a un destino (S3, etc.) |
| Reacción | Inmediata (procesas al instante) | No inmediata (carga los datos para luego) |
| Gestión | Tú programas los consumidores | Totalmente gestionado (solo configuras) |
| Ideal para | Detección de fraude, alertas en vivo | Llenar el data lake con datos de streaming |
💡 Regla práctica: si necesitas reaccionar al instante a los datos, usa Data Streams. Si solo quieres llevar los datos de streaming a un sitio (como tu data lake en S3) de forma fácil y automática, usa Firehose. A menudo se usan juntos: Streams para reaccionar en vivo y Firehose para archivar el mismo flujo en S3.
Cómo conecta con el data lake
Kinesis es a menudo la puerta de entrada de datos en tiempo real hacia el data lake del subcapítulo 29.1:
Datos en tiempo real → Kinesis Firehose → S3 (data lake)
│
Glue cataloga, Athena consulta
→ los datos de streaming acaban analizables junto con el restoAsí, los datos que llegan continuamente acaban en tu data lake, listos para analizarse junto con los demás. Streaming (Kinesis) y data lake (S3+Glue+Athena) se combinan en una plataforma de datos completa.
Ejemplo del mundo real: una plataforma de videojuegos online quiere analizar el comportamiento de los jugadores en tiempo real y también guardarlo para análisis posteriores. Usan Kinesis Data Streams para capturar cada acción de los jugadores (millones por minuto) y procesarlas al instante con Lambdas que, por ejemplo, detectan trampas o ajustan la dificultad en vivo. A la vez, usan Kinesis Data Firehose para volcar ese mismo flujo de eventos en S3 (su data lake), donde luego lo analizan con Athena para entender tendencias a largo plazo. Streaming para reaccionar ahora, data lake para entender el histórico: lo mejor de ambos mundos.
Lo que debes recordar
- Muchos datos llegan en tiempo real, de forma continua (clics, sensores, transacciones); procesarlos requiere capturar ese flujo continuo sin perder nada, a menudo para reaccionar al instante.
- El procesamiento en streaming trata los datos según se generan (como un río que fluye), frente al procesamiento por lotes (como una presa que acumula y suelta).
- Amazon Kinesis captura, procesa y analiza datos en tiempo real a gran escala. Dos componentes principales:
- Kinesis Data Streams: captura un flujo en vivo para procesarlo al instante (reaccionar en tiempo real: fraude, alertas). Como una cinta transportadora en vivo.
- Kinesis Data Firehose: recoge un flujo y lo entrega automáticamente en un destino (S3, Redshift...), totalmente gestionado. Como una manguera hacia el depósito.
- 💡 Data Streams para reaccionar al instante; Firehose para llevar datos a un destino fácilmente. A menudo se usan juntos.
- Kinesis es la puerta de entrada de datos en tiempo real hacia el data lake (S3), combinando streaming e histórico.
En el siguiente subcapítulo veremos el otro gran pilar de la analítica: el almacén de datos optimizado para consultas a gran escala, Redshift.
Cloud, AWS & Terraform — De cero a experto
Capítulo 1 · Qué es el cloud computing
- 1.1 El modelo cliente-servidor tradicional
- 1.2 Problemas que venía a resolver la nube
- 1.3 On-premise vs cloud vs híbrido
- 1.4 Los tres modelos de servicio: IaaS, PaaS, SaaS
- 1.5 Los cinco pilares del cloud (según NIST)
- 1.6 Ventajas reales: elasticidad, pago por uso, disponibilidad global
Capítulo 2 · El mercado cloud y los grandes proveedores
- 2.1 AWS, Azure y GCP: diferencias y cuotas de mercado
- 2.2 Por qué aprender AWS primero
- 2.3 Conceptos que son universales entre proveedores
Capítulo 3 · Regiones, zonas de disponibilidad y edge
- 3.1 Qué es una región AWS y cómo elegirla
- 3.2 Availability Zones: alta disponibilidad desde el diseño
- 3.3 Edge locations y CloudFront
- 3.4 Latencia, resiliencia y soberanía de datos
Capítulo 4 · Cómputo: EC2
- 4.1 Instancias: tipos, familias y cuándo elegir cada una
- 4.2 AMIs, key pairs y Security Groups
- 4.3 Ciclo de vida de una instancia
- 4.4 Elastic IPs y Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítulo 5 · Almacenamiento: S3
- 5.1 Buckets, objetos y claves
- 5.2 Clases de almacenamiento (Standard, IA, Glacier…)
- 5.3 Versionado y ciclo de vida de objetos
- 5.4 Políticas de bucket y ACLs
- 5.5 Hosting de sitios web estáticos
Capítulo 6 · Redes: VPC
- 6.1 Qué es una VPC y por qué la necesitas
- 6.2 Subredes públicas y privadas
- 6.3 Internet Gateway y NAT Gateway
- 6.4 Route Tables y Network ACLs
- 6.5 VPC Peering y endpoints
Capítulo 7 · Identidad y acceso: IAM
- 7.1 Usuarios, grupos, roles y políticas
- 7.2 El principio de mínimo privilegio
- 7.3 Políticas basadas en identidad vs en recurso
- 7.4 MFA y credenciales temporales (STS)
- 7.5 Buenas prácticas de seguridad IAM
Capítulo 8 · Bases de datos gestionadas
- 8.1 RDS: motores, Multi-AZ y réplicas de lectura
- 8.2 Aurora y sus ventajas sobre RDS vanilla
- 8.3 DynamoDB: modelo clave-valor / documentos
- 8.4 ElastiCache para caché en memoria
- 8.5 Cuándo usar cada tipo de base de datos
Capítulo 9 · Por qué Infraestructura como Código
- 9.1 Problemas del aprovisionamiento manual
- 9.2 IaC declarativo vs imperativo
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El ciclo plan → apply → destroy
Capítulo 10 · HCL: el lenguaje de Terraform
- 10.1 Bloques resource, variable, output, locals
- 10.2 Tipos de datos: string, number, bool, list, map, object
- 10.3 Expresiones, referencias y funciones built-in
- 10.4 Condicionales y bucles (count, for_each, for)
Capítulo 11 · Providers y estado
- 11.1 Cómo funciona el provider de AWS
- 11.2 El fichero terraform.tfstate y su importancia
- 11.3 State local vs state remoto (S3 + DynamoDB)
- 11.4 Comandos esenciales: init, plan, apply, destroy, fmt, validate
Capítulo 12 · Tu primera infraestructura real en Terraform
- 12.1 Crear una VPC con subredes desde cero
- 12.2 Levantar una instancia EC2 pública
- 12.3 Asociar un Security Group y una Elastic IP
- 12.4 Outputs y referencias entre recursos
- 12.5 Flujo de trabajo en equipo: PR review de planes
Capítulo 13 · Balanceo de carga y autoescalado
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners y reglas
- 13.3 Auto Scaling Groups: políticas y métricas
- 13.4 Warm pools y lifecycle hooks
Capítulo 14 · Serverless con Lambda
- 14.1 El modelo de ejecución de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestión de dependencias y capas (Layers)
- 14.4 Cold starts y estrategias para reducirlos
- 14.5 Límites y antipatrones
Capítulo 15 · Mensajería y eventos
- 15.1 SQS: colas estándar vs FIFO, DLQ
- 15.2 SNS: topics, suscripciones, fan-out
- 15.3 EventBridge: event buses y reglas
- 15.4 Patrones: pub/sub, desacoplamiento, saga
Capítulo 16 · Entrega de contenido y DNS
- 16.1 Route 53: tipos de registros y routing policies
- 16.2 CloudFront: distribuciones, cachés y origins
- 16.3 ACM: certificados SSL/TLS gratuitos
- 16.4 WAF integrado con CloudFront
Capítulo 17 · Contenedores en AWS
- 17.1 Docker: repaso exprés de conceptos clave
- 17.2 ECR: registro privado de imágenes
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: cuándo Kubernetes y cuándo no
Capítulo 18 · Módulos: reutilización y composición
- 18.1 Anatomía de un módulo Terraform
- 18.2 Variables de entrada, outputs y dependencias
- 18.3 Módulos locales vs módulos del Terraform Registry
- 18.4 Versionado de módulos con Git tags
- 18.5 Diseño de módulos genéricos vs específicos de dominio
Capítulo 19 · Workspaces y gestión de entornos
- 19.1 Workspaces de Terraform: casos de uso y limitaciones
- 19.2 Estrategia de directorios por entorno (dev/stg/prod)
- 19.3 Terragrunt: DRY para configuraciones de entorno
- 19.4 Variables de entorno y archivos .tfvars
Capítulo 20 · Backends remotos y locking
- 20.1 Configurar S3 + DynamoDB como backend
- 20.2 State locking: evitar corrupción en equipo
- 20.3 Migración de estado entre backends
- 20.4 terraform import: traer recursos existentes al estado
Capítulo 21 · Testing de infraestructura
- 21.1 Terraform validate y fmt en CI
- 21.2 Checkov y tfsec: análisis de seguridad estático
- 21.3 Terratest: tests de integración en Go
- 21.4 Contract testing entre módulos
Capítulo 22 · Terraform en CI/CD
- 22.1 Pipeline básico: lint → plan → apply en GitHub Actions
- 22.2 Atlantis: GitOps para Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection y reconciliación automática
Capítulo 23 · Seguridad en profundidad
- 23.1 AWS Organizations y Service Control Policies
- 23.2 AWS Config: compliance continuo
- 23.3 GuardDuty: detección de amenazas
- 23.4 Security Hub: visión centralizada
- 23.5 KMS: gestión de claves y rotación
- 23.6 Secrets Manager vs Parameter Store
Capítulo 24 · Observabilidad: logs, métricas y trazas
- 24.1 CloudWatch Logs, métricas y alarmas
- 24.2 CloudWatch Dashboards y Contributor Insights
- 24.3 X-Ray: trazado distribuido
- 24.4 OpenTelemetry en AWS
- 24.5 Managed Grafana y Managed Prometheus
Capítulo 25 · Optimización de costes
- 25.1 AWS Cost Explorer y presupuestos con alertas
- 25.2 Trusted Advisor y Compute Optimizer
- 25.3 Rightsizing: cómo detectar sobredimensionamiento
- 25.4 Savings Plans vs Reserved Instances: decisión estratégica
- 25.5 FinOps: cultura y procesos para controlar el gasto
Capítulo 26 · Alta disponibilidad y disaster recovery
- 26.1 RTO y RPO: definir los objetivos
- 26.2 Estrategias: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks y failover automático
- 26.4 AWS Backup: política centralizada de copias
Capítulo 27 · Well-Architected Framework de AWS
- 27.1 Los seis pilares: excelencia operacional, seguridad, fiabilidad, eficiencia de rendimiento, optimización de costes, sostenibilidad
- 27.2 Well-Architected Tool: revisiones formales
- 27.3 Cómo aplicar el framework en decisiones de diseño
Capítulo 28 · Arquitecturas serverless a escala
- 28.1 Event-driven architecture con Lambda + EventBridge
- 28.2 Saga pattern para transacciones distribuidas
- 28.3 Step Functions: orquestación de workflows complejos
- 28.4 Lambda@Edge y CloudFront Functions
Capítulo 29 · Plataformas de datos en AWS
- 29.1 Data Lake con S3, Glue y Athena
- 29.2 Kinesis Data Streams y Firehose para streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: gobierno del dato
Capítulo 30 · Multi-cuenta y landing zones
- 30.1 Por qué separar workloads en cuentas distintas
- 30.2 AWS Control Tower y Account Factory
- 30.3 Gestión centralizada de logs y seguridad
- 30.4 Terraform a escala multi-cuenta con módulos compartidos
Capítulo 31 · Platform Engineering e Internal Developer Platform
- 31.1 Golden paths y abstracciones sobre Terraform
- 31.2 Service Catalog de AWS
- 31.3 Backstage como portal de desarrolladores
- 31.4 Módulos Terraform como producto interno
Capítulo 32 · Certificaciones AWS relevantes
- 32.1 Cloud Practitioner: ¿vale la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítulo 33 · Proyectos para consolidar lo aprendido
- 33.1 Proyecto 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Proyecto 2: API REST con ECS Fargate + RDS + ALB
- 33.3 Proyecto 3: plataforma de datos con Glue + Athena + Redshift
- 33.4 Proyecto 4: landing zone multi-cuenta con Terraform y Control Tower
