Introducción

Hadoop es un marco de trabajo de software de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos a través de clústeres de computadoras utilizando modelos de programación simples. Fue desarrollado por la Apache Software Foundation y está diseñado para escalar desde servidores individuales hasta miles de máquinas, cada una ofreciendo almacenamiento y computación local.

Conceptos Clave

Procesamiento Distribuido

Hadoop permite dividir grandes conjuntos de datos en partes más pequeñas y procesarlas en paralelo en diferentes nodos de un clúster. Esto mejora significativamente la velocidad y eficiencia del procesamiento de datos.

Escalabilidad

Hadoop está diseñado para escalar horizontalmente, lo que significa que se pueden agregar más nodos al clúster para aumentar la capacidad de procesamiento y almacenamiento sin necesidad de cambiar la arquitectura del sistema.

Tolerancia a Fallos

Hadoop maneja fallos de hardware de manera eficiente. Los datos se replican en múltiples nodos, y si un nodo falla, las tareas se reasignan automáticamente a otros nodos disponibles.

Modelo de Programación Simple

Hadoop utiliza el modelo de programación MapReduce, que simplifica el desarrollo de aplicaciones distribuidas. Los desarrolladores pueden escribir programas en lenguajes de programación comunes como Java, Python y otros.

Componentes Principales

Hadoop consta de varios componentes principales que trabajan juntos para proporcionar un entorno de procesamiento de datos robusto y eficiente:

HDFS (Hadoop Distributed File System)

HDFS es el sistema de archivos distribuido de Hadoop que almacena datos en bloques distribuidos a través de los nodos del clúster. Proporciona alta disponibilidad y tolerancia a fallos mediante la replicación de datos.

MapReduce

MapReduce es el modelo de programación y el motor de procesamiento de Hadoop. Permite a los desarrolladores escribir aplicaciones que procesan grandes cantidades de datos en paralelo.

YARN (Yet Another Resource Negotiator)

YARN es el gestor de recursos de Hadoop que coordina y gestiona los recursos del clúster, como la memoria y la CPU, para las aplicaciones que se ejecutan en Hadoop.

Ejemplo Práctico

A continuación, se muestra un ejemplo simple de un programa MapReduce en Java que cuenta la frecuencia de palabras en un conjunto de datos:

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

  public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
        context.write(word, one);
      }
    }
  }

  public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
  }

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "word count");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

Explicación del Código

TokenizerMapper: Esta clase extiende Mapper y se encarga de dividir las líneas de texto en palabras individuales y emitir cada palabra con un valor de 1.
IntSumReducer: Esta clase extiende Reducer y se encarga de sumar los valores asociados con cada palabra y emitir el resultado.
main: Configura y ejecuta el trabajo MapReduce, especificando las clases de Mapper y Reducer, así como las rutas de entrada y salida.

Ejercicio Práctico

Ejercicio 1: Contar la Frecuencia de Palabras

Objetivo: Escribir un programa MapReduce en Java que cuente la frecuencia de palabras en un archivo de texto.

Instrucciones:

Configura un entorno de desarrollo Hadoop.
Crea un archivo de texto con varias líneas de texto.
Escribe un programa MapReduce similar al ejemplo proporcionado para contar la frecuencia de palabras.
Ejecuta el programa y verifica los resultados.

Solución: Sigue el ejemplo proporcionado anteriormente y asegúrate de ajustar las rutas de entrada y salida según tu entorno.

Conclusión

En esta sección, hemos aprendido qué es Hadoop, sus componentes principales y cómo funciona el procesamiento distribuido. También hemos visto un ejemplo práctico de un programa MapReduce y hemos realizado un ejercicio para reforzar los conceptos aprendidos. En la siguiente sección, exploraremos el ecosistema de Hadoop y sus diversas herramientas y tecnologías.

¿Qué es Hadoop?

Introducción

Conceptos Clave

Procesamiento Distribuido

Escalabilidad

Tolerancia a Fallos

Modelo de Programación Simple

Componentes Principales

HDFS (Hadoop Distributed File System)

MapReduce

YARN (Yet Another Resource Negotiator)

Ejemplo Práctico

Explicación del Código

Ejercicio Práctico

Ejercicio 1: Contar la Frecuencia de Palabras

Conclusión

Curso de Hadoop

Módulo 1: Introducción a Hadoop

Módulo 2: Arquitectura de Hadoop

Módulo 3: HDFS (Sistema de Archivos Distribuido de Hadoop)

Módulo 4: Programación MapReduce

Módulo 5: Herramientas del Ecosistema Hadoop

Módulo 6: Conceptos Avanzados de Hadoop

Módulo 7: Aplicaciones del Mundo Real y Estudios de Caso

Módulo 8: Proyectos Prácticos