En esta sección, aprenderemos cómo configurar un entorno Hadoop en tu máquina local. Este proceso incluye la instalación de Java, la descarga e instalación de Hadoop, y la configuración de las variables de entorno necesarias. Al final de esta sección, tendrás un clúster Hadoop de nodo único funcionando en tu máquina.
Requisitos Previos
Antes de comenzar, asegúrate de tener lo siguiente:
- Un sistema operativo basado en Unix (Linux, macOS) o Windows con una terminal de comandos.
- Conexión a Internet para descargar los archivos necesarios.
- Conocimientos básicos de la línea de comandos.
Paso 1: Instalación de Java
Hadoop requiere Java para funcionar. Asegúrate de tener Java instalado en tu sistema. Puedes verificar si Java está instalado ejecutando el siguiente comando en tu terminal:
Si Java no está instalado, puedes instalarlo siguiendo estos pasos:
En Linux (Ubuntu/Debian)
En macOS
Usa Homebrew para instalar Java:
En Windows
Descarga e instala Java desde el sitio oficial de Oracle: Descargar Java
Paso 2: Descargar e Instalar Hadoop
Descarga la última versión estable de Hadoop desde el sitio oficial de Apache Hadoop: Descargar Hadoop
En Linux/macOS
- Descarga el archivo tar.gz de Hadoop:
- Extrae el archivo descargado:
- Mueve el directorio extraído a
/usr/local
:
En Windows
- Descarga el archivo zip de Hadoop.
- Extrae el archivo descargado usando una herramienta como 7-Zip.
- Mueve el directorio extraído a
C:\hadoop
.
Paso 3: Configuración de Variables de Entorno
Configura las variables de entorno necesarias para Hadoop.
En Linux/macOS
- Abre el archivo
.bashrc
o.zshrc
en tu editor de texto favorito:
- Añade las siguientes líneas al final del archivo:
export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
- Guarda y cierra el archivo, luego aplica los cambios:
En Windows
- Abre el Panel de Control y navega a Sistema y Seguridad > Sistema > Configuración avanzada del sistema.
- Haz clic en "Variables de entorno".
- Añade las siguientes variables de entorno:
Variable | Valor |
---|---|
HADOOP_HOME | C:\hadoop |
HADOOP_INSTALL | %HADOOP_HOME% |
HADOOP_MAPRED_HOME | %HADOOP_HOME% |
HADOOP_COMMON_HOME | %HADOOP_HOME% |
HADOOP_HDFS_HOME | %HADOOP_HOME% |
YARN_HOME | %HADOOP_HOME% |
HADOOP_COMMON_LIB_NATIVE_DIR | %HADOOP_HOME%\lib\native |
PATH | %PATH%;%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin |
Paso 4: Configuración de Hadoop
Configura los archivos de configuración de Hadoop.
- Navega al directorio de configuración de Hadoop:
- Edita el archivo
hadoop-env.sh
para configurar la variable de entorno JAVA_HOME:
Descomenta y modifica la línea que contiene JAVA_HOME
:
Reemplaza /path/to/your/java
con la ruta a tu instalación de Java. Puedes encontrar esta ruta ejecutando readlink -f $(which java)
en Linux/macOS o buscando la ruta de instalación en Windows.
- Configura
core-site.xml
:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
- Configura
hdfs-site.xml
:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
- Configura
mapred-site.xml
:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
- Configura
yarn-site.xml
:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Paso 5: Formatear el Sistema de Archivos HDFS
Antes de iniciar Hadoop, necesitas formatear el sistema de archivos HDFS:
Paso 6: Iniciar Hadoop
Inicia los servicios de Hadoop:
Verifica que los servicios estén corriendo:
Deberías ver algo similar a esto:
Conclusión
¡Felicidades! Has configurado exitosamente un entorno Hadoop en tu máquina local. Ahora tienes un clúster Hadoop de nodo único funcionando y listo para procesar grandes volúmenes de datos. En el próximo módulo, exploraremos la arquitectura de Hadoop y sus componentes principales.
Curso de Hadoop
Módulo 1: Introducción a Hadoop
- ¿Qué es Hadoop?
- Visión General del Ecosistema Hadoop
- Hadoop vs Bases de Datos Tradicionales
- Configuración del Entorno Hadoop
Módulo 2: Arquitectura de Hadoop
- Componentes Principales de Hadoop
- HDFS (Sistema de Archivos Distribuido de Hadoop)
- Marco de Trabajo MapReduce
- YARN (Yet Another Resource Negotiator)
Módulo 3: HDFS (Sistema de Archivos Distribuido de Hadoop)
Módulo 4: Programación MapReduce
- Introducción a MapReduce
- Flujo de Trabajo de un Job MapReduce
- Escribiendo un Programa MapReduce
- Técnicas de Optimización de MapReduce
Módulo 5: Herramientas del Ecosistema Hadoop
Módulo 6: Conceptos Avanzados de Hadoop
- Seguridad en Hadoop
- Gestión de Clústeres Hadoop
- Ajuste de Rendimiento de Hadoop
- Serialización de Datos en Hadoop
Módulo 7: Aplicaciones del Mundo Real y Estudios de Caso
- Hadoop en Almacenamiento de Datos
- Hadoop en Aprendizaje Automático
- Hadoop en Procesamiento de Datos en Tiempo Real
- Estudios de Caso de Implementaciones de Hadoop