En esta sección, aprenderemos cómo configurar un entorno Hadoop en tu máquina local. Este proceso incluye la instalación de Java, la descarga e instalación de Hadoop, y la configuración de las variables de entorno necesarias. Al final de esta sección, tendrás un clúster Hadoop de nodo único funcionando en tu máquina.

Requisitos Previos

Antes de comenzar, asegúrate de tener lo siguiente:

  • Un sistema operativo basado en Unix (Linux, macOS) o Windows con una terminal de comandos.
  • Conexión a Internet para descargar los archivos necesarios.
  • Conocimientos básicos de la línea de comandos.

Paso 1: Instalación de Java

Hadoop requiere Java para funcionar. Asegúrate de tener Java instalado en tu sistema. Puedes verificar si Java está instalado ejecutando el siguiente comando en tu terminal:

java -version

Si Java no está instalado, puedes instalarlo siguiendo estos pasos:

En Linux (Ubuntu/Debian)

sudo apt update
sudo apt install default-jdk

En macOS

Usa Homebrew para instalar Java:

brew update
brew install openjdk

En Windows

Descarga e instala Java desde el sitio oficial de Oracle: Descargar Java

Paso 2: Descargar e Instalar Hadoop

Descarga la última versión estable de Hadoop desde el sitio oficial de Apache Hadoop: Descargar Hadoop

En Linux/macOS

  1. Descarga el archivo tar.gz de Hadoop:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
  1. Extrae el archivo descargado:
tar -xzvf hadoop-3.3.1.tar.gz
  1. Mueve el directorio extraído a /usr/local:
sudo mv hadoop-3.3.1 /usr/local/hadoop

En Windows

  1. Descarga el archivo zip de Hadoop.
  2. Extrae el archivo descargado usando una herramienta como 7-Zip.
  3. Mueve el directorio extraído a C:\hadoop.

Paso 3: Configuración de Variables de Entorno

Configura las variables de entorno necesarias para Hadoop.

En Linux/macOS

  1. Abre el archivo .bashrc o .zshrc en tu editor de texto favorito:
nano ~/.bashrc
  1. Añade las siguientes líneas al final del archivo:
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
  1. Guarda y cierra el archivo, luego aplica los cambios:
source ~/.bashrc

En Windows

  1. Abre el Panel de Control y navega a Sistema y Seguridad > Sistema > Configuración avanzada del sistema.
  2. Haz clic en "Variables de entorno".
  3. Añade las siguientes variables de entorno:
Variable Valor
HADOOP_HOME C:\hadoop
HADOOP_INSTALL %HADOOP_HOME%
HADOOP_MAPRED_HOME %HADOOP_HOME%
HADOOP_COMMON_HOME %HADOOP_HOME%
HADOOP_HDFS_HOME %HADOOP_HOME%
YARN_HOME %HADOOP_HOME%
HADOOP_COMMON_LIB_NATIVE_DIR %HADOOP_HOME%\lib\native
PATH %PATH%;%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin

Paso 4: Configuración de Hadoop

Configura los archivos de configuración de Hadoop.

  1. Navega al directorio de configuración de Hadoop:
cd $HADOOP_HOME/etc/hadoop
  1. Edita el archivo hadoop-env.sh para configurar la variable de entorno JAVA_HOME:
nano hadoop-env.sh

Descomenta y modifica la línea que contiene JAVA_HOME:

export JAVA_HOME=/path/to/your/java

Reemplaza /path/to/your/java con la ruta a tu instalación de Java. Puedes encontrar esta ruta ejecutando readlink -f $(which java) en Linux/macOS o buscando la ruta de instalación en Windows.

  1. Configura core-site.xml:
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>
  1. Configura hdfs-site.xml:
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>
  1. Configura mapred-site.xml:
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
  1. Configura yarn-site.xml:
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

Paso 5: Formatear el Sistema de Archivos HDFS

Antes de iniciar Hadoop, necesitas formatear el sistema de archivos HDFS:

hdfs namenode -format

Paso 6: Iniciar Hadoop

Inicia los servicios de Hadoop:

start-dfs.sh
start-yarn.sh

Verifica que los servicios estén corriendo:

jps

Deberías ver algo similar a esto:

NameNode
DataNode
ResourceManager
NodeManager

Conclusión

¡Felicidades! Has configurado exitosamente un entorno Hadoop en tu máquina local. Ahora tienes un clúster Hadoop de nodo único funcionando y listo para procesar grandes volúmenes de datos. En el próximo módulo, exploraremos la arquitectura de Hadoop y sus componentes principales.

© Copyright 2024. Todos los derechos reservados