En esta sección, aprenderás a configurar el entorno necesario para trabajar con Apache Spark. Este proceso incluye la instalación de Java, la descarga e instalación de Apache Spark, y la configuración de las variables de entorno necesarias. Al final de esta sección, estarás listo para ejecutar tu primer programa en Spark.

Requisitos Previos

Antes de comenzar, asegúrate de tener lo siguiente:

  • Un sistema operativo compatible (Windows, macOS, Linux).
  • Conexión a Internet para descargar los archivos necesarios.
  • Conocimientos básicos de línea de comandos.

Paso 1: Instalación de Java

Apache Spark requiere Java para funcionar. Asegúrate de tener Java Development Kit (JDK) instalado en tu sistema.

Instalación en Windows

  1. Descargar JDK:

    • Ve al sitio web de Oracle: Descargar JDK.
    • Descarga la versión más reciente del JDK.
  2. Instalar JDK:

    • Ejecuta el instalador y sigue las instrucciones en pantalla.
    • Durante la instalación, toma nota del directorio de instalación (por ejemplo, C:\Program Files\Java\jdk-15.0.1).
  3. Configurar Variables de Entorno:

    • Abre el Panel de Control y navega a Sistema y Seguridad > Sistema > Configuración avanzada del sistema.
    • Haz clic en Variables de entorno.
    • En Variables del sistema, haz clic en Nuevo y añade una variable llamada JAVA_HOME con el valor del directorio de instalación del JDK.
    • Edita la variable Path y añade %JAVA_HOME%\bin.

Instalación en macOS

  1. Instalar Homebrew (si no lo tienes):

    /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
    
  2. Instalar JDK:

    brew install openjdk
    
  3. Configurar Variables de Entorno:

    • Añade las siguientes líneas a tu archivo ~/.bash_profile o ~/.zshrc:
      export JAVA_HOME=$(/usr/libexec/java_home)
      export PATH=$JAVA_HOME/bin:$PATH
      
    • Recarga el archivo de configuración:
      source ~/.bash_profile
      

Instalación en Linux

  1. Instalar JDK:

    sudo apt update
    sudo apt install openjdk-11-jdk
    
  2. Configurar Variables de Entorno:

    • Añade las siguientes líneas a tu archivo ~/.bashrc:
      export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
      export PATH=$JAVA_HOME/bin:$PATH
      
    • Recarga el archivo de configuración:
      source ~/.bashrc
      

Paso 2: Descargar e Instalar Apache Spark

Descargar Apache Spark

  1. Ve al sitio web oficial de Apache Spark: Descargar Spark.
  2. Selecciona la versión de Spark que deseas descargar. Para este curso, recomendamos la versión más reciente.
  3. Selecciona el paquete precompilado para Hadoop. Si no estás seguro, elige "Pre-built for Apache Hadoop 2.7 and later".
  4. Haz clic en el enlace de descarga y guarda el archivo en tu sistema.

Instalar Apache Spark

  1. Extraer el Archivo:

    • Navega al directorio donde descargaste el archivo y extrae su contenido.
    • En Windows, puedes usar una herramienta como WinRAR o 7-Zip.
    • En macOS y Linux, usa el siguiente comando:
      tar -xvf spark-<version>-bin-hadoop2.7.tgz
      
  2. Mover el Directorio de Spark:

    • Mueve el directorio extraído a una ubicación de tu elección. Por ejemplo, en Linux:
      sudo mv spark-<version>-bin-hadoop2.7 /opt/spark
      
  3. Configurar Variables de Entorno:

    • Añade las siguientes líneas a tu archivo de configuración de shell (~/.bashrc, ~/.zshrc, etc.):
      export SPARK_HOME=/opt/spark
      export PATH=$SPARK_HOME/bin:$PATH
      
    • Recarga el archivo de configuración:
      source ~/.bashrc
      

Paso 3: Verificar la Instalación

Para asegurarte de que Apache Spark está correctamente instalado, abre una terminal y ejecuta el siguiente comando:

spark-shell

Deberías ver una salida similar a la siguiente, indicando que Spark está listo para usarse:

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.1
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.10)
Type in expressions to have them evaluated.
Type :help for more information.

Conclusión

En esta sección, has aprendido a configurar el entorno necesario para trabajar con Apache Spark. Has instalado Java, descargado e instalado Apache Spark, y configurado las variables de entorno necesarias. Ahora estás listo para comenzar a explorar las capacidades de Spark en el siguiente módulo.

En el próximo módulo, profundizaremos en la arquitectura de Spark y cómo interactuar con él utilizando el Shell de Spark. ¡Vamos a empezar!

© Copyright 2024. Todos los derechos reservados