En esta sección, aprenderás a configurar el entorno necesario para trabajar con Apache Spark. Este proceso incluye la instalación de Java, la descarga e instalación de Apache Spark, y la configuración de las variables de entorno necesarias. Al final de esta sección, estarás listo para ejecutar tu primer programa en Spark.
Requisitos Previos
Antes de comenzar, asegúrate de tener lo siguiente:
- Un sistema operativo compatible (Windows, macOS, Linux).
- Conexión a Internet para descargar los archivos necesarios.
- Conocimientos básicos de línea de comandos.
Paso 1: Instalación de Java
Apache Spark requiere Java para funcionar. Asegúrate de tener Java Development Kit (JDK) instalado en tu sistema.
Instalación en Windows
-
Descargar JDK:
- Ve al sitio web de Oracle: Descargar JDK.
- Descarga la versión más reciente del JDK.
-
Instalar JDK:
- Ejecuta el instalador y sigue las instrucciones en pantalla.
- Durante la instalación, toma nota del directorio de instalación (por ejemplo,
C:\Program Files\Java\jdk-15.0.1
).
-
Configurar Variables de Entorno:
- Abre el Panel de Control y navega a
Sistema y Seguridad > Sistema > Configuración avanzada del sistema
. - Haz clic en
Variables de entorno
. - En
Variables del sistema
, haz clic enNuevo
y añade una variable llamadaJAVA_HOME
con el valor del directorio de instalación del JDK. - Edita la variable
Path
y añade%JAVA_HOME%\bin
.
- Abre el Panel de Control y navega a
Instalación en macOS
-
Instalar Homebrew (si no lo tienes):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
-
Instalar JDK:
brew install openjdk
-
Configurar Variables de Entorno:
- Añade las siguientes líneas a tu archivo
~/.bash_profile
o~/.zshrc
:export JAVA_HOME=$(/usr/libexec/java_home) export PATH=$JAVA_HOME/bin:$PATH
- Recarga el archivo de configuración:
source ~/.bash_profile
- Añade las siguientes líneas a tu archivo
Instalación en Linux
-
Instalar JDK:
sudo apt update sudo apt install openjdk-11-jdk
-
Configurar Variables de Entorno:
- Añade las siguientes líneas a tu archivo
~/.bashrc
:export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export PATH=$JAVA_HOME/bin:$PATH
- Recarga el archivo de configuración:
source ~/.bashrc
- Añade las siguientes líneas a tu archivo
Paso 2: Descargar e Instalar Apache Spark
Descargar Apache Spark
- Ve al sitio web oficial de Apache Spark: Descargar Spark.
- Selecciona la versión de Spark que deseas descargar. Para este curso, recomendamos la versión más reciente.
- Selecciona el paquete precompilado para Hadoop. Si no estás seguro, elige "Pre-built for Apache Hadoop 2.7 and later".
- Haz clic en el enlace de descarga y guarda el archivo en tu sistema.
Instalar Apache Spark
-
Extraer el Archivo:
- Navega al directorio donde descargaste el archivo y extrae su contenido.
- En Windows, puedes usar una herramienta como WinRAR o 7-Zip.
- En macOS y Linux, usa el siguiente comando:
tar -xvf spark-<version>-bin-hadoop2.7.tgz
-
Mover el Directorio de Spark:
- Mueve el directorio extraído a una ubicación de tu elección. Por ejemplo, en Linux:
sudo mv spark-<version>-bin-hadoop2.7 /opt/spark
- Mueve el directorio extraído a una ubicación de tu elección. Por ejemplo, en Linux:
-
Configurar Variables de Entorno:
- Añade las siguientes líneas a tu archivo de configuración de shell (
~/.bashrc
,~/.zshrc
, etc.):export SPARK_HOME=/opt/spark export PATH=$SPARK_HOME/bin:$PATH
- Recarga el archivo de configuración:
source ~/.bashrc
- Añade las siguientes líneas a tu archivo de configuración de shell (
Paso 3: Verificar la Instalación
Para asegurarte de que Apache Spark está correctamente instalado, abre una terminal y ejecuta el siguiente comando:
Deberías ver una salida similar a la siguiente, indicando que Spark está listo para usarse:
Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 3.1.1 /_/ Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.10) Type in expressions to have them evaluated. Type :help for more information.
Conclusión
En esta sección, has aprendido a configurar el entorno necesario para trabajar con Apache Spark. Has instalado Java, descargado e instalado Apache Spark, y configurado las variables de entorno necesarias. Ahora estás listo para comenzar a explorar las capacidades de Spark en el siguiente módulo.
En el próximo módulo, profundizaremos en la arquitectura de Spark y cómo interactuar con él utilizando el Shell de Spark. ¡Vamos a empezar!
Curso de Apache Spark
Módulo 1: Introducción a Apache Spark
Módulo 2: Conceptos Básicos de Spark
- RDDs (Conjuntos de Datos Distribuidos Resilientes)
- Transformaciones y Acciones
- DataFrames de Spark
- Spark SQL
Módulo 3: Procesamiento de Datos con Spark
Módulo 4: Programación Avanzada en Spark
Módulo 5: Ajuste y Optimización del Rendimiento
- Entendiendo los Trabajos de Spark
- Caché y Persistencia
- Gestión de Memoria
- Optimizando Aplicaciones Spark
Módulo 6: Spark en la Nube
- Ejecutando Spark en AWS
- Ejecutando Spark en Azure
- Ejecutando Spark en Google Cloud
- Spark con Kubernetes
Módulo 7: Aplicaciones del Mundo Real y Estudios de Caso
- Procesamiento de Datos en Tiempo Real
- Analítica de Big Data
- Pipelines de Aprendizaje Automático
- Estudios de Caso