Cómo instalar y configurar Apache Spark en Ubuntu/Debian

Cómo instalar y configurar Apache Spark en Ubuntu/Debian

Apache Spark es un marco computacional distribuido de código abierto que se crea para proporcionar resultados computacionales más rápidos. Es un motor computacional en memoria, lo que significa que los datos se procesarán en la memoria.

Chispa - chispear admite varias API para transmisión, procesamiento de gráficos, SQL, MLLIB. También es compatible con Java, Python, Scala y R como los idiomas preferidos. Spark se instala principalmente en clústeres de Hadoop, pero también puede instalar y configurar Spark en modo independiente.

En este artículo, veremos cómo instalar Apache Spark en Debian y Ubuntu-distribuciones basadas.

Instale Java y Scala en Ubuntu

Instalar Apache Spark En Ubuntu, necesitas tener Java y Escala Instalado en su máquina. La mayoría de las distribuciones modernas vienen con Java instalada de forma predeterminada y puede verificarlo utilizando el siguiente comando.

$ java -versión 
Revise la versión Java en Ubuntu

Si no hay salida, puede instalar Java usando nuestro artículo sobre cómo instalar Java en Ubuntu o simplemente ejecutar los siguientes comandos para instalar Java en las distribuciones basadas en Ubuntu y Debian.

$ sudo apt actualización $ sudo apt instalación predeterminado -jre $ java -version 
Instale Java en Ubuntu

A continuación, puede instalar Escala Desde el repositorio apt ejecutando los siguientes comandos para buscar Scala e instalarlo.

$ sudo apt scala ⇒ Buscar el paquete $ sudo apt install scala ⇒ Instale el paquete 
Instale Scala en Ubuntu

Para verificar la instalación de Escala, Ejecutar el siguiente comando.

$ Scala -version SCALA CODE RUNNER Versión 2.11.12-Copyright 2002-2017, LAMP/EPFL 

Instale Apache Spark en Ubuntu

Ahora vaya a la página de descarga oficial de Apache Spark y tome la última versión (yo.mi. 3.1.1) Al momento de escribir este artículo. Alternativamente, puede usar el comando wget para descargar el archivo directamente en el terminal.

$ wget https: // apachemirror.Wuchna.com/chispa/spark-3.1.1/Spark-3.1.1-bin-hadoop2.7.tgz 

Ahora abra su terminal y cambie a donde se coloca su archivo descargado y ejecute el siguiente comando para extraer el archivo de alquitrán Apache Spark.

$ tar -xvzf spark -3.1.1-bin-hadoop2.7.tgz 

Finalmente, mueve el extraído Chispa - chispear directorio /optar directorio.

$ sudo MV Spark-3.1.1-bin-hadoop2.7 /OPT /Spark 

Configurar variables ambientales para Spark

Ahora tienes que establecer algunas variables ambientales en tu .perfil archivo antes de iniciar la chispa.

$ echo "exports spark_home =/opt/spark" >> ~/.Perfil $ echo "exportación ruta = $ ruta:/opt/spark/bin:/opt/spark/sbin" >> ~/.Perfil $ echo "Exportar pyspark_python =/usr/bin/python3" >> ~/.perfil 

Para asegurarse de que estas nuevas variables de entorno sean accesibles dentro del shell y estén disponibles para Apache Spark, también es obligatorio ejecutar el siguiente comando para tomar en vigencia los cambios recientes.

$ fuente ~/.perfil 

Todos los binarios relacionados con la chispa para comenzar y detener los servicios están bajo el sbin carpeta.

$ LS -L /Opt /Spark 
Binarios

Inicie Apache Spark en Ubuntu

Ejecute el siguiente comando para iniciar el Chispa - chispear Servicio maestro y servicio de esclavos.

$ Start-Master.sh $ start-workers.sh chispa: // localhost: 7077 
Servicio de inicio de Spark

Una vez que se inicia el servicio, vaya al navegador y escriba la siguiente página de Spark de acceso a la URL. Desde la página, puede ver que se inicia mi servicio de maestro y esclavo.

http: // localhost: 8080/o http: // 127.0.0.1: 8080 
Página web de Spark

También puedes verificar si espiral Funciona bien lanzando el espiral dominio.

$ Spark-Shell 
Cáscara de chispa

Eso es todo para este artículo. Te atraparemos con otro artículo interesante muy pronto.