Pagina de inicio
Debian
Cómo instalar y configurar Apache Spark en Ubuntu/Debian

Debian

Cómo instalar y configurar Apache Spark en Ubuntu/Debian

3843
824
Adriana Tórrez

Apache Spark es un marco computacional distribuido de código abierto que se crea para proporcionar resultados computacionales más rápidos. Es un motor computacional en memoria, lo que significa que los datos se procesarán en la memoria.

Chispa - chispear admite varias API para transmisión, procesamiento de gráficos, SQL, MLLIB. También es compatible con Java, Python, Scala y R como los idiomas preferidos. Spark se instala principalmente en clústeres de Hadoop, pero también puede instalar y configurar Spark en modo independiente.

En este artículo, veremos cómo instalar Apache Spark en Debian y Ubuntu-distribuciones basadas.

Instale Java y Scala en Ubuntu

Instalar Apache Spark En Ubuntu, necesitas tener Java y Escala Instalado en su máquina. La mayoría de las distribuciones modernas vienen con Java instalada de forma predeterminada y puede verificarlo utilizando el siguiente comando.

$ java -versión

Revise la versión Java en Ubuntu

Si no hay salida, puede instalar Java usando nuestro artículo sobre cómo instalar Java en Ubuntu o simplemente ejecutar los siguientes comandos para instalar Java en las distribuciones basadas en Ubuntu y Debian.

$ sudo apt actualización $ sudo apt instalación predeterminado -jre $ java -version

Instale Java en Ubuntu

A continuación, puede instalar Escala Desde el repositorio apt ejecutando los siguientes comandos para buscar Scala e instalarlo.

$ sudo apt scala ⇒ Buscar el paquete $ sudo apt install scala ⇒ Instale el paquete

Instale Scala en Ubuntu

Para verificar la instalación de Escala, Ejecutar el siguiente comando.

$ Scala -version SCALA CODE RUNNER Versión 2.11.12-Copyright 2002-2017, LAMP/EPFL

Instale Apache Spark en Ubuntu

Ahora vaya a la página de descarga oficial de Apache Spark y tome la última versión (yo.mi. 3.1.1) Al momento de escribir este artículo. Alternativamente, puede usar el comando wget para descargar el archivo directamente en el terminal.

$ wget https: // apachemirror.Wuchna.com/chispa/spark-3.1.1/Spark-3.1.1-bin-hadoop2.7.tgz

Ahora abra su terminal y cambie a donde se coloca su archivo descargado y ejecute el siguiente comando para extraer el archivo de alquitrán Apache Spark.

$ tar -xvzf spark -3.1.1-bin-hadoop2.7.tgz

Finalmente, mueve el extraído Chispa - chispear directorio /optar directorio.

$ sudo MV Spark-3.1.1-bin-hadoop2.7 /OPT /Spark

Configurar variables ambientales para Spark

Ahora tienes que establecer algunas variables ambientales en tu .perfil archivo antes de iniciar la chispa.

$ echo "exports spark_home =/opt/spark" >> ~/.Perfil $ echo "exportación ruta = $ ruta:/opt/spark/bin:/opt/spark/sbin" >> ~/.Perfil $ echo "Exportar pyspark_python =/usr/bin/python3" >> ~/.perfil

Para asegurarse de que estas nuevas variables de entorno sean accesibles dentro del shell y estén disponibles para Apache Spark, también es obligatorio ejecutar el siguiente comando para tomar en vigencia los cambios recientes.

$ fuente ~/.perfil

Todos los binarios relacionados con la chispa para comenzar y detener los servicios están bajo el sbin carpeta.

$ LS -L /Opt /Spark

Binarios

Inicie Apache Spark en Ubuntu

Ejecute el siguiente comando para iniciar el Chispa - chispear Servicio maestro y servicio de esclavos.

$ Start-Master.sh $ start-workers.sh chispa: // localhost: 7077

Servicio de inicio de Spark

Una vez que se inicia el servicio, vaya al navegador y escriba la siguiente página de Spark de acceso a la URL. Desde la página, puede ver que se inicia mi servicio de maestro y esclavo.

http: // localhost: 8080/o http: // 127.0.0.1: 8080

Página web de Spark

También puedes verificar si espiral Funciona bien lanzando el espiral dominio.

$ Spark-Shell

Cáscara de chispa

Eso es todo para este artículo. Te atraparemos con otro artículo interesante muy pronto.

Cómo instalar y configurar Apache Spark en Ubuntu/Debian

Instale Java y Scala en Ubuntu

Instale Apache Spark en Ubuntu

Configurar variables ambientales para Spark

Inicie Apache Spark en Ubuntu

Mejores artículos

12 mejores distribuciones de servidor de Linux de 2023

Este artículo muestra las 12 principales distribuciones de servidor de Linux basadas en capacidades ...

El mejor reproductor de radio de internet de código abierto para Linux

Si eres un jefe de radio que usa Linux, las opciones son los mejores candidatos que satisfarán fácil...