Cómo instalar y configurar Apache Spark en Ubuntu/Debian
- 3783
- 824
- Adriana Tórrez
Apache Spark es un marco computacional distribuido de código abierto que se crea para proporcionar resultados computacionales más rápidos. Es un motor computacional en memoria, lo que significa que los datos se procesarán en la memoria.
Chispa - chispear admite varias API para transmisión, procesamiento de gráficos, SQL, MLLIB. También es compatible con Java, Python, Scala y R como los idiomas preferidos. Spark se instala principalmente en clústeres de Hadoop, pero también puede instalar y configurar Spark en modo independiente.
En este artículo, veremos cómo instalar Apache Spark en Debian y Ubuntu-distribuciones basadas.
Instale Java y Scala en Ubuntu
Instalar Apache Spark En Ubuntu, necesitas tener Java y Escala Instalado en su máquina. La mayoría de las distribuciones modernas vienen con Java instalada de forma predeterminada y puede verificarlo utilizando el siguiente comando.
$ java -versiónRevise la versión Java en Ubuntu
Si no hay salida, puede instalar Java usando nuestro artículo sobre cómo instalar Java en Ubuntu o simplemente ejecutar los siguientes comandos para instalar Java en las distribuciones basadas en Ubuntu y Debian.
$ sudo apt actualización $ sudo apt instalación predeterminado -jre $ java -versionInstale Java en Ubuntu
A continuación, puede instalar Escala Desde el repositorio apt ejecutando los siguientes comandos para buscar Scala e instalarlo.
$ sudo apt scala ⇒ Buscar el paquete $ sudo apt install scala ⇒ Instale el paqueteInstale Scala en Ubuntu
Para verificar la instalación de Escala, Ejecutar el siguiente comando.
$ Scala -version SCALA CODE RUNNER Versión 2.11.12-Copyright 2002-2017, LAMP/EPFL
Instale Apache Spark en Ubuntu
Ahora vaya a la página de descarga oficial de Apache Spark y tome la última versión (yo.mi. 3.1.1) Al momento de escribir este artículo. Alternativamente, puede usar el comando wget para descargar el archivo directamente en el terminal.
$ wget https: // apachemirror.Wuchna.com/chispa/spark-3.1.1/Spark-3.1.1-bin-hadoop2.7.tgz
Ahora abra su terminal y cambie a donde se coloca su archivo descargado y ejecute el siguiente comando para extraer el archivo de alquitrán Apache Spark.
$ tar -xvzf spark -3.1.1-bin-hadoop2.7.tgz
Finalmente, mueve el extraído Chispa - chispear directorio /optar directorio.
$ sudo MV Spark-3.1.1-bin-hadoop2.7 /OPT /Spark
Configurar variables ambientales para Spark
Ahora tienes que establecer algunas variables ambientales en tu .perfil archivo antes de iniciar la chispa.
$ echo "exports spark_home =/opt/spark" >> ~/.Perfil $ echo "exportación ruta = $ ruta:/opt/spark/bin:/opt/spark/sbin" >> ~/.Perfil $ echo "Exportar pyspark_python =/usr/bin/python3" >> ~/.perfil
Para asegurarse de que estas nuevas variables de entorno sean accesibles dentro del shell y estén disponibles para Apache Spark, también es obligatorio ejecutar el siguiente comando para tomar en vigencia los cambios recientes.
$ fuente ~/.perfil
Todos los binarios relacionados con la chispa para comenzar y detener los servicios están bajo el sbin carpeta.
$ LS -L /Opt /SparkBinarios
Inicie Apache Spark en Ubuntu
Ejecute el siguiente comando para iniciar el Chispa - chispear Servicio maestro y servicio de esclavos.
$ Start-Master.sh $ start-workers.sh chispa: // localhost: 7077Servicio de inicio de Spark
Una vez que se inicia el servicio, vaya al navegador y escriba la siguiente página de Spark de acceso a la URL. Desde la página, puede ver que se inicia mi servicio de maestro y esclavo.
http: // localhost: 8080/o http: // 127.0.0.1: 8080Página web de Spark
También puedes verificar si espiral Funciona bien lanzando el espiral dominio.
$ Spark-ShellCáscara de chispa
Eso es todo para este artículo. Te atraparemos con otro artículo interesante muy pronto.
- « LFCA Aprenda costos de nubes y presupuesto - Parte 16
- Cómo monitorear el servidor de Linux y procesar métricas desde el navegador »