Ubuntu 20.04 Hadoop
- 2599
- 802
- Sr. Eduardo Menchaca
Apache Hadoop se compone de múltiples paquetes de software de código abierto que funcionan juntos para el almacenamiento distribuido y el procesamiento distribuido de Big Data. Hay cuatro componentes principales para Hadoop:
- Hadoop común - Las diversas bibliotecas de software de las que depende de Hadoop depende de
- Sistema de archivos distribuido Hadoop (HDFS) - un sistema de archivos que permite una distribución y almacenamiento eficientes de big data en un clúster de computadoras
- Hadoop mapreduce - utilizado para procesar los datos
- Hilo de hadoop - Una API que administra la asignación de recursos informáticos para todo el clúster
En este tutorial, revisaremos los pasos para instalar Hadoop versión 3 en Ubuntu 20.04. Esto implicará la instalación de HDFS (NameNode y Datanode), el hilo y MapReduce en un solo clúster de nodo configurado en el modo Pseudo Distribuido, que se distribuye en una sola máquina. Cada componente de Hadoop (HDFS, Yarn, MapReduce) se ejecutará en nuestro nodo como un proceso de Java separado.
En este tutorial aprenderás:
- Cómo agregar usuarios para el entorno Hadoop
- Cómo instalar Java Requisito previo
- Cómo configurar SSH sin contraseña
- Cómo instalar Hadoop y configurar los archivos XML relacionados necesarios
- Cómo comenzar el clúster de Hadoop
- Cómo acceder a la interfaz de usuario web de NameNode y ResourceManager
Categoría | Requisitos, convenciones o versión de software utilizada |
---|---|
Sistema | Instalado Ubuntu 20.04 o actualizado Ubuntu 20.04 fosa focal |
Software | Apache Hadoop, Java |
Otro | Acceso privilegiado a su sistema Linux como root o a través del sudo dominio. |
Convenciones | # - requiere que los comandos de Linux dados se ejecuten con privilegios raíz directamente como un usuario raíz o mediante el uso de sudo dominiops - Requiere que los comandos de Linux dados se ejecuten como un usuario regular no privilegiado |
Crear usuario para el entorno Hadoop
Hadoop debería tener su propia cuenta de usuario dedicada en su sistema. Para crear uno, abra un terminal y escriba el siguiente comando. También se le pedirá que cree una contraseña para la cuenta.
$ sudo adduser hadoopCrear un nuevo usuario de Hadoop
Instale el requisito previo de Java
Hadoop se basa en Java, por lo que deberá instalarlo en su sistema antes de poder usar Hadoop. En el momento de este escrito, la actual versión 3 de Hadoop.1.3 requiere Java 8, así que eso es lo que instalaremos en nuestro sistema.
Use los siguientes dos comandos para obtener las últimas listas de paquetes en apto
e instalar Java 8:
$ sudo apt actualización $ sudo apt instalación openjdk-8-jdk openjdk-8-jre
Configurar ssh sin contraseña
Hadoop depende de SSH para acceder a sus nodos. Se conectará a máquinas remotas a través de SSH y su máquina local si tiene Hadoop ejecutándose en ella. Entonces, a pesar de que solo estamos configurando Hadoop en nuestra máquina local en este tutorial, aún necesitamos que SSH esté instalado. También tenemos que configurar SSH sin contraseña
para que Hadoop pueda establecer en silencio las conexiones en el fondo.
- Necesitaremos tanto el servidor OpenSSH como el paquete de cliente OpenSSH. Instalarlos con este comando:
$ sudo apt instalación openssh-server OpenSSH-Client
- Antes de continuar más, es mejor registrarse en el
hadoop
Cuenta de usuario que creamos anteriormente. Para cambiar los usuarios en su terminal actual, use el siguiente comando:$ su hadoop
- Con esos paquetes instalados, es hora de generar pares de claves públicas y privadas con el siguiente comando. Tenga en cuenta que el terminal lo solicitará varias veces, pero todo lo que necesitará hacer es seguir boquiabierto
INGRESAR
para proceder.$ ssh -keygen -t rsa
Generación de claves RSA para SSH sin contraseña - A continuación, copie la tecla RSA recién generada en
ID_RSA.pub
de nuevoautorizado_keys
:$ Cat ~/.ssh/id_rsa.Pub >> ~/.ssh/autorized_keys
- Puede asegurarse de que la configuración fuera exitosa por sshing a localhost. Si puede hacerlo sin que se le solicite una contraseña, está listo para comenzar. Sshing en el sistema sin que se le solicite contraseña significa que funcionó
Instalar hadoop y configurar archivos XML relacionados
Dirígete al sitio web de Apache para descargar Hadoop. También puede usar este comando si desea descargar la versión 3 de Hadoop.1.3 binario directamente:
$ wget https: // descargas.apache.org/Hadoop/Common/Hadoop-3.1.3/Hadoop-3.1.3.alquitrán.GZ
Extraiga la descarga al hadoop
Directorio de inicio del usuario con este comando:
$ tar -xzvf hadoop -3.1.3.alquitrán.gz -c /home /hadoop
Configuración de la variable de entorno
La siguiente exportar
Los comandos configurarán las variables de entorno Hadoop requeridas en nuestro sistema. Puede copiar y pegar todo esto a su terminal (es posible que deba cambiar la línea 1 si tiene una versión diferente de Hadoop):
Exportar hadoop_home =/home/hadoop/hadoop-3.1.3 Export hadoop_install = $ hadoop_home hadoop_mapred_home = $ hadoop_home exportp_common_home = $ hadoop_home exportp_hdfs_home = $ hadoop_home export yarn_home = $ hadoop_home exportoop_common_lib_native_dir = $ hadoop_home/lib/bath: hadoop sath: hadoop_ = hadoop_ment: hadoop_mat/hadoop_mat: hadoop_mat/hadoop_mat: hadoop_hom/hadoop_mat: hadoop_hom/hadoop_mat: hadoop_mat: hadoop_hom/hadoop_mat: hadoop_mat/bath/hadem: hadoop_mat: hadoop_mat: hadoop_home Exportar hadoop_opts = "-djava.biblioteca.ruta = $ hadoop_home/lib/nativo "
Copiar Fuente el .bashrc
Archivo en la sesión de inicio de sesión actual:
$ fuente ~/.bashrc
A continuación, haremos algunos cambios en el hadoop-env.mierda
archivo, que se puede encontrar en el directorio de instalación de Hadoop en /etc/hadoop
. Use Nano o su editor de texto favorito para abrirlo:
$ nano ~/hadoop-3.1.3/etc/hadoop/hadoop-env.mierda
Cambiar el Java_home
variable a donde está instalado Java. En nuestro sistema (y probablemente el tuyo también, si está ejecutando Ubuntu 20.04 y nos hemos seguido hasta ahora), cambiamos esa línea a:
Exportar java_home =/usr/lib/jvm/java-8-openjdk-amd64Cambiar la variable de entorno Java_Home
Ese será el único cambio que debemos hacer aquí. Puede guardar sus cambios en el archivo y cerrarlo.
Cambios de configuración en el sitio de núcleo.archivo XML
El siguiente cambio que debemos hacer es dentro del sitio de núcleo.xml
archivo. Ábralo con este comando:
$ nano ~/hadoop-3.1.3/etc/hadoop/nore-site.xml
Ingrese la siguiente configuración, que instruye a los HDF que se ejecuten en el puerto localhost 9000 y configure un directorio para datos temporales.
FS.defaultfs hdfs: // localhost: 9000 hadoop.TMP.dir/home/hadoop/hadooptmpdata
Copiar sitio de núcleo.Cambios de archivo de configuración XML Guarde sus cambios y cierre este archivo. Luego, cree el directorio en el que se almacenarán los datos temporales:
$ mkdir ~/hadooptmpdata
Cambios de configuración en el sitio HDFS.archivo XML
Cree dos directorios nuevos para Hadoop para almacenar la información de NameNode y DataNode.
$ mkdir -p ~/hdfs/namenode ~/hdfs/datanode
Luego, edite el siguiente archivo para decirle a Hadoop dónde encontrar esos directorios:
$ nano ~/hadoop-3.1.3/etc/hadoop/hdfs-sitio.xml
Hacer los siguientes cambios en el sitio HDFS.xml
Archivo, antes de guardarlo y cerrarlo:
DFS.Replicación 1 DFS.nombre.Archivo Dir: /// home/hadoop/hdfs/namenode dfs.datos.archivo dir: /// home/hadoop/hdfs/datanode
Copiar sitio HDFS.Cambios de archivo de configuración XML Cambios de configuración en el sitio de Mapred.archivo XML
Abra el archivo de configuración de MapReduce XML con el siguiente comando:
$ nano ~/hadoop-3.1.3/etc/hadoop/mapred-site.xml
Y realice los siguientes cambios antes de guardar y cerrar el archivo:
Mapa reducido.estructura.hilo de nombre
Copiar sitio de mapred.Cambios de archivo de configuración XML
Cambios de configuración en el sitio de hilo.archivo XML
Abra el archivo de configuración del hilo con el siguiente comando:
$ nano ~/hadoop-3.1.3/etc/hadoop/hilo-sitio.xml
Agregue las siguientes entradas en este archivo, antes de guardar los cambios y cerrarlo:
mapreduceyarn.nodo.Aux-Services MapReduce_Shuffle
Copiar Cambios en el archivo de configuración del sitio de hilo Comenzando el clúster Hadoop
Antes de usar el clúster por primera vez, necesitamos formatear el NameNode. Puedes hacer eso con el siguiente comando:
$ hdfs namenode -formatFormateo de HDFS Namenode
Su terminal escupirá mucha información. Mientras no vea ningún mensaje de error, puede suponer que funcionó.
A continuación, comience el HDFS usando el inicio-DFS.mierda
guion:
$ start-dfs.mierdaEjecute el inicio-DFS.SHIR SCRIPTO
Ahora, comience los servicios de hilo a través del start-yarn.mierda
guion:
$ start-yarn.mierdaEjecutar el inicio yarn.SHIR SCRIPTO
Para verificar todos los servicios/demonios de Hadoop se inicia con éxito, puede usar el JPS
dominio. Esto mostrará todos los procesos que actualmente utilizan Java que se están ejecutando en su sistema.
$ JPS
Ejecutar JPS para ver todos los procesos dependientes de Java y verificar que los componentes de Hadoop se están ejecutando
Ahora podemos verificar la versión actual de Hadoop con cualquiera de los siguientes comandos:
Versión de $ Hadoop
o
Versión de $ HDFSVerificación de la instalación de Hadoop y la versión actual
Interfaz de línea de comandos HDFS
La línea de comandos HDFS se utiliza para acceder a HDFS y para crear directorios o emitir otros comandos para manipular archivos y directorios. Use la siguiente sintaxis de comando para crear algunos directorios y enumerarlos:
$ hdfs dfs -mkdir /test $ hdfs dfs -mkdir /hadooponubuntu $ hdfs dfs -ls /Interactuar con la línea de comandos HDFS
Acceda al NameNode y al hilo desde el navegador
Puede acceder a la interfaz de usuario web para el administrador de recursos de Namenode y Yarn a través de cualquier navegador de su elección, como Mozilla Firefox o Google Chrome.
Para la interfaz de usuario web de NameNode, navegue a http: // hadoop-hostname-or-ip: 50070
Para acceder a la interfaz web del Administrador de recursos de Yarn, que mostrará todos los trabajos actualmente en ejecución en el clúster de Hadoop, navegue a http: // hadoop-hostname-or-ip: 8088
Conclusión
En este artículo, vimos cómo instalar Hadoop en un solo clúster de nodo en Ubuntu 20.04 fosa focal. Hadoop nos proporciona una solución manejable para tratar con Big Data, lo que nos permite utilizar grupos para el almacenamiento y el procesamiento de nuestros datos. Hace que nuestra vida sea más fácil cuando trabaja con grandes conjuntos de datos con su configuración flexible e interfaz web conveniente.
Tutoriales de Linux relacionados:
- Cosas para instalar en Ubuntu 20.04
- Cómo crear un clúster de Kubernetes
- Ubuntu 20.04 WordPress con instalación de Apache
- Cómo instalar Kubernetes en Ubuntu 20.04 fossa focal Linux
- Cómo trabajar con la API REST de WooCommerce con Python
- Bucles anidados en guiones Bash
- Cosas que hacer después de instalar Ubuntu 20.04 fossa focal Linux
- Mastering Bash Script Loops
- Cómo instalar Kubernetes en Ubuntu 22.04 Jellyfish de Jammy ..
- Una introducción a la automatización, herramientas y técnicas de Linux