Ubuntu 20.04 Hadoop

Ubuntu 20.04 Hadoop

Apache Hadoop se compone de múltiples paquetes de software de código abierto que funcionan juntos para el almacenamiento distribuido y el procesamiento distribuido de Big Data. Hay cuatro componentes principales para Hadoop:

  • Hadoop común - Las diversas bibliotecas de software de las que depende de Hadoop depende de
  • Sistema de archivos distribuido Hadoop (HDFS) - un sistema de archivos que permite una distribución y almacenamiento eficientes de big data en un clúster de computadoras
  • Hadoop mapreduce - utilizado para procesar los datos
  • Hilo de hadoop - Una API que administra la asignación de recursos informáticos para todo el clúster

En este tutorial, revisaremos los pasos para instalar Hadoop versión 3 en Ubuntu 20.04. Esto implicará la instalación de HDFS (NameNode y Datanode), el hilo y MapReduce en un solo clúster de nodo configurado en el modo Pseudo Distribuido, que se distribuye en una sola máquina. Cada componente de Hadoop (HDFS, Yarn, MapReduce) se ejecutará en nuestro nodo como un proceso de Java separado.

En este tutorial aprenderás:

  • Cómo agregar usuarios para el entorno Hadoop
  • Cómo instalar Java Requisito previo
  • Cómo configurar SSH sin contraseña
  • Cómo instalar Hadoop y configurar los archivos XML relacionados necesarios
  • Cómo comenzar el clúster de Hadoop
  • Cómo acceder a la interfaz de usuario web de NameNode y ResourceManager
Apache Hadoop en Ubuntu 20.04 fosa focal Requisitos de software y convenciones de línea de comandos de Linux
Categoría Requisitos, convenciones o versión de software utilizada
Sistema Instalado Ubuntu 20.04 o actualizado Ubuntu 20.04 fosa focal
Software Apache Hadoop, Java
Otro Acceso privilegiado a su sistema Linux como root o a través del sudo dominio.
Convenciones # - requiere que los comandos de Linux dados se ejecuten con privilegios raíz directamente como un usuario raíz o mediante el uso de sudo dominio
ps - Requiere que los comandos de Linux dados se ejecuten como un usuario regular no privilegiado

Crear usuario para el entorno Hadoop



Hadoop debería tener su propia cuenta de usuario dedicada en su sistema. Para crear uno, abra un terminal y escriba el siguiente comando. También se le pedirá que cree una contraseña para la cuenta.

$ sudo adduser hadoop 
Crear un nuevo usuario de Hadoop

Instale el requisito previo de Java

Hadoop se basa en Java, por lo que deberá instalarlo en su sistema antes de poder usar Hadoop. En el momento de este escrito, la actual versión 3 de Hadoop.1.3 requiere Java 8, así que eso es lo que instalaremos en nuestro sistema.

Use los siguientes dos comandos para obtener las últimas listas de paquetes en apto e instalar Java 8:

$ sudo apt actualización $ sudo apt instalación openjdk-8-jdk openjdk-8-jre 

Configurar ssh sin contraseña



Hadoop depende de SSH para acceder a sus nodos. Se conectará a máquinas remotas a través de SSH y su máquina local si tiene Hadoop ejecutándose en ella. Entonces, a pesar de que solo estamos configurando Hadoop en nuestra máquina local en este tutorial, aún necesitamos que SSH esté instalado. También tenemos que configurar SSH sin contraseña
para que Hadoop pueda establecer en silencio las conexiones en el fondo.

  1. Necesitaremos tanto el servidor OpenSSH como el paquete de cliente OpenSSH. Instalarlos con este comando:
    $ sudo apt instalación openssh-server OpenSSH-Client 
  2. Antes de continuar más, es mejor registrarse en el hadoop Cuenta de usuario que creamos anteriormente. Para cambiar los usuarios en su terminal actual, use el siguiente comando:
    $ su hadoop 
  3. Con esos paquetes instalados, es hora de generar pares de claves públicas y privadas con el siguiente comando. Tenga en cuenta que el terminal lo solicitará varias veces, pero todo lo que necesitará hacer es seguir boquiabierto INGRESAR para proceder.
    $ ssh -keygen -t rsa 
    Generación de claves RSA para SSH sin contraseña
  4. A continuación, copie la tecla RSA recién generada en ID_RSA.pub de nuevo autorizado_keys:
    $ Cat ~/.ssh/id_rsa.Pub >> ~/.ssh/autorized_keys 


  5. Puede asegurarse de que la configuración fuera exitosa por sshing a localhost. Si puede hacerlo sin que se le solicite una contraseña, está listo para comenzar. Sshing en el sistema sin que se le solicite contraseña significa que funcionó

Instalar hadoop y configurar archivos XML relacionados

Dirígete al sitio web de Apache para descargar Hadoop. También puede usar este comando si desea descargar la versión 3 de Hadoop.1.3 binario directamente:

$ wget https: // descargas.apache.org/Hadoop/Common/Hadoop-3.1.3/Hadoop-3.1.3.alquitrán.GZ 

Extraiga la descarga al hadoop Directorio de inicio del usuario con este comando:

$ tar -xzvf hadoop -3.1.3.alquitrán.gz -c /home /hadoop 

Configuración de la variable de entorno

La siguiente exportar Los comandos configurarán las variables de entorno Hadoop requeridas en nuestro sistema. Puede copiar y pegar todo esto a su terminal (es posible que deba cambiar la línea 1 si tiene una versión diferente de Hadoop):

Exportar hadoop_home =/home/hadoop/hadoop-3.1.3 Export hadoop_install = $ hadoop_home hadoop_mapred_home = $ hadoop_home exportp_common_home = $ hadoop_home exportp_hdfs_home = $ hadoop_home export yarn_home = $ hadoop_home exportoop_common_lib_native_dir = $ hadoop_home/lib/bath: hadoop sath: hadoop_ = hadoop_ment: hadoop_mat/hadoop_mat: hadoop_mat/hadoop_mat: hadoop_hom/hadoop_mat: hadoop_hom/hadoop_mat: hadoop_mat: hadoop_hom/hadoop_mat: hadoop_mat/bath/hadem: hadoop_mat: hadoop_mat: hadoop_home Exportar hadoop_opts = "-djava.biblioteca.ruta = $ hadoop_home/lib/nativo "
Copiar

Fuente el .bashrc Archivo en la sesión de inicio de sesión actual:

$ fuente ~/.bashrc 

A continuación, haremos algunos cambios en el hadoop-env.mierda archivo, que se puede encontrar en el directorio de instalación de Hadoop en /etc/hadoop. Use Nano o su editor de texto favorito para abrirlo:

$ nano ~/hadoop-3.1.3/etc/hadoop/hadoop-env.mierda 


Cambiar el Java_home variable a donde está instalado Java. En nuestro sistema (y probablemente el tuyo también, si está ejecutando Ubuntu 20.04 y nos hemos seguido hasta ahora), cambiamos esa línea a:

Exportar java_home =/usr/lib/jvm/java-8-openjdk-amd64 
Cambiar la variable de entorno Java_Home

Ese será el único cambio que debemos hacer aquí. Puede guardar sus cambios en el archivo y cerrarlo.

Cambios de configuración en el sitio de núcleo.archivo XML

El siguiente cambio que debemos hacer es dentro del sitio de núcleo.xml archivo. Ábralo con este comando:

$ nano ~/hadoop-3.1.3/etc/hadoop/nore-site.xml 

Ingrese la siguiente configuración, que instruye a los HDF que se ejecuten en el puerto localhost 9000 y configure un directorio para datos temporales.

 FS.defaultfs hdfs: // localhost: 9000 hadoop.TMP.dir/home/hadoop/hadooptmpdata 
Copiar sitio de núcleo.Cambios de archivo de configuración XML

Guarde sus cambios y cierre este archivo. Luego, cree el directorio en el que se almacenarán los datos temporales:

$ mkdir ~/hadooptmpdata 

Cambios de configuración en el sitio HDFS.archivo XML

Cree dos directorios nuevos para Hadoop para almacenar la información de NameNode y DataNode.

$ mkdir -p ~/hdfs/namenode ~/hdfs/datanode 

Luego, edite el siguiente archivo para decirle a Hadoop dónde encontrar esos directorios:

$ nano ~/hadoop-3.1.3/etc/hadoop/hdfs-sitio.xml 

Hacer los siguientes cambios en el sitio HDFS.xml Archivo, antes de guardarlo y cerrarlo:

 DFS.Replicación 1 DFS.nombre.Archivo Dir: /// home/hadoop/hdfs/namenode dfs.datos.archivo dir: /// home/hadoop/hdfs/datanode 
Copiar sitio HDFS.Cambios de archivo de configuración XML

Cambios de configuración en el sitio de Mapred.archivo XML

Abra el archivo de configuración de MapReduce XML con el siguiente comando:

$ nano ~/hadoop-3.1.3/etc/hadoop/mapred-site.xml 

Y realice los siguientes cambios antes de guardar y cerrar el archivo:

 Mapa reducido.estructura.hilo de nombre 
Copiar

sitio de mapred.Cambios de archivo de configuración XML

Cambios de configuración en el sitio de hilo.archivo XML

Abra el archivo de configuración del hilo con el siguiente comando:

$ nano ~/hadoop-3.1.3/etc/hadoop/hilo-sitio.xml 

Agregue las siguientes entradas en este archivo, antes de guardar los cambios y cerrarlo:

 mapreduceyarn.nodo.Aux-Services MapReduce_Shuffle 
Copiar Cambios en el archivo de configuración del sitio de hilo

Comenzando el clúster Hadoop

Antes de usar el clúster por primera vez, necesitamos formatear el NameNode. Puedes hacer eso con el siguiente comando:

$ hdfs namenode -format 
Formateo de HDFS Namenode

Su terminal escupirá mucha información. Mientras no vea ningún mensaje de error, puede suponer que funcionó.

A continuación, comience el HDFS usando el inicio-DFS.mierda guion:

$ start-dfs.mierda 
Ejecute el inicio-DFS.SHIR SCRIPTO

Ahora, comience los servicios de hilo a través del start-yarn.mierda guion:

$ start-yarn.mierda 
Ejecutar el inicio yarn.SHIR SCRIPTO

Para verificar todos los servicios/demonios de Hadoop se inicia con éxito, puede usar el JPS dominio. Esto mostrará todos los procesos que actualmente utilizan Java que se están ejecutando en su sistema.

$ JPS 


Ejecutar JPS para ver todos los procesos dependientes de Java y verificar que los componentes de Hadoop se están ejecutando

Ahora podemos verificar la versión actual de Hadoop con cualquiera de los siguientes comandos:

Versión de $ Hadoop 

o

Versión de $ HDFS 
Verificación de la instalación de Hadoop y la versión actual

Interfaz de línea de comandos HDFS

La línea de comandos HDFS se utiliza para acceder a HDFS y para crear directorios o emitir otros comandos para manipular archivos y directorios. Use la siguiente sintaxis de comando para crear algunos directorios y enumerarlos:

$ hdfs dfs -mkdir /test $ hdfs dfs -mkdir /hadooponubuntu $ hdfs dfs -ls / 
Interactuar con la línea de comandos HDFS

Acceda al NameNode y al hilo desde el navegador



Puede acceder a la interfaz de usuario web para el administrador de recursos de Namenode y Yarn a través de cualquier navegador de su elección, como Mozilla Firefox o Google Chrome.

Para la interfaz de usuario web de NameNode, navegue a http: // hadoop-hostname-or-ip: 50070

Interfaz web de DataNode para Hadoop

Para acceder a la interfaz web del Administrador de recursos de Yarn, que mostrará todos los trabajos actualmente en ejecución en el clúster de Hadoop, navegue a http: // hadoop-hostname-or-ip: 8088

Interfaz web del Administrador de recursos de hilo para Hadoop

Conclusión

En este artículo, vimos cómo instalar Hadoop en un solo clúster de nodo en Ubuntu 20.04 fosa focal. Hadoop nos proporciona una solución manejable para tratar con Big Data, lo que nos permite utilizar grupos para el almacenamiento y el procesamiento de nuestros datos. Hace que nuestra vida sea más fácil cuando trabaja con grandes conjuntos de datos con su configuración flexible e interfaz web conveniente.

Tutoriales de Linux relacionados:

  • Cosas para instalar en Ubuntu 20.04
  • Cómo crear un clúster de Kubernetes
  • Ubuntu 20.04 WordPress con instalación de Apache
  • Cómo instalar Kubernetes en Ubuntu 20.04 fossa focal Linux
  • Cómo trabajar con la API REST de WooCommerce con Python
  • Bucles anidados en guiones Bash
  • Cosas que hacer después de instalar Ubuntu 20.04 fossa focal Linux
  • Mastering Bash Script Loops
  • Cómo instalar Kubernetes en Ubuntu 22.04 Jellyfish de Jammy ..
  • Una introducción a la automatización, herramientas y técnicas de Linux