Cómo configurar Hadoop 2.6.5 (clúster de un solo nodo) en Ubuntu, Centos y Fedora

Cómo configurar Hadoop 2.6.5 (clúster de un solo nodo) en Ubuntu, Centos y Fedora

Apache Hadoop 2.6.5 mejoras notables sobre el establo 2 anterior.X.Y Lanzamientos. Esta versión tiene muchas mejoras en HDFS y MapReduce. Esta guía de instrucciones lo ayudará a instalar Hadoop 2.6 en CentOS/RHEL 7/6/5, Ubuntu y otro sistema operativo basado en Debian. Este artículo no incluye la configuración general para configurar Hadoop, solo tenemos una configuración básica necesaria para comenzar a trabajar con Hadoop.

Paso 1: Instalación de Java

Java es el requisito principal para configurar Hadoop en cualquier sistema, así que asegúrese de tener Java instalado en su sistema utilizando el siguiente comando.

# Java -version Java versión "1.8.0_101 "Java (TM) SE Runtime Entorno (Build 1.8.0_131-B11) Java Hotspot (TM) VM de 64 bits (Build 25.131-B11, modo mixto) 

Si no tiene Java instalado en su sistema, use uno de los siguientes enlaces para instalarlo primero.

Instale Java 8 en CentOS/RHEL 7/6/5
Instale Java 8 en Ubuntu

Paso 2: Creación de usuario de Hadoop

Recomendamos crear una cuenta normal (ni raíz) para que funcione Hadoop. Así que cree una cuenta del sistema utilizando el siguiente comando.

# adduser hadoop # passwd hadoop 

Después de crear una cuenta, también requirió configurar SSH basada en clave en su propia cuenta. Para hacer esto, use los comandos de ejecución de los siguientes.

# SU -Hadoop $ ssh -keygen -t rsa $ cat ~/.ssh/id_rsa.Pub >> ~/.ssh/autorized_keys $ chmod 0600 ~/.ssh/autorized_keys 

Verifiquemos el inicio de sesión basado en la tecla. El siguiente comando no debe solicitar la contraseña, pero la primera vez solicitará agregar RSA a la lista de hosts conocidos.

$ ssh localhost $ salida 

Paso 3. Descargar Hadoop 2.6.5

Ahora descarga Hadoop 2.6.0 Archivo de archivo de origen usando el siguiente comando. También puede seleccionar el espejo de descarga alternativo para aumentar la velocidad de descarga.

$ cd ~ $ wget http: // www-eu.apache.org/Dist/Hadoop/Common/Hadoop-2.6.5/Hadoop-2.6.5.alquitrán.gz $ tar xzf hadoop-2.6.5.alquitrán.GZ $ MV Hadoop-2.6.5 Hadoop 

Etapa 4. Configurar el modo pseudo-distribuido de Hadoop

4.1. Configurar variables de entorno Hadoop

Primero, necesitamos establecer usos variables de entorno de Hadoop. Editar ~/.bashrc archivo y agregar los siguientes valores al final del archivo.

Exportar hadoop_home =/home/hadoop/hadoop Export hadoop_install = $ hadoop_home exportoop_mapred_home = $ hadoop_home export hadoop_common_home = $ hadoop_home exportoop_hdfs_home = $ hadoop_home exports_home = $ hadoop_home export_home hadoop_common_nib_nib_natative Hadoop_home/sbin: $ hadoop_home/bin 

Ahora aplique los cambios en el entorno de ejecución actual

$ fuente ~/.bashrc 

Ahora editar $ Hadoop_home/etc/hadoop/hadoop-env.mierda archivo y establecer Java_home Variable ambiental. Cambie la ruta Java según la instalación en su sistema.

Exportar java_home =/opt/jdk1.8.0_131/ 

4.2. Editar archivos de configuración

Hadoop tiene muchos de los archivos de configuración, que deben configurar según los requisitos para configurar la infraestructura de Hadoop. Comencemos con la configuración con la configuración básica del clúster de nodo único Hadoop. Primero, navegue a la ubicación a continuación

$ cd $ hadoop_home/etc/hadoop 

Editar el sitio de núcleo.xml

  FS.por defecto.nombre hdfs: // localhost: 9000   

Editar el sitio HDFS.xml

  DFS.Replicación 1 DFS.nombre.Archivo Dir: /// home/hadoop/hadoopdata/hdfs/nameNode DFS.datos.archivo dir: /// home/hadoop/hadoopdata/hdfs/datanode   

Editar el sitio de mapred.xml

  Mapa reducido.estructura.hilo de nombre   

Editar el hilo.xml

  hilo.nodo.Aux-Services MapReduce_Shuffle   

4.3. Formatear namenode

Ahora formatea el NameNode usando el siguiente comando, asegúrese de que el directorio de almacenamiento sea

$ hdfs namenode -format 

Salida de muestra:

15/02/04 09:58:43 Información Namenode.Namenode: startup_msg: /********************************************** *****************.tecadmin.neto/192.168.1.133 startup_msg: args = [-format] startup_msg: versión = 2.6.5 ... 15/02/04 09:58:57 Información común.Almacenamiento: el directorio de almacenamiento/home/hadoop/hadoopdata/hdfs/namenode se ha formateado correctamente. 15/02/04 09:58:57 Información Namenode.NnstorageretentionManager: va a retener 1 imágenes con txid> = 0 15/02/04 09:58:57 Información Util.Exitutil: Salir con el estado 0 15/02/04 09:58:57 Información Namenode.Namenode: shutdown_msg: /******************************************** ***************** SHANTDOWN_MSG: apagar NameNode en SVR1.tecadmin.neto/192.168.1.133 ****************************************************** ***********/ 

Paso 5. Iniciar clúster de Hadoop

Ahora comience su clúster de Hadoop usando los scripts proporcionados por Hadoop. Simplemente navegue a su directorio de Hadoop Sbin y ejecute scripts uno por uno.

$ cd $ hadoop_home/sbin/ 

Ahora corre inicio-DFS.mierda guion.

$ start-dfs.mierda 

Salida de muestra:

15/02/04 10:00:34 Warn Util.Nativecodeloader: No se puede cargar la biblioteca nativa de hadopía para su plataforma ... utilizando clases Builtin-Java donde corresponda NameNodes de inicio en [localhost] Localhost: iniciar NameNode, registrar a/home/hadoop/hadoop/logs/hadoop-namenode-svr1.tecadmin.neto.Out Localhost: iniciar DataNode, iniciar sesión en/home/hadoop/hadoop/logs/hadoop-hadoop-datanode-svr1.tecadmin.neto.Fuera iniciando NameNodes secundarios [0.0.0.0] La autenticidad del host '0.0.0.0 (0.0.0.0) 'no se puede establecer. La huella digital de la tecla RSA es 3C: C4: F6: F1: 72: D9: 84: F9: 71: 73: 4a: 0d: 55: 2c: F9: 43. ¿Estás seguro de que quieres continuar conectando (sí/no)? si 0.0.0.0: Advertencia: agregado permanentemente '0.0.0.0 '(RSA) a la lista de hosts conocidos. 0.0.0.0: Iniciar Secondarynamenode, Registro a/Home/Hadoop/Hadoop/Logs/Hadoop-Hadoop-Secundarynamenode-SVR1.tecadmin.neto.Fuera 15/02/04 10:01:15 Warn Util.Nativecodeloader: No se puede cargar la biblioteca nativa de hadopía para su plataforma ... utilizando clases Builtin-Java donde corresponda 

Ahora corre start-yarn.mierda guion.

$ start-yarn.mierda 

Salida de muestra:

Iniciar el hilo Demons Iniciar ResourceManager, Registro a/Home/Hadoop/Hadoop/Logs/Yarn-Hadoop-Resourcanager-SVR1.tecadmin.neto.Out Localhost: iniciar Nodemanager, registrar a/home/hadoop/hadoop/logs/hadop-hadoop-nodemanager-svr1.tecadmin.neto.afuera 

Paso 6. Acceda a los servicios de Hadoop en el navegador

Hadoop Namenode comenzó en el puerto 50070 predeterminado. Acceda a su servidor en el puerto 50070 en su navegador web favorito.

http: // svr1.tecadmin.Neta: 50070/ 

Ahora acceda al puerto 8088 para obtener la información sobre el clúster y todas las aplicaciones

http: // svr1.tecadmin.NET: 8088/ 

Puerto de acceso 50090 para obtener detalles sobre Namenode secundario.

http: // svr1.tecadmin.Neta: 50090/ 

Puerto de acceso 50075 para obtener detalles sobre Datanode

http: // svr1.tecadmin.NET: 50075/ 

Paso 7. Probar la configuración de nodo único de Hadoop

7.1 - Haga que los directorios HDFS se requieran utilizando los siguientes comandos.

$ bin/hdfs dfs -mkdir/user $ bin/hdfs dfs -mkdir/user/hadoop 

7.2 - Ahora copie todos los archivos del sistema de archivos local/var/log/httpd al sistema de archivos distribuido Hadoop usando el siguiente comando

$ bin/hdfs dfs -put/var/log/httpd registros 

7.3 - Ahora explore el sistema de archivos distribuido Hadoop abriéndose a continuación URL en el navegador.

 http: // svr1.tecadmin.Neta: 50070/Explorer.html#/user/hadoop/logs 

7.4 - Ahora copie el directorio de registros para el sistema de archivos distribuido Hadoop al sistema de archivos local.

$ bin/hdfs dfs -get logs/tmp/logs $ ls -l/tmp/logs/ 

También puede verificar este tutorial para ejecutar WordCount MapReduce Ejemplo de trabajo usando la línea de comandos.