Dans ce tutoriel, nous allons vous montrer comment installer Apache Hadoop sur Debian 9 Stretch. Pour ceux d'entre vous qui ne le savaient pas, Apache Hadoop est un framework open-source utilisé pour le stockage distribué ainsi que le traitement distribué des mégadonnées sur des grappes d'ordinateurs qui s'exécutent sur du matériel de base. Hadoop stocke les données dans le système de fichiers distribués Hadoop (HDFS) et le traitement de ces données est effectué à l'aide de MapReduce. YARN fournit une API pour demander et allouer des ressources dans le cluster Hadoop.
Cet article suppose que vous avez au moins des connaissances de base sur Linux, que vous savez utiliser le shell et, plus important encore, que vous hébergez votre site sur votre propre VPS. L'installation est assez simple et suppose que vous s'exécutent dans le compte root, sinon vous devrez peut-être ajouter 'sudo
‘ aux commandes pour obtenir les privilèges root. Je vais vous montrer l'installation pas à pas d'Apache Hadoop sur un serveur Debian 9 (Stretch).
Prérequis
- Un serveur exécutant l'un des systèmes d'exploitation suivants :Debian 9 (Stretch).
- Il est recommandé d'utiliser une nouvelle installation du système d'exploitation pour éviter tout problème potentiel.
- Accès SSH au serveur (ou ouvrez simplement Terminal si vous êtes sur un ordinateur).
- Un
non-root sudo user
ou l'accès à l'root user
. Nous vous recommandons d'agir en tant qu'non-root sudo user
, cependant, car vous pouvez endommager votre système si vous ne faites pas attention lorsque vous agissez en tant que root.
Installer Apache Hadoop sur Debian 9 Stretch
Étape 1. Avant d'installer un logiciel, il est important de s'assurer que votre système est à jour en exécutant le suivant apt-get
commandes dans le terminal :
apt-get update apt-get upgrade
Étape 2. Installation de Java (OpenJDK).
Apache Hadoop nécessite Java version 8 et supérieure. Vous pouvez donc choisir d'installer OpenJDK ou Oracle JDK :
- Installez Java JDK 8 sur Debian :
[email protected] ~# java -version java version "1.8.0_192" Java(TM) SE Runtime Environment (build 1.8.0_192-b02) Java HotSpot(TM) 64-Bit Server VM (build 25.74-b02, mixed mode)
Étape 3. Installer Apache Hadoop sur Debian 9.
Pour éviter les problèmes de sécurité, nous vous recommandons de configurer un nouveau groupe d'utilisateurs Hadoop et un nouveau compte utilisateur pour gérer toutes les activités liées à Hadoop, en suivant les commandes :
sudo addgroup hadoopgroup sudo adduser —ingroup hadoopgroup hadoopuser
Après avoir créé l'utilisateur, il est également nécessaire de configurer ssh basé sur une clé sur son propre compte. Pour ce faire, exécutez les commandes suivantes :
su - hadoopuser ssh-keygen -t rsa -P "" cat /home/hadoopuser/.ssh/id_rsa.pub >> /home/hadoopuser/.ssh/authorized_keys chmod 600 authorized_keys ssh-copy-id -i ~/.ssh/id_rsa.pub slave-1 ssh slave-1
Ensuite, téléchargez la dernière version stable d'Apache Hadoop. Au moment de la rédaction de cet article, il s'agit de la version 2.8.1 :
wget http://www-us.apache.org/dist/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz tar xzf hadoop-3.1.1.tar.gz mv hadoop-3.1.1 hadoop
Étape 4. Configurer l'environnement Apache Hadoop.
Configuration des variables d'environnement. Modifier ~/.bashrc
fichier et ajoutez les valeurs suivantes à la fin du fichier :
export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Appliquez les variables d'environnement à la session en cours :
source ~/.bashrc
Modifiez maintenant $HADOOP_HOME/etc/hadoop/hadoop-env.sh
fichier et définissez la variable d'environnement JAVA_HOME :
export JAVA_HOME=/usr/jdk1.8.0_192/
Hadoop possède de nombreux fichiers de configuration, qui doivent être configurés selon les exigences de votre infrastructure Hadoop. Commençons par la configuration avec la configuration de base du cluster à nœud unique Hadoop :
cd $HADOOP_HOME/etc/hadoop
Modifier core-site.xml
:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
Modifier hdfs-site.xml
:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property> </configuration>
Modifier mapred-site.xml
:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Modifier yarn-site.xml
:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Formatez maintenant namenode à l'aide de la commande suivante, n'oubliez pas de vérifier le répertoire de stockage :
hdfs namenode -format
Démarrez tous les services Hadoop à l'aide de la commande suivante :
cd $HADOOP_HOME/sbin/ start-dfs.sh start-yarn.sh
Vous devez observer la sortie pour vous assurer qu'elle essaie de démarrer datanode sur les nœuds esclaves un par un. Pour vérifier si tous les services sont bien démarrés en utilisant 'jps
' commande :
jps
Étape 5. Configurez le pare-feu pour Apache Hadoop.
Autoriser Apache Hadoop à traverser le pare-feu :
ufw allow 50070/tcp ufw allow 8088/tcp ufw reload
Étape 6. Accéder à Apache Hadoop.
Apache Hadoop sera disponible sur le port HTTP 8088 et le port 50070 par défaut. Ouvrez votre navigateur préféré et accédez à http://yourdomain.com:50070
ou http://server-ip:50070
.
Félicitations ! Vous avez installé Apache Hadoop avec succès. Merci d'avoir utilisé ce didacticiel pour l'installation d'Apache Hadoop dans les systèmes Debian 9 Stretch. Pour obtenir de l'aide supplémentaire ou des informations utiles, nous vous recommandons de consulter le site Web officiel d'Apache Hadoop. .