Comment installer Apache Hadoop sur Ubuntu 20.04 LTS

Dans ce tutoriel, nous allons vous montrer comment installer Apache Hadoop sur Ubuntu 20.04 LTS. Pour ceux d'entre vous qui ne le savaient pas, Apache Hadoop est un framework open-source utilisé pour le stockage distribué ainsi que le traitement distribué des mégadonnées sur des grappes d'ordinateurs qui s'exécutent sur du matériel de base. Plutôt que de s'appuyer sur du matériel pour offrir une haute disponibilité, la bibliothèque elle-même est conçue pour détecter et gérer les pannes au niveau de la couche application, offrant ainsi un service hautement disponible. au-dessus d'un cluster d'ordinateurs, chacun pouvant être sujet à des pannes.

Cet article suppose que vous avez au moins des connaissances de base sur Linux, que vous savez utiliser le shell et, plus important encore, que vous hébergez votre site sur votre propre VPS. L'installation est assez simple et suppose que vous s'exécutent dans le compte root, sinon vous devrez peut-être ajouter 'sudo ‘ aux commandes pour obtenir les privilèges root. Je vais vous montrer l'installation pas à pas de Flask sur Ubuntu 20.04 (Focal Fossa). Vous pouvez suivre les mêmes instructions pour Ubuntu 18.04, 16.04 et toute autre distribution basée sur Debian comme Linux Mint.

Prérequis

Un serveur exécutant l'un des systèmes d'exploitation suivants :Ubuntu 20.04, 18.04, 16.04 et toute autre distribution basée sur Debian comme Linux Mint.
Il est recommandé d'utiliser une nouvelle installation du système d'exploitation pour éviter tout problème potentiel.
Accès SSH au serveur (ou ouvrez simplement Terminal si vous êtes sur un ordinateur).
Un non-root sudo user ou l'accès à l'root user . Nous vous recommandons d'agir en tant qu'non-root sudo user , cependant, car vous pouvez endommager votre système si vous ne faites pas attention lorsque vous agissez en tant que root.

Installer Apache Hadoop sur Ubuntu 20.04 LTS Focal Fossa

Étape 1. Tout d'abord, assurez-vous que tous vos packages système sont à jour en exécutant le apt suivant commandes dans le terminal.

sudo apt update
sudo apt upgrade

Étape 2. Installation de Java.

Pour exécuter Hadoop, vous devez avoir installé Java 8 sur votre machine. Pour ce faire, utilisez la commande suivante :

sudo apt install default-jdk default-jre

Une fois installé, vous pouvez vérifier la version installée de Java avec la commande suivante :

java -version

Étape 3. Créez un utilisateur Hadoop.

Tout d'abord, créez un nouvel utilisateur nommé Hadoop avec la commande suivante :

sudo addgroup hadoopgroup
sudo adduser —ingroup hadoopgroup hadoopuser

Ensuite, connectez-vous avec un utilisateur Hadoop et générez une paire de clés SSH avec la commande suivante :

su - hadoopuser
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

Après cela, vérifiez le SSH sans mot de passe avec la commande suivante :

ssh localhost

Une fois que vous êtes connecté sans mot de passe, vous pouvez passer à l'étape suivante.

Étape 4. Installer Apache Hadoop sur Ubuntu 20.04.

Nous téléchargeons maintenant la dernière version stable d'Apache Hadoop, Au moment de la rédaction de cet article, il s'agit de la version 3.3.0 :

su - hadoop
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
tar -xvzf hadoop-3.3.0.tar.gz

Ensuite, déplacez le répertoire extrait vers /usr/local/ :

sudo mv hadoop-3.3.0 /usr/local/hadoop
sudo mkdir /usr/local/hadoop/logs

Nous changeons la propriété du répertoire Hadoop en Hadoop :

sudo chown -R hadoop:hadoop /usr/local/hadoop

Étape 5. Configurez Apache Hadoop.

Configuration des variables d'environnement. Modifier ~/.bashrc le fichier et ajoutez les valeurs suivantes à la fin du fichier :

nano ~/.bashrc

Ajoutez les lignes suivantes :

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Appliquez les variables d'environnement à la session en cours :

source ~/.bashrc

Ensuite, vous devrez définir les variables d'environnement Java dans hadoop-env.sh pour configurer les paramètres de projet liés à YARN, HDFS, MapReduce et Hadoop :

sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Ajoutez les lignes suivantes :

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 
export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"

Vous pouvez maintenant vérifier la version de Hadoop à l'aide de la commande suivante :

hadoop version

Étape 6. Configurez core-site.xml fichier.

Ouvrez le core-site.xml fichier dans un éditeur de texte :

sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml

Ajoutez les lignes suivantes :

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://0.0.0.0:9000</value>
      <description>The default file system URI</description>
   </property>
</configuration>

Étape 7. Configurez hdfs-site.xml Fichier.

Utilisez la commande suivante pour ouvrir le hdfs-site.xml fichier à éditer :

sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Ajoutez les lignes suivantes :

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>

   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hdfs/namenode</value>
   </property>

   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hdfs/datanode</value>
   </property>
</configuration>

Étape 8. Configurez mapred-site.xml Fichier.

Utilisez la commande suivante pour accéder au mapred-site.xml fichier :

sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Ajoutez les lignes suivantes :

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Étape 9. Configurez yarn-site.xml Fichier.

Ouvrir le yarn-site.xml fichier dans un éditeur de texte :

sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Ajoutez les lignes suivantes :

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

Étape 10. Formatez le nœud de nom HDFS.

Nous nous connectons maintenant avec un utilisateur Hadoop et formatons le NameNode HDFS avec la commande suivante :

su - hadoop
hdfs namenode -format

Étape 11. Démarrez le cluster Hadoop.

Démarrez maintenant le NameNode et le DataNode avec la commande suivante :

start-dfs.sh

Ensuite, démarrez les gestionnaires de ressources et de nœuds YARN :

start-yarn.sh

Vous devez observer la sortie pour vous assurer qu'elle essaie de démarrer datanode sur les nœuds esclaves un par un. Pour vérifier si tous les services sont bien démarrés en utilisant 'jps ' commande :

jps

Étape 12. Accéder à Apache Hadoop.

Le numéro de port par défaut 9870 vous donne accès à l'interface utilisateur Hadoop NameNode :

http://your-server-ip:9870

Le port par défaut 9864 est utilisé pour accéder aux DataNodes individuels directement depuis votre navigateur :

http://your-server-ip:9864

Le gestionnaire de ressources YARN est accessible sur le port 8088 :

http://your-server-ip:8088

Félicitations ! Vous avez installé Hadoop avec succès. Merci d'avoir utilisé ce didacticiel pour installer Apache Hadoop sur votre système Ubuntu 20.04 LTS Focal Fossa. Pour obtenir de l'aide supplémentaire ou des informations utiles, nous vous recommandons de consulter le Site Web Apache Hadoop.