Comment installer Hadoop sur Ubuntu 20.04

Dans cet article, nous aurons expliqué les étapes nécessaires pour installer et configurer Hadoop sur Ubuntu 20.04 LTS. Avant de continuer avec ce tutoriel, assurez-vous que vous êtes connecté en tant qu'utilisateur avec sudo privilèges. Toutes les commandes de ce didacticiel doivent être exécutées en tant qu'utilisateur non root.

La bibliothèque logicielle Apache Hadoop est le cadre qui permet le traitement dispersé de grands ensembles de données sur des grappes d'ordinateurs à l'aide de modèles de développement simples. Il est conçu pour passer de serveurs uniques à des milliers de machines, chacune offrant un calcul et un stockage locaux. Plutôt que de s'appuyer sur du matériel pour offrir une haute disponibilité, la collection elle-même est conçue pour détecter et gérer les défaillances au niveau du revêtement d'application, offrant ainsi un service hautement disponible au sommet d'un cluster de systèmes informatiques, dont chacun peut être susceptible de échecs.

Installer Hadoop sur Ubuntu 20.04

Étape 1. Tout d'abord, avant de commencer à installer un package sur votre serveur Ubuntu, nous vous recommandons de toujours vous assurer que tous les packages système sont mis à jour.

sudo apt update
sudo apt upgrade

Étape 2. Installez Java.

Vous pouvez installer OpenJDK à partir des dépôts apt par défaut :

sudo apt install default-jdk default-jre

Après avoir installé Java avec succès sur Ubuntu 20.04, confirmez la version avec la ligne de commande java :

java -version

Étape 3. Créez un utilisateur Hadoop.

Exécutez la commande suivante pour créer un nouvel utilisateur avec le nom Hadoop :

sudo adduser hadoop
sudo usermod -aG sudo hadoop
sudo usermod -aG sudo hadoop

Ensuite, exécutez la commande suivante pour générer des paires de clés publiques et privées :

ssh-keygen -t rsa

Ensuite, ajoutez les clés publiques générées à partir de id_rsa.pub à authorized_keys et définir l'autorisation :

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
chmod 640 ~/.ssh/authorized_keys

Vérifiez que vous pouvez ssh en utilisant la clé ajoutée :

ssh localhost

Étape 4. Installez Hadoop sur le système Ubuntu.

Accédez à la page officielle du projet Apache Hadoop et sélectionnez la version d'Hadoop que vous souhaitez implémenter :

su - hadoop 
wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
tar -xvzf hadoop-3.3.2.tar.gz 
mv hadoop-3.3.2 hadoop

Ensuite, vous devrez configurer les variables d'environnement Hadoop et Java sur le système Ubuntu :

nano ~/.bashrc

Ajoutez les lignes suivantes :

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Une fois cela fait, activez les variables d'environnement :

source ~/.bashrc

Ensuite, ouvrez le fichier de variables d'environnement Hadoop :

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/

Étape 5. Configurez Hadoop.

Créez maintenant le namenode et datanode répertoires à l'intérieur du répertoire d'accueil Hadoop :

mkdir -p ~/hadoopdata/hdfs/namenode 
mkdir -p ~/hadoopdata/hdfs/datanode

Ensuite, modifiez le core-site.xml fichier et mettez-le à jour avec le nom d'hôte de votre système :

nano $HADOOP_HOME/etc/hadoop/core-site.xml

Modifiez la ligne suivante :

<configuration>        <property>                <name>fs.defaultFS</name>                <value>hdfs://hadoop.tecadmin.com:9000</value>        </property></configuration>

Ensuite, modifiez le hdfs-site.xml fichier :

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Modifiez la ligne suivante :

<configuration>        <property>                <name>dfs.replication</name>                <value>1</value>        </property>        <property>                <name>dfs.name.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>        </property>        <property>                <name>dfs.data.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>        </property></configuration>

Ensuite, modifiez le mapred-site.xml fichier :

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Apportez les modifications suivantes :

<configuration>        <property>                <name>mapreduce.framework.name</name>                <value>yarn</value>        </property></configuration>

Une fois, modifiez le yarn-site.xml fichier :

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Apportez les modifications suivantes au fichier :

<configuration>        <property>               <name>yarn.nodemanager.aux-services</name>                <value>mapreduce_shuffle</value>        </property></configuration>

Étape 6. Démarrez le cluster Hadoop.

Exécutez maintenant la commande suivante pour formater le Hadoop Namenode :

hdfs namenode -format 
start-dfs.sh

Ensuite, démarrez le service YARN à l'aide des commandes suivantes :

start-yarn.sh

Tapez cette commande simple pour vérifier si tous les démons sont actifs et s'exécutent en tant que processus Java :

jps

Étape 7. Configurez le pare-feu.

Exécutez la commande suivante pour autoriser les connexions Hadoop via le pare-feu :

firewall-cmd --permanent --add-port=9870/tcp 
firewall-cmd --permanent --add-port=8088/tcp 
firewall-cmd --reload

Étape 8. Accéder à Hadoop.

Utilisez votre navigateur préféré et accédez à l'URL ou à l'IP de votre hôte local. Le numéro de port par défaut 9870 vous donne accès à l'interface utilisateur Hadoop NameNode :

http://your-ip-address:9870

C'est tout ce que vous avez à faire pour installer Hadoop sur Ubuntu 20.04 LTS Focal Fossa. J'espère que vous trouverez cette astuce rapide utile. Pour en savoir plus sur Apache Hadoop, veuillez consulter leur base de connaissances officielle. Si vous avez des questions ou des suggestions, n'hésitez pas à laisser un commentaire ci-dessous.