Dans cet article, nous aurons expliqué les étapes nécessaires pour installer et configurer Hadoop sur Ubuntu 20.04 LTS. Avant de continuer avec ce tutoriel, assurez-vous que vous êtes connecté en tant qu'utilisateur avec sudo
privilèges. Toutes les commandes de ce didacticiel doivent être exécutées en tant qu'utilisateur non root.
La bibliothèque logicielle Apache Hadoop est le cadre qui permet le traitement dispersé de grands ensembles de données sur des grappes d'ordinateurs à l'aide de modèles de développement simples. Il est conçu pour passer de serveurs uniques à des milliers de machines, chacune offrant un calcul et un stockage locaux. Plutôt que de s'appuyer sur du matériel pour offrir une haute disponibilité, la collection elle-même est conçue pour détecter et gérer les défaillances au niveau du revêtement d'application, offrant ainsi un service hautement disponible au sommet d'un cluster de systèmes informatiques, dont chacun peut être susceptible de échecs.
Installer Hadoop sur Ubuntu 20.04
Étape 1. Tout d'abord, avant de commencer à installer un package sur votre serveur Ubuntu, nous vous recommandons de toujours vous assurer que tous les packages système sont mis à jour.
sudo apt update sudo apt upgrade
Étape 2. Installez Java.
Vous pouvez installer OpenJDK à partir des dépôts apt par défaut :
sudo apt install default-jdk default-jre
Après avoir installé Java avec succès sur Ubuntu 20.04, confirmez la version avec la ligne de commande java :
java -version
Étape 3. Créez un utilisateur Hadoop.
Exécutez la commande suivante pour créer un nouvel utilisateur avec le nom Hadoop :
sudo adduser hadoop sudo usermod -aG sudo hadoop sudo usermod -aG sudo hadoop
Ensuite, exécutez la commande suivante pour générer des paires de clés publiques et privées :
ssh-keygen -t rsa
Ensuite, ajoutez les clés publiques générées à partir de id_rsa.pub
à authorized_keys
et définir l'autorisation :
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 640 ~/.ssh/authorized_keys
Vérifiez que vous pouvez ssh en utilisant la clé ajoutée :
ssh localhost
Étape 4. Installez Hadoop sur le système Ubuntu.
Accédez à la page officielle du projet Apache Hadoop et sélectionnez la version d'Hadoop que vous souhaitez implémenter :
su - hadoop wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz tar -xvzf hadoop-3.3.2.tar.gz mv hadoop-3.3.2 hadoop
Ensuite, vous devrez configurer les variables d'environnement Hadoop et Java sur le système Ubuntu :
nano ~/.bashrc
Ajoutez les lignes suivantes :
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/ export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Une fois cela fait, activez les variables d'environnement :
source ~/.bashrc
Ensuite, ouvrez le fichier de variables d'environnement Hadoop :
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
Étape 5. Configurez Hadoop.
Créez maintenant le namenode
et datanode
répertoires à l'intérieur du répertoire d'accueil Hadoop :
mkdir -p ~/hadoopdata/hdfs/namenode mkdir -p ~/hadoopdata/hdfs/datanode
Ensuite, modifiez le core-site.xml
fichier et mettez-le à jour avec le nom d'hôte de votre système :
nano $HADOOP_HOME/etc/hadoop/core-site.xml
Modifiez la ligne suivante :
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop.tecadmin.com:9000</value> </property></configuration>
Ensuite, modifiez le hdfs-site.xml
fichier :
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Modifiez la ligne suivante :
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property></configuration>
Ensuite, modifiez le mapred-site.xml
fichier :
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Apportez les modifications suivantes :
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>
Une fois, modifiez le yarn-site.xml
fichier :
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Apportez les modifications suivantes au fichier :
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property></configuration>
Étape 6. Démarrez le cluster Hadoop.
Exécutez maintenant la commande suivante pour formater le Hadoop Namenode :
hdfs namenode -format start-dfs.sh
Ensuite, démarrez le service YARN à l'aide des commandes suivantes :
start-yarn.sh
Tapez cette commande simple pour vérifier si tous les démons sont actifs et s'exécutent en tant que processus Java :
jps
Étape 7. Configurez le pare-feu.
Exécutez la commande suivante pour autoriser les connexions Hadoop via le pare-feu :
firewall-cmd --permanent --add-port=9870/tcp firewall-cmd --permanent --add-port=8088/tcp firewall-cmd --reload
Étape 8. Accéder à Hadoop.
Utilisez votre navigateur préféré et accédez à l'URL ou à l'IP de votre hôte local. Le numéro de port par défaut 9870 vous donne accès à l'interface utilisateur Hadoop NameNode :
http://your-ip-address:9870
C'est tout ce que vous avez à faire pour installer Hadoop sur Ubuntu 20.04 LTS Focal Fossa. J'espère que vous trouverez cette astuce rapide utile. Pour en savoir plus sur Apache Hadoop, veuillez consulter leur base de connaissances officielle. Si vous avez des questions ou des suggestions, n'hésitez pas à laisser un commentaire ci-dessous.