Dans ce tutoriel, nous allons vous montrer comment installer Apache Hadoop sur Ubuntu 20.04 LTS. Pour ceux d'entre vous qui ne le savaient pas, Apache Hadoop est un framework open-source utilisé pour le stockage distribué ainsi que le traitement distribué des mégadonnées sur des grappes d'ordinateurs qui s'exécutent sur du matériel de base. Plutôt que de s'appuyer sur du matériel pour offrir une haute disponibilité, la bibliothèque elle-même est conçue pour détecter et gérer les pannes au niveau de la couche application, offrant ainsi un service hautement disponible. au-dessus d'un cluster d'ordinateurs, chacun pouvant être sujet à des pannes.
Cet article suppose que vous avez au moins des connaissances de base sur Linux, que vous savez utiliser le shell et, plus important encore, que vous hébergez votre site sur votre propre VPS. L'installation est assez simple et suppose que vous s'exécutent dans le compte root, sinon vous devrez peut-être ajouter 'sudo
‘ aux commandes pour obtenir les privilèges root. Je vais vous montrer l'installation pas à pas de Flask sur Ubuntu 20.04 (Focal Fossa). Vous pouvez suivre les mêmes instructions pour Ubuntu 18.04, 16.04 et toute autre distribution basée sur Debian comme Linux Mint.
Prérequis
- Un serveur exécutant l'un des systèmes d'exploitation suivants :Ubuntu 20.04, 18.04, 16.04 et toute autre distribution basée sur Debian comme Linux Mint.
- Il est recommandé d'utiliser une nouvelle installation du système d'exploitation pour éviter tout problème potentiel.
- Accès SSH au serveur (ou ouvrez simplement Terminal si vous êtes sur un ordinateur).
- Un
non-root sudo user
ou l'accès à l'root user
. Nous vous recommandons d'agir en tant qu'non-root sudo user
, cependant, car vous pouvez endommager votre système si vous ne faites pas attention lorsque vous agissez en tant que root.
Installer Apache Hadoop sur Ubuntu 20.04 LTS Focal Fossa
Étape 1. Tout d'abord, assurez-vous que tous vos packages système sont à jour en exécutant le apt
suivant commandes dans le terminal.
sudo apt update sudo apt upgrade
Étape 2. Installation de Java.
Pour exécuter Hadoop, vous devez avoir installé Java 8 sur votre machine. Pour ce faire, utilisez la commande suivante :
sudo apt install default-jdk default-jre
Une fois installé, vous pouvez vérifier la version installée de Java avec la commande suivante :
java -version
Étape 3. Créez un utilisateur Hadoop.
Tout d'abord, créez un nouvel utilisateur nommé Hadoop avec la commande suivante :
sudo addgroup hadoopgroup sudo adduser —ingroup hadoopgroup hadoopuser
Ensuite, connectez-vous avec un utilisateur Hadoop et générez une paire de clés SSH avec la commande suivante :
su - hadoopuser ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys
Après cela, vérifiez le SSH sans mot de passe avec la commande suivante :
ssh localhost
Une fois que vous êtes connecté sans mot de passe, vous pouvez passer à l'étape suivante.
Étape 4. Installer Apache Hadoop sur Ubuntu 20.04.
Nous téléchargeons maintenant la dernière version stable d'Apache Hadoop, Au moment de la rédaction de cet article, il s'agit de la version 3.3.0 :
su - hadoop wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz tar -xvzf hadoop-3.3.0.tar.gz
Ensuite, déplacez le répertoire extrait vers /usr/local/
:
sudo mv hadoop-3.3.0 /usr/local/hadoop sudo mkdir /usr/local/hadoop/logs
Nous changeons la propriété du répertoire Hadoop en Hadoop :
sudo chown -R hadoop:hadoop /usr/local/hadoop
Étape 5. Configurez Apache Hadoop.
Configuration des variables d'environnement. Modifier ~/.bashrc
le fichier et ajoutez les valeurs suivantes à la fin du fichier :
nano ~/.bashrc
Ajoutez les lignes suivantes :
export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Appliquez les variables d'environnement à la session en cours :
source ~/.bashrc
Ensuite, vous devrez définir les variables d'environnement Java dans hadoop-env.sh
pour configurer les paramètres de projet liés à YARN, HDFS, MapReduce et Hadoop :
sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Ajoutez les lignes suivantes :
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"
Vous pouvez maintenant vérifier la version de Hadoop à l'aide de la commande suivante :
hadoop version
Étape 6. Configurez core-site.xml
fichier.
Ouvrez le core-site.xml
fichier dans un éditeur de texte :
sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml
Ajoutez les lignes suivantes :
<configuration> <property> <name>fs.default.name</name> <value>hdfs://0.0.0.0:9000</value> <description>The default file system URI</description> </property> </configuration>
Étape 7. Configurez hdfs-site.xml
Fichier.
Utilisez la commande suivante pour ouvrir le hdfs-site.xml
fichier à éditer :
sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Ajoutez les lignes suivantes :
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hdfs/datanode</value> </property> </configuration>
Étape 8. Configurez mapred-site.xml
Fichier.
Utilisez la commande suivante pour accéder au mapred-site.xml
fichier :
sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Ajoutez les lignes suivantes :
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Étape 9. Configurez yarn-site.xml
Fichier.
Ouvrir le yarn-site.xml
fichier dans un éditeur de texte :
sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Ajoutez les lignes suivantes :
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Étape 10. Formatez le nœud de nom HDFS.
Nous nous connectons maintenant avec un utilisateur Hadoop et formatons le NameNode HDFS avec la commande suivante :
su - hadoop hdfs namenode -format
Étape 11. Démarrez le cluster Hadoop.
Démarrez maintenant le NameNode et le DataNode avec la commande suivante :
start-dfs.sh
Ensuite, démarrez les gestionnaires de ressources et de nœuds YARN :
start-yarn.sh
Vous devez observer la sortie pour vous assurer qu'elle essaie de démarrer datanode sur les nœuds esclaves un par un. Pour vérifier si tous les services sont bien démarrés en utilisant 'jps
' commande :
jps
Étape 12. Accéder à Apache Hadoop.
Le numéro de port par défaut 9870 vous donne accès à l'interface utilisateur Hadoop NameNode :
http://your-server-ip:9870
Le port par défaut 9864 est utilisé pour accéder aux DataNodes individuels directement depuis votre navigateur :
http://your-server-ip:9864
Le gestionnaire de ressources YARN est accessible sur le port 8088 :
http://your-server-ip:8088
Félicitations ! Vous avez installé Hadoop avec succès. Merci d'avoir utilisé ce didacticiel pour installer Apache Hadoop sur votre système Ubuntu 20.04 LTS Focal Fossa. Pour obtenir de l'aide supplémentaire ou des informations utiles, nous vous recommandons de consulter le Site Web Apache Hadoop.