Comment installer Apache Spark sur Ubuntu 18.04 LTS

Dans ce didacticiel, nous allons vous montrer comment installer Apache Spark sur Ubuntu 18.04 LTS. Pour ceux d'entre vous qui ne le savaient pas, Apache Spark est un système informatique de cluster rapide et polyvalent . Il fournit des API de haut niveau en Java, Scala et Python, ainsi qu'un moteur optimisé qui prend en charge les graphiques d'exécution globaux. Il prend également en charge un riche ensemble d'outils de niveau supérieur, notamment Spark SQL pour SQL et le traitement des informations structurées, MLlib pour la machine l'apprentissage, GraphX pour le traitement des graphes et Spark Streaming.

Cet article suppose que vous avez au moins des connaissances de base sur Linux, que vous savez utiliser le shell et, plus important encore, que vous hébergez votre site sur votre propre VPS. L'installation est assez simple et suppose que vous s'exécutent dans le compte root, sinon vous devrez peut-être ajouter 'sudo ‘ aux commandes pour obtenir les privilèges root. Je vais vous montrer étape par étape l'installation d'Apache Spark sur un serveur 18.04 LTS (Bionic Beaver).

Installer Apache Spark sur Ubuntu 18.04 LTS Bionic Beaver

Étape 1. Tout d'abord, assurez-vous que tous vos packages système sont à jour en exécutant ces commandes apt-get suivantes dans le terminal.

sudo apt-get update
sudo apt-get upgrade

Étape 2. Installation de Java.

Apache Spark nécessite l'installation de Java sur votre serveur. Par défaut, Java n'est pas disponible dans le référentiel d'Ubuntu. Ajoutez Oracle Java PPA à Apt avec la commande suivante :

add-apt-repository ppa:webupd8team/java
apt-get update -y
apt-get install oracle-java8-installer

Vérifiez la version Java en exécutant la commande suivante :

java -version

Étape 3. Installation d'Apache Spark sur Ubuntu 18.04 LTS.

Installez Apache Spark à l'aide de la commande suivante :

wget https://www.apache.org/dyn/closer.lua/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz
tar xvzf spark-2.3.1-bin-hadoop2.7.tgz
ln -s spark-2.3.1-bin-hadoop2.7 spark

Ajout de Spark au chemin :

nano ~/.bashrc

Ensuite, ajoutez ces lignes à la fin du fichier .bashrc afin que le chemin puisse contenir le chemin du fichier exécutable Spark :

SPARK_HOME=/idr00t/spark
export PATH=$SPARK_HOME/bin:$PATH

Pour activer ces modifications, exécutez la commande suivante pour le fichier bashrc :

source ~/.bashrc

Lancement de Spark Shell :

./spark/bin/spark-shell

Étape 4. Accéder à Apache Spark.

Apache Spark sera disponible sur le port HTTP 4040 par défaut. Ouvrez votre navigateur préféré et accédez à http://your-domain.com:4040 ou http://server-ip:40404 et suivez les étapes requises pour terminer l'installation.

Félicitations ! Vous avez installé Apache Spark avec succès. Merci d'avoir utilisé ce tutoriel pour installer Apache Spark sur le système Ubuntu 18.04 LTS (Bionic Beaver). Pour une aide supplémentaire ou des informations utiles, nous vous recommandons de vérifier le site Web officiel d'Apache Spark.