Dans ce didacticiel, nous allons vous montrer comment installer Apache Spark sur Ubuntu 18.04 LTS. Pour ceux d'entre vous qui ne le savaient pas, Apache Spark est un système informatique de cluster rapide et polyvalent . Il fournit des API de haut niveau en Java, Scala et Python, ainsi qu'un moteur optimisé qui prend en charge les graphiques d'exécution globaux. Il prend également en charge un riche ensemble d'outils de niveau supérieur, notamment Spark SQL pour SQL et le traitement des informations structurées, MLlib pour la machine l'apprentissage, GraphX pour le traitement des graphes et Spark Streaming.
Cet article suppose que vous avez au moins des connaissances de base sur Linux, que vous savez utiliser le shell et, plus important encore, que vous hébergez votre site sur votre propre VPS. L'installation est assez simple et suppose que vous s'exécutent dans le compte root, sinon vous devrez peut-être ajouter 'sudo
‘ aux commandes pour obtenir les privilèges root. Je vais vous montrer étape par étape l'installation d'Apache Spark sur un serveur 18.04 LTS (Bionic Beaver).
Installer Apache Spark sur Ubuntu 18.04 LTS Bionic Beaver
Étape 1. Tout d'abord, assurez-vous que tous vos packages système sont à jour en exécutant ces commandes apt-get suivantes dans le terminal.
sudo apt-get update sudo apt-get upgrade
Étape 2. Installation de Java.
Apache Spark nécessite l'installation de Java sur votre serveur. Par défaut, Java n'est pas disponible dans le référentiel d'Ubuntu. Ajoutez Oracle Java PPA à Apt avec la commande suivante :
add-apt-repository ppa:webupd8team/java apt-get update -y apt-get install oracle-java8-installer
Vérifiez la version Java en exécutant la commande suivante :
java -version
Étape 3. Installation d'Apache Spark sur Ubuntu 18.04 LTS.
Installez Apache Spark à l'aide de la commande suivante :
wget https://www.apache.org/dyn/closer.lua/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz tar xvzf spark-2.3.1-bin-hadoop2.7.tgz ln -s spark-2.3.1-bin-hadoop2.7 spark
Ajout de Spark au chemin :
nano ~/.bashrc
Ensuite, ajoutez ces lignes à la fin du fichier .bashrc afin que le chemin puisse contenir le chemin du fichier exécutable Spark :
SPARK_HOME=/idr00t/spark export PATH=$SPARK_HOME/bin:$PATH
Pour activer ces modifications, exécutez la commande suivante pour le fichier bashrc :
source ~/.bashrc
Lancement de Spark Shell :
./spark/bin/spark-shell
Étape 4. Accéder à Apache Spark.
Apache Spark sera disponible sur le port HTTP 4040 par défaut. Ouvrez votre navigateur préféré et accédez à http://your-domain.com:4040
ou http://server-ip:40404
et suivez les étapes requises pour terminer l'installation.
Félicitations ! Vous avez installé Apache Spark avec succès. Merci d'avoir utilisé ce tutoriel pour installer Apache Spark sur le système Ubuntu 18.04 LTS (Bionic Beaver). Pour une aide supplémentaire ou des informations utiles, nous vous recommandons de vérifier le site Web officiel d'Apache Spark.