Dans ce didacticiel, nous allons vous montrer comment installer Apache Spark sur CentOS 8. Pour ceux d'entre vous qui ne le savaient pas, Apache Spark est un système informatique en cluster rapide et polyvalent. Il fournit des API de haut niveau en Java, Scala et Python, ainsi qu'un moteur optimisé qui prend en charge les graphiques d'exécution globaux. Il prend également en charge un riche ensemble d'outils de niveau supérieur, notamment Spark SQL pour SQL et le traitement de l'information structurée, MLlib pour l'apprentissage automatique. , GraphX pour le traitement des graphes et Spark Streaming.
Cet article suppose que vous avez au moins des connaissances de base sur Linux, que vous savez utiliser le shell et, plus important encore, que vous hébergez votre site sur votre propre VPS. L'installation est assez simple et suppose que vous s'exécutent dans le compte root, sinon vous devrez peut-être ajouter 'sudo
‘ aux commandes pour obtenir les privilèges root. Je vais vous montrer l'installation étape par étape d'Apache Spark sur CentOS 8.
Prérequis
- Un serveur exécutant l'un des systèmes d'exploitation suivants :CentOS 8.
- Il est recommandé d'utiliser une nouvelle installation du système d'exploitation pour éviter tout problème potentiel.
- Un
non-root sudo user
ou l'accès à l'root user
. Nous vous recommandons d'agir en tant qu'non-root sudo user
, cependant, car vous pouvez endommager votre système si vous ne faites pas attention lorsque vous agissez en tant que root.
Installer Apache Spark sur CentOS 8
Étape 1. Tout d'abord, commençons par nous assurer que votre système est à jour et installons toutes les dépendances requises.
sudo dnf install epel-release sudo dnf update
Étape 2. Installation de Java.
L'installation de Java dans cet article a été traitée dans l'article précédent. Nous nous référerons à l'article d'installation de Java. Ensuite, nous vérifions la version de Java, par la ligne de commande ci-dessous :
java -version
Étape 3. Installation de Scala.
Apache Spark est implémenté sur le langage de programmation Scala, nous devons donc installer Scala pour exécuter Apache Spark, nous devons donc simplement nous assurer que Java et Python sont présents :
wget https://www.scala-lang.org/files/archive/scala-2.13.4.tgz tar xvf scala-2.13.4.tgz sudo mv scala-2.13.4 /usr/lib sudo ln -s /usr/lib/scala-2.13.4 /usr/lib/scala export PATH=$PATH:/usr/lib/scala/bin
Une fois installé, vérifiez la version scala :
scala -version
Étape 4. Installation d'Apache Spark sur CentOS 8.
Nous téléchargeons maintenant la dernière version d'Apache Spark depuis sa source officielle :
wget https://downloads.apache.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz tar -xzf spark-3.0.1-bin-hadoop2.7.tgz export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin
Configurez certaines variables d'environnement avant de démarrer Spark :
echo 'export PATH=$PATH:/usr/lib/scala/bin' >> .bash_profile echo 'export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7' >> .bash_profile echo 'export PATH=$PATH:$SPARK_HOME/bin' >> .bash_profile
Le cluster Spark autonome peut être démarré manuellement, c'est-à-dire en exécutant le script de démarrage sur chaque nœud, ou simplement en utilisant les scripts de lancement disponibles. Pour les tests, nous pouvons exécuter des démons maître et esclave sur la même machine :
./sbin/start-master.sh
Étape 5. Configurez le pare-feu pour Apache Spark.
Exécutez la commande suivante pour ouvrir le port sur le pare-feu :
sudo firewall-cmd --permanent --zone=public --add-port=7077/tcp sudo firewall-cmd --reload
Étape 6. Accéder à l'interface Web d'Apache Spark.
Apache Spark sera disponible sur le port HTTP 7077 par défaut. Ouvrez votre navigateur préféré et accédez à http://your-domain.com:7077
ou http://server-ip-address:7077
et suivez les étapes requises pour terminer l'installation.
Félicitations ! Vous avez installé Apache Spark avec succès. Merci d'avoir utilisé ce didacticiel pour installer le framework open source Apache Spark sur votre système CentOS 8. Pour obtenir de l'aide supplémentaire ou des informations utiles, nous vous recommandons de consulter le site officiel d'Apache Spark.