Comment installer Apache Spark sur CentOS 7

Dans ce didacticiel, nous allons vous montrer comment installer Apache Spark sur le serveur CentOS 7. Pour ceux d'entre vous qui ne le savaient pas, Apache Spark est un système informatique en cluster rapide et polyvalent . Il fournit des API de haut niveau en Java, Scala et Python, ainsi qu'un moteur optimisé qui prend en charge les graphiques d'exécution globaux. Il prend également en charge un riche ensemble d'outils de niveau supérieur, notamment Spark SQL pour SQL et le traitement des informations structurées, MLlib pour la machine l'apprentissage, GraphX pour le traitement des graphes et Spark Streaming.

Cet article suppose que vous avez au moins des connaissances de base sur Linux, que vous savez utiliser le shell et, plus important encore, que vous hébergez votre site sur votre propre VPS. L'installation est assez simple et suppose que vous s'exécutent dans le compte root, sinon vous devrez peut-être ajouter 'sudo ‘ aux commandes pour obtenir les privilèges root. Je vais vous montrer l'installation étape par étape d'Apache Spark sur le serveur CentOS 7.

Installer Apache Spark sur CentOS 7

Étape 1. Tout d'abord, commençons par nous assurer que votre système est à jour.

yum clean all
yum -y install epel-release
yum -y update

Étape 2. Installation de Java.

Installation de Java pour l'installation requise d'apache-spark :

yum install java -y

Une fois installé, vérifiez la version java :

java -version

Étape 3. Installation de Scala.

Spark installe Scala pendant le processus d'installation, nous devons donc simplement nous assurer que Java et Python sont présents :

wget http://www.scala-lang.org/files/archive/scala-2.10.1.tgz
tar xvf scala-2.10.1.tgz
sudo mv scala-2.10.1 /usr/lib
sudo ln -s /usr/lib/scala-2.10.1 /usr/lib/scala
export PATH=$PATH:/usr/lib/scala/bin

Une fois installé, vérifiez la version scala :

scala -version

Étape 4. Installation d'Apache Spark.

Installez Apache Spark à l'aide de la commande suivante :

wget http://www-eu.apache.org/dist/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz
tar -xzf spark-2.2.1-bin-hadoop2.7.tgz
export SPARK_HOME=$HOME/spark-2.2.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

Configurez certaines variables d'environnement avant de démarrer Spark :

echo 'export PATH=$PATH:/usr/lib/scala/bin' >> .bash_profile
echo 'export SPARK_HOME=$HOME/spark-2.2.1-bin-hadoop2.6' >> .bash_profile
echo 'export PATH=$PATH:$SPARK_HOME/bin' >> .bash_profile

Le cluster Spark autonome peut être démarré manuellement, c'est-à-dire en exécutant le script de démarrage sur chaque nœud, ou simplement en utilisant les scripts de lancement disponibles. Pour les tests, nous pouvons exécuter des démons maître et esclave sur la même machine :

./sbin/start-master.sh

Étape 5. Configurez le pare-feu pour Apache Spark.

firewall-cmd --permanent --zone=public --add-port=6066/tcp
firewall-cmd --permanent --zone=public --add-port=7077/tcp
firewall-cmd --permanent --zone=public --add-port=8080-8081/tcp
firewall-cmd --reload

Étape 6. Accéder à Apache Spark.

Apache Spark sera disponible sur le port HTTP 7077 par défaut. Ouvrez votre navigateur préféré et accédez à http://yourdomain.com:7077 ou http://your-server-ip:7077 et suivez les étapes requises pour terminer l'installation.

Félicitations ! Vous avez installé avec succès Apache Spark sur CentOS 7. Merci d'avoir utilisé ce didacticiel pour installer Apache Spark sur les systèmes CentOS 7. Pour obtenir de l'aide supplémentaire ou des informations utiles, nous vous recommandons de consulter la version officielle d'Apache Site Web Spark.