GNU/Linux >> Tutoriels Linux >  >> Linux

Comment installer Anaconda sur Linux pour la science des données gagne !

Au cours des cinq dernières années, l'industrie de la science des données a explosé et les emplois en science des données sont nombreux et bien rémunérés. Mais se lancer dans la science des données peut être difficile. L'un des plus grands obstacles est d'avoir les bons outils et l'environnement configurés sur votre ordinateur. Eh bien, pas à moins que vous ne voyiez comment installer Anaconda et comment l'utiliser pour la science des données.

Anaconda est une puissante plate-forme de science des données et un excellent moyen de se lancer dans l'analyse, la modélisation et la visualisation de données. Et dans ce didacticiel, vous passerez en revue les étapes d'installation d'Anaconda sur Ubuntu Linux et certaines tâches de manipulation et de visualisation de données de base.

Prêt? Lisez la suite pour apprendre à démarrer avec la science des données en utilisant Anaconda sur Linux !

Prérequis

Ce tutoriel sera une démonstration pratique. Si vous souhaitez suivre, assurez-vous d'avoir une machine Ubuntu Linux avec au moins 4 Go de RAM et 5 Go d'espace disque libre.

L'espace disque minimum nécessaire pour installer Anaconda est de 5 Go, mais vous aurez besoin de plus d'espace libre pour effectuer un travail sérieux de science des données. Travailler sur la science des données nécessite beaucoup d'espace disque car vous devez télécharger et stocker des ensembles de données. Avoir 50 Go d'espace libre sur votre machine suffirait pour travailler sur la science des données.

Téléchargement du script bash du programme d'installation d'Anaconda

Que vous débutiez dans la science des données ou que vous soyez un professionnel chevronné, Anaconda est la plateforme idéale pour vos besoins d'analyse et de modélisation de données. Mais d'abord, vous devrez installer Anaconda sur votre machine.

Pour installer Anaconda, vous devrez télécharger le script d'installation Bash à partir du site Web d'Anaconda. Au moment de la rédaction, la dernière version est Anaconda3-2021.11-Linux-x86_64.sh.

1. Ouvrez votre terminal et exécutez les commandes ci-dessous pour télécharger et enregistrer le script Bash d'installation d'Anaconda sur votre /tmp répertoire.

cd /tmp
curl -O https://repo.anaconda.com/archive/Anaconda3-2021.11-Linux-x86_64.sh

2. Ensuite, exécutez la commande sha256sum ci-dessous pour générer un hachage cryptographique SHA-256 pour le fichier téléchargé (Anaconda3-2021.11-Linux-x86_64.sh). Cette commande vous permet de vérifier l'intégrité du script Bash du programme d'installation à l'aide de MD5 ou SHA256.

Le téléchargement de fichiers à partir d'Internet comporte toujours des risques que les fichiers soient falsifiés ou corrompus en transit. La vérification de l'intégrité du script Bash du programme d'installation est cruciale pour vous assurer que vous avez reçu une copie identique du fichier initialement publié par Anaconda.

sha256sum Anaconda3-2021.11-Linux-x86_64.sh

Notez les hachages du fichier pour les comparer avec ceux disponibles sur le site Web d'Anaconda (troisième étape).

3. Enfin, ouvrez votre navigateur Web préféré et accédez à la liste des hachages d'Anaconda.

Recherchez le nom du script d'installation Bash que vous avez téléchargé (Anaconda3-2021.11-Linux-x86_64.sh). Une fois trouvé, assurez-vous que les hachages que vous avez notés à l'étape 2 correspondent à ceux répertoriés sur le site Web d'Anaconda.

Si les hachages ne correspondent pas, répétez les étapes 1 à 3 et revérifiez les hachages.

Installer Anaconda sur Ubuntu

Maintenant que vous avez téléchargé le script Bash et vérifié son intégrité, vous êtes prêt à installer Anaconda. Le script Bash du programme d'installation comprend toutes les commandes d'installation nécessaires, il vous suffit donc de l'exécuter.

1. Exécutez la commande suivante pour installer Anaconda sur votre machine. Assurez-vous de remplacer Anaconda3-2021.11-Linux-x86_64.sh par le nom du fichier de script Bash que vous avez téléchargé.

Notez que vous devez inclure la commande bash quel que soit votre shell.

bash Anaconda3-2021.11-Linux-x86_64.sh

2. Après avoir exécuté le script Bash, appuyez sur Entrée pour voir le contrat de licence utilisateur final (CLUF) lorsque vous y êtes invité. Continuez à appuyer sur Entrée pour lire jusqu'à la fin du CLUF.

3. Après avoir lu le CLUF, tapez oui et appuyez sur Entrée pour accepter les termes de la licence, comme indiqué ci-dessous.

4. Maintenant, appuyez sur Entrée pour accepter l'emplacement d'installation par défaut d'Anaconda. Vous pouvez choisir n'importe quel emplacement, mais il est recommandé de choisir un répertoire dans votre dossier personnel pour un accès plus facile.

5. Saisissez yes et appuyez sur Enter lorsque vous êtes invité à initialiser Anaconda3. Cette commande conda init garantit que la commande conda est disponible depuis votre terminal chaque fois que vous vous connectez à votre machine.

6. Ensuite, exécutez la commande ci-dessous pour appliquer les modifications à votre environnement shell.

source ~/.bashrc

Votre shell actuel passe à base, ce qui indique qu'Anaconda3 est installé avec succès, comme indiqué ci-dessous. base est l'environnement shell par défaut d'Anaconda qui fournit toutes les bibliothèques et outils Python de base nécessaires à la science des données.

L'environnement shell de base comprend de puissants outils de ligne de commande, notamment conda, anaconda prompt et Jupyter Notebook.

7. Exécutez la commande conda list ci-dessous pour vérifier qu'Anaconda est correctement installé.

conda list 

Vous verrez une liste de tous les packages et versions, comme indiqué ci-dessous, qui sont actuellement inclus dans votre environnement de base.

8. Enfin, exécutez la commande conda deactivate ci-dessous pour fermer la session anaconda.

conda deactivate

Notez que les commandes conda activate et conda deactivate ne fonctionnent que sur conda 4.6 et les versions ultérieures. Pour les versions de conda antérieures à 4.6, exécutez plutôt les commandes ci-dessous :source activate ou source deactivate

Configuration de vos environnements Anaconda

Vous venez d'installer Anaconda sur votre machine, mais vous devez configurer des environnements avant de pouvoir utiliser Anaconda pour la science des données. Les environnements sont des emplacements distincts sur votre système de fichiers où vous pouvez installer différentes versions de Python et de packages.

Cette configuration est utile si vous devez travailler avec plusieurs projets nécessitant différentes versions de Python ou de packages.

À partir de ce point tout au long du didacticiel, vous pouvez nommer les environnements et les fichiers comme vous le souhaitez car ils sont arbitraires.

Pour configurer vos environnements Anaconda :

1. Exécutez la commande conda create ci-dessous pour créer un nouvel environnement nommé my_env exécutant Python3 (python=3).

conda create --name my_env python=3

2. Ensuite, saisissez y et appuyez sur Entrée lorsque vous êtes invité à choisir de poursuivre ou non la création de l'environnement.

3. Une fois l'environnement créé, exécutez la commande conda activate ci-dessous pour activer votre nouvel environnement (my_env).

conda activate my_env

4. Maintenant, exécutez le conda create ci-dessous commande pour installer toutes les bibliothèques et outils Python de base répertoriés ci-dessous nécessaires à la science des données pour votre data_env environnement :

  • scipy - Une bibliothèque Python populaire pour le calcul scientifique pour effectuer des tâches d'analyse de données.

numpy – Une bibliothèque pour travailler avec des tableaux multidimensionnels.

  • pandas – Une bibliothèque pratique pour l'analyse des données, car elle offre un moyen puissant et intuitif de travailler avec des données tabulaires.
  • matplotlib – Une bibliothèque de traçage utilisée pour créer des visualisations sophistiquées de vos données.
 conda create --name data_env python=3 numpy scipy pandas matplotlib

5. Saisissez y et appuyez sur Entrée pour continuer à créer l'environnement data_env.

6. Enfin, exécutez la commande conda env suivante pour vérifier la liste des environnements disponibles.

conda env list

Vous verrez tous les environnements qui ont été créés sur votre machine, y compris l'environnement de base, comme indiqué ci-dessous.

Exécuter votre premier programme Python

Vous avez maintenant votre environnement en cours d'exécution, et c'est très bien. Mais l'environnement ne fait pas grand-chose en ce moment, à moins que vous n'écriviez un programme dessus. Dans ce didacticiel, vous utiliserez votre environnement pour écrire et exécuter un programme Python simple de calcul d'âge.

Pour écrire un programme Python avec votre environnement :

1. Exécutez la commande ci-dessous pour activer votre environnement (my_env).

conda activate my_env

2. Ensuite, exécutez la commande ci-dessous pour ouvrir l'interpréteur Python. L'interpréteur Python est un environnement REPL (boucle de lecture-évaluation-impression) qui vous permet d'écrire et d'exécuter du code Python de manière interactive.

python3

3. Copiez et collez le code suivant dans l'interpréteur et appuyez sur Entrée.

Ce bloc de code calcule et imprime l'âge au décès d'une personne née en 1900 et diminuée en 1970.

birth_year = 1900
death_year = 1970
age_at_death = death_year - birth_year
print(age_at_death)

Ci-dessous, vous pouvez voir la sortie 70 imprimée sur le terminal, indiquant que la personne avait 70 ans lorsqu'elle est décédée.

4. Maintenant, exécutez la commande exit() ci-dessous pour quitter l'interpréteur Python

exit()

5. Enfin, exécutez la commande ci-dessous pour fermer et terminer la session de l'environnement my_env.

conda deactivate

Créer votre premier projet de science des données

Jusqu'à présent, vous avez vu comment exécuter un programme Python simple à l'aide de votre environnement. Mais cette fois, intensifiez votre jeu de science des données en créant votre premier projet. Un projet de science des données implique généralement la collecte, l'exploration, l'analyse et la visualisation de données pour répondre à un besoin ou à un problème métier spécifique.

Pour créer votre premier projet de science des données, tracez vos données avec un nuage de points clair (X, Y) à l'aide de la bibliothèque matplotlib :

1. Exécutez la commande conda activate ci-dessous pour activer un environnement appelé data_env.

conda activate data_env

2. Ensuite, créez un fichier Python appelé scatter.py en utilisant votre éditeur de texte préféré.

nano scatter.py

3. Remplissez le code ci-dessous dans votre scatter.py fichier, enregistrez les modifications et fermez l'éditeur. Ce bloc de code crée deux tableaux, chacun avec 12 éléments, et trace et affiche des points de données.

# Imports matplotlib.pyplot to visualize the plot
import matplotlib.pyplot as plt
# Contains an array of numbers (cars ages) to x.
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
# Contains an array of nunbers (cars speeds) to y.
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
# Plot the data points
plt.scatter(x, y)
# Show the plotted data points
plt.show()

4. Enfin, exécutez la commande ci-dessous pour exécuter le fichier Python (scatter.py), qui affiche le tracé à l'écran.

python scatter.py

Vous verrez les points de données tracés sur un graphique comme indiqué ci-dessous. La relation entre l'âge et la vitesse des voitures est claire et peut aider à éclairer les décisions sur la manière de maintenir ou d'améliorer les performances d'un parc de voitures.

La relation apparente est qu'à mesure que l'âge d'une voiture augmente, la vitesse à laquelle elle peut rouler diminue.

Vous pouvez également remarquer une légère corrélation positive entre l'âge et la vitesse - à mesure que l'âge des voitures augmente, leur vitesse a également tendance à augmenter légèrement. Cette relation peut être utile pour les constructeurs automobiles qui souhaitent optimiser leurs véhicules en termes de performances et d'efficacité.

Voilà! Vous avez installé avec succès Anaconda sur Linux et créé votre premier projet de science des données.

Suppression d'environnements

Les environnements consomment votre espace de stockage, surtout si vous conservez ceux qui ne servent plus à rien. Pourquoi ne pas les supprimer ? Le conda env remove fera l'affaire tant que vous connaissez le nom de l'environnement à supprimer.

Exécutez la commande ci-dessous pour répertorier tous les environnements.

conda env list

Notez le nom de l'environnement que vous envisagez de supprimer.

Maintenant, exécutez la commande suivante pour remove l'environnement nommé (-n ) data_env . Remplacer data_env avec le nom de votre environnement cible à supprimer.

conda env remove -n data_env

Alternativement, vous pouvez exécuter la commande ci-dessous en spécifiant le chemin (-p ) où se trouve l'environnement (/root/anaconda3/envs/data_env ).

conda env remove -p /root/anaconda3/envs/data_env

Conclusion

Dans ce didacticiel, vous avez appris à installer Anaconda sur Ubuntu Linux et à créer un environnement Python 3 pour la science des données. Vous avez écrit votre premier programme et utilisé matplotlib pour tracer vos données.

À ce stade, vous êtes maintenant prêt à commencer votre voyage en tant que data scientist avec ces compétences !

Pourquoi ne pas commencer votre voyage en science des données avec Anaconda Navigator ? Commencez à explorer, analyser et visualiser les données de vos propres projets !


Linux
  1. Comment installer Linux en 3 étapes

  2. Comment installer Python sur Linux

  3. Comment installer Java sur Linux

  4. Comment installer NodeJS sur Linux

  5. comment installer anaconda / miniconda sur Linux en mode silencieux

Comment installer Splunk sur Debian 11 ou 10 Linux

Comment installer Anaconda sur Rocky Linux 8

Comment installer Anaconda sur Linux Mint 20

Comment installer le sous-système Windows pour Linux

Comment installer Anaconda Python sur Rocky Linux 8

Comment installer Anaconda Python sur Rocky Linux 8