Beautiful Soup est un package Python pour l'analyse de documents HTML et XML et il réside dans un package Debian nommé python-bs4
. Cependant, python-bs4
package est un package par défaut sur le système Debian Linux pour la version Python 2. Par conséquent, si votre intention est d'utiliser Python3 comme environnement par défaut, vous devrez également installer Python3 et sa version correspondante de BS4 python3-bs4
. Commençons par l'installation de python3 :
# apt-get install -y vim python3
Après une installation réussie du package python3, assurez-vous que python3 est défini par défaut :
# update-alternatives --install /usr/bin/python python /usr/bin/python3.4 2 update-alternatives: using /usr/bin/python3.4 to provide /usr/bin/python (python) in auto mode
Confirmez que Python 3 est une version par défaut :
# python --version Python 3.4.2
Il ne reste plus qu'à installer le package HTML et XML d'analyse de Beautiful Soup pour qu'il corresponde à la version 3 de Python :
# apt-get install python3-bs4
Terminé. Testez l'analyse HTML et XML de Beautiful Soup avec l'exemple de script suivant :
#!/usr/bin/env python3 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.gnu.org") bsObj = BeautifulSoup(html.read()); print (bsObj.title)
Enregistrez le code ci-dessus dans un fichier, par exemple. scrapetest.py
et rendez-le exécutable :
$ chmod +x scrapetest.py
Une fois prêt, exécutez scrapetest.py
script :
$ ./scrapetest.py <title>The GNU Operating System and the Free Software Movement</title>
Dépannage
Traceback (most recent call last): File "scrapetest.py", line 2, in <module> from bs4 import BeautifulSoup ImportError: No module named 'bs4'
Votre version de python et bs4 ne correspond pas ou bs4 n'est pas installé. Assurez-vous que bs4 est installé et qu'il correspond à votre version de python.