GNU/Linux >> Tutoriels Linux >  >> Linux

Comment convertir HTML en texte ?

Je ne pense pas que curl ait un processeur HTML intégré. Cependant :

lynx --dump <URL>

fait l'affaire.

Si vous souhaitez toujours utiliser curl, vous pouvez utiliser html2text (disponible dans Ubuntu).


Vous pouvez installer html2text (un convertisseur HTML vers texte avancé) et l'utilisation est simple :

$ html2text http://example.com/
$ cat file.html | html2text -o file.txt

Installer par :

  • Linux :apt-get install html2text
  • OS X :brew install html2text

Exemple avec curl :

$ curl -sL google.com | html2text
Search Images Maps Play YouTube News Gmail Drive More ?
Web History | Settings | Sign in
     A better way to browse the web
       Get Google Chrome

          Advanced search Language tools

        [Google Search][I'm Feeling Lucky]

     Advertising Programmes Business Solutions+GoogleAbout GoogleGoogle.com
                           ? 2016 - Privacy - Terms

Linux
  1. Comment convertir la sortie du shell de Linux en HTML ?

  2. Comment ajouter du texte à un fichier ?

  3. Convertir une chaîne de texte en bash en tableau

  4. Convertir l'image en texte

  5. Comment convertir un PDF en niveaux de gris

Comment convertir un fichier Windows en un fichier UNIX

Comment convertir des formats de fichiers avec Pandoc sous Linux [Guide rapide]

Comment convertir une page Web en PDF sous Linux

Comment convertir un document texte en discours sur Ubuntu à l'aide d'eSpeak

Comment puis-je convertir des données textuelles à deux valeurs en binaire (représentation binaire)

Comment convertir un texte spécifique d'une liste en majuscule ?