GNU/Linux >> Tutoriels Linux >  >> Linux

HTML en texte brut NON FORMATÉ ?

Utilisez w3m -dump <page.html> .

Il vous donnera la représentation textuelle du fichier html.

À partir de la page de manuel :

-dump  dump formatted page into stdout

Bien qu'il soit dit formatted , la sortie est simplement du texte brut.


html2text est un script Python qui convertit une page HTML en texte structuré Markdown équivalent. html2text peut être téléchargé et exécuté dans n'importe quel système d'exploitation sur lequel Python est installé. Le programme html2text se trouve dans les dépôts de nombreuses distributions Linux et peut être exécuté à partir de la ligne de commande comme ceci :

html2text -style pretty input.html  

Cette commande convertit non seulement le fichier html d'origine en texte, mais elle fait également un très bon travail en rendant la sortie en texte brut facile à lire. Les titres ressemblent à des titres, les listes ressemblent à des listes, etc.

Si vous rencontrez des problèmes pour convertir automatiquement des tableaux de pages Web en texte non formaté, cela peut être facilement fait avec un éditeur de démarquage moderne comme les applications Typora ou Mark Text GUI pour Windows/Mac/Linux. En comparant ces deux applications, Mark Text est meilleur que Typora pour capturer avec précision tout sur une page Web et Typora a un éditeur plus convivial, donc j'utilise les deux applications. J'utilise Mark Text comme outil de saisie de page Web, puis je copie/colle le texte de démarquage que j'ai capturé dans Typora et j'utilise Typora pour le modifier.


Comme mentionné par Gombai Sándor, dans un commentaire à la réponse de NZD :

lynx -dump -nolist -nomargins

Lorsqu'il est exécuté à partir de la ligne de commande avec une URL, il écrit la sortie sur stdout. Cela semble très bien fonctionner. -nomargins peut ne pas être pris en charge si l'on n'a accès qu'à une ancienne version de lynx (c'est-à-dire Lynx version 2.8.5rel.5 (29 octobre 2005) sur un ancien UNIX).

La sortie apparaît assez exempte de balisage et de liens, avec quelques exceptions potentielles (la liste suivante peut ne pas être typique ou exhaustive) :

  • Des espaces blancs supplémentaires semblent se produire dans les données tabulaires, et, au moins dans certains cas, il semble bien que l'espace blanc soit généralement utile pour extraire les données tabulaires, il est parfois incohérent d'une manière qui complique l'analyse.
  • Bien que les liens ne soient pas vidés, du texte visible peut s'afficher. Par exemple, les références aux notes de bas de page peuvent s'afficher sous forme d'astérisques ou, sur un wiki, les éléments cliquables peuvent s'afficher sous forme de texte brut équivalent (sans URL sous-jacente).
  • Certaines références peuvent développer et afficher le texte alternatif.
  • Dump de listes non ordonnées avec astérisques et indentation.
  • Ordonner les listes de vidage avec des numéros et des indentations.
  • Les champs de saisie peuvent apparaître sous forme de traits de soulignement

Linux
  1. Comment fonctionnent la saisie au clavier et la sortie de texte ?

  2. python convertir les documents Microsoft Office en texte brut sous Linux

  3. Comment convertir la sortie du shell de Linux en HTML ?

  4. Comment pouvons-nous stocker un mot de passe autre que du texte brut ?

  5. Comment sortir du texte en couleur sur un terminal Linux ?

Envoyez un ping à plusieurs serveurs et affichez la sortie dans l'interface utilisateur textuelle supérieure

Comment enregistrer la sortie de la commande Linux dans une image ou un fichier texte

Script bash :comment écrire des données dans des fichiers texte

Rechercher du texte sur la sortie du terminal ?

Bash Scripting :comment générer et formater du texte sur le shell Linux

Meilleurs éditeurs de texte Linux :les 20 éditeurs de texte et HTML examinés