Comment obtenir le texte d'une page en utilisant wget sans html ?

wget récupérera uniquement le document. Si le document est en HTML, ce que vous voulez est le résultat de l'analyse du document.

Vous pouvez, par exemple, utiliser lynx -dump -nolist , si vous avez des lynx dans les parages.

lynx est un navigateur Web léger et simple, qui a le -dump fonction, utilisée pour afficher le résultat du processus d'analyse. -nolist évite la liste des liens à la fin, qui apparaîtra si la page contient des hyperliens.

Comme mentionné par @Thor, elinks peut également être utilisé pour cela, car il a également un -dump option (et a -no-references pour omettre la liste des liens). Cela peut être particulièrement utile si vous parcourez un site en utilisant -sigh-frames (MTFBWY).

De plus, gardez à l'esprit que, à moins que la page ne soit vraiment que du code C avec des balises HTML, vous devrez vérifier le résultat, juste pour vous assurer qu'il n'y a rien de plus que du code C.

Si vous n'avez pas installé ces autres outils, uniquement wget, et la page n'a pas de mise en forme, juste du texte brut et des liens, par ex. code source ou une liste de fichiers, vous pouvez supprimer le code HTML en utilisant sed comme ceci :

wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'

Cela utilise wget pour vider la source de la page vers STDOUT et sed pour supprimer toutes les paires <> et tout ce qui se trouve entre elles.

Vous pouvez ensuite rediriger la sortie de la commande sed vers le fichier que vous souhaitez créer en utilisant> :

wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt

NB :Vous pouvez constater qu'il y a des espaces blancs supplémentaires dans le fichier que vous ne voulez pas (par exemple, les lignes sont en retrait de quelques colonnes)

Il peut être plus simple d'utiliser votre éditeur de texte pour ranger le fichier (ou un formateur source lorsque vous téléchargez le code source C).

Si vous avez besoin de faire la même chose simple à chaque ligne du fichier, vous pouvez inclure une commande pour le faire dans la commande sed (ici en supprimant un espace en tête) :

wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt

juste pour ajouter un autre outil. Je préfère w3m , qui est un lynx comme le navigateur de la console. Vous voudrez peut-être vérifier ce qui est déjà disponible sur votre système.

w3m -dump website.html