GNU/Linux >> Tutoriels Linux >  >> Linux

Obtenir le nombre d'occurrences de mots du fichier texte de tous les mots et la sortie d'impression triée ?

J'avais une commande qui fonctionnait dans un fichier texte, comptait toutes les occurrences des mots et l'imprimait comme ceci :

[email protected] $˜ magic-command-i-forgot | with grep | and awk | sort ./textfile.txt
66: the
54: and
32: I
16: unix
12: bash
5:  internet
3:  sh
1: GNU/Linux

Ainsi, il ne recherche pas ligne par ligne, mais mot par mot, et il le fait pour tous les mots, pas seulement pour 1 mot. Je l'avais trouvé quelque part sur Internet il y a longtemps, mais je ne le trouve ni ne m'en souviens.

Réponse acceptée :

J'utiliserais tr au lieu de awk :

echo "Lorem ipsum dolor sit sit amet et cetera." | tr '[:space:]' '[\n*]' | grep -v "^\s*$" | sort | uniq -c | sort -bnr
  • tr remplace simplement les espaces par des retours à la ligne
  • grep -v "^\s*$" supprime les lignes vides
  • sort à préparer comme entrée pour uniq
  • uniq -c compter les occurrences
  • sort -bnr trie dans l'ordre numérique inverse en ignorant les espaces

wow. il s'est avéré être une excellente commande pour compter les jurons par lignes

trouver . -name "*.py" -exec cat {} \; | tr '[:espace:]' '[\n*]' | grep -v « ^\s*$ » | trier | uniq-c | trier -bnr | grep baise


Linux
  1. Soyez trié avec sort en ligne de commande

  2. Comment utiliser la commande WC pour imprimer le nombre de caractères, d'octets, de sauts de ligne et de mots sous Linux

  3. Comment trouver la dernière occurrence du motif et imprimer toutes les lignes suivant la dernière occurrence ?

  4. Obtenir toutes les combinaisons possibles d'un mot en lettres minuscules/majuscules ?

  5. Trier la sortie par colonne ?

Trier et compter le nombre d'occurrences de lignes ?

Imprimer tous les fichiers d'un dossier ?

tcpdump :comment obtenir une sortie grepable ?

Comment obtenir uniquement tous les identifiants de processus en cours d'exécution ?

Comment trier cette sortie 1,10,11..2

Obtenir toutes les extensions et leur nombre de fichiers respectifs dans un répertoire