Pourquoi uniq considère-t-il les mots identiques comme différents ?

Essayez de trier d'abord :

cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt

Ou utilisez "sort -u" qui élimine également les doublons. Voir ici.

La taille du fichier n'a rien à voir avec ce que vous voyez. À partir de la page de manuel de uniq(1) :

Remarque :'uniq' ne détecte pas les lignes répétées à moins qu'elles ne soient adjacentes. Vous pouvez d'abord trier l'entrée ou utiliser 'sort -u' sans 'uniq'. De plus, les comparaisons respectent les règles spécifiées par 'LC_COLLATE'.`

Exécutant donc uniq sur

a
b
a

renverra :

a
b
a

URL encodant une chaîne dans un script bash

Interdire les accès mémoire non alignés sur x86/x86_64

Linux

Commande WC Linux pour compter le nombre de lignes, de mots et de caractères

Pourquoi `exit &` ne fonctionne pas ?

Pourquoi Ctrl + Flèche gauche ne saute-t-il pas les mots ?

Pourquoi Ls -l affiche-t-il une taille différente de Ls -s ?

Pourquoi la commande free et dmidecode affichent-elles des valeurs différentes pour la RAM ?

Pourquoi top affiche-t-il un nombre de cœurs différent de cpuinfo ?