Essayez de trier d'abord :
cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt
Ou utilisez "sort -u" qui élimine également les doublons. Voir ici.
La taille du fichier n'a rien à voir avec ce que vous voyez. À partir de la page de manuel de uniq(1) :
Remarque :'uniq' ne détecte pas les lignes répétées à moins qu'elles ne soient adjacentes. Vous pouvez d'abord trier l'entrée ou utiliser 'sort -u' sans 'uniq'. De plus, les comparaisons respectent les règles spécifiées par 'LC_COLLATE'.`
Exécutant donc uniq
sur
a
b
a
renverra :
a
b
a