J'ai fait un scraping de site web pour un projet de conversion. J'aimerais faire quelques statistiques sur les types de fichiers qu'il contient - par exemple, 400 .html
fichiers, 100 .gif
, etc. Quel est un moyen facile de le faire ? Il doit être récursif.
Modifier : Avec le script que maxschelfzig a posté, j'ai quelques problèmes dus à l'architecture du site que j'ai gratté. Certains des fichiers portent le nom *.php?blah=blah&foo=bar
avec divers arguments, il les compte donc tous comme uniques. La solution doit donc considérer *.php*
être tous du même type, pour ainsi dire.
Réponse acceptée :
Vous pouvez utiliser find
et uniq
pour cela, par exemple :
$ find . -type f | sed 's/.*.//' | sort | uniq -c
16 avi
29 jpg
136 mp3
3 mp4
Explication de la commande
find
imprime récursivement tous les noms de fichierssed
supprime de chaque nom de fichier le préfixe jusqu'à l'extension de fichieruniq
suppose une entrée triée-c
effectue le comptage (comme un histogramme).