J'ai fait un scraping de site web pour un projet de conversion. J'aimerais faire quelques statistiques sur les types de fichiers qu'il contient - par exemple, 400 .html fichiers, 100 .gif , etc. Quel est un moyen facile de le faire ? Il doit être récursif.
Modifier : Avec le script que maxschelfzig a posté, j'ai quelques problèmes dus à l'architecture du site que j'ai gratté. Certains des fichiers portent le nom *.php?blah=blah&foo=bar avec divers arguments, il les compte donc tous comme uniques. La solution doit donc considérer *.php* être tous du même type, pour ainsi dire.
Réponse acceptée :
Vous pouvez utiliser find et uniq pour cela, par exemple :
$ find . -type f | sed 's/.*.//' | sort | uniq -c
16 avi
29 jpg
136 mp3
3 mp4
Explication de la commande
findimprime récursivement tous les noms de fichierssedsupprime de chaque nom de fichier le préfixe jusqu'à l'extension de fichieruniqsuppose une entrée triée-ceffectue le comptage (comme un histogramme).