Solution 1 :
L'heure fsck par défaut de 180 jours est une solution de contournement pour le défaut de conception selon lequel ext3 ne prend pas en charge une vérification de cohérence en ligne. La vraie solution est de trouver un système de fichiers qui le supporte. Je ne sais pas si un système de fichiers mature le fait. C'est une vraie tragédie. Peut-être que btrfs nous sauvera un jour.
J'ai répondu au problème du temps d'arrêt surprise de plusieurs heures de fsck en effectuant des redémarrages programmés avec un fsck complet dans le cadre de la maintenance standard. C'est mieux que de se heurter à une corruption mineure pendant les heures de production et de la transformer en une véritable panne.
Une grande partie du problème est que ext3 a un fsck déraisonnablement lent. Bien que xfs ait un fsck beaucoup plus rapide, il utilise trop de mémoire pour les distributions pour encourager xfs par défaut sur les grands systèmes de fichiers. Pourtant, sur la plupart des systèmes, ce n'est pas un problème. Passer à xfs permettrait au moins un fsck raisonnablement rapide. Cela peut faciliter la planification de l'exécution de fsck dans le cadre d'une maintenance normale.
Si vous utilisez RedHat et envisagez d'utiliser xfs, vous devez vous méfier de la force avec laquelle ils découragent l'utilisation de xfs et du fait qu'il y a probablement peu de personnes qui utilisent xfs sur le noyau que vous utilisez.
Je crois comprendre que le projet ext4 a pour objectif d'améliorer au moins quelque peu les performances de fsck.
Solution 2 :
Je dirais que c'est juste une autre raison pour laquelle les serveurs de production ne doivent pas fonctionner seuls et avoir toujours soit une sauvegarde à chaud/froid, soit participer à un cluster à deux nœuds. En ces jours de virtualisation, vous pouvez facilement avoir un serveur principal physique et un serveur virtuel, qui n'est qu'une copie du physique fait tous les X jours, prêts à prendre le relais.
Autre que cette réponse pas très utile, je dirais que vous devriez équilibrer l'importance de vos données... S'il ne s'agit que d'un nœud de cluster, ignorez-le. S'il s'agit du serveur Web non sauvegardé d'un client, vous voudrez peut-être planifier à l'avance la prochaine fois :-)
Solution 3 :
Cela dépend. Par exemple, nous avons eu un serveur en panne pour une maintenance de routine qui exécutait une pile QMail. QMail crée et tue de nombreux fichiers au fil du temps, et c'était un serveur de messagerie très occupé. Le fsck a duré environ 36 heures. Ce n'est pas comme si nous avions économisé énormément de performances, mais en fin de compte, je suppose que vous pourriez dire que le système de fichiers était plus sain. Cela valait-il vraiment le chaos qui s'ensuivit ? Pas. À. Tous.