Comment interpréter ces données smartctl (smartmon)

Solution 1 :

Pour les disques Seagate (et peut-être aussi certains anciens de WD), Seek_Error_Rate et Raw_Read_Error_Rate sont des nombres de 48 bits, où les 16 bits les plus significatifs sont un nombre d'erreurs et les 32 bits inférieurs sont un nombre d'opérations.

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Votre disque a donc effectué 2440858991 recherches, dont 46 ont échoué. D'après mon expérience avec les disques Seagate, ils ont tendance à tomber en panne lorsque le nombre d'erreurs dépasse 1 000. YMMV.

Solution 2 :

Le "taux d'erreur de recherche" et le "taux d'erreur de lecture brute" RAW_VALUES n'ont pratiquement aucun sens pour quiconque sauf le support de Seagate. Comme d'autres l'ont souligné, les valeurs brutes de paramètres tels que le "nombre de secteurs réaffectés" ou les entrées dans le journal des erreurs du lecteur sont plus susceptibles d'indiquer une probabilité de panne plus élevée.

Mais vous pouvez jeter un œil aux données interprétées dans les colonnes VALUE, WORST et THRESH qui sont censées être lues comme des jauges :

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

Cela signifie que votre taux d'erreur de recherche est actuellement considéré comme "77 % bon" et est signalé comme un problème par SMART lorsqu'il atteint "30 % bon". Il avait été aussi bas que "60% bon" une fois, mais s'est rétabli comme par magie depuis. Notez que les valeurs interprétées sont calculées en interne par la logique SMART du lecteur et que le calcul exact peut ou non être publié par le fabricant et ne peut généralement pas être modifié par l'utilisateur.

Personnellement, je considère un lecteur contenant des entrées de journal d'erreurs comme "défaillant" et je demande instamment un remplacement dès qu'elles se produisent. Mais dans l'ensemble, les données SMART se sont avérées être un indicateur plutôt faible pour la prédiction des pannes, comme l'a révélé un article de recherche publié par Google.

Solution 3 :

D'après mon expérience, Seagates a des chiffres étranges pour ces deux attributs SMART. Lors du diagnostic d'un Seagate, j'ai tendance à les ignorer et à regarder de plus près d'autres champs comme le nombre de secteurs réalloués. Bien sûr, en cas de doute, remplacez le disque, mais même les tout nouveaux Seagates auront des chiffres élevés pour ces attributs.

Solution 4 :

J'ai réalisé que cette discussion est un peu ancienne mais je veux ajouter mes 2 cents. J'ai trouvé que les informations intelligentes étaient un assez bon indicateur de pré-échec. Lorsqu'un seuil intelligent se déclenche, remplacez le disque. C'est à cela que servent ces seuils.

La grande majorité du temps, vous commencerez à voir des secteurs défectueux. C'est un signe certain que le disque commence à tomber en panne. SMART m'a sauvé plusieurs fois. J'utilise le logiciel RAID 1 et c'est très utile car il suffit de remplacer le disque défaillant et de reconstruire la matrice.

J'exécute également des autotests courts et longs chaque semaine.

smartctl -t short /dev/sda
smartctl -t long /dev/sda

Ou ajoutez-le /etc/smartd.conf et recevez-le par e-mail s'il y a des erreurs

/dev/sda -s L/../../3/22 -I 194 -m example@unixlinux.onlineomedomain
/dev/sdb -s L/../../7/22 -I 194 -m example@unixlinux.online

Assurez-vous d'installer logwatch et de rediriger la racine vers une adresse e-mail et de vérifier les e-mails quotidiens de logwatch. Les indicateurs déclenchés par SMARTD s'afficheront ici, mais cela ne sert à rien si personne ne surveille cela régulièrement.

Solution 5 :

Désolé de commettre de la nécromancie sur ce post, mais d'après mon expérience, les champs "Raw Read Error Rate" et "Hardware ECC Recovered" pour un disque Seagate iront littéralement partout et incrémenter constamment dans la gamme des billions à quel point ils reviendront à zéro pour continuer le processus à nouveau. J'ai un Seagate ST9750420AS qui a ce problème depuis le premier jour et qui fonctionne toujours très bien même après plusieurs années et plus de 3500 heures d'utilisation.

Je pense que ces champs peuvent être ignorés en toute sécurité si vous en exécutez un dans votre cas. Assurez-vous simplement que les deux champs signalent le même nombre et sont constamment synchronisés. S'ils ne le sont pas... eh bien... Cela pourrait en fait signifier un problème.