Solution 1 :
Votre meilleur pari est probablement un problème matériel quelque part entre vos disques et jusqu'à et y compris votre contrôleur RAID SAS. Je recommande d'essayer :
- Exécutez tous les outils de diagnostic du ou des fournisseurs s'ils sont disponibles
- Vérifier/réinstaller/remplacer les câbles
- Supprimez les composants matériels et remplacez le matériel de la chaîne qui connecte les disques à votre contrôleur RAID, y compris le contrôleur lui-même (c'est-à-dire, pour vous, essayez autre chose que le RAID intégré à la carte mère).
J'avais un Dell PowerEdge R515 identique sur deux donnant des messages très similaires (les journaux se remplissaient périodiquement de messages mpt2sas0, bien que je n'aie pas les codes numériques exacts). Le propre diagnostic amorçable de Dell les a détectés comme des "erreurs matérielles" et le remplacement du fond de panier RAID sas a résolu le problème.
Lorsque j'enquêtais, je n'ai pas trouvé de ressource complète sur la signification des différents codes d'erreur mpt2sas0. Je soupçonne qu'ils peuvent même être spécifiques au fournisseur de matériel (quelqu'un qui en sait plus sur SAS doit confirmer ou infirmer cela). Ainsi, vos codes d'erreur peuvent signifier quelque chose de très différent, mais si SMART est propre, il est difficile d'imaginer d'autres bonnes raisons pour que mpt2sas0 signale des codes d'erreur.
Ces erreurs peuvent être très graves. Mon R515 a apparemment fonctionné correctement avec ces messages pendant une semaine avec un raid 6 du logiciel Ubuntu Linux à 12 disques, mais a ensuite soudainement éjecté les 12 disques de la matrice comme étant cassés (!)
Aussi dans mon cas, le SMART pour tous les disques était complètement propre. Une bonne vérification est un test d'autodiagnostic intelligent :smartctl -t long /dev/sdX
, puis vérifiez les résultats environ un jour plus tard avec smartctl -l selftest /dev/sdX
. Si tout est OK, le test devrait indiquer Completed
et le LBA_first_err
la colonne doit être vide.
Solution 2 :
Wow, difficile.
Cela semble indiquer que 0x31120303 est une réinitialisation du bus car l'un de vos appareils est sous forte charge. Il dit aussi que vous n'avez pas à vous en soucier. (Haha, ouais c'est vrai.)
Cela indique que ces messages de journal se produisent parce que l'un de vos appareils met trop de temps à répondre aux commandes. Cela dit la même chose et indique également que cela se produit sous une charge importante.
Bien qu'il ne s'agisse pas d'une réponse complète, nous espérons qu'elle vous indiquera une direction utile.