Parity-errors après arret brutal du serveur.


Recommended Posts

 Bonjour,

Suite à une mauvaise manipulation sur mon onduleur, j'ai arrêté mon serveur brutalement.

Au redémarrage il a lancé un parity-check et à trouvé 207 erreurs.

2021-10-18, 10:14:2711 hr, 6 min, 47 sec150.0MB/s OK 207

2021-10-17, 11:04:2710 hr, 47 min, 57 sec154.4 MB/s OK 207

Je pensais que la correction des erreurs se faisait pendant le parity-check suivant le redémarrage

Pour vérifier j'ai relancé un parity-check sans correction et les 207 erreurs sont toujours la.
J'ai cherché dans le forum et je n'ai pas trouvé de solution pour régler ce problème.

J'ai fait un Memtest comme préconisé, c'est OK

J'ai vérifié les connexions SATA des HDD, c'est OK

 

J'ai joint le diagnostic du serveur, la réponse se trouve peut-être dans les logs mais mon manque d’expérience ne me permet de trouver les ou la réponse à mon problème.

 

Merci d'avance pour toute aide :)

nagano-diagnostics-20211018-1015.zip

Edited by nxenara
reformulation
Link to comment

Bonjour et bienvenue sur le forum, malgré les circonstances ;)

 

Avoir des erreurs de parité après un arrêt brutal est assez prévisible, mais comme tu le dis, le check est par défaut NON correctif.

Oct 17 00:16:30 Nagano kernel: mdcmd (36): check nocorrect
...
Oct 17 23:07:40 Nagano kernel: mdcmd (37): check nocorrect

 

Pour ton second test, est-ce que tu avais bien coché la case :

image.png.2a8a614938441bc94a25d6321d7f3255.png

Link to comment

Bonjour,

Merci de ta réponse rapide et matinale.

 

Le premier test c'est lancé automatiquement au démarrage, je suppose que "write corrections to parity" est coché par défaut dans ce cas (???)

Au second test je n'ai pas coché la case afin de faire une vérification.

 

 

Link to comment
2 hours ago, nxenara said:

je suppose que "write corrections to parity" est coché par défaut dans ce cas (???)

De tout ce que j'ai lu, ce n'est pas le cas.

 

En cas de gros soucis avec un disque de donnée, c'est probablement mieux de ne pas mettre à jour le disque de parité avec ces erreurs si tu veux pouvoir reconstruire ce disque. :) 

 

C'est pour ça qu'il est conseillé de faire tous les checks automatiques (arrêt pas propre, ou test régulier) sans écrire les corrections.

Une fois le check terminé, tu peux ainsi analyser la situation et décider quoi faire :

  • écrire les corrections
  • revoir les connexions
  • recontruire un disque de données défectueux

 

Tu peux vérifier comment est configuré le check régulier dans le scheduler. J'ai aussi eu la bonne idée de le changer en "correctif" au début en pensant bien faire, avant de bien comprendre les tenants et aboutissants.

Link to comment

Après le check avec correction (207 erreurs trouvées), j'ai lancé un check sans correction pour vérification : 0 erreur trouvée :)

 

Pour résumer, en cas d’arrêt brutal du serveur :

  • Au redémarrage, unraid effectue un check de parité sans correction.
  • Si pas d'erreur rouvée, tout va bien, on passe à autre chose...
  • Si erreurs, contrôle des disques (check SMART) et lancement d'un check de parité avec correction.
  • A fin du check avec correction lancement d'un check sans correction pour vérifier que tout est OK
  • Si les erreurs persistent, il a un problème à découvrir et à régler sur la machine (disque, mémoire,...)

Dis moi cette méthode te semble cohérente, en bref si j'ai compris la logique du système ;-)

 

Je fait un check de parité tous les mois, je l'ai paramétré dans le scheduler sans correction afin de pouvoir les vérifications necessaires en cas d'erreurs.

 

Merci ChatNoir pour ton aide, ça m'a permis de d'avoir les idées plus claires sur ce sujet sensible.

  • Like 1
Link to comment
2 hours ago, nxenara said:

Pour résumer, en cas d’arrêt brutal du serveur :

  • Au redémarrage, unraid effectue un check de parité sans correction.
  • Si pas d'erreur rouvée, tout va bien, on passe à autre chose...
  • Si erreurs, contrôle des disques (check SMART) et lancement d'un check de parité avec correction.
  • A fin du check avec correction lancement d'un check sans correction pour vérifier que tout est OK
  • Si les erreurs persistent, il a un problème à découvrir et à régler sur la machine (disque, mémoire,...)

Dis moi cette méthode te semble cohérente, en bref si j'ai compris la logique du système ;-)

Ca me semble un bon résumé. 👍

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.