Paritätsprüfung findet immer Fehler


obscure
Go to solution Solved by mgutt,

Recommended Posts

Hallo zusammen,

 

ich habe vor ca. 2 Monaten, aufgrund eines Defekts, Mainboard/Prozessor/Ram getauscht.

Ich lasse jede Woche am Sonntag eine Paritätsprüfung laufen.

Seit dem Tausch des Mainboards werden immer Fehler bei der Prüfung gefunden.

Ich hatte vorher dabei nie welche.

Wenn ich es richtig sehe, sind das auch immer die gleiche Anzahl (372) an Fehlern.

Ich habe nun alle Festplatte prüfen lassen, und keine Fehler festgestellt auch die Smartwerte sind alle in Ordnung.

Kann das irgendwie mit der Hardwareänderung zusammenhängen?

Kann ich in irgendwelchen Logs genauer sehen was genau da der Fehler ist um der Sache auf den Grund zu gehen?

Danke schonmal

 

  • Upvote 1
Link to comment
1 hour ago, obscure said:

Wenn ich es richtig sehe, sind das auch immer die gleiche Anzahl (372) an Fehlern.

Keine Hilfe, nur meine Erfahrung:

Dito. Ich habe seit langem bei jeder Prüfung entweder 5 oder 10 Paritätsfehler (auf beiden Systemen).

Ich hatte hier ja auch einmal nach einem Tool/Befehl gefragt, um aus den gemeldeten Positionen die dort angesiedelten Dateien (auf allen Platten) zu ermitteln. (leider bisher keine Lösung).

Deshalb hatte ich auch auf Dynamix FileIntegrity gesetzt. Doch nachdem das Tool (DFI) bei mir nicht so funktioniert, wie es erwartete, habe ich es auf einem System schon wieder entfernt (leider gehen auch mit clear die Checksummen aus den Atributen nicht weg und im Supportthread wurde versucht zu helfen - leider erforlglos).

 

Lange Rede kurzer Sinn: Ich werde wieder dazu über gehen externe Checksummen zu pflegen und auch auf mein Backup zu hoffen.

Wo diese Fehler her kommen habe ich bisher nicht einmal erahnen können.

Bisher hat mein Datenbestand keine defekten Dateien ergeben (per externer Checksumme und ggf. binärem Vergleich mit QuellPC geprüft).

Ich vermute also (ins Blaue hinein), daß die Paritätsfehler bei meinen Systemen wirklich nur auf den Paritätsplatten liegen.

 

1 hour ago, obscure said:

Kann ich in irgendwelchen Logs genauer sehen was genau da der Fehler ist um der Sache auf den Grund zu gehen?

In den Logs kann die Bitposition der Fehler ermittelt werden.

Leider ist das die Position auf allen Datenträgern im Array und solange ich die darauf liegenden Dateien nicht herausbekommen kann, habe ich nicht einmal einen Ansatzpunkt um auch nur zu erahnen, ob es etwas mit einer manuellen Änderung meinerseits oder so zu tun hat.

 

Link to comment

Hier die Hardware :

Mainboard : Gigabyte H510M S2H
Prozessor : Intel® Core™ I5-10400 CPU @ 2.90GHz
Ram : 32GB DDR4
GPU : GeForce GTX 950
Parität       : WDC_WD60EFRX-68MYMN1_WD-WX41D948YCN9 - 6 TB (sdd)
Datenträger 1 : WDC_WD60EFAX-68SHWN0_WD-WX32D20HKRU8 - 6 TB (sdc)
Datenträger 2 : WDC_WD60EFRX-68MYMN1_WD-WX41D94RNKJZ - 6 TB (sde)
Datenträger 3 : WDC_WD60EFRX-68L0BN1_WD-WX11D28H9LSJ - 6 TB (sdf)
Cache         : CT1000P2SSD8_2129E5B838F9 - 1 TB (nvme0n1
Flash            :  Voyager - 8.2 GB (sdb)

Die Festplatten sind mit den Sata Ports vom Mainboard verbunden also keine extra Controller oder sowas.
Die Cache NVME sitzt auch direkt auf dem Mainboard

Link to comment

Wenn die SMART Werte der Platten keine CRC Fehler zeigen, also die Kabelverbindung in Ordnung ist, dann bleibt eigentlich nur der RAM oder eine der Platten macht irgendwas komisches. Es ist auf jeden Fall nicht normal und darf auf niemals so sein. Ich mache nur 1x pro Quartal Checks und hatte noch nie Fehler.

  • Upvote 1
Link to comment

Danke für den Hinweis.

Auf den RAM bin ich in meinem "Wahn" gar nicht gekommen.

Ich habe nun memtest durchlaufen lassen, ohne Fehler.

Der RAM scheint also OK zu sein.

Ist es eventuell möglich, dass es sich dabei um einen Anzeigefehler handelt, der unter irgendwelchen Umständen auftritt?

Ist es möglich Unraid diese Fehler bis zur nächsten Prüfung "vergessen" zu lassen um zu sehen ob sich das Ganze wiederholt?

Eventuell macht es auch Sinn die Paritätsplatte mal neu einzubinden?

Edited by obscure
schreibfehler
Link to comment
16 hours ago, obscure said:

Ist es eventuell möglich, dass es sich dabei um einen Anzeigefehler handelt,

Nein. unRAID nimmt die "Quersumme" der Daten von Disk1, Disk2... und vergleicht das mit der "Quersumme" die auf der Parität gespeichert ist. Wenn das nicht passt, dann wurden die Daten irgendwo verändert, ohne dass unRAID das mitbekommen hat und das ist ein kritisches Problem, weil du niemals ein Laufwerk 1:1 wiederherstellen kannst.

 

"Irgendwo" ist hier auch ein Problem. Denn du kannst nicht wissen, ob das Problem auf der Parität besteht oder irgendeiner Disk.

 

Poste mal deine Diagnostics. Vielleicht sehen wir da was.

Link to comment

Was mir alles aufgefallen ist:

 

Tausende Einträge zu NFS Mountversuchen (die Dateinamen fand ich sensibel, weshalb ich deine ZIP gelöscht habe):

rpc.mountd[6641]: refused mount request from 192.168.2.245 for /Musik

 

BIOS Error?! Gibt es zufällig ein Update?

Oct  4 16:25:58 Unraid kernel: ACPI BIOS Error (bug): Failure creating named object [\ADBG], AE_ALREADY_EXISTS (20220331/dswload2-326)
Oct  4 16:25:58 Unraid kernel: ACPI Error: AE_ALREADY_EXISTS, During name lookup/catalog (20220331/psobject-220)
Oct  4 16:25:58 Unraid kernel: ACPI: Skipping parse of AML opcode: OpcodeName unavailable (0x0014)
...
Oct  4 16:25:58 Unraid kernel: ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PC00.PGON.PBGE], AE_NOT_FOUND (20220331/psargs-330)
Oct  4 16:25:58 Unraid kernel: ACPI Error: Aborting method \_SB.PC00.PGON due to previous error (AE_NOT_FOUND) (20220331/psparse-529)
Oct  4 16:25:58 Unraid kernel: ACPI Error: Aborting method \_SB.PC00.PEG1.PG01._ON due to previous error (AE_NOT_FOUND) (20220331/psparse-529)

 

Ansonsten ist die Log unvollständig. Du solltest syslog mirror aktivieren, deinen NFS Mount korrigieren und dann noch mal die Diagnostics posten, wenn du wieder Fehler beim Parity Check hast, damit wir die Fehler auch in den Logs sehen können.

 

 

Link to comment

Danke fürs reinschauen in die Logs.

Hab jetzt Syslog lokal aktiviert.

Die NFS Fehler rühren von einem alten Sync-Job, welchen ich eingerichtet hatte um meine Musik vom Rechner auf das NAS zu bekommen.

An den hab ich gar nicht mehr gedacht, der war falsch eingerichtet und ich mache das mittlerweile auch anders.

Den hab ich jetzt entfernt das sollte also nicht mehr auftauchen.

Ein BIOS Update gibt es leider nicht mehr für das Board ...

Die nächste Prüfung ist Sonntag Nacht ... ich werde dann hier Rückmeldung geben.

Danke

 

Link to comment

Leider sind wieder Fehler aufgetreten.

Jedoch ist kein Logfile in dem von mir festgelegten Ordner angekommen.

Ich hab mal meine Syslog-Einstellungen angehängt müsste aber so richtig sein.

Ich konnte jetzt doch ein BIOS Update durchführen.

Ich hatte das Problem, dass das Board aus einem Hyrican-PC ist und das BIOS ein entsprechend angepasstes von Gigabyte ist (bzw. bis jetzt war).

Ich musste mit einem Tool von AMI BIOS das Original Gigabyte BIOS neu schreiben und danach dann das BIOS updaten.

Die Fehlermeldungen scheinen aber weiterhin aufzutreten.

Ich meine mich auch zu erinnern hier im Forum öfter mal von Problemen in Verbindung mit Gigabyte Mainboards gelesen zu haben.

Nochmal die Frage ob es Sinn machen würde die Paritätsplatte zu entfernen, zu "nullen" und dann wieder einzubinden und die Parität neu aufbauen zu lassen?

Falls irgendwie Änderung stattgefunden haben, wo denen die Parität nichts weiss, sollte sich das dann doch damit erledigen, oder seh' ich das falsch?

Wenn das Sinn macht würde ich das mal probieren bevor ich mir ein neues Mainboard zulege.

Screenshot 2022-10-12 221527.png

Link to comment
2 hours ago, obscure said:

Leider sind wieder Fehler aufgetreten.

Ich vermute, Du meinst wieder die Meldung von einer Anzahl von Fehlern bei einer Paritätsprüfung?

Dieselben oder andere aber vielleicht in gleicher Zahl?

 

2 hours ago, obscure said:

Ich hab mal meine Syslog-Einstellungen angehängt müsste aber so richtig sein.

Wenn ich einen Fehler Suche lasse ich auf den Bootstick loggen.

 

2 hours ago, obscure said:

Ich meine mich auch zu erinnern hier im Forum öfter mal von Problemen in Verbindung mit Gigabyte Mainboards gelesen zu haben.

Ich habe ebanfalls gelgentlich Paritätsfehler auf meinen beiden Systemen, doch auch wenn ein System mit Gigabyte Mainboard läuft ist das andere ein Fujitsu (siehe Signatur).

Doch da es in der Regel immer die gleiche Anzahl von Fehlern ist (beim Fujitsu in der Regel 10) und ich auch die Paritästdisks (jeweils 2) schon mal neu erstellt habe, habe ich noch keinen gemeinsmen Nenner gefunden, ausser, daß die Systeme vorher keinen sauberen Shutdown machen wollten.

Seitdem versuche ich in der Regel erst das Array manuell zu stoppen (was auch ab und zu nicht klappt, bis ich ein Konsolenfenster öffne) und dann Shutdown.

Dann geschieht beim nächsten Start selbstverstaendlich keine automatische Partitätsprüfung, und auch, wenn ich die dann manuell starte finden die die Systeme keine Fehler.

Da jede Paritätsprüfung aber mehr als 1 Tag dauert habe ich das problem noch nicht weiter gesucht.

Da es zwei voneinander unabhängige Systeme betrifft, tippe ich eher auf ein Softwareproblem, als ein Hardwareproblem.

 

2 hours ago, obscure said:

Nochmal die Frage ob es Sinn machen würde die Paritätsplatte zu entfernen, zu "nullen" und dann wieder einzubinden und die Parität neu aufbauen zu lassen?

Wenn Du bei der Paritätsprüfung angehakt hast, dass er die korrigieren sollte, sollte nach einem lauf die Parität stimmen. Ein vorheriges Nullen ändert daran nichts.

Ich glaube nicht,d ass das Nullen vor der neuerstellung das bessern würde.

Hast Du mal direkt 2 mal nacheinander Paritätsprüfung mit eingeschalteter Korrektur durchgeführt?

Gab es beim zweiten Mal auch noch Fehler (dieselben)?

 

2 hours ago, obscure said:

Falls irgendwie Änderung stattgefunden haben, wo denen die Parität nichts weiss, sollte sich das dann doch damit erledigen, oder seh' ich das falsch?

Schon die Paritätsprüfung mit eingeschalteter Korrektur sollte das erledigen. Man weiss aber nicht was sich geändert hat: Datei(en) auf den Datenplatten oder die Paritätsbits auf der Paritätsplatte. Das ist das Dilemma: Man kann zwar im Log sehen, welche Positionen geaendert wurden, aber nicht welche Datei(en) konkret betroffen sein koennten.

Es bleibt also nur alle Dateien binaer entweder mit zusätzlichen Checksummen oder einem Backup zu vergleichen.

 

 

SYSLOG-to-Flash-2022-10-13 00_58_39-102 Tessa Main.png

Link to comment
  • Solution
10 hours ago, obscure said:

Ich meine mich auch zu erinnern hier im Forum öfter mal von Problemen in Verbindung mit Gigabyte Mainboards gelesen zu haben.

Bestimmt nicht.

 

10 hours ago, obscure said:

Nochmal die Frage ob es Sinn machen würde die Paritätsplatte zu entfernen, zu "nullen" und dann wieder einzubinden und die Parität neu aufbauen zu lassen?

Bringt nichts

 

10 hours ago, obscure said:

Falls irgendwie Änderung stattgefunden haben, wo denen die Parität nichts weiss, sollte sich das dann doch damit erledigen, oder seh' ich das falsch?

Häh? Die Parität enthält die "Quersumme" aller Datendisks. Wenn du die nullst, sind alle diese Berechnungen natürlich weg, also die Parität leer. Du würdest sie dann komplett neu aufbauen lassen. Das ändert unter dem Strich aber nichts daran, dass sich Daten einfach so ändern.

 

Wenn sich die Daten während dem Betrieb, also ohne Neustart, einfach so ändern, dann kann es eigentlich nur folgendes sein:

- defekter RAM

- defekte CPU

- defekte Sektoren auf einer der HDDs

 

Ich tippe mittlerweile auf Letzteres.

 

Mach mal bei allen HDDs einen erweiterten SMART Test.

Link to comment
  • 2 weeks later...

Um es kurz zu machen es war die Paritätsplatte selbst.

Unraid konnte, warum auch immer, auf der HDD keine Fehler feststellen, trotz erweitertem Smart Test.

Ich hab' die dann, mittels Hirens Boot CD, alle durchgetestet, was ewig gedauert hat.

Dabei wurden dann fehlerhafte Sektoren auf der Paritätsplatte festgestellt.

Die hab' ich nun auch schon getauscht und der Paritätstest ist auch ohne Fehler durchgelaufen.

Warum Unraid da jetzt keinen Fehler gefunden hat ist mir ein Rätsel.

Um zu prüfen ob Unraid damit nicht allgemein ein Problem hat, habe ich mal eine Platte angeschlossen, von der ich wusste, dass die defekte Sektoren hat.

Bei der konnte das Unraid sofort feststellen.

Hinterlässt ein ungutes Gefühl aber so ist es nunmal.

Danke für die Hilfe.

 

 

Link to comment
4 hours ago, obscure said:

Warum Unraid da jetzt keinen Fehler gefunden hat ist mir ein Rätsel.

Weil der SMART Test von der Firmware der HDD gemacht wird und soweit ich weiß macht der nur einen Lesetest. Und die Parität wird auch nur gelesen beim Check.

 

Damit Fehler auffallen, müsste man alle Sektoren beschreiben und anschließend wieder auslesen. Also was zb das Preclear Plugin macht.

 

Das aber die HDD selbst nichts ins SMART schreibt, ist komisch. Jetzt auch noch keine Fehler drin? Welches Modell?

Link to comment

Das war eine WDC WD60EFRX 68MYMN1 (6TB).

Ich hab sie danach nicht nochmal ins System gebaut.

Hatte aber eine andere getestet, von der ich wusste, dass die fehlerhaft ist, bei der Unraid dann sofort den Fehler erkannt hat.

Das wiederum war eine Toshiba HDWD130 X9TKRDJAS (3TB)

Ich kann die WDC aber gerne nochmal ins System stecken und preclear laufen lassen.

Link to comment

So ich hab die WDC nochmal ins System gesteckt und einen Smart-Test laufen lassen.

Bei Letztes SMART Prüfergbnis: steht, nach dem Test, weiterhin Ohne Fehler abgeschlossen jedoch bekomme ich jetzt in gelber Farbe Current Pending Sector unter Attribute angezeigt.

Das war vorher nicht der Fall.

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.