Jump to content

Umgang mit Festplatten-Fehler


seyz
Go to solution Solved by seyz,

Recommended Posts

Hallo liebe Community,

 

mein Unraid ist hpts. Datenserver. VMs hab ich keine und in Docker einen Container. Da ich den Server nicht immer brauche, fahre ich Unraid auch mal herunter. Hierbei gibt es immer wieder Probleme und das Herunterfahren muss von mir erzwungen werden. Dadurch habe ich nun eine Meldung über 1024 Fehler an einer meiner Festplatten in der Arry-Übersicht. Nach einem solchen erzwungenen Neustart, startet die Paritätprüfung automatisch. Diese habe ich abgebrochen. Dafür einen erweiterten Smartselbsttest durchgeführt, der fehlerfrei abgeschlossen werden konnte.

Meine Frage ist nun: wie bekomme ich diese Fehlermeldung wieder weg? Durch eine Paritätsprüfung? Oder ist das genau der falsche Weg, weil ich so die Fehler auf die Parität schreibe?

 

Viele Grüße

Felix

Link to comment
1 minute ago, seyz said:

Meine Frage ist nun: wie bekomme ich diese Fehlermeldung wieder weg? Durch eine Paritätsprüfung? Oder ist das genau der falsche Weg, weil ich so die Fehler auf die Parität schreibe?

 

Ob nun die Parität die Fehler hat oder die Datenfestplatte(n) oder gar beide kann weder unraid noch wir sagen.

 

Wenn Du nicht weißt ob die Daten Deiner Datenfestplatten okay sind, prüfe erst diese gegen Dein Backup oder so.

Wenn Du dann weißt, daß Deine Daten auf den Datenfestplatten korrekt sind, laß bei einem kompletten Paritätscheckdie Parität korrigieren.

Wenn es Dir egal ist, wo die Fehler sind und Du nur die Meldung wegbekommen willst: laß bei einem kompletten Paritätscheckdie Parität korrigieren.

 

Unraid kann mit der Parität gegen einen Ausfall absichern, aber um Datenbsicherheit/-integrität abzusichern sind weitere Sachen notwendig:

Backup, Checksummen, etc...

Das kann unraid "out of the Box" nicht leisten.

  • Like 1
Link to comment
3 hours ago, seyz said:

Durch eine Paritätsprüfung? Oder ist das genau der falsche Weg, weil ich so die Fehler auf die Parität schreibe?

 

Waren das Sync Fehler? Wenn Du mehr als eine Datenplatte hast, dann musst Du das Standardverfahren anwenden - Parity korrigieren. Sonst werden Fehler bei einem Ausfall einer weiteren Datenplatte auf dieser weiteren Platte erzeugt. Parity muss passen sonst erzeugt man weitere Fehler. Datenplatten haben immer Recht, selbst wenn auf Ihnen Müll liegt... Es wird immer Richtung Parity gesynct. Nur bei einem Rebuild geht es in die andere Richtung.

 

Da hilft auch kein Backup wenn mitten im Schreiben neuer Daten der Stecker gezogen wird.

 

Also: Bei Sync Fehlern - Parity Prüfung durchlaufen lassen. Bei Schreib-/Lesefehlern wieder melden.

Edited by hawihoney
  • Like 1
Link to comment

  

3 hours ago, DataCollector said:

 

Ob nun die Parität die Fehler hat oder die Datenfestplatte(n) oder gar beide kann weder unraid noch wir sagen.

 

Wenn Du nicht weißt ob die Daten Deiner Datenfestplatten okay sind, prüfe erst diese gegen Dein Backup oder so.

Wenn Du dann weißt, daß Deine Daten auf den Datenfestplatten korrekt sind, laß bei einem kompletten Paritätscheckdie Parität korrigieren.

Wenn es Dir egal ist, wo die Fehler sind und Du nur die Meldung wegbekommen willst: laß bei einem kompletten Paritätscheckdie Parität korrigieren.

 

Unraid kann mit der Parität gegen einen Ausfall absichern, aber um Datenbsicherheit/-integrität abzusichern sind weitere Sachen notwendig:

Backup, Checksummen, etc...

Das kann unraid "out of the Box" nicht leisten.

 

Mhm spannend und schade. Danke für die Information.

Eigentlich ist ja aber "gegen Ausfall" auch nicht ganz korrekt. Im Endeffekt hilft die Parität dann wirklich nur, wenn ein Festplatte (oder zwei) richtig sterben. Und auch dann hilft mir die Parität nur, wenn ich mir sicher bin, dass meine Parität sich nicht schon automatisch "falsche" Informationen besorgt hat oder?

Hast du mir evtl. noch eine Info oder einen Link, wo ich mich zu Checksummen belesen kann? Oder ein Plugin?

Bin für jeden Rat dankbar.

 

Viele Grüße

Edited by seyz
Quote hinzugefügt
Link to comment
1 minute ago, hawihoney said:

 

Waren das Sync Fehler? Wenn Du mehr als eine Datenplatte hast, dann musst Du das Standardverfahren anwenden - Parity korrigieren. Sonst werden Fehler bei einem Ausfall einer weiteren Datenplatte auf dieser weiteren Platte erzeugt. Parity muss passen sonst erzeugt man weitere Fehler. Datenplatten haben immer Recht, selbst wenn auf Ihnen Müll liegt... Es wird immer Richtung Parity gesynct. Nur bei einem Rebuild geht es in die andere Richtung.

 

Ich weiß nicht wodurch diese Fehler entstanden sind. Vielleicht durch das erzwungene Herunterfahren, aber eigentlich waren Schreibvorgänge abgeschlossen. Ich weiß auch nicht, wie ich bestimmen kann was fehlerhaft ist oder ob ich das überhaupt irgendwie kann. Ist das möglich?
Wenn ich dich aber richtig verstanden habe, habe ich eigentlich (da ich mehr als eine Datenplatte habe) gar keine große Wahl. Parity korrigieren.
Da ich noch kein vollständiges Backup habe, muss ich wohl damit leben.

Link to comment
16 minutes ago, seyz said:

Eigentlich ist ja aber "gegen Ausfall" auch nicht ganz korrekt

 

Doch.

 

16 minutes ago, seyz said:

Hast du mir evtl. noch eine Info oder einen Link, wo ich mich zu Checksummen belesen kann? Oder ein Plugin?

Bin für jeden Rat dankbar.

 

Das Verfahren ist im Unraid Manual beschrieben. Uneven Parity Calc. Ist bei allen RAID Systemen mehr oder weniger das selbe zugrunde liegende Verfahren. Weder Unraid noch Dein System sind da Besonders. Ich wette das die Datenplatte in Ordnung ist und die Parity korrigiert werden muss. Hat was mit der Reihenfolge der Abläufe zu tun. Auch diese vier Schritte sind im Manual beschrieben. Such mal nach dem Performance Abschnitt.

 

Moderne Dateisysteme haben Transaktions-Logs und arbeiten die beim Reboot ab. Dadurch kann es beim Crash zu Unterschieden kommen. Muss halt nur gesynct werden.

 

Die Frage ist nur: Wieso der Crash. Passierte hier 2x in 15 Jahren. Einmal wars der Elektriker vom Markisenbauer, einmal ein nasser Stecker an der Brunnenpumpe ...

 

Edited by hawihoney
  • Like 1
Link to comment

Ich habe keine Ahnung warum sich die Kiste nciht herunterfahren lässt. Ich werde aber das Gefühl nciht los, dass es was mit dem StandBy der Platten zu tun hat.

Aber auch hier muss ich mich erst mal in den Aufbau der Logs, Speicherort usw. einarbeiten um zu verstehen, wo ich überhaupt hilfreiche Informationen zum Problem bekomme.

Danke für den Hinweis auf den Abschnitt des Manuels. Werde ich mir, wie auch Uneven Parity Calc, mal anschauen.

Link to comment

Also um den "Fehler" erstmal weg zu bekommen, hilft nur ein Parity Check (mit aktivierter Korrektur). Dabei werden nicht die Daten geschrieben, sondern nur die Parität. Geht also nichts bei kapput.

 

Das andere Problem ist das "kann nicht runterfahren" und "erzwungener Neustart".

Bei "kann nicht runterfahren" ist normalerweise irgendeine Datei blockiert. Du sagst, Du hast keine VMs und nur einen Docker? Dann versuche beim nächsten Mal den Docker vorher von Hand zu beenden und schaue dann. Auch hilft das Plugin "open Files", es zeigt Dir an, welche Dateien gerade in Benutzung sind.

 

Wie schon von anderen empfohlen sollte man das Zeitlimit vom erzwungenen Neustart hochsetzen zur Sicherheit.

 

Und zu guter Letzt: es gibt auch SATA Controller, mit denen Unraid so seine Probleme haben. Sie verändern die Daten noch nachdem die Parität geschrieben wurde und erzeugen bei jedem Neustart Paritätsfehler. Aber meist nur so 5 bis 8 und auch meist immer dieselben Sektoren. Überprüfe, ob Deine Hardware von dem Problem betroffen ist.

 

  • Like 1
Link to comment
11 hours ago, seyz said:

Eigentlich ist ja aber "gegen Ausfall" auch nicht ganz korrekt. Im Endeffekt hilft die Parität dann wirklich nur, wenn ein Festplatte (oder zwei) richtig sterben.

Hast du mir evtl. noch eine Info oder einen Link, wo ich mich zu Checksummen belesen kann? Oder ein Plugin?

 

Mit Ausfall meinte ich den Ausfall einer (bzw. 2) Festplatten/Datenträger im Array.

 

Thema Checksummen:

Checksummen können aber nur zeigen, ob es dem gechecksummten Zustand entspricht. Nicht reparieren!

Somit weiß man wenigstens ob die Dateien okay oder verändert sind.

 

a) im Appstore gibt es dazu ein Plugin, bei dem ich aber auch 'bedenkliche Anzeigen' gestoßen bin, die mir vom Autor nicht erklaert werden konnten/wollten. Wodurch ich dem Plugin nach längeren Tests nicht mehr vertraute und es wieder entfernt habe.

b) ich erstelle von meinen Dateisammlungen (die mir wichtig sind) per Windowsbatch checksummen (md5) und lege sie auch auf der jeweiligen Festplatte mit ab. Sporadisch, bei fraglichem Datenstand der Festplatten oder nach Hardwareumbauten lasse ich die Checksummen auch überprüfen.

So finde ich recht schnell ob sich zu dem vorher gechecksummten Zustand eine Veränderung ergeben hat. Sollte das der Fall sein, schlägt die Stunde der Backups um dort die (hoffentlich noch unveränderten) Dateien zu nehmen und dem Datenbestand wieder zuzufügen.

 

Hier ein Screenshot, wie das dann in dem jeweiligen Verzeichnis mit einer Checksummendatei aussieht:

 

check--Screenshot 2023-11-09 095143.png

 

 

Und hier das Plugin, welches sich selbstständig um sowas kümmern will, bei der ich aber zu viele unbeantwortete Fragen erlebt habe (trotz Anfragen im Supportbereich dazu):

DFI-Screenshot 2023-11-09 095812.png

Edited by DataCollector
Screenshot Plugin
  • Like 1
Link to comment
11 hours ago, hawihoney said:

Das Verfahren ist im Unraid Manual beschrieben. Uneven Parity Calc. Ist bei allen RAID Systemen mehr oder weniger das selbe zugrunde liegende Verfahren. Weder Unraid noch Dein System sind da Besonders. Ich wette das die Datenplatte in Ordnung ist und die Parity korrigiert werden muss. Hat was mit der Reihenfolge der Abläufe zu tun. Auch diese vier Schritte sind im Manual beschrieben. Such mal nach dem Performance Abschnitt.

 

Nur zur Vollständigkeit:

Ich meinte wirklich Checksummen nicht die Quersumme. Ich meinte nicht die Funktion der Parität, sondern die Information ob eine/viele Datei/en noch dem gewünschten Zustand/Original entsprechen.

 

unraid selber hat keine Möglichkeit mitzuteilen ob sich eine Datei zu einem vorherigen Zustand verändert hat.

Das kann man schnell mit Checksummen machen.

Stichworte: Bitrot, Verschluesselungstrojaner, Bedienfehler, etc...

Viele Backupprogramme und auch diverse Packer erzeugen Checksummen um den Inhalt schnell zu prüfen und einen defekten Daten/Imagestand zu testen/erkennen.

 

  • Like 1
Link to comment
1 hour ago, DataCollector said:

Nur zur Vollständigkeit

 

Ich hatte nur dem Thread-Ersteller geantwortet.

 

So unter uns: Ich hatte auch anfangs über MD5 Verfahren nachgedacht. Als alter Entwickler hätte ich das aber selbst gebaut. Später habe ich mich dagegen entschieden. Bisher - ToiToiToi - nach 15 Jahren, 3 Servern, knapp 80 Festplatten, ist noch nicht eine Differenz beim Sync aufgetreten, die sich nicht durch Stromausfall oder defekte Kabel erklären ließen. Mittlerweile bin ich, was das Thema angeht, völlig entspannt.

 

  • Like 1
Link to comment
On 11/9/2023 at 12:13 AM, alturismo said:

mal den timeout erhöht ? wenn die Platten älter sind ... brauchen die ggf. etwas länger ... und wenn dann noch mehrere drin sind ...

[...]

Hallo @alturismo, danke für dein Input. Ich habs gleich mal angepasst.

On 11/9/2023 at 8:03 AM, MAM59 said:

Also um den "Fehler" erstmal weg zu bekommen, hilft nur ein Parity Check (mit aktivierter Korrektur). Dabei werden nicht die Daten geschrieben, sondern nur die Parität. Geht also nichts bei kapput.

Hallo @MAM59 Die Paritätsprüfung ist nun abgeschlossen. Deshalb auch meine verspätete Antwort. Es wurde 1 Fehler gefunden.
grafik.png.7b2d5423bf7a32da19a90c6d02c35996.png

Hinter der betroffenen Festplatte steht nun aber eine noch höhere Zahl an Fehlern: 4096

On 11/9/2023 at 8:03 AM, MAM59 said:

[...]

Bei "kann nicht runterfahren" ist normalerweise irgendeine Datei blockiert. Du sagst, Du hast keine VMs und nur einen Docker? Dann versuche beim nächsten Mal den Docker vorher von Hand zu beenden und schaue dann. Auch hilft das Plugin "open Files", es zeigt Dir an, welche Dateien gerade in Benutzung sind. [...]

 

Und zu guter Letzt: es gibt auch SATA Controller, mit denen Unraid so seine Probleme haben. Sie verändern die Daten noch nachdem die Parität geschrieben wurde und erzeugen bei jedem Neustart Paritätsfehler. Aber meist nur so 5 bis 8 und auch meist immer dieselben Sektoren. Überprüfe, ob Deine Hardware von dem Problem betroffen ist.

Den Docker manuell zu stoppen, habe ich bereits versucht. Das hat nichts geändert.

Der SATA-Controller ist eine LSI 9201-16e in Kombination mit einer Intel® RAID Expander Card RES2SV240 (auf die bin ich erst durch dieses Forum gekommen) und einer EXPANDER-KARTE HP 487738-001 (ähnlich, glaube nicht, dass ich da HP verbaut habe). Hat in dieser Konfig unter Windows einwandfrei funktioniert.

On 11/9/2023 at 9:56 AM, DataCollector said:

[...]Thema Checksummen:

Checksummen können aber nur zeigen, ob es dem gechecksummten Zustand entspricht. Nicht reparieren!

Somit weiß man wenigstens ob die Dateien okay oder verändert sind.

[...]

Hallo @DataCollector, mit den Chesummen wüsste ich in jedem Fall schon mal mehr als jetzt. Deshlab meiner Mienng nach ein hilfreicher Ansatz. Danke!

Du scheinst dich ja intensiv damit beschäftigt zu haben. Ich denke, ich werde trotz deiner Einwände erstmal das Plugin nutzen müssen, da mir schlicht das Wissen fehlt um sinnvolle Ergebnisse ohne Plugin zu schaffen. Aber danke, dass du das gleich offen gelegt hast.

On 11/9/2023 at 11:37 AM, hawihoney said:

[...]So unter uns: Ich hatte auch anfangs über MD5 Verfahren nachgedacht. Als alter Entwickler hätte ich das aber selbst gebaut. Später habe ich mich dagegen entschieden. Bisher - ToiToiToi - nach 15 Jahren, 3 Servern, knapp 80 Festplatten, ist noch nicht eine Differenz beim Sync aufgetreten, die sich nicht durch Stromausfall oder defekte Kabel erklären ließen. Mittlerweile bin ich, was das Thema angeht, völlig entspannt.

Hallo @hawihoney, genau das hatte ich wirklich oft hinsichtlich Unraid gelesen. Das war der Grund zu wechseln. Blöd, dass ich jetzt genau gegenteilige Erfahrung machen muss 🤣.
Wie gesagt hat der Paritätscheck noch mehr Fehler auf der Festplatte gefunden.

Kann es sein, dass mit dem Kabel evtl. was nicht passt und es deshlab zu Lese-/Schreibfehlern kommt?

 

Gruß
Felix

 

Link to comment
20 minutes ago, seyz said:

Vielleicht nochmal für alle der aktuelle Stand:

grafik.png.d7952827b4c29832ca96fb633637930d.png

wie oben schon gesagt, ist bei der Prüfung aber nur 1 Fehler gefunden worden.

 

Okay, da ist etwas im Argen.

Dort sollten keine Fehler auftauchen.

Hier würde ich auch erst einmal die Verkabelung austauschen/genau begutachten (ggf. Stecker mal abziehen und neu aufstecken).

 

Ich habe mal eine SATA Kabelverlegung (von dünnen SATA Kabeln) zu sehr gebogen/-knickt.

Danach bekamen alle daran angeschlossenen Festplatten schnell steigende CRC Errorwerte.

Kabel getauscht und keine Probleme mehr.

 

Link to comment
1 hour ago, seyz said:

Kann es sein, dass mit dem Kabel evtl. was nicht passt und es deshlab zu Lese-/Schreibfehlern kommt?

 

Keine Ahnung. Wenn ich aber Dein Screenshot oben anschaue, dann sind das doch keine Parity Sync Fehler sondern Schreib-/Lesefehler. Sind alle Platten SATA oder gibt es auch USB? Poste mal eine Diagnostics Datei. Ich will mal die SMART Werte von z.B. Disk1 sehen.

 

Link to comment
43 minutes ago, hawihoney said:

Keine Ahnung. Wenn ich aber Dein Screenshot oben anschaue, dann sind das doch keine Parity Sync Fehler sondern Schreib-/Lesefehler. Sind alle Platten SATA oder gibt es auch USB? Poste mal eine Diagnostics Datei. Ich will mal die SMART Werte von z.B. Disk1 sehen.

raider-diagnostics-20231111-1505.zipIch hoffe es hilft.
Mit dem Tauschen der Kabel würde ich noch warten, da ich um einen Neustart nicht drum rumkomme und dann (etwas das ich wirklich nicht verstehe) alle Logs weg sind.

Es gibt keine USB-Platten.

Edited by seyz
Frage vergessen zu beantworten
Link to comment
4 hours ago, seyz said:

Ich hoffe es hilft.

 

Guck mal in Deine syslog - die ältere. Die ist voll mit Lesefehlern und Device Resets. Es dreht sich um den Adapter und die Platte sdy. Die Platte hat extrem viele CRC Error - Verbindungs Problem.

 

Nov  9 13:18:25 raider kernel: I/O error, dev sdy, sector 8315879856 op 0x0:(READ) flags 0x0 phys_seg 46 prio class 2
...
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    3399

 

Edited by hawihoney
Link to comment

Ok. Danke für deine Rückmeldung und Hilfe.

Die sdy ist eine der beiden Platten für die Parität.
Liegt bestimmt an einem der billigen SFF-8087 auf Sata. Ich weiß immer nich woher ich verlässliche Kabel bekommen kann ohne gleich so viel zu zahlen wie für ne HDD. Ist das auch das Problem der HDD sdt?
 

Link to comment
11 hours ago, seyz said:

Liegt bestimmt an einem der billigen SFF-8087 auf Sata. Ich weiß immer nich woher ich verlässliche Kabel bekommen kann ohne gleich so viel zu zahlen wie für ne HDD.
 

Ich habe mit SFF auf SATA Krakenkabeln ab ca. 14 Euro aufwärts nie diese Probleme gehabt.

Egal ob nun Neuware von Delock oder gebraucht oder auch neu beim ebay Händler (immer nach Preisen sortiert).

Wenn Du Qualitaet haben willst, sind gebrauchte Kabel von prof. Serversystemen eine gute Wahl (von entsprechenden Secondhand Händlern). Da sind dann auch einige ungewöhnliche Stecker und Längenkombinationen möglich, die man sonst auf dem Markt nicht günstig bekommt.

 

Wenn Du schon mehrere (korrekt verdrahtete) durchprobiert hast und bei allen diese Fehler ansteigen, liegt das Problem nicht direkt in den Kabeln. Kontaktschwierigkeiten bei den Steckverbindern?

 

 

Edited by DataCollector
Typo
  • Like 1
Link to comment
5 hours ago, seyz said:

Danke @hawihoney. Steht schon mal nicht 0

199 UDMA_CRC_Error_Count    -OSRCK   200   188   000    -    12679

@DataCollector vielleicht ein guter Ansatz. Ich werde mal nicht nur das Kabel wechseln sondern auch den Controller.

 

Viele Grüße

 

Verwendest Du Wechselrahmen für die Festplatten?

 

Hintergrund:

Ich hatte mal eine etwas ältere Backplate, die anscheinend nur für SATA-2 (3GByte/s) vorgesehen war.

Kabelwechsel oder abstecken, reinigen und neu anstecken halfen alles nicht. Auch Wechsel der Ports am Kontroller (bzw. in dem Fall am SAS Expander) halfen nichts. Der CRC Fehlerzähler dieser einen Festplatte (im 24er Hotswap Gehäuse) lief hoch.

Wie sich herausstellte haben Festplatte und Kontroller/SAS Expander SATA-3 (6GByte/s) ausgehandelt (was auch dem Stand der Technik entsprach).

Leider ergaben sich dann diese wachsenden CRC Fehler. Als ich den Rahmen (bzw. die darin verwendete Backplate) gegen eine andere ersetzt hatte, war das Fehlerbild verschwunden und die CRC Fehler wuchsen bei ansonsten identischer Technik (Kontroller, Kabel, Stromversorgung) nicht mehr an.

 

Vor dem Hintergrund:

Sollte jemand anderes als ich noch die alten Inter-Tech IPC-4U-4324L Gehäuse verwenden, dort gibt es 2 unterschiedliche Backplates. einmal die Gelben und einmal die Grünen.  Ich hatte ca. 2014 anscheinend noch eine Lieferung eines alten Gehäuses bekommen. Zum Glück war nur eine der 6  grünen Backplates betroffen, so daß ich sie gegen die gelbfarbene eines anderen Inter-tech Gehäuses (welches ich billig geschossen hatte) ersetzen konnte.

Link to comment
6 hours ago, seyz said:

12679

 

Das ist, wie ich vermutet hatte, eindeutig und eindeutig zu viel. Du hast ein Hardware Problem und das liegt auf dem Weg bis zur Festplatte.

 

Kannst ja mal die SMART Werte aller Platten durchgehen. Wenn es eine gibt mit 0 Fehlern, dann kannst Du vielleicht die Anbindung eingrenzen. Das bringt natürlich nur etwas wenn es unterschiedliche Anbindungen gibt (Motherboard, Adapter, Backplane oder nicht, etc.).

 

Positioniere Dich in den Ordner mit den SMART Dateien und ruf folgendes auf. Dann hast Du alle Werte der Platten auf einen Blick:

 

grep "UDMA_CRC_Error_Count" *.txt

 

Edited by hawihoney
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...