Diks 2 Lesefehler, Hardware zu schwach?


Go to solution Solved by DataCollector,

Recommended Posts

Hallo an alle,

 

Ich habe seit Wochen immer das selbe Problem Lesefehler auf Disk 2. die ersten zwei mal habe ich sogar noch neue Platten gekauft... zum ende habe Ich hab oft einfach Array aus -> betroffene Disk aus dem Array entfernen -> Array Start -> Array aus -> Disk wieder rein und Array wieder starten, gemacht. So hat er disk als Neu erkannt und über die Pärity neu aufgebaut. Denn eigentlich kann es nicht an der Platte liegen. Die letzte die von Unraid mit Lesefehlern betitelt wurde war keine 48 Stunden alt.

 

Ich habe beobachtet das die Lesefehler immer dann kommen wenn der Server unter Last ist und dann der Pärity check startet. Zum testen habe ich auch mal Docker abgeschlatet und den Test durchgezogen, ergebniss kein Problem.

 

Der Server ist ein:

Intel® Core™ i5-4460 CPU @ 3.20GHz

32 GB Ram

Nvidia Quadro P620

8 HDD´s hängen an DELL H200 6Gbps SAS HBA

die restlichen 3 sind auf dem Mainboard -> Disk 2 ist eine von denen die am H200 hängen.

 

all das an einem 500w Netzteil...

 

Und da auch mein Verdacht, kann es sein das wenn alles zusammen läuft der Strom einfach nicht reicht und dadurch Lesefehler enstehen und Unraid dann gezwungen ist die Platte raus zu werfen?

und weiter:

-Gibt es eine möglichkeit eine von Unraid rausgeworfene Disk einfach so wieder einzubinden? Also wenn ich weiß das es nicht an der Disk liegt?

-Wie könnte ich weiter Prüfend vorgehen?

 

Ich hänge mal eine frische Diagnose an, ist von jetzt wo ich wieder Disk 2 über die Parity neu befülle...

tower-diagnostics-20240323-0848.zip

Link to comment
2 hours ago, N0_Headshot said:

Ich habe seit Wochen immer das selbe Problem Lesefehler auf Disk 2.

 

8 HDD´s hängen an DELL H200 6Gbps SAS HBA

die restlichen 3 sind auf dem Mainboard -> Disk 2 ist eine von denen die am H200 hängen.

 

Und da auch mein Verdacht, kann es sein das wenn alles zusammen läuft der Strom einfach nicht reicht und dadurch Lesefehler enstehen und Unraid dann gezwungen ist die Platte raus zu werfen?

 

Wenn es der Strom wäre, würde ich mir vorstellen, daß die Fehler wandern oder ist diese Disk2 eine besonders stromfressende Festplatte?

Nur so zum Testen würde ich die Festplatte mal anders anschließen. Ein anderer Port des Kontrollers oder gar an das Mainboard hängen und beobachten ob der Fehler bei der Disk2 bleibt oder ob dann andere Festplatten diese Probleme haben, die an Position der ehemaligen Disk2 angeschlossen sind.

 

Auffällig: Disk2 ist eine Seagate SkyHawk +Rescue 4TB, SATA CMR 5900Rpm 6Gb/s (ST4000VX016)

Die haben für DVB Unterstützung ja eine spezielle Firmware, die bei Engpässen (eigentlich für Videostreams) auch Bits verwerfen darf. Könnte es damit zusammen hängen?

 

Nebenbemerkung:

Du verwendest eine lustige Mischung aus CMR und SMR Festplatten verschiedenster Drehzahlen in Deinem System.

Wobei mich am meisten irritiert, daß Du eine SMR als Parity einsetzt. Aber wenn es bisher geklappt hat und Dich weiter nicht stört...

Wenn Dein array viel schreibt, bricht durch SMR die Schreibrate nach einiger Zeit stark ein, weshalb die Parity möglichst keine SMR sein sollte. Aber ich glaube nicht, daß dies etwas mit dem aktuellen Problem zu tun hat.

 

Edited by DataCollector
Link to comment
Posted (edited)
Quote

Mischung aus CMR und SMR Festplatten verschiedenster Drehzahlen

 

Danke schonmal dafür wieder was gelernt :)

also besser wäre alles einheitlich? oder wäre das nur Nice-to-have?

 

Disk2 ist jetzt die besagte Seagate war aber vorher schon verschiedene andere Platten. Ich habe am anfang immer eine neue gekauft wenn das Problem wieder aufkam.

Hab jetzt hier im Schrank noch eine WD Red und eine Toshiba liegen die auch nach wenigen Tagen dann auf dem Disk2 mit Lesefehlern zum erliegen kam.

Deswegen habe ich dann eine Zeitlang die beiden im wechsel verbaut. Jetzt war die tage bei Mindfactory die Seagate im angebot und ich dachte probiers nochmal. 

Leider selbes problem nach ca. 48 stunden, nach meinen beobachtungen im zusammenhang mit überlast durch den Paritätsscan.

 

Jetzt ist der Server wieder down. komme weder per Browser noch per Putty auf ihn rauf.

Bildschirm angeschlossen und er zeigt das, kann da irgendwer was mit anfangen? Ich muss jetzt wieder hardreseten, wüsste mir nicht anders zu helfen... leider ist ja dann das Protokoll leer..

IMG_20240323_134220.jpg

Edited by N0_Headshot
Link to comment
4 hours ago, N0_Headshot said:

also besser wäre alles einheitlich? oder wäre das nur Nice-to-have?

 

Da die Parity signifikant die Performance des Array beeinflußt tendiere ich dazu zu empfehlen die Parityfestplatte sollte immer die flotteste von allen sein (sofern die Größe paßt). SMR ist dabei eben eher schlecht. Besser macht man da einen Bogen um SMR.

7200RPM Platten sind eigentlich immer schneller als 5400 oder 5900 RPM Platten.

Die Datenfestplatten hingegen werden ja schreibend weniger belastet so (da sie per Defaulteinstellung durch die Parity ausgebremst werden), daß ich dort auch SMR als akzeptabel ansehe (gibt aber Leute mit dahingehend anderer Meinungen). Wenn man die Wahl hat, sind (meiner persönlichen Meinung nach) zwar auch da CMR und 7200 Rpm zu bevorzugen, aber das ist ja der Vorteil von unraid, das ist bei den Datenfestplatten nicht wirklich pingelig.

Einige Leute bevorzugen dennoch 5400 oder 5900 RPM Platten, weil diese bei den Leuten wohl leiser laufen. Das ist also eine persönliche Entscheidung. Im Wohn- oder Schlafzimmer wäre ich auch sehr auf die Lautstärke ausgerichtet, aber meine System sind in einem abgeschotteten Raum und da stört mich die Geräuschkulisse eher weniger.

 

4 hours ago, N0_Headshot said:

Hab jetzt hier im Schrank noch eine WD Red und eine Toshiba liegen die auch nach wenigen Tagen dann auf dem Disk2 mit Lesefehlern zum erliegen kam.

 

Waren die alle an der selben Stelle montiert (gleiche Kabel, gleicher Kontroller, gleiche Backplane?)?

Die Geschichte deutet nicht wirklich darauf hin, daß es ein Problem der Disk2 ist, weil Du die ja schon ein paar mal durchgetauscht hast.

 

4 hours ago, N0_Headshot said:

Leider selbes problem nach ca. 48 stunden, nach meinen beobachtungen im zusammenhang mit überlast durch den Paritätsscan.

 

Du kannst ja mal versuchen das Netzteil zu tauschen, aber ich fahre in meinem kleineren System 7Daten+1Paritydisk an einem Corsair RM550x und das ist aktuell für bis zu 15 Festplatten ausgelegt (+ Wechselrahmen mit Extralüftern, mehrere SSD etc...). Mit den 8 Disks die gleichzeitig starten, schluckt das System rund 145W.

Wenn ich Deine Diagnostics richtig durchgezählt habe, hast Du 10 Festplatten + 500GB SATA SSD und den Bootstick dran.

Ich glaube nicht, daß ein Paritycheck Deines oder auch meines Systemes wirklich die Grenzen eines 550W Netzteiles ausreizen würde (sofern das Netzteil nicht defekt ist).

 

4 hours ago, N0_Headshot said:

Bildschirm angeschlossen und er zeigt das, kann da irgendwer was mit anfangen? Ich muss jetzt wieder hardreseten, wüsste mir nicht anders zu helfen... leider ist ja dann das Protokoll leer..

 

Das man das Syslog auf den USB Stick schreiben kann ist Dir bekannt?

Für Diagnosezwecke ist das gut. Sollte man aber nicht unnötig laufen lassen, da es den Flashstick beschreibt udn der nur endliche Schreibzyklen durchsteht.

 

Was das Bildschirmfoto angeht: Meine Kenntnisse sind zu schwach, als daß ich das analysieren könnte.

Aber nur so als Idee, wenn ich die Kernel-Panik meldung lese: Hast Du schon mal den Arbeitsspeicher (RAM) intensiv getestet?

Da auch bei der Paritygeschichte immer viel Ram im Spiel ist könnte ein defekter Speicher vielleicht eine Ursache all Deiner Probleme sein?

 

Link to comment

 

Quote

....

CMR und 7200 Rpm zu bevorzugen, aber das ist ja der Vorteil von unraid, das ist bei den Datenfestplatten nicht wirklich pingelig.

....

 

Mit der Geschwindigkeit das leuchtet mir ein, hatte aber genau auch im kopf das Unraid da nicht so pingelig ist und hatte mich mehr am Preis als an den Stats der Platten orientiert. Da die Preise für HDDs ziemlich nach oben gegangen sind werden das auch erst mal die HDDs sein die ich verwende bis sie aufgeben. In weiter Zukunft hätte ich sowieso lieber 16 TB statt 4 TB Platten aber da sind wir noch nicht 😅

 

Quote

Waren die alle an der selben Stelle montiert (gleiche Kabel, gleicher Kontroller, gleiche Backplane?)?

Alles gleich. Habe immer nur Platte ab und wieder ran gemacht. Hatte auch schon die Kabel in verdacht aber keiner war übermäßig geknickt oder so.

 

Quote

Das man das Syslog auf den USB Stick schreiben kann ist Dir bekannt?

jetzt wieder, hab ich jetzt mal eingeschaltet. Die Nacht gab es wieder das selbe Problem. Kein zugriff und auf dem angeschlossenen Bildschirm zeigte sich das selbe Bild wie oben...

Lasse die Syslogs auf dem Flash jetzt mal an bis zum nächsten absturz.

 

Quote

Hast Du schon mal den Arbeitsspeicher (RAM) intensiv getestet?

Nicht wirklich, RAM Riegel sind auch aus verschiedenen alt PC´s zusammen gerafft worden 😅

 

Ist nicht Memtest sogar eine startoption von Unraid, oder vertue ich mich? Ansonsten: Wie hätte ich die möglichkeit den RAM zu testen ohne ihn auszubauen usw.

gibts da was?

 

Und vielen dank für die Hilfe und denk Anstöße :)

Link to comment
1 hour ago, N0_Headshot said:

Nicht wirklich, RAM Riegel sind auch aus verschiedenen alt PC´s zusammen gerafft worden 😅

 

Heutzutage macht das zwar eher selten Probleme, aber dennoch kann es eine Ursache sein.

 

1 hour ago, N0_Headshot said:

Ist nicht Memtest sogar eine startoption von Unraid, oder vertue ich mich?

 

Ja.

Lass den mal mindestens 24h oder noch länger auf Deinen Ram einhämmern. Auch dabei findet man nicht alle Fehler, aber meist sind dann doch schon Probleme zu finden.

 

1 hour ago, N0_Headshot said:

Ansonsten: Wie hätte ich die möglichkeit den RAM zu testen ohne ihn auszubauen usw.

gibts da was?

 

Die beiden Memtest86 und memtest86+ sind da eigentlich schon ziemlich gut für geeignet. Da sie beide in ihren testabläufen auch Zufallsmuster testen sind selnbst wiederholende Testdurchläufe nie identisch und somit kan eis sein, daß mal ein ganz seltene sProblem gefunden oder nicht gefunden wird. Auch deshlalb sollte man die schon ziemlich lange laufen lassen, weil die in den Durchläufen immer wieder minimal andere Muster testen.

 

Aber was Du beschreibst deutet ja daraufhin, daß Deine Probleme schon recht füh im normalen betrieb auftauchen. Sollten die RAM  dafür verantwortlich sein, sehe ich die Chance als hoch an, daß ein 24h Durchlauf da schon einen vorhandenen Fehler melden wird.

 

Du könntest auch Dein System einfach mal mit so wenig Ram Riegeln (gleicher bauart) laufen lassen und schauen ob der Fehler wieder auftritt. Wenn ich in der Diagnostics richtig gesehen habe sind zumindest zwei baugleiche Hynix/Hyundai HMT41GU6MFR8C-PB drin. Alternative die anderen Beiden ohne diese Hynix verwenden die mit Manufacturer: "0215" zwar nicht wirklich nach namhaften Riegeln klingen, aber auch wohl zusammenpassen sollten.

 

Link to comment

Ich hab den Ramtest jetzt noch nicht gestartet, stattdessen bin ich durch die "fix" app hierauf aufmerksam gemacht worden. Das würde zumindest die systemaufhänger mit der Kernel Panik erklären. Hab ich jetzt mal umgesetzt. Abwarten.

 

Das löst allerdings nicht mein festplatten Problem, das hatte ich nämlich schon auf 6.12.3 auf der ich vorher war.

 

Werde die Tage mal den memtest machen. 24 Stunden muss ich gut timen😅

 

Ich denke ausbauen werde ich erstmal nicht. Und wenn dann wahrscheinlich nur um die riegel direkt durch 4 neue zu ersetzen. In der Klasse können 32 GB nicht soviel kosten.

 

Ich werde mich melden sobald ich mehr Details habe, danke :)

Link to comment

Ich habe nur mal eben überflogen weil ich versehentlich mal wieder ins Forum gestolpert bin..

 

Wurden die bzw. das betreffende SATA Kabel überprüft?!?

Es kommt durchaus öfter vor daß ein Kabel nicht sauber funktioniert. Da reicht es wenn das Olle Kabel aus der Kiste etwas oxidation angesetzt hat oder irgendwo irgendwann zu stark geknickt war.

 

Das würde ich als nächstes testen.

 

Link to comment
5 hours ago, MartinG said:

Wurden die bzw. das betreffende SATA Kabel überprüft?!?

Es kommt durchaus öfter vor daß ein Kabel nicht sauber funktioniert. Da reicht es wenn das Olle Kabel aus der Kiste etwas oxidation angesetzt hat oder irgendwo irgendwann zu stark geknickt war.

 

Das war der Hintergrund, warum ich das fragte:

https://forums.unraid.net/topic/159009-diks-2-lesefehler-hardware-zu-schwach/?do=findComment&comment=1392437


"Waren die alle an der selben Stelle montiert (gleiche Kabel, gleicher Kontroller, gleiche Backplane?)?
Die Geschichte deutet nicht wirklich darauf hin, daß es ein Problem der Disk2 ist, weil Du die ja schon ein paar mal durchgetauscht hast."

Primär gehe ich auch von einem Problem im SATA Port, Kabel oder Backplane aus.

 

Aber das danach gemeldete Problem mit dem Bildschirmfoto und dem "Kernel Panik" hat mich eben abgehend vom DISK2 Problem auch zu der Vermutung gebracht, daß dieses neue Problem möglichweise mit dem Ram zusammen hängen könnte. (Schuß ins Blaue)

Link to comment
  • Solution
Posted (edited)
On 3/24/2024 at 10:30 PM, N0_Headshot said:

Ich hab damals diesen H200 gekauft, mit den Kabeln da auf dem Bild die hatte ich auch schon eingehend untersucht, sah soweit gut aus. Strom läuft durch sowas.

Sonst soll ich die mal neu kaufen?

 

Bezogen auf Dein DISK2 Problem:

Bevor Du Geld ausgibst: Schließe die Disk2 doch einfach mal Onboard oder einen anderen SAS-Port an.

Laut Deiner Diagnostics hast Du:

ASUS B85M-E (0MB0F60-M0EAY0) (welches laut www.gh.de folgendes bietet)
   4x SATA 6Gb/s
   2x SATA 3Gb/s

Dazu ein 

   SAS 8 Port HBA Kontroller
und daran gemeinsam
   10 SATA Festplatten + 1 SATA SSD

 

Also hast Du 14 SATA/SAS Ports, von denen nur 11 belegt sind.

Also kannst Du die Disk2 doch einfach mal an einen anderen SATA-Port anschließen um zu sehen ob der Fehler mit der Disk mit wandert (was dann kein Kabelproblem mehr sein kann) oder ob sich keines oder ein anderes Fehlerbild zeigt.

 

Benutzt Du Wechselrahmen/Backplanes oder sind die SATA Kabel direkt auf die Festplatten gesteckt?

 

Und nur so zur Info: diese SAS-SATA Breakout Kabel mit den sehr dünnen Aluschirmen und fast keiner Isolierung sind sehr filigran. Aus eigener Erfahrung kann ich sagen, daß ich mal allein durch ein eher eng verlegtes Kabel anscheinend das Signal des Kabels so verschlechtert habe, daß die daran getestete Festplatte spontan im SMART die CRC Fehler massiv hochgezählt hat. Kabel getauscht: keine neuen Fehler mehr.

 

Wenn man etwas mehr mechanische Stabilität braucht könnt eman sich Kabel mit einer etwas dickeren und somit mechanisch stabileren Isolierung suchen:

(Hier nur ein Beispiel, was ich meine)

https://geizhals.de/delock-mini-sas-x4-sff-8087-auf-4x-sata-kabel-83057-a428821.html

 

Edited by DataCollector
Link to comment
Posted (edited)
Quote

Benutzt Du Wechselrahmen/Backplanes oder sind die SATA Kabel direkt auf die Festplatten gesteckt?

Kabel direkt in Platte

 

Kurze Info: Die Nacht sollte ein pärity Check laufen, jetzt stehe ich auf Disk 2 deaktiviert mit wieder 2048 lesefehlern.... Die Zahl ist in 7 von 10 Fällen 2048 oder die Hälfte davon...

 

Ich werde mal die Kabel bei Geizhals bestellen die sehen besser aus als die dünnen Draht Dinger die dabei waren.

 

Wenn ich nachher von der Arbeit komme schaffe ich es vielleicht noch einen SATA vom Board zu testen.

 

Ich denke es macht allerdings so oder so sinn die dünnen SAS Kabel zu ersetzen

 

Gibt es eine Möglichkeit Unraid zu sagen, vielleicht nach Neustart, das er die Platte trotzdem nutzen soll? Also sowas wie Fehler quittieren oder so?

 

Danke für die Tipps und Hilfe :)

Edited by N0_Headshot
Link to comment
  • 2 weeks later...

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.