Sporadische Read Errors im Array

Pippowicz · March 19, 2021

Hallo zusammen,

seit ca. einem Jahr nutze ich Unraid (Pro) auf folgender Hardware:

Unraid Version: 6.9.1

Xeon E3 1220-V3
Supermicro X10-SL7F
16 GB ECC DDR3
Onboard SAS Controller mit reverse Sata auf SFF8087
Supermicro 12 Bay Gehäuse SC826 mit BPN-SAS2-826EL1 Expander Backplane
Onboard LSI2308 auf IT-Mode geflashed

3x WDC_WD60EFRX 6 TB RED HDD, eine davon als Parity

8x Samsung HD204UI (Mit einen Critical Firmware Update, war für diese Serie angeraten)
2x 128GB SSD als Cache Drive am normalen Sata Controller des Boards
Die Backplane mit den HDDs an 4 Sata Steckern des Onboard Controllers

Das Problem tritt sporadisch auf, Heute hatte ich das Glück am Rechner zu sein als die Nachricht

über Read Errors auf dem Array auf meinem Handy eintraf. Ein kurzer Blick ins Webinterface hat
gezeigt daß die Parity Disk Errors anzeigt, die beiden anderen WD Reds waren zuerst mal unauffällig.

Kurze Zeit später tauchten dort auch Errors auf. Die Samsungs sind von diesem Problem nicht
betroffen.

Die Smart Werte der WDs sehen unauffällig aus. Das Kabel vom Board zur Backplane habe ich testweise

schon ausgetauscht, selbes Ergebnis. Nach einem Reboot ist der Spuk vorbei.

Die Samsung Platten sind noch weitgehend leer.

Wo setze ich nun am besten an um den Fehler weiter einzugrenzen bzw. welche Daten könnte ich Euch noch
anbieten?

Anbei noch ein Screenshot von der Array Aufteilung.

Grüße, Chris

mgutt · March 20, 2021

Es wäre hilfreich gewesen, wenn du die Systemlogs/Diagnostics gesichert hättest, bevor du neugestartet hast. Jetzt kennen wir ja nicht die Fehlermeldungen.

Hast du mal einen Parity Check gemacht? Wenn die Parity bereits kaputt ist, ist das kein sicherer Zustand mehr.

Pippowicz · March 20, 2021

Hallo @mgutt, Danke für Deine Antwort.

Der Parity Check nach dem Neustart läuft ohne Fehler durch. Aber der Hinweis ist schonmal klasse, ich lade

beim nächsten Auftreten des Fehlers die Systemlogs hier hoch.

Edit: Und hier ist die Diagnostic:

Ich habe versucht den Fehler zu provozieren, die Parity Disk war im Standby, Cache war auf dem Share auf

No gestellt. Die Daten wurden auf eine der Samsungs geschrieben und die Parity Disk ist auch aufgewacht.

Screenshot und Diagnostic anbei.

Firmware vom SAS Controller sollte die aktuellste sein:

Mar 20 09:01:24 Jupiter kernel: mpt2sas_cm0: LSISAS2308: FWVersion(20.00.07.00), ChipRevision(0x05), BiosVersion(07.39.02.00)

Ergänzen möchte ich noch daß die Smart Werte der HDD scheinbar doch nicht unauffällig sind - es gibt Hinweise auf UNC Errors,

die allerdings nicht in der Tabelle weiter oben aufgeführt sind.

Chris

jupiter-diagnostics-20210320-1010.zip

Edited March 20, 2021 by Pippowicz
zusätzlich Infos

mgutt · March 20, 2021

8 hours ago, Pippowicz said:

UNC Errors

Unkorrigierbare Fehler? Das heißt, dass Sektoren kaputt sind oder dazu tendieren. Steigt dieser Wert? Dann weg mit der Platte.

Pippowicz · March 20, 2021

Ich möchte nichts gut reden und ich möchte bestimmt nicht an einer neuen HDD sparen wenn diese

definitiv defekt ist, allerdings stört mich das man an den Smart Attributes nichts sehen kann.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   200   200   051    -    0
  3 Spin_Up_Time            POS--K   198   189   021    -    9083
  4 Start_Stop_Count        -O--CK   091   091   000    -    9253
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0
  9 Power_On_Hours          -O--CK   080   080   000    -    14949
 10 Spin_Retry_Count        -O--CK   100   100   000    -    0
 11 Calibration_Retry_Count -O--CK   100   100   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    553
192 Power-Off_Retract_Count -O--CK   200   200   000    -    522
193 Load_Cycle_Count        -O--CK   198   198   000    -    8737
194 Temperature_Celsius     -O---K   138   109   000    -    14
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    0
198 Offline_Uncorrectable   ----CK   200   200   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   200   200   000    -    0

Weiter unten im Log heisst es allerdings:

Quote

Error 4 [3] occurred at disk power-on lifetime: 14947 hours (622 days + 19 hours)
When the command that caused the error occurred, the device was in standby mode.

After command completion occurred, registers were:
ER -- ST COUNT LBA_48 LH LM LL DV DC
-- -- -- == -- == == == -- -- -- -- --
40 -- 51 00 00 00 00 00 00 4f 20 40 00 Error: UNC at LBA = 0x00004f20 = 20256

Commands leading to the command that caused the error were:
CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name
-- == -- == -- == == == -- -- -- -- -- --------------- --------------------
60 04 00 00 00 00 00 00 00 4b 20 40 00 01:08:46.930 READ FPDMA QUEUED
e5 00 00 00 00 00 00 00 00 00 00 00 00 01:06:08.446 CHECK POWER MODE
ec 00 00 00 01 00 00 00 00 00 00 00 00 01:06:08.445 IDENTIFY DEVICE
ec 00 00 00 00 00 00 00 00 00 00 00 00 01:06:08.445 IDENTIFY DEVICE
e5 00 00 00 00 00 00 00 00 00 00 00 00 01:06:08.425 CHECK POWER MODE

Bei den anderen beiden WD Reds aus dem selben Zeitraum schaut das Smart Log ähnlich aus. Mich stört das der Reallocated Sector Count

nicht steigt - das sollte nach meinem Verständnis doch bei Beschädigten Sektoren stattfinden?

Es ist einfach merkwürdig daß alle WD Reds laut den Smart Logs ein ähnliches Fehlerbild haben - vom Controller kann das meines Erachtens

auch nicht kommen, das wären dann UDMA CRC Errors.

Der Server steht in einem unbeheizten aber trockenen Kellerraum, der Fehler tritt anscheinend auf wenn die Platten aus dem Spindown aufwachen.

Denkst Du (Ihr) dort könnte es zu kalt sein (Minimum 10°C) oder die Platten mögen den Spindown einfach nicht? Wenn Ihr mir sagt: Schmeiss

raus die Platten kauf ich eben neue, ich möchte einfach nur vorher andere Probleme ausschliessen - Not ist nicht am Mann, ich habe ein Backup.

lg, Chris

Edited March 20, 2021 by Pippowicz

mgutt · March 20, 2021

5 hours ago, Pippowicz said:

allerdings stört mich das man an den Smart Attributes nichts sehen kann

Ne, dann ist auch alles in Ordnung. Ich hatte das so verstanden, dass das "UNC" aus dem Smart Wert stammt.

Ich muss selbst mal recherchieren was UNC Fehler bedeuten, die quasi im Widerspruch zu den SMART Werten stehen.

Pippowicz · March 21, 2021

9 hours ago, mgutt said:

Ne, dann ist auch alles in Ordnung. Ich hatte das so verstanden, dass das "UNC" aus dem Smart Wert stammt.

Das stammt schon aus den Smart Logs, allerdings steigt der Reallocated Sector Count nicht

an - und das müsste er ja imho.

Ich war mir nicht ganz sicher ob ich nicht auf dem Holzweg bin mit meiner Schlussfolgerung.

Es kann sein dass doch vielleicht was mit dem LSI Treiber nicht in Ordnung ist, der Spuk hat

kurz nach dem Update auf 6.9.1 begonnen - ob das nur ein Zufall ist oder nicht, wer weiß?

Vielleicht mag mein Modell der Reds ja auch einfach den HDD Standby nicht. Laut aktuellem
Stand sind davon auch nur die WDs betroffen, die Samsung sind allerdings von der Füllmenge

gerade mal so angekratzt.

ich wollte eh wenn mal Zeit und überschüssiges Geld da ist konsolidieren und die Samsungs

rauswerfen - jetzt stellt sich aber eher die Frage ob ich nicht alle HSSs tausche und bei Bedarf

dann einfach einen neue dazustecke.

Viele Dank schonmal und lg, Chris

Edited March 21, 2021 by Pippowicz

mgutt · March 21, 2021

Ich kann mir nicht vorstellen, dass das an den HDDs liegt. Also sektorenmäßig meine ich. Eher die Verbindung oder vielleicht defekter RAM oder so. Weil der kann ja auch eine Parität kaputt rechnen. Oder hast du ECC RAM?

Pippowicz · March 21, 2021

Ich habe ECC Ram auf dem Board.

Kabel (Reverse Sata auf SFF8087 weil das Board Controllerseitig nur Sata Stecker hat) habe ich

schon getauscht. Würde Backplane (ist eine Expander Backplane, Typ steht im Startpost) sowie

der Onboard Controller noch übrig bleiben.

Oder es hängt halt doch irgenwo anders, aber da tue ich mir schwer mit dem lokalisieren.

Hier nochmal ein Ausschnitt aus dem Syslog, der Sektor steigt noch eine Weile weiter in

8er Schritten.

Mar 20 10:09:32 Jupiter kernel: mpt2sas_cm0: log_info(0x31080000): originator(PL), code(0x08), sub_code(0x0000)
### [PREVIOUS LINE REPEATED 30 TIMES] ###
Mar 20 10:09:32 Jupiter kernel: sd 7:0:0:0: [sdd] tag#6138 UNKNOWN(0x2003) Result: hostbyte=0x00 driverbyte=0x08 cmd_age=9s
Mar 20 10:09:32 Jupiter kernel: sd 7:0:0:0: [sdd] tag#6138 Sense Key : 0x3 [current] 
Mar 20 10:09:32 Jupiter kernel: sd 7:0:0:0: [sdd] tag#6138 ASC=0x11 ASCQ=0x0 
Mar 20 10:09:32 Jupiter kernel: sd 7:0:0:0: [sdd] tag#6138 CDB: opcode=0x88 88 00 00 00 00 00 00 00 4f 20 00 00 04 00 00 00
Mar 20 10:09:32 Jupiter kernel: blk_update_request: critical medium error, dev sdd, sector 20256 op 0x0:(READ) flags 0x0 phys_seg 128 prio class 0
Mar 20 10:09:32 Jupiter kernel: md: disk0 read error, sector=20192
Mar 20 10:09:32 Jupiter kernel: md: disk0 read error, sector=20200
Mar 20 10:09:32 Jupiter kernel: md: disk0 read error, sector=20208

Kann ich Platten einfach in andere Slots stecken (auch die Parity) ohne meine Unraid Konfig

oder mein Array zu zerschiessen? Dann würde ich das mal testen.

Quote

When the command that caused the error occurred, the device was in standby mode.

Ich hatte Dir ja geschrieben daß der Fehler nach HDD Standby auftritt - das steht so auch

im unteren Bereich des Smart Logs - da könnte ich auch einfach mal testen die WDs nicht mehr

in den Standby zu schicken. Zeit für HDD-Standby steht bei mir auf 1 Stunde.

Edited March 21, 2021 by Pippowicz

mgutt · March 21, 2021

9 hours ago, Pippowicz said:

Kann ich Platten einfach in andere Slots stecken (auch die Parity) ohne meine Unraid Konfig

oder mein Array zu zerschiessen?

Ja. Aber mach zur Vorsicht trotzdem einen Screenshot von der Disk-Übersicht.

Pippowicz · March 21, 2021

Dann mache ich mich mal dran Morgen die Platten in den Slots der Backplane zu tauschen, viel verspreche ich mir

zwar nicht davon da Verkabelungsprobleme eigentlich an UDMA CRC Errors sichtbar sein sollten (Korrigier mich wenn

ich hier falsch liege), aber dann wäre auch das ausgeschlossen.

Außerdem versuche ich mal ob das nur auftritt wenn die Platten aus dem Standby aufwachen.

Außerdem habe ich noch einen Ersatz LSI Controller hier liegen den ich bei Bedarf auch noch testen könnte, dann würde

das Reverse SFF Kabel auch entfallen.

Melde mich dann mit neuen Erkenntnissen zurück.

mgutt · March 21, 2021

Was ich mir evtl vorstellen kann, dass die Firmware der HDD früher schlafen geht, als es Unraid anweist. Man kann ja mit hdparm direkt in der Firmware den Timer verändern. Ist jetzt nur reine Theorie, aber vielleicht ist es das?!

Pippowicz · March 22, 2021

Moin,

ich schau mir das später mal in Ruhe an, zumindest bin ich mit meinen Rückschlüssen wohl nicht ganz auf dem Holzweg, sonst

hättest Du mich vermutlich gestopt. Das an den Platten irgendwas Firmwaremäßig verstellt ist kann natürlich auch sein, die haben

eine Geschichte bei mir. Ich hab die zwar neu gekauft, aber die waren schonmal in einer Synology und einer OMV bis ich zu Unraid

gekommen bin.

Da muss ich mir mal sehen ob man die Parameter irgenwie auf die Werkseinstellungen zurücksetzen kann.

Edited March 22, 2021 by Pippowicz

mgutt · March 22, 2021

2 hours ago, Pippowicz said:

Da muss ich mir mal sehen ob man die Parameter irgenwie auf die Werkseinstellungen zurücksetzen kann.

Dafür muss man den Standardwert glaube ich erstmal von einer neuen Platte kennen. So kannst du jedenfalls den aktuellen Wert auslesen:

hdparm -I /dev/sdd | grep level

Bei meinen Ultrastar kommt da:

Advanced power management level: Disabled

Pippowicz · March 22, 2021

Einen Level gibts nicht, ich hab Dir per

hdparm -I /dev/sdd > /mnt/user/Archiv/hdparm.txt

hdparm -I /dev/sdd > /mnt/user/Archiv/hdparm.txt

mal die Antwort in eine Textdatei geschrieben - APM scheint die Platte nicht zu supporten.

Ich mach mich mal auf den Weg zur Arbeit, später gehts weiter.

Denkst Du es würde Sinn machen ein Support Ticket bei WD aufzumachen?

hdparm.txt

mgutt · March 22, 2021

Scheinbar werden die Red nicht von hdparm unterstützt:

https://withblue.ink/2016/07/15/what-i-learnt-from-using-wd-red-disks-to-build-a-home-nas.html

Also am besten mit dem WDIdle Tool deaktivieren:

https://www.computerbase.de/forum/threads/wd-red-10tb-probleme-mit-hdd-standby-und-smart.1741415/

Pippowicz · March 22, 2021

Das Feature war bei all meine WD Platten aus. Die Herausforderung war das Tool erstmal aus eine .deb Paket zu

kriegen, weil ich auf dem Server nicht kompilieren kann

root@Jupiter:~# idle3ctl -g /dev/sdd
Idle3 timer is disabled
root@Jupiter:~# idle3ctl -g /dev/sde
Idle3 timer is disabled
root@Jupiter:~# idle3ctl -g /dev/sdf
Idle3 timer is disabled

Die Platten legen sich allerdings trotzdem schlafen, im Smart log steht ja auch daß der Fehler im Standby aufgetreten

ist. So langsam bin ich mit meinem Latein am Ende ich überlege ob ich mich nicht einfach von den HDDs trennen soll.

Die uralten Samsungs machen gar keinen Ärger.

Du schließt vermutlich Ärger mit dem SAS Treiber aus, oder? Und es deutet alles darauf hin daß Plattenintern etwas schief

läuft nach allem was wir bisher zusammengesammelt haben, oder?

Für dieses LCC Problem gab es ein Firmwareupdate seitens WD, das hatte ich damals bei allen 3 HDDs durchgeführt.

Was denkst Du, macht es Sinn Backplane Slots zu tauschen?

Edited March 22, 2021 by Pippowicz

mgutt · March 22, 2021

Das betrifft doch nur die Parität oder? Dann könntest du ja nur die tauschen.

Beim Rest bin ich überfragt. Das einzige was man noch probieren könnte, wäre ein anderer Anschluss am Board.

mgutt · March 22, 2021

Hier selber Fehler und angeblich Disk kaputt:

Aber ich muss noch in die ZIP schauen ob der Smart Fehler hatte.

Pippowicz · March 22, 2021

10 minutes ago, mgutt said:

Das betrifft doch nur die Parität oder? Dann könntest du ja nur die tauschen.

Im Moment ja, ich müsste mal versuchen ohne Cache auf eine der anderen WDs zu schreiben. Ganz sicher

bin ich mir da nicht - ich muss zugeben daß das nicht das erste mal war.

Mir ist es nur das erste mal aufgefallen als ich auf die 6.9 Beta / RC geupdated habe und dann hab ich wieder

ein Rollback gemacht und alles war gut. Ich meine es waren damals aber ALLE WD Reds betroffen.

Pippowicz · March 22, 2021

Nein, das betrifft die anderen WD Reds auch. Reconstruct Write ist an, deswegen wachen alle HDDs auf,

bisher haben aber nur die REDs Ärger gemacht.

Schreiben auf Platten ohne Standby:

Schreiben auf Platten mit Standby:

Ich häng hier auch nochmal die Aktuelle Diagnostic an und probier noch ne Weile ob ich das auch provozieren kann

wenn die Platten nicht im Standby sind.

Die Temperatur würde ich nun auch ausschließen wollen, die Platten waren warm (20°C)

jupiter-diagnostics-20210322-1513.zip

Edited March 22, 2021 by Pippowicz

mgutt · March 22, 2021

Ja, das ist dann komisch. Es werden ja wohl kaum alle drei gleichzeitig defekt sein und alle den selben Fehler haben. Wobei, Murphy würde widersprechen ^^

Lies doch mal die sdf komplett aus in den Mülleimer:

dd if=/dev/sdf of=/dev/null bs=128k

Kommt es dabei zu Lesefehlern?

Pippowicz · March 22, 2021

Im Fehlerfall oder einfach so?

Ich stress grad die HDDs ohne Standby. Wenns mir stinkt dreh ich Dein Kommando rum...

Edited March 22, 2021 by Pippowicz

mgutt · March 22, 2021

8 minutes ago, Pippowicz said:

Im Fehlerfall oder einfach so?

Einfach so. Damit mal alle Sektoren ausgelesen werden. dd liest die komplette Platte von vorne bis hinten aus.

Pippowicz · March 22, 2021

Ich weiß was dd macht, nur die Ideen fehlen mir jetzt so langsam

Danke für Deine Hilfe, ich habe Deinen Code mal in drei Screen Sessions gepackt und lass mal alle WDs ins Nirvana kopieren

Sporadische Read Errors im Array

Recommended Posts

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Join the conversation