Jump to content

Sporadische Read Errors im Array


Pippowicz

Recommended Posts

Hallo zusammen, 

 

seit ca. einem Jahr nutze ich Unraid (Pro) auf folgender Hardware:

Unraid Version: 6.9.1

Xeon E3 1220-V3
Supermicro X10-SL7F
16 GB ECC DDR3
Onboard SAS Controller mit reverse Sata auf SFF8087
Supermicro 12 Bay Gehäuse SC826 mit BPN-SAS2-826EL1 Expander Backplane
Onboard LSI2308 auf IT-Mode geflashed

3x WDC_WD60EFRX 6 TB RED HDD, eine davon als Parity

8x Samsung HD204UI (Mit einen Critical Firmware Update, war für diese Serie angeraten)
2x 128GB SSD als Cache Drive am normalen Sata Controller des Boards
Die Backplane mit den HDDs an 4 Sata Steckern des Onboard Controllers

Das Problem tritt sporadisch auf, Heute hatte ich das Glück am Rechner zu sein als die Nachricht

über Read Errors auf dem Array auf meinem Handy eintraf. Ein kurzer Blick ins Webinterface hat 
gezeigt daß die Parity Disk Errors anzeigt, die beiden anderen WD Reds waren zuerst mal unauffällig.

Kurze Zeit später tauchten dort auch Errors auf. Die Samsungs sind von diesem Problem nicht 
betroffen.

Die Smart Werte der WDs sehen unauffällig aus. Das Kabel vom Board zur Backplane habe ich testweise

schon ausgetauscht, selbes Ergebnis. Nach einem Reboot ist der Spuk vorbei.

Die Samsung Platten sind noch weitgehend leer.

Wo setze ich nun am besten an um den Fehler weiter einzugrenzen bzw. welche Daten könnte ich Euch noch
anbieten?

Anbei noch ein Screenshot von der Array Aufteilung.

Grüße, Chris

Unraid.png

Link to comment

Hallo @mgutt, Danke für Deine Antwort.

Der Parity Check nach dem Neustart läuft ohne Fehler durch. Aber der Hinweis ist schonmal klasse, ich lade 

beim nächsten Auftreten des Fehlers die Systemlogs hier hoch.

Edit: Und hier ist die Diagnostic:

Ich habe versucht den Fehler zu provozieren, die Parity Disk war im Standby, Cache war auf dem Share auf

No gestellt. Die Daten wurden auf eine der Samsungs geschrieben und die Parity Disk ist auch aufgewacht.

 

Screenshot und Diagnostic anbei.

Firmware vom SAS Controller sollte die aktuellste sein: 

Mar 20 09:01:24 Jupiter kernel: mpt2sas_cm0: LSISAS2308: FWVersion(20.00.07.00), ChipRevision(0x05), BiosVersion(07.39.02.00)

Ergänzen möchte ich noch daß die Smart Werte der HDD scheinbar doch nicht unauffällig sind - es gibt Hinweise auf UNC Errors,

die allerdings nicht in der Tabelle weiter oben aufgeführt sind.

 

Chris

2021-03-20 10_15_14-Jupiter_Syslog.png

jupiter-diagnostics-20210320-1010.zip

Edited by Pippowicz
zusätzlich Infos
Link to comment

Ich möchte nichts gut reden und ich möchte bestimmt nicht an einer neuen HDD sparen wenn diese 

definitiv defekt ist, allerdings stört mich das man an den Smart Attributes nichts sehen kann.

 

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   200   200   051    -    0
  3 Spin_Up_Time            POS--K   198   189   021    -    9083
  4 Start_Stop_Count        -O--CK   091   091   000    -    9253
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0
  9 Power_On_Hours          -O--CK   080   080   000    -    14949
 10 Spin_Retry_Count        -O--CK   100   100   000    -    0
 11 Calibration_Retry_Count -O--CK   100   100   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    553
192 Power-Off_Retract_Count -O--CK   200   200   000    -    522
193 Load_Cycle_Count        -O--CK   198   198   000    -    8737
194 Temperature_Celsius     -O---K   138   109   000    -    14
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    0
198 Offline_Uncorrectable   ----CK   200   200   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   200   200   000    -    0


Weiter unten im Log heisst es allerdings: 

 

Quote

Error 4 [3] occurred at disk power-on lifetime: 14947 hours (622 days + 19 hours)
  When the command that caused the error occurred, the device was in standby mode.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 00 00 00 00 00 00 4f 20 40 00  Error: UNC at LBA = 0x00004f20 = 20256

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 04 00 00 00 00 00 00 00 4b 20 40 00     01:08:46.930  READ FPDMA QUEUED
  e5 00 00 00 00 00 00 00 00 00 00 00 00     01:06:08.446  CHECK POWER MODE
  ec 00 00 00 01 00 00 00 00 00 00 00 00     01:06:08.445  IDENTIFY DEVICE
  ec 00 00 00 00 00 00 00 00 00 00 00 00     01:06:08.445  IDENTIFY DEVICE
  e5 00 00 00 00 00 00 00 00 00 00 00 00     01:06:08.425  CHECK POWER MODE


Bei den anderen beiden WD Reds aus dem selben Zeitraum schaut das Smart Log ähnlich aus. Mich stört das der Reallocated Sector Count

nicht steigt - das sollte nach meinem Verständnis doch bei Beschädigten Sektoren stattfinden?

Es ist einfach merkwürdig daß alle WD Reds laut den Smart Logs ein ähnliches Fehlerbild haben - vom Controller kann das meines Erachtens

auch nicht kommen, das wären dann UDMA CRC Errors.

Der Server steht in einem unbeheizten aber trockenen Kellerraum, der Fehler tritt anscheinend auf wenn die Platten aus dem Spindown aufwachen.

Denkst Du (Ihr) dort könnte es zu kalt sein (Minimum 10°C) oder die Platten mögen den Spindown einfach nicht? Wenn Ihr mir sagt: Schmeiss

raus die Platten kauf ich eben neue, ich möchte einfach nur vorher andere Probleme ausschliessen - Not ist nicht am Mann, ich habe ein Backup.

 

lg, Chris

Edited by Pippowicz
Link to comment
5 hours ago, Pippowicz said:

allerdings stört mich das man an den Smart Attributes nichts sehen kann

Ne, dann ist auch alles in Ordnung. Ich hatte das so verstanden, dass das "UNC" aus dem Smart Wert stammt.

 

Ich muss selbst mal recherchieren was UNC Fehler bedeuten, die quasi im Widerspruch zu den SMART Werten stehen.

 

Link to comment
9 hours ago, mgutt said:

Ne, dann ist auch alles in Ordnung. Ich hatte das so verstanden, dass das "UNC" aus dem Smart Wert stammt.

 

Das stammt schon aus den Smart Logs, allerdings steigt der Reallocated Sector Count nicht

an - und das müsste er ja imho.

Ich war mir nicht ganz sicher ob ich nicht auf dem Holzweg bin mit meiner Schlussfolgerung.

 

Es kann sein dass doch vielleicht was mit dem LSI Treiber nicht in Ordnung ist, der Spuk hat

kurz nach dem Update auf 6.9.1 begonnen - ob das nur ein Zufall ist oder nicht, wer weiß? 

Vielleicht mag mein Modell der Reds ja auch einfach den HDD Standby nicht. Laut aktuellem
Stand sind davon auch nur die WDs betroffen, die Samsung sind allerdings von der Füllmenge

gerade mal so angekratzt.

ich wollte eh wenn mal Zeit und überschüssiges Geld da ist konsolidieren und die Samsungs

rauswerfen - jetzt stellt sich aber eher die Frage ob ich nicht alle HSSs tausche und bei Bedarf

dann einfach einen neue dazustecke.

 

Viele Dank schonmal und lg, Chris

Edited by Pippowicz
Link to comment

 

 

Ich habe ECC Ram auf dem Board.

Kabel (Reverse Sata auf SFF8087 weil das Board Controllerseitig nur Sata Stecker hat) habe ich

schon getauscht. Würde Backplane (ist eine Expander Backplane, Typ steht im Startpost) sowie 

der Onboard Controller noch übrig bleiben.

Oder es hängt halt doch irgenwo anders, aber da tue ich mir schwer mit dem lokalisieren.

Hier nochmal ein Ausschnitt aus dem Syslog, der Sektor steigt noch eine Weile weiter in

8er Schritten.

 

Mar 20 10:09:32 Jupiter kernel: mpt2sas_cm0: log_info(0x31080000): originator(PL), code(0x08), sub_code(0x0000)
### [PREVIOUS LINE REPEATED 30 TIMES] ###
Mar 20 10:09:32 Jupiter kernel: sd 7:0:0:0: [sdd] tag#6138 UNKNOWN(0x2003) Result: hostbyte=0x00 driverbyte=0x08 cmd_age=9s
Mar 20 10:09:32 Jupiter kernel: sd 7:0:0:0: [sdd] tag#6138 Sense Key : 0x3 [current] 
Mar 20 10:09:32 Jupiter kernel: sd 7:0:0:0: [sdd] tag#6138 ASC=0x11 ASCQ=0x0 
Mar 20 10:09:32 Jupiter kernel: sd 7:0:0:0: [sdd] tag#6138 CDB: opcode=0x88 88 00 00 00 00 00 00 00 4f 20 00 00 04 00 00 00
Mar 20 10:09:32 Jupiter kernel: blk_update_request: critical medium error, dev sdd, sector 20256 op 0x0:(READ) flags 0x0 phys_seg 128 prio class 0
Mar 20 10:09:32 Jupiter kernel: md: disk0 read error, sector=20192
Mar 20 10:09:32 Jupiter kernel: md: disk0 read error, sector=20200
Mar 20 10:09:32 Jupiter kernel: md: disk0 read error, sector=20208


Kann ich Platten einfach in andere Slots stecken (auch die Parity) ohne meine Unraid Konfig

oder mein Array zu zerschiessen? Dann würde ich das mal testen.

 

Quote

When the command that caused the error occurred, the device was in standby mode.


Ich hatte Dir ja geschrieben daß der Fehler nach HDD Standby auftritt - das steht so auch

im unteren Bereich des Smart Logs - da könnte ich auch einfach mal testen die WDs nicht mehr

in den Standby zu schicken. Zeit für HDD-Standby steht bei mir auf 1 Stunde.

Edited by Pippowicz
Link to comment

Dann mache ich mich mal dran Morgen die Platten in den Slots der Backplane zu tauschen, viel verspreche ich mir

zwar nicht davon da Verkabelungsprobleme eigentlich an UDMA CRC Errors sichtbar sein sollten (Korrigier mich wenn

ich hier falsch liege), aber dann wäre auch das ausgeschlossen.

 

Außerdem versuche ich mal ob das nur auftritt wenn die Platten aus dem Standby aufwachen.

 

Außerdem habe ich noch einen Ersatz LSI Controller hier liegen den ich bei Bedarf auch noch testen könnte, dann würde

das Reverse SFF Kabel auch entfallen.

 

Melde mich dann mit neuen Erkenntnissen zurück.

Link to comment

Moin, 

 

ich schau mir das später mal in Ruhe an, zumindest bin ich mit meinen Rückschlüssen wohl nicht ganz auf dem Holzweg, sonst

hättest Du mich vermutlich gestopt. Das an den Platten irgendwas Firmwaremäßig verstellt ist kann natürlich auch sein, die haben

eine Geschichte bei mir. Ich hab die zwar neu gekauft, aber die waren schonmal in einer Synology und einer OMV bis ich zu Unraid

gekommen bin.

Da muss ich mir mal sehen ob man die Parameter irgenwie auf die Werkseinstellungen zurücksetzen kann.

Edited by Pippowicz
Link to comment
2 hours ago, Pippowicz said:

Da muss ich mir mal sehen ob man die Parameter irgenwie auf die Werkseinstellungen zurücksetzen kann.

 

Dafür muss man den Standardwert glaube ich erstmal von einer neuen Platte kennen. So kannst du jedenfalls den aktuellen Wert auslesen:

hdparm -I /dev/sdd | grep level

 

Bei meinen Ultrastar kommt da:

Advanced power management level: Disabled

 

Link to comment

Einen Level gibts nicht, ich hab Dir per 

hdparm -I /dev/sdd > /mnt/user/Archiv/hdparm.txt

 

hdparm -I /dev/sdd > /mnt/user/Archiv/hdparm.txt

 

mal die Antwort in eine Textdatei geschrieben - APM scheint die Platte nicht zu supporten.

Ich mach mich mal auf den Weg zur Arbeit, später gehts weiter.

 

Denkst Du es würde Sinn machen ein Support Ticket bei WD aufzumachen?

hdparm.txt

Link to comment

Das Feature war bei all meine WD Platten aus. Die Herausforderung war das Tool erstmal aus eine .deb Paket zu

kriegen, weil ich auf dem Server nicht kompilieren kann ;)

 

root@Jupiter:~# idle3ctl -g /dev/sdd
Idle3 timer is disabled
root@Jupiter:~# idle3ctl -g /dev/sde
Idle3 timer is disabled
root@Jupiter:~# idle3ctl -g /dev/sdf
Idle3 timer is disabled

 

Die Platten legen sich allerdings trotzdem schlafen, im Smart log steht ja auch daß der Fehler im Standby aufgetreten 

ist. So langsam bin ich mit meinem Latein am Ende ich überlege ob ich mich nicht einfach von den HDDs trennen soll.

 

Die uralten Samsungs machen gar keinen Ärger.

Du schließt vermutlich Ärger mit dem SAS Treiber aus, oder? Und es deutet alles darauf hin daß Plattenintern etwas schief 

läuft nach allem was wir bisher zusammengesammelt haben, oder?

Für dieses LCC Problem gab es ein Firmwareupdate seitens WD, das hatte ich damals bei allen 3 HDDs durchgeführt.

 

Was denkst Du, macht es Sinn Backplane Slots zu tauschen?

Edited by Pippowicz
Link to comment
10 minutes ago, mgutt said:

Das betrifft doch nur die Parität oder? Dann könntest du ja nur die tauschen.

 

Im Moment ja, ich müsste mal versuchen ohne Cache auf eine der anderen WDs zu schreiben. Ganz sicher

bin ich mir da nicht - ich muss zugeben daß das nicht das erste mal war.

Mir ist es nur das erste mal aufgefallen als ich auf die 6.9 Beta / RC geupdated habe und dann hab ich wieder

ein Rollback gemacht und alles war gut. Ich meine es waren damals aber ALLE WD Reds betroffen.

Link to comment

Nein, das betrifft die anderen WD Reds auch. Reconstruct Write ist an, deswegen wachen alle HDDs auf,

bisher haben aber nur die REDs Ärger gemacht.

 

Schreiben auf Platten ohne Standby:
577164506_SchreibenohneStandby.thumb.png.d9a58b18f49128d2a2f52318ab1a3c0e.png

 

Schreiben auf Platten mit Standby:

997572184_SchreibenmitStandby.thumb.png.4bad6e4bc623e350868b7d7faa02e49e.png

 

Ich häng hier auch nochmal die Aktuelle Diagnostic an und probier noch ne Weile ob ich das auch provozieren kann

wenn die Platten nicht im Standby sind.

Die Temperatur würde ich nun auch ausschließen wollen, die Platten waren warm (20°C)

 

jupiter-diagnostics-20210322-1513.zip

Edited by Pippowicz
Link to comment

Ja, das ist dann komisch. Es werden ja wohl kaum alle drei gleichzeitig defekt sein und alle den selben Fehler haben. Wobei, Murphy würde widersprechen ^^

 

Lies doch mal die sdf komplett aus in den Mülleimer:

dd if=/dev/sdf of=/dev/null bs=128k

 

Kommt es dabei zu Lesefehlern?

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...