Pippowicz Posted March 19, 2021 Share Posted March 19, 2021 Hallo zusammen, seit ca. einem Jahr nutze ich Unraid (Pro) auf folgender Hardware: Unraid Version: 6.9.1 Xeon E3 1220-V3 Supermicro X10-SL7F 16 GB ECC DDR3 Onboard SAS Controller mit reverse Sata auf SFF8087 Supermicro 12 Bay Gehäuse SC826 mit BPN-SAS2-826EL1 Expander Backplane Onboard LSI2308 auf IT-Mode geflashed 3x WDC_WD60EFRX 6 TB RED HDD, eine davon als Parity 8x Samsung HD204UI (Mit einen Critical Firmware Update, war für diese Serie angeraten) 2x 128GB SSD als Cache Drive am normalen Sata Controller des Boards Die Backplane mit den HDDs an 4 Sata Steckern des Onboard Controllers Das Problem tritt sporadisch auf, Heute hatte ich das Glück am Rechner zu sein als die Nachricht über Read Errors auf dem Array auf meinem Handy eintraf. Ein kurzer Blick ins Webinterface hat gezeigt daß die Parity Disk Errors anzeigt, die beiden anderen WD Reds waren zuerst mal unauffällig. Kurze Zeit später tauchten dort auch Errors auf. Die Samsungs sind von diesem Problem nicht betroffen. Die Smart Werte der WDs sehen unauffällig aus. Das Kabel vom Board zur Backplane habe ich testweise schon ausgetauscht, selbes Ergebnis. Nach einem Reboot ist der Spuk vorbei. Die Samsung Platten sind noch weitgehend leer. Wo setze ich nun am besten an um den Fehler weiter einzugrenzen bzw. welche Daten könnte ich Euch noch anbieten? Anbei noch ein Screenshot von der Array Aufteilung. Grüße, Chris Quote Link to comment
mgutt Posted March 20, 2021 Share Posted March 20, 2021 Es wäre hilfreich gewesen, wenn du die Systemlogs/Diagnostics gesichert hättest, bevor du neugestartet hast. Jetzt kennen wir ja nicht die Fehlermeldungen. Hast du mal einen Parity Check gemacht? Wenn die Parity bereits kaputt ist, ist das kein sicherer Zustand mehr. 1 Quote Link to comment
Pippowicz Posted March 20, 2021 Author Share Posted March 20, 2021 (edited) Hallo @mgutt, Danke für Deine Antwort. Der Parity Check nach dem Neustart läuft ohne Fehler durch. Aber der Hinweis ist schonmal klasse, ich lade beim nächsten Auftreten des Fehlers die Systemlogs hier hoch. Edit: Und hier ist die Diagnostic: Ich habe versucht den Fehler zu provozieren, die Parity Disk war im Standby, Cache war auf dem Share auf No gestellt. Die Daten wurden auf eine der Samsungs geschrieben und die Parity Disk ist auch aufgewacht. Screenshot und Diagnostic anbei. Firmware vom SAS Controller sollte die aktuellste sein: Mar 20 09:01:24 Jupiter kernel: mpt2sas_cm0: LSISAS2308: FWVersion(20.00.07.00), ChipRevision(0x05), BiosVersion(07.39.02.00) Ergänzen möchte ich noch daß die Smart Werte der HDD scheinbar doch nicht unauffällig sind - es gibt Hinweise auf UNC Errors, die allerdings nicht in der Tabelle weiter oben aufgeführt sind. Chris jupiter-diagnostics-20210320-1010.zip Edited March 20, 2021 by Pippowicz zusätzlich Infos Quote Link to comment
mgutt Posted March 20, 2021 Share Posted March 20, 2021 8 hours ago, Pippowicz said: UNC Errors Unkorrigierbare Fehler? Das heißt, dass Sektoren kaputt sind oder dazu tendieren. Steigt dieser Wert? Dann weg mit der Platte. Quote Link to comment
Pippowicz Posted March 20, 2021 Author Share Posted March 20, 2021 (edited) Ich möchte nichts gut reden und ich möchte bestimmt nicht an einer neuen HDD sparen wenn diese definitiv defekt ist, allerdings stört mich das man an den Smart Attributes nichts sehen kann. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate POSR-K 200 200 051 - 0 3 Spin_Up_Time POS--K 198 189 021 - 9083 4 Start_Stop_Count -O--CK 091 091 000 - 9253 5 Reallocated_Sector_Ct PO--CK 200 200 140 - 0 7 Seek_Error_Rate -OSR-K 200 200 000 - 0 9 Power_On_Hours -O--CK 080 080 000 - 14949 10 Spin_Retry_Count -O--CK 100 100 000 - 0 11 Calibration_Retry_Count -O--CK 100 100 000 - 0 12 Power_Cycle_Count -O--CK 100 100 000 - 553 192 Power-Off_Retract_Count -O--CK 200 200 000 - 522 193 Load_Cycle_Count -O--CK 198 198 000 - 8737 194 Temperature_Celsius -O---K 138 109 000 - 14 196 Reallocated_Event_Count -O--CK 200 200 000 - 0 197 Current_Pending_Sector -O--CK 200 200 000 - 0 198 Offline_Uncorrectable ----CK 200 200 000 - 0 199 UDMA_CRC_Error_Count -O--CK 200 200 000 - 0 200 Multi_Zone_Error_Rate ---R-- 200 200 000 - 0 Weiter unten im Log heisst es allerdings: Quote Error 4 [3] occurred at disk power-on lifetime: 14947 hours (622 days + 19 hours) When the command that caused the error occurred, the device was in standby mode. After command completion occurred, registers were: ER -- ST COUNT LBA_48 LH LM LL DV DC -- -- -- == -- == == == -- -- -- -- -- 40 -- 51 00 00 00 00 00 00 4f 20 40 00 Error: UNC at LBA = 0x00004f20 = 20256 Commands leading to the command that caused the error were: CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name -- == -- == -- == == == -- -- -- -- -- --------------- -------------------- 60 04 00 00 00 00 00 00 00 4b 20 40 00 01:08:46.930 READ FPDMA QUEUED e5 00 00 00 00 00 00 00 00 00 00 00 00 01:06:08.446 CHECK POWER MODE ec 00 00 00 01 00 00 00 00 00 00 00 00 01:06:08.445 IDENTIFY DEVICE ec 00 00 00 00 00 00 00 00 00 00 00 00 01:06:08.445 IDENTIFY DEVICE e5 00 00 00 00 00 00 00 00 00 00 00 00 01:06:08.425 CHECK POWER MODE Bei den anderen beiden WD Reds aus dem selben Zeitraum schaut das Smart Log ähnlich aus. Mich stört das der Reallocated Sector Count nicht steigt - das sollte nach meinem Verständnis doch bei Beschädigten Sektoren stattfinden? Es ist einfach merkwürdig daß alle WD Reds laut den Smart Logs ein ähnliches Fehlerbild haben - vom Controller kann das meines Erachtens auch nicht kommen, das wären dann UDMA CRC Errors. Der Server steht in einem unbeheizten aber trockenen Kellerraum, der Fehler tritt anscheinend auf wenn die Platten aus dem Spindown aufwachen. Denkst Du (Ihr) dort könnte es zu kalt sein (Minimum 10°C) oder die Platten mögen den Spindown einfach nicht? Wenn Ihr mir sagt: Schmeiss raus die Platten kauf ich eben neue, ich möchte einfach nur vorher andere Probleme ausschliessen - Not ist nicht am Mann, ich habe ein Backup. lg, Chris Edited March 20, 2021 by Pippowicz Quote Link to comment
mgutt Posted March 20, 2021 Share Posted March 20, 2021 5 hours ago, Pippowicz said: allerdings stört mich das man an den Smart Attributes nichts sehen kann Ne, dann ist auch alles in Ordnung. Ich hatte das so verstanden, dass das "UNC" aus dem Smart Wert stammt. Ich muss selbst mal recherchieren was UNC Fehler bedeuten, die quasi im Widerspruch zu den SMART Werten stehen. Quote Link to comment
Pippowicz Posted March 21, 2021 Author Share Posted March 21, 2021 (edited) 9 hours ago, mgutt said: Ne, dann ist auch alles in Ordnung. Ich hatte das so verstanden, dass das "UNC" aus dem Smart Wert stammt. Das stammt schon aus den Smart Logs, allerdings steigt der Reallocated Sector Count nicht an - und das müsste er ja imho. Ich war mir nicht ganz sicher ob ich nicht auf dem Holzweg bin mit meiner Schlussfolgerung. Es kann sein dass doch vielleicht was mit dem LSI Treiber nicht in Ordnung ist, der Spuk hat kurz nach dem Update auf 6.9.1 begonnen - ob das nur ein Zufall ist oder nicht, wer weiß? Vielleicht mag mein Modell der Reds ja auch einfach den HDD Standby nicht. Laut aktuellem Stand sind davon auch nur die WDs betroffen, die Samsung sind allerdings von der Füllmenge gerade mal so angekratzt. ich wollte eh wenn mal Zeit und überschüssiges Geld da ist konsolidieren und die Samsungs rauswerfen - jetzt stellt sich aber eher die Frage ob ich nicht alle HSSs tausche und bei Bedarf dann einfach einen neue dazustecke. Viele Dank schonmal und lg, Chris Edited March 21, 2021 by Pippowicz Quote Link to comment
mgutt Posted March 21, 2021 Share Posted March 21, 2021 Ich kann mir nicht vorstellen, dass das an den HDDs liegt. Also sektorenmäßig meine ich. Eher die Verbindung oder vielleicht defekter RAM oder so. Weil der kann ja auch eine Parität kaputt rechnen. Oder hast du ECC RAM? Quote Link to comment
Pippowicz Posted March 21, 2021 Author Share Posted March 21, 2021 (edited) Ich habe ECC Ram auf dem Board. Kabel (Reverse Sata auf SFF8087 weil das Board Controllerseitig nur Sata Stecker hat) habe ich schon getauscht. Würde Backplane (ist eine Expander Backplane, Typ steht im Startpost) sowie der Onboard Controller noch übrig bleiben. Oder es hängt halt doch irgenwo anders, aber da tue ich mir schwer mit dem lokalisieren. Hier nochmal ein Ausschnitt aus dem Syslog, der Sektor steigt noch eine Weile weiter in 8er Schritten. Mar 20 10:09:32 Jupiter kernel: mpt2sas_cm0: log_info(0x31080000): originator(PL), code(0x08), sub_code(0x0000) ### [PREVIOUS LINE REPEATED 30 TIMES] ### Mar 20 10:09:32 Jupiter kernel: sd 7:0:0:0: [sdd] tag#6138 UNKNOWN(0x2003) Result: hostbyte=0x00 driverbyte=0x08 cmd_age=9s Mar 20 10:09:32 Jupiter kernel: sd 7:0:0:0: [sdd] tag#6138 Sense Key : 0x3 [current] Mar 20 10:09:32 Jupiter kernel: sd 7:0:0:0: [sdd] tag#6138 ASC=0x11 ASCQ=0x0 Mar 20 10:09:32 Jupiter kernel: sd 7:0:0:0: [sdd] tag#6138 CDB: opcode=0x88 88 00 00 00 00 00 00 00 4f 20 00 00 04 00 00 00 Mar 20 10:09:32 Jupiter kernel: blk_update_request: critical medium error, dev sdd, sector 20256 op 0x0:(READ) flags 0x0 phys_seg 128 prio class 0 Mar 20 10:09:32 Jupiter kernel: md: disk0 read error, sector=20192 Mar 20 10:09:32 Jupiter kernel: md: disk0 read error, sector=20200 Mar 20 10:09:32 Jupiter kernel: md: disk0 read error, sector=20208 Kann ich Platten einfach in andere Slots stecken (auch die Parity) ohne meine Unraid Konfig oder mein Array zu zerschiessen? Dann würde ich das mal testen. Quote When the command that caused the error occurred, the device was in standby mode. Ich hatte Dir ja geschrieben daß der Fehler nach HDD Standby auftritt - das steht so auch im unteren Bereich des Smart Logs - da könnte ich auch einfach mal testen die WDs nicht mehr in den Standby zu schicken. Zeit für HDD-Standby steht bei mir auf 1 Stunde. Edited March 21, 2021 by Pippowicz Quote Link to comment
mgutt Posted March 21, 2021 Share Posted March 21, 2021 9 hours ago, Pippowicz said: Kann ich Platten einfach in andere Slots stecken (auch die Parity) ohne meine Unraid Konfig oder mein Array zu zerschiessen? Ja. Aber mach zur Vorsicht trotzdem einen Screenshot von der Disk-Übersicht. Quote Link to comment
Pippowicz Posted March 21, 2021 Author Share Posted March 21, 2021 Dann mache ich mich mal dran Morgen die Platten in den Slots der Backplane zu tauschen, viel verspreche ich mir zwar nicht davon da Verkabelungsprobleme eigentlich an UDMA CRC Errors sichtbar sein sollten (Korrigier mich wenn ich hier falsch liege), aber dann wäre auch das ausgeschlossen. Außerdem versuche ich mal ob das nur auftritt wenn die Platten aus dem Standby aufwachen. Außerdem habe ich noch einen Ersatz LSI Controller hier liegen den ich bei Bedarf auch noch testen könnte, dann würde das Reverse SFF Kabel auch entfallen. Melde mich dann mit neuen Erkenntnissen zurück. Quote Link to comment
mgutt Posted March 21, 2021 Share Posted March 21, 2021 Was ich mir evtl vorstellen kann, dass die Firmware der HDD früher schlafen geht, als es Unraid anweist. Man kann ja mit hdparm direkt in der Firmware den Timer verändern. Ist jetzt nur reine Theorie, aber vielleicht ist es das?! Quote Link to comment
Pippowicz Posted March 22, 2021 Author Share Posted March 22, 2021 (edited) Moin, ich schau mir das später mal in Ruhe an, zumindest bin ich mit meinen Rückschlüssen wohl nicht ganz auf dem Holzweg, sonst hättest Du mich vermutlich gestopt. Das an den Platten irgendwas Firmwaremäßig verstellt ist kann natürlich auch sein, die haben eine Geschichte bei mir. Ich hab die zwar neu gekauft, aber die waren schonmal in einer Synology und einer OMV bis ich zu Unraid gekommen bin. Da muss ich mir mal sehen ob man die Parameter irgenwie auf die Werkseinstellungen zurücksetzen kann. Edited March 22, 2021 by Pippowicz Quote Link to comment
mgutt Posted March 22, 2021 Share Posted March 22, 2021 2 hours ago, Pippowicz said: Da muss ich mir mal sehen ob man die Parameter irgenwie auf die Werkseinstellungen zurücksetzen kann. Dafür muss man den Standardwert glaube ich erstmal von einer neuen Platte kennen. So kannst du jedenfalls den aktuellen Wert auslesen: hdparm -I /dev/sdd | grep level Bei meinen Ultrastar kommt da: Advanced power management level: Disabled Quote Link to comment
Pippowicz Posted March 22, 2021 Author Share Posted March 22, 2021 Einen Level gibts nicht, ich hab Dir per hdparm -I /dev/sdd > /mnt/user/Archiv/hdparm.txt hdparm -I /dev/sdd > /mnt/user/Archiv/hdparm.txt mal die Antwort in eine Textdatei geschrieben - APM scheint die Platte nicht zu supporten. Ich mach mich mal auf den Weg zur Arbeit, später gehts weiter. Denkst Du es würde Sinn machen ein Support Ticket bei WD aufzumachen? hdparm.txt Quote Link to comment
mgutt Posted March 22, 2021 Share Posted March 22, 2021 Scheinbar werden die Red nicht von hdparm unterstützt: https://withblue.ink/2016/07/15/what-i-learnt-from-using-wd-red-disks-to-build-a-home-nas.html Also am besten mit dem WDIdle Tool deaktivieren: https://www.computerbase.de/forum/threads/wd-red-10tb-probleme-mit-hdd-standby-und-smart.1741415/ Quote Link to comment
Pippowicz Posted March 22, 2021 Author Share Posted March 22, 2021 (edited) Das Feature war bei all meine WD Platten aus. Die Herausforderung war das Tool erstmal aus eine .deb Paket zu kriegen, weil ich auf dem Server nicht kompilieren kann root@Jupiter:~# idle3ctl -g /dev/sdd Idle3 timer is disabled root@Jupiter:~# idle3ctl -g /dev/sde Idle3 timer is disabled root@Jupiter:~# idle3ctl -g /dev/sdf Idle3 timer is disabled Die Platten legen sich allerdings trotzdem schlafen, im Smart log steht ja auch daß der Fehler im Standby aufgetreten ist. So langsam bin ich mit meinem Latein am Ende ich überlege ob ich mich nicht einfach von den HDDs trennen soll. Die uralten Samsungs machen gar keinen Ärger. Du schließt vermutlich Ärger mit dem SAS Treiber aus, oder? Und es deutet alles darauf hin daß Plattenintern etwas schief läuft nach allem was wir bisher zusammengesammelt haben, oder? Für dieses LCC Problem gab es ein Firmwareupdate seitens WD, das hatte ich damals bei allen 3 HDDs durchgeführt. Was denkst Du, macht es Sinn Backplane Slots zu tauschen? Edited March 22, 2021 by Pippowicz Quote Link to comment
mgutt Posted March 22, 2021 Share Posted March 22, 2021 Das betrifft doch nur die Parität oder? Dann könntest du ja nur die tauschen. Beim Rest bin ich überfragt. Das einzige was man noch probieren könnte, wäre ein anderer Anschluss am Board. Quote Link to comment
mgutt Posted March 22, 2021 Share Posted March 22, 2021 Hier selber Fehler und angeblich Disk kaputt: Aber ich muss noch in die ZIP schauen ob der Smart Fehler hatte. Quote Link to comment
Pippowicz Posted March 22, 2021 Author Share Posted March 22, 2021 10 minutes ago, mgutt said: Das betrifft doch nur die Parität oder? Dann könntest du ja nur die tauschen. Im Moment ja, ich müsste mal versuchen ohne Cache auf eine der anderen WDs zu schreiben. Ganz sicher bin ich mir da nicht - ich muss zugeben daß das nicht das erste mal war. Mir ist es nur das erste mal aufgefallen als ich auf die 6.9 Beta / RC geupdated habe und dann hab ich wieder ein Rollback gemacht und alles war gut. Ich meine es waren damals aber ALLE WD Reds betroffen. Quote Link to comment
Pippowicz Posted March 22, 2021 Author Share Posted March 22, 2021 (edited) Nein, das betrifft die anderen WD Reds auch. Reconstruct Write ist an, deswegen wachen alle HDDs auf, bisher haben aber nur die REDs Ärger gemacht. Schreiben auf Platten ohne Standby: Schreiben auf Platten mit Standby: Ich häng hier auch nochmal die Aktuelle Diagnostic an und probier noch ne Weile ob ich das auch provozieren kann wenn die Platten nicht im Standby sind. Die Temperatur würde ich nun auch ausschließen wollen, die Platten waren warm (20°C) jupiter-diagnostics-20210322-1513.zip Edited March 22, 2021 by Pippowicz Quote Link to comment
mgutt Posted March 22, 2021 Share Posted March 22, 2021 Ja, das ist dann komisch. Es werden ja wohl kaum alle drei gleichzeitig defekt sein und alle den selben Fehler haben. Wobei, Murphy würde widersprechen ^^ Lies doch mal die sdf komplett aus in den Mülleimer: dd if=/dev/sdf of=/dev/null bs=128k Kommt es dabei zu Lesefehlern? Quote Link to comment
Pippowicz Posted March 22, 2021 Author Share Posted March 22, 2021 (edited) Im Fehlerfall oder einfach so? Ich stress grad die HDDs ohne Standby. Wenns mir stinkt dreh ich Dein Kommando rum... Edited March 22, 2021 by Pippowicz Quote Link to comment
mgutt Posted March 22, 2021 Share Posted March 22, 2021 8 minutes ago, Pippowicz said: Im Fehlerfall oder einfach so? Einfach so. Damit mal alle Sektoren ausgelesen werden. dd liest die komplette Platte von vorne bis hinten aus. Quote Link to comment
Pippowicz Posted March 22, 2021 Author Share Posted March 22, 2021 Ich weiß was dd macht, nur die Ideen fehlen mir jetzt so langsam Danke für Deine Hilfe, ich habe Deinen Code mal in drei Screen Sessions gepackt und lass mal alle WDs ins Nirvana kopieren Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.