Ralle Posted March 22, 2021 Share Posted March 22, 2021 ich habe heute mal das Worst Case Szenario ausprobiert: Parity + Disk 1 im standby, also mal von der Disk 1 das SATA Kabel entfernt. SMART Check hab ich vorher auf 1 Minute gesetzt. Nichts passiert, kein Nachrichten seitens unRAID (weder Weboberfläche noch Mail). Nach 30 Minuten kam immer noch nichts. Hab dann einfach mal auf einen Share unter Windows zugegriffen, nach 1-2 Sekunden hatte ich Zugriff und das Video wurde gestartet. Dann endlich kam in der Weboberfläche eine Meldung, zeitgleich auch eine Mail. Warum so verzögert? Nächster Test, selbe Situation wie oben, nur habe ich einfach die Platten manuell aus dem Standby geholt und wollte mal schauen, was unRAID damit anstellt. Nichts, keine Meldung, beide Platten werden als aktiv angezeigt, lediglich bei der Festplatte mit dem abgezogenem Kabel wurde die Temperatur mit einem "*" dargestellt. Weder über der Weboberfläche, noch per Meldung kam eine Mail. Oder noch schlimmer: Disk 1 fällt aus, ich greife erst nach 1 Woche auf das NAS mal wieder zu und in dem Zeitraum gab es nur noch die Parity Platte? Was ist wenn die in der Zeit auch noch ausgefallen wäre, zum Beispiel direkt nach dem Hochfahren aufgrund meines Zugriffes? Oder das der SATA Controller ausgestiegen ist und alle Platten nicht mehr verfügbar sind? Bin da ehrlich gesagt leicht schockiert, dass da unRAID so harmlos damit umgeht. Übersehe ich da irgendwas oder ist die Vorgehensweise seitens des OS so normal? Man hat zwar externe Backups vorliegen, aber dennoch schmeckt mir das nicht. Die System Notifications hatte ich aktiviert und eingerichtet. Zusätzlich lasse ich mir zum Testen jede Stunde eine Nachricht vom Status des Arrays schicken. Habe das Ganze also nochmal probiert: Platten im Standby, Disk 1: Daten abgezogen, Strom abgezogen. Das System anschließend 3h laufen lassen. In der Zeit kamen 2 Mails vom Status des Arrays an (hat sich zeitlich etwas überschnitten): Event: Unraid Status Subject: Notice [UNRAID] - array health report [PASS] Description: Array has 3 disks (including parity & cache) Importance: normal Parity - WDC_WD15EARS-00MVWB0_WD-WMAZA2497899 (sdb) - standby [OK] Disk 1 - WDC_WD15EZRX-00D8PB0_01KATHR-0CC (sdd) - standby [OK] Cache - CT120BX500SSD1_1930E1902C6A (sdc) - standby [OK] Wie gesagt, Disk 1 hatte zu dem Zeitpunkt weder Strom noch Daten, die kann nicht "OK" sein. Weder auf der Weboberfläche, noch per Mailalarm kam irgendwas rein. Da in der Zeit kein Zugriff auf die Platten erfolgt, hab ich an Disk 1 wieder Daten ran und Strom, anschließend per Netzwerk auf die Daten zugegriffen. Platten fuhren hoch und zack meldete unRAID "Disk 1 - disabled". Also hat das OS es sehrvoll mitbekommen, dass ich die Disk 1 entfernt hatte, fand es aber nicht interessant genug, das zu melden. Im Log stand nämlich zu dem Zeitpunkt des Abziehends auch folgendes: May 14 15:53:40 UNRAID kernel: ata4: SATA link down (SStatus 0 SControl 300) May 14 15:53:45 UNRAID kernel: ata4: SATA link down (SStatus 0 SControl 300) May 14 15:53:51 UNRAID kernel: ata4: SATA link down (SStatus 0 SControl 300) May 14 15:53:51 UNRAID kernel: ata4.00: disabled May 14 15:53:51 UNRAID kernel: ata4.00: detaching (SCSI 4:0:0:0) May 14 15:53:51 UNRAID kernel: sd 4:0:0:0: [sdd] Synchronizing SCSI cache May 14 15:53:51 UNRAID kernel: sd 4:0:0:0: [sdd] Synchronize Cache(10) failed: Result: hostbyte=0x04 driverbyte=0x00 May 14 15:53:51 UNRAID kernel: sd 4:0:0:0: [sdd] Stopping disk May 14 15:53:51 UNRAID kernel: sd 4:0:0:0: [sdd] Start/Stop Unit failed: Result: hostbyte=0x04 driverbyte=0x00 Hier sieht man eindeutig das unRAID mitbekommen hat das eine Platte fehlt, gemeldet wurde mir bis zum Hochfahren des Array's leider nichts. Mich würde einfach mal interessieren ob jemand sowas schon mal probiert hat oder aber sogar einen richtigen Festplattenausfall hatte. P.S.: Nicht wundern das der Beitrag fast identisch ist mit dem Beitrag aus einem anderem Forum, war damals mein Text den ich jetzt der einfacherheithalber einfach nur kopiert und noch etwas ergänzt habe. Gruß Quote Link to comment
vakilando Posted March 22, 2021 Share Posted March 22, 2021 Sehr interessant, danke für diesen Test + Bericht! Mir sind mal kurz hintereinander beide Cache SSD aus einem btrfs Cache Pool mit 2 SSDs ausgefallen - und in der Tat habe ich damals den Ausfall der ersten SSD auch nur durch Zufall entdeckt durch Einträge im Log... Weiter verfolgt habe ich dieses Verhalten damals nicht, da mich der Grund des Ausfalls stark beschäftigt hat. Glücklicherweise habe ich es damals rechtzeitig bemerkt und aktuelle Backups. Damaliger Thread Diese Verhalten sollte mal genauer untersucht werden. Habt ihr eine Idee? @mgutt , @ich777 Quote Link to comment
ich777 Posted March 22, 2021 Share Posted March 22, 2021 Ehrlich gesagt hatte ich nur einmal einen Ausfall einer Platte aber das wurde mir signalisiert, weiß aber nicht genau ob die Platte vorher schon kaputt war... UDMA CRC Errors hab ich auch ein paar bei 2 Platten die werden auch sofort signalisiert und bei meinen Crucial SSD's bekomm ich auch immer den Fehler 'Pending reallocate sector' oder so da die einen Firmware bug haben (hab ich aber ausgeschaltet da das wirklich nerft... ). @Ralle hast du im BIOS Hot-Plug für SATA Aktiv? Quote Link to comment
mgutt Posted March 22, 2021 Share Posted March 22, 2021 2 hours ago, Ralle said: Hier sieht man eindeutig das unRAID mitbekommen hat das eine Platte fehlt, gemeldet wurde mir bis zum Hochfahren des Array's leider nichts. Streng genommen hat nicht Unraid den Fehler bemerkt, sondern der Kernel. Und ich vermute, dass Unraid die Logs nicht überwacht bzw es gab ja keinen "Error", sondern "nur" einen "link down". Eventuell wird das nicht direkt als fataler Fehler gewertet, weil so etwas auch temporärer Natur sein kann?! Um 15:53 hast du ja den Stecker gezogen. Was sagen die Logs zu dem Zeitpunkt als du auf die Platte zugegriffen hast? Quote Link to comment
mgutt Posted March 22, 2021 Share Posted March 22, 2021 2 hours ago, Ralle said: Oder noch schlimmer: Disk 1 fällt aus, ich greife erst nach 1 Woche auf das NAS mal wieder zu und in dem Zeitraum gab es nur noch die Parity Platte? Was ist wenn die in der Zeit auch noch ausgefallen wäre, zum Beispiel direkt nach dem Hochfahren aufgrund meines Zugriffes? Oder das der SATA Controller ausgestiegen ist und alle Platten nicht mehr verfügbar sind? Welche Platte geht kaputt während sie schläft? Und warum geht eine andere erst kaputt, wenn sie 1 Woche geschlafen hat? Wäre die dann nicht auch schon am selben Tag kaputt gewesen? Ich mein ich verstehe schon was du meinst und Murphy macht alles möglich, aber das scheint mir doch ein sehr sehr seltenes Szenario zu sein, für das man ja auch Backups macht. Quote Link to comment
vakilando Posted March 22, 2021 Share Posted March 22, 2021 47 minutes ago, ich777 said: UDMA CRC Errors hab ich auch ein paar bei 2 Platten die werden auch sofort signalisiert Stimmt, kann ich bestätigen. 47 minutes ago, ich777 said: Crucial SSD's bekomm ich auch immer den Fehler 'Pending reallocate sector' oder so da die einen Firmware bug haben (hab ich aber ausgeschaltet da das wirklich nerft... ). Ja, hab ich auch... @ich777 ist es wirklich safe das zu ignorieren? 40 minutes ago, mgutt said: bzw es gab ja keinen "Error", sondern "nur" einen "link down". Eventuell wird das nicht direkt als fataler Fehler gewertet, weil so etwas auch temporärer Natur sein kann?! Hmmja, kein error, aber es würde mich dennoch beunruhigen wenn ein solcher link down einer Array HDD als unkritisch gesehen wird. SATA Hot-plug Einstellung im BIOS hin oder her, davon weiß unraid ja nichts. Ich frag mich gerade ob eine eigene Überwachung des Protokolls auf bestimmte Einträge möglich bzw sinnvoll ist. Quote Link to comment
ich777 Posted March 22, 2021 Share Posted March 22, 2021 2 minutes ago, vakilando said: Ja, hab ich auch... @ich777 ist es wirklich safe das zu ignorieren? Ja, was willst du sonst machen? Die "Fehler" verschwinden auch wieder, sind nur manche Crucials betroffen, ich hab einemal die MX500 1TB (<- die ist zB betroffen) und MX300 1,1TB (<- die ist nicht betroffen). Quote Link to comment
mgutt Posted March 22, 2021 Share Posted March 22, 2021 2 minutes ago, vakilando said: Hmmja, kein error, aber es würde mich dennoch beunruhigen wenn ein solcher link down einer Array HDD als unkritisch gesehen wird. SATA Hot-plug Einstellung im BIOS hin oder her, davon weiß unraid ja nichts. Wann kann es passieren, dass der SATA Link einer schlafenden HDD durch einen Defekt der HDD abbricht? Ich denke mal nur durch Überspannung, Brand oder Diebstahl. In allen Fällen hast du ohne Backup verloren. Das einzige was hier von Vorteil wäre, dass man zB im Urlaub davon erfährt, dass zu Hause der Server zerlegt wurde. Was dagegen machen, kannst du dann aber eh nicht. 12 minutes ago, vakilando said: Ich frag mich gerade ob eine eigene Überwachung des Protokolls auf bestimmte Einträge möglich bzw sinnvoll ist. Du könntest hier vorschlagen, dass @Squid bei "SATA link down" Fehlern im Log eine Benachrichtigung auslöst: https://forums.unraid.net/topic/47266-plugin-ca-fix-common-problems/ Ich denke für das Plugin wäre das passend. Quote Link to comment
MartinG Posted March 22, 2021 Share Posted March 22, 2021 33 minutes ago, ich777 said: Ja, was willst du sonst machen? Die "Fehler" verschwinden auch wieder, sind nur manche Crucials betroffen, ich hab einemal die MX500 1TB (<- die ist zB betroffen) und MX300 1,1TB (<- die ist nicht betroffen). Hab ich auch gehabt. Seit 6.9 nicht mehr Quote Link to comment
Ralle Posted March 22, 2021 Author Share Posted March 22, 2021 1 hour ago, ich777 said: hast du im BIOS Hot-Plug für SATA Aktiv? Die Funktion hat mein BIOS leider nicht. 35 minutes ago, mgutt said: Wann kann es passieren, dass der SATA Link einer schlafenden HDD durch einen Defekt der HDD abbricht? Ich denke mal nur durch Überspannung, Brand oder Diebstahl. In allen Fällen hast du ohne Backup verloren. Was ist wenn es den Controller betrifft? Wenn es den abschießt, ist die Verbindung ja eigentlich auch offen. 1 hour ago, mgutt said: Um 15:53 hast du ja den Stecker gezogen. Was sagen die Logs zu dem Zeitpunkt als du auf die Platte zugegriffen hast? Da das Logfile von damals ist, hab ich leider keinen Zugriff mehr auf das Log Quote Link to comment
mgutt Posted March 22, 2021 Share Posted March 22, 2021 32 minutes ago, Ralle said: Was ist wenn es den Controller betrifft? Wenn es den abschießt, ist die Verbindung ja eigentlich auch offen. Wie gesagt. Warum sollte der Controller von einer schlafenden Disk kaputt gehen, aber der Controller einer anderen schlafenden Disk erst nach einer Woche? Der Punkt ist ja, dass die Disks schlafen und gar nicht arbeiten. Das ist so als würde man sich darüber Sorgen machen, dass mehrere Disks eines schlafenden Servers kaputt gehen, der auf einen WoL Befehl wartet. Wen du magst, kannst du ja einen Feature Request posten: https://forums.unraid.net/forum/53-feature-requests/ Quote Link to comment
ich777 Posted March 22, 2021 Share Posted March 22, 2021 5 hours ago, Ralle said: Parity + Disk 1 im standby, also mal von der Disk 1 das SATA Kabel entfernt. SMART Check hab ich vorher auf 1 Minute gesetzt @mgutt Nur so nebenbei kann man von schalfenden Platten einen SMART report bekommen? Glaub nicht oder? Da müsste die Platte jedes mal anfahren oder täusche ich mich da? Quote Link to comment
RichardIstSauer Posted March 22, 2021 Share Posted March 22, 2021 3 minutes ago, ich777 said: @mgutt Nur so nebenbei kann man von schalfenden Platten einen SMART report bekommen? Glaub nicht oder? Da müsste die Platte jedes mal anfahren oder täusche ich mich da? Ja die Platten fahren immer hoch zum SMART check. 1 Quote Link to comment
MartinG Posted March 22, 2021 Share Posted March 22, 2021 3 hours ago, Ralle said: Die Funktion hat mein BIOS leider nicht. Kannst Du auf eSata umstellen? Wenn ja, probier mal, kann sein daß dann auch HotSwap verfügbar ist. Es spielt auch keine Rolle wenn es auf eSata eingestellt bleibt da eSata eigentlich immer nur eine Verlängerung war. Kurz: Aus dem Stecker für die Festplatte eine 'Buchse gemcht und ein Slotblech dran.. Quote Link to comment
Ralle Posted March 23, 2021 Author Share Posted March 23, 2021 Geht leider auch nicht. 22 hours ago, mgutt said: Wie gesagt. Warum sollte der Controller von einer schlafenden Disk kaputt gehen, aber der Controller einer anderen schlafenden Disk erst nach einer Woche? Der Punkt ist ja, dass die Disks schlafen und gar nicht arbeiten. Das ist so als würde man sich darüber Sorgen machen, dass mehrere Disks eines schlafenden Servers kaputt gehen, der auf einen WoL Befehl wartet. Dann halt so, wie ich es eben auch probiert habe: unRAID läuft, Platten legen sich schlafen, beide SATA Kabel vom Board gezogen, wir tuen jetzt einfach mal so, als das der Controller sich in Rauch aufgelöst hat, egal ob der auf dem Board oder aber per Erweiterungskarte. Er ist quasi defekt und kann keine Verbindung mehr zu den Festplatten aufbauen. Dann habe ich die Platten aufgeweckt, alle Einträge bis zu 16:28:50 entstanden durch das manuelle Hochfahren der Festplatten. Zu dem Zeitpunkt keine Meldung in unRAID. Ab 16:36:36 hab ich dann direkt auf den freigegebenden SMB Ordner zugriffen, da kam dann auch die Meldung direkt in unRAID. Mar 23 16:27:47 Tower emhttpd: spinning down /dev/sdc Mar 23 16:27:48 Tower emhttpd: spinning down /dev/sdb Mar 23 16:28:27 Tower kernel: ata4: SATA link down (SStatus 0 SControl 300) Mar 23 16:28:33 Tower kernel: ata4: SATA link down (SStatus 0 SControl 300) Mar 23 16:28:38 Tower kernel: ata5: SATA link down (SStatus 0 SControl 300) Mar 23 16:28:43 Tower kernel: ata5: SATA link down (SStatus 0 SControl 300) Mar 23 16:28:49 Tower kernel: ata4: SATA link down (SStatus 0 SControl 300) Mar 23 16:28:49 Tower kernel: ata4.00: disabled Mar 23 16:28:49 Tower kernel: ata4.00: detaching (SCSI 4:0:0:0) Mar 23 16:28:49 Tower kernel: sd 4:0:0:0: [sdb] Synchronizing SCSI cache Mar 23 16:28:49 Tower kernel: sd 4:0:0:0: [sdb] Synchronize Cache(10) failed: Result: hostbyte=0x04 driverbyte=0x00 Mar 23 16:28:49 Tower kernel: sd 4:0:0:0: [sdb] Stopping disk Mar 23 16:28:49 Tower kernel: sd 4:0:0:0: [sdb] Start/Stop Unit failed: Result: hostbyte=0x04 driverbyte=0x00 Mar 23 16:28:49 Tower emhttpd: read SMART /dev/sdb Mar 23 16:28:49 Tower kernel: ata5: SATA link down (SStatus 0 SControl 300) Mar 23 16:28:49 Tower kernel: ata5.00: disabled Mar 23 16:28:49 Tower kernel: ata5.00: detaching (SCSI 5:0:0:0) Mar 23 16:28:49 Tower kernel: sd 5:0:0:0: [sdc] Synchronizing SCSI cache Mar 23 16:28:49 Tower kernel: sd 5:0:0:0: [sdc] Synchronize Cache(10) failed: Result: hostbyte=0x04 driverbyte=0x00 Mar 23 16:28:49 Tower kernel: sd 5:0:0:0: [sdc] Stopping disk Mar 23 16:28:49 Tower kernel: sd 5:0:0:0: [sdc] Start/Stop Unit failed: Result: hostbyte=0x04 driverbyte=0x00 Mar 23 16:28:50 Tower emhttpd: read SMART /dev/sdc Mar 23 16:36:36 Tower kernel: md: disk1 read error, sector=24 Mar 23 16:36:36 Tower kernel: md: disk0 read error, sector=24 Mar 23 16:36:36 Tower kernel: XFS (md1): metadata I/O error in "xfs_btree_read_buf_block.constprop.0+0x75/0xc1 [xfs]" at daddr 0x18 len 8 error 5 Mar 23 16:36:36 Tower kernel: XFS (md1): xfs_do_force_shutdown(0x1) called from line 296 of file fs/xfs/xfs_trans_buf.c. Return address = 00000000a527019e Mar 23 16:36:36 Tower kernel: XFS (md1): I/O Error Detected. Shutting down filesystem Mar 23 16:36:36 Tower kernel: XFS (md1): Please unmount the filesystem and rectify the problem(s) Quote Link to comment
mgutt Posted March 23, 2021 Share Posted March 23, 2021 In dem Fall wären alle Platten und die Parität noch in Ordnung. Aber wie gesagt. Schlag das doch als Verbesserung vor, dass "SATA Link down" auch einen Fehler auslöst. Hat ja keinen Nachteil. Quote Link to comment
Ralle Posted March 23, 2021 Author Share Posted March 23, 2021 Ja das werde ich auch machen 🙂 Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.