Festplattenausfall simuliert

Ralle · March 22, 2021

ich habe heute mal das Worst Case Szenario ausprobiert: Parity + Disk 1 im standby, also mal von der Disk 1 das SATA Kabel entfernt. SMART Check hab ich vorher auf 1 Minute gesetzt. Nichts passiert, kein Nachrichten seitens unRAID (weder Weboberfläche noch Mail). Nach 30 Minuten kam immer noch nichts. Hab dann einfach mal auf einen Share unter Windows zugegriffen, nach 1-2 Sekunden hatte ich Zugriff und das Video wurde gestartet. Dann endlich kam in der Weboberfläche eine Meldung, zeitgleich auch eine Mail. Warum so verzögert?

Nächster Test, selbe Situation wie oben, nur habe ich einfach die Platten manuell aus dem Standby geholt und wollte mal schauen, was unRAID damit anstellt. Nichts, keine Meldung, beide Platten werden als aktiv angezeigt, lediglich bei der Festplatte mit dem abgezogenem Kabel wurde die Temperatur mit einem "*" dargestellt. Weder über der Weboberfläche, noch per Meldung kam eine Mail.

Oder noch schlimmer: Disk 1 fällt aus, ich greife erst nach 1 Woche auf das NAS mal wieder zu und in dem Zeitraum gab es nur noch die Parity Platte? Was ist wenn die in der Zeit auch noch ausgefallen wäre, zum Beispiel direkt nach dem Hochfahren aufgrund meines Zugriffes? Oder das der SATA Controller ausgestiegen ist und alle Platten nicht mehr verfügbar sind?

Bin da ehrlich gesagt leicht schockiert, dass da unRAID so harmlos damit umgeht. Übersehe ich da irgendwas oder ist die Vorgehensweise seitens des OS so normal? Man hat zwar externe Backups vorliegen, aber dennoch schmeckt mir das nicht.

Die System Notifications hatte ich aktiviert und eingerichtet. Zusätzlich lasse ich mir zum Testen jede Stunde eine Nachricht vom Status des Arrays schicken. Habe das Ganze also nochmal probiert: Platten im Standby, Disk 1: Daten abgezogen, Strom abgezogen. Das System anschließend 3h laufen lassen.

In der Zeit kamen 2 Mails vom Status des Arrays an (hat sich zeitlich etwas überschnitten):

Event: Unraid Status
Subject: Notice [UNRAID] - array health report [PASS]
Description: Array has 3 disks (including parity & cache)
Importance: normal

Parity - WDC_WD15EARS-00MVWB0_WD-WMAZA2497899 (sdb) - standby [OK]
Disk 1 - WDC_WD15EZRX-00D8PB0_01KATHR-0CC (sdd) - standby [OK]
Cache - CT120BX500SSD1_1930E1902C6A (sdc) - standby [OK]

Wie gesagt, Disk 1 hatte zu dem Zeitpunkt weder Strom noch Daten, die kann nicht "OK" sein. Weder auf der Weboberfläche, noch per Mailalarm kam irgendwas rein.

Da in der Zeit kein Zugriff auf die Platten erfolgt, hab ich an Disk 1 wieder Daten ran und Strom, anschließend per Netzwerk auf die Daten zugegriffen. Platten fuhren hoch und zack meldete unRAID "Disk 1 - disabled". Also hat das OS es sehrvoll mitbekommen, dass ich die Disk 1 entfernt hatte, fand es aber nicht interessant genug, das zu melden. Im Log stand nämlich zu dem Zeitpunkt des Abziehends auch folgendes:

May 14 15:53:40 UNRAID kernel: ata4: SATA link down (SStatus 0 SControl 300)
May 14 15:53:45 UNRAID kernel: ata4: SATA link down (SStatus 0 SControl 300)
May 14 15:53:51 UNRAID kernel: ata4: SATA link down (SStatus 0 SControl 300)
May 14 15:53:51 UNRAID kernel: ata4.00: disabled
May 14 15:53:51 UNRAID kernel: ata4.00: detaching (SCSI 4:0:0:0)
May 14 15:53:51 UNRAID kernel: sd 4:0:0:0: [sdd] Synchronizing SCSI cache
May 14 15:53:51 UNRAID kernel: sd 4:0:0:0: [sdd] Synchronize Cache(10) failed: Result: hostbyte=0x04 driverbyte=0x00
May 14 15:53:51 UNRAID kernel: sd 4:0:0:0: [sdd] Stopping disk
May 14 15:53:51 UNRAID kernel: sd 4:0:0:0: [sdd] Start/Stop Unit failed: Result: hostbyte=0x04 driverbyte=0x00

Hier sieht man eindeutig das unRAID mitbekommen hat das eine Platte fehlt, gemeldet wurde mir bis zum Hochfahren des Array's leider nichts.

Mich würde einfach mal interessieren ob jemand sowas schon mal probiert hat oder aber sogar einen richtigen Festplattenausfall hatte.

P.S.: Nicht wundern das der Beitrag fast identisch ist mit dem Beitrag aus einem anderem Forum, war damals mein Text den ich jetzt der einfacherheithalber einfach nur kopiert und noch etwas ergänzt habe.

Gruß

vakilando · March 22, 2021

Sehr interessant, danke für diesen Test + Bericht!

Mir sind mal kurz hintereinander beide Cache SSD aus einem btrfs Cache Pool mit 2 SSDs ausgefallen - und in der Tat habe ich damals den Ausfall der ersten SSD auch nur durch Zufall entdeckt durch Einträge im Log... Weiter verfolgt habe ich dieses Verhalten damals nicht, da mich der Grund des Ausfalls stark beschäftigt hat. Glücklicherweise habe ich es damals rechtzeitig bemerkt und aktuelle Backups.

Damaliger Thread

Diese Verhalten sollte mal genauer untersucht werden.

Habt ihr eine Idee? @mgutt
, @ich777

ich777 · March 22, 2021

Ehrlich gesagt hatte ich nur einmal einen Ausfall einer Platte aber das wurde mir signalisiert, weiß aber nicht genau ob die Platte vorher schon kaputt war...

UDMA CRC Errors hab ich auch ein paar bei 2 Platten die werden auch sofort signalisiert und bei meinen Crucial SSD's bekomm ich auch immer den Fehler 'Pending reallocate sector' oder so da die einen Firmware bug haben (hab ich aber ausgeschaltet da das wirklich nerft... ).

@Ralle hast du im BIOS Hot-Plug für SATA Aktiv?

mgutt · March 22, 2021

2 hours ago, Ralle said:

Hier sieht man eindeutig das unRAID mitbekommen hat das eine Platte fehlt, gemeldet wurde mir bis zum Hochfahren des Array's leider nichts.

Streng genommen hat nicht Unraid den Fehler bemerkt, sondern der Kernel. Und ich vermute, dass Unraid die Logs nicht überwacht bzw es gab ja keinen "Error", sondern "nur" einen "link down". Eventuell wird das nicht direkt als fataler Fehler gewertet, weil so etwas auch temporärer Natur sein kann?!

Um 15:53 hast du ja den Stecker gezogen. Was sagen die Logs zu dem Zeitpunkt als du auf die Platte zugegriffen hast?

mgutt · March 22, 2021

2 hours ago, Ralle said:

Oder noch schlimmer: Disk 1 fällt aus, ich greife erst nach 1 Woche auf das NAS mal wieder zu und in dem Zeitraum gab es nur noch die Parity Platte? Was ist wenn die in der Zeit auch noch ausgefallen wäre, zum Beispiel direkt nach dem Hochfahren aufgrund meines Zugriffes? Oder das der SATA Controller ausgestiegen ist und alle Platten nicht mehr verfügbar sind?

Welche Platte geht kaputt während sie schläft? Und warum geht eine andere erst kaputt, wenn sie 1 Woche geschlafen hat? Wäre die dann nicht auch schon am selben Tag kaputt gewesen?

Ich mein ich verstehe schon was du meinst und Murphy macht alles möglich, aber das scheint mir doch ein sehr sehr seltenes Szenario zu sein, für das man ja auch Backups macht.

vakilando · March 22, 2021

47 minutes ago, ich777 said:

UDMA CRC Errors hab ich auch ein paar bei 2 Platten die werden auch sofort signalisiert

Stimmt, kann ich bestätigen.

47 minutes ago, ich777 said:

Crucial SSD's bekomm ich auch immer den Fehler 'Pending reallocate sector' oder so da die einen Firmware bug haben (hab ich aber ausgeschaltet da das wirklich nerft... ).

Ja, hab ich auch... @ich777 ist es wirklich safe das zu ignorieren?

40 minutes ago, mgutt said:

bzw es gab ja keinen "Error", sondern "nur" einen "link down". Eventuell wird das nicht direkt als fataler Fehler gewertet, weil so etwas auch temporärer Natur sein kann?!

Hmmja, kein error, aber es würde mich dennoch beunruhigen wenn ein solcher link down einer Array HDD als unkritisch gesehen wird. SATA Hot-plug Einstellung im BIOS hin oder her, davon weiß unraid ja nichts.

Ich frag mich gerade ob eine eigene Überwachung des Protokolls auf bestimmte Einträge möglich bzw sinnvoll ist.

ich777 · March 22, 2021

2 minutes ago, vakilando said:

Ja, hab ich auch... @ich777 ist es wirklich safe das zu ignorieren?

Ja, was willst du sonst machen?

Die "Fehler" verschwinden auch wieder, sind nur manche Crucials betroffen, ich hab einemal die MX500 1TB (<- die ist zB betroffen) und MX300 1,1TB (<- die ist nicht betroffen).

mgutt · March 22, 2021

2 minutes ago, vakilando said:

Hmmja, kein error, aber es würde mich dennoch beunruhigen wenn ein solcher link down einer Array HDD als unkritisch gesehen wird. SATA Hot-plug Einstellung im BIOS hin oder her, davon weiß unraid ja nichts.

Wann kann es passieren, dass der SATA Link einer schlafenden HDD durch einen Defekt der HDD abbricht? Ich denke mal nur durch Überspannung, Brand oder Diebstahl. In allen Fällen hast du ohne Backup verloren.

Das einzige was hier von Vorteil wäre, dass man zB im Urlaub davon erfährt, dass zu Hause der Server zerlegt wurde. Was dagegen machen, kannst du dann aber eh nicht.

12 minutes ago, vakilando said:

Ich frag mich gerade ob eine eigene Überwachung des Protokolls auf bestimmte Einträge möglich bzw sinnvoll ist.

Du könntest hier vorschlagen, dass @Squid bei "SATA link down" Fehlern im Log eine Benachrichtigung auslöst:

https://forums.unraid.net/topic/47266-plugin-ca-fix-common-problems/

Ich denke für das Plugin wäre das passend.

MartinG · March 22, 2021

33 minutes ago, ich777 said:

Ja, was willst du sonst machen?

Die "Fehler" verschwinden auch wieder, sind nur manche Crucials betroffen, ich hab einemal die MX500 1TB (<- die ist zB betroffen) und MX300 1,1TB (<- die ist nicht betroffen).

Hab ich auch gehabt. Seit 6.9 nicht mehr

Ralle · March 22, 2021

1 hour ago, ich777 said:

hast du im BIOS Hot-Plug für SATA Aktiv?

Die Funktion hat mein BIOS leider nicht.

35 minutes ago, mgutt said:

Wann kann es passieren, dass der SATA Link einer schlafenden HDD durch einen Defekt der HDD abbricht? Ich denke mal nur durch Überspannung, Brand oder Diebstahl. In allen Fällen hast du ohne Backup verloren.

Was ist wenn es den Controller betrifft? Wenn es den abschießt, ist die Verbindung ja eigentlich auch offen.

1 hour ago, mgutt said:

Um 15:53 hast du ja den Stecker gezogen. Was sagen die Logs zu dem Zeitpunkt als du auf die Platte zugegriffen hast?

Da das Logfile von damals ist, hab ich leider keinen Zugriff mehr auf das Log

mgutt · March 22, 2021

32 minutes ago, Ralle said:

Was ist wenn es den Controller betrifft? Wenn es den abschießt, ist die Verbindung ja eigentlich auch offen.

Wie gesagt. Warum sollte der Controller von einer schlafenden Disk kaputt gehen, aber der Controller einer anderen schlafenden Disk erst nach einer Woche? Der Punkt ist ja, dass die Disks schlafen und gar nicht arbeiten. Das ist so als würde man sich darüber Sorgen machen, dass mehrere Disks eines schlafenden Servers kaputt gehen, der auf einen WoL Befehl wartet.

Wen du magst, kannst du ja einen Feature Request posten:

https://forums.unraid.net/forum/53-feature-requests/

ich777 · March 22, 2021

5 hours ago, Ralle said:

Parity + Disk 1 im standby, also mal von der Disk 1 das SATA Kabel entfernt. SMART Check hab ich vorher auf 1 Minute gesetzt

@mgutt Nur so nebenbei kann man von schalfenden Platten einen SMART report bekommen? Glaub nicht oder?

Da müsste die Platte jedes mal anfahren oder täusche ich mich da?

RichardIstSauer · March 22, 2021

3 minutes ago, ich777 said:

@mgutt Nur so nebenbei kann man von schalfenden Platten einen SMART report bekommen? Glaub nicht oder?

Da müsste die Platte jedes mal anfahren oder täusche ich mich da?

Ja die Platten fahren immer hoch zum SMART check.

MartinG · March 22, 2021

3 hours ago, Ralle said:

Die Funktion hat mein BIOS leider nicht.

Kannst Du auf eSata umstellen? Wenn ja, probier mal, kann sein daß dann auch HotSwap verfügbar ist.

Es spielt auch keine Rolle wenn es auf eSata eingestellt bleibt da eSata eigentlich immer nur eine Verlängerung war. Kurz: Aus dem Stecker für die Festplatte eine 'Buchse gemcht und ein Slotblech dran..

Ralle · March 23, 2021

Geht leider auch nicht.

22 hours ago, mgutt said:

Wie gesagt. Warum sollte der Controller von einer schlafenden Disk kaputt gehen, aber der Controller einer anderen schlafenden Disk erst nach einer Woche? Der Punkt ist ja, dass die Disks schlafen und gar nicht arbeiten. Das ist so als würde man sich darüber Sorgen machen, dass mehrere Disks eines schlafenden Servers kaputt gehen, der auf einen WoL Befehl wartet.

Dann halt so, wie ich es eben auch probiert habe: unRAID läuft, Platten legen sich schlafen, beide SATA Kabel vom Board gezogen, wir tuen jetzt einfach mal so, als das der Controller sich in Rauch aufgelöst hat, egal ob der auf dem Board oder aber per Erweiterungskarte. Er ist quasi defekt und kann keine Verbindung mehr zu den Festplatten aufbauen. Dann habe ich die Platten aufgeweckt, alle Einträge bis zu 16:28:50 entstanden durch das manuelle Hochfahren der Festplatten. Zu dem Zeitpunkt keine Meldung in unRAID. Ab 16:36:36 hab ich dann direkt auf den freigegebenden SMB Ordner zugriffen, da kam dann auch die Meldung direkt in unRAID.

Mar 23 16:27:47 Tower emhttpd: spinning down /dev/sdc
Mar 23 16:27:48 Tower emhttpd: spinning down /dev/sdb
Mar 23 16:28:27 Tower kernel: ata4: SATA link down (SStatus 0 SControl 300)
Mar 23 16:28:33 Tower kernel: ata4: SATA link down (SStatus 0 SControl 300)
Mar 23 16:28:38 Tower kernel: ata5: SATA link down (SStatus 0 SControl 300)
Mar 23 16:28:43 Tower kernel: ata5: SATA link down (SStatus 0 SControl 300)
Mar 23 16:28:49 Tower kernel: ata4: SATA link down (SStatus 0 SControl 300)
Mar 23 16:28:49 Tower kernel: ata4.00: disabled
Mar 23 16:28:49 Tower kernel: ata4.00: detaching (SCSI 4:0:0:0)
Mar 23 16:28:49 Tower kernel: sd 4:0:0:0: [sdb] Synchronizing SCSI cache
Mar 23 16:28:49 Tower kernel: sd 4:0:0:0: [sdb] Synchronize Cache(10) failed: Result: hostbyte=0x04 driverbyte=0x00
Mar 23 16:28:49 Tower kernel: sd 4:0:0:0: [sdb] Stopping disk
Mar 23 16:28:49 Tower kernel: sd 4:0:0:0: [sdb] Start/Stop Unit failed: Result: hostbyte=0x04 driverbyte=0x00
Mar 23 16:28:49 Tower emhttpd: read SMART /dev/sdb
Mar 23 16:28:49 Tower kernel: ata5: SATA link down (SStatus 0 SControl 300)
Mar 23 16:28:49 Tower kernel: ata5.00: disabled
Mar 23 16:28:49 Tower kernel: ata5.00: detaching (SCSI 5:0:0:0)
Mar 23 16:28:49 Tower kernel: sd 5:0:0:0: [sdc] Synchronizing SCSI cache
Mar 23 16:28:49 Tower kernel: sd 5:0:0:0: [sdc] Synchronize Cache(10) failed: Result: hostbyte=0x04 driverbyte=0x00
Mar 23 16:28:49 Tower kernel: sd 5:0:0:0: [sdc] Stopping disk
Mar 23 16:28:49 Tower kernel: sd 5:0:0:0: [sdc] Start/Stop Unit failed: Result: hostbyte=0x04 driverbyte=0x00
Mar 23 16:28:50 Tower emhttpd: read SMART /dev/sdc


Mar 23 16:36:36 Tower kernel: md: disk1 read error, sector=24
Mar 23 16:36:36 Tower kernel: md: disk0 read error, sector=24
Mar 23 16:36:36 Tower kernel: XFS (md1): metadata I/O error in "xfs_btree_read_buf_block.constprop.0+0x75/0xc1 [xfs]" at daddr 0x18 len 8 error 5
Mar 23 16:36:36 Tower kernel: XFS (md1): xfs_do_force_shutdown(0x1) called from line 296 of file fs/xfs/xfs_trans_buf.c. Return address = 00000000a527019e
Mar 23 16:36:36 Tower kernel: XFS (md1): I/O Error Detected. Shutting down filesystem
Mar 23 16:36:36 Tower kernel: XFS (md1): Please unmount the filesystem and rectify the problem(s)

mgutt · March 23, 2021

In dem Fall wären alle Platten und die Parität noch in Ordnung. Aber wie gesagt. Schlag das doch als Verbesserung vor, dass "SATA Link down" auch einen Fehler auslöst. Hat ja keinen Nachteil.

Ralle · March 23, 2021

Ja das werde ich auch machen 🙂

Festplattenausfall simuliert

Recommended Posts

Ralle

Link to comment

vakilando

Link to comment

ich777

Link to comment

mgutt

Link to comment

mgutt

Link to comment

vakilando

Link to comment

ich777

Link to comment

mgutt

Link to comment

MartinG

Link to comment

Ralle

Link to comment

mgutt

Link to comment

ich777

Link to comment

RichardIstSauer

Link to comment

MartinG

Link to comment

Ralle

Link to comment

mgutt

Link to comment

Ralle

Link to comment

Join the conversation