Cache Disk verschwunden

Revan335 · October 10, 2022

Hallo,

bei mir ist eine der NVMe Disks verschwunden und somit startet auch das Array/Cache nicht mehr.

Selbst im UEFI ist sie nicht mehr sichtbar.

Kann mir nicht vorstellen das die nach so kurzer Zeit schon hin ist.

2x Western Digital Red SN700 NVMe NAS SSD - 1DWPD 1TB, M.2 (WDS100T1R0C)

ASRock X570M Pro4 (90-MXBAS0-A0UAYZ) Version 3.70

Was wäre die beste Vorgehensweise?

Kann ich die einfach so ausbauen bzw. die Slots tauschen um zu schauen ob sie vielleicht nicht mehr richtig sitzt (sehr unwahrscheinlich) oder der Slot ne Macke hat.

Vielen Dank!

Viele Grüße

Revan335

DataCollector · October 10, 2022

1 hour ago, Revan335 said:

bei mir ist eine der NVMe Disks verschwunden und somit startet auch das Array/Cache nicht mehr.

Selbst im UEFI ist sie nicht mehr sichtbar.

Das deutet sehr auf einen defekt hin.

1 hour ago, Revan335 said:

Kann mir nicht vorstellen das die nach so kurzer Zeit schon hin ist.

Tja, warum sonst sollte ein PCIe Medium/Device sich nicht melden?

1 hour ago, Revan335 said:

2x Western Digital Red SN700 NVMe NAS SSD - 1DWPD 1TB, M.2 (WDS100T1R0C)

Nach Deineer Aussage ist aber nur eines davon betroffen?

Dann würde ich (ohne in irgendeiner Weise darauf zu schreiben) die wirklich mal austauschen oder die "verloren gegangene SSD" ggf. ausbauen und in/an einem anderen PC mal testen. Sie sollte sich ja zumindest als Device melden.

1 hour ago, Revan335 said:

Was wäre die beste Vorgehensweise?

Was "die beste" ist, kann ich nicht sagen, aber wenn Du sie an einem anderen System anschliesst, kannst Du zumindest Einflussnahme des Originalsystemes (egal ob Hardware oder Software) in einem Schlag ausschliessen.

Fuer sowas habe ich in einem (Windows-)System einen NVMe Wechselrahmen und auch externe NVMe USB Gehäuse.

1 hour ago, Revan335 said:

Kann ich die einfach so ausbauen bzw. die Slots tauschen um zu schauen ob sie vielleicht nicht mehr richtig sitzt (sehr unwahrscheinlich) oder der Slot ne Macke hat.

Ich vermute, das war eine Frage: Ja, solange der PC ausgeschaltet (entladen und vom Strom getrennt ist), kannst Du vorsichtig aus-/umbauen/-tauschen.

Sollte es wirklich am Slot liegen, tippe ich allerhöchstens auf eine kalte Lötstelle, die sich dirch thermische oder mechanische Belastung bemerktbar macht (sofern Du nicht durch unglücklichen Umgang mit einem Schraubendreher eine Leiterbahn oder so angedotzt hast).

Aber meist sind es eher aktive Elemente die ohne mechanischen Einfluß versterben.

vakilando · October 10, 2022

1 hour ago, Revan335 said:

bei mir ist eine der NVMe Disks verschwunden und somit startet auch das Array/Cache nicht mehr.

Ist sie denn Bestandteil eines Cache Pools BTRFS RAID1 .... wohl eher nicht denn dann würde der Cache Pool noch laufen?

Was steht im syslog?

mgutt · October 11, 2022

1 hour ago, Revan335 said:

Kann ich die einfach so ausbauen bzw. die Slots tauschen um zu schauen ob sie vielleicht nicht mehr richtig sitzt (sehr unwahrscheinlich) oder der Slot ne Macke hat.

Ja kannst du. Mach am besten so lange den Array Autostart aus.

Sofern du keinen syslog mirror aktiv hast, solltest du aber JETZT eine Diagnostics erstellen, weil sonst deine Logs nach einem Neustart weg sind.

Revan335 · October 11, 2022

Vielen, Vielen Dank schon mal für die späten/nächtlichen und sehr schnellen Antworten.

4 hours ago, mgutt said:

Sofern du keinen syslog mirror aktiv hast,

Hab ich.

5 hours ago, vakilando said:

Ist sie denn Bestandteil eines Cache Pools BTRFS RAID1 ..

Ja, ist sie.

5 hours ago, DataCollector said:

Fuer sowas habe ich in einem (Windows-)System einen NVMe Wechselrahmen und auch externe NVMe USB Gehäuse.

Sowas hab ich nicht. Muss ich mal schauen wo ich sowas herbekomme.

5 hours ago, DataCollector said:

Nach Deineer Aussage ist aber nur eines davon betroffen?

Genau, das müsste die unter dem M.2 Amor sein, wo auch der Lüfter des Chipsatz? liegt. Die andere hat nämlich keinen Kühlkörper.

Das /var/log wurde durch irgendwas vollgeschrieben und war dann voll gewesen. Da stand auch was mit NVMe drin. Muss ich nachher nochmal genau schauen. Die Mirrored Datei ist inzwischen 2 GB groß geworden. (Stehen einige Monate drin)

Hab die mal umbenannt, damit er ne neue Datei erzeugt.

Alles bis jetzt noch online.

Reboot des Servers.

Autostart Array wurde wegen Config Änderungen automatisch gestoppt.

Cache Device 1 ist nun verschwunden. (Emuliert wird angezeigt, da es nen RAID 1 BTRFS Pool ist)

Im UEFI/BIOS geschaut, ebenfalls nur eine der beiden wird dort angezeigt.

Array dementsprechend noch nicht wieder gestartet.

mgutt · October 11, 2022

1 hour ago, Revan335 said:

Das /var/log wurde durch irgendwas vollgeschrieben und war dann voll gewesen

Dann Check doch Mal Tools > Syslog. Was sehr oft Auftritt wirst du ja selbst schnell erkennen.

Revan335 · October 11, 2022

10 hours ago, mgutt said:

Dann Check doch Mal Tools > Syslog

Hab es jetzt per Button oben Rechts im Webinterface gemacht, aber ist ja die gleiche Quelle.

Die aktuelle Ausgabe von syslog:

Oct 11 20:09:52 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 1210379071488 (dev /dev/nvme0n1p1 sector 1466440568)
Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823790829568 wanted 299306 found 294243
Oct 11 20:09:52 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823790829568 (dev /dev/nvme0n1p1 sector 409395520)
Oct 11 20:09:52 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823790833664 (dev /dev/nvme0n1p1 sector 409395528)
Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823790862336 wanted 299306 found 294243
Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823952932864 wanted 300159 found 294256
Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823822254080 wanted 299857 found 294244
Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 824391483392 wanted 300695 found 294289
Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 1210435354624 wanted 302203 found 295993
Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823952916480 wanted 300159 found 294256
Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823676518400 wanted 299461 found 294219
Oct 11 20:10:00 UnraidServer root: Fix Common Problems Version 2022.10.09
Oct 11 20:10:21 UnraidServer root: Fix Common Problems: Warning: Syslog mirrored to flash ** Ignored
Oct 11 20:10:22 UnraidServer kernel: verify_parent_transid: 7 callbacks suppressed
Oct 11 20:10:22 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823654039552 wanted 299818 found 294199
Oct 11 20:10:22 UnraidServer kernel: repair_io_failure: 58 callbacks suppressed
Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823654039552 (dev /dev/nvme0n1p1 sector 409128352)
Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823654043648 (dev /dev/nvme0n1p1 sector 409128360)
Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823654047744 (dev /dev/nvme0n1p1 sector 409128368)
Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823654051840 (dev /dev/nvme0n1p1 sector 409128376)
Oct 11 20:10:22 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823940890624 wanted 300159 found 294256
Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823940890624 (dev /dev/nvme0n1p1 sector 409688608)
Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823940894720 (dev /dev/nvme0n1p1 sector 409688616)
Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823940898816 (dev /dev/nvme0n1p1 sector 409688624)
Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823940902912 (dev /dev/nvme0n1p1 sector 409688632)
Oct 11 20:10:22 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 1210434764800 wanted 302203 found 294978
Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 1210434764800 (dev /dev/nvme0n1p1 sector 1466549344)
Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 1210434768896 (dev /dev/nvme0n1p1 sector 1466549352)

Übernacht/Tagsüber war er auch Strom/Spannnungsfrei. PSU Stecker gezogen.

Vorhin auch noch nen CMOS Reset durch entfernen der Batterie gemacht und die Settings neu vorgenommen.

Interessanterweise wird jetzt die NVMe auch wieder erkannt. (UEFI/BIOS und Unraid).

Array startet automatisch und es wird auch alles Grün angezeigt.

Komisch sind nur die syslog Einträge.

Vielen Dank!

Viele Grüße

Revan335

Revan335 · October 11, 2022

Allerdings kann der Docker Dienst nicht gestartet werden.

Das hier ist am Ende wohl die Ursache dafür: target busy

emhttpd: shcmd (309): /usr/local/sbin/mount_image '/mnt/cache/system/docker/docker/' /var/lib/docker 20
Oct 11 20:43:31 UnraidServer  emhttpd: shcmd (311): /etc/rc.d/rc.docker start
Oct 11 20:43:31 UnraidServer root: starting dockerd ...
Oct 11 20:43:46 UnraidServer  emhttpd: shcmd (313): umount /var/lib/docker
Oct 11 20:43:46 UnraidServer root: umount: /var/lib/docker: target is busy.
Oct 11 20:43:46 UnraidServer  emhttpd: shcmd (313): exit status: 32

Edited October 11, 2022 by Revan335

mgutt · October 11, 2022

Du solltest kein Docker / VM nutzen, wenn dein Cache kaputt ist. Und das ist er nun mal offensichtlich. Repariere erstmal deinen Pool.

Revan335 · October 12, 2022

14 hours ago, mgutt said:

Repariere erstmal deinen Pool.

Wie mache ich das am besten?

Mit der Scrub Funktion?

Edited October 12, 2022 by Revan335

mgutt · October 12, 2022

16 minutes ago, Revan335 said:

Mit der Scrub Funktion?

Jo

Revan335 · October 12, 2022

6 hours ago, mgutt said:

Jo

Hab ich gemacht. Läuft jetzt auch Wöchentlich. Oder ist häufiger ratsam?

Ergebnis ist keine Corrected, Uncorrectable oder Unverified.

Oder muss dafür repariere beschädigte Blöcke ausgewählt werden?

Wofür ist Balance da?

Wie oft sollte das laufen und mit welcher Block Group Usage %?

Bei mir steht no balance found on /mnt/cache

Current usage ratio 31,4% Full Balance recommended.

mgutt · October 12, 2022

Ein Balance erstellt zb ein RAID1. Wechselt man von RAID1 auf RAID5, dann ist das auch ein Balance.

Angeblich bringt das auch was, wenn man es ab und zu einfach so startet. Keine Ahnung.

Einen scrub (Verifizierung aller Prüfsummen aller Dateien) braucht man vom Prinzip auch nicht regelmäßig machen. Aber man sollte es IMMER machen, wenn der Server nicht sauber heruntergefahren wurde oder wie in deinem Fall die Verbindung weg war.

Revan335 · October 12, 2022

31 minutes ago, mgutt said:

Ein Balance erstellt zb ein RAID1. Wechselt man von RAID1 auf RAID5, dann ist das auch ein Balance.

Dann ist es ja quasi unnötig, sofern man nicht wechseln will. Auch wenn er einen Full Balance empfiehlt und keinen Balance findet.

btrfs Dateisystem:

    Data, RAID1: total=316.00GiB, used=102.16GiB
    System, RAID1: total=32.00MiB, used=64.00KiB
    Metadata, RAID1: total=4.00GiB, used=1.30GiB
    GlobalReserve, single: total=505.55MiB, used=0.00B

btrfs Balance Status:

    No balance found on '/mnt/cache'

      Current usage ratio: 32.3 % --- Full Balance recommended

Das ist das Ergebnis des Scrub von gerade. Hab es nochmal gemacht.

Korrektur: Es wurden welche gefunden.

Ich denke die Option für Reparatur ist jetzt der nächste richtige Schritt.

    UUID:             15a1***dc-d*8-4*0-a*f-f09****56a
    Scrub started:    Wed Oct 12 20:49:25 2022
    Status:           finished
    Duration:         0:00:39
    Total to scrub:   206.92GiB
    Rate:             5.29GiB/s
    Error summary:    verify=2055 csum=275113
      Corrected:      0
      Uncorrectable:  0
      Unverified:     0

Edited October 12, 2022 by Revan335

Revan335 · October 13, 2022

Wurde jetzt mal mit Reparatur Haken gemacht:

Scrub started:    Thu Oct 13 21:06:26 2022
Status:           finished
Duration:         0:00:45
Total to scrub:   211.82GiB
Rate:             4.71GiB/s
Error summary:    verify=1901 csum=275113
  Corrected:      277014
  Uncorrectable:  0
  Unverified:     0

Ein Test danach zeigt keine Errors mehr an.

Habe jetzt danach auch noch mal nen Reboot gemacht. Allerdings wurde jetzt gemeldet das dieser Unclean Shutdown war und deshalb jetzt der Parity Check läuft.

Außerdem startet der Docker Dienst weiterhin nicht. Die Meldung von gestern mit Device Busy konnte ich nicht mehr sehen.

Oct 13 21:22:34 UnraidName  emhttpd: shcmd (123): /usr/local/sbin/mount_image '/mnt/cache/system/docker/docker/' /var/lib/docker 20
Oct 13 21:22:34 UnraidName  emhttpd: shcmd (125): /etc/rc.d/rc.docker start
Oct 13 21:22:34 UnraidName root: starting dockerd ...
Oct 13 21:23:03 UnraidName  emhttpd: shcmd (128): umount /var/lib/docker

Muss ich vielleicht noch was per Terminal eingeben um den Dienst vielleicht manuell zu starten?

Oder anderweitig nachschauen wieso er nicht starten will?

Vielen Dank!

Edited October 13, 2022 by Revan335

Revan335 · October 13, 2022

Hat der Docker Dienst vielleicht noch ein separates eigenes Log wo man nach schauen kann?

mgutt · October 13, 2022

Am besten das docker.img löschen und die Container über Add Container hinzufügen. Geht ohne Datenverlust, sofern appdata in Ordnung ist.

Revan335 · October 14, 2022

6 hours ago, mgutt said:

Am besten das docker.img löschen und die Container über Add Container hinzufügen. Geht ohne Datenverlust, sofern appdata in Ordnung ist.

OK, probiere ich. Vielen Dank!

Läuft zwar per Verzeichnis statt img aber das kann man ja auch löschen bzw. umbenennen.

mgutt · October 14, 2022

2 hours ago, Revan335 said:

das kann man ja auch löschen bzw. umbenennen.

Genau

Revan335 · October 16, 2022

Werde es noch beobachten, aber es scheint funktioniert zu haben. Nachdem neu anlegen des Docker Verzeichnisses.

Vielen Dank an alle Beteiligten!

@vakilando

@DataCollector

@mgutt

Revan335 · March 28, 2023

OK, tritt auch mit xfs Single disk auf.

Muss mal schauen ob es die gleiche ist bzw. der gleiche Slot ist.

nvme1n1 (2) ist betroffen. nvme0n1 (3) das btrfs single Backup, wo ich aber noch schauen muss wegen dem Speicherplatz ist noch da.

Sehr merkwürdig.

Diesmal gibt es auch kein neues BIOS.

jj1987 · March 28, 2023

Kenne das Board nicht im detail, aber ich tippe es ist der Steckplatz der über den X570 angebunden ist?

Hatte ich damals mit meinem Ryzen build und dem Asus tuf b550m auch. Ich vermute irgendeine Sleep Mode im Chipsatz weckt die SSD zu spät so dass sie dann als fehlend gemeldet wird

Nach einem reboot war die SSD zumindest immer wieder da. Da das aber eh nur ein Test build war, hatte ich damals nicht weiter nachgeforscht ob man mit irgendwelchen UEFI Einstellungen/Kernel Parametern da eventuell etwas hätte beheben können (auf Kosten des stromverbrauchs...)

Revan335 · March 28, 2023

Es ist der obere mit Kühlkörper und Lüfter für vermutlich den Chipsatz. Dort steckt die (2).

Der untere ohne Kühlkörper/Lüfter wo die (3) drin ist, wird noch erkannt.

Hab auch mal nen Case bei Asrock geöffnet.

Revan335 · March 28, 2023

1 hour ago, jj1987 said:

der Steckplatz der über den X570 angebunden ist

Ob es dieser ist, weiß ich nicht.

Revan335 · March 28, 2023

Die NVMe ist wieder da, als ich ihn wieder hochgefahren hatte. Stromstecker wurde bei der Prüfung des unteren Slots gezogen, ggf. war das notwendig.

Aber ja.

1 hour ago, jj1987 said:

Ich vermute irgendeine Sleep Mode im Chipsatz weckt die SSD zu spät so dass sie dann als fehlend gemeldet wird

Das kann es natürlich sein.

Cache Disk verschwunden

Recommended Posts

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Join the conversation