Revan335 Posted October 10, 2022 Share Posted October 10, 2022 Hallo, bei mir ist eine der NVMe Disks verschwunden und somit startet auch das Array/Cache nicht mehr. Selbst im UEFI ist sie nicht mehr sichtbar. Kann mir nicht vorstellen das die nach so kurzer Zeit schon hin ist. 2x Western Digital Red SN700 NVMe NAS SSD - 1DWPD 1TB, M.2 (WDS100T1R0C) ASRock X570M Pro4 (90-MXBAS0-A0UAYZ) Version 3.70 Was wäre die beste Vorgehensweise? Kann ich die einfach so ausbauen bzw. die Slots tauschen um zu schauen ob sie vielleicht nicht mehr richtig sitzt (sehr unwahrscheinlich) oder der Slot ne Macke hat. Vielen Dank! Viele Grüße Revan335 Quote Link to comment
DataCollector Posted October 10, 2022 Share Posted October 10, 2022 1 hour ago, Revan335 said: bei mir ist eine der NVMe Disks verschwunden und somit startet auch das Array/Cache nicht mehr. Selbst im UEFI ist sie nicht mehr sichtbar. Das deutet sehr auf einen defekt hin. 1 hour ago, Revan335 said: Kann mir nicht vorstellen das die nach so kurzer Zeit schon hin ist. Tja, warum sonst sollte ein PCIe Medium/Device sich nicht melden? 1 hour ago, Revan335 said: 2x Western Digital Red SN700 NVMe NAS SSD - 1DWPD 1TB, M.2 (WDS100T1R0C) Nach Deineer Aussage ist aber nur eines davon betroffen? Dann würde ich (ohne in irgendeiner Weise darauf zu schreiben) die wirklich mal austauschen oder die "verloren gegangene SSD" ggf. ausbauen und in/an einem anderen PC mal testen. Sie sollte sich ja zumindest als Device melden. 1 hour ago, Revan335 said: Was wäre die beste Vorgehensweise? Was "die beste" ist, kann ich nicht sagen, aber wenn Du sie an einem anderen System anschliesst, kannst Du zumindest Einflussnahme des Originalsystemes (egal ob Hardware oder Software) in einem Schlag ausschliessen. Fuer sowas habe ich in einem (Windows-)System einen NVMe Wechselrahmen und auch externe NVMe USB Gehäuse. 1 hour ago, Revan335 said: Kann ich die einfach so ausbauen bzw. die Slots tauschen um zu schauen ob sie vielleicht nicht mehr richtig sitzt (sehr unwahrscheinlich) oder der Slot ne Macke hat. Ich vermute, das war eine Frage: Ja, solange der PC ausgeschaltet (entladen und vom Strom getrennt ist), kannst Du vorsichtig aus-/umbauen/-tauschen. Sollte es wirklich am Slot liegen, tippe ich allerhöchstens auf eine kalte Lötstelle, die sich dirch thermische oder mechanische Belastung bemerktbar macht (sofern Du nicht durch unglücklichen Umgang mit einem Schraubendreher eine Leiterbahn oder so angedotzt hast). Aber meist sind es eher aktive Elemente die ohne mechanischen Einfluß versterben. Quote Link to comment
vakilando Posted October 10, 2022 Share Posted October 10, 2022 1 hour ago, Revan335 said: bei mir ist eine der NVMe Disks verschwunden und somit startet auch das Array/Cache nicht mehr. Ist sie denn Bestandteil eines Cache Pools BTRFS RAID1 .... wohl eher nicht denn dann würde der Cache Pool noch laufen? Was steht im syslog? Quote Link to comment
mgutt Posted October 11, 2022 Share Posted October 11, 2022 1 hour ago, Revan335 said: Kann ich die einfach so ausbauen bzw. die Slots tauschen um zu schauen ob sie vielleicht nicht mehr richtig sitzt (sehr unwahrscheinlich) oder der Slot ne Macke hat. Ja kannst du. Mach am besten so lange den Array Autostart aus. Sofern du keinen syslog mirror aktiv hast, solltest du aber JETZT eine Diagnostics erstellen, weil sonst deine Logs nach einem Neustart weg sind. Quote Link to comment
Revan335 Posted October 11, 2022 Author Share Posted October 11, 2022 Vielen, Vielen Dank schon mal für die späten/nächtlichen und sehr schnellen Antworten. 4 hours ago, mgutt said: Sofern du keinen syslog mirror aktiv hast, Hab ich. 5 hours ago, vakilando said: Ist sie denn Bestandteil eines Cache Pools BTRFS RAID1 .. Ja, ist sie. 5 hours ago, DataCollector said: Fuer sowas habe ich in einem (Windows-)System einen NVMe Wechselrahmen und auch externe NVMe USB Gehäuse. Sowas hab ich nicht. Muss ich mal schauen wo ich sowas herbekomme. 5 hours ago, DataCollector said: Nach Deineer Aussage ist aber nur eines davon betroffen? Genau, das müsste die unter dem M.2 Amor sein, wo auch der Lüfter des Chipsatz? liegt. Die andere hat nämlich keinen Kühlkörper. Das /var/log wurde durch irgendwas vollgeschrieben und war dann voll gewesen. Da stand auch was mit NVMe drin. Muss ich nachher nochmal genau schauen. Die Mirrored Datei ist inzwischen 2 GB groß geworden. (Stehen einige Monate drin) Hab die mal umbenannt, damit er ne neue Datei erzeugt. Alles bis jetzt noch online. Reboot des Servers. Autostart Array wurde wegen Config Änderungen automatisch gestoppt. Cache Device 1 ist nun verschwunden. (Emuliert wird angezeigt, da es nen RAID 1 BTRFS Pool ist) Im UEFI/BIOS geschaut, ebenfalls nur eine der beiden wird dort angezeigt. Array dementsprechend noch nicht wieder gestartet. Quote Link to comment
mgutt Posted October 11, 2022 Share Posted October 11, 2022 1 hour ago, Revan335 said: Das /var/log wurde durch irgendwas vollgeschrieben und war dann voll gewesen Dann Check doch Mal Tools > Syslog. Was sehr oft Auftritt wirst du ja selbst schnell erkennen. Quote Link to comment
Revan335 Posted October 11, 2022 Author Share Posted October 11, 2022 10 hours ago, mgutt said: Dann Check doch Mal Tools > Syslog Hab es jetzt per Button oben Rechts im Webinterface gemacht, aber ist ja die gleiche Quelle. Die aktuelle Ausgabe von syslog: Oct 11 20:09:52 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 1210379071488 (dev /dev/nvme0n1p1 sector 1466440568) Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823790829568 wanted 299306 found 294243 Oct 11 20:09:52 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823790829568 (dev /dev/nvme0n1p1 sector 409395520) Oct 11 20:09:52 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823790833664 (dev /dev/nvme0n1p1 sector 409395528) Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823790862336 wanted 299306 found 294243 Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823952932864 wanted 300159 found 294256 Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823822254080 wanted 299857 found 294244 Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 824391483392 wanted 300695 found 294289 Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 1210435354624 wanted 302203 found 295993 Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823952916480 wanted 300159 found 294256 Oct 11 20:09:52 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823676518400 wanted 299461 found 294219 Oct 11 20:10:00 UnraidServer root: Fix Common Problems Version 2022.10.09 Oct 11 20:10:21 UnraidServer root: Fix Common Problems: Warning: Syslog mirrored to flash ** Ignored Oct 11 20:10:22 UnraidServer kernel: verify_parent_transid: 7 callbacks suppressed Oct 11 20:10:22 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823654039552 wanted 299818 found 294199 Oct 11 20:10:22 UnraidServer kernel: repair_io_failure: 58 callbacks suppressed Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823654039552 (dev /dev/nvme0n1p1 sector 409128352) Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823654043648 (dev /dev/nvme0n1p1 sector 409128360) Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823654047744 (dev /dev/nvme0n1p1 sector 409128368) Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823654051840 (dev /dev/nvme0n1p1 sector 409128376) Oct 11 20:10:22 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 823940890624 wanted 300159 found 294256 Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823940890624 (dev /dev/nvme0n1p1 sector 409688608) Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823940894720 (dev /dev/nvme0n1p1 sector 409688616) Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823940898816 (dev /dev/nvme0n1p1 sector 409688624) Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 823940902912 (dev /dev/nvme0n1p1 sector 409688632) Oct 11 20:10:22 UnraidServer kernel: BTRFS error (device nvme1n1p1): parent transid verify failed on 1210434764800 wanted 302203 found 294978 Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 1210434764800 (dev /dev/nvme0n1p1 sector 1466549344) Oct 11 20:10:22 UnraidServer kernel: BTRFS info (device nvme1n1p1): read error corrected: ino 0 off 1210434768896 (dev /dev/nvme0n1p1 sector 1466549352) Übernacht/Tagsüber war er auch Strom/Spannnungsfrei. PSU Stecker gezogen. Vorhin auch noch nen CMOS Reset durch entfernen der Batterie gemacht und die Settings neu vorgenommen. Interessanterweise wird jetzt die NVMe auch wieder erkannt. (UEFI/BIOS und Unraid). Array startet automatisch und es wird auch alles Grün angezeigt. Komisch sind nur die syslog Einträge. Vielen Dank! Viele Grüße Revan335 Quote Link to comment
Revan335 Posted October 11, 2022 Author Share Posted October 11, 2022 (edited) Allerdings kann der Docker Dienst nicht gestartet werden. Das hier ist am Ende wohl die Ursache dafür: target busy emhttpd: shcmd (309): /usr/local/sbin/mount_image '/mnt/cache/system/docker/docker/' /var/lib/docker 20 Oct 11 20:43:31 UnraidServer emhttpd: shcmd (311): /etc/rc.d/rc.docker start Oct 11 20:43:31 UnraidServer root: starting dockerd ... Oct 11 20:43:46 UnraidServer emhttpd: shcmd (313): umount /var/lib/docker Oct 11 20:43:46 UnraidServer root: umount: /var/lib/docker: target is busy. Oct 11 20:43:46 UnraidServer emhttpd: shcmd (313): exit status: 32 Edited October 11, 2022 by Revan335 Quote Link to comment
mgutt Posted October 11, 2022 Share Posted October 11, 2022 Du solltest kein Docker / VM nutzen, wenn dein Cache kaputt ist. Und das ist er nun mal offensichtlich. Repariere erstmal deinen Pool. Quote Link to comment
Revan335 Posted October 12, 2022 Author Share Posted October 12, 2022 (edited) 14 hours ago, mgutt said: Repariere erstmal deinen Pool. Wie mache ich das am besten? Mit der Scrub Funktion? Edited October 12, 2022 by Revan335 Quote Link to comment
mgutt Posted October 12, 2022 Share Posted October 12, 2022 16 minutes ago, Revan335 said: Mit der Scrub Funktion? Jo Quote Link to comment
Revan335 Posted October 12, 2022 Author Share Posted October 12, 2022 6 hours ago, mgutt said: Jo Hab ich gemacht. Läuft jetzt auch Wöchentlich. Oder ist häufiger ratsam? Ergebnis ist keine Corrected, Uncorrectable oder Unverified. Oder muss dafür repariere beschädigte Blöcke ausgewählt werden? Wofür ist Balance da? Wie oft sollte das laufen und mit welcher Block Group Usage %? Bei mir steht no balance found on /mnt/cache Current usage ratio 31,4% Full Balance recommended. Quote Link to comment
mgutt Posted October 12, 2022 Share Posted October 12, 2022 Ein Balance erstellt zb ein RAID1. Wechselt man von RAID1 auf RAID5, dann ist das auch ein Balance. Angeblich bringt das auch was, wenn man es ab und zu einfach so startet. Keine Ahnung. Einen scrub (Verifizierung aller Prüfsummen aller Dateien) braucht man vom Prinzip auch nicht regelmäßig machen. Aber man sollte es IMMER machen, wenn der Server nicht sauber heruntergefahren wurde oder wie in deinem Fall die Verbindung weg war. Quote Link to comment
Revan335 Posted October 12, 2022 Author Share Posted October 12, 2022 (edited) 31 minutes ago, mgutt said: Ein Balance erstellt zb ein RAID1. Wechselt man von RAID1 auf RAID5, dann ist das auch ein Balance. Dann ist es ja quasi unnötig, sofern man nicht wechseln will. Auch wenn er einen Full Balance empfiehlt und keinen Balance findet. btrfs Dateisystem: Data, RAID1: total=316.00GiB, used=102.16GiB System, RAID1: total=32.00MiB, used=64.00KiB Metadata, RAID1: total=4.00GiB, used=1.30GiB GlobalReserve, single: total=505.55MiB, used=0.00B btrfs Balance Status: No balance found on '/mnt/cache' Current usage ratio: 32.3 % --- Full Balance recommended Das ist das Ergebnis des Scrub von gerade. Hab es nochmal gemacht. Korrektur: Es wurden welche gefunden. Ich denke die Option für Reparatur ist jetzt der nächste richtige Schritt. UUID: 15a1***dc-d*8-4*0-a*f-f09****56a Scrub started: Wed Oct 12 20:49:25 2022 Status: finished Duration: 0:00:39 Total to scrub: 206.92GiB Rate: 5.29GiB/s Error summary: verify=2055 csum=275113 Corrected: 0 Uncorrectable: 0 Unverified: 0 Edited October 12, 2022 by Revan335 Quote Link to comment
Revan335 Posted October 13, 2022 Author Share Posted October 13, 2022 (edited) Wurde jetzt mal mit Reparatur Haken gemacht: Scrub started: Thu Oct 13 21:06:26 2022 Status: finished Duration: 0:00:45 Total to scrub: 211.82GiB Rate: 4.71GiB/s Error summary: verify=1901 csum=275113 Corrected: 277014 Uncorrectable: 0 Unverified: 0 Ein Test danach zeigt keine Errors mehr an. Habe jetzt danach auch noch mal nen Reboot gemacht. Allerdings wurde jetzt gemeldet das dieser Unclean Shutdown war und deshalb jetzt der Parity Check läuft. Außerdem startet der Docker Dienst weiterhin nicht. Die Meldung von gestern mit Device Busy konnte ich nicht mehr sehen. Oct 13 21:22:34 UnraidName emhttpd: shcmd (123): /usr/local/sbin/mount_image '/mnt/cache/system/docker/docker/' /var/lib/docker 20 Oct 13 21:22:34 UnraidName emhttpd: shcmd (125): /etc/rc.d/rc.docker start Oct 13 21:22:34 UnraidName root: starting dockerd ... Oct 13 21:23:03 UnraidName emhttpd: shcmd (128): umount /var/lib/docker Muss ich vielleicht noch was per Terminal eingeben um den Dienst vielleicht manuell zu starten? Oder anderweitig nachschauen wieso er nicht starten will? Vielen Dank! Edited October 13, 2022 by Revan335 Quote Link to comment
Revan335 Posted October 13, 2022 Author Share Posted October 13, 2022 Hat der Docker Dienst vielleicht noch ein separates eigenes Log wo man nach schauen kann? Quote Link to comment
mgutt Posted October 13, 2022 Share Posted October 13, 2022 Am besten das docker.img löschen und die Container über Add Container hinzufügen. Geht ohne Datenverlust, sofern appdata in Ordnung ist. Quote Link to comment
Revan335 Posted October 14, 2022 Author Share Posted October 14, 2022 6 hours ago, mgutt said: Am besten das docker.img löschen und die Container über Add Container hinzufügen. Geht ohne Datenverlust, sofern appdata in Ordnung ist. OK, probiere ich. Vielen Dank! Läuft zwar per Verzeichnis statt img aber das kann man ja auch löschen bzw. umbenennen. Quote Link to comment
mgutt Posted October 14, 2022 Share Posted October 14, 2022 2 hours ago, Revan335 said: das kann man ja auch löschen bzw. umbenennen. Genau Quote Link to comment
Revan335 Posted October 16, 2022 Author Share Posted October 16, 2022 Werde es noch beobachten, aber es scheint funktioniert zu haben. Nachdem neu anlegen des Docker Verzeichnisses. Vielen Dank an alle Beteiligten! @vakilando @DataCollector @mgutt Quote Link to comment
Revan335 Posted March 28, 2023 Author Share Posted March 28, 2023 OK, tritt auch mit xfs Single disk auf. Muss mal schauen ob es die gleiche ist bzw. der gleiche Slot ist. nvme1n1 (2) ist betroffen. nvme0n1 (3) das btrfs single Backup, wo ich aber noch schauen muss wegen dem Speicherplatz ist noch da. Sehr merkwürdig. Diesmal gibt es auch kein neues BIOS. Quote Link to comment
jj1987 Posted March 28, 2023 Share Posted March 28, 2023 Kenne das Board nicht im detail, aber ich tippe es ist der Steckplatz der über den X570 angebunden ist? Hatte ich damals mit meinem Ryzen build und dem Asus tuf b550m auch. Ich vermute irgendeine Sleep Mode im Chipsatz weckt die SSD zu spät so dass sie dann als fehlend gemeldet wird Nach einem reboot war die SSD zumindest immer wieder da. Da das aber eh nur ein Test build war, hatte ich damals nicht weiter nachgeforscht ob man mit irgendwelchen UEFI Einstellungen/Kernel Parametern da eventuell etwas hätte beheben können (auf Kosten des stromverbrauchs...) Quote Link to comment
Revan335 Posted March 28, 2023 Author Share Posted March 28, 2023 Es ist der obere mit Kühlkörper und Lüfter für vermutlich den Chipsatz. Dort steckt die (2). Der untere ohne Kühlkörper/Lüfter wo die (3) drin ist, wird noch erkannt. Hab auch mal nen Case bei Asrock geöffnet. Quote Link to comment
Revan335 Posted March 28, 2023 Author Share Posted March 28, 2023 1 hour ago, jj1987 said: der Steckplatz der über den X570 angebunden ist Ob es dieser ist, weiß ich nicht. Quote Link to comment
Revan335 Posted March 28, 2023 Author Share Posted March 28, 2023 Die NVMe ist wieder da, als ich ihn wieder hochgefahren hatte. Stromstecker wurde bei der Prüfung des unteren Slots gezogen, ggf. war das notwendig. Aber ja. 1 hour ago, jj1987 said: Ich vermute irgendeine Sleep Mode im Chipsatz weckt die SSD zu spät so dass sie dann als fehlend gemeldet wird Das kann es natürlich sein. Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.