Warning: Missing Disk


Tiras

Recommended Posts

Jo, die NVMe wurde nicht erkannt. Check mal deine Tools > System Log nach BTRFS Fehlern. Geht auch, wenn du auf das Disk-Icon klickst, aber darüber könnte nicht alles angezeigt werden.

 

Hattest du mal einen Servercrash oder Stromausfall? In so einem Fall sollte man immer erstmal per Scrub einen Check machen. Ich denke so:

btrfs scrub status /mnt/services_nvme

 

Damit wird nichts geändert, sondern nur der Status mit Fehlerzahl angezeigt.

Link to comment
7 hours ago, mgutt said:

Jo, die NVMe wurde nicht erkannt. Check mal deine Tools > System Log nach BTRFS Fehlern. Geht auch, wenn du auf das Disk-Icon klickst, aber darüber könnte nicht alles angezeigt werden.

Habe nichts auffälliges gesehen oder gibt es wonach ich suchen soll?

7 hours ago, mgutt said:

Hattest du mal einen Servercrash oder Stromausfall? In so einem Fall sollte man immer erstmal per Scrub einen Check machen. Ich denke so:

Nein, eigentlich nicht und die NVMe ist neu...

7 hours ago, mgutt said:

Damit wird nichts geändert, sondern nur der Status mit Fehlerzahl angezeigt.

image.thumb.png.1b3b4b07fd2ac637b32444ab25718323.png

Wenn ich es ausführe wird mir das angezeigt. Aber wenn die Disk nicht gefunden wird, sollte ich dann nicht drauf speichern können bzw. sollte der Slot dann nicht als "missing device" angezeigt werden?

Edited by Tiras
Link to comment
47 minutes ago, Tiras said:

Habe nichts auffälliges gesehen oder gibt es wonach ich suchen soll?

Poste bitte deine Diagnostics

 

48 minutes ago, Tiras said:

sollte ich dann nicht drauf speichern können

Das ist ein RAID1. Das geht auch nur mit einer Platte.

 

49 minutes ago, Tiras said:

sollte der Slot dann nicht als "missing device" angezeigt werden?

Hätte ich jetzt auch erwartet. Vor allem das Icon hätte sich meiner Ansicht nach ändern müssen. Hier aber das selbe, kam aber schlussendlich kein Feedback von dem User:

https://forums.unraid.net/topic/93373-warning-cache-pool-btrfs-missing-device-but-disk-appears-to-be-online/

 

 

Hier gab es das selbe Problem und die Vermutung stand im Raum, dass beim Starten einer VM, diese kurz die NVMe an sich reißen wollte:

https://forums.unraid.net/topic/107099-692-cache-pool-btrfs-missing-device/

 

Könnte sowas bei dir auch der Fall sein?

 

Link to comment

Wie im 2. Link beschrieben habe ich mal nach VMs geschaut, die auf diesen Pool waren. Wegen dem VM erstellen Problem habe ich auch diesen Pool für Tests verwendet. Ich habe die Test VMs gelöscht und das Array neu gestartet. Da erschien die Benachrichtigung nicht mehr. Als ich jedoch den Server gerade neu gestartet habe, wurde die Benachrichtigung wieder angezeigt.

Ich bin ins BIOS gegangen und habe das mal überprüft, da die NVMe ja angezeigt wird. Im BIOS war alles ok, jedoch habe ich von den Type (Sorry, kenne jetzt nicht die genaue Bezeichnung) von AHCI auf RAID gestellt und für beide NVMe´s das RAID Array gelöscht.

Anschließend den Server normal starten lassen und die beiden Disks wieder dem Pool hinzugefügt. Als BTRFS Encrypted formatiert und die Benachrichtigung wurde mir nicht mehr angezeigt. Beim Scrub habe wurde auch nichts angezeigt.

Scheinbar lag es an dem Type "RAID", aber dann hätten die anderen NVMe´s auch in der Benachrichtigung stehen müssen, weil ich ja die Asus Karte verbaut habe und dort 3/4 Slots mit NVMe´s belegt sind.

 

Naja, ich werde das beobachten, aber für den Moment ist der Fehler scheinbar behoben.

 

Danke für deine Hilfe.

Link to comment

Wenn der Server neugestartet und das Array gestartet wurde, dann kam die Meldung. In der Übersicht aller UA, Pools und Array wurde jedoch alles korrekt angezeigt. Keine fehlenden Disks wurden aufgelistet. Nachdem ich wie gesagt im BIOS auf "RAID" umgestellt habe, wurde die Meldung nicht mehr angezeigt.

Link to comment
19 minutes ago, mgutt said:

Passiert das auch, solange die VMs nicht laufen?

Es ist mir bisher nur aufgefallen, wenn die VMs ausgeschaltet sind. Macht das ein Unterschied? Die VMs starten derzeit nicht automatisch und die Meldung kommt direkt nach dem Array Start.

Link to comment

Wenn du keinen Server Absturz / Hard Reset hattest, dann hast du warum auch immer ein Verbindungsproblem oder Defekt bei einer VM NVMes. Der erste Schritt wäre ein Scrub um die Fehler zu korrigieren. Im nächsten Schritte solltest du deine syslog nach "nvme" bzw "btrfs" sichten. Da müssen Fehler zu sehen sein.

 

Solche Fehler haben immer wieder mal User. Die Ursachen sind da extrem unterschiedlich. Manche hatten defekte NVMes, obwohl neu, andere defekte M.2 Slots, obwohl neues Board, andere vermuteten Überhitzungsprobleme, wieder andere haben Probleme mit ASPM und mussten das im BIOS deaktivieren usw. Es gibt auch User, die schlussendlich auf einzelne XFS Laufwerke gewechselt haben und regelmäßig die Daten ins Array sichern, weil sie sonst keine Lösung gefunden haben. Keine Ahnung ob das auch manchmal vom Board abhängt. An Unraid liegt das jedenfalls nicht. BTRFS macht da einen sauberen Job und meldet ganz klar, wenn die gelesenen Daten einfach nicht mehr stimmen. Und das aufs Bit genau.

Link to comment

Die beiden Platten aus dem vms_nvme Pool und 1 Platte aus dem services_pool sind auf der Asus Karte.

image.thumb.png.0c46a3ddff8dcd8ccae486e29b719d8e.png

Ich habe Scrub ausgeführt und leider feststellen müssen, dass 10 Uncorrectable existieren. Heißt das nun eine neue NVMe kaufen?

 

Ich kann einen Serverabsturz wirklich ausschließen, da mein Array nicht automatisch gestartet wird, ich nie nach dem Login aufgefordert wurde das Array zu starten und das Array auch nicht alleine starten kann, weil ich eine Keyfile hinterlegt habe, die ich jedes mal auswählen muss.

Edited by Tiras
Link to comment

Mir ist gerade aufgefallen, dass ich das Array gerade nicht stoppen kann. Seit mehr als 5 Minuten warte ich darauf, dass das Array gestoppt wird, aber unten in der linken Leiste steht weiterhin wie auf dem Screenshot.

image.thumb.png.635eeda4b66ccd2a202fc0f50a8e7b45.png

 

Wenn ich jetzt einen Hardreset ausführe, dann geht wahrscheinlich die nächste Platte kaputt.

Link to comment
3 minutes ago, Tiras said:

Wenn ich jetzt einen Hardreset ausführe, dann geht wahrscheinlich die nächste Platte kaputt.

Check deine Logs. Da steht drin worauf Unraid wartet. Kann es sein, dass du ein rsync oder rclone Script im Hintergrund aktiv hattest? Falls ja:

https://forums.unraid.net/topic/112502-use-the-stop-file-to-kill-processes-which-prevent-shutdown/

while [ $(pkill -xc rsync) != "0" ]; do logger -t stop "rsync killed"; sleep 2; done
while [ $(pkill -xc rcloneorig) != "0" ]; do logger -t stop "rclone killed"; sleep 2; done

 

Link to comment

Ist es normal, dass kein Error mehr erscheint, wenn ich eine Disk abschließe die Teil eines Pools oder eines Array ist?

Ich habe mal sämtliche HDDs und eine NVMe ausgebaut und komisch finde ich, dass die NVMe aus der Fehlermeldung weiterhin als gefunden angezeigt wird.

Die HDDs jedoch werden nicht als Missing gekennzeichnet.

image.thumb.png.6337ac9a720d4645704d8432ccb35ca1.png

Link to comment
5 hours ago, Tiras said:

Ich habe Dir die Diagnostics hinzugefügt

Keine Ahnung warum, aber die Logs in dem ZIP sind unvollständig. Es gibt eine syslog.txt von 04 bis 06 Uhr vom 22.08 und eine von 13 bis 14 Uhr vom 21.08. Und dafür, dass die so abgeschnitten sind, enthalten sie gefühlt Millionen Fehler. Das hier flutet zB die Logs:

Aug 21 14:19:38 myunraid ntfs-3g[17754]: ntfs_attr_pread error reading '/Medien/Filme UHD/*/*.mkv' at offset 6188072960: 4096 <> -1: Input/output error
Aug 21 14:19:38 myunraid ntfs-3g[17754]: ntfs_attr_pread_i: ntfs_pread failed: Input/output error

 

und das:

Aug 22 06:14:39 myunraid emhttpd: error: share_luks_status, 5995: Operation not supported (95): getxattr: /mnt/user/Transcode
Aug 22 06:14:39 myunraid emhttpd: error: share_luks_status, 5995: Operation not supported (95): getxattr: /mnt/user/appdata
Aug 22 06:14:40 myunraid emhttpd: error: share_luks_status, 5995: Operation not supported (95): getxattr: /mnt/user/Plex

 

Da syslogs sensible Daten enthalten können, wenn man sie selbst kopiert, würde ich vorschlagen, dass du die syslog mal komplett auf den USB Stick kopierst, da runterlädst und mir per PN zusendest:

cp /var/log/syslog /boot/logs/syslog_copy.txt

 

19 minutes ago, Tiras said:

Die HDDs jedoch werden nicht als Missing gekennzeichnet

Tatsächlich fehlen mir da die Erfahrungswerte. Im Array ist das der Fall. Da erscheint dann "Missing". @ich777 Sollten beim Pool fehlende Disks nach einem Reboot nicht als "Missing" angezeigt werden?

 

20 minutes ago, Tiras said:

komisch finde ich, dass die NVMe aus der Fehlermeldung weiterhin als gefunden angezeigt wird.

Wenn die Ursache für das "Missing" nur ein Sync-Fehler ist, dann erscheint zwar "Missing" als Benachrichtigung, aber damit ist nicht gemeint, dass die Disk fehlt, sondern, dass das BTRFS RAID nicht mehr vollständig ist, da eine der beteiligten Disks falsche Daten zurückgeliefert hat. Dh eigentlich wurde sie aus dem RAID rausgeworfen. Ich bin nicht sicher ob Unraid solche Fälle in der GUI korrekt darstellt. Die Frage ist auch ob sie wirklich komplett rausgeworfen wurde oder ihr nur bei bestimmten Sektoren nicht vertraut wird. Auch hier fehlen mir die Erfahrungswerte um das genauer bewerten zu können.

 

@JorgeB

Do you know why his Diagnostic ZIP does not include the full syslog? It includes only two syslog files which are cut after a short period of time (2 hours from two different days).

Link to comment

Ich habe Dir eine PN geschickt. Ich bin aber scheinbar auf eine mögliche Ursache zu dem Problem gestoßen. Vor einiger Zeit habe ich ein BIOS Update durchgeführt.

Im BIOS habe ich eben mal alles überprüft und komischer Weise wurden mir gar keine NVMe´s mehr angezeigt. Auch nicht die, die auf dem Board verbaut ist.

Also habe ich die ASUS Card entfernt und die darauf verbauten NVMe´s jeweils nach und nach auf den M2_Slots am Board verbaut und getestet. Im BIOS wurden sie mir nicht angezeigt, aber Unraid hat sie scheinbar gefunden. Sie konnten in Unraid jedoch nicht gemounted werden.

 

Also kurzen Prozess: Die vorherige BIOS Version geladen und installiert. Jetzt werden die NVMe´s, die in den Slots des Mainboards verbaut sind wieder angezeigt.

 

Bisher kam die Warnung auch nicht mehr. Ich beobachte es jetzt die nächsten Tage und melde mich mit Feedback.

Link to comment
  • 1 year later...

Hallo zusammen.

 

Habe ähnliches Problem. Bei lfd. Parity-Check (immer Monatsende), hat der Cache Pool mit nvme (Samsung 980 / Acht Monate alt BRTFS Missing Error. Auf die Daten kann nun nicht mehr zugegriffen werden oder gesichert werden.

 

Anbei die Diagnose-Datei. Hoffe die Daten sind noch zu retten.

 

root@NAS-AZ-AMD5:~# btrfs dev stats /mnt/cache_1tb
[/dev/nvme0n1p1].write_io_errs    207
[/dev/nvme0n1p1].read_io_errs     15
[/dev/nvme0n1p1].flush_io_errs    0
[/dev/nvme0n1p1].corruption_errs  0
[/dev/nvme0n1p1].generation_errs  0
root@NAS-AZ-AMD5:~#

 

Vielen Dank

nas-az-amd5-diagnostics-20221201-0853.zip

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.