Cache pool BTRFS missing device(s)

MarkusR · March 12, 2022

Hi Zusammen,

vor ca. 1 Woche hat mein Unraid folgende Meldung ausgegeben:

Event: Unraid Secondvmdrive disk message

Subject: Warning [UNRAIDSERVER] - Cache pool BTRFS missing device(s)

Description: KINGSTON_SA1000M8480G_50026B7682EAB561 (nvme0n1)

Importance: warning

Das Cache-Laufwerk war daraufhin auch nicht mehr in Unraid ersichtlich. Ich dachte mir, gut Festplatte kaputt, bis ich heute, als ich diese ausbauen wollte, gesehen hab, dass die Platte auf einmal wieder da war. Der Scrub Status meldet 0 Errors. Bei der Diagnose bringt er bei Smart Errors, sehe da aber keine Details. Ich habe mal das Smart-LOG und Syslog beigefügt. Kann man irgendwie feststellen, ob die Platte irgendwie beschädigt ist, oder was das Problem war?

syslog.txt KINGSTON_SA1000M8480G_50026B7682EAB561-20220312-2059 secondvmdrive (nvme0).txt

DataCollector · March 13, 2022

Hallo @MarkusR

7 hours ago, MarkusR said:

Subject: Warning [UNRAIDSERVER] - Cache pool BTRFS missing device(s)

Description: KINGSTON_SA1000M8480G_50026B7682EAB561 (nvme0n1)

...

Kann man irgendwie feststellen, ob die Platte irgendwie beschädigt ist, oder was das Problem war?

Ich seh ein der Textdatei zum Smart

"Error Information (NVMe Log 0x01, 16 of 16 entries)"

Ich habe wenig Ahnung von smartctl, sondern schaue mir gerne die SMARTwerte direkt an.

Das klingt mir aber nach 16 gefundenen Fehlern.

Wenn Du dir die SMARTwerte anzeigen läßt (wenn Du das Laufwerk im Main Tab anklickst und etwas runter scrollst), sind da auffällige Werte?

alturismo · March 13, 2022

7 hours ago, MarkusR said:

oder was das Problem war?

da es keine auffälligen Meldungen gibt dass die Platte einen Defekt hätte.

ich sage (leider) ... BTRFS ...vor allem wenn du öfters ein/ausschaltest ...

es gibt geteilte Meinungen hierzu, bei manchen läuft es, andere haben weniger gute Erfahrungen und aufgegeben (auch ich ...)

endet meistens mit neu erstellen des BTRFS pools usw usw ... dann läuft es wieder (mal länger, mal kürzer) oder Reparatur oder oder oder ...

daher setzen einige aktuell auf single drive cache(s) und backups anstelle ... lies hier im Forum einfach nach.

saber1 · March 13, 2022

@alturismo

BTRFS ist ja der quasi Standard für den Cachepool.

Zumindest hier im deutschen Forum liest man aktuell öfter mit Problemen in diesem Zusammenhang.

Ist man sich dessen bei Limetech bewusst? Soll das in Zukunft mal angegangen werden?

Ich gehöre zwar zur Fraktion "bei manchen läuft es", aber auffällig ist es in letzter Zeit schon...

MartinG · March 13, 2022

Ich hatte vor etwa zwei Wochen ein ähnliches Problem mit zwei crucial mx500.

Auf ein Mal war der Cache auf Fehler, one drive missing.

Es wurde ein rebuild gestartet, oder wie das genannt wurde, danach war eine ssd weg und in ua als defekt markiert.

Kurze Zeit später war auch der 2. Cache weg und als defekt markiert.

Beide ssds werden von unraid nun nicht mehr erkannt und ich hab wieder eine einzelne nvme drin und alles läuft.

Beide ssds laufen mit ntfs in Windows Rechnern bzw als externe Festplatte überall einwandfrei.

Ich mach da nicht mehr rum. Ich hab ein Backup.

alturismo · March 13, 2022

4 hours ago, saber1 said:

Soll das in Zukunft mal angegangen werden?

ich schätze die Hoffnungen liegen da auf ZFS ...

4 hours ago, saber1 said:

aber auffällig ist es in letzter Zeit schon...

nicht wirklich, es ist immer auffällig im kompletten Forum, ich bin mir auch recht sicher dass viele Fehler was docker, vm und co angehen eigentlich daran liegen, aber verfolge das selbst seit ~ 2 Jahren nicht mehr, da bin ich auf single cache drives xfs umgestiegen und gut ist ...

ist schade da btrfs "eigentlich" stable sein sollte, aber meiner Erfahrung nach ... leider nicht, auf diversen Systemen am Ende immer das gleiche Spiel erlebt, nutze jedoch auch immer consumer hardware und keine enterprise hardware ... vielleicht liegt es daran, wie gesagt, für mich erledigt

MPC561 · March 13, 2022

Ich habe auch massiv weniger Probleme mit dem Cache seit ich die Cache NVME auf XFS umgestellt habe.

MartinG · March 13, 2022

Hm. Umstellen auf xfs heißt alles nochmal machen?

DataCollector · March 13, 2022

1 hour ago, MartinG said:

Hm. Umstellen auf xfs heißt alles nochmal machen?

Ich würde sagen bei nur einem Datenträger: Backup machen/aktualisieren, Cache in xfs neu formatieren, Backup zurückspielen.

Mein Cache NVMe läuft seit den ersten Anfängen auf XFS.

Da ich aber dazu einen zweiten (und evtl. 3.) Pool nutzen will und jeder aus 4 SSD bestehen soll, muß ich da überlegen was ich mache. Vielleicht experimentiere ich da dann doch mal mit ZFS.

alturismo · March 13, 2022

Hm. Umstellen auf xfs heißt alles nochmal machen?

Oder laufen lassen wenn keine Probleme anliegen...

Gesendet von meinem SM-S901B mit Tapatalk

MartinG · March 13, 2022

Mal sehen. Aktuell läuft die Sache ja.

Ford Prefect · March 14, 2022

17 hours ago, MartinG said:

Hm. Umstellen auf xfs heißt alles nochmal machen?

...im Prinzip die gleiche Prozedur, wie beim Austausch eines Cache-Pools.

Es müssen ja nur die Daten 1:1 bewegt werden.

Ich würde es jetzt so machen, wenn aktuell ein Raid1-Pool drin ist:

Docker & VMs stoppen - Service deaktivieren, dann mover laufen lassen
Cache Backup (zur Sicherheit) machen
Array Stop, Cache LW/Pool deaktivieren
Cache Disk (eine der beiden) neu, mit XFS zuordnen
Array starten
Die 2te Disk aus dem Cache-Pool als unassinged-Device mounten (selbst wenn es ein btrfs Pool war, sollte das gehen - die Daten sollten also da sein)
Daten vom UA-Disk auf Cache moven (siehe Punkt2 - don't worry, we have backups - im Zweifel statt step 6 nun das Backup einspielen)
Docker & VMS wieder aktivieren.

15 hours ago, DataCollector said:

Vielleicht experimentiere ich da dann doch mal mit ZFS.

Ich bin auch kurz davor...mit SATA-SSDs hatte mein BTRFS-Pool keine so häufigen Ausfälle...mit NVMe ist es leider sehr auffällig.

saber1 · March 14, 2022

20 minutes ago, Ford Prefect said:

Ich bin auch kurz davor...mit SATA-SSDs hatte mein BTRFS-Pool keine so häufigen Ausfälle...mit NVMe ist es leider sehr auffällig.

Das könnte recht hilfreich sein.

Nutze "nur" SATA-SSD's. Keine Probleme seit 1 1/2 Jahren mit dem BTRFS-Pool...

MarkusR · March 14, 2022

Hallo Zusammen,

vielen Dank für eure Hilfe. Die letzte Erkenntnis mit NVMe ist in der Tat auffällig. Ich habe noch einen primären Cache-Pool mit einer SATA-SSD. Dort liegen meine VMs. Dort habe ich noch keine Probleme. Die NVMe war noch leer und als Notfall gedacht.

@DataCollector

Wenn ich auf die Platte klicke, kann ich nur Einstellungen zu SMART konfigurieren, aber keine SMART-Werte auslesen. Nur Skrub-Werte. Diese zeigen 0 Errors.

MarkusR · March 15, 2022

Hallo Zusammen,

ich habe jetzt diese Festplatte in einem Windows-System eingebaut und mal ein CrystalDiskInfo drüber laufen lassen. Dort wird die NVME mit 99% Gut angezeigt. Somit denke ich auch, dass sich BTRFS und NVME nicht sonderlich gut vertragen.

mgutt · March 19, 2022

Gerade Kingston ist dafür bekannt in Linux Probleme im Sleep zu haben. Und in einem BTRFS RAID heißt eine kurzzeitig nicht erreichbarer Datenträger, dass dieser defekt ist und dann wird er rausgeworfen.

DataCollector · March 19, 2022

Hallo @mgutt

6 minutes ago, mgutt said:

Und in einem BTRFS RAID heißt eine kurzzeitig nicht erreichbarer Datenträger, dass dieser defekt ist und dann wird er rausgeworfen.

Dazu eine Frage: Wenn man einen Datenträger wieder einbindet, wie erkennt man, daß er auch gerade wieder aktiv berbeitet wird, bis der Datenstand wieder stimmt?

Hintergrund: Bei meinen Umbaumassnahmen hatte ich in einem Pool (BTRFS Raid5) mit 4x2TB SATA SSD (Crucial MX500) einen Verkabelungsfehler gemacht und später erst gemerkt, daß unraid nur 3 der 4 Disks gefunden hat. Der Pool ist nicht mein Cache und aktuell noch fast leer. Deshalb ist mir das auch erst nach ca. 1 Tag aufgefallen.

PC ausgeschaltet, Fehler gefunden, Verkabelung korrigiert, PC neu gestartet. Unraid hat kurz eine Meldung gegeben, aber da war es. Ich konnte auf dem Datenträger keine grosse Schreibaktivität ablesen.

mgutt · March 19, 2022

In so einem Fall muss man einen btrfs scrub ausführen.

Erst beim scrub werden dann Inkonsistenzen erkannt und korrigiert.

In der neuesten Version kann man das übrigens per Zeitplan machen:

https://forums.unraid.net/bug-reports/prereleases/unraid-os-version-6100-rc3-available-r1760/

Cache pool BTRFS missing device(s)

Recommended Posts

MarkusR

Link to comment

DataCollector

Link to comment

alturismo

Link to comment

saber1

Link to comment

MartinG

Link to comment

alturismo

Link to comment

MPC561

Link to comment

MartinG

Link to comment

DataCollector

Link to comment

alturismo

Link to comment

MartinG

Link to comment

Ford Prefect

Link to comment

saber1

Link to comment

MarkusR

Link to comment

MarkusR

Link to comment

mgutt

Link to comment

DataCollector

Link to comment

mgutt

Link to comment

Join the conversation