Jump to content

Cache pool BTRFS missing device(s)


MarkusR

Recommended Posts

Hi Zusammen,

 

vor ca. 1 Woche hat mein Unraid folgende Meldung ausgegeben:

 

Event: Unraid Secondvmdrive disk message

Subject: Warning [UNRAIDSERVER] - Cache pool BTRFS missing device(s)

Description: KINGSTON_SA1000M8480G_50026B7682EAB561 (nvme0n1)

Importance: warning

 

Das Cache-Laufwerk war daraufhin auch nicht mehr in Unraid ersichtlich. Ich dachte mir, gut Festplatte kaputt, bis ich heute, als ich diese ausbauen wollte, gesehen hab, dass die Platte auf einmal wieder da war. Der Scrub Status meldet 0 Errors. Bei der Diagnose bringt er bei Smart Errors, sehe da aber keine Details. Ich habe mal das Smart-LOG und Syslog beigefügt. Kann man irgendwie feststellen, ob die Platte irgendwie beschädigt ist, oder was das Problem war?

syslog.txt KINGSTON_SA1000M8480G_50026B7682EAB561-20220312-2059 secondvmdrive (nvme0).txt

Link to comment

Hallo @MarkusR

Hallo @MarkusR

 

7 hours ago, MarkusR said:

Subject: Warning [UNRAIDSERVER] - Cache pool BTRFS missing device(s)

Description: KINGSTON_SA1000M8480G_50026B7682EAB561 (nvme0n1)

...

Kann man irgendwie feststellen, ob die Platte irgendwie beschädigt ist, oder was das Problem war?

Ich seh ein der Textdatei zum Smart

"Error Information (NVMe Log 0x01, 16 of 16 entries)"

Ich habe wenig Ahnung von smartctl, sondern schaue mir gerne die SMARTwerte direkt an.

Das klingt mir aber nach 16 gefundenen Fehlern.

 

Wenn Du dir die SMARTwerte anzeigen läßt (wenn Du das Laufwerk im Main Tab anklickst und etwas runter scrollst), sind da auffällige Werte?

 

Link to comment
7 hours ago, MarkusR said:

oder was das Problem war?

da es keine auffälligen Meldungen gibt dass die Platte einen Defekt hätte.

 

ich sage (leider) ... BTRFS  ...vor allem wenn du öfters ein/ausschaltest ...

 

es gibt geteilte Meinungen hierzu, bei manchen läuft es, andere haben weniger gute Erfahrungen und aufgegeben (auch ich ...) ;)

 

endet meistens mit neu erstellen des BTRFS pools usw usw ... dann läuft es wieder (mal länger, mal kürzer) oder Reparatur oder oder oder ...

daher setzen einige aktuell auf single drive cache(s) und backups anstelle ... lies hier im Forum einfach nach.

Link to comment

@alturismo

BTRFS ist ja der quasi Standard für den Cachepool.

Zumindest hier im deutschen Forum liest man aktuell öfter mit Problemen in diesem Zusammenhang.

Ist man sich dessen bei Limetech bewusst? Soll das in Zukunft mal angegangen werden?

Ich gehöre zwar zur Fraktion "bei manchen läuft es", aber auffällig ist es in letzter Zeit schon...

Link to comment

Ich hatte vor etwa zwei Wochen ein ähnliches Problem mit zwei crucial mx500.

Auf ein Mal war der Cache auf Fehler, one drive missing.

Es wurde ein rebuild gestartet, oder wie das genannt wurde, danach war eine ssd weg und in ua als defekt markiert.

Kurze Zeit später war auch der 2. Cache weg und als defekt markiert.

 

Beide ssds werden von unraid nun nicht mehr erkannt und ich hab wieder eine einzelne nvme drin und alles läuft.

 

Beide ssds laufen mit ntfs in Windows Rechnern bzw als externe Festplatte überall einwandfrei. 

Ich mach da nicht mehr rum. Ich hab ein Backup. 

Link to comment
4 hours ago, saber1 said:

Soll das in Zukunft mal angegangen werden?

ich schätze die Hoffnungen liegen da auf ZFS ...

 

4 hours ago, saber1 said:

aber auffällig ist es in letzter Zeit schon...

nicht wirklich, es ist immer auffällig im kompletten Forum, ich bin mir auch recht sicher dass viele Fehler was docker, vm und co angehen eigentlich daran liegen, aber verfolge das selbst seit ~ 2 Jahren nicht mehr, da bin ich auf single cache drives xfs umgestiegen und gut ist ... 

 

ist schade da btrfs "eigentlich" stable sein sollte, aber meiner Erfahrung nach ... leider nicht, auf diversen Systemen am Ende immer das gleiche Spiel erlebt, nutze jedoch auch immer consumer hardware und keine enterprise hardware ... vielleicht liegt es daran, wie gesagt, für mich erledigt ;)

Link to comment
1 hour ago, MartinG said:

Hm. Umstellen auf xfs heißt alles nochmal machen? 

 

Ich würde sagen bei nur einem Datenträger: Backup machen/aktualisieren, Cache in xfs neu formatieren, Backup zurückspielen.

Mein Cache NVMe läuft seit den ersten Anfängen auf XFS.

Da ich aber dazu einen zweiten (und evtl. 3.) Pool nutzen will und jeder aus 4 SSD bestehen soll, muß ich da überlegen was ich mache. Vielleicht experimentiere ich da dann doch mal mit ZFS.

Link to comment
17 hours ago, MartinG said:

Hm. Umstellen auf xfs heißt alles nochmal machen? 

...im Prinzip die gleiche Prozedur, wie beim Austausch eines Cache-Pools.

Es müssen ja nur die Daten 1:1 bewegt werden.

 

Ich würde es jetzt so machen, wenn aktuell ein Raid1-Pool drin ist:

  1. Docker & VMs stoppen - Service deaktivieren, dann mover laufen lassen
  2. Cache Backup (zur Sicherheit) machen
  3. Array Stop, Cache LW/Pool deaktivieren
  4. Cache Disk (eine der beiden) neu, mit XFS zuordnen
  5. Array starten
  6. Die 2te Disk aus dem Cache-Pool als unassinged-Device mounten (selbst wenn es ein btrfs Pool war, sollte das gehen - die Daten sollten also da sein)
  7. Daten vom UA-Disk auf Cache moven (siehe Punkt2 - don't worry, we have backups - im Zweifel statt step 6 nun das Backup einspielen)
  8. Docker & VMS wieder aktivieren.
15 hours ago, DataCollector said:

Vielleicht experimentiere ich da dann doch mal mit ZFS.

Ich bin auch kurz davor...mit SATA-SSDs hatte mein BTRFS-Pool keine so häufigen Ausfälle...mit NVMe ist es leider sehr auffällig.

Link to comment
20 minutes ago, Ford Prefect said:

Ich bin auch kurz davor...mit SATA-SSDs hatte mein BTRFS-Pool keine so häufigen Ausfälle...mit NVMe ist es leider sehr auffällig.

Das könnte recht hilfreich sein.

Nutze "nur" SATA-SSD's. Keine Probleme seit 1 1/2 Jahren mit dem BTRFS-Pool...

Link to comment

Hallo Zusammen,

 

vielen Dank für eure Hilfe. Die letzte Erkenntnis mit NVMe ist in der Tat auffällig. Ich habe noch einen primären Cache-Pool mit einer SATA-SSD. Dort liegen meine VMs. Dort habe ich noch keine Probleme. Die NVMe war noch leer und als Notfall gedacht.

 

@DataCollector

Wenn ich auf die Platte klicke, kann ich nur Einstellungen zu SMART konfigurieren, aber keine SMART-Werte auslesen. Nur Skrub-Werte. Diese zeigen 0 Errors.

Link to comment

Hallo @mgutt

6 minutes ago, mgutt said:

Und in einem BTRFS RAID heißt eine kurzzeitig nicht erreichbarer Datenträger, dass dieser defekt ist und dann wird er rausgeworfen.

 

Dazu eine Frage: Wenn man einen Datenträger wieder einbindet, wie erkennt man, daß er auch gerade wieder aktiv berbeitet wird, bis der Datenstand wieder stimmt?

Hintergrund: Bei meinen Umbaumassnahmen hatte ich in einem Pool (BTRFS Raid5) mit 4x2TB SATA SSD (Crucial MX500) einen Verkabelungsfehler gemacht und später erst gemerkt, daß unraid nur 3 der 4 Disks gefunden hat. Der Pool ist nicht mein Cache und aktuell noch fast leer. Deshalb ist mir das auch erst nach ca. 1 Tag aufgefallen.

PC ausgeschaltet, Fehler gefunden, Verkabelung korrigiert, PC neu gestartet. Unraid hat kurz eine Meldung gegeben, aber da war es. Ich konnte auf dem Datenträger keine grosse Schreibaktivität ablesen.

 

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...