Cache Drive defekt, was nun?


Jojo1965

Recommended Posts

Hallo Leute, ich bin ein blutiger Anfänger mit Unraid und versuche mich gerade mit allem vertraut zu machen. Ich wechsle gerade von Synology und habe in meinem Unraid System die gebrauchten M.2 SSD as Cache Pool eingesetzt. „Natürlich“ raucht mir jetzt nach ein paar Tagen eine der beiden SSDs ab, jetzt läuft der Docker nicht mehr (Docker Service failed to start)... Die docker.img Datei habe ich schonmal gelöscht, und neu aufgebaut, leider erfolglos. 

Die neue SSD kommt heute schon und wird dann direkt verbaut, das wird den Doker aber vermutlich nicht reparieren. Ich frage mich aber weshalb das System jetzt kaputt ist. 

Vermutlich habe ich es nun zusätzlich selber noch mehr verschwurbelt beim Versuch es zum laufen zu bringen... 🙈

 

Gruß

Jojo

Link to comment

Verstehe ich jetzt auch nicht. Im RAID1 ist das doch völlig egal. Dafür ist es doch da.

 

Wenn du die docker.img Datei löschst und neu erstellen lässt, dann sollte Docker auch wieder gehen. Ansonsten teste mal, ob Docker startet, wenn du als Pfad direkt eine HDD angibst. zB so:

/mnt/disk1/sharename/docker.img

 

Ist der Cache evtl gar nicht mehr verfügbar?

 

Link to comment
58 minutes ago, Ford Prefect said:

...Cache-Pool war in raid1 Mode? Dann sollte es mit Ausfall einer SSD trotzdem noch laufen. 🤔

 

Jawoll, war 2 x 250GB im Raidmodus, ich war auch erstaunt das es nicht mehr läuft, dachte aber natürlich es liegt an einer falschen Einstellung meinerseits. Als Speicherkapazität wurden im Pool auch 250 Gig angezeigt, von daher verstehe ich es auch nicht.

Link to comment
38 minutes ago, mgutt said:

Verstehe ich jetzt auch nicht. Im RAID1 ist das doch völlig egal. Dafür ist es doch da.

 

Wenn du die docker.img Datei löschst und neu erstellen lässt, dann sollte Docker auch wieder gehen. Ansonsten teste mal, ob Docker startet, wenn du als Pfad direkt eine HDD angibst. zB so:

/mnt/disk1/sharename/docker.img

 

Ist der Cache evtl gar nicht mehr verfügbar?

 

Der Cache ist noch da, ich kann auch auf die Ordner zugreifen.

 

Mit dem Docker und einem Pfad auf HDD 1 probiere ich gleich mal.

FCA4D129-E223-4AF2-BFC3-478FB5DA3217.jpeg

Link to comment

Sorry, ganz vergessen, lieben Dank das hier so schnell geholfen wird, super!

 

Docker von der HDD läuft! Alle Container sind aber nicht mehr vorhanden, ich denke mal den Cache hat es irgendwie komplett zerrissen.

 

Wie soll ich hier eurer Meinung nach vorgehen? Ich kann auch das ganze System neu aufsetzen, ist eventuell am saubersten. Hauptsache meine Medidaten gehen nicht verloren... 🙈

Edited by Jojo1965
Ergänzung
Link to comment
4 minutes ago, Jojo1965 said:

Der Cache ist noch da, ich kann auch auf die Ordner zugreifen.

 

 

Ok, dann hat das RAID1 ja funktioniert. Die Frage ist nur warum das docker.img bzw der Docker-Dienst die Biege gemacht hat und dazu auch nicht mehr gestartet werden kann.

 

Die Diagnose ZIP kannst du trotzdem mal hier hochladen. Dann können wir mal schauen ob uns andere Fehlermeldungen mehr sagen.

 

 

EDIT: Ok, hier lese ich raus, dass es Probleme gibt, wenn Slot 1 leer ist:

https://forums.unraid.net/topic/74168-docker-service-failed-to-start-solved/?tab=comments#comment-683284

 

Ich habe kein RAID im Cache, daher frage ich mal: Wie ist der Pfad, wenn man jetzt auf den Ordner der SSD klickt? /mnt/cache/ oder ein anderer?

 

 

Link to comment
7 minutes ago, Jojo1965 said:

Docker von der HDD läuft! Alle Container sind aber nicht mehr vorhanden, ich denke mal den Cache hat es irgendwie komplett zerrissen.

 

 

Alle Container und Einstellungen sind unter Apps -> Previous Installed gesichert. Allerdings ist das mit der HDD jetzt nur ein Test gewesen. Ich würde darüber jetzt die Container nicht dauerhaft laufen lassen. Warte lieber auf den Ersatz.

 

Wenn du keine Zeit hast, kannst du alternativ Daten der SSD auf die HDD verschieben lassen (alle Shares bei Cache auf Yes stellen, Docker und VM in den Einstellungen vollständig deaktivieren und den Mover starten). Sobald die SSD leer ist, machst du einen Screenshot von der Disk-Übersicht (zur Sicherheit) und gehst auf Tools und machst eine new Config, wobei du Parity und Array auf Preserve lässt. Nur der Cache soll weg. Danach kannst du die einzelne SSD wieder Slot 1 zuordnen und quasi mit einem "frischen" Cache starten.

 

@ich777 Oder gibt es über die GUI eine Möglichkeit ein Degraded RAID auf Single umzustellen und dann den Slot zu wechseln?

Link to comment

Da steht:

Jan 20 12:02:14 Unraid-Tower root: truncate: cannot open '/mnt/cache/system/docker/docker.img' for writing: Read-only file system

 

Kann es sein, dass du auf dem Cache keine Dateien erstellen kannst? WebTerminal (Icon >_ oben rechts) öffnen und das ausführen:

touch /mnt/cache/system/test.bin

 

Ist die SSD eigentlich sicher defekt? Vielleicht gab es auch einfach einen Fehler durch einen harten Shutdown?!

 

EDIT: Noch was gefunden:

https://forums.unraid.net/topic/70913-btrfs-cache-read-only-mounted/?tab=comments#comment-651092

 

Wenn also BTRFS die zwei Laufwerke nicht ordentlich balancen kann, kann es wohl sein, dass BTRFS ein Laufwerk rauswirft und es sich nur degraded und read-only mounted. Dann hilft also nur Daten sichern und den Cache Pool neu erstellen.

 

Der Mover wird dann übrigens nicht helfen, weil der Mover ja verschiebt und nicht kopiert und von read-only kann man nicht verschieben.

 

Wenn das so ist, dann wartest du jetzt lieber wirklich auf die SSD.

 

Eventuell gehst du aus Sicherheitsgründen auch mal hin und sicherst die SSD auf die HDD1 (oben rechts >_ um das Webterminal zu öffnen):

rsync -av --stats /mnt/cache/ /mnt/disk1/cachebackup

 

Auf keinen Fall als Ziel /mtn/user... nehmen. Ansonsten besteht die Gefahr, dass die Daten sich selbst überschreiben!

 

Das Backup solltest du auch machen, bevor du das mit den Slots machst, was ich777 im folgenden Beitrag vorschlägt. Sicher ist sicher ^^

 

  • Like 1
Link to comment
26 minutes ago, mgutt said:

@ich777 Oder gibt es über die GUI eine Möglichkeit ein Degraded RAID auf Single umzustellen und dann den Slot zu wechseln?

Ja das kann man machen, Cache pool auf 1 Umstellen und die Disk die auf Slot2 war im Cache pool auf Slot1 legen dann sollte es wieder funktionieren.

 

@Jojo1965 du hast also 2 oder mehrere Platten im BTRFS RAID1 gehabt und die Platte im 1. Slot ist jetzt defekt, richtig? Wie schon oben geschrieben sollte es funktionieren wenn du einfach das Array stoppst und die Cache Slots auf 1 umstellst und die Platte die in Slot 2 war auf den Slot 1 legst und das Array wieder startest. Wie gesagt sollt, ich hab das selbst noch nie gemacht.

 

Wenn du auf nummer sicher gehen willst warte auf die neue Platte stoppe das Array und füge die neue Platte einfach auf Slot 1 ein dann sollte der rebuild vom Cache beginnen wenn du das Array startest.

 

EDIT: Oh und ich hab noch vergessen zu sagen wenn du dein Docker Image wirklich rebuilden solltest dann kannst auch auf der Docker Seite auf 'ADD CONTAINER' klicken und im folgenden Fenster findest du alle deine Templates mit deinen Einstellungen bei 'Add Template' unter '[ User Templates ]'.

 

Noch ein kleiner Hinweis falls du Docker neu aufbaust, ich würd dir empfehlen kein Docker Image mehr zu erstellen sondern einen Pyhsischen pfad auf deinem Cache zu verwenden zB /mnt/cache/docker (spart Speicherplatz und soll anscheinend auch die writes auf den Cache vermindern).

  • Like 2
Link to comment
1 hour ago, mgutt said:

Da steht:


Jan 20 12:02:14 Unraid-Tower root: truncate: cannot open '/mnt/cache/system/docker/docker.img' for writing: Read-only file system

 

Kann es sein, dass du auf dem Cache keine Dateien erstellen kannst? WebTerminal (Icon >_ oben rechts) öffnen und das ausführen:


touch /mnt/cache/system/test.bin

 

Ist die SSD eigentlich sicher defekt? Vielleicht gab es auch einfach einen Fehler durch einen harten Shutdown?!

 

EDIT: Noch was gefunden:

https://forums.unraid.net/topic/70913-btrfs-cache-read-only-mounted/?tab=comments#comment-651092

 

Wenn also BTRFS die zwei Laufwerke nicht ordentlich balancen kann, kann es wohl sein, dass BTRFS ein Laufwerk rauswirft und es sich nur degraded und read-only mounted. Dann hilft also nur Daten sichern und den Cache Pool neu erstellen.

 

Der Mover wird dann übrigens nicht helfen, weil der Mover ja verschiebt und nicht kopiert und von read-only kann man nicht verschieben.

 

Wenn das so ist, dann wartest du jetzt lieber wirklich auf die SSD.

 

Eventuell gehst du aus Sicherheitsgründen auch mal hin und sicherst die SSD auf die HDD1 (oben rechts >_ um das Webterminal zu öffnen):


rsync -av --stats /mnt/cache/ /mnt/disk1/cachebackup

 

Auf keinen Fall als Ziel /mtn/user... nehmen. Ansonsten besteht die Gefahr, dass die Daten sich selbst überschreiben!

 

Das Backup solltest du auch machen, bevor du das mit den Slots machst, was ich777 im folgenden Beitrag vorschlägt. Sicher ist sicher ^^

 

 

Jawohl, die Cache SSD ist tatsächlich read-only. Kann ich das nicht einfach per Befehl wieder umstellen?

 

Ob die SSD sicher defekt ist weiß ich noch nicht, im Log war alles rot mit Schreibfehlern, daher ging ich davon aus.

 

Die Sicherung per sync läuft gerade! 

 

Danke und Gruß.

Link to comment
1 hour ago, ich777 said:

du hast also 2 oder mehrere Platten im BTRFS RAID1 gehabt und die Platte im 1. Slot ist jetzt defekt, richtig?

Der Cache bestand aus 2 x 250GB SSD, die im Slot 1 zeigte nur noch Schreibfehler an, von daher gehe ich von einem defekt aus.

 

1 hour ago, ich777 said:

Wenn du auf nummer sicher gehen willst warte auf die neue Platte stoppe das Array und füge die neue Platte einfach auf Slot 1 ein dann sollte der rebuild vom Cache beginnen wenn du das Array startest.

Das werde ich tun, aktuell läuft noch der rsync, aber die SSD ist so oder so noch nicht da.

 

Gruß

Jojo

Link to comment

Also JorgeB sagt, dass deine noch lebende SSD ebenfalls Schreibfehler in den Logs hinterlassen hat und sie deswegen read-only gemountet wurde.

 

Das muss wohl schon der Fall gewesen sein, als die andere noch funktionierte. Dann hatten vermutlich beide einen Fehler und das ist nun das Ergebnis.

 

Also die Datensicherung ist jetzt erstmal wichtig. Danach müssten wir mal prüfen ob die SSDs wirklich defekt sind.

 

Hattest du mal im laufenden Betrieb den Strom gezogen oder hart abgeschaltet über die Power-Taste?

 

Oder meinst du die SSDs konnten durch die Syno verschlissen worden sein?

Link to comment

Hart abgeschaltet habe ich nicht, da der Server an einer kleinen USV hängt wird wohl auch kein kurzer Stromausfall verantwortlich sein.

 

Ich hatte beide SSD in der Syno aber nur eine als Cache im Einsatz, die andere habe ich gar nicht erst konfiguriert.

 

Wie kann ich denn prüfen ob die SSD defekt ist oder nicht?

NACHTRAG: „btrfs dev stats /mnt/cache„ zeigt jede Menge Fehler.

6220D72E-C892-4BE3-840A-A361E060611F.jpeg

Edited by Jojo1965
Grafik eingefügt
Link to comment

Ich würde rsync noch ein zweites mal laufen lassen um zu schauen ob wirklich alles übertragen wurde.

 

Dann würde ich mal schauen was die SMART Werte eigentlich sagen. Hast du da "Grown Bad Blocks"? Das sind die Blöcke, die während deiner Nutzung kaputt gegangen sind. Die "Total bad blocks" enthalten diese und die defekten Blöcke ab Werk (ja, ist so ^^). Weitere Infos dazu hier:

https://www.swissbit.com/files/public/Documents/TechNotes/AN2102en_Bad_Blocks.pdf

 

 

Link to comment

Moin moin, habe jetzt die erste SSD wieder eingebaut, wird als „neu“ erkannt und bildet nun mit Disk 2 einen Pool.

 

Die SMART Werte beider Platten scheinen gut zu sein „SMART overall-health: Passed. 

 

Schaut man in den Log gibt es Fehler, ich blicke da leider nicht durch...

 

Am liebsten würde ich den Cache Pool löschen und neu aufsetzen wenn das Sinn macht. 

 

C0077907-BF61-456F-91BF-D04CE53D53CC.jpeg

CBC2E488-ABA6-4920-AFA2-D2B3EB38C502.jpeg

Link to comment
1 hour ago, Jojo1965 said:

Moin moin, habe jetzt die erste SSD wieder eingebaut, wird als „neu“ erkannt und bildet nun mit Disk 2 einen Pool.

 

Also jetzt geht lesen und schreiben wieder? Dann könntest du die Shares beim Cache auf "Yes" stellen, Docker+VM deaktivieren und den Mover starten, damit er die Dateien auf die HDDs verschiebt. Danach Screenshot von der Disk-Übersicht, Config Neu mit Array + Parity preserved und den Cache neu zuordnen. Dann bist du wieder bei der Ausgangssituation.

Link to comment

Ja danke, da bin ich schon bei, der Mover hat auch ordentlich gemoved , aber nicht alles. 24 GB bleiben auf dem Cache erhalten, primär sind das Plex Daten... Habe das Prozedere jetzt 3 mal durch, es tut sich nix mehr. Einstellungen bei den Shares habe ich doppelt und dreifach geprüft, Docker und VMs sind in den Einstellungen deaktiviert.

 

In mnt/cache/system/docker liegt zum Beispiel das Docker Image. Oder auch ein libvirt/libvirt.img.

 

Appdata siehe Screenshot

DC5CB218-DD7E-4758-92B4-6F23428162BC.jpeg

Edited by Jojo1965
Ergänzung
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.