cache schaltet sich eigenständig ab und wacht nicht mehr auf

NiMora · April 28

Hallo zusammen,

ich habe auf einem frisch aufgesetztem unraid das Problem, dass sich der cache einfach in eine Art Ruhezustand versetzt. So genau kann ich das gar nicht definieren, auf den cache kann nicht mehr zugegriffen werden, die docker spucken einen server error aus und es werden keine Laufwerkstemps mehr angezeigt. Ich nehme also nur an, dass es eine Art Ruhezustand ist. Der cache lasst sich nicht mehr reanimieren, außer durch einnen Neustart von unraid. Es passiert auch nicht, wenn das System ein Weile ruht oder so. Mitten im Betrieb, habe gerade einen Docker installiert, welcher plötzlich einen Fehler ausspuckt. Vorher war es auch schon mal der Fall, da habe ich jedoch nichts gemacht, das System lief einfach vor sich hin, die HDD's waren in den Ruhemodus gegangen, weshalb ich das da noch für einen missglückten wakeup gehalten habe. Nun passiert es aber einfach so im Betrieb.

Hat jemand einen Tipp, wo ich bei der Fehlersuche anfangen könnte oder woran dies evtl. liegen könnte? Anbei die Diagnose-Rar, die aber wohl lediglich anzeigt, dass kein cache da ist.

ERGÄNZUNG: wenn ich das array stoppe, fehlen die cache nvme's auch. Sind also gänzlich weg.

Besten Dank

nimora-diagnostics-20240428-1907.zip

Edited April 28 by NiMora

alturismo · April 28

14 minutes ago, NiMora said:

Besten Dank

naja, es fängt mit btrfs Ausstiegen an ...

Apr 28 10:01:51 NiMora kernel: nvme nvme0: Device not ready; aborting reset, CSTS=0x3
Apr 28 10:01:51 NiMora kernel: nvme nvme0: Removing after probe failure status: -19
Apr 28 10:01:51 NiMora kernel: nvme nvme1: Device not ready; aborting reset, CSTS=0x3
Apr 28 10:01:51 NiMora kernel: nvme nvme1: Removing after probe failure status: -19
Apr 28 10:01:51 NiMora kernel: nvme0n1: detected capacity change from 1953525168 to 0
Apr 28 10:01:51 NiMora kernel: nvme1n1: detected capacity change from 2000409264 to 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme1n1p1 errs: wr 2, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme0n1p1 errs: wr 1, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme0n1p1 errs: wr 2, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme1n1p1 errs: wr 3, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme0n1p1 errs: wr 3, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme1n1p1 errs: wr 4, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme0n1p1 errs: wr 4, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme1n1p1 errs: wr 5, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme0n1p1 errs: wr 5, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme1n1p1 errs: wr 6, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS: error (device nvme1n1p1) in btrfs_commit_transaction:2494: errno=-5 IO failure (Error while writing out transaction)
Apr 28 10:01:51 NiMora kernel: BTRFS info (device nvme1n1p1: state E): forced readonly
Apr 28 10:01:51 NiMora kernel: BTRFS warning (device nvme1n1p1: state E): Skipping commit of aborted transaction.
Apr 28 10:01:51 NiMora kernel: BTRFS: error (device nvme1n1p1: state EA) in cleanup_transaction:1992: errno=-5 IO failure
Apr 28 10:01:52 NiMora kernel: traps: brave[13543] trap invalid opcode ip:55a6d2d877f9 sp:7ffca1cda1d0 error:0 in brave[55a6cdc34000+951a000]
Apr 28 10:01:53 NiMora kernel: traps: brave[13631] trap invalid opcode ip:55efb86c57f9 sp:7ffd4039a2e0 error:0 in brave[55efb3572000+951a000]
Apr 28 10:01:54 NiMora kernel: traps: brave[13696] trap invalid opcode ip:55aff46827f9 sp:7fff03b3ea60 error:0 in brave[55afef52f000+951a000]

und das Ende wiederholt sich bis zum Ende ...

bei btrfs gibt es von mir persönlich nur eins, weg davon ... wenn du ein raid1 pool nutzt dann teste mal den Umstieg auf zfs ...

single cache immer xfs, aber du hast ja 2 drives ... dann wäre aktuell zfs einen Versuch wert.

NiMora · April 28

Besten Dank für die schnelle Antwort.

Wie könnte die Umstellung erfolgen, ohne wieder alle Docker neu installieren zu müssen? Wäre nicht ganz so daramatisch, aber schon Bequemer. Wobei, ich konnte den Umzug auf den zweiten cache durchführen. läuft das über den mover?

Und ist das nicht eher ein Signal, dass was mit den nvme's ist? Hatte vorher andere drin, aber auch btrfs und es gab nie Probleme dieser Art.

Also: zfs, mirror, 1 group of 2 devices?

Edited April 28 by NiMora

alturismo · April 28

3 minutes ago, NiMora said:

Wie könnte die Umstellung erfolgen

1/ screen / Übersicht machen der Docker, Docker und VM Dienst stoppen

2/ alles wegsichern sofern möglich (außer ../system/docker/.... macht keinen Sinn

3/ Platten neu formatieren und einrichten

4/ Backup retour spielen

5/ Docker und VM Dienst wieder starten (docker image / folder wird neu erstellt, ..system/docker/...)

5/ Docker neu installieren aus previous apps oder docker tab, add container, user templates ...

alle Startparameter sind vorhanden /liegen auf dem Flash), persistent appdata waren dann ja gesichert / retour ... sprich, alles wie vorher und nix verloren

NiMora · April 28

hat geklappt. Besten Dank.

Mal schauen, ob das Problem nun nicht mehr auftritt. Verwunderlich aber dennoch, da bisher in der gleichen oder ähnlichen Konstellation, aber immer mit btrfs noch nie aufgetreten.

Mache mir eher sorgen, dass die nvme's kaputt sind. Nun, ich teste mal und warte ab.

alturismo · April 28

1 minute ago, NiMora said:

Mache mir eher sorgen, dass die nvme's kaputt sind. Nun, ich teste mal und warte ab.

Hardware ist sicherlich nicht auszuschließen ... aber btrfs ist (leider) hier auch öfters komplett in die Knie gegangen, bis zu dem Tag an dem ich (Idiot) mal blank (ohne Backups) stand ... das war dann das endgültige Aus hier ... und wenn du danach suchst ... wirst du einiges zu btrfs und Problemen lesen.

cache schaltet sich eigenständig ab und wacht nicht mehr auf

Recommended Posts

NiMora

Link to comment

alturismo

Link to comment

NiMora

Link to comment

alturismo

Link to comment

NiMora

Link to comment

alturismo

Link to comment

Join the conversation