Jump to content

cache schaltet sich eigenständig ab und wacht nicht mehr auf


Go to solution Solved by alturismo,

Recommended Posts

Hallo zusammen,

 

ich habe auf einem frisch aufgesetztem unraid das Problem, dass sich der cache einfach in eine Art Ruhezustand versetzt. So genau kann ich das gar nicht definieren, auf den cache kann nicht mehr zugegriffen werden, die docker spucken einen server error aus und es werden keine Laufwerkstemps mehr angezeigt. Ich nehme also nur an, dass es eine Art Ruhezustand ist. Der cache lasst sich nicht mehr reanimieren, außer durch einnen Neustart von unraid. Es passiert auch nicht, wenn das System ein Weile ruht oder so. Mitten im Betrieb, habe gerade einen Docker installiert, welcher plötzlich einen Fehler ausspuckt. Vorher war es auch schon mal der Fall, da habe ich jedoch nichts gemacht, das System lief einfach vor sich hin, die HDD's waren in den Ruhemodus gegangen, weshalb ich das da noch für einen missglückten wakeup gehalten habe. Nun passiert es aber einfach so im Betrieb.

 

Hat jemand einen Tipp, wo ich bei der Fehlersuche anfangen könnte oder woran dies evtl. liegen könnte? Anbei die Diagnose-Rar, die aber wohl lediglich anzeigt, dass kein cache da ist.

 

ERGÄNZUNG: wenn ich das array stoppe, fehlen die cache nvme's auch. Sind also gänzlich weg.

 

Besten Dank

nimora-diagnostics-20240428-1907.zip

Edited by NiMora
Link to comment
14 minutes ago, NiMora said:

Besten Dank

 

naja, es fängt mit btrfs Ausstiegen an ...

 

Apr 28 10:01:51 NiMora kernel: nvme nvme0: Device not ready; aborting reset, CSTS=0x3
Apr 28 10:01:51 NiMora kernel: nvme nvme0: Removing after probe failure status: -19
Apr 28 10:01:51 NiMora kernel: nvme nvme1: Device not ready; aborting reset, CSTS=0x3
Apr 28 10:01:51 NiMora kernel: nvme nvme1: Removing after probe failure status: -19
Apr 28 10:01:51 NiMora kernel: nvme0n1: detected capacity change from 1953525168 to 0
Apr 28 10:01:51 NiMora kernel: nvme1n1: detected capacity change from 2000409264 to 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme1n1p1 errs: wr 2, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme0n1p1 errs: wr 1, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme0n1p1 errs: wr 2, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme1n1p1 errs: wr 3, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme0n1p1 errs: wr 3, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme1n1p1 errs: wr 4, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme0n1p1 errs: wr 4, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme1n1p1 errs: wr 5, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme0n1p1 errs: wr 5, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS error (device nvme1n1p1): bdev /dev/nvme1n1p1 errs: wr 6, rd 0, flush 0, corrupt 0, gen 0
Apr 28 10:01:51 NiMora kernel: BTRFS: error (device nvme1n1p1) in btrfs_commit_transaction:2494: errno=-5 IO failure (Error while writing out transaction)
Apr 28 10:01:51 NiMora kernel: BTRFS info (device nvme1n1p1: state E): forced readonly
Apr 28 10:01:51 NiMora kernel: BTRFS warning (device nvme1n1p1: state E): Skipping commit of aborted transaction.
Apr 28 10:01:51 NiMora kernel: BTRFS: error (device nvme1n1p1: state EA) in cleanup_transaction:1992: errno=-5 IO failure
Apr 28 10:01:52 NiMora kernel: traps: brave[13543] trap invalid opcode ip:55a6d2d877f9 sp:7ffca1cda1d0 error:0 in brave[55a6cdc34000+951a000]
Apr 28 10:01:53 NiMora kernel: traps: brave[13631] trap invalid opcode ip:55efb86c57f9 sp:7ffd4039a2e0 error:0 in brave[55efb3572000+951a000]
Apr 28 10:01:54 NiMora kernel: traps: brave[13696] trap invalid opcode ip:55aff46827f9 sp:7fff03b3ea60 error:0 in brave[55afef52f000+951a000]

 

und das Ende wiederholt sich bis zum Ende ...

 

bei btrfs gibt es von mir persönlich nur eins, weg davon ... wenn du ein raid1 pool nutzt dann teste mal den Umstieg auf zfs ...

 

single cache immer xfs, aber du hast ja 2 drives ... dann wäre aktuell zfs einen Versuch wert.

  • Like 1
Link to comment
Posted (edited)

Besten Dank für die schnelle Antwort.

 

Wie könnte die Umstellung erfolgen, ohne wieder alle Docker neu installieren zu müssen? Wäre nicht ganz so daramatisch, aber schon Bequemer. Wobei, ich konnte den Umzug auf den zweiten cache durchführen. läuft das über den mover?

 

Und ist das nicht eher ein Signal, dass was mit den nvme's ist? Hatte vorher andere drin, aber auch btrfs und es gab nie Probleme dieser Art.

 

Also: zfs, mirror, 1 group of 2 devices?

Edited by NiMora
Link to comment
  • Solution
3 minutes ago, NiMora said:

Wie könnte die Umstellung erfolgen

1/ screen / Übersicht machen der Docker, Docker und VM Dienst stoppen

2/ alles wegsichern sofern möglich (außer ../system/docker/.... macht keinen Sinn

3/ Platten neu formatieren und einrichten

4/ Backup retour spielen

5/ Docker und VM Dienst wieder starten (docker image / folder wird neu erstellt, ..system/docker/...)

5/ Docker neu installieren aus previous apps oder docker tab, add container, user templates ... 

 

alle Startparameter sind vorhanden /liegen auf dem Flash), persistent appdata waren dann ja gesichert / retour ... sprich, alles wie vorher und nix verloren ;)

  • Like 1
Link to comment

hat geklappt. Besten Dank.

 

Mal schauen, ob das Problem nun nicht mehr auftritt. Verwunderlich aber dennoch, da bisher in der gleichen oder ähnlichen Konstellation, aber immer mit btrfs noch nie aufgetreten.

Mache mir eher sorgen, dass die nvme's kaputt sind. Nun, ich teste mal und warte ab.

Link to comment
1 minute ago, NiMora said:

Mache mir eher sorgen, dass die nvme's kaputt sind. Nun, ich teste mal und warte ab.

Hardware ist sicherlich nicht auszuschließen ... aber btrfs ist (leider) hier auch öfters komplett in die Knie gegangen, bis zu dem Tag an dem ich (Idiot) mal blank (ohne Backups) stand ... das war dann das endgültige Aus hier ... und wenn du danach suchst ... wirst du einiges zu btrfs und Problemen lesen.

  • Upvote 1
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...