Hilfe Unraid 6.12.2 / 6.12.3 - Server hängt sich auf


Björn f.
Go to solution Solved by Björn f.,

Recommended Posts

Hallo zusammen,

 

erst hatte ich das problem das meine Docker zuviel speicher gebraucht haben und ich zwei docker neu einrichten musste.

und nun seit ca 7 Woche hängt sich alles auf.

erst sind die docker offline, obwohl die als onlien angezeigt werden.

Der Server Reagiert träger (von handy und Tablet erreiche ich diesen kaum mehr), ausser vom localen pc.

und dann nach einer gewissen zeit geht garnichts mehr...

 

Memory cgroup out of memory

ich konnte nur ein teil meines LOgs auslesen.

 

 

Jul 16 08:02:59 Server kernel: oom-kill:constraint=CONSTRAINT_MEMCG,nodemask=(null),cpuset=/,mems_allowed=0,oom_memcg=/docker/8bd5147b1c777e33cb737cc7a66c6d4c4e7ac668c1efcd792b595793c89ca2c0,task_memcg=/docker/8bd5147b1c777e33cb737cc7a66c6d4c4e7ac668c1efcd792b595793c89ca2c0,task=nginx,pid=24267,uid=0
Jul 16 08:02:59 Server kernel: Memory cgroup out of memory: Killed process 24267 (nginx) total-vm:106964kB, anon-rss:8944kB, file-rss:0kB, shmem-rss:76kB, UID:0 pgtables:92kB oom_score_adj:0
Jul 16 08:03:01 Server kernel: oom_reaper: reaped process 24267 (nginx), now anon-rss:0kB, file-rss:0kB, shmem-rss:76kB
Jul 16 08:05:34 Server kernel: rcu: INFO: rcu_preempt self-detected stall on CPU
Jul 16 08:05:34 Server kernel: rcu:     8-....: (24900539 ticks this GP) idle=4574/1/0x4000000000000000 softirq=3514003/3514003 fqs=10947486
Jul 16 08:05:34 Server kernel:  (t=24900540 jiffies g=5827493 q=117024973 ncpus=16)
Jul 16 08:05:34 Server kernel: CPU: 8 PID: 8902 Comm: storagenode Tainted: P      D W  O       6.1.36-Unraid #1

 

 

 

hat jemand hierzu vielleicht eine idee ?

Edited by Björn f.
Link to comment
2 hours ago, Björn f. said:

hat jemand hierzu vielleicht eine idee ?

vielleicht wenn du ein paar mehr Infos hättest ...

 

out of memory ... cgroup Kernel Memory ....

 

welche Unraid Version ?

docker image / directory mal gelöscht und neu gemacht ?

docker geprüft ob du nicht irgendwo falsch reinschreibst ?

....

Link to comment
  • Björn f. changed the title to Hilfer Docker 6.12.2 - Server hängt sich auf - gelöst !
1 hour ago, Björn f. said:

schein wohl ein problem mit der unraid version 6.12.2 zu tun zu haben,.. habe das downgrade versucht leider liefen dann keine docker mehr,

yep, steht auch im changelog von der 6.12.3

 

ebenso, wenn downgrade auf 6.11 müssen die docjer/s neu installiert werden wegen der cgroup Umstellung

  • Like 1
Link to comment

Nun nach einem Tag das gleiche Problem

Die Weboberfläche wird angezeigt, der Login ist nicht möglich, ein Teil der Docker läuft, Heimdall und Grafana, die restlichen Docker sind inaktiv (vermutlich)

der zugriff auf den Server war nur über Terminal möglich und habe diese somit neustarten müssen

 

 

Link to comment

also scheinbar hat eine HDD XFS PRobleme bin aktuell schon am reparieren.
trotzdem hier mal der SYSlog


Jul 18 22:09:05 Server kernel: ACPI: Early table checksum verification disabled Jul 18 22:09:05 Server kernel: floppy0: no floppy controllers found Jul 18 22:09:15 Server mcelog: failed to prefill DIMM database from DMI data Jul 18 22:09:46 Server kernel: BTRFS info (device nvme1n1p1): using crc32c (crc32c-intel) checksum algorithm Jul 18 22:09:56 Server kernel: XFS (sde1): Internal error xfs_efi_item_recover at line 614 of file fs/xfs/xfs_extfree_item.c. Caller xlog_recover_process_intents+0x99/0x25e [xfs] Jul 18 22:09:56 Server kernel: CPU: 9 PID: 12297 Comm: mount Tainted: P O 6.1.38-Unraid #2 Jul 18 22:09:56 Server kernel: Call Trace: Jul 18 22:09:56 Server kernel: XFS (sde1): Failed to recover intents Jul 18 22:09:56 Server kernel: XFS (sde1): Filesystem has been shut down due to log error (0x2). Jul 18 22:09:56 Server kernel: XFS (sde1): log mount finish failed Jul 18 22:09:59 Server unassigned.devices: Mount of 'sde1' failed: 'mount: /mnt/disks/32X0A03RFVGG: mount(2) system call failed: Structure needs cleaning. dmesg(1) may have more information after failed mount system call. ' Jul 18 22:10:10 Server kernel: BTRFS info (device loop2): using crc32c (crc32c-intel) checksum algorithm Jul 18 22:10:50 Server root: Error response from daemon: Pool overlaps with other one on this address space Jul 18 22:10:50 Server kernel: BTRFS info (device loop3): using crc32c (crc32c-intel) checksum algorithm Jul 18 22:12:33 Server rc.docker: StorJ_002_VPS_001: Error response from daemon: invalid mount config for type "bind": bind source path does not exist: /mnt/disks/32X0A03RFVGG/Storj_02/Identity/storagenode/ Jul 18 22:12:33 Server rc.docker: Error: failed to start containers: StorJ_002_VPS_001 Jul 18 22:12:40 Server rc.docker: StorJ_004_VPS_003: Error response from daemon: invalid mount config for type "bind": bind source path does not exist: /mnt/disks/32X0A03RFVGG/Storj_04/Identity/storagenode/ Jul 18 22:12:40 Server rc.docker: Error: failed to start containers: StorJ_004_VPS_003 Jul 18 22:15:03 Server kernel: XFS (sde1): Internal error xfs_efi_item_recover at line 614 of file fs/xfs/xfs_extfree_item.c. Caller xlog_recover_process_intents+0x99/0x25e [xfs] Jul 18 22:15:03 Server kernel: CPU: 4 PID: 16804 Comm: mount Tainted: P O 6.1.38-Unraid #2 Jul 18 22:15:03 Server kernel: Call Trace: Jul 18 22:15:03 Server kernel: XFS (sde1): Failed to recover intents Jul 18 22:15:03 Server kernel: XFS (sde1): Filesystem has been shut down due to log error (0x2). Jul 18 22:15:03 Server kernel: XFS (sde1): log mount finish failed Jul 18 22:15:06 Server unassigned.devices: Mount of 'sde1' failed: 'mount: /mnt/disks/32X0A03RFVGG: mount(2) system call failed: Structure needs cleaning. dmesg(1) may have more information after failed mount system call. ' Jul 18 22:15:23 Server kernel: XFS (sde1): Internal error xfs_efi_item_recover at line 614 of file fs/xfs/xfs_extfree_item.c. Caller xlog_recover_process_intents+0x99/0x25e [xfs] Jul 18 22:15:23 Server kernel: CPU: 3 PID: 21086 Comm: mount Tainted: P O 6.1.38-Unraid #2 Jul 18 22:15:23 Server kernel: Call Trace: Jul 18 22:15:23 Server kernel: XFS (sde1): Failed to recover intents Jul 18 22:15:23 Server kernel: XFS (sde1): Filesystem has been shut down due to log error (0x2). Jul 18 22:15:23 Server kernel: XFS (sde1): log mount finish failed Jul 18 22:15:25 Server unassigned.devices: Mount of 'sde1' failed: 'mount: /mnt/disks/32X0A03RFVGG: mount(2) system call failed: Structure needs cleaning. dmesg(1) may have more information after failed mount system call. ' Jul 18 22:18:13 Server kernel: sd 5:0:1:0: [sde] Synchronize Cache(10) failed: Result: hostbyte=0x01 driverbyte=DRIVER_OK Jul 18 22:18:41 Server kernel: XFS (sde1): Internal error xfs_efi_item_recover at line 614 of file fs/xfs/xfs_extfree_item.c. Caller xlog_recover_process_intents+0x99/0x25e [xfs] Jul 18 22:18:41 Server kernel: CPU: 8 PID: 1677 Comm: mount Tainted: P O 6.1.38-Unraid #2 Jul 18 22:18:41 Server kernel: Call Trace: Jul 18 22:18:41 Server kernel: XFS (sde1): Failed to recover intents Jul 18 22:18:41 Server kernel: XFS (sde1): Filesystem has been shut down due to log error (0x2). Jul 18 22:18:41 Server kernel: XFS (sde1): log mount finish failed Jul 18 22:18:43 Server unassigned.devices: Mount of 'sde1' failed: 'mount: /mnt/disks/32X0A03RFVGG: mount(2) system call failed: Structure needs cleaning. dmesg(1) may have more information after failed mount system call. ' Jul 18 22:18:51 Server kernel: XFS (sde1): Internal error xfs_efi_item_recover at line 614 of file fs/xfs/xfs_extfree_item.c. Caller xlog_recover_process_intents+0x99/0x25e [xfs] Jul 18 22:18:51 Server kernel: CPU: 8 PID: 7630 Comm: mount Tainted: P O 6.1.38-Unraid #2 Jul 18 22:18:51 Server kernel: Call Trace: Jul 18 22:18:51 Server kernel: XFS (sde1): Failed to recover intents Jul 18 22:18:51 Server kernel: XFS (sde1): Filesystem has been shut down due to log error (0x2). Jul 18 22:18:51 Server kernel: XFS (sde1): log mount finish failed Jul 18 22:18:54 Server unassigned.devices: Mount of 'sde1' failed: 'mount: /mnt/disks/32X0A03RFVGG: mount(2) system call failed: Structure needs cleaning. dmesg(1) may have more information after failed mount system call. ' Jul 18 22:33:33 Server kernel: WARNING: CPU: 8 PID: 27773 at net/netfilter/nf_conntrack_core.c:1210 __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack] Jul 18 22:33:33 Server kernel: CPU: 8 PID: 27773 Comm: kworker/u32:0 Tainted: P O 6.1.38-Unraid #2

Link to comment

also langsam ferzweifel ich mit dieser kisten,.. 

 

Aktuell war ich dabei die HDD mit dem defekten Filesystem zu reparieren nun ist der server wieder nicht erreichbar (per Webgui) ,..
Nur dieses mal ist er auch per Ping nicht mehr zu erreichen nach einigen Minuten, ich verstehe es nicht mehr ! 

 

photo_2023-07-19_21-07-59.jpg

Edited by Björn f.
Link to comment
  • Björn f. changed the title to Hilfer Docker 6.12.2 - Server hängt sich auf

Update:

Ich habe nun die Cache SSDS erneuer, 

von gestern auf heute dachte ich dann es läuft wieder alles TOP habe auch keine fehler mehr im log,

heute noch die VM`s angeworfen, zack 10-20 minuten später server nicht mehr erreichbar.

 

verdacht liegt noch bei einem defekten usb stick, obwohl das system diesen ja nur zum starten benötigt,..

 

ich werde nun den server mal laufen lassen ohne VM`S die 6.11 Version von unraid hatte damals ja einwandfrei funktioniert !

 

Hier noch der Aktuelle log

 

11111.jpg.4e111c39ab63dcb84dac67ebcd312d85.jpg

 

 

Edited by Björn f.
Link to comment
8 hours ago, Björn f. said:

es scheint an den VM`s zu liegen !

 

wie auch immer du jetzt darauf kommst, log files ?

 

syslog mirror to flash mal aktiviert um "genauere" logs zu bekommen ?

Monitor angeschlossen um die "letzte" Fehlermeldung zu sichten ?

...

 

in dem was du bisher posted hast, sieht es eher nach Dateisystemfehlern aus, sei es ein echter Defekt, sei es ein btrfs Thema ...

 

da bliebe jetzt diagnostics und "letztes" syslog im bug report zu posten.

 

8 hours ago, Björn f. said:

nun hoffe ich das der support mit den key wieder freigibt :( 

wenn der alte stick hinüber ist, neuen erstellen, key und config drauf, dann hast du 1x jährlich die Möglichkeit das selbst zu erledigen im web GUI und musst nicht auf den support warten ... mal geschaut ?

  • Like 1
Link to comment

habe je beschrieben das ich an der fehlersuche dran bin,... :) 

 

der witz ist wenn ich die VM geschichte nicht Starte, habe ich weder fehler noch bleibt das system hängen.

ich häng mal die gewünschten daten an :) 

server-diagnostics-20230725-1949.zip

syslog

 

 

 

hier nun auch wieder der aktuelle Log (copy Paste) nut die errors

Jul 25 19:47:01 Server root: Error response from daemon: Pool overlaps with other one on this address space
Jul 25 19:47:01 Server root: Error: Nexthop has invalid gateway.
Jul 25 19:47:06 Server kernel: CPU: 1 PID: 2217 Comm: kworker/u32:5 Tainted: P O 6.1.38-Unraid #2 Jul 25 19:47:06 Server kernel: Call Trace:

Jul 25 19:46:24 Server kernel: BTRFS info (device nvme0n1p1): using crc32c (crc32c-intel) checksum algorithm
Jul 25 19:46:58 Server kernel: BTRFS info (device loop2): using crc32c (crc32c-intel) checksum algorithm
Jul 25 19:47:01 Server kernel: BTRFS info (device loop3): using crc32c (crc32c-intel) checksum algorithm
Jul 25 19:47:01 Server crond[1676]: failed parsing crontab for user root: /usr/local/emhttp/plugins/tips.and.tweaks/scripts/rc.tweaks set_governor powersave &> /dev/null
Jul 25 19:47:01 Server crond[1676]: failed parsing crontab for user root: /usr/local/emhttp/plugins/tips.and.tweaks/scripts/rc.tweaks set_governor powersave &> /dev/null
Jul 25 19:47:06 Server kernel: WARNING: CPU: 1 PID: 2217 at net/netfilter/nf_conntrack_core.c:1210 __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack]

Edited by Björn f.
Link to comment
  • Björn f. changed the title to Hilfe Unraid 6.12.2 / 6.12.3 - Server hängt sich auf
38 minutes ago, Björn f. said:

der witz ist wenn ich die VM geschichte nicht Starte, habe ich weder fehler noch bleibt das system hängen.

 

mit den btrfs Fehlern ... naja, wie oben erwähnt, Platt fahren, vielleicht geht es ...

 

ich nutze kein btrfs (mehr) da ich da gebrandmarkt bin ;) aber auch das powersave Kommando ... hast du das im script oder wolltest du da bewusst auf powersave stellen ?

 

ich würde als

 

1. alles weg sichern solange noch etwas läuft auf deinem pool

2. alles was btrfs ist mal zumindest platt fahren und neu aufsetzen (formatieren)

3. alle möglichen Stromspar Aktivitäten mal abschalten

4. deine diagnostics und co im bug report Teil eine Anfrage starten ...

 

dieser Fehler hier ...

42 minutes ago, Björn f. said:

Jul 25 19:47:06 Server kernel: WARNING: CPU: 1 PID: 2217 at net/netfilter/nf_conntrack_core.c:1210 __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack]

sind die Anzeichen zum Thema macvlan ... wozu es ja bereits diverse Threads hier gibt ...

Link to comment
1 hour ago, Björn f. said:

cache platten kann ich nicht anderweitig formatieren da ging nur BTRFS ?!

 

du hast einen cache pool als btrfs, ja ... entweder auf zfs wechseln (dann wäre format auch gleich erledigt ;)) oder single cache drives für xfs ...

 

ansonsten, hast du jetzt einen bug report aufgemacht ?

Link to comment

ich habe den support direkt angeschrieben, entnervt habe ich das system nun auf 6.11.5 zurück gesetzt alle docker wieder eingerichtet und alles läuft nun wieder auch meine VM`s wie ich aber die pool datenträger auf XFS uminstalliere ich mir noch ein rätzel ich kann nur btrfs,...

  • Like 1
Link to comment
  • 2 weeks later...

Ich habe seit v6.12.2 zerschossene Docker Container gehabt. Das System hing auch in unregelmäßigen Abständen. Mit v6.12.3 war ich optimistisch aber die gleichen Fehler wieder.

Dachte zwischendurch es wurde am S3 Sleep Plugin liegen, dass hier was nicht sauber schlafen geht aber soweit könnte ich noch nicht Fehlersuche betreiben.

 

Nun haben sich heute wieder alle Docker Container verabschiedet (unraid-Symbol statt App-Icon), keiner ist startbar und nun werde ich auch auf die 6.11.5 zurück gehen. Dort lief alles in dieser Konfiguration ohne Makken bis zum Schluss.

Link to comment
  • 2 weeks later...

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.