Björn f. Posted July 16, 2023 Share Posted July 16, 2023 (edited) Hallo zusammen, erst hatte ich das problem das meine Docker zuviel speicher gebraucht haben und ich zwei docker neu einrichten musste. und nun seit ca 7 Woche hängt sich alles auf. erst sind die docker offline, obwohl die als onlien angezeigt werden. Der Server Reagiert träger (von handy und Tablet erreiche ich diesen kaum mehr), ausser vom localen pc. und dann nach einer gewissen zeit geht garnichts mehr... Memory cgroup out of memory ich konnte nur ein teil meines LOgs auslesen. Jul 16 08:02:59 Server kernel: oom-kill:constraint=CONSTRAINT_MEMCG,nodemask=(null),cpuset=/,mems_allowed=0,oom_memcg=/docker/8bd5147b1c777e33cb737cc7a66c6d4c4e7ac668c1efcd792b595793c89ca2c0,task_memcg=/docker/8bd5147b1c777e33cb737cc7a66c6d4c4e7ac668c1efcd792b595793c89ca2c0,task=nginx,pid=24267,uid=0 Jul 16 08:02:59 Server kernel: Memory cgroup out of memory: Killed process 24267 (nginx) total-vm:106964kB, anon-rss:8944kB, file-rss:0kB, shmem-rss:76kB, UID:0 pgtables:92kB oom_score_adj:0 Jul 16 08:03:01 Server kernel: oom_reaper: reaped process 24267 (nginx), now anon-rss:0kB, file-rss:0kB, shmem-rss:76kB Jul 16 08:05:34 Server kernel: rcu: INFO: rcu_preempt self-detected stall on CPU Jul 16 08:05:34 Server kernel: rcu: 8-....: (24900539 ticks this GP) idle=4574/1/0x4000000000000000 softirq=3514003/3514003 fqs=10947486 Jul 16 08:05:34 Server kernel: (t=24900540 jiffies g=5827493 q=117024973 ncpus=16) Jul 16 08:05:34 Server kernel: CPU: 8 PID: 8902 Comm: storagenode Tainted: P D W O 6.1.36-Unraid #1 hat jemand hierzu vielleicht eine idee ? Edited July 25, 2023 by Björn f. Quote Link to comment
alturismo Posted July 16, 2023 Share Posted July 16, 2023 2 hours ago, Björn f. said: hat jemand hierzu vielleicht eine idee ? vielleicht wenn du ein paar mehr Infos hättest ... out of memory ... cgroup Kernel Memory .... welche Unraid Version ? docker image / directory mal gelöscht und neu gemacht ? docker geprüft ob du nicht irgendwo falsch reinschreibst ? .... Quote Link to comment
Solution Björn f. Posted July 16, 2023 Author Solution Share Posted July 16, 2023 hat sich erledigt, schein wohl ein problem mit der unraid version 6.12.2 zu tun zu haben,.. habe das downgrade versucht leider liefen dann keine docker mehr, habe dan aktualisiert auf 6.12.3 und nun läuft aktuell alles einwandfrei Quote Link to comment
alturismo Posted July 16, 2023 Share Posted July 16, 2023 1 hour ago, Björn f. said: schein wohl ein problem mit der unraid version 6.12.2 zu tun zu haben,.. habe das downgrade versucht leider liefen dann keine docker mehr, yep, steht auch im changelog von der 6.12.3 ebenso, wenn downgrade auf 6.11 müssen die docjer/s neu installiert werden wegen der cgroup Umstellung 1 Quote Link to comment
Björn f. Posted July 18, 2023 Author Share Posted July 18, 2023 Nun nach einem Tag das gleiche Problem Die Weboberfläche wird angezeigt, der Login ist nicht möglich, ein Teil der Docker läuft, Heimdall und Grafana, die restlichen Docker sind inaktiv (vermutlich) der zugriff auf den Server war nur über Terminal möglich und habe diese somit neustarten müssen Quote Link to comment
Björn f. Posted July 18, 2023 Author Share Posted July 18, 2023 also scheinbar hat eine HDD XFS PRobleme bin aktuell schon am reparieren. trotzdem hier mal der SYSlog Jul 18 22:09:05 Server kernel: ACPI: Early table checksum verification disabled Jul 18 22:09:05 Server kernel: floppy0: no floppy controllers found Jul 18 22:09:15 Server mcelog: failed to prefill DIMM database from DMI data Jul 18 22:09:46 Server kernel: BTRFS info (device nvme1n1p1): using crc32c (crc32c-intel) checksum algorithm Jul 18 22:09:56 Server kernel: XFS (sde1): Internal error xfs_efi_item_recover at line 614 of file fs/xfs/xfs_extfree_item.c. Caller xlog_recover_process_intents+0x99/0x25e [xfs] Jul 18 22:09:56 Server kernel: CPU: 9 PID: 12297 Comm: mount Tainted: P O 6.1.38-Unraid #2 Jul 18 22:09:56 Server kernel: Call Trace: Jul 18 22:09:56 Server kernel: XFS (sde1): Failed to recover intents Jul 18 22:09:56 Server kernel: XFS (sde1): Filesystem has been shut down due to log error (0x2). Jul 18 22:09:56 Server kernel: XFS (sde1): log mount finish failed Jul 18 22:09:59 Server unassigned.devices: Mount of 'sde1' failed: 'mount: /mnt/disks/32X0A03RFVGG: mount(2) system call failed: Structure needs cleaning. dmesg(1) may have more information after failed mount system call. ' Jul 18 22:10:10 Server kernel: BTRFS info (device loop2): using crc32c (crc32c-intel) checksum algorithm Jul 18 22:10:50 Server root: Error response from daemon: Pool overlaps with other one on this address space Jul 18 22:10:50 Server kernel: BTRFS info (device loop3): using crc32c (crc32c-intel) checksum algorithm Jul 18 22:12:33 Server rc.docker: StorJ_002_VPS_001: Error response from daemon: invalid mount config for type "bind": bind source path does not exist: /mnt/disks/32X0A03RFVGG/Storj_02/Identity/storagenode/ Jul 18 22:12:33 Server rc.docker: Error: failed to start containers: StorJ_002_VPS_001 Jul 18 22:12:40 Server rc.docker: StorJ_004_VPS_003: Error response from daemon: invalid mount config for type "bind": bind source path does not exist: /mnt/disks/32X0A03RFVGG/Storj_04/Identity/storagenode/ Jul 18 22:12:40 Server rc.docker: Error: failed to start containers: StorJ_004_VPS_003 Jul 18 22:15:03 Server kernel: XFS (sde1): Internal error xfs_efi_item_recover at line 614 of file fs/xfs/xfs_extfree_item.c. Caller xlog_recover_process_intents+0x99/0x25e [xfs] Jul 18 22:15:03 Server kernel: CPU: 4 PID: 16804 Comm: mount Tainted: P O 6.1.38-Unraid #2 Jul 18 22:15:03 Server kernel: Call Trace: Jul 18 22:15:03 Server kernel: XFS (sde1): Failed to recover intents Jul 18 22:15:03 Server kernel: XFS (sde1): Filesystem has been shut down due to log error (0x2). Jul 18 22:15:03 Server kernel: XFS (sde1): log mount finish failed Jul 18 22:15:06 Server unassigned.devices: Mount of 'sde1' failed: 'mount: /mnt/disks/32X0A03RFVGG: mount(2) system call failed: Structure needs cleaning. dmesg(1) may have more information after failed mount system call. ' Jul 18 22:15:23 Server kernel: XFS (sde1): Internal error xfs_efi_item_recover at line 614 of file fs/xfs/xfs_extfree_item.c. Caller xlog_recover_process_intents+0x99/0x25e [xfs] Jul 18 22:15:23 Server kernel: CPU: 3 PID: 21086 Comm: mount Tainted: P O 6.1.38-Unraid #2 Jul 18 22:15:23 Server kernel: Call Trace: Jul 18 22:15:23 Server kernel: XFS (sde1): Failed to recover intents Jul 18 22:15:23 Server kernel: XFS (sde1): Filesystem has been shut down due to log error (0x2). Jul 18 22:15:23 Server kernel: XFS (sde1): log mount finish failed Jul 18 22:15:25 Server unassigned.devices: Mount of 'sde1' failed: 'mount: /mnt/disks/32X0A03RFVGG: mount(2) system call failed: Structure needs cleaning. dmesg(1) may have more information after failed mount system call. ' Jul 18 22:18:13 Server kernel: sd 5:0:1:0: [sde] Synchronize Cache(10) failed: Result: hostbyte=0x01 driverbyte=DRIVER_OK Jul 18 22:18:41 Server kernel: XFS (sde1): Internal error xfs_efi_item_recover at line 614 of file fs/xfs/xfs_extfree_item.c. Caller xlog_recover_process_intents+0x99/0x25e [xfs] Jul 18 22:18:41 Server kernel: CPU: 8 PID: 1677 Comm: mount Tainted: P O 6.1.38-Unraid #2 Jul 18 22:18:41 Server kernel: Call Trace: Jul 18 22:18:41 Server kernel: XFS (sde1): Failed to recover intents Jul 18 22:18:41 Server kernel: XFS (sde1): Filesystem has been shut down due to log error (0x2). Jul 18 22:18:41 Server kernel: XFS (sde1): log mount finish failed Jul 18 22:18:43 Server unassigned.devices: Mount of 'sde1' failed: 'mount: /mnt/disks/32X0A03RFVGG: mount(2) system call failed: Structure needs cleaning. dmesg(1) may have more information after failed mount system call. ' Jul 18 22:18:51 Server kernel: XFS (sde1): Internal error xfs_efi_item_recover at line 614 of file fs/xfs/xfs_extfree_item.c. Caller xlog_recover_process_intents+0x99/0x25e [xfs] Jul 18 22:18:51 Server kernel: CPU: 8 PID: 7630 Comm: mount Tainted: P O 6.1.38-Unraid #2 Jul 18 22:18:51 Server kernel: Call Trace: Jul 18 22:18:51 Server kernel: XFS (sde1): Failed to recover intents Jul 18 22:18:51 Server kernel: XFS (sde1): Filesystem has been shut down due to log error (0x2). Jul 18 22:18:51 Server kernel: XFS (sde1): log mount finish failed Jul 18 22:18:54 Server unassigned.devices: Mount of 'sde1' failed: 'mount: /mnt/disks/32X0A03RFVGG: mount(2) system call failed: Structure needs cleaning. dmesg(1) may have more information after failed mount system call. ' Jul 18 22:33:33 Server kernel: WARNING: CPU: 8 PID: 27773 at net/netfilter/nf_conntrack_core.c:1210 __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack] Jul 18 22:33:33 Server kernel: CPU: 8 PID: 27773 Comm: kworker/u32:0 Tainted: P O 6.1.38-Unraid #2 Quote Link to comment
Björn f. Posted July 19, 2023 Author Share Posted July 19, 2023 (edited) also langsam ferzweifel ich mit dieser kisten,.. Aktuell war ich dabei die HDD mit dem defekten Filesystem zu reparieren nun ist der server wieder nicht erreichbar (per Webgui) ,.. Nur dieses mal ist er auch per Ping nicht mehr zu erreichen nach einigen Minuten, ich verstehe es nicht mehr ! Edited July 19, 2023 by Björn f. Quote Link to comment
alturismo Posted July 19, 2023 Share Posted July 19, 2023 2 hours ago, Björn f. said: Aktuell war ich dabei die HDD mit dem defekten Filesystem zu reparieren nun ist der server wieder nicht erreichbar vielleicht ist die Platte einfach fertig ... oder kopier alles runter solange es geht und formatiere diese zumindest neu ... Quote Link to comment
Björn f. Posted July 19, 2023 Author Share Posted July 19, 2023 ich versucht erstmal zugriff auf die 1 jahr alte hdd zu bekommen frage ist nur warum sich unraid immer wieder aufhängt Quote Link to comment
Björn f. Posted July 23, 2023 Author Share Posted July 23, 2023 (edited) Update: Ich habe nun die Cache SSDS erneuer, von gestern auf heute dachte ich dann es läuft wieder alles TOP habe auch keine fehler mehr im log, heute noch die VM`s angeworfen, zack 10-20 minuten später server nicht mehr erreichbar. verdacht liegt noch bei einem defekten usb stick, obwohl das system diesen ja nur zum starten benötigt,.. ich werde nun den server mal laufen lassen ohne VM`S die 6.11 Version von unraid hatte damals ja einwandfrei funktioniert ! Hier noch der Aktuelle log Edited July 23, 2023 by Björn f. Quote Link to comment
Björn f. Posted July 24, 2023 Author Share Posted July 24, 2023 es scheint an den VM`s zu liegen ! der server lief den ganzen tag, ich musste einen lüfter noch tauschen jetzt startet es nicht mehrm der usb stick wollte wohl auch nicht mehr und ist über das ufer gegangen. nun hoffe ich das der support mit den key wieder freigibt Quote Link to comment
alturismo Posted July 25, 2023 Share Posted July 25, 2023 8 hours ago, Björn f. said: es scheint an den VM`s zu liegen ! wie auch immer du jetzt darauf kommst, log files ? syslog mirror to flash mal aktiviert um "genauere" logs zu bekommen ? Monitor angeschlossen um die "letzte" Fehlermeldung zu sichten ? ... in dem was du bisher posted hast, sieht es eher nach Dateisystemfehlern aus, sei es ein echter Defekt, sei es ein btrfs Thema ... da bliebe jetzt diagnostics und "letztes" syslog im bug report zu posten. 8 hours ago, Björn f. said: nun hoffe ich das der support mit den key wieder freigibt wenn der alte stick hinüber ist, neuen erstellen, key und config drauf, dann hast du 1x jährlich die Möglichkeit das selbst zu erledigen im web GUI und musst nicht auf den support warten ... mal geschaut ? 1 Quote Link to comment
Björn f. Posted July 25, 2023 Author Share Posted July 25, 2023 (edited) habe je beschrieben das ich an der fehlersuche dran bin,... der witz ist wenn ich die VM geschichte nicht Starte, habe ich weder fehler noch bleibt das system hängen. ich häng mal die gewünschten daten an server-diagnostics-20230725-1949.zip syslog hier nun auch wieder der aktuelle Log (copy Paste) nut die errors Jul 25 19:47:01 Server root: Error response from daemon: Pool overlaps with other one on this address space Jul 25 19:47:01 Server root: Error: Nexthop has invalid gateway. Jul 25 19:47:06 Server kernel: CPU: 1 PID: 2217 Comm: kworker/u32:5 Tainted: P O 6.1.38-Unraid #2 Jul 25 19:47:06 Server kernel: Call Trace: Jul 25 19:46:24 Server kernel: BTRFS info (device nvme0n1p1): using crc32c (crc32c-intel) checksum algorithm Jul 25 19:46:58 Server kernel: BTRFS info (device loop2): using crc32c (crc32c-intel) checksum algorithm Jul 25 19:47:01 Server kernel: BTRFS info (device loop3): using crc32c (crc32c-intel) checksum algorithm Jul 25 19:47:01 Server crond[1676]: failed parsing crontab for user root: /usr/local/emhttp/plugins/tips.and.tweaks/scripts/rc.tweaks set_governor powersave &> /dev/null Jul 25 19:47:01 Server crond[1676]: failed parsing crontab for user root: /usr/local/emhttp/plugins/tips.and.tweaks/scripts/rc.tweaks set_governor powersave &> /dev/null Jul 25 19:47:06 Server kernel: WARNING: CPU: 1 PID: 2217 at net/netfilter/nf_conntrack_core.c:1210 __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack] Edited July 25, 2023 by Björn f. Quote Link to comment
alturismo Posted July 25, 2023 Share Posted July 25, 2023 38 minutes ago, Björn f. said: der witz ist wenn ich die VM geschichte nicht Starte, habe ich weder fehler noch bleibt das system hängen. mit den btrfs Fehlern ... naja, wie oben erwähnt, Platt fahren, vielleicht geht es ... ich nutze kein btrfs (mehr) da ich da gebrandmarkt bin aber auch das powersave Kommando ... hast du das im script oder wolltest du da bewusst auf powersave stellen ? ich würde als 1. alles weg sichern solange noch etwas läuft auf deinem pool 2. alles was btrfs ist mal zumindest platt fahren und neu aufsetzen (formatieren) 3. alle möglichen Stromspar Aktivitäten mal abschalten 4. deine diagnostics und co im bug report Teil eine Anfrage starten ... dieser Fehler hier ... 42 minutes ago, Björn f. said: Jul 25 19:47:06 Server kernel: WARNING: CPU: 1 PID: 2217 at net/netfilter/nf_conntrack_core.c:1210 __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack] sind die Anzeichen zum Thema macvlan ... wozu es ja bereits diverse Threads hier gibt ... Quote Link to comment
Björn f. Posted July 26, 2023 Author Share Posted July 26, 2023 (edited) heute ist der server wieder hängen geblieben, vm`s waren deaktivert ! ich habe mal den aktuellen log beigefügt. cache platten kann ich nicht anderweitig formatieren da ging nur BTRFS ?! server-diagnostics-20230725-1949.zip syslog Edited July 26, 2023 by Björn f. Quote Link to comment
alturismo Posted July 26, 2023 Share Posted July 26, 2023 1 hour ago, Björn f. said: cache platten kann ich nicht anderweitig formatieren da ging nur BTRFS ?! du hast einen cache pool als btrfs, ja ... entweder auf zfs wechseln (dann wäre format auch gleich erledigt ) oder single cache drives für xfs ... ansonsten, hast du jetzt einen bug report aufgemacht ? Quote Link to comment
Björn f. Posted July 27, 2023 Author Share Posted July 27, 2023 ich habe den support direkt angeschrieben, entnervt habe ich das system nun auf 6.11.5 zurück gesetzt alle docker wieder eingerichtet und alles läuft nun wieder auch meine VM`s wie ich aber die pool datenträger auf XFS uminstalliere ich mir noch ein rätzel ich kann nur btrfs,... 1 Quote Link to comment
WoS Posted August 6, 2023 Share Posted August 6, 2023 Ich habe seit v6.12.2 zerschossene Docker Container gehabt. Das System hing auch in unregelmäßigen Abständen. Mit v6.12.3 war ich optimistisch aber die gleichen Fehler wieder. Dachte zwischendurch es wurde am S3 Sleep Plugin liegen, dass hier was nicht sauber schlafen geht aber soweit könnte ich noch nicht Fehlersuche betreiben. Nun haben sich heute wieder alle Docker Container verabschiedet (unraid-Symbol statt App-Icon), keiner ist startbar und nun werde ich auch auf die 6.11.5 zurück gehen. Dort lief alles in dieser Konfiguration ohne Makken bis zum Schluss. Quote Link to comment
WoS Posted August 18, 2023 Share Posted August 18, 2023 Auf der 6.11.5 liefen die Docker Container auch nicht über mehrere Tage. Gleiches Verhalten wie bei 6.12.3 also bin ich nun wieder auf der 6.12.3 und habe wieder nur 2 Testcontainer aufgesetzt. Mal schauen... Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.