Jump to content

(Bug) Webinterface nicht erreichbar nach Log flut


Go to solution Solved by jj1987,

Recommended Posts

Hey Leute,
Vor paar Tagen habe ich das Update durchgeführt auf die neuste Unraid version, seit dem werde ich wieder mit dem "current pending ecc cnt is 1" Log geflutet von den Crucial MX500 Platten. Ich hatte da vor längerer Zeit einen Fix, ich glaub in der Boot-Datei eine Zeile eingegeben, das wurde wohl mit dem Update gelöscht.

Ich wollte nach googlen und wollte die Log-Meldung kopieren.
Ich habe in der WebGui auf die Log-Ansicht (Rechts oben) geklickt, seit dem regiert das Webinterface nicht mehr und lässt sich auch nicht mehr öffnen.. Wohl ein Bug in Unraid.
Alle Docker, SMB etc laufen weiter ohne Probleme nur das Webinterface ist down.

Gibt es eine möglichkeit wieder Zugang zu bekommen ohne einen harten Shutdown?
Ich vermute der Bug liegt hier an Unraid selbst nicht an den Platten, die dürften nicht einen Einfluss auf das Webinterface haben, die zeigen einfach nur immer wieder den selben Fehler.

Link to comment
1 hour ago, EliteGroup said:

Alle Docker, SMB etc laufen weiter ohne Probleme nur das Webinterface ist down.

wenn der log voll läuft ... geht

 

1/ nginx nicht mehr, dein web interface

2/ demnächst der Server in die Knie (wahrscheinlich)

 

in Zukunft, Fehler beheben und nicht warten bis zum "Point of no return" ;)

 

und wenn dies bedeutet den Fehler "auszublenden" dass das log nicht voll geschrieben wird wenn du meinst es hätte nichts zu bedeuten.

 

enhanced syslog ... plugin ...

Link to comment
46 minutes ago, alturismo said:

wenn der log voll läuft ... geht

 

1/ nginx nicht mehr, dein web interface

2/ demnächst der Server in die Knie (wahrscheinlich)

 

in Zukunft, Fehler beheben und nicht warten bis zum "Point of no return" ;)

 

und wenn dies bedeutet den Fehler "auszublenden" dass das log nicht voll geschrieben wird wenn du meinst es hätte nichts zu bedeuten.

 

enhanced syslog ... plugin ...

 

Der Log lief nicht voll bzw. der Absturz kam erst mit dem Öffnen der Logansicht zu stande.
Deshalb ging ich ja in die Logs um den Fehler zu beheben 😂


Leider bekomme ich kein Bild über die nVidia im Unraid Server. Der Server läuft aktuell noch fröhlich weiter mit allen Diensten,
Dann muss ich wohl einen harten Shutdown durchführen...

Die Meldung selbst kann man auch Lösen in dem man anscheinend einfach den SMART wert 197 oder 196 (ich glaube) deaktiviert.
Es dürfte jetzt ein Firmware Update von Crucial geben das die Fehlermeldung komplett beseitigt. Dafür sollte ich aber ein vollständiges Backup der 2TB Platte machen, solche Firmware Updates können heikel sein...

Nichtsdestotrotz ist es trotzdem ein Bug in der WebGUI, egal ob viele Meldungen oder nur eine, im schlimmsten Fall wenn im System was schief geht kommen einige Meldungen auf einen zu, und hier darf eine einfach WebGUI nicht in die "Knie" gehen wegen paar Logs?!
Das kenne ich nur von Anwenungen wenn so ein Log auf einmal mehrere GB/TB groß werden durch Bugs, das es zum Absturz kommt aber nicht wegen ca 50-100 Meldungen (geschätzt, mehr sind es nicht)

Link to comment
5 hours ago, EliteGroup said:

das es zum Absturz kommt aber nicht wegen ca 50-100 Meldungen (geschätzt, mehr sind es nicht)

dann ist es auch etwas anderes, 50-100 wären egal ;) unter "geflutet" verstehe ich etwas anderes ;)

 

5 hours ago, EliteGroup said:

und hier darf eine einfach WebGUI nicht in die "Knie" gehen wegen paar Logs?!

da bin ich sogar teilweise bei Dir, Hintergrund

 

1/ Unraid läuft komplett im RAM

2/ für logs wird eine separate Ramdisk erstellt mit 128 MB

3/ wenn die voll läuft ...

 

root@AlsServerII:~# df -h /var/log/
Filesystem      Size  Used Avail Use% Mounted on
tmpfs           128M  1.5M  127M   2% /var/log
root@AlsServerII:~#

 

ist halt die Frage, wie groß soll / darf es sein ... ? daher diese Lösung um nicht perm auf ne disk ein logfile zu schreiben ...

 

so, Unraid läuft noch meinst du, was macht das Terminal ? SSH in den Server und gib mal den gezeigten Befehl ein.

 

Dann, erstell mal ne diagnostics << klick und poste die hier, dann kann man eher etwas dazu sagen.

Link to comment
9 hours ago, alturismo said:

dann ist es auch etwas anderes, 50-100 wären egal ;) unter "geflutet" verstehe ich etwas anderes ;)

Ok etwas falsch formuliert... Beim Login erscheinen ja Popups, aufgrund der größe der Popups wird man schon mit 20-30 Meldungen am "Display geflutet".

 

9 hours ago, alturismo said:

1/ Unraid läuft komplett im RAM

2/ für logs wird eine separate Ramdisk erstellt mit 128 MB

3/ wenn die voll läuft ...

Ich hab 64GB ECC Ram es steht genug zur verfügung für größere Ramdisks falls nötig.
Jetzt fällt mir auch etwas ein... Ich erinnere mich letztes Jahr habe ich die Option aktiviert "Logs auf den USB-Stick speichern"
 

9 hours ago, alturismo said:

so, Unraid läuft noch meinst du, was macht das Terminal ? SSH in den Server und gib mal den gezeigten Befehl ein.

SSH ist leider deaktiviert. Ja der Server läuft jetzt immer noch fröhlich vor sich hin mit allen Dockers und SMB Shares, das WebGUI im Browser ladet endlos und es erscheint das WebGUI von Unraid nicht. Einen Ping oder irgend eine Info dürfte der Browser bekommen da auch nach mehreren Minuten "laden" erscheint immer noch nicht "Website nicht erreichbar"

Ich werde den Server jetzt dann ausschalten und gleich ein Firmware Update an den Curcial Platten machen, Krusader und VNC lief zum glück noch ich konnte ein Backup auf die Cache Platte kopieren. Danach melde ich mich wieder mit mehr Infos was nun los ist.

Link to comment
9 minutes ago, EliteGroup said:

Ich hab 64GB ECC Ram es steht genug zur verfügung für größere Ramdisks falls nötig.

normal ist das nicht nötig und wenn es nur die paar Meldungen waren dann wird es auch das nicht gewesen sein ...

 

10 minutes ago, EliteGroup said:

SSH ist leider deaktiviert.

ich frag jetzt nicht warum, wirst deine Gründe haben ;)

 

17 minutes ago, EliteGroup said:

Jetzt fällt mir auch etwas ein... Ich erinnere mich letztes Jahr habe ich die Option aktiviert "Logs auf den USB-Stick speichern"

ok, dann sollten da die aktuellen logs alle drauf sein, Hinweis ... das ist ein USB Flash Killer ...

Link to comment

Server läuft wieder. Soweit ohne Probleme.
@jj1987 ja ich konnte den Server normal in den Shutdown versetzten 👍

 

@alturismo

popups.png.6fe15dee36b3ba2f3b600050519384bd.png

 

Das System lief ganz normal, es kamen einige Popups, ich habe hier am Bild auf Ansicht oder Verlauf geklickt dann kam es zum Crash von Unraid Nginx und zu diesen Log Meldungen:

Feb 26 20:19:42 SERVER webGUI: Successful login user root from 172.25.10.2
Feb 26 20:39:15 SERVER php-fpm[6699]: [WARNING] [pool www] server reached max_children setting (50), consider raising it
Feb 26 20:55:42 SERVER nginx: 2024/02/26 20:55:42 [error] 3638#3638: *1655816 upstream timed out (110: Connection timed out) while reading response header from upstream, client: 172.25.10.2, server: , request: "GET /sub/apcups?last_event_id=1708976699%3A0 HTTP/1.1", subrequest: "/auth-request.php", upstream: "fastcgi://unix:/var/run/php5-fpm.sock", host: "172.25.1.1"
Feb 26 20:55:42 SERVER nginx: 2024/02/26 20:55:42 [error] 3638#3638: *1655816 auth request unexpected status: 504 while sending to client, client: 172.25.10.2, server: , request: "GET /sub/apcups?last_event_id=1708976699%3A0 HTTP/1.1", host: "172.25.1.1"
Feb 26 20:55:52 SERVER nginx: 2024/02/26 20:55:52 [error] 3638#3638: *1655939 upstream timed out (110: Connection timed out) while reading response header from upstream, client: 172.25.10.2, server: , request: "GET /sub/cpuload,update1,update2,update3?last_event_id=1708976700%3A%5B0%5D%2C-%2C-%2C0 HTTP/1.1", subrequest: "/auth-request.php", upstream: "fastcgi://unix:/var/run/php5-fpm.sock", host: "172.25.1.1"
Feb 26 20:55:52 SERVER nginx: 2024/02/26 20:55:52 [error] 3638#3638: *1655939 auth request unexpected status: 504 while sending to client, client: 172.25.10.2, server: , request: "GET /sub/cpuload,update1,update2,update3?last_event_id=1708976700%3A%5B0%5D%2C-%2C-%2C0 HTTP/1.1", host: "172.25.1.1"
Feb 26 20:55:54 SERVER nginx: 2024/02/26 20:55:54 [error] 3638#3638: *1655961 upstream timed out (110: Connection timed out) while reading response header from upstream, client: 172.25.10.2, server: , request: "GET /sub/cpuload,update1,update2,update3?last_event_id=1708976700%3A%5B0%5D%2C-%2C-%2C0 HTTP/1.1", subrequest: "/auth-request.php", upstream: "fastcgi://unix:/var/run/php5-fpm.sock", host: "172.25.1.1"
Feb 26 20:55:54 SERVER nginx: 2024/02/26 20:55:54 [error] 3638#3638: *1655961 auth request unexpected status: 504 while sending to client, client: 172.25.10.2, server: , request: "GET /sub/cpuload,update1,update2,update3?last_event_id=1708976700%3A%5B0%5D%2C-%2C-%2C0 HTTP/1.1", host: "172.25.1.1"
Feb 26 20:56:01 SERVER nginx: 2024/02/26 20:56:01 [error] 3638#3638: *1656046 upstream timed out (110: Connection timed out) while reading response header from upstream, client: 172.25.10.2, server: , request: "GET /sub/apcups?last_event_id=1708976699%3A0 HTTP/1.1", subrequest: "/auth-request.php", upstream: "fastcgi://unix:/var/run/php5-fpm.sock", host: "172.25.1.1"
Feb 26 20:56:01 SERVER nginx: 2024/02/26 20:56:01 [error] 3638#3638: *1656046 auth request unexpected status: 504 while sending to client, client: 172.25.10.2, server: , request: "GET /sub/apcups?last_event_id=1708976699%3A0 HTTP/1.1", host: "172.25.1.1"


 

root@SERVER:~# df -h /var/log/
Filesystem      Size  Used Avail Use% Mounted on
tmpfs           128M  316K  128M   1% /var/log


Neu ist jetzt das hier im Log:

Feb 27 15:33:39 SERVER kernel: pci 0000:06:00.0: VPD access failed.  This is likely a firmware bug on this device.  Contact the card vendor for a firmware update
Feb 27 15:33:39 SERVER kernel: eth0: renamed from vethf0731eb
Feb 27 15:33:41 SERVER kernel: eth0: renamed from vethf01606a
Feb 27 15:33:41 SERVER kernel: device br0 entered promiscuous mode
Feb 27 15:33:59 SERVER kernel: ------------[ cut here ]------------
Feb 27 15:33:59 SERVER kernel: WARNING: CPU: 4 PID: 351 at net/netfilter/nf_conntrack_core.c:1210 __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack]
Feb 27 15:33:59 SERVER kernel: Modules linked in: xt_CHECKSUM ipt_REJECT nf_reject_ipv4 ip6table_mangle ip6table_nat iptable_mangle vhost_net tun vhost vhost_iotlb tap macvlan veth xt_nat xt_tcpudp xt_conntrack xt_MASQUERADE nf_conntrack_netlink nfnetlink xfrm_user xfrm_algo iptable_nat nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 xt_addrtype br_netfilter xfs dm_crypt dm_mod nvidia_uvm(PO) md_mod zfs(PO) zunicode(PO) zzstd(O) zlua(O) zavl(PO) icp(PO) zcommon(PO) znvpair(PO) spl(O) tcp_diag inet_diag ip6table_filter ip6_tables iptable_filter ip_tables x_tables efivarfs af_packet 8021q garp mrp bridge stp llc bonding tls ax88179_178a usbnet igb i2c_algo_bit r8169 realtek nvidia_drm(PO) nvidia_modeset(PO) amd64_edac edac_mce_amd edac_core intel_rapl_msr intel_rapl_common iosf_mbi kvm_amd kvm nvidia(PO) video drm_kms_helper crct10dif_pclmul crc32_pclmul crc32c_intel wmi_bmof mxm_wmi asus_ec_sensors ghash_clmulni_intel sha512_ssse3 sha256_ssse3 sha1_ssse3 aesni_intel crypto_simd cryptd drm rapl nvme
Feb 27 15:33:59 SERVER kernel: i2c_piix4 backlight ahci syscopyarea k10temp ccp sysfillrect nvme_core i2c_core libahci sysimgblt fb_sys_fops mii tpm_crb tpm_tis tpm_tis_core tpm wmi button acpi_cpufreq unix [last unloaded: usbnet]
Feb 27 15:33:59 SERVER kernel: CPU: 4 PID: 351 Comm: kworker/u64:10 Tainted: P           O       6.1.74-Unraid #1
Feb 27 15:33:59 SERVER kernel: Hardware name: ASUS System Product Name/Pro WS X570-ACE, BIOS 4702 10/20/2023
Feb 27 15:33:59 SERVER kernel: Workqueue: events_unbound macvlan_process_broadcast [macvlan]
Feb 27 15:33:59 SERVER kernel: RIP: 0010:__nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack]
Feb 27 15:33:59 SERVER kernel: Code: 44 24 10 e8 e2 e1 ff ff 8b 7c 24 04 89 ea 89 c6 89 04 24 e8 7e e6 ff ff 84 c0 75 a2 48 89 df e8 9b e2 ff ff 85 c0 89 c5 74 18 <0f> 0b 8b 34 24 8b 7c 24 04 e8 18 dd ff ff e8 93 e3 ff ff e9 72 01
Feb 27 15:33:59 SERVER kernel: RSP: 0018:ffffc90000344d98 EFLAGS: 00010202
Feb 27 15:33:59 SERVER kernel: RAX: 0000000000000001 RBX: ffff8882e3ebcc00 RCX: a7d3576e08f07206
Feb 27 15:33:59 SERVER kernel: RDX: 0000000000000000 RSI: 00000000000000cb RDI: ffff8882e3ebcc00
Feb 27 15:33:59 SERVER kernel: RBP: 0000000000000001 R08: eb6ec4c584effd6a R09: dd35c90fef61de4c
Feb 27 15:33:59 SERVER kernel: R10: de27ffaa548b67c1 R11: ffffc90000344d60 R12: ffffffff82a14d00
Feb 27 15:33:59 SERVER kernel: R13: 0000000000009efa R14: ffff8881034ef800 R15: 0000000000000000
Feb 27 15:33:59 SERVER kernel: FS:  0000000000000000(0000) GS:ffff888fee900000(0000) knlGS:0000000000000000
Feb 27 15:33:59 SERVER kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Feb 27 15:33:59 SERVER kernel: CR2: 00001513620d2484 CR3: 0000000163680000 CR4: 0000000000750ee0
Feb 27 15:33:59 SERVER kernel: PKRU: 55555554
Feb 27 15:33:59 SERVER kernel: Call Trace:
Feb 27 15:33:59 SERVER kernel: <IRQ>
Feb 27 15:33:59 SERVER kernel: ? __warn+0xab/0x122
Feb 27 15:33:59 SERVER kernel: ? report_bug+0x109/0x17e
Feb 27 15:33:59 SERVER kernel: ? __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack]
Feb 27 15:33:59 SERVER kernel: ? handle_bug+0x41/0x6f
Feb 27 15:33:59 SERVER kernel: ? exc_invalid_op+0x13/0x60
Feb 27 15:33:59 SERVER kernel: ? asm_exc_invalid_op+0x16/0x20
Feb 27 15:33:59 SERVER kernel: ? __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack]
Feb 27 15:33:59 SERVER kernel: ? __nf_conntrack_confirm+0x9e/0x2b0 [nf_conntrack]
Feb 27 15:33:59 SERVER kernel: ? nf_nat_inet_fn+0x60/0x1a8 [nf_nat]
Feb 27 15:33:59 SERVER kernel: nf_conntrack_confirm+0x25/0x54 [nf_conntrack]
Feb 27 15:33:59 SERVER kernel: nf_hook_slow+0x3d/0x96
Feb 27 15:33:59 SERVER kernel: ? ip_protocol_deliver_rcu+0x164/0x164
Feb 27 15:33:59 SERVER kernel: NF_HOOK.constprop.0+0x79/0xd9
Feb 27 15:33:59 SERVER kernel: ? ip_protocol_deliver_rcu+0x164/0x164
Feb 27 15:33:59 SERVER kernel: __netif_receive_skb_one_core+0x77/0x9c
Feb 27 15:33:59 SERVER kernel: process_backlog+0x8c/0x116
Feb 27 15:33:59 SERVER kernel: __napi_poll.constprop.0+0x2b/0x124
Feb 27 15:33:59 SERVER kernel: net_rx_action+0x159/0x24f
Feb 27 15:33:59 SERVER kernel: __do_softirq+0x129/0x288
Feb 27 15:33:59 SERVER kernel: do_softirq+0x7f/0xab
Feb 27 15:33:59 SERVER kernel: </IRQ>
Feb 27 15:33:59 SERVER kernel: <TASK>
Feb 27 15:33:59 SERVER kernel: __local_bh_enable_ip+0x4c/0x6b
Feb 27 15:33:59 SERVER kernel: netif_rx+0x52/0x5a
Feb 27 15:33:59 SERVER kernel: macvlan_broadcast+0x10a/0x150 [macvlan]
Feb 27 15:33:59 SERVER kernel: macvlan_process_broadcast+0xbc/0x12f [macvlan]
Feb 27 15:33:59 SERVER kernel: process_one_work+0x1ab/0x295
Feb 27 15:33:59 SERVER kernel: worker_thread+0x18b/0x244
Feb 27 15:33:59 SERVER kernel: ? rescuer_thread+0x281/0x281
Feb 27 15:33:59 SERVER kernel: kthread+0xe7/0xef
Feb 27 15:33:59 SERVER kernel: ? kthread_complete_and_exit+0x1b/0x1b
Feb 27 15:33:59 SERVER kernel: ret_from_fork+0x22/0x30
Feb 27 15:33:59 SERVER kernel: </TASK>
Feb 27 15:33:59 SERVER kernel: ---[ end trace 0000000000000000 ]---

 

Das Diagnostics FIle:

server-diagnostics-20240227-1547.zip

Link to comment

@jj1987 @alturismo


Ich verwende ein Omada Netzwerk (Ubiquiti ähnlich).
Dahinter eine OpnSense Firewall, das ganze per LACP mit 2 Netzwerken (Home / Server)

Die macvlan ist beabsichtig wegen Omada, das System benötigt eine MAC zur der IP. Das war der eigentliche Grund.

@ich777

Ich weiß nicht wie die Programmierung im Hintergrund aussieht, aber:
Müsste dann nicht der Docker Crashen???
Ich habe in der GUI auf den Button "Benachrichtigungen > Ansicht" geklickt und der Nginx von Unraid ging down.
Emby, Krusader und viele andere Docker liefen flüssig weiter ohne Probleme.

Vielleicht liege ich auch falsch, nur im Gedanken von der Logik her.
---
Ich werde nun die Konfig setzten wie von @jj1987 berichtet. Jedoch kann ich Bondig nicht deaktivieren, könnte schon aber ich es läuft auf 2x 1Gb/s LACP
Und bedanke mich schon mal an den Support vorallem @alturismo

 

Jetzt nur noch Beobachten ob die Crucial Platten wieder Error Meldungen werfen nach dem Firmware Update auf M3CR046
Deshalb lasse ich noch die Option "Attribut = 197 Current pending sector count" aktiv

Edited by EliteGroup
Link to comment
10 minutes ago, EliteGroup said:

Müsste dann nicht der Docker Crashen???

Macht es auch nach einer bestimmten zeit kann aber ein paar tage dauern.

 

10 minutes ago, EliteGroup said:

Vielleicht liege ich auch falsch, nur im Gedanken von der Logik her.

Das ist ein generelles system problem eine bridge und macvlan ist keine gute idee.

Wenn du keine Fritzbox hast dann lass die bridge stell bei Docker auf ipvlan um und starte Unraid nochmal neu.

  • Thanks 1
Link to comment
4 hours ago, ich777 said:

Macht es auch nach einer bestimmten zeit kann aber ein paar tage dauern.

 

Das ist ein generelles system problem eine bridge und macvlan ist keine gute idee.

Wenn du keine Fritzbox hast dann lass die bridge stell bei Docker auf ipvlan um und starte Unraid nochmal neu.


Als Anmerkung:
Auf Version 6.12.4 lief das System trotz macvlan und bridge

Monate lang durch. Ohne Crash... Ohne Neustart
Dazwischen gab es auch eine neu Konfiguration vom Netzwerk von 3x 1Gb/s auf 4x 1Gb/s

Es gibt zwar die Meldungen im Log, die hatten aber keinen Einfluss auf das System oder die WebGUI. (Zumindest bis zum Update v6.12.8)

Ich gehe immer noch davon aus die kombination "current pending ecc cnt is 1" Spam und in der WebGUI die Benachrichtigungsansicht haben den Unraid-Nginx abstürtzen lassen egal ob macvlan oder ipvlan.
Am liebsten würde ich das Szenario noch mal nachstellen mit ipvlan, aber seit der neuen Firmware erscheint (aktuell) "current pending ecc cnt is 1" nicht mehr.

Zumindest konnte ich jetzt ein offensichtliches Problem (Crucial SDDs) und ein verstecktes Problem (macvlan) lösen.
Danke 👍

Link to comment
7 minutes ago, EliteGroup said:

Auf Version 6.12.4 lief das System trotz macvlan und bridge

Monate lang durch. Ohne Crash... Ohne Neustart
Dazwischen gab es auch eine neu Konfiguration vom Netzwerk von 3x 1Gb/s auf 4x 1Gb/s

Ist bekannt.

 

7 minutes ago, EliteGroup said:

Es gibt zwar die Meldungen im Log, die hatten aber keinen Einfluss auf das System oder die WebGUI. (Zumindest bis zum Update v6.12.8)

Mit neueren Kernel versionen wurde das Problem immer scheller sichtbar.

  • Thanks 1
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...