MiWa278 Posted October 25, 2023 Share Posted October 25, 2023 Hallo Community, ich habe gestern einen "neuen" Unraid-Server eingerichtet, der nun allerdings bereits Probleme bereitet. An der Leistung kann es nicht liegen (Cisco M240 M4-Server, 128 GB). Ich habe beim Kopieren von Daten auf den Server einzelne CPU-Cores vollausgelastet (rote Balken, die nicht mehr reagieren), dazu habe ich im Protokoll folgende Meldungen bekommen: Oct 25 13:03:40 Server kernel: CPU: 5 PID: 1980 Comm: kworker/u129:10 Tainted: P O 6.1.49-Unraid #1 Oct 25 13:03:40 Server kernel: Hardware name: Cisco Systems Inc UCSC-C240-M4S/UCSC-C240-M4S, BIOS C240M4.4.1.2e.0.0615220033 06/15/2022 Oct 25 13:03:40 Server kernel: Workqueue: events_unbound macvlan_process_broadcast [macvlan] Oct 25 13:03:40 Server kernel: RIP: 0010:__nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack] Oct 25 13:03:40 Server kernel: Code: 44 24 10 e8 e2 e1 ff ff 8b 7c 24 04 89 ea 89 c6 89 04 24 e8 7e e6 ff ff 84 c0 75 a2 48 89 df e8 9b e2 ff ff 85 c0 89 c5 74 18 <0f> 0b 8b 34 24 8b 7c 24 04 e8 18 dd ff ff e8 93 e3 ff ff e9 72 01 Oct 25 13:03:40 Server kernel: RSP: 0018:ffffc90006640d98 EFLAGS: 00010202 Oct 25 13:03:40 Server kernel: RAX: 0000000000000001 RBX: ffff88810ff5fe00 RCX: 5df2d6e090e2dbd2 Oct 25 13:03:40 Server kernel: RDX: 0000000000000000 RSI: 0000000000000001 RDI: ffff88810ff5fe00 Oct 25 13:03:40 Server kernel: RBP: 0000000000000001 R08: 73c63e81717e7aa4 R09: 2ffb25bc933a1e29 Oct 25 13:03:40 Server kernel: R10: cc91dcb8193432bd R11: ffffc90006640d60 R12: ffffffff82a11d00 Oct 25 13:03:40 Server kernel: R13: 0000000000027b8c R14: ffff8881a8975d00 R15: 0000000000000000 Oct 25 13:03:40 Server kernel: FS: 0000000000000000(0000) GS:ffff88903fb40000(0000) knlGS:0000000000000000 Oct 25 13:03:40 Server kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033 Oct 25 13:03:40 Server kernel: CR2: 0000147c543b8840 CR3: 000000000220a004 CR4: 00000000003706e0 Oct 25 13:03:40 Server kernel: DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 Oct 25 13:03:40 Server kernel: DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400 Oct 25 13:03:40 Server kernel: Call Trace: Oct 25 13:03:40 Server kernel: <IRQ> Oct 25 13:03:40 Server kernel: ? __warn+0xab/0x122 Oct 25 13:03:40 Server kernel: ? report_bug+0x109/0x17e Oct 25 13:03:40 Server kernel: ? __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack] Oct 25 13:03:40 Server kernel: ? handle_bug+0x41/0x6f Oct 25 13:03:40 Server kernel: ? exc_invalid_op+0x13/0x60 Oct 25 13:03:40 Server kernel: ? asm_exc_invalid_op+0x16/0x20 Oct 25 13:03:40 Server kernel: ? __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack] Oct 25 13:03:40 Server kernel: ? __nf_conntrack_confirm+0x9e/0x2b0 [nf_conntrack] Oct 25 13:03:40 Server kernel: ? nf_nat_inet_fn+0xc0/0x1a8 [nf_nat] Oct 25 13:03:40 Server kernel: nf_conntrack_confirm+0x25/0x54 [nf_conntrack] Oct 25 13:03:40 Server kernel: nf_hook_slow+0x3d/0x96 Oct 25 13:03:40 Server kernel: ? ip_protocol_deliver_rcu+0x164/0x164 Oct 25 13:03:40 Server kernel: NF_HOOK.constprop.0+0x79/0xd9 Oct 25 13:03:40 Server kernel: ? ip_protocol_deliver_rcu+0x164/0x164 Oct 25 13:03:40 Server kernel: __netif_receive_skb_one_core+0x77/0x9c Oct 25 13:03:40 Server kernel: process_backlog+0x8c/0x116 Oct 25 13:03:40 Server kernel: __napi_poll.constprop.0+0x2b/0x124 Oct 25 13:03:40 Server kernel: net_rx_action+0x159/0x24f Oct 25 13:03:40 Server kernel: __do_softirq+0x129/0x288 Oct 25 13:03:40 Server kernel: do_softirq+0x7f/0xab Oct 25 13:03:40 Server kernel: </IRQ> Oct 25 13:03:40 Server kernel: <TASK> Oct 25 13:03:40 Server kernel: __local_bh_enable_ip+0x4c/0x6b Oct 25 13:03:40 Server kernel: netif_rx+0x52/0x5a Oct 25 13:03:40 Server kernel: macvlan_broadcast+0x10a/0x150 [macvlan] Oct 25 13:03:40 Server kernel: ? _raw_spin_unlock+0x14/0x29 Oct 25 13:03:40 Server kernel: macvlan_process_broadcast+0xbc/0x12f [macvlan] Oct 25 13:03:40 Server kernel: process_one_work+0x1ab/0x295 Oct 25 13:03:40 Server kernel: worker_thread+0x18b/0x244 Oct 25 13:03:40 Server kernel: ? rescuer_thread+0x281/0x281 Oct 25 13:03:40 Server kernel: kthread+0xe7/0xef Oct 25 13:03:40 Server kernel: ? kthread_complete_and_exit+0x1b/0x1b Oct 25 13:03:40 Server kernel: ret_from_fork+0x22/0x30 Oct 25 13:03:40 Server kernel: </TASK> Oct 25 13:03:40 Server kernel: ---[ end trace 0000000000000000 ]--- Oct 25 13:21:34 Server kernel: mce: [Hardware Error]: Machine check events logged Oct 25 13:21:34 Server kernel: mce: [Hardware Error]: Machine check events logged Kann jemand damit was anfangen? Ich möchte nur ausschließen, dass es sich um einen Hardware-Defekt handelt. Vielen Dank im Voraus. Mike Quote Link to comment
jj1987 Posted October 25, 2023 Share Posted October 25, 2023 Setzt du eine Fritzbox ein? Sieht mir nach dem bekannten (und behoben) macvlan Fehler aus: https://forums.unraid.net/topic/146800-update-probleme-von-6115-auf-6124/?do=findComment&comment=1318820 1 Quote Link to comment
MiWa278 Posted October 25, 2023 Author Share Posted October 25, 2023 Nein, ich nutze nur Unifi-Geräte. Quote Link to comment
alturismo Posted October 25, 2023 Share Posted October 25, 2023 1 hour ago, MiWa278 said: Nein, ich nutze nur Unifi-Geräte. leider auch teilweise betroffen ... welche Unraid Version ? 6.12.4 inkl. aller Änderungen wie im changelog (oder in diversen Threads hier besprochen) angewendet was bridge, docker Netzwerk, ... angeht ? Quote Link to comment
MiWa278 Posted October 25, 2023 Author Share Posted October 25, 2023 Ja, aktuellste Version. Ich habe gestern eben den neuen Server aufgesetzt (und dazu einen komplett neuen Stick erstellt) und jetzt kommen die Fehlermeldungen. Mir gehts primär erstmal darum, einen möglichen Hardwaredefekt auszuschließen. Was genau meinst Du mit den jeweiligen Änderungen? Quote Link to comment
DataCollector Posted October 25, 2023 Share Posted October 25, 2023 10 minutes ago, MiWa278 said: Ja, aktuellste Version. Ich habe gestern eben den neuen Server aufgesetzt (und dazu einen komplett neuen Stick erstellt) und jetzt kommen die Fehlermeldungen. Mir gehts primär erstmal darum, einen möglichen Hardwaredefekt auszuschließen. Was genau meinst Du mit den jeweiligen Änderungen? Ich schätze mal die hier sind gemeint https://docs.unraid.net/unraid-os/release-notes/6.12.4/#fix-for-macvlan-call-traces "... However, some users have reported issues with port forwarding from certain routers (Fritzbox) and reduced functionality with advanced network management tools (Ubiquity) when in ipvlan mode. For those users, we have a new method that reworks networking to avoid issues with macvlan. Tweak a few settings and your Docker containers, VMs, and WireGuard tunnels should automatically adjust to use them: Settings > Network Settings > eth0 > Enable Bonding = Yes or No, either work with this solution Settings > Network Settings > eth0 > Enable Bridging = No (this will automatically enable macvlan) Settings > Docker > Host access to custom networks = Enabled ..." 1 Quote Link to comment
alturismo Posted October 25, 2023 Share Posted October 25, 2023 14 minutes ago, MiWa278 said: Was genau meinst Du mit den jeweiligen Änderungen? 2 minutes ago, DataCollector said: Ich schätze mal die hier sind gemeint https://docs.unraid.net/unraid-os/release-notes/6.12.4/#fix-for-macvlan-call-traces exakt Quote Link to comment
MiWa278 Posted October 25, 2023 Author Share Posted October 25, 2023 Ich muss zugeben, dass mir da etwas die Expertise fehlt. Wenn ich Euch aber richtig verstehe, dann bedeutet das, dass die folgenden Meldungen Oct 25 15:59:57 Server kernel: mce: [Hardware Error]: Machine check events logged Oct 25 15:59:57 Server kernel: mce: [Hardware Error]: Machine check events logged nicht zwingend einen Hardwarefehler darstellen müssen sondern auch auf einen Softwarefehler zurückzuführen sein können? Quote Link to comment
alturismo Posted October 25, 2023 Share Posted October 25, 2023 36 minutes ago, MiWa278 said: nicht zwingend einen Hardwarefehler darstellen müssen sondern auch auf einen Softwarefehler zurückzuführen sein können? exakt 4 hours ago, MiWa278 said: Oct 25 13:03:40 Server kernel: Workqueue: events_unbound macvlan_process_broadcast [macvlan] Oct 25 13:03:40 Server kernel: RIP: 0010:__nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack] und dies auf das oben genannte Thema führt ... der Fehler fängt normal mit "cut here" an ... siehe diverse beiträge hierzu, Schwerpunkt Fritzbox Quote Link to comment
MiWa278 Posted October 28, 2023 Author Share Posted October 28, 2023 So, ich hatte auf dem Sever diverse Meldungen über correctable ECC-Errors. Der Verkäufer hat mir heute ein Ersatzmodul geschickt und nach dem Einbau habe ich bislang keine Hardware-Errors mehr feststellen können. Ich habe aber tatsächlich noch immer das Problem, dass sich beim Kopieren größerer Datenmengen (oder aber beispielweise bei der Installation eines Docker-Containers) das System irgendwann komplett aufhängt. Einzelne CPUs laufen dann auf 100 Prozent (durchgehend roter Balken, der dann auch so bleibt). Das System an sich ist recht performant (2* 16 Core HT Xeon Prozessoren mit jeweils 2.1 GHz, 128 GB RAM, SAS 10k HDDs). Hat einer eine Idee, an was das liegen könnte? Ich habe als Dateisystem xfs-verschlüsselt gewählt. Außerdem laufen die HDDs durchgehend, ich bekomme sie weder händisch noch über die Voreinstellungen in den Spindown. Kann das mit der Verschlüsselung zusammenhängen? Danke schonmal vorab Mike Quote Link to comment
jj1987 Posted October 28, 2023 Share Posted October 28, 2023 1 hour ago, MiWa278 said: SAS 10k HDDs 1 hour ago, MiWa278 said: Spindown Ich glaube von Haus aus geht das nicht. Gab aber meine ich ein sas spindown Plugin in den Community Apps 🤔 Quote Link to comment
DataCollector Posted October 28, 2023 Share Posted October 28, 2023 (edited) 1 hour ago, MiWa278 said: Ich habe aber tatsächlich noch immer das Problem, dass sich beim Kopieren größerer Datenmengen (oder aber beispielweise bei der Installation eines Docker-Containers) das System irgendwann komplett aufhängt. Einzelne CPUs laufen dann auf 100 Prozent (durchgehend roter Balken, der dann auch so bleibt). Das System an sich ist recht performant (2* 16 Core HT Xeon Prozessoren mit jeweils 2.1 GHz, 128 GB RAM, SAS 10k HDDs). Hat einer eine Idee, an was das liegen könnte? Ich habe als Dateisystem xfs-verschlüsselt gewählt. Außerdem laufen die HDDs durchgehend, ich bekomme sie weder händisch noch über die Voreinstellungen in den Spindown. Kann das mit der Verschlüsselung zusammenhängen? Zum Thema schreiben größerer Mengen auf das Array: Ich nutze auch xfs-enc. Ich gebe zu, daß ich nicht auf die Balken im Dashboard schaue, sondern im Main Tab auf die Datenträger und dort kann ich gut sehen, wenn geschrieben wird, aber das auch durch den langsamen Vorgang mit Parity das System ausgebremst wird. Nachdem der Schreibvorgang wieder ein Stück weiter durchgelaufen ist, läuft alles wieder rund. Komplett aufgehängt (nur noch reset des PC hilft) hat sich das System dabei nie. Thema Spindown: die Verschlüsselung bei xfs hindert nicht am Spindown. Ich nutze es auch. Du verwendest SAS Festplatten: Ich hatte (auch mit der passenden APP) das Problem, daß sich meine SAS Festplatten nie schlafen gelegt haben. Deshalb nutze ich in unraid nur SATA Festplatten (ggf. aber an SAS Kontrollern). Edited October 28, 2023 by DataCollector Typos und leicht umformuliert Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.