Jump to content

Fehlermeldungen - Unraid Server reagiert nicht mehr


MiWa278

Recommended Posts

Hallo Community,

 

ich habe gestern einen "neuen" Unraid-Server eingerichtet, der nun allerdings bereits Probleme bereitet. An der Leistung kann es nicht liegen (Cisco M240 M4-Server, 128 GB). Ich habe beim Kopieren von Daten auf den Server einzelne CPU-Cores vollausgelastet (rote Balken, die nicht mehr reagieren), dazu habe ich im Protokoll folgende Meldungen bekommen:

 

Oct 25 13:03:40 Server kernel: CPU: 5 PID: 1980 Comm: kworker/u129:10 Tainted: P           O       6.1.49-Unraid #1
Oct 25 13:03:40 Server kernel: Hardware name: Cisco Systems Inc UCSC-C240-M4S/UCSC-C240-M4S, BIOS C240M4.4.1.2e.0.0615220033 06/15/2022
Oct 25 13:03:40 Server kernel: Workqueue: events_unbound macvlan_process_broadcast [macvlan]
Oct 25 13:03:40 Server kernel: RIP: 0010:__nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack]
Oct 25 13:03:40 Server kernel: Code: 44 24 10 e8 e2 e1 ff ff 8b 7c 24 04 89 ea 89 c6 89 04 24 e8 7e e6 ff ff 84 c0 75 a2 48 89 df e8 9b e2 ff ff 85 c0 89 c5 74 18 <0f> 0b 8b 34 24 8b 7c 24 04 e8 18 dd ff ff e8 93 e3 ff ff e9 72 01
Oct 25 13:03:40 Server kernel: RSP: 0018:ffffc90006640d98 EFLAGS: 00010202
Oct 25 13:03:40 Server kernel: RAX: 0000000000000001 RBX: ffff88810ff5fe00 RCX: 5df2d6e090e2dbd2
Oct 25 13:03:40 Server kernel: RDX: 0000000000000000 RSI: 0000000000000001 RDI: ffff88810ff5fe00
Oct 25 13:03:40 Server kernel: RBP: 0000000000000001 R08: 73c63e81717e7aa4 R09: 2ffb25bc933a1e29
Oct 25 13:03:40 Server kernel: R10: cc91dcb8193432bd R11: ffffc90006640d60 R12: ffffffff82a11d00
Oct 25 13:03:40 Server kernel: R13: 0000000000027b8c R14: ffff8881a8975d00 R15: 0000000000000000
Oct 25 13:03:40 Server kernel: FS:  0000000000000000(0000) GS:ffff88903fb40000(0000) knlGS:0000000000000000
Oct 25 13:03:40 Server kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Oct 25 13:03:40 Server kernel: CR2: 0000147c543b8840 CR3: 000000000220a004 CR4: 00000000003706e0
Oct 25 13:03:40 Server kernel: DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Oct 25 13:03:40 Server kernel: DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
Oct 25 13:03:40 Server kernel: Call Trace:
Oct 25 13:03:40 Server kernel: <IRQ>
Oct 25 13:03:40 Server kernel: ? __warn+0xab/0x122
Oct 25 13:03:40 Server kernel: ? report_bug+0x109/0x17e
Oct 25 13:03:40 Server kernel: ? __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack]
Oct 25 13:03:40 Server kernel: ? handle_bug+0x41/0x6f
Oct 25 13:03:40 Server kernel: ? exc_invalid_op+0x13/0x60
Oct 25 13:03:40 Server kernel: ? asm_exc_invalid_op+0x16/0x20
Oct 25 13:03:40 Server kernel: ? __nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack]
Oct 25 13:03:40 Server kernel: ? __nf_conntrack_confirm+0x9e/0x2b0 [nf_conntrack]
Oct 25 13:03:40 Server kernel: ? nf_nat_inet_fn+0xc0/0x1a8 [nf_nat]
Oct 25 13:03:40 Server kernel: nf_conntrack_confirm+0x25/0x54 [nf_conntrack]
Oct 25 13:03:40 Server kernel: nf_hook_slow+0x3d/0x96
Oct 25 13:03:40 Server kernel: ? ip_protocol_deliver_rcu+0x164/0x164
Oct 25 13:03:40 Server kernel: NF_HOOK.constprop.0+0x79/0xd9
Oct 25 13:03:40 Server kernel: ? ip_protocol_deliver_rcu+0x164/0x164
Oct 25 13:03:40 Server kernel: __netif_receive_skb_one_core+0x77/0x9c
Oct 25 13:03:40 Server kernel: process_backlog+0x8c/0x116
Oct 25 13:03:40 Server kernel: __napi_poll.constprop.0+0x2b/0x124
Oct 25 13:03:40 Server kernel: net_rx_action+0x159/0x24f
Oct 25 13:03:40 Server kernel: __do_softirq+0x129/0x288
Oct 25 13:03:40 Server kernel: do_softirq+0x7f/0xab
Oct 25 13:03:40 Server kernel: </IRQ>
Oct 25 13:03:40 Server kernel: <TASK>
Oct 25 13:03:40 Server kernel: __local_bh_enable_ip+0x4c/0x6b
Oct 25 13:03:40 Server kernel: netif_rx+0x52/0x5a
Oct 25 13:03:40 Server kernel: macvlan_broadcast+0x10a/0x150 [macvlan]
Oct 25 13:03:40 Server kernel: ? _raw_spin_unlock+0x14/0x29
Oct 25 13:03:40 Server kernel: macvlan_process_broadcast+0xbc/0x12f [macvlan]
Oct 25 13:03:40 Server kernel: process_one_work+0x1ab/0x295
Oct 25 13:03:40 Server kernel: worker_thread+0x18b/0x244
Oct 25 13:03:40 Server kernel: ? rescuer_thread+0x281/0x281
Oct 25 13:03:40 Server kernel: kthread+0xe7/0xef
Oct 25 13:03:40 Server kernel: ? kthread_complete_and_exit+0x1b/0x1b
Oct 25 13:03:40 Server kernel: ret_from_fork+0x22/0x30
Oct 25 13:03:40 Server kernel: </TASK>
Oct 25 13:03:40 Server kernel: ---[ end trace 0000000000000000 ]---

 

Oct 25 13:21:34 Server kernel: mce: [Hardware Error]: Machine check events logged
Oct 25 13:21:34 Server kernel: mce: [Hardware Error]: Machine check events logged

 

Kann jemand damit was anfangen? Ich möchte nur ausschließen, dass es sich um einen Hardware-Defekt handelt.

 

Vielen Dank im Voraus.

 

Mike

 

Link to comment

Ja, aktuellste Version. Ich habe gestern eben den neuen Server aufgesetzt (und dazu einen komplett neuen Stick erstellt) und jetzt kommen die

Fehlermeldungen. Mir gehts primär erstmal darum, einen möglichen Hardwaredefekt auszuschließen.

 

Was genau meinst Du mit den jeweiligen Änderungen?

Link to comment
10 minutes ago, MiWa278 said:

Ja, aktuellste Version. Ich habe gestern eben den neuen Server aufgesetzt (und dazu einen komplett neuen Stick erstellt) und jetzt kommen die

Fehlermeldungen. Mir gehts primär erstmal darum, einen möglichen Hardwaredefekt auszuschließen.

 

Was genau meinst Du mit den jeweiligen Änderungen?

 

Ich schätze mal die hier sind gemeint

https://docs.unraid.net/unraid-os/release-notes/6.12.4/#fix-for-macvlan-call-traces

"...

However, some users have reported issues with port forwarding from certain routers (Fritzbox) and reduced functionality with advanced network management tools (Ubiquity) when in ipvlan mode.
For those users, we have a new method that reworks networking to avoid issues with macvlan. Tweak a few settings and your Docker containers, VMs, and WireGuard tunnels should automatically adjust to use them:
 Settings > Network Settings > eth0 > Enable Bonding = Yes or No, either work with this solution
 Settings > Network Settings > eth0 > Enable Bridging = No (this will automatically enable macvlan)
 Settings > Docker > Host access to custom networks = Enabled
..."

  • Like 1
Link to comment

Ich muss zugeben, dass mir da etwas die Expertise fehlt.

 

Wenn ich Euch aber richtig verstehe, dann bedeutet das, dass die folgenden Meldungen

 

Oct 25 15:59:57 Server kernel: mce: [Hardware Error]: Machine check events logged
Oct 25 15:59:57 Server kernel: mce: [Hardware Error]: Machine check events logged

 

nicht zwingend einen Hardwarefehler darstellen müssen sondern auch auf einen Softwarefehler zurückzuführen sein können?

Link to comment
36 minutes ago, MiWa278 said:

nicht zwingend einen Hardwarefehler darstellen müssen sondern auch auf einen Softwarefehler zurückzuführen sein können?

exakt

 

4 hours ago, MiWa278 said:

Oct 25 13:03:40 Server kernel: Workqueue: events_unbound macvlan_process_broadcast [macvlan]
Oct 25 13:03:40 Server kernel: RIP: 0010:__nf_conntrack_confirm+0xa4/0x2b0 [nf_conntrack]

und dies auf das oben genannte Thema führt ... der Fehler fängt normal mit "cut here" an ... siehe diverse beiträge hierzu, Schwerpunkt Fritzbox

Link to comment

So, ich hatte auf dem Sever diverse Meldungen über correctable ECC-Errors. Der Verkäufer hat mir heute ein Ersatzmodul geschickt und nach dem Einbau habe ich bislang keine Hardware-Errors mehr feststellen können. 

 

Ich habe aber tatsächlich noch immer das Problem, dass sich beim Kopieren größerer Datenmengen (oder aber beispielweise bei der Installation eines Docker-Containers) das System irgendwann komplett aufhängt. Einzelne CPUs laufen dann auf 100 Prozent (durchgehend roter Balken, der dann auch so bleibt). Das System an sich ist recht performant (2* 16 Core HT Xeon Prozessoren mit jeweils 2.1 GHz, 128 GB RAM, SAS 10k HDDs). Hat einer eine Idee, an was das liegen könnte? Ich habe als Dateisystem xfs-verschlüsselt gewählt.

 

Außerdem laufen die HDDs durchgehend, ich bekomme sie weder händisch noch über die Voreinstellungen in den Spindown. Kann das mit der Verschlüsselung zusammenhängen?

 

Danke schonmal vorab 

 

Mike

 

  

Link to comment
1 hour ago, MiWa278 said:

Ich habe aber tatsächlich noch immer das Problem, dass sich beim Kopieren größerer Datenmengen (oder aber beispielweise bei der Installation eines Docker-Containers) das System irgendwann komplett aufhängt. Einzelne CPUs laufen dann auf 100 Prozent (durchgehend roter Balken, der dann auch so bleibt). Das System an sich ist recht performant (2* 16 Core HT Xeon Prozessoren mit jeweils 2.1 GHz, 128 GB RAM, SAS 10k HDDs). Hat einer eine Idee, an was das liegen könnte? Ich habe als Dateisystem xfs-verschlüsselt gewählt.

 

Außerdem laufen die HDDs durchgehend, ich bekomme sie weder händisch noch über die Voreinstellungen in den Spindown. Kann das mit der Verschlüsselung zusammenhängen?

 

Zum Thema schreiben größerer Mengen auf das Array:

Ich nutze auch xfs-enc. Ich gebe zu, daß ich nicht auf die Balken im Dashboard schaue, sondern im Main Tab auf die Datenträger und dort kann ich gut sehen, wenn geschrieben wird, aber das auch durch den langsamen Vorgang mit Parity das System ausgebremst wird. Nachdem der Schreibvorgang wieder ein Stück weiter durchgelaufen ist, läuft alles wieder rund. Komplett aufgehängt (nur noch reset des PC hilft) hat sich das System dabei nie.

 

Thema Spindown: die Verschlüsselung bei xfs hindert nicht am Spindown. Ich nutze es auch.

Du verwendest SAS Festplatten: Ich hatte (auch mit der passenden APP) das Problem, daß sich meine SAS Festplatten nie schlafen gelegt haben. Deshalb nutze ich in unraid nur SATA Festplatten (ggf. aber an SAS Kontrollern).

Edited by DataCollector
Typos und leicht umformuliert
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...