Jump to content

"Teilabsturz" Unraidserver


flinx01

Recommended Posts

Hallo zusammen,

ich habe seit einiger Zeit das Problem, das sich der Unraid Server ab und zu nicht per WEB ansprechen ließ . Docker Ja, gesharte Laufwerke Ja, aber sonst keine Möglichkeit, auch Konsole nicht.

Heute morgen hatte ich erneut dieses Verhalten, konnte mich jedoch per SSH anmelden.

Ich habe mir sofort das Syslog angesehen und das ist voll von Meldungen wie die folgende, sagt das jemandem etwas ??

Mein System : ASUS Prime Z590-A , Intel Core i7-10700KF, 64 GB , NVIDIA Grafikkarte (alt und ganz einfach)

Auszug Syslog, diese Meldungen wiederholen sich ständig.

Please Help 😬🤔

 

Jan 27 04:40:41 bigone dhcpcd[1980]: br0: Router Advertisement from fe80::464e:6dff:fe27:c93c
Jan 27 04:41:04 bigone kernel: rcu: INFO: rcu_sched self-detected stall on CPU
Jan 27 04:41:04 bigone kernel: rcu:     8-....: (38759995 ticks this GP) idle=db2/1/0x4000000000000000 softirq=3580472/3580472 fqs=9024818 
Jan 27 04:41:04 bigone kernel:     (t=38760646 jiffies g=24340385 q=4300891)
Jan 27 04:41:04 bigone kernel: NMI backtrace for cpu 8
Jan 27 04:41:04 bigone kernel: CPU: 8 PID: 1603 Comm: python3 Tainted: G      D W         5.10.28-Unraid #1
Jan 27 04:41:04 bigone kernel: Hardware name: ASUS System Product Name/PRIME Z590-A, BIOS 1007 07/08/2021
Jan 27 04:41:04 bigone kernel: Call Trace:
Jan 27 04:41:04 bigone kernel: <IRQ>
Jan 27 04:41:04 bigone kernel: dump_stack+0x6b/0x83
Jan 27 04:41:04 bigone kernel: ? lapic_can_unplug_cpu+0x8e/0x8e
Jan 27 04:41:04 bigone kernel: nmi_cpu_backtrace+0x7d/0x8f
Jan 27 04:41:04 bigone kernel: nmi_trigger_cpumask_backtrace+0x56/0xd3
Jan 27 04:41:04 bigone kernel: rcu_dump_cpu_stacks+0x9f/0xc6
Jan 27 04:41:04 bigone kernel: rcu_sched_clock_irq+0x1ec/0x543
Jan 27 04:41:04 bigone kernel: ? trigger_load_balance+0x5a/0x1ca
Jan 27 04:41:04 bigone kernel: update_process_times+0x50/0x6e
Jan 27 04:41:04 bigone kernel: tick_sched_timer+0x36/0x64
Jan 27 04:41:04 bigone kernel: __hrtimer_run_queues+0xb7/0x10b
Jan 27 04:41:04 bigone kernel: ? tick_sched_do_timer+0x39/0x39
Jan 27 04:41:04 bigone kernel: hrtimer_interrupt+0x8d/0x15b
Jan 27 04:41:04 bigone kernel: __sysvec_apic_timer_interrupt+0x5d/0x68
Jan 27 04:41:04 bigone kernel: asm_call_irq_on_stack+0xf/0x20
Jan 27 04:41:04 bigone kernel: </IRQ>
Jan 27 04:41:04 bigone kernel: sysvec_apic_timer_interrupt+0x71/0x95
Jan 27 04:41:04 bigone kernel: asm_sysvec_apic_timer_interrupt+0x12/0x20
Jan 27 04:41:04 bigone kernel: RIP: 0010:native_queued_spin_lock_slowpath+0x79/0x18a
Jan 27 04:41:04 bigone kernel: Code: c1 e0 08 89 c2 8b 07 30 e4 09 d0 a9 00 01 ff ff 74 0c 0f ba e0 08 72 1a c6 47 01 00 eb 14 85 c0 74 0a 8b 07 84 c0 74 04 f3 90 <eb> f6 66 c7 07 01 00 c3 48 c7 c0 0
0 30 02 00 65 48 03 05 f0 8e f8
Jan 27 04:41:04 bigone kernel: RSP: 0000:ffffc90001f13e38 EFLAGS: 00000202
Jan 27 04:41:04 bigone kernel: RAX: 0000000000400101 RBX: 0000000000000255 RCX: 000ffffffffff000
Jan 27 04:41:04 bigone kernel: RDX: 0000000000000000 RSI: 0000000000000000 RDI: ffffea001eed9ba8
Jan 27 04:41:04 bigone kernel: RBP: ffff888223ea3140 R08: ffff8883acc85d60 R09: 0000000000000000
Jan 27 04:41:04 bigone kernel: R10: 0000000000000000 R11: 0000000000000000 R12: 0000000000000000
Jan 27 04:41:04 bigone kernel: R13: 000055653580a6a4 R14: ffff88810116dd80 R15: 8000000000000065
Jan 27 04:41:04 bigone kernel: ? pmd_pfn+0x13/0x3a
Jan 27 04:41:04 bigone kernel: queued_spin_lock_slowpath+0x7/0xa
Jan 27 04:41:04 bigone kernel: handle_mm_fault+0x759/0xec3
Jan 27 04:41:04 bigone kernel: exc_page_fault+0x259/0x373
Jan 27 04:41:04 bigone kernel: ? asm_exc_page_fault+0x8/0x30
Jan 27 04:41:04 bigone kernel: asm_exc_page_fault+0x1e/0x30
Jan 27 04:41:04 bigone kernel: RIP: 0033:0x14f8cf366d24
Jan 27 04:41:04 bigone kernel: Code: ff 4c 8b 05 fe f8 21 00 49 83 c0 01 4c 89 05 f3 f8 21 00 4c 89 43 18 eb a5 0f 1f 44 00 00 48 3d ff ff 00 00 0f 8f 49 3d f3 ff <66> 42 89 0c 6e 4c 8d 0c 47 49 01 f
1 4d 89 31 4c 8b 73 28 49 89 69
Jan 27 04:41:04 bigone kernel: RSP: 002b:00007ffd88d919e0 EFLAGS: 00010293
Jan 27 04:41:04 bigone kernel: RAX: 0000000000000100 RBX: 000014f8cee0ebc0 RCX: 0000000000000096
Jan 27 04:41:04 bigone kernel: RDX: 000014f8cf564940 RSI: 000055653580a4f8 RDI: 0000000000000e10
Jan 27 04:41:04 bigone kernel: RBP: 000014f8c95eb3b0 R08: 00000000000000ff R09: 0000000000000e10
Jan 27 04:41:04 bigone kernel: R10: e4483959ad49c4d6 R11: 0000000000000000 R12: 000014f8c953a340
Jan 27 04:41:04 bigone kernel: R13: 00000000000000d6 R14: e4483959ad49c4d6 R15: 000055653580a4d0
Jan 27 04:41:17 bigone dhcpcd[1980]: br0: Router Advertisement from fe80::464e:6dff:fe27:c93c
Jan 27 04:41:19 bigone dhcpcd[1980]: br0: Router Advertisement from fe80::464e:6dff:fe27:c93c

Link to comment
2 hours ago, flinx01 said:

Hallo zusammen,

ich habe seit einiger Zeit das Problem, das sich der Unraid Server ab und zu nicht per WEB ansprechen ließ . Docker Ja, gesharte Laufwerke Ja, aber sonst keine Möglichkeit, auch Konsole nicht.

Heute morgen hatte ich erneut dieses Verhalten, konnte mich jedoch per SSH anmelden.

Ich habe mir sofort das Syslog angesehen und das ist voll von Meldungen wie die folgende, sagt das jemandem etwas ??

Mein System : ASUS Prime Z590-A , Intel Core i7-10700KF, 64 GB , NVIDIA Grafikkarte (alt und ganz einfach)

...also Netzwerk funktioniert, nur das unraid UI nicht via Web?

Das riecht danach, das die GPU wegbricht.

Nun hast Du eine CPU ohne iGP......bleibt nur die dGPU ... für was nutzt Du die NVIDIA noch (zB in einem Docker)?

Link to comment

Hallo,

die Nvidia wird von keinem Docker genutzt, übrigends auch keine VM im einsatz.

Die Grafikarte ist übrigens eine  GeForce GT 610, also Asbach Uralt.

Übrigens scheint noch mehr im Argen gelegen zu haben, ich habe vorhin versucht das System per shutdown -h now bzw. einfach mit einem Reboot per shell

neu zu starten, das hat nicht geklappt, ich musste einen harten neustart mit dem Power Schalter durchführen ...

 

Den Server habe ich jetzt neu gestartet, keinerlei Fehler, auch im Syslog allles OK .....

Link to comment

Dieses Verhalten stelle ich bei mir auch sehr ähnlich fest.

Das WebUI geht bei mir zwar noch mehr oder weniger auf, reagiert aber nicht richtig oder zeigt Blödsinn an.

Z.B. Die Anzeigen auf dem Dashboard zeigen nichts mehr an, und bei der Array Übersicht werden keine Platten angezeigt.

Nach reboot wieder alles gut. Hatte das jetzt so 2-3x, muss mir auch mal das syslog genauer anschauen.

 

Mein System:

i9 12900k auf ASRock Z690Extreme mit 64GB RAM; Unraid 6.10 RC2

Link to comment

...tja, bei mir auch heute.

Das hatte ich in den letzten 10 Jahren noch nie. 🤔

 

Adguard Docker ging nicht mehr.....daran habe ich es gemerkt. ..danach aufs Dashboard gewechselt.

Web-UI ging noch, alle Cores bei 100%...ein Terminal ging auch...alles flüssig, also kann die Last so nicht stimmen

htop zeigte den qemu-x86 Prozess mit 156 Prozent CPU-Last (ich habe nur eine VM mit 2 vCPUs auf meinem i3-8100 - freepbx mit diurchgereichtem NIC und TDM-Karte).

 

Der sshd lief auch noch....nur ein shutdown/reboot per Dashboard oder Shell ging eben nicht mehr.

Auf dem "Monitor" (ist per KVM angeschlossen) sah man noch den Versuch, das reboot Befehl durchzuführen...hing da aber fest.

 

Ich denke, es ist ein Problem mit dem Cache-Pool.

Da drauf liegen Docker und die VM.

Nach dem Reboot war die erste nvme im Pool auch viel heisser als normal/die zweite.

Edited by Ford Prefect
Link to comment
1 hour ago, chrizzo said:

Das WebUI geht bei mir zwar noch mehr oder weniger auf, reagiert aber nicht richtig oder zeigt Blödsinn an.

Z.B. Die Anzeigen auf dem Dashboard zeigen nichts mehr an, und bei der Array Übersicht werden keine Platten angezeigt.

Entweder Logs oder RAM voll oder Stick defekt.

Link to comment
1 hour ago, hawihoney said:

Nur um es korrekt einzuordnen: Seid Ihr alle auf 6.10-RCx wie @chrizzo?

 

Bin eigentlich nur auf dem RC unterwegs, aufgrund der eher neueren und eigentlich noch nicht wirklich unterstützten Hardware => i9 12900k
Komme ursprünglich von AMD, wollte wieder zu Intel, hab mich tatsächlich auch gegen den Rat vieler hier entschieden und habe die 12te Generation angestrebt anstatt die 100%ig unterstützte 10te Generation. 
Ganz nach dem Motto "No Risk, No Fun" - Und early adopter zu sein hat auch so einen gewissen Reiz...

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...