Netrunner Posted July 7, 2022 Share Posted July 7, 2022 (edited) Hallo Ich habe seit ca 3 Wochen ein Unraid Server gebaut, bin also noch Anfänger. Server und Docker laufen soweit, und ich bin vom System begeistert. Allerdings gibt es immer wieder Probleme mit der Stabiltät. Nach spätestens 2 Tagen Betrieb stürzt Unraid ab, das heisst WEB-GUI Oberfläche ist nicht mehr erreichbar, alle Docker Dienste sind gestoppt. Fehlermeldungen oder Hardware Error habe ich noch nie erhalten, Error im Log kann ich keine entdecken. Login an dder Konsole (mit angeschlossenem Bildschirm) funktionert, ein Reboot funktioniert aber nicht. Ich muss Stecker ziehen um den Server neu zu starten. Danach läuft er wieder ptoblemlos für 2 Tage.... Gestern nach einem Absturz habe ich Reboot versucht, und diesen Fehler erhalten: Sieht nach Dateisystem fehler aus Stürzt Unraid ab, wenn ein Dateisystem fehler auftritt? Oder trat diese Fehlermeldung auf wegen dem abgestürtzten System? Nachdem ich den Server neu gestartet habe, habe ich einen Parity check laufen lassen, welcher ohne Fehler durchlief. Heute morgen habe ich die Nvme SSD aus dem Cache Pool entfernt, um zu Testen ob diese vielleicht probleme macht. Server läuft im moment ohne Cache. Bin ein bisschen Ratlos, wie ich das Problem finden/ lösen soll, daher bitte ich um eure Hilfe, urnetrunner-diagnostics-20220707-0806.zip Edited July 7, 2022 by Netrunner Quote Link to comment
mgutt Posted July 7, 2022 Share Posted July 7, 2022 1 hour ago, Netrunner said: Stürzt Unraid ab, wenn ein Dateisystem fehler auftritt? Ja. Hatte ich auch schon. Array im Wartungsmodus starten, auf jede Disk klicken und xfs_repair ohne -v ausführen. Quote Link to comment
Netrunner Posted July 7, 2022 Author Share Posted July 7, 2022 Danke für die Antwort. Habe den Check nun gemacht für alle Disk im Array. Das kam dabei raus: Wurden da nun fehler gefunden oder nicht ? Server läuft nun wieder, mal schauen obs wieder abstürzt. Was wäre wennd er USB Stick fehlerhaft wäre ? Könnte das auch zu solchen Abstürzen führen ? Quote Link to comment
hawihoney Posted July 7, 2022 Share Posted July 7, 2022 2 hours ago, Netrunner said: Wurden da nun fehler gefunden oder nicht ? "Moving ... to lost+found" ist ein Indikator für korrigierte Fehler. Guck Mal auf die Disk ob es entsprechende Ordner/Dateien gibt. Quote Link to comment
mgutt Posted July 7, 2022 Share Posted July 7, 2022 2 hours ago, Netrunner said: Was wäre wennd er USB Stick fehlerhaft wäre ? Könnte das auch zu solchen Abstürzen führen ? Ja. So ziemlich alles was mit Hardware zu tun hat, kann den Server crashen lassen. Du solltest in jedem Fall die syslog Server auf den USB Stick mirrorn, damit nach dem Absturz noch Logs zu sehen sind. Quote Link to comment
Netrunner Posted July 7, 2022 Author Share Posted July 7, 2022 Danke schon mal für eure Tipps. Ich werde den Log mal für eine Zeitlang auf den USB Stick schreiben lassen. USB Stick und alle Festplatten habe ich vor 1 Monat neu gekauft, da sollte hoffentlich noch nichts defekt sein. Ich werde dann wieder hier Posten wenn es was gibt. Entweder Absturz oder auch wenn es länger als die üblichen 2 Tage stabil läuft. Quote Link to comment
mgutt Posted July 7, 2022 Share Posted July 7, 2022 1 hour ago, Netrunner said: Ich werde dann wieder hier Posten wenn es was gibt Wurde denn ein lost+found Ordner auf der Disk erstellt. Du hast ja nicht gezeigt von welcher Disk der Bericht war. Quote Link to comment
Netrunner Posted July 8, 2022 Author Share Posted July 8, 2022 (edited) Nein es wurde kein Lost+Found Ordner erstellt, auf keine der beiden Disks. Habe ja bei beiden die Prüfung laufen lassen. Server hat aktuell eine Uptime von 31 Stunden. Aktuell sind 2 Rote Warnmeldungen im Log: Jul 8 10:53:25 URNetrunner kernel: libahci led_class nvme nvme_core thermal fan tpm_crb tpm_tis video wmi backlight tpm_tis_core tpm button acpi_pad acpi_tad [last unloaded: md_mod] Jul 8 10:53:25 URNetrunner kernel: CPU: 6 PID: 22312 Comm: kworker/6:2 Tainted: G U W O 5.15.46-Unraid #1 Jul 8 10:53:25 URNetrunner kernel: Hardware name: Micro-Star International Co., Ltd. MS-7D08/MAG Z590 TORPEDO (MS-7D08), BIOS A.50 04/14/2022 Jul 8 10:53:25 URNetrunner kernel: Workqueue: events macvlan_process_broadcast [macvlan] Jul 8 10:53:25 URNetrunner kernel: RIP: 0010:nf_nat_setup_info+0x6f/0x773 [nf_nat] Jul 8 10:53:25 URNetrunner kernel: Code: 89 fb 49 89 f5 41 89 d4 76 02 0f 0b 48 8b 93 80 00 00 00 89 d0 25 00 01 00 00 45 85 e4 75 07 89 d0 25 80 00 00 00 85 c0 74 07 <0f> 0b e9 32 06 00 00 48 8b 83 90 00 00 00 4c 8d 7c 24 28 48 8d 73 Jul 8 10:53:25 URNetrunner kernel: RSP: 0018:ffffc90000288be0 EFLAGS: 00010202 Jul 8 10:53:25 URNetrunner kernel: RAX: 0000000000000080 RBX: ffff888bc073de00 RCX: ffff88819a8eaf00 Jul 8 10:53:25 URNetrunner kernel: RDX: 0000000000000180 RSI: ffffc90000288ccc RDI: ffff888bc073de00 Jul 8 10:53:25 URNetrunner kernel: RBP: ffffc90000288cb0 R08: 000000000bbca8c0 R09: 0000000000000000 Jul 8 10:53:25 URNetrunner kernel: R10: 0000000000000158 R11: 0000000000000000 R12: 0000000000000000 Jul 8 10:53:25 URNetrunner kernel: R13: ffffc90000288ccc R14: 0000000000000000 R15: 0000000000000001 Jul 8 10:53:25 URNetrunner kernel: FS: 0000000000000000(0000) GS:ffff888c4f580000(0000) knlGS:0000000000000000 Jul 8 10:53:25 URNetrunner kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033 Jul 8 10:53:25 URNetrunner kernel: CR2: 00001509694209b0 CR3: 00000001b2a5c005 CR4: 0000000000770ee0 Jul 8 10:53:25 URNetrunner kernel: PKRU: 55555554 Jul 8 10:53:25 URNetrunner kernel: Call Trace: Jul 8 10:53:25 URNetrunner kernel: <IRQ> Jul 8 10:53:25 URNetrunner kernel: ? fib_table_lookup+0x38a/0x3fe Jul 8 10:53:25 URNetrunner kernel: ? ipt_do_table+0x563/0x5b0 [ip_tables] Jul 8 10:53:25 URNetrunner kernel: ? ip_route_input_slow+0x670/0x86d Jul 8 10:53:25 URNetrunner kernel: __nf_nat_alloc_null_binding+0x68/0x7f [nf_nat] Jul 8 10:53:25 URNetrunner kernel: nf_nat_inet_fn+0xa6/0x187 [nf_nat] Jul 8 10:53:25 URNetrunner kernel: nf_nat_ipv4_local_in+0x2a/0xae [nf_nat] Jul 8 10:53:25 URNetrunner kernel: nf_hook_slow+0x3b/0x93 Jul 8 10:53:25 URNetrunner kernel: ? ip_protocol_deliver_rcu+0x135/0x135 Jul 8 10:53:25 URNetrunner kernel: NF_HOOK.constprop.0+0x73/0xce Jul 8 10:53:25 URNetrunner kernel: ? ip_protocol_deliver_rcu+0x135/0x135 Jul 8 10:53:25 URNetrunner kernel: ip_sabotage_in+0x49/0x59 [br_netfilter] Jul 8 10:53:25 URNetrunner kernel: nf_hook_slow+0x3b/0x93 Jul 8 10:53:25 URNetrunner kernel: ? ip_rcv_finish_core.constprop.0+0x358/0x358 Jul 8 10:53:25 URNetrunner kernel: NF_HOOK.constprop.0+0x73/0xce Jul 8 10:53:25 URNetrunner kernel: ? ip_rcv_finish_core.constprop.0+0x358/0x358 Jul 8 10:53:25 URNetrunner kernel: __netif_receive_skb_one_core+0x79/0x9a Jul 8 10:53:25 URNetrunner kernel: process_backlog+0xab/0x143 Jul 8 10:53:25 URNetrunner kernel: __napi_poll.constprop.0+0x27/0x114 Jul 8 10:53:25 URNetrunner kernel: net_rx_action+0xe8/0x1f2 Jul 8 10:53:25 URNetrunner kernel: __do_softirq+0xec/0x218 Jul 8 10:53:25 URNetrunner kernel: do_softirq+0x50/0x68 Jul 8 10:53:25 URNetrunner kernel: </IRQ> Jul 8 10:53:25 URNetrunner kernel: <TASK> Jul 8 10:53:25 URNetrunner kernel: netif_rx_ni+0x53/0x85 Jul 8 10:53:25 URNetrunner kernel: macvlan_broadcast+0x116/0x144 [macvlan] Jul 8 10:53:25 URNetrunner kernel: macvlan_process_broadcast+0xc7/0x110 [macvlan] Jul 8 10:53:25 URNetrunner kernel: process_one_work+0x195/0x27a Jul 8 10:53:25 URNetrunner kernel: worker_thread+0x19c/0x240 Jul 8 10:53:25 URNetrunner kernel: ? rescuer_thread+0x28b/0x28b Jul 8 10:53:25 URNetrunner kernel: kthread+0xdc/0xe3 Jul 8 10:53:25 URNetrunner kernel: ? set_kthread_struct+0x32/0x32 Jul 8 10:53:25 URNetrunner kernel: ret_from_fork+0x1f/0x30 Jul 8 10:53:25 URNetrunner kernel: </TASK> Jul 8 10:53:25 URNetrunner kernel: ---[ end trace 3de7a6af239c2458 ]--- Edited July 8, 2022 by Netrunner Quote Link to comment
Solution mgutt Posted July 8, 2022 Solution Share Posted July 8, 2022 8 minutes ago, Netrunner said: Aktuell sind 2 Rote Warnmeldungen im Log: Jegliche Kernel Fehler sind kritisch und können ein Vorzeichen für einen Crash sein. Vermutlich war das defekte XFS Dateisystem nur eine Folge von einem anderen Crash. 9 minutes ago, Netrunner said: Workqueue: events macvlan_process_broadcast [macvlan] Eventuell solltest du docker von macvlan auf ipvlan umstellen. Macvlan führte bei mehreren schon zu Crashes. Quote Link to comment
Netrunner Posted July 8, 2022 Author Share Posted July 8, 2022 Ok, habe in den Docker einstellungen auf ipvlan umgestellt. Zurzeit läuft noch alles gut. Quote Vermutlich war das defekte XFS Dateisystem nur eine Folge von einem anderen Crash. Das kann sehr gut sein, seid ich den Server aufgebaut habe gab es sicher schon 5 solche Abstürze. Quote Link to comment
Netrunner Posted July 9, 2022 Author Share Posted July 9, 2022 Server läuft nun seit 60 Stunden stabil, keine roten Warmeldungen im Log. Vielleicht waren da wirklich noch alte Dateisystem fehler auf den Disks, oder vielleicht hat das umstellen auf ipvlan auch was gebracht. Quote Link to comment
mgutt Posted July 9, 2022 Share Posted July 9, 2022 Stell wieder auf macvlan um, dann weißt du es 😅 Quote Link to comment
Netrunner Posted July 11, 2022 Author Share Posted July 11, 2022 Never touch a running system... 😄 Server läuft immernoch Stabil, ich lasse die Einstellung so. Problem scheint gelöst zus ein. Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.