Server startet immer wieder ohne erkennbaren Grund neu

stubennatter · March 25, 2021

Hallo,

ich habe ein zweites System aufgesetzt und mein Server startet immer wieder mal einfach neu.

Logfile ist ja dann immer leer. Gibt es irgendwelche Möglichkeiten die Gründe für diese Neustarts herrauszufinden.

Vielen Dank.

Gruß Micha

mgutt · March 25, 2021

Ja, du kannst die Logs dauerhaft auf den Stick schreiben lassen:

69616794_2021-03-2517_23_18.png.a2ad5b38b0906ab8bbf53b29346a53c2.png

stubennatter · March 25, 2021

Vielen Dank. Hab es aktiviert, mal schauen was ich da finde.

im Mainboard log ist bisher leider auch nichts auffälliges zu finden.

Danke

MartinG · March 25, 2021

Also, ein ständiger Neustart ist bei PC Hardware sehr oft schlechter Kühlung geschuldet.

Sitzt der CPU Kühler richtig auf? Was ist das für einer?

stubennatter · March 26, 2021

hatte jetzt schon wieder zwei Neustarts.

- wegen Temperatur, es ist ein AMD Ryzen 5 PRO 4650G der per AIO Wassserkühlung gekühlt wird und max 35°C erreicht

- Gehäuselüfter sind inkl. der beiden Radiatoren Kühler 5 Stück

- alle Temperaturen sind im normalen Bereich, ja die X570 Temps sind hoch, aber noch weit von der Grenze entfernt

-log file, erkenne ich nicht wirklich was 1:34 Uhr ist der Neustart gewesen

Mar 25 21:52:49 ServerStation ipmiseld[5158]: 192.168.253: Error connecting: connection timeout
Mar 25 23:03:27 ServerStation ipmiseld[5158]: 192.168.253: Error connecting: connection timeout
Mar 25 23:14:31 ServerStation ntpd[2003]: receive: Unexpected origin timestamp 0xe40789c1.14f856d6 does not match aorg 0000000000.00000000 from [email protected] xmt 0xe40789ca.0cd0b6a0
Mar 26 00:09:01 ServerStation ntpd[2003]: receive: Unexpected origin timestamp 0xe407968a.e22471de does not match aorg 0000000000.00000000 from [email protected] xmt 0xe4079690.9a0ab26b
Mar 26 00:14:06 ServerStation ipmiseld[5158]: 192.168.253: Error connecting: connection timeout
Mar 26 01:24:51 ServerStation ipmiseld[5158]: 192.168.253: Error connecting: connection timeout
Mar 26 01:34:46 ServerStation kernel: Linux version 4.19.107-Unraid (root@Develop) (gcc version 9.2.0 (GCC)) #1 SMP Thu Mar 5 13:55:57 PST 2020
Mar 26 01:34:46 ServerStation kernel: x86/fpu: Supporting XSAVE feature 0x001: 'x87 floating point registers'
Mar 26 01:34:46 ServerStation kernel: x86/fpu: Supporting XSAVE feature 0x002: 'SSE registers'
Mar 26 01:34:46 ServerStation kernel: x86/fpu: Supporting XSAVE feature 0x004: 'AVX registers'
Mar 26 01:34:46 ServerStation kernel: x86/fpu: xstate_offset[2]: 576, xstate_sizes[2]: 256
Mar 26 01:34:46 ServerStation kernel: x86/fpu: Enabled xstate features 0x7, context size is 832 bytes, using 'compacted' format.
Mar 26 01:34:46 ServerStation kernel: BIOS-provided physical RAM map:

Gruß Micha

mgutt · March 26, 2021

Letzter Eintrag war was mit "RAM". Vielleicht mal den prüfen?

stubennatter · March 27, 2021

achso, sorry, habe Details vergessen, also 1:34 Uhr ist er neu gestartet und es geht dann alles weiter, das sind quasi die Logs an 1:34 Uhr wo er neustartet

habe aber im Moment einen Verdacht, nutze Sonoff Power für viele Geräte, nur an dem habe ich einen Delock 11827 Modul, habe den jetzt mal weg gelassen und erst mal keine Abstürze mehr. Bin nur verwundert wenn dies der Schuldige wäre, denn eigentlich habe ich ja eine USV zwischen dem und dem Rechner...

mgutt · March 27, 2021

2 hours ago, stubennatter said:

das sind quasi die Logs an 1:34 Uhr wo er neustartet

Ach so, dh 01:24:51 war der letzte Eintrag vor dem Neustart?

2 hours ago, stubennatter said:

Sonoff Power für viele Geräte

Vielleicht laufen viele Platten an und der Adapter verkraftet die Lastspitze nicht?! Wobei das ja auch beim Booten auftreten müsste.

stubennatter · March 30, 2021

sind nur 4 Platten davon 1 immer an und die anderen drei könnten anlaufen, aber 2,5kw sind das eigentlich nicht

- aber der Verdacht hat sich n icht bestätigt, hatte jetzt zwei Neustarts in 24h

- ja das ist der letzte Eintrag hier mal von heute 9:46 Uhr Neustart:

Mar 30 09:00:56 ServerStation ipmiseld[5212]: 192.168.253: Error connecting: connection timeout
Mar 30 09:36:24 ServerStation ntpd[2011]: receive: Unexpected origin timestamp 0xe40d5375.8bf0155b does not match aorg 0000000000.00000000 from [email protected] xmt 0xe40d537b.6327cf46
Mar 30 09:46:02 ServerStation kernel: Linux version 5.10.21-Unraid (root@Develop) (gcc (GCC) 9.3.0, GNU ld version 2.33.1-slack15) #1 SMP Sun Mar 7 13:39:02 PST 2021
Mar 30 09:46:02 ServerStation kernel: Command line: BOOT_IMAGE=/bzimage initrd=/bzroot
Mar 30 09:46:02 ServerStation kernel: x86/fpu: Supporting XSAVE feature 0x001: 'x87 floating point registers'
Mar 30 09:46:02 ServerStation kernel: x86/fpu: Supporting XSAVE feature 0x002: 'SSE registers'
Mar 30 09:46:02 ServerStation kernel: x86/fpu: Supporting XSAVE feature 0x004: 'AVX registers'
Mar 30 09:46:02 ServerStation kernel: x86/fpu: xstate_offset[2]: 576, xstate_sizes[2]: 256

und gestern 12:49:

Mar 29 12:43:36 ServerStation nginx: 2021/03/29 12:43:36 [alert] 6819#6819: worker process 1585 exited on signal 6
Mar 29 12:43:38 ServerStation nginx: 2021/03/29 12:43:38 [alert] 6819#6819: worker process 1666 exited on signal 6
Mar 29 12:43:40 ServerStation nginx: 2021/03/29 12:43:40 [alert] 6819#6819: worker process 1678 exited on signal 6
Mar 29 12:43:42 ServerStation nginx: 2021/03/29 12:43:42 [alert] 6819#6819: worker process 1736 exited on signal 6
Mar 29 12:43:44 ServerStation nginx: 2021/03/29 12:43:44 [alert] 6819#6819: worker process 1757 exited on signal 6
Mar 29 12:43:46 ServerStation nginx: 2021/03/29 12:43:46 [alert] 6819#6819: worker process 1780 exited on signal 6
Mar 29 12:43:48 ServerStation nginx: 2021/03/29 12:43:48 [alert] 6819#6819: worker process 1783 exited on signal 6
Mar 29 12:43:50 ServerStation nginx: 2021/03/29 12:43:50 [alert] 6819#6819: worker process 1806 exited on signal 6
Mar 29 12:43:52 ServerStation nginx: 2021/03/29 12:43:52 [alert] 6819#6819: worker process 1807 exited on signal 6
Mar 29 12:43:54 ServerStation nginx: 2021/03/29 12:43:54 [alert] 6819#6819: worker process 1808 exited on signal 6
Mar 29 12:43:56 ServerStation nginx: 2021/03/29 12:43:56 [alert] 6819#6819: worker process 1844 exited on signal 6
Mar 29 12:45:08 ServerStation emhttpd: cmd: /usr/local/emhttp/plugins/dynamix/scripts/tail_log syslog
Mar 29 12:45:57 ServerStation nginx: 2021/03/29 12:45:57 [error] 1845#1845: *809872 upstream timed out (110: Connection timed out) while reading upstream, client: 192.168.178.232, server: , request: "GET /Dashboard HTTP/1.1", upstream: "fastcgi://unix:/var/run/php5-fpm.sock:", host: "192.168.178.2", referrer: "http://192.168.178.2/Main"
Mar 29 12:47:03 ServerStation nginx: 2021/03/29 12:47:03 [error] 1845#1845: *810030 upstream timed out (110: Connection timed out) while reading upstream, client: 192.168.178.232, server: , request: "GET /Main HTTP/1.1", upstream: "fastcgi://unix:/var/run/php5-fpm.sock:", host: "192.168.178.2", referrer: "http://192.168.178.2/Dashboard"
Mar 29 12:49:07 ServerStation kernel: Linux version 4.19.107-Unraid (root@Develop) (gcc version 9.2.0 (GCC)) #1 SMP Thu Mar 5 13:55:57 PST 2020
Mar 29 12:49:07 ServerStation kernel: Command line: BOOT_IMAGE=/bzimage pcie_acs_override=downstream,multifunction vfio_iommu_type1.allow_unsafe_interrupts=1 initrd=/bzroot
Mar 29 12:49:07 ServerStation kernel: x86/fpu: Supporting XSAVE feature 0x001: 'x87 floating point registers'
Mar 29 12:49:07 ServerStation kernel: x86/fpu: Supporting XSAVE feature 0x002: 'SSE registers'
Mar 29 12:49:07 ServerStation kernel: x86/fpu: Supporting XSAVE feature 0x004: 'AVX registers'
Mar 29 12:49:07 ServerStation kernel: x86/fpu: xstate_offset[2]: 576, xstate_sizes[2]: 256

mein anderer Server lief vorher 6 Monate ohne einen einzigen Fehler

mgutt · March 30, 2021

Fazit: Es gibt keine Logeinträge vor dem Neustart. Daraus können wir schließen, dass es sich um ein Hardware-Problem handelt. Da der Strom flöten geht, wäre der erste Verdächtige das Netzteil. Danach kann es ja eigentlich nur noch das Mainboard sein.

Keith Morden · June 7, 2022

Was war denn hier die Lösung?

Ich hatte gestern auf 6.10 geupdatet...leider hat es nicht funktioniert (USB Fehler bei Conbee), so dass ich mein Backup wieder eingespielt habe.

Dummerweise startet der Server jetzt nach einigen Minuten immer wieder neu. Logs sind bei mir auch leer.

Gibts da einen Fahrplan, um Fehler zu finden, wenn keine Logs da sind?

Ford Prefect · June 7, 2022

...Du hast da wohl ziemlich viele USB Geräte am Start?

...haben die evtl. eine Zuatz-Speisung aus einem externen NT oder sind als Direkt-Verbindung mit nem anderen Gerät verbunden, das ein NT an einer anderen Steckdose (evtl andere Phase) hat?

Da können auch Kriechströme entstehen, was zu komischen Effekten / Neustarts führen kann.

Ebenso defekte USB Kabel oder geschirmte RJ45/LAN-Kabel -> potentiell Masse-Schluss, sind eine mögliche Fehler-Quelle.

Keith Morden · June 7, 2022

Ich habe 2 3D Drucker dran (die sind jedoch ohne Strom bzw. auch gar nicht eingesteckt) und den ConbeeII. Dann natürlich noch das Flash Drive.

Vor dem Update ging ja alles ohne Probleme, so dass beide Drucker über Octoprint betrieben werden konnten und dennoch der Conbee funktionierte. Nach Update und anschliessendem Restore kommt das Phänomen des Neustarts nach paar Minuten.

mgutt · June 7, 2022

Logs leer heißt keine Speicherung auf USB? Solltest du den Mirror aktivieren, damit wir was sehen.

Ansonsten Klassiker. So viel abklemmen wie möglich und schauen ab wann es geht.

Keith Morden · June 7, 2022

Danke. Da bin ich gerade dran. Wie mach ich das denn mit den festplatten? einfach abstecken geht nicht, dann möchte er das array nicht starten. vorher dann unmounten?

Logs mach ich dann auch...bin gespannt

mgutt · June 7, 2022

5 minutes ago, Björn Schwarz said:

Da bin ich gerade dran. Wie mach ich das denn mit den festplatten

Ich würde das Array stoppen und in den Disk Einstellungen den Autostart deaktivieren. Dann die Platten ruhig angeschlossen lassen und mit gestopptem Array warten was passiert.

Keith Morden · June 7, 2022

Quote

un 7 10:42:03 BlackCastleServ kernel: br-8861cdbad031: port 3(veth13e2eed) entered blocking state
Jun 7 10:42:03 BlackCastleServ kernel: br-8861cdbad031: port 3(veth13e2eed) entered disabled state
Jun 7 10:42:03 BlackCastleServ kernel: device veth13e2eed entered promiscuous mode
Jun 7 10:42:03 BlackCastleServ kernel: br-8861cdbad031: port 3(veth13e2eed) entered blocking state
Jun 7 10:42:03 BlackCastleServ kernel: br-8861cdbad031: port 3(veth13e2eed) entered forwarding state
Jun 7 10:42:03 BlackCastleServ kernel: eth0: renamed from veth1565141
Jun 7 10:42:03 BlackCastleServ kernel: IPv6: ADDRCONF(NETDEV_CHANGE): veth13e2eed: link becomes ready
Jun 7 10:42:03 BlackCastleServ rc.docker: vaultwarden: started succesfully!
Jun 7 10:42:03 BlackCastleServ avahi-daemon[12941]: Joining mDNS multicast group on interface vethfaa672e.IPv6 with address fe80::3014:b7ff:fe2a:c496.
Jun 7 10:42:03 BlackCastleServ avahi-daemon[12941]: New relevant interface vethfaa672e.IPv6 for mDNS.
Jun 7 10:42:03 BlackCastleServ avahi-daemon[12941]: Registering new address record for fe80::3014:b7ff:fe2a:c496 on vethfaa672e.*.
Jun 7 10:42:04 BlackCastleServ avahi-daemon[12941]: Joining mDNS multicast group on interface veth251bc23.IPv6 with address fe80::3c5b:ff:fe91:4bd3.
Jun 7 10:42:04 BlackCastleServ avahi-daemon[12941]: New relevant interface veth251bc23.IPv6 for mDNS.
Jun 7 10:42:04 BlackCastleServ avahi-daemon[12941]: Registering new address record for fe80::3c5b:ff:fe91:4bd3 on veth251bc23.*.
Jun 7 10:42:04 BlackCastleServ avahi-daemon[12941]: Joining mDNS multicast group on interface veth15b5f13.IPv6 with address fe80::801d:d1ff:fe95:903e.
Jun 7 10:42:04 BlackCastleServ avahi-daemon[12941]: New relevant interface veth15b5f13.IPv6 for mDNS.
Jun 7 10:42:04 BlackCastleServ avahi-daemon[12941]: Registering new address record for fe80::801d:d1ff:fe95:903e on veth15b5f13.*.
Jun 7 10:42:04 BlackCastleServ avahi-daemon[12941]: Joining mDNS multicast group on interface veth5c8be18.IPv6 with address fe80::7c7c:bfff:fea2:baa3.
Jun 7 10:42:04 BlackCastleServ avahi-daemon[12941]: New relevant interface veth5c8be18.IPv6 for mDNS.
Jun 7 10:42:04 BlackCastleServ avahi-daemon[12941]: Registering new address record for fe80::7c7c:bfff:fea2:baa3 on veth5c8be18.*.
Jun 7 10:42:04 BlackCastleServ avahi-daemon[12941]: Joining mDNS multicast group on interface veth13e2eed.IPv6 with address fe80::1813:83ff:fea8:fb2d.
Jun 7 10:42:04 BlackCastleServ avahi-daemon[12941]: New relevant interface veth13e2eed.IPv6 for mDNS.
Jun 7 10:42:04 BlackCastleServ avahi-daemon[12941]: Registering new address record for fe80::1813:83ff:fea8:fb2d on veth13e2eed.*.
Jun 7 10:42:05 BlackCastleServ kernel: vethedd73bb: renamed from eth0
Jun 7 10:42:05 BlackCastleServ kernel: docker0: port 4(vethb3d4c5f) entered disabled state
Jun 7 10:42:05 BlackCastleServ avahi-daemon[12941]: Interface vethb3d4c5f.IPv6 no longer relevant for mDNS.
Jun 7 10:42:05 BlackCastleServ avahi-daemon[12941]: Leaving mDNS multicast group on interface vethb3d4c5f.IPv6 with address fe80::900e:17ff:fe66:d956.
Jun 7 10:42:05 BlackCastleServ kernel: docker0: port 4(vethb3d4c5f) entered disabled state
Jun 7 10:42:05 BlackCastleServ kernel: device vethb3d4c5f left promiscuous mode
Jun 7 10:42:05 BlackCastleServ kernel: docker0: port 4(vethb3d4c5f) entered disabled state
Jun 7 10:42:05 BlackCastleServ avahi-daemon[12941]: Withdrawing address record for fe80::900e:17ff:fe66:d956 on vethb3d4c5f.
Jun 7 10:42:18 BlackCastleServ nmbd[14329]: [2022/06/07 10:42:18.612750, 0] ../../source3/nmbd/nmbd_become_lmb.c:397(become_local_master_stage2)
Jun 7 10:42:18 BlackCastleServ nmbd[14329]: *****
Jun 7 10:42:18 BlackCastleServ nmbd[14329]:
Jun 7 10:42:18 BlackCastleServ nmbd[14329]: Samba name server BLACKCASTLESERV is now a local master browser for workgroup WORKGROUP on subnet 192.168.178.89
Jun 7 10:42:18 BlackCastleServ nmbd[14329]:
Jun 7 10:42:18 BlackCastleServ nmbd[14329]: *****
Jun 7 10:43:08 BlackCastleServ ool www[13561]: /usr/local/emhttp/plugins/dynamix/scripts/rsyslog_config
Jun 7 10:43:11 BlackCastleServ rsyslogd: [origin software="rsyslogd" swVersion="8.2002.0" x-pid="29329" x-info="https://www.rsyslog.com"] start
Jun 7 10:45:57 BlackCastleServ ntpd[1912]: kernel reports TIME_ERROR: 0x41: Clock Unsynchronized
Jun 7 10:51:00 BlackCastleServ root: Fix Common Problems Version 2022.05.30
Jun 7 10:51:13 BlackCastleServ root: Fix Common Problems: Warning: preclear.disk.plg Not Compatible with Unraid version 6.9.2 ** Ignored
Jun 7 10:51:15 BlackCastleServ root: Fix Common Problems: Error: Machine Check Events detected on your server ** Ignored
Jun 7 10:51:15 BlackCastleServ root: mcelog not installed
Jun 7 10:51:16 BlackCastleServ root: Fix Common Problems: Other Warning: Mover logging is enabled
Jun 7 10:51:18 BlackCastleServ root: Fix Common Problems: Warning: Syslog mirrored to flash
Jun 7 10:51:18 BlackCastleServ root: Fix Common Problems: Warning: The plugin usb_manager_usbip_addon.plg is not known to Community Applications and is possibly incompatible with your server

Zehn Minuten später kam der Neustart.

Danach hab ich mal gestartet ohne mount ... keine Probleme.

Aktuell läufts im Maintenance Modus. Ich schau mal, wie ich da jetzt weiter mache.

Edited June 7, 2022 by Björn Schwarz
Ergänzung

Ford Prefect · June 7, 2022

2 hours ago, Björn Schwarz said:

Nach Update und anschliessendem Restore kommt das Phänomen des Neustarts nach paar Minuten.

Ach, erst seit dem Update?

...kannst Du nochmal zurückgehen und das verifizieren?

Danach das Update machen, alle Docker und VMs - inkl. Dienste - aus....alle Plugins checken...nur die benötigten drin lassen oder erstmal deaktivieren.

Wenn es dann geht, die Plugins eines nach dem Anderen wieder testen.

Dann die Konfigs der Docker und VMs mit durchgereichten USB neu machen und nach und nach verifizieren...

Keith Morden · June 7, 2022

So mache ich es gerade, da es scheinbar nicht Hardware technisch ist

Ich hab mal eine Platte weggelassen und fahre nach und nach die Docker hoch. Das USB Plugin mit dem Fehler hab ich mal gelöscht...Und jetzt mal schauen. Drückt mir die Daumen.

Ford Prefect · June 7, 2022

..und warum hast Du überhaupt das Update gemacht?

Mein Backup Server läuft immer noch auf 6.7.2

Keith Morden · June 7, 2022

Ich hab mich bequatschen lassen und nicht auf "NCARS" gehört

Wenn ich in dem Zusammenhang hier eine Frage zu einem nicht mehr startenden Docker habe, mache ich besser einen neuen Thread auf, oder?

Aktuell sind alle Docker sonst wieder oben bis auf Frigate. Als nächstes kommt die Home Assistant VM.

Kommando zurück. Tatsächlich kam wieder der Neustart nach Aktivierung von Frigate und Nextcloud/photoprism.

Mal schauen, was es ist.

Edited June 7, 2022 by Björn Schwarz
ergänzung

Ford Prefect · June 7, 2022

1 hour ago, Björn Schwarz said:

Wenn ich in dem Zusammenhang hier eine Frage zu einem nicht mehr startenden Docker habe, mache ich besser einen neuen Thread auf, oder?

...yep!

Keith Morden · June 7, 2022

Also ich hab jetzt einiges versucht...ich kann kein Muster finden.

Das einzelne Docker aktivieren oder VM oder sonstwas hat nix gebracht.

Nach einer Zeit (beste waren 2 Stunden) startet er wieder neu. Ich versteh das Teil nicht mehr

Ford Prefect · June 7, 2022

19 minutes ago, Björn Schwarz said:

Also ich hab jetzt einiges versucht...ich kann kein Muster finden.

...waren wir schon mit den möglchen HW-Problemen durch?

Wenn nur das Array, ohne Plugins, VMs und Docker Dienste gestartet ist, läuft er dann stabil....lange?

7 hours ago, Björn Schwarz said:

So mache ich es gerade, da es scheinbar nicht Hardware technisch ist

...siehe oben..RAM und NT geprüft / getauscht?

Hast Du IPMI? Mal eine ISO gebootet und ein paar Stesstests/Benchmarks laufen lassen?

Keith Morden · June 7, 2022

14 minutes ago, Ford Prefect said:

...waren wir schon mit den möglchen HW-Problemen durch?

Wenn nur das Array, ohne Plugins, VMs und Docker Dienste gestartet ist, läuft er dann stabil....lange?

...siehe oben..RAM und NT geprüft / getauscht?

Hast Du IPMI? Mal eine ISO gebootet und ein paar Stesstests/Benchmarks laufen lassen?

Den ersten Teil verstehe ich...aber den zweiten?!?!?

Server startet immer wieder ohne erkennbaren Grund neu

Recommended Posts

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Join the conversation