March 16, 20251 yr Problem: Mein Unraid-Server stürzt in unregelmäßigen Abständen ohne Vorwarnung ab. Es gibt keine (mir offensichtlichen) Kernel Panics, Display Output ist dunkel, Web Oberfläche ist nicht mehr erreichbar, Docker Container und VMs sind tot und nicht mehr erreichbar, jedoch der Server ist nicht aus (lüfter drehen etc). Ich schreibe per Syslog auf einen der shares das Log, auch hier kann ich nichts erkennen, das mich weiter bringt. Das hier ist das Log von gestern Nacht/heute Früh. Ich sehe in den Home Assistant Daten, dass der Server zwischen 2 und 6 abgestürzt sein muss, um 10:15 dann der harte Neustart: Bisherige Troubleshoots: Hardware-Checks: Nachdem ich erst RAM vermutet habe als Fehlerquelle, habe ich tatsächlich zwei der vier Riegel identifiziert, die im Memtest gefailt sind. Um das als Fehler auszuschließen, habe ich die ausgebaut nnd die verbleibenden (pass) riegel belassen. Es bleibt mir aber das Gefühl, dass vielleicht auch die Speicherbänke oder sogar der Memorycontroller der CPU altersschwach sein könnten..? Keine auffälligen SMART-Werte bei den Festplatten Stromversorgung: Das Netzteil musste ich nach dem Tod des vorigen vor etwa einem Jahr tauschen. Da meine USV Batterie altersschwach ist, habe ich den Server aktuell ohne USV an einem eigenen Stromkreis. Problem weiterhin. Dateisystem: Dateisystemprüfung (XFS) bei allen Platten → Keine Fehler Parity-Check durchgeführt → Kein Fehler, aber währenddessen taucht aber extrem oft „VFS disk_free failed“ Fehler in den Logs auf. Mehrfach pro Sekunde. Auch hier habe ich keine Ahnung woran das liegt, hat das vielleicht damit zutun? Software & Logs Unraid Logs analysiert → Kein klarer Hinweis, außer gelegentliche „sys_disk_free: VFS disk_free failed“ Fehler Keine auffälligen SMART-Werte bei den Festplatten. Ich bin nun mit meiner Fehlersuche am Ende und suche weitere Ideen, um die Absturzursache einzugrenzen. Hat jemand ähnliche Erfahrungen oder Vorschläge für weitere Tests? Bevor ich aber den großen Schlag mache und einen neues Server bauen (muss), würde ich gerne ausschließen ob es an was andrem als Hardware liegt. EDIT: Das System basiert auf meinem altern Gaming Rechner: ASRock z370 Fatality Extreme Gaming i7 Board, i7 8700K, 64 GB (aktuell nur 32) 3200 MT/s RAM. 7X HDD 2x NVME. Edited March 16, 20251 yr by zw3ist3in
March 16, 20251 yr 2 hours ago, zw3ist3in said: Ich bin nun mit meiner Fehlersuche am Ende und suche weitere Ideen, um die Absturzursache einzugrenzen. Hat jemand ähnliche Erfahrungen oder Vorschläge für weitere Tests? Bevor ich aber den großen Schlag mache und einen neues Server bauen (muss), würde ich gerne ausschließen ob es an was andrem als Hardware liegt. vielleicht mal ne diagnostics hier posten ...
March 16, 20251 yr Author Sehr gute Idee, tatsächlich kannte ich das nicht 😮 speicher-diagnostics-20250316-1506.zip
March 16, 20251 yr Community Expert 3 hours ago, zw3ist3in said: Ich schreibe per Syslog auf einen der shares das Log, auch hier kann ich nichts erkennen, das mich weiter bringt. Wenn unraid abnstürzt, kann es sein, daß Fuse etc.. auch schoin abgestürzt sind. Dann kann das aktuellste nicht mehr ins Log geschrieben werden. Zur Fehlersuche ist es sinnvoll auf den Flashstick schreiben zu lassen, da dieser eine ziemlich durchgängtig erreichbare Ressource ist, vor allem, wenn alles anderee drum herum abstürzt. 3 hours ago, zw3ist3in said: Hardware-Checks: Nachdem ich erst RAM vermutet habe als Fehlerquelle, habe ich tatsächlich zwei der vier Riegel identifiziert, die im Memtest gefailt sind. Um das als Fehler auszuschließen, habe ich die ausgebaut nnd die verbleibenden (pass) riegel belassen. Es bleibt mir aber das Gefühl, dass vielleicht auch die Speicherbänke oder sogar der Memorycontroller der CPU altersschwach sein könnten..? Verstehe ich Dich richtig? Du hast Mentest durchgefuehrt. dabei 2 Module entdeckt, bei denen Speicherfehler gemeldet wurden, diese entfernt, die verbleibenden Module dann ohne erneute Tests neu angeordnet/verwendet? Bitte teste die neue Konfiguration auch noch mal ausgiebig mit memtest86 oder memtest86+ um auszuschliessen, dass es für diese Module an den aktuell verwendeten Positionen nicht doch auch Fehler meldet. 3 hours ago, zw3ist3in said: Das Netzteil musste ich nach dem Tod des vorigen vor etwa einem Jahr tauschen. Von welchem zu welchem? 3 hours ago, zw3ist3in said: Dateisystem: Dateisystemprüfung (XFS) bei allen Platten → Keine Fehler Ist irgendwo (pool/docker vdisk/VM vdisk) btrfs im Spiel? 3 hours ago, zw3ist3in said: Kein Fehler, aber währenddessen taucht aber extrem oft „VFS disk_free failed“ Fehler in den Logs auf. Mehrfach pro Sekunde. Auch hier habe ich keine Ahnung woran das liegt, Ich befürchte btrfs im Docker.
March 16, 20251 yr Community Expert 6 minutes ago, zw3ist3in said: Sehr gute Idee, tatsächlich kannte ich das nicht 😮 Man lernt nie aus 🙂 Und falls Du den Syslog Server auf Speicherung auf Flash umstellst und die Kiste danach mal abstürzt: dann bitte auch das Syslog hier anbieten (keinen Screenshot, sondern die Datei).
March 17, 20251 yr Author Danke für den Input. 21 hours ago, DataCollector said: auf Speicherung auf Flash umstellst ich hoffe so ist das richtig? "Mirror syslog to flash" 21 hours ago, DataCollector said: Du hast Mentest durchgefuehrt. dabei 2 Module entdeckt, bei denen Speicherfehler gemeldet wurden, diese entfernt, die verbleibenden Module dann ohne erneute Tests neu angeordnet/verwendet? Ja genau. Ich hatte dann die zwei verbleibenden Module in Bank 2 und 4 (laut Mainboard jene, die als erstes besetzt werden sollen) getestet mit zwei kompletten Durchläufen Memtest. Ich werde das aber sicherheitshalber noch mal wiederholen. 23 hours ago, DataCollector said: Von welchem zu welchem? Von einem BeQuiet SB9 600W zu einem Seasonic GM-550 550W. 23 hours ago, DataCollector said: Ist irgendwo (pool/docker vdisk/VM vdisk) btrfs im Spiel? Die einzige VM ist aktuell Home Assistant, ich kenne das Dateisystem hier nicht. Bei dem Docker Image, glaube ich, ist es btfs: Das war auch schon zwei mal kaputt und ich musste alle Container neu machen in der Vergangenheit. Da
March 20, 20251 yr Author On 3/16/2025 at 3:16 PM, DataCollector said: Man lernt nie aus 🙂 Und falls Du den Syslog Server auf Speicherung auf Flash umstellst und die Kiste danach mal abstürzt: dann bitte auch das Syslog hier anbieten (keinen Screenshot, sondern die Datei). Hi, es ist heute Nacht zwischen 3- und 4 Uhr wieder passiert. Vermutlich um 3:47, da gab es den letzten Datenpunkt der Sensoren in Home Assistant. Angehängt das log, ich nehme an syslog-previous ist das richtige? syslog-previous.log
March 20, 20251 yr 16 minutes ago, zw3ist3in said: Angehängt das log, ich nehme an syslog-previous ist das richtige? ne komplette diagnostics wäre immer besser, in dem log sieht man nur einen Fehler Mar 17 18:07:04 Speicher smbd[2408037]: [2025/03/17 18:07:04.789282, 0] ../../source3/smbd/dfree.c:132(sys_disk_free) Mar 17 18:07:04 Speicher smbd[2408037]: sys_disk_free: VFS disk_free failed. Error was : Not a directory Mar 17 18:07:04 Speicher smbd[2408037]: [2025/03/17 18:07:04.988431, 0] ../../source3/smbd/dfree.c:132(sys_disk_free) Mar 17 18:07:04 Speicher smbd[2408037]: sys_disk_free: VFS disk_free failed. Error was : Not a directory ... .. . diesen dafür aber sage und schreibe ... Zeile 7 - 594155 ... würde sagen das ist Rekordverdächtig also, zum Absturz sieht man mal nicht wirklich was, aber da passt was nicht bei Dir ... .. .
March 20, 20251 yr Author Diagnostics habe ich gerade noch mal erzeugt, ich sah keine mit aktuellem Datum auf dem Bootstick. 58 minutes ago, alturismo said: Zeile 7 - 594155 ... würde sagen das ist Rekordverdächtig ja, das ist der Fehler, bei dem ich den Ursprung auch nicht verstehe, du sagtest das hätte evtl. mit dem Docker img zutun? 59 minutes ago, alturismo said: aber da passt was nicht bei Dir beziehst du dich auf den Screenshot oder meinst du es passt generell/abseits davon was nicht? speicher-diagnostics-20250320-1150.zip
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.