System freezes


Photozone

Recommended Posts

Hallo Leute,

 

also langsam aber sicher verzweifle ich und bin schon fast geneit Unraid aus meinem Umfeld zu entfernen.

Ich habe unkontrolliert Systemaufhänger. Eine ganze Zeit lang alle 5 bis 6 Tage, dann mal wieder 10 Tage gar keinen und dann wieder nach ein paar Stunden.

 

Die Hänger sind nach meinem Empfinden immer im "Leerlauf". Ich kann es egal was ich tue nicht reproduzieren.

 

Auffällig ist jedoch - zumindest für mich, dass nach einem "Bluescreen" Nextcloud nicht mehr funktioniert, bzw. nicht darauf zugegriffen werden kann. Erst nach nochmaligem Server Neustart läuft das wieder anstandslos.

 

Vll. möchte sich ja jemand der sich gut mit Logs etc. auskennt mal meine Diagnosedaten durchsehen und Tipps geben?

 

Den RAM schließe ich definitiv aus, der wurde jetzt mehrmals über Tage getestet - Fehlerfrei.

 

Auch der USB Stick wurde auf Verdacht erneuert auf einen so denke ich sehr guten.

 

Ich würde mich sehr über Tipps freuen!

 

Grüße

 

Mike

gollum-diagnostics-20211007-1955.zip

Link to comment
14 hours ago, Photozone said:

Ich kann es egal was ich tue nicht reproduzieren.

 

Das syslog gibt nichts her. Lediglich eine Meldung erfordert Deinen Eingriff - aber das hat sicherlich nichts mit den "Hängern" zu tun:

 

Quote

Oct  7 16:37:00 Gollum root: Fix Common Problems: Warning: Share appdata set to cache-only, but files / folders exist on the array

 

Diese Dateien solltest Du zusammenführen.

 

Des weiteren gibt es SMART Errors z.B. "Reallocated_Sector_Ct=10" und "UDMA_CRC_Error_Count" auf Deinen Devices. Letzteres weist auf ein Verkabelungsproblem hin.

 

Bei der Verwendung des root_shares in der smb_extra muss ich passen. Ob es dadurch Probleme geben könnte weiß ich nicht.

 

Das Docker Image liegt auf Unassigned Devices während appdata auf dem Cache liegt. Ist das so gewollt?

 

Cache ist ein Single Device BTRFS Pool. Hier bin ich persönlich "biased". Bei einem Single Device Pool würde ich immer XFS wählen. Das ist aber meine persönliche Einstellung im Gegensatz zu vielen anderen hier.

 

Der Begriff "Hänger" impliziert, dass etwas nur hängt aber nicht abstürzt. Bitte genauer spezifizieren.

 

  • Like 1
Link to comment

WAs hast du denn für Erweiterung installiert?

Bei mir hat sich der Rechner immer nach ein paar Tagen in ein Freeze verabschiedet, als ich noch das myservers installiert hatte.

Seit ich das deinstalliert habe ist alles wieder ok. Kein Hänger mehr.  Alles wieder ok. Davor auch immer nach 1 bis 3 Tagen fing er an eine CPU zu nutzen, dann 2, dann war nichts mehr zu machen.

 

Link to comment

Hallo ihr 3 :)

 

Vielen Dank für eure Rückmeldungen!

 

Freeze ist vll. der Falsche Ausdruck. Unraid verabschiedet sich komplett. Da ich ein Supermicro Board nutze, konnte ich über KVM nachsehen, ich glaube es war irgendwas mit Initpass failed... Ich dachte eigentlich, ich hätte davon einen Screenshot gemacht, finde ihn jedoch nicht mehr. Jedoch bemerkt auch der Wächter von Supermicro, dass das System abgeschmiert ist und ich kann nur noch richtig RESET betätigen.

 

Die Supermicro Meldung hänge ich jedenfalls mal an.

 

Die CRC Error Counts sind wie du richtig sagst von einer damals defekten HBA Karte / und - oder Kabel, habe alles getauscht, weil 6 von 6 Festplatten auf einmal nicht mehr aufhörten zu counten.

 

Der "Reallocated_Sector_Ct=10" befindet sich auf einer Intel SSD, die derzeit zwar im System ist, jedoch nicht in Benutzung.

 

Das mit den Dockern dachte ich, dass dadurch der Zugriff schneller ist, somit - ja es war gewollt, ob es richtig ist, kann ich nicht beurteilen und würde es gff auch ändern, wenn es keinen Sinn macht.

 

Dann noch die tolle Sache mit dem Appdata Ordner... Ja ich weiß, dass es zusammen gehören würde, aber egal was ich mache, der Mover läuft, hat beendet und die Appdata Dateien sind immer noch auf der Cache und dem Array verteilt?! Zur Erklärung: Appdata auf Cache: Ja, Mover starten und nach Beendigung Cache: only - oder mache ich das falsch?

 

Cache Pool mit einem Datenträger, da habe ich tatsächlich momentan ein kleines Problem... *Kopfschüttel* 

Ich habe aufgrund der Abstürze ein Bios Update durchgeführt. Seither bekomme ich die beiden SSD nicht zu gemeinsam zu laufen. Ich habe eine Erweiterungskarte für 2 NVME in einem Slot verbaut (original Supermicro), jedoch macht sich das Mistding die Lanes nicht automatisch aus. Ich kann zwar manche Slots manuell einstellen wie sie belegt werden sollen, jedoch sind die nicht fähig die Slotbezeichnung auch im Bios so anzuordnen, dass man auch weiß, welchen Slot man verstellt. Nachdem ich dann erstmal keine Grafikkarte und keine HBA Karte mehr hatte - weil im Bios die Lanes verstellt, verging mir erstmal die Lust am Spaß und ich wollte sehen ob die Abstürze wenigstens dank Bios update weg sind bevor ich mich weiter ärgere. Nun, jetzt weiß ich, sie sind nicht weg.

 

Der Tipp mit  dem Server PlugIn ist gut! Ja ich habe es installiert und habe tatsächlich unbekannte CPU Nutzung - bis zu 60, 70% im Leerlauf. Ich werde es auf Verdacht auch mal deinstallieren. Vielen Dank auf jeden Fall für den Hinweis!!!!

 

Ich berichte auf jeden Fall weiter! Wenn ihr auch noch Tipps habt zu den anderen Dingen, ich bin gerne für Anregungen offen :) !

 

Beste Grüße

 

Mike

Screenshot 2021-10-08 172814.png

Link to comment
1 hour ago, Photozone said:

Dann noch die tolle Sache mit dem Appdata Ordner... Ja ich weiß, dass es zusammen gehören würde, aber egal was ich mache, der Mover läuft, hat beendet und die Appdata Dateien sind immer noch auf der Cache und dem Array verteilt?! Zur Erklärung: Appdata auf Cache: Ja, Mover starten und nach Beendigung Cache: only - oder mache ich das falsch?

Das ist der Grund warum die Daten doppelt sind. Yes heißt, dass er die Daten aufs Array verschieben soll und Only heißt, dass er nicht mehr auf das Array schauen darf. Und da bereits auf das Array verschoben wurde, werden alle Docker auf dem Cache neu installiert.

 

Fazit: Alle deine Container sind bereits korrupt bzw wenn du jetzt mit Only klar kommst, solltest du mit "rm -r /mnt/diskX/appdata/*" alle Daten auf allen betroffenen Array Disks entfernen.

 

Und natürlich niemals einfach die Cache Einstellung im laufenden Betrieb ändern. Und schon gar nicht in eine Einstellung, die deine Container zerschießt.

 

Aus dem Grund sage ich es immer wieder: Only und No ist nichts für Anfänger. Mit Yes und Prefer, also den Standard-Einstellungen von Unraid, passiert sowas nicht.

Link to comment

Hi mgutt,

 

vielen Dank für den Hinweis!

 

Ich habe das in einer Anleitung im Netz gefunden, deshalb hatte ich es so eingestellt. Da ich wie du bemerkt hast tatsächlich Anfänger bin - mit jeglichem Linux, bin ich um jeden Tipp dankbar!

 

Der Befehl wurde ausgeführt. Angenommen ich würde jetzt so wie vorgeschlagen auf Prefer umstellen, wäre das dann erfolgreich oder eine Verschlimmbesserung?

 

Gruß Mike

Link to comment
7 minutes ago, Photozone said:

Der Befehl wurde ausgeführt

Hast du das X entsprechend angepasst? Weil sonst ist erstmal nichts passiert ;)

 

8 minutes ago, Photozone said:

Angenommen ich würde jetzt so wie vorgeschlagen auf Prefer umstellen, wäre das dann erfolgreich oder eine Verschlimmbesserung?

Wenn appdata nicht mehr auf dem Array vorhanden ist, kannst du problemlos auf Prefer umstellen. Solange aber noch auf beiden Dateien liegen, darf nichts verändert werden. Sonst wird es wieder korrupt.

Link to comment

Ich nutze mal den Thread.

Gibt es eigentlich eine Möglichkeit festzustellen ob Unraid abgeschmiert/gefreezed ist?

Mein Server ist diese Nacht hängen geblieben, muss noch nicht mal an Unraid gelegen haben, da selbst das IPMI nicht mehr ging. Aber ich würde gerne eine kurze Info darüber bekommen.

Hat da jemand eine Lösung? Über die Steckdose ging es in diesem Fall nicht, da a) Home Assistant auf dem Unraid läuft und somit selbst abgeschmiert ist und b) nicht weniger Strom verbraucht wurde.

Link to comment
1 hour ago, i-B4se said:

Gibt es eigentlich eine Möglichkeit festzustellen ob Unraid abgeschmiert/gefreezed ist?

Du könntest dir einen Pi/externen Server/Gerät aufsetzen der deinen Server anpingt und wenn das x man fehl schlägt dir eine Mail/Pushover/... schickt, würd natürlich auch noch andere Möglichkeiten geben je nach Aufwand den du betreiben willst und ob du Geld dafür ausgeben willst.

  • Like 1
Link to comment
On 10/8/2021 at 8:48 PM, mgutt said:

Hast du das X entsprechend angepasst? Weil sonst ist erstmal nichts passiert ;)

 

Wenn appdata nicht mehr auf dem Array vorhanden ist, kannst du problemlos auf Prefer umstellen. Solange aber noch auf beiden Dateien liegen, darf nichts verändert werden. Sonst wird es wieder korrupt.

Hi, 

 

ja habe X angepasst auf die Laufwerke.

Zuerst die große Freude, nach und nach wurden jedoch sämtliche Docker unbrauchbar... nun in diesem Augenblick habe ich die Möglichkeit gleich genutzt um die Ordnereinstellungen von der AppDataDisk auf Array zu übertragen und habe dann die Docker mit den gespeicherten Einstellungen erneut installiert.

Der einzige Docker der sich ein wenig streubte war Nextcloud, aber die paar Nutzer lege ich halt neu an und übertrage die Dateien manuell in die Ordner...

 

Dann stelle ich jetzt auf Prefer um :) 

 

Vielen herzlichen Dank!!!

Link to comment

Zur allgemeinen Info:

 

Ich habe wie von megabait vorgeschlagen mal das MyServers Plugin deinstalliert. Seither ist die CPU last im Leerlauf tatsächlich ständig bei annähernd Null, im Betrieb auch spürbar weniger genutzt.

 

Abstürze hatte ich derweil (2 Tage ... juhuuuuuu) nicht mehr, werde aber auf jeden Fall weiter berichten.

 

Grüße Mike

Edited by Photozone
Link to comment
9 hours ago, mgutt said:

Hast du eine öffentliche Website? Dann mit irgendeiner kostenlosen Uptime Monitoring Website.

Ne sowas habe ich nicht. Es waren ja einige Dienste (z.B. Home Assistant) nicht erreichbar und so konnte habe ich es festgestellt. 

ich fände es nett zu wissen, ab wann der Server nicht mehr erreichbar war z.B. über eine Mail.

Aber wie schon gesagt, es war das erste mal - hatte eine Uptime von 75 Tagen - und ich weiß nicht mal ob es an Unraid gelegen hat, da das PMI nicht erreichbar war.

Link to comment
48 minutes ago, i-B4se said:

ich fände es nett zu wissen, ab wann der Server nicht mehr erreichbar war z.B. über eine Mail.

Gibt es evtl eine Uptime Monitor App für's Smartphone, also dass das Smartphone überwacht und keine Website? Setzt aber voraus, dass dein Smartphone 24/7 per VPN verbunden ist bzw der Check ginge natürlich nur lokal.

 

 

Link to comment
8 hours ago, ich777 said:

Pingtools Pro auf Android kann das.

Gerade mal ausprobiert. Man kann sogar einstellen, dass der nur überwachen soll, wenn man mit einem bestimmten WLAN verbunden ist. Leider geht nur eine lokale Benachrichtigung auf dem Gerät. Sonst könnte man ja zb das Tablet, was eh zu Hause rumliegt nutzen und sich darüber eine Nachricht senden lassen. Am besten mal den Entwicklern vorschlagen, dass die auch noch E-Mail als Aktion hinzufügen.

Link to comment
Gerade mal ausprobiert. Man kann sogar einstellen, dass der nur überwachen soll, wenn man mit einem bestimmten WLAN verbunden ist. Leider geht nur eine lokale Benachrichtigung auf dem Gerät. Sonst könnte man ja zb das Tablet, was eh zu Hause rumliegt nutzen und sich darüber eine Nachricht senden lassen. Am besten mal den Entwicklern vorschlagen, dass die auch noch E-Mail als Aktion hinzufügen.
Wäre dann evtl. In verbindung mit IFTTT möglich, kann das nicht auf Benachrichtigungen horchen und dann eine Mail senden?

Also ist jetzt echt nur ein Workaround...

Sent from my C64

Link to comment

So, nun die Rückmeldung

 

heute um 7:10 in der Früh ist Unraid wieder abgeschmiert.

 

Fehlermeldung habe ich keine, da warum auch immer nur ein black screen sichtbar ist. 

 

Ich lasse jetzt die Logs auf die Flasch speichern und gebe sie dann beim nächsten Absturz online.

 

Gruß Mike

Link to comment

Ich habe das gleiche Problem. W480m Vision W mit i3-10100 und 16GB RAM. 6 HDD + Cache NVME.

Auch Sporadische Hänger/Einfrieren. Ich hab dann das Log auf Stick aktiviert. Aber im Log steht nichts zur Fehlerursache. Das bedeutet der Rechner friert einfach ein ohne noch irgendwas auf den Stick zu schreiben. Habe auch mal alle Docker Container deaktiviert. Trotzdem weiter sporadisches einfrieren.

 

Was mir noch auffiel ist, dass mitunter wenn ich das einfrieren sofort bemerke und sofort den Server restarte die Cache NVME nicht erkannt wird. Ich muss das System dann 15 Minuten auslassen. Wenn ich ASPM DMI und PCH deaktiviert hatte gab es auch keine Probleme. (Was etwas in die Richtung von Martins pcie_aspm=off geht und auf eine unsaubere Implementierung in der Firmware der NVME schliessen lässt)

 

Über meine Leistungsüberwachung (Logfile) sehe ich sogar wann der Rechner einfriert. Die Leistungsaufnahme geht von 16W (Leerlauf, HDD im Spindown) auf (Ich glaube) 44W hoch und bleibt auf dem Wert ohne jeden Wackler in der Leistungsaufnahme.

 

Ich habe vermutet das es wie gesagt evtl. an der Cache NVME liegt (Crucial P5 1TB). Diese habe ich vor 4 Tagen durch eine Samsung 970 EVO ersetzt. Seitdem ist jetzt erstmal Ruhe und ich beobachte weiter (kann auch sein es knallt in 4 Tagen wieder...). Ob das Problem mit der Cache NVME und das einfrieren zusammen hängen kann ich aber noch nicht eindeutig sagen. 

 

Aber @Photozone

Versuche mal die ASPM Optionen im Bios zu deaktivieren und zu schauen ob Du immer noch freezes hast.

 

 

Gruss,

Joerg

 

Edited by MPC561
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.