Jump to content

Server hängt sich auf - Ursachenforschung


Go to solution Solved by trebeis,

Recommended Posts

Hi,

 

mein Server hängt sich sporadisch auf. Vor ein paar Wochen gab es mal einen "Schwung" Abstürze, woraufhin ich das Log auf den USB-Stick schreiben ließ und einige nicht wichtige Docker deaktiviert hatte. Nachdem aber ca. 3 Wochen sauber lief, hatte ich das Log nicht mehr auf den USB-Stick schreiben lassen - bis heute... Absturz gegen 17:00 Uhr, danach in kurzen Abständen zwei weitere. Das Log habe ich jetzt ein mal mit auf dem Stick erwischt - das konnte ich zwischendurch umstellen. 

Ich wollte hier gerade die Diagnostics posten, da habe ich das Thema mit den CallTraces ipvlan / macvlan gesehen. Das habe ich jetzt nach der Anleitung auf macvlan umgestellt und zumindest mein UnifiController als Docker läuft auch.

Die Diagnostics habe ich danach neu erstellt. 

 

Sieht jemand weitere mögliche Fehler? Danke vorab.

fuss-diagnostics-20240627-2040.zip

Link to comment
5 minutes ago, Peter0815 said:

da habe ich das Thema mit den CallTraces ipvlan / macvlan gesehen. Das habe ich jetzt nach der Anleitung auf macvlan umgestellt und zumindest mein UnifiController als Docker läuft auch.

dann wird es das wohl gewesen sein ;)

 

aber du hast einies in der syslinux ergänzt, warum pcie ovverride und co aktiv, was hat es mit der nvme line am Hut, .. ?

 

wird seine Gründe haben, die logs in den diags sagen nichts aus da diese frisch sind ... ;)

Link to comment

solange der ganze Kram aktiv ist ohne das du weißt warum ...  und wenn ich das sehe ... bin ich raus ;)

oder ist das alles ernsthaft in use ... oder auch eher nur "mal alles geklickt was geht ;)

 

Jun 27 20:05:42 Fuss root: Installing /boot/extra packages
Jun 27 20:05:42 Fuss root: Installing: axel-2.17.11-x86_64-3_SBo_nerdtools: Download Accelerator .. [ 200K]
Jun 27 20:05:43 Fuss root: Installing: ddrescue-1.27-x86_64-1_nerdtools: automatic data recovery to [ 290K]
Jun 27 20:05:43 Fuss root: Installing: fdupes-1.6.1-x86_64-1_SBo_UES_nerdtools: program for identif [  70K]
Jun 27 20:05:43 Fuss root: Installing: irssi-1.4.4-x86_64-1_nerdtools: Internet Relay Chat client . [ 2.5M]
Jun 27 20:05:43 Fuss root: Installing: fzf-0.46.1-x86_64-1_SBo_UES_nerdtools: A command-line fuzzy  [ 3.8M]
Jun 27 20:05:43 Fuss root: Installing: jdupes-1.27.3-x86_64-1_SBo_UES_nerdtools: identifying and ta [ 160K]
Jun 27 20:05:43 Fuss root: Installing: iftop-1.0pre4-x86_64-4_nerdtools: Display bandwidth usage on [ 110K]
Jun 27 20:05:44 Fuss root: Installing: iotop-0.6-x86_64-2_SBo_nerdtools: top-like I/O monitor ..... [ 170K]
Jun 27 20:05:44 Fuss root: Installing: libmediainfo-24.01-x86_64-1_SBo_UES_nerdtools: library for m [  10M]
Jun 27 20:05:44 Fuss root: Installing: powertop-2.15-x86_64-1_nerdtools: tool for analyzing system  [ 630K]
Jun 27 20:05:45 Fuss root: Installing: lftp-4.9.2-x86_64-3_nerdtools: command line file transfer pr [ 4.1M]
Jun 27 20:05:45 Fuss root: Installing: libzen-0.4.41-x86_64-1_SBo_UES_nerdtools: mandatory library  [ 5.0M]
Jun 27 20:05:45 Fuss root: Installing: libsodium-1.0.18-x86_64-3_nerdtools: Sodium crypto library . [ 620K]
Jun 27 20:05:48 Fuss root: Installing: python3-3.9.18-x86_64-1_slack15.0_nerdtools: object-oriented [ 136M]
Jun 27 20:05:49 Fuss root: Installing: llfuse-1.4.2-x86_64-1_SBo_nerdtools: The Python LLFUSE Modul [ 790K]
Jun 27 20:05:49 Fuss root: Installing: msgpack-python-1.0.5-x86_64-1_SBo_UES_nerdtools: MessagePack [ 380K]
Jun 27 20:05:49 Fuss root: Installing: mktorrent-1.1-x86_64-1_nerdtools: Console .torrent file crea [  50K]
Jun 27 20:05:49 Fuss root: Installing: ncdu-1.17-x86_64-1gds_nerdtools: NCurses Disk Usage A consol [ 120K]
Jun 27 20:05:49 Fuss root: Installing: neofetch-20211210-noarch-1_nerdtools: system information too [ 400K]
Jun 27 20:05:49 Fuss root: Installing: nload-0.7.4-x86_64-1_slack_nerdtools: network traffic monito [ 190K]
Jun 27 20:05:50 Fuss root: Installing: p7zip-17.04-x86_64-1_SBo_nerdtools: File Compression/Decompr [  12M]
Jun 27 20:05:50 Fuss root: Installing: rar-6.24-x86_64-1_SBo_UES_nerdtools: processes RAR files ... [1000K]
Jun 27 20:05:52 Fuss root: Installing: python2-2.7.18-x86_64-4_nerdtools: object-oriented interpret [  81M]
Jun 27 20:05:52 Fuss root: Installing: tmux-3.3a-x86_64-1_nerdtools: terminal multiplexer ......... [ 960K]
Jun 27 20:05:53 Fuss root: Installing: utf8proc-2.7.0-x86_64-1_nerdtools: Unicode processing librar [ 410K]
Jun 27 20:05:53 Fuss root: Installing: python-pip-21.3.1-x86_64-2_nerdtools: tool for installing Py [ 9.5M]
Jun 27 20:05:53 Fuss root: Installing: screen-4.9.1-x86_64-1_nerdtools: screen manager with VT100/A [ 970K]
Jun 27 20:05:53 Fuss root: Installing: rsnapshot-1.4.4-x86_64-1_SBo_nerdtools: filesystem snapshot  [ 480K]
Jun 27 20:05:55 Fuss root: Installing: vim-9.0.2127-x86_64-1_slack15.0_nerdtools: Vi IMproved ..... [  42M]
Jun 27 20:05:55 Fuss root: Installing: python-packaging-21.3-x86_64-1_nerdtools: Core utilities for [ 260K]
Jun 27 20:05:56 Fuss root: Installing: zsh-5.9-x86_64-1_nerdtools: the Z shell .................... [  13M]
Jun 27 20:05:56 Fuss root: Installing: borgbackup-1.2.7-x86_64-1_SBo_UES_nerdtools: deduplicating b [ 4.7M]
Jun 27 20:05:57 Fuss root: Installing: exiftool-12.76-noarch-1_SBo_UES_nerdtools: read, write, and  [  24M]
Jun 27 20:05:57 Fuss root: Installing: libjodycode-3.1-x86_64-1_SBo_UES_nerdtools: library for tool [ 200K]
Jun 27 20:05:57 Fuss root: Installing: mediainfo-24.01-x86_64-1_SBo_UES_nerdtools: supplies informa [ 260K]
Jun 27 20:05:57 Fuss root: Installing: unrar-6.2.12-x86_64-1_SBo_UES_nerdtools: Extract, test and v [ 1.6M]
Jun 27 20:05:58 Fuss root: Installing: python-setuptools-65.1.1-x86_64-1_nerdtools: a collection of [ 6.0M]
Jun 27 20:05:58 Fuss root: Installing plugins

 

sorry, aber bei so vielen packages als Zusatz ... macht debugging oder Hilfe mir zumindest keine Lust, vielleicht hat jemand anderes einen Tipp

 

Thema HA VM, ich nutze die Docker Version, daher kann ich dazu nichts sagen.

Link to comment

Ich muss zugeben, dass ich nicht allzu tief in der Materie stecke. Das Setup entstand im wesentlichen nach den Anleitungen von The GeekFreaks und SpaceInvaderOne. Da kommt man als mittelmäßig IT-gebildeter nicht umhin, den ein oder anderen Klick zu machen, den man nicht vollends versteht.

Die Packages kamen wenn ich mich recht erinnere mit der Vorbelegung vom Nerdtools-Paket. Welche braucht es? Dann deaktiviere ich den Rest.

 

Link to comment
41 minutes ago, Peter0815 said:

mache mir bei all den resets sorgen um die HDDs, die ja gerade immer wieder im parity check am laufen sind... 

 

Welche Sorgen sind es denn? Festplatten sind dafür da Spindel zu drehen, Köpfe zu bewegen. Daten zu schreiben und lesen.

Meinst Du der angedachte Anwendungszweck einer Festplatte sollte einem Sorgen bereiten?

 

Persönliche meinung:

Ein Paritycheck ist ja sogar schonender für Festplatten als der normale Betrieb, weil hier ja nicht einmal Dateien oder so gelesen werden, sondern einfach nur sequentiell ein Sektor nach dem anderen.

Während des Paritycheck entstehen:

 - keine unnötige Kopfbewegung,

 - kein häufiges spindown/-up,

 - einfach nur lineares Lesen (und bei der Parity ggf. vereinzeltes schreiben/korrigieren) der Sektoren.

Schonender ist nur noch idle spinup. idle spindopwn und ausgeschaltet ins Regal legen.

 

Sollte man die Festplatten hingegen falsch betreiben und diese durch zu schlechte Kühlung überhitzen, hat man etwas falsch gemacht, aber das kann man weder einem Paritycheck, noch dem normalen Betrieb einer Festplatte anlasten.

 

Nebenbei: man kann einen Paritycheck auch abbrechen, wenn man den nicht will.

Man sollte sowieso ein (oder gar mehrere) Backup seiner Daten haben, falls sich durch abgebrochenen Paritycheck Bitfehler nicht so schnell finden lassen.

Link to comment

Ich meinte nicht, dass der Paritycheck an sich schlecht wäre, sondern das durch die Abstürze erforderliche harte Abschalten der noch laufenden HDDs. Aber vielleicht mache ich mir auch zu viele Gedanken.

In meiner Ratlosigkeit habe ich jetzt provisorisch auf einem alten ThinClient Proxmox und HomeAssistant installiert und aus einem Backup mein HomeAssistant wiederhergestellt. Auf Dauer möchte ich das so nicht laufen lassen - war aber jetzt der schnellste Workaround. Warum mein Unraid abstürzt, habe ich damit aber noch nicht herausgefunden. Werde also weiter testen müssen - bzw. bin nach wie vor dankbar für Lösungsansätze.

Link to comment
5 minutes ago, Peter0815 said:

heute morgen wieder eingefroren - obwohl keine Docker und keine VM lief...

 

ACS noch aktiviert, nvme Eintrag noch drin, ... plugins immer noch drin.

 

mach en bug report auf im englischsprachigen Teil, Info, das erste was kommen wird, schmeiß das Nerd inkl. runter und stell ACS auch auf default.

Link to comment
5 hours ago, Peter0815 said:

und wieder abgestürzt.

Jetzt bekomme ich für beide HDDs noch dazu einen UDMA CRC eerror count = 1 dazu

 

Nur mal so:

Anstatt bei einem defekten System Dich bei jedem Absturz zu ärgern: vielleicht fängst Du einfach mal mit einem sauberen unraid an.

 

Daten des Stick sichern und komplatt neu machen.

Kein unnötiges Zeug installieren, so wenige Plugins wie möglich etc...

 

Und dann eben testen ob es läuft.

Wenn ja: kannst Du Dich in langsamen Steps immer näher an Deine Ist Installation rantasten.

Wenn nein: dann ist vielleicht doch kein reines Softwareproblem.

 

Das ist bestimmt weniger frustrierend, als den umgekehrten Weg zu gehen.

Link to comment

Hi, 

nach allem was ich so in den letzten Tagen ausprobiert habe, fürchte ich irgendwie, es läuft auf ein Hardeware-Problem hinaus. So oder so steht der Server erstmal und ich grüble, wie ich mich dem nähere. Ich würde damit beginnen, das Unraid neu aufzusetzen.
Nachdem mein HomeAssistant auf einen kleinen Backup-Server umgezogen ist, gibt es auch keine Notwendigkeit, das übers Knie zu brechen. Ich würde mit nur einer Cache-Disk starten und dann sukzessive erweitern, um ggf. vorhandene Hardware-Fehler irgendwie lokalisieren zu können. Daher vorweg einige Fragen zum Vorgehen.

 

@DataCollector Stick-Backup habe ich mir gerade heruntergeladen. Wenn ich dich richtig verstehe, ziehe ich das Backup auf den Stick und starte wieder? Dann habe ich doch auch mögliche Konfigurationsfehler mit wiederhergestellt? Verstehe gerade nicht, wie du „komplett neu machen“ in Verbindung mit dem Stick-Backup meinst.
 

Nächster Punkt der mich umtreibt: ich kann den Server quasi als Minimallösung erstmal ohne Docker und VMs neu aufsetzen. Auch alle Daten abseits des Array sind nicht wichtig. Nur das Array (1x18TB disk1 und 1x18TB parity1) wäre wichtig. Kann ich das nach dem neu aufsetzen wieder unverändert in Betrieb nehmen oder müssten die HDDs im neu aufgesetzten Server neu formatiert werden?

 

Danke vorab für die Unterstützung.

Link to comment
5 hours ago, Peter0815 said:

Stick-Backup habe ich mir gerade heruntergeladen.

 

Das ist sowieso ab und zu zu empfehlen.

 

5 hours ago, Peter0815 said:

Wenn ich dich richtig verstehe, ziehe ich das Backup auf den Stick und starte wieder?

 

Wenn Du genau die selben Probleme willst (falls sie in der Software begründet sind): ja

 

5 hours ago, Peter0815 said:

Dann habe ich doch auch mögliche Konfigurationsfehler mit wiederhergestellt? Verstehe gerade nicht, wie du „komplett neu machen“ in Verbindung mit dem Stick-Backup meinst.

 

Sichere Deine Lizenzdatei (im config Verzeichnis),

Lösche Den USB Stick & schreibe eine komplett neue/saubere USB Installation drauf (USB Creator).

Kopiere die gesicherte Lizenzdatei wieder ins config Verzeichnis.

Starte mit dem USB Stick eine saubere und frische unraid Version.

 

5 hours ago, Peter0815 said:

Nur das Array (1x18TB disk1 und 1x18TB parity1) wäre wichtig. Kann ich das nach dem neu aufsetzen wieder unverändert in Betrieb nehmen oder müssten die HDDs im neu aufgesetzten Server neu formatiert werden?

 

Unraid kann die vorhandeen Disks einbinden und die Daten bleiben erhalten.

Wenn Du aber sofort wieder identisch aufsetzt hast Du kaum etwas gewonnen.

Fang minimal an und taste Dich hoch.

 

Edited by DataCollector
Typos
  • Thanks 1
Link to comment

Danke. Das heißt ich verwende den gleichen USB-Stick, richtig? Wäre es nicht konsequent einen neuen zu verwenden, um den Stick gleich als eventuelle Fehlerquelle auszuschließen? Wenn ja, wie war das dann mit der Lizenz? 🙈

Link to comment
9 minutes ago, Peter0815 said:

Wäre es nicht konsequent einen neuen zu verwenden, um den Stick gleich als eventuelle Fehlerquelle auszuschließen? Wenn ja, wie war das dann mit der Lizenz? 🙈

ja, wäre es wenn etwas darauf deutet (was ich aktuell nicht erkennen kann, aber wer weiß ...)

 

die Lizenz Datei auf den neuen Stick, booten, login, Achtung !!! Lizenz wird jetzt auf den neuen Stick übertragen (musst du bestätigen), sprich, der "alte" Stick ist dann nicht mehr für Unraid zu gebrauchen (blacklisted), nur als Info ...

 

oder, den vorhandenen Stick neu erstellen, Lizenz Datei drauf, booten, disks zuweisen, array starten, das wäre eine "saubere" frische Installation, Daten bleiben erhalten, plugins, scripts, ... nicht.

 

Lizenz Datei gehört in den /config Ordner auf dem Stick

  • Thanks 1
Link to comment
4 hours ago, Peter0815 said:

Danke. Das heißt ich verwende den gleichen USB-Stick, richtig?

 

Da die Lizenz an den USB Stick gebunden ist: ja.

Du kannst auch einen anderen Stick nehmen und dort eine Testlizenz drauf benutzen, aber die ist ja laufzeitbeschränkt.

 

4 hours ago, Peter0815 said:

Wäre es nicht konsequent einen neuen zu verwenden, um den Stick gleich als eventuelle Fehlerquelle auszuschließen?

Hast Du in irgendeiner Weise ein Problem mit dem USB Stick gehabt?

Du kannst natürlich auch einen anderen Stick nehmen und die Lizenz transferieren lassen, aber das wäre mir zu viel Aufwand.

 

Link to comment
1 hour ago, DataCollector said:

Hast Du in irgendeiner Weise ein Problem mit dem USB Stick gehabt?

Puh, kann ich nicht mit Gewissheit sagen. Einen Absturz hatte ich, während ein Backup des Stick heruntergeladen wurde. Kann aber natürlich andere Ursachen gehabt haben. 

Link to comment
  • Solution

Moin, ich würde gern einen zusätzlichen Ansatz einbringen. In Richtung Hardware, allen vorran die Bioseinstellungen. Ist das Bios aktuell? irgendwelche "Hacks" wie undervolting, extreme Strommasnahmen? Passen die Ramriegel zueinander, werden diese sauber erkannt? (ggf MemTest). Auch so profane Dinge, wie laufen die Lüfter alle. Eventuell Bios auf Grundeinstellungen zurück setzen und / oder mit einem Livesystem und abgeklemmten Festplatten die Hardware quälen. Die schon erwähnten SATA Kabel tauschen. Zusätzliche Hardware, SATA -, USB - Controller, GraKa ausbauen und soweit möglich ohne diese Unraid starten. Auch das Netzteil ist einen Blick wert, stimmen die Voltangaben im Bios, fester Sitz der Versorgungskabel, y-Kabel?

 

gruss Trebeis

  • Thanks 1
Link to comment

Danke für die Hinweise. BIOS müsste soweit aktuell sein. Hatte den Server auf Basis eines Terra/Wortmann-Systems gebaut und die haben ein angepasstes BIOS drauf. Der lokale Händler hat mir die aktuelle Version zugesendet. 
Ich habe keine „Strommaßnahmen“ vorgenommen, lediglich die Optionen zum Energiesparen aktiviert. Das alles aber nur initial- da ist in den letzten Monaten nichts mehr verändert worden. Lüfter würde ich auch ausschließen - die drehen alle und kritische Temperaturen habe ich nicht beobachtet.

Geplant ist jetzt, mit einem Live-Linux noch Kopien der essenziellen Daten von der Array-Disk zu holen. Das Backup, dass ich habe iat noch von vor dem Umzug der Daten vom alten NAS auf den Server. Es dürfte keine gravierenden Unterschiede geben, aber das mache ich trotzdem noch. 
Dann kommen erstmal alle Datenträger raus und ich starte wahrscheinlich mit einer 1TB NVME aus meinem PC (Gigabyte Aorus irgendwas) als Cache Disk, weil meine bisherige Samsung 980 NVME ja diesen Bug mit falschen Temperaturanzeigen hat.

Zusätzliche Controller gibt es fast nicht. Kein Externer Sata-Controller, Onboard-Grafik - da gibt es nicht viel zu deaktivieren. Kabel und Stromversorgung schaue ich mir nochmal an.

 

Wenn bis dahin dann nichts rauskommt und alles läuft würde ich Array und Parity wieder einbauen. Das ganze dauert leider ein wenig, weil ich aktuell nicht so dazu komme, wie ich gern würde.

 

Meine 24/7-Anwendungen Home Assistant und Unifi laufen jetzt wie gesagt erstmal auf nem ThinClient-Proxmox-Server. Und nur für Storage ist der andere Server eigentlich überdimensioniert. Na mal schauen. Ich berichte, wenn ich weiter bin. 
 

Danke für die Tipps

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...