Jump to content

Server hängt sich auf - Ursachenforschung


Go to solution Solved by trebeis,

Recommended Posts

Mal ein kurzer Statusbericht:

Datenträger sind alle raus und ich habe gestern Abend begonnen, den RAM mit memtest zu prüfen. Memtest ist nach nicht mal einer Minute eingefroren. Also Verdacht auf RAM… einen der beiden Riegel raus und nochmal memtest. Ergebnis nach 5 Stunden fehlerfrei…

Also vorhin den RAM getauscht und den zweiten Riegel einzeln auf dem gleichen Steckplatz mit memtest untersucht. Der erste komplette Test von vier Durchgängen auch fehlerfrei… Also scheint es der RAM allein nicht zu sein… werde wohl noch ein paar memtests in verschiedenen Konfigurationen laufen lassen müssen.

Link to comment
24 minutes ago, Peter0815 said:

Mal ein kurzer Statusbericht:

Datenträger sind alle raus und ich habe gestern Abend begonnen, den RAM mit memtest zu prüfen. Memtest ist nach nicht mal einer Minute eingefroren. Also Verdacht auf RAM… einen der beiden Riegel raus und nochmal memtest. Ergebnis nach 5 Stunden fehlerfrei…

Also vorhin den RAM getauscht und den zweiten Riegel einzeln auf dem gleichen Steckplatz mit memtest untersucht. Der erste komplette Test von vier Durchgängen auch fehlerfrei… Also scheint es der RAM allein nicht zu sein… werde wohl noch ein paar memtests in verschiedenen Konfigurationen laufen lassen müssen.

 

Das klingt dann mal wirklich stark nach einem Problem der beiden Ram Riegel im Zusammenspiel zu sein.

Mainboards versuchen 2 bestückte Speicherslots ggf. als Dualrank zu nutzen, was diese "zusammenschaltet". Schau mal im BIOS/UEFI ob Du das abschalten kannst.

Link to comment

Hatte sie gemäß Anleitung auf Slot 1 und 2 installiert, so dass sie Dual Channel laufen. Das probiere ich nochmal aus, wenn der Test des zweiten Moduls auch fehlerfrei bleibt. Dann gäbe es auch noch Slot 3 und 4 zum Gegentesten. 
 

 

IMG_3135.jpeg

Link to comment
Posted (edited)
8 hours ago, Peter0815 said:

Hatte sie gemäß Anleitung auf Slot 1 und 2 installiert, so dass sie Dual Channel laufen. Das probiere ich nochmal aus, wenn der Test des zweiten Moduls auch fehlerfrei bleibt. Dann gäbe es auch noch Slot 3 und 4 zum Gegentesten. 

 

Wenn die Module früher im DualRank Modus liefen und jetzt nicht mehr haben sich entweder die Module oder das Mainboard über die Zeit verändert.

Sollten Deine Tests keine Klarheit bringen, würde ich überlegen die Module entweder nicht mehr in dem Modus zu betreiben, das Mainboard zu tauschen oder (wenn Du Dualrank Modus unbedingt behalten willst) die Module mit 2 weiteren zu ergänzen (Du hast ja 4 Slots für RAM), aber eben diese betreffenden Module nictz in dei selbe "Rank" einzusetzen.

 

Sollte das Problem in den Modulen begründet sein und das Mainboard unverändert laufen, kann es aber sein, daß die Module sich weiter verändern/verschlechtern und somit zukünftig noch mehr Probleme verursachen.

 

Sollte das Problem das Mainboard sein, ist es auch da möglich, daß Du zukünftig mehr Probleme bekommst.

 

Nebenbei, da der Ram Kontroller heutzutage in der Regel in der CPU sitzt ist auch die als Ursache möglich. Übertaktest Du?

 

Schlechte Nachricht:

Ohne Kreuztests mit fehlerfreien Komponenten wirst Du nie rausbekommen, welche Komponente da Probleme macht.

 

Edited by DataCollector
  • Like 1
Link to comment

Habe vielleicht was gefunden. Hatte gestern den Test in der ursprünglichen RAM-Bestückung laufen lassen. Die Kiste fror wieder ein. Dann habe ich im UEFI die Einstellungen durchgesehen und folgendes gefunden:

IMG_3146.thumb.jpeg.2433a414e278cd8dada9a31de08e6a57.jpeg

Das stand auf Auto und in memtest wurden die Module auf Auto nur mit 2133MHz angezeigt. 
Habe ich jetzt auf Enhanced Stability umgestellt und dann zeigt memtest auch 2667MHz an. Der Test lief durch. 
Kapiere die Einstellung nicht so ganz aber immerhin ein Anfang.

Link to comment
1 hour ago, Peter0815 said:

Das stand auf Auto und in memtest wurden die Module auf Auto nur mit 2133MHz angezeigt. 
Habe ich jetzt auf Enhanced Stability umgestellt und dann zeigt memtest auch 2667MHz an. Der Test lief durch. 
Kapiere die Einstellung nicht so ganz aber immerhin ein Anfang.

 

Im Allerschlimmsten Falle könnte man auch die Spannung der Speichermodule minimal anheben.

Das muß aber sehr vorsichtig geschehen und kann bei zu hoher Spannung zu Schäden führen (auch langzeitige).

Aber das Overvolting ist eine Möglichkeit bei grenzwertigen Situationen dennoch etwas mehr Stabilität zu erreichen.

Aber ob man bei einem NAS, welches eigentlich auf effizienten 24/7 Betrieb ausgerichtet sein sollte   mit Overvolting arbeiten will ist eine strittige Frage und muß jeder selbst entscheiden und die Konsequenzen tragen.

 

 

Link to comment

Also ich habe jetzt seit ein paar Stunden ein Test-System mit einer Trial-Version laufen. Nur ne alte Notebook-HDD und eine NVME drin. Habe ein paar Videos auf die HDD geschoben und die jetzt ne Weile laufen lassen. Bisher alles unauffällig. Ich würde das noch 1-2 Tage beobachten und dann das „alte“ System in der ursprünglichen Konfiguration nochmal aufbauen. Ich möchte nochmal schauen, ob noch Daten drauf sind, die ich noch nicht in einem Backup habe.

Wenn das erledigt ist und das System soweit stabil läuft würde ich es nochmal frisch aufsetzen, wie von @DataCollector vorgeschlagen. (Frisches Unraid auf den gleichen Stick und Lizenz aus dem Stick-Backup draufkopieren).

 

Blöde Frage wahrscheinlich aber:

Wenn ich meine HDDs (1xDaten, 1xparity) mit den Daten drauf wieder einbaue, habe ich es so verstanden, dass Unraid erkennt, dass sie schon passend für Unraid formatiert waren und sie deshalb nicht neu formatiert. Richtig?

Auf den Platten sind die Daten der „alten“ Shares. Lege ich die Shares dann im neuen System einfach gleichnamig an und Unraid ordnet das entsprechend zu? Oder wie ist die richtige Vorgehensweise?

Link to comment
2 hours ago, Peter0815 said:

dass Unraid erkennt, dass sie schon passend für Unraid formatiert waren und sie deshalb nicht neu formatiert. Richtig?

richtig zugewiesen, ja ... sprich, Parity == Parity und disk1 == disk1

 

2 hours ago, Peter0815 said:

Lege ich die Shares dann im neuen System einfach gleichnamig an und Unraid ordnet das entsprechend zu? Oder wie ist die richtige Vorgehensweise?

da die Shares gleichzeitig root Verzeichnisse sind werden diese automatisch angelegt, musst nur nach den Einstellungen schauen ... die werden nicht übernommen.

  • Like 1
  • Thanks 1
Link to comment
  • 3 weeks later...

So - nach längerer Zwangspause scheint der Fehler nun lokalisiert und beseitigt. Es war offenbar tatsächlich die Einstellung für den RAM im BIOS, die auf "Auto" Probleme machte. Auf "Enhanced Stability" gab es keine Probleme mehr. 

Ich habe den Server dennoch wie von @DataCollector empfohlen und beschrieben ein "frisches" Unraid verpasst. Insofern erstmal erledigt. Danke an alle Ratgeber. 👍

  • Like 1
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...