Unraidserver crashed regelmäßig


azural

Recommended Posts

Hi zusammen,

 

ich hab mir im Oktober/November folgendes System gekauft:

 

Intel® Core™ i3-9100 CPU

ASRock B365M Pro4

Corsair DIMM 16GB DDR4-2666 Kit, Arbeitsspeicher (dieser läuft mit 2133 Mhz)

Mellanox ConnectX3 10G Karte benutze für die Verbindung zu einem ESXI-Host Jumbo-Frames. 

verschiedenste Platten 

Corsair RM550x 80Plus Netzeil.

 

Davor lief mein Unraid auf einem NUC, das auch ohne vergleichbare Probleme.

 

Mein System crashed in unregelmäßigen Abständen, d.h. mal läuft es 10 Tage, mal nur einen. 

Ich habe Syslog schon angeschalten aber im Syslog findet sich nichts auffälliges.

Das System läuft dann vermutlich im gecrashten Zustand weiter, ohne funktionierende NICs, sowie Bildschirm bleibt schwarz, solange bis ich denn Reset erledige. 

 

Wisst ihr weitere Troubleshootingmöglichkeiten?

Liegt es ggfs. daran dass der mit P/C-States nicht klarkommt und ich die ganz ausschalten sollte?

Könnte es am RAM liegen dass ich diesen nur mit 2133Mhz laufen lasse? 

 

VG
Azural

 

Link to comment
51 minutes ago, azural said:

Ich habe Syslog schon angeschalten aber im Syslog findet sich nichts auffälliges

 

51 minutes ago, azural said:

Könnte es am RAM liegen

Wenn im syslog nichts auffälliges steht, würde ich als erstes auf den RAM tippen. Das hat aber nichts mit der Geschwindigkeit zu tun, sondern ich würde allgemein einen defekt vermuten.

Wurde der RAM übernommen? Mal testweise nur mit einem Riegel ausprobiert und Memtest schonmal laufen lassen?

 

Aber unabhängig davon, warum lässt du den RAM nur mit 2133MHz laufen?

Edited by jj1987
Link to comment

Benutzt du Container im br0 Netzwerk? Auch VMs? Welche unRAID Version? Wäre es eine Option den Docker Dienst ein paar Tage abgeschaltet zu lassen?

 

ASPM deaktivieren wäre neben der Deaktivierung der C-States natürlich auch eine Option, die man prüfen könnte.

 

Du könntest außerdem einen Monitor anschließen und darauf hoffen, dass dort was ausgegeben wird. Müsste man allerdings erst das Monitor-Timeout loswerden.

 

Memorytest schon durchgeführt?

Link to comment

Erstmal Frohe Weihnachten,

 

danke dass ihr euch die Zeit nehmt mir zu antworten :).

 

Eigentlich nutze ich Unraid gerade nur noch wegen den Dockern und der Festplattenverwaltung ;D.

Ich könnte ihn mal temporär ausschalten.

BR0 nutze ich, VMs nein. 

Unraid Version: Version: 6.10.0-rc2 

Memtest kann ich ja iirc über den Launcher von Unraid starten, das werde ich das nächste mal machen.

 

Bezüglich Ram Frequenz: ich bin hier leider eher bei AMD zu hause, aber meines Wissens erfordert es wenn ich den RAM übertakten möchte dass ich bei Intel einen anderen Prozessor kaufe? Oder muss ich einfach nur die Werte manuell eintragen? XMP-Profil konnte ich, glaube ich, nicht einfach so laden.

 

VG

 

Link to comment
11 minutes ago, azural said:

Bezüglich Ram Frequenz: ich bin hier leider eher bei AMD zu hause, aber meines Wissens erfordert es wenn ich den RAM übertakten möchte dass ich bei Intel einen anderen Prozessor kaufe? Oder muss ich einfach nur die Werte manuell eintragen? XMP-Profil konnte ich, glaube ich, nicht einfach so laden.

Ich komme eigentlich auch eher aus dem Team AMD, deswegen mag ich jetzt daneben liegen. Aber zumindest gemäß offizieller Spezifikationen sollten wenigstens 2400MHz sein sein. Ganz ohne übertakten

Link to comment
On 12/24/2021 at 5:21 PM, azural said:

Bezüglich Ram Frequenz: ich bin hier leider eher bei AMD zu hause, aber meines Wissens erfordert es wenn ich den RAM übertakten möchte dass ich bei Intel einen anderen Prozessor kaufe? Oder muss ich einfach nur die Werte manuell eintragen? XMP-Profil konnte ich, glaube ich, nicht einfach so laden.

XMP-Profil kannst Du über das BIOS des MB aktivieren...der RAM sollte problemlos mit 2400MHz laufen und passt dann zum i3....habe die gleiche Combo ohne Probleme am Start gehabt.

Wie schon gesagt, RAM prüfen.

 

On 12/24/2021 at 3:37 PM, azural said:

Das System läuft dann vermutlich im gecrashten Zustand weiter, ohne funktionierende NICs, sowie Bildschirm bleibt schwarz, solange bis ich denn Reset erledige. 

Ansonsten, wie ist die Mellanox angebunden (DAC, AOC, SFP+) und was sagt die Gegenstelle (Link up/down...?)

Wenn das System gecrasht ist, läuft es auch nicht weiter....

Link to comment
1 hour ago, Ford Prefect said:

XMP-Profil kannst Du über das BIOS des MB aktivieren...der RAM sollte problemlos mit 2400MHz laufen und passt dann zum i3....habe die gleiche Combo ohne Probleme am Start gehabt.

Wie schon gesagt, RAM prüfen.

 

Ansonsten, wie ist die Mellanox angebunden (DAC, AOC, SFP+) und was sagt die Gegenstelle (Link up/down...?)

Wenn das System gecrasht ist, läuft es auch nicht weiter....

 

Mellanox ist per DAC angebunden. Hatte ebend noch gesehen dass der auf der 2. NIC auch Custom Network gemacht hat auf br1. Das hab ich jetzt mal deaktiviert. Bezüglich RAM schaue ich nochmal genau nach. 

Link to comment
20 minutes ago, azural said:

Mellanox ist per DAC angebunden.

...und was sagt die Gegenstelle des Link, wenn unRaid "tot" ist?

20 minutes ago, azural said:

Hatte ebend noch gesehen dass der auf der 2. NIC auch Custom Network gemacht hat auf br1. Das hab ich jetzt mal deaktiviert. Bezüglich RAM schaue ich nochmal genau nach. 

Das allein ist noch kein Problem...die Frage wäre, welche IPs und Gateways da noch dranhängen und im unRaid rumschwirren, wenn die aktiv ist?

Link to comment
3 minutes ago, Ford Prefect said:

...und was sagt die Gegenstelle des Link, wenn unRaid "tot" ist?

Das allein ist noch kein Problem...die Frage wäre, welche IPs und Gateways da noch dranhängen und im unRaid rumschwirren, wenn die aktiv ist?

Mein ESXINUC meldet dass dann die NFS-Datastores(die über Unraid exportiert werden) auch wegfliegen. D.h. der Server ist dann komplett gecrasht. Im Syslog seh ich nur leider keine Info wieso. 

Link to comment
15 minutes ago, azural said:

Mein ESXINUC meldet dass dann die NFS-Datastores(die über Unraid exportiert werden) auch wegfliegen. D.h. der Server ist dann komplett gecrasht. Im Syslog seh ich nur leider keine Info wieso. 

Es ging mir tatsächlich um den Link auf dem DAC....jedes Kabel hat zwei Enden

Wenn der Service (NFS, SMB) nicht läuft, kann das verschiedene Ursachen haben. zB einfach, dass die IP-Route nicht mehr läuft/funktioniert.

Daher die Frage ob der Ethernet-Link darunter auch zusammenbricht und der Switch auf der anderen Seite den Link noch sieht (der unabhänging von einer IP ist).

Evtl. känntest Du mal versuchen den Port zu "cyclen"....also auf einer Seite raus/rein und dann schauen, ob er wieder hochkommt.

Falls ja, tippe ich dann eher auf ein Problem auf IP-Ebene....zumal Du bisher ja zwei NICs, in getrennten Brdiges am Start hattest (waren beide im gleichen IP-Segment?).

Link to comment

...mir geht es nicht darum, ob es danach wieder funktioniert, sondern mal durch Ausschlussprinzip rauszufinden, ob unRaid wiklich tot ist oder evtl. nur nicht mehr erreichbar.

Wenn nix im syslog steht, ist sonst kaum eine Möglichkeit gegeben einem softwareseitigen Fehler auf die Spur zu kommen.

Bist Du auf die 6.10rc2 angewiesen oder kannst Du mal mit 6.9.2 probieren, ob der Fehler dann auch auftritt?

Link to comment
  • 3 weeks later...
On 12/25/2021 at 9:33 PM, Ford Prefect said:

...dann wäre das sogar eine erste Empfehlung....nimm 6.9.2

Scheint als ob du da den richtigen Tipp hattest.

 

Seitdem ich auf 6.9.2 laufe, keine Freezes. Uptime steht gerade bei 15 Tagen 16h. Generell die Performance ist wesentlich besser (UI deutlich responsiver) und auch die generelle Auslastung ist weniger. Ich habe allerdings zusätzlich dazu ipv4 custom network auf br1 (storage-netz) trotzdem ausgeschalten. 

Link to comment
1 hour ago, azural said:

Seitdem ich auf 6.9.2 laufe, keine Freezes. Uptime steht gerade bei 15 Tagen 16h. 

...hört sich gut an.

 

v6.10RCx hat NFS v4 am Start, soweit ich erinnere...Du hattest doch auch unRaid via NFS auf deinen ESXI angebunden, oder?

Ansonsten fällt mir kein besonderer Unterschied ein, aber ich bin auch kein "Eingeweihter" aus dem Zweig der RC-User.

Link to comment
12 hours ago, azural said:

Ich habe allerdings zusätzlich dazu ipv4 custom network auf br1 (storage-netz) trotzdem ausgeschalten.

 

das ist in manchen Konstellationen jedoch der Grund warum ein System als nicht erreichbar ist, custom:br0 aktiv (macvlan) in Kombi mit Docker(s) und VM, daher wurde in der 6.10 auch dafür ipvlan bei Docker(s) eingeführt um da gegenzusteuern .... Ich habe dieses Problem nicht, war jedoch häufiger vorgekommen da dies ein mehr oder weniger ein "hack" ist um das zu realisieren (host access usw ...).

 

also wenn das aktiviert ist meine ich ;) sprich, wenn das jetzt läuft kannst du auch in der gleichen config auf 6.10rc wechseln, dann weißt du es sicherer was es wirklich war ...

 

Nur zur Info falls ich das richtig interpretiere mit deinem "custom"

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.