Jump to content

6.10.3 - Nach Update Card Side Temp critical


db8

Recommended Posts

Spoiler

 

Hallo zusammen,

 

sowohl beim Update auf 6.10.1 als auch nun beim Update auf 6.10.3 meldet mein Mainboard nach ein paar Minuten eine kritisch hohe Temperatur (Card Side Temp, vermutlich Cache-SSDs). Nach dem Downgrade auf 6.9 ist alles wieder ohne Probleme. Ist das Problem bekannt?

 

Liegt es an bestimmter Hardware?

 

Mein Mainboard: ASROCK RACK W480D4U

Prozessor: Intel Xeon W-1200 Prozessor

 

Vielen Dank und viele Grüße

Dennis

Link to comment

Die genaue Position steht nicht in der Anleitung. Stöbern im Forum und Internet führt mich zu der Annahme, dass es ein Temperatursensor auf der Seite der Steckplätze für Karten ist (PCI). Da ist bei mir nichts gesteckt, aber die beiden SSDs sind direkt daneben (Position 42 und 43 auf dem Bild).

 

Daher stammt meine Vermutung mit den SSDs.

 

Bislang hatte ich keine Probleme mit diesem Sensor. Nach dem Update auf 6.10.1 ging der Sensor sofort in den kritischen Bereich und nach dem Downgrade auf 6.9. war alles wieder ok. Nun habe ich auf 6.10.3 aktualisiert und sofort ging der Sensor wieder in den kritischen Bereich. 

 

Meine Frage ist, ob das jemand erklären kann? Eigentlich ist meine Kiste sehr gut belüftet.

Bildschirmfoto 2022-07-25 um 20.42.10.png

Link to comment
1 hour ago, alturismo said:

naja, mal sensor-detect nach update ausgeführt ?

Nein. Das kannte ich noch nicht. Vielen Dank.

 

Ich habe den folgenden Artikel überflogen und vermute, dass es um die Darstellung der Sensorwerte in Unraid geht, oder? https://wiki.unraid.net/Setting_up_CPU_and_board_temperature_sensing

 

Ich überwache die Sensorwerte über das IPMI des Mainboards. In Unraid werden die gleichen Sensorwerte bereits angezeigt.

 

Mit welchem Ziel soll ich das sensor-detect-Skript durchlaufen lassen? 

 

Viele Grüße

Link to comment
7 hours ago, db8 said:

Ich überwache die Sensorwerte über das IPMI des Mainboards. In Unraid werden die gleichen Sensorwerte bereits angezeigt.

 

Mit welchem Ziel soll ich das sensor-detect-Skript durchlaufen lassen? 

ok, wenn die Werte von IPMI (Mainboard direkt) und sensors (unraid software) identisch sind, dann zeig mal bitte was du genau meinst und welche Warnung das ist, geht es um eine Warnung dass die nvme Temps kritisch sind ? weil "card side" ist jetzt nichts was ich greifen kann ...

 

sensor-detect wäre unter anderem dass die sensoren erkannt werden, was ja bereits der Fall ist ...

 

wir haben in system temps die Auswahl, Treiber und welchen sensor wir für das Mainboard nehmen, das wäre das eine ... was bei Dir ja bereits passt.

 

image.thumb.png.9f0856638b0c391deeb15637f0c1198f.png

 

dann haben wir die nvme temps und deren limits, da die nvme's von Haus aus ja etwas wärmer sind als ssd's setzt man hier die warning und critical temps separat um da 40° hier ja keine Schwellen sind ...

 

image.thumb.png.1a2e3cf2af550e987965050da603ff2f.png

 

Beispiel der Settings einer nvme hier

 

image.thumb.png.727eb63eb7d2c0beee4f5e72be883b98.png

 

wobei das Verhalten unter 6.9 oder 6.10 identisch sein sollte ... bevor man über einen bug report jetzt nachdenkt, um was geht es jetzt genau und dann ggf. einen bug report abzusetzen.

Link to comment
10 hours ago, db8 said:

Downgrade auf 6.9.

Mach das noch mal und führe das aus:

 

dd if=/dev/zero of=/mnt/cache/test.bin bs=128k flag=count_bytes oflag=direct count=20G

 

Ich denke es liegt einfach daran, dass du etwas mehr Schreiblast bei 6.10 hast. Eine NVMe wird ja sehr schnell heiß, wenn sie arbeitet.

 

Welches Modell verwendest du?

Link to comment

Nur damit ich das verstehe: Die Anzeige der Card Side Temp (i.d.R. Oberseite des MB) in der IPMI Konsole ändert sich signifikant zwischen 6.9.2 und 6.10.3? Ich meine wirklich die IPMI Oberfläche und nicht Sensoren oder Plugins in der Unraid Konsole oder Oberfläche.

 

Das würde mich völlig verwirren. Was hat IPMI/BMC mit Unraid zu tun?

 

Wenn es wirklich durch das IPMI selbst anders angezeigt wird, dann kann es ja nur eine veränderte Nutzung unter 6.10.3 sein. Wie sind die NVMes denn eingebunden? ZFS, BTRFS, XFS? Welche RAID Konfiguration? Etc.

 

Link to comment

Vielen Dank für die Beiträge. Ich werde sie abarbeiten und hoffe, einen Ansatz zu finden. Alle Lüfter (7 Stück) laufen zur Zeit auf voller Stärke (2100 RPM).

 

Ich habe jetzt erstmal auf 6.9.2 zurückgestuft, weil mir die Temperatur etwas Sorge bereitet. Dabei habe ich folgende Beobachtung gemacht.

 

Ich startete den Server (mit 6.10.3) und im IPMI ging die Temperatur MB Card Side unverzüglich (ohne Array-Start) auf 113° C. Die Temperaturen der HDDs und SSDs waren irgendwo bei 30°-35° C. Nach dem Downgrade startete ich den Server neu und im IPMI wurde der Sensorwert für MB Card Side sofort wieder 29° C. Auf keinen Fall ist in den 60 Sekunden etwas von 113° auf 29° abgekühlt. Hat jemand eine mögliche Erklärung für das Verhalten der IPMI?

 

Nun ist mir noch eine Sache aufgefallen. Unten in der Leiste wird die HDD Temp mit 35°C angezeigt, wobei beide Platten eine geringere Temperatur haben. Das muss ich auch noch verstehen.

 

Das Modell der SSD ist Samsung 970 EVO.

 

Sollte jemand anhand der Beobachtungen direkt einen Ansatz zur Fehlersuche haben, freue ich mich. Ansonsten nutze ich zunächst die Beiträge, um auf Fehlersuche zu gehen. Danke sehr!

Bildschirmfoto 2022-07-26 um 09.45.09.png

Bildschirmfoto 2022-07-26 um 09.47.09.png

Link to comment
1 hour ago, hawihoney said:

Nur damit ich das verstehe: Die Anzeige der Card Side Temp (i.d.R. Oberseite des MB) in der IPMI Konsole ändert sich signifikant zwischen 6.9.2 und 6.10.3? Ich meine wirklich die IPMI Oberfläche und nicht Sensoren oder Plugins in der Unraid Konsole oder Oberfläche.

 

Das würde mich völlig verwirren. Was hat IPMI/BMC mit Unraid zu tun?

 

Wenn es wirklich durch das IPMI selbst anders angezeigt wird, dann kann es ja nur eine veränderte Nutzung unter 6.10.3 sein. Wie sind die NVMes denn eingebunden? ZFS, BTRFS, XFS? Welche RAID Konfiguration? Etc.

 

Ja, bisher habe ich immer die Werte der IPMI betrachtet und in der IPMI eingestellt, dass bei kritischen Werten (Temperatur CPU, MB) heruntergefahren wird.

 

Die zwei NVMes sind als Cache-Pool eingebunden. Als Dateisystem ist BTRFS gewählt. RAID 1.

 

Den Zusammenhang zwischen den Anzeigen in UNRAID und dem IPMI verstehe ich noch nicht.

Link to comment
14 minutes ago, db8 said:

Den Zusammenhang zwischen den Anzeigen in UNRAID und dem IPMI verstehe ich noch nicht.

schließe mich an ... sprich nur um ganz sicher zu gehen, mit anderer unraid Version (6.10.x) bekommst du über den nativen IPMI Hardware Monitor eine andere Temperatur (100+ °C) ?, wenn ja bin ich jetzt auch sehr verwundert da ich nicht glauben kann dass IPMI unraid nachgelagert wäre ... aber da passt ja tatsächlich dann etwas nicht.

Link to comment
3 minutes ago, alturismo said:

schließe mich an ... sprich nur um ganz sicher zu gehen, mit anderer unraid Version (6.10.x) bekommst du über den nativen IPMI Hardware Monitor eine andere Temperatur (100+ °C) ?, wenn ja bin ich jetzt auch sehr verwundert da ich nicht glauben kann dass IPMI unraid nachgelagert wäre ... aber da passt ja tatsächlich dann etwas nicht.

Ja, so ist das Verhalten, was ich reproduzieren kann. Sobald ich auf 6.10.x update zeigt mir das IPMI bei Card Side Temp einen anderen Wert (zB 113°C) an.

 

Ich habe nun sensor detect mithilfe des Plugins durchgeführt. Dabei ist mir etwas aufgefallen. Auch mit 6.9.2 gibt es dort einen Sensor mit dem Wert 113°. AUXTIN3. Das kann ja kein Zufall sein. Jetzt könnte ich mit 6.10.3 nochmal schauen, ob hier etwas anders zugeordnet ist, wobei mir der Zusammenhang zur Darstellung im IPMI nicht klar ist. Vielleicht kann jemand helfen.

Bildschirmfoto 2022-07-26 um 10.07.20.png

Bildschirmfoto 2022-07-26 um 10.07.27.png

Link to comment

Ich kann gut verstehen, dass das nicht direkt nachvollziehbar ist. hier kommen die Screenshots. Jetzt lief 6.9. ein paar Stunden ohne Auffälligkeiten. Die Screenshots zu den Temperaturen zeigen im IPMI keine Auffälligkeiten. Ich habe das IPMI betrachtet und in Unraid habe ich die Werte im Plugin betrachtet.

 

Danach habe ich 6.10.3 eingespielt und sofort einen Screenshot gemacht. Alles zunächst ok. Aber nur ein paar Sekunden (!) danach geht die Temperatur des besprochenen Sensors wieder auf 113°C. Hier wurden keine Daten geschrieben! Ich kann das sowohl im IPMI als auch in Unraid sehen. 

 

Die Dateinamen der Screenshots enthalten die Zeitstempel. Die Reihenfolge scheint aber korrekt zu sein.

 

Tja. Und nun? Für mich scheint klar zu sein, dass Unraid 6.10.3 ursächlich ist für das Verhalten. Ich bezweifle aber auch den Wert, da direkt nach dem Downgrade der Sensorwert wieder bei 29° ungefähr liegt. Ich kann mir kaum vorstellen, dass ein Sensor innerhalb weniger Sekunden von 20° auf 113° und dann wieder auf 29° geht. Aber vielleicht ist das doch möglich. Die Temperaturen der SSDs und HDDs sowie der CPU scheinen in Ordnung zu sein. Noch nicht betrachtet habe ich die Einbauweise der Lüfter, denke aber, dass diese ihren Job schon gut machen. Das Gehäuse ist ein Fractal Node 804 mit 7 Lüftern die von vorne nach hinten oder andersrum gut durchpusten. Die CPU ist zusätzlich gut gekühlt.

 

Ich werde nun mit 6.9 weiterarbeiten müssen, damit ich erstmal an meine Daten komme.

 

Kann jemand weiterhelfen? Zukünftig würde ich gerne auf 6.10. umsteigen.

 

138408181_Bildschirmfoto2022-07-26um13_17_46.thumb.png.011cbcb92300718818cc6bb290049878.png694849001_Bildschirmfoto2022-07-26um13_19_07.thumb.png.aecfc87dc72d7932ede85fbf77d0f7a8.png418745826_Bildschirmfoto2022-07-26um13_22_17.thumb.png.d6083c18032cff9e37b56c249db26a4d.png1326712881_Bildschirmfoto2022-07-26um13_23_42.thumb.png.0411399f6cf16bfba1575562685306f1.png340800354_Bildschirmfoto2022-07-26um13_23_57.thumb.png.3de7929fa2a0fb0fcab46f0ae07c2262.png692519330_Bildschirmfoto2022-07-26um13_24_42.png.a22c865f38c1d4405cffeebe63aa7243.png473298758_Bildschirmfoto2022-07-26um13_25_16.thumb.png.2e0c6b6f36dcc4fad6bc3a789c6d321d.png

Link to comment

Bin nur mit Smartphone im Hotel deshalb nur kurz.

 

IPMI hat wirklich nix mit dem Ganzen zu tun. Wenn dann wirklich nur das MB oder Unraid bzw. dessen Linux Unterbau oder die installierten Plugins.

 

Als neugieriger Mensch würde ich folgendes testen:

 

1. Unraid 6.10.3 im Maintenance Modus, also ohne Plugins, starten und gucken was passiert. Irgendwelche zusätzlichen Kommandos in der go Datei vorher auskommentieren.

 

2. Wenn dann trotzdem der Sensorwert hoch geht, dann hat sich m.E. im Kernel etwas geändert bzgl. der Sensoren.

 

3. Wenn der Sensorwert nicht steigt, dann fummelt ein Plugin etwas an den Sensor Einstellungen rum.

 

Etwas anderes kann es m.E. nicht sein. Eine Distribution wie Unraid ändert doch nicht an so was rum. Die haben genug zu tun.

 

Ich habe meinen CPU Fan Sensor im IPMI anpassen müssen damit IPMI auf Grund dessen geringer Umdrehung nicht permanent Fehler auswirft. Diese Einstellung ging über das IPMI Tool und die macht man einmal und das war's. Das es beim Hin- und Her-Schalten zwischen zwei OS Versionen diese Wechsel gibt habe ich noch nie gesehen. Hat noch jemand dieses MB?

 

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...