NVME-Cache gibt falsche Temperatur aus (GELÖST)


Nindahr

Recommended Posts

Hallo zusammen, habe in letzter Zeit ein etwas merkwürdiges Problem:

 

Ich hab zwei Samsung 980er NVMEs als Cache verbaut, mit nem kleinen Passivkühler, da sie recht warm werden wenn ich über 700GB am Stück schreibe. Nun hab ich vor ca. 2 Wochen das Update von 6.9.2 auf 6.10.3 eingespielt, und seit dem bekomm ich unregelmäßig falsche Temps von den SSDs gemeldet.

 

Normalerweise bin ich zwischen 30-40°, dann springt die Temp. auf 84° (jedesmal) und nach ner halben Stunde (recht genau) fällt sie sofort wieder auf 30-40°. Ich hab die SSDs auch mal im Betrieb angefasst, die 84° sind definitiv nicht real.

 

Kurzer Auszug zur Häufigkeit:

26.07.2022 20:28 Cache 1 überhitzt (84°C)

26.07.2022 20:58 Cache 1 normal


27.07.2022 04:37 Cache 2 überhitzt (84°C)

27.07.2022 05:07 Cache 1 normal


28.07.2022 23:26 Cache 1 überhitzt (84°C)

28.07.2022 23:56 Cache 1 normal


29.07.2022 07:35 Cache 2 überhitzt (84°C)

29.07.2022 08:06 Cache 2 normal

29.07.2022 12:10 Cache 2 überhitzt (84°C)

29.07.2022 12:41 Cache 2 normal

29.07.2022 17:16 Cache 1 überhitzt (84°C)

29.07.2022 17:47 Cache 1 normal


30.07.2022 02:14 Cache 1 überhitzt (84°C)

30.07.2022 02:45 Cache 1 normal

30.07.2022 04:46 Cache 2 überhitzt (84°C)

30.07.2022 05:17 Cache 2 normal

30.07.2022 05:47 Cache 2 überhitzt (84°C)

30.07.2022 06:17 Cache 2 normal

30.07.2022 15:53 Cache 2 überhitzt (84°C)

30.07.2022 16:24 Cache 2 normal

 

In letzter Zeit häuft es sich jetzt schon, und mir gehen die Ideen aus. Wird ja kein schlechter Kontakt sein, da die SSDs ansonsten einwandfrei funktionieren. Hab leider im Forum bis jetzt auch noch nix gefunden.

 

Hat einer von euch ne Idee was ich da machen könnte?

 

Ich bedank mich schonmal für die Antworten und wünsch euch ein schönes Wochenende!

 

Bleibt Gesund!

Grüßle,

nindahr

 

 

Verbaute Hardware:

 

CPU: Intel Core i3 9100, Stock Cooler

RAM: 1x 32GB Kingston Server Premier ECC DDR4-2666

MoBo: Gigabyte C246M-WU4-CF

Case: Fractal Design Define R5

PSU: 550 Watt be quiet! Pure Power 11 FM Modular 80+ Gold

 

Cache:

2x Samsung 980 1TB

 

Array:

3x 18TB Seagate Exos X

1x 2TB Crucial MX500

 

 

 

EDIT 17:11

Grade den passenden Bug-Report gefunden 🤦‍♂️ Da hab ich nicht gründlich gesucht. Sorry, kann zu.

Edited by Nindahr
Link to comment
  • Nindahr changed the title to NVME-Cache gibt falsche Temperatur aus (GELÖST)

Hey, das hilft dir zwar erstmal nicht weiter, aber ich habe gerade gesehen, das bei mir jetzt das gleiche Problem aufgetreten ist.

Wo finde ich den passenden Report dazu?

 

 

Des weiteren noch die Frage, wo finde ich die Auszüge (wie du oben, wann die Fehler auftreten) - wollte mal bei mir auch mal nach der Häufigkeit gucken.

 

Gruß

Edited by Patty92
Link to comment

Hallo Patty92,

 

den Report hatte ich hier gefunden:

ansonsten gibts hier noch ne Diskussion dazu:

 

Den Auszug hab ich bei mir aus Telegram geholt, da meldet sich mein Server wenn ihm was nicht passt. Im Syslog stehen die Tempraturwarnungen glaube ich nicht drin.

 

Grüßle,

nindahr

EDIT 22:53

 

Scheint ein Firmware-Fehler zu sein, gibts quer durch alle neueren Linux-Kernel:

https://us.community.samsung.com/t5/Monitors-and-Memory/SSD-980-heat-spikes-to-84-C-183-F/td-p/2002779

Ein Nutzer vermutet einen Bitshift, scheint mir eine schlüssige Erklärung zu sein (42 -> 0101010, 84 -> 1010100)

 

Anscheinend soll das Syslinux-Command "nvme_core.default_ps_max_latency_us=0" das fixen. ich hau das heute Abend mal rein und melde dann mal meinen (Miss)Erfolg.

 

 

Edited by Nindahr
Neuen Link hinzugefügt
Link to comment
2 hours ago, Nindahr said:

Den Auszug hab ich bei mir aus Telegram geholt, da meldet sich mein Server wenn ihm was nicht passt. Im Syslog stehen die Tempraturwarnungen glaube ich nicht drin.

achso, ok :D hab schon gefühlt alles durchsucht wo die Info stehen könnte :D

 

2 hours ago, Nindahr said:

Ein Nutzer vermutet einen Bitshift, scheint mir eine schlüssige Erklärung zu sein (42 -> 0101010, 84 -> 1010100)

Klang auch in meiner Situation interessant.

Hatte vorhin einiges auf einer VM gemacht (die auf der SSD liegt) und hatte öfters 40 / 41 Grad.

Da dachte ich mir dann, das könnte sein, das die NVME kurzzeitig 42 Grad erreicht hat und dadurch die Geschichte zu stande kam.

Hatte jetzt versucht die Temp der NVME zu provozieren auf 42 Grad - aber als die Temp erreicht war, keine Fehlermeldung.

 

2 hours ago, Nindahr said:

Anscheinend soll das Syslinux-Command "nvme_core.default_ps_max_latency_us=0" das fixen.

Das hatte ich dann in dem Beitrag auch gesehen 👍

 

2 hours ago, Nindahr said:

ich hau das heute Abend mal rein und melde dann mal meinen (Miss)Erfolg.

Nice, dann bin ich mal gespannt, was du berichten kannst.

 

Grüße Patty

Link to comment

Grundsätzlich deaktiviert "nvme_core.default_ps_max_latency_us=0" eigentlich auch "nur" tiefere (oder gar alle?) Schlafzustände der SSD - also genaugenommen eigentlich eher ungünstig.

Was aufjeden Fall ins Auge sticht - jeder der dieses Problem reported hat (zumindest soweit ich es gesehen habe) offensichtlich eine Samsung 980 NONPRO. Ich vermute jetzt einfach mal dass durch den neueren Kernel in Unraid 6.10 auch die NVME Ansteuerung/Abfrage anders läuft. Und wiederum die Firmware der 980 NONPRO das "nicht mag"

Wäre interessant ob ein Ubuntu Live Linux ein ähnliches Verhalten zeigt

 

Edit: Ach ich sehe gerade, das hat @Nindahrin seinem Edit quasi schon bestätigt

 

Edited by jj1987
Edit von Nindahr nicht gesehen
Link to comment
  • 2 weeks later...

Kurzes Update: Das Syslinux-Command hat zumindest bei mir das Problem nicht gelöst, aber die Häufigkeit stark reduziert. Ich persönlich hab's jetzt rausgeschmissen und dafür die Warn-Temp auf 86°C hochgesetzt. Ich weiß, nicht die eleganteste Lösung, aber ich verlasse mich mal drauf das der passive Kühler schon dafür sorgt das die Kiste nicht überhitzt. Und wenn die SSD wirklich Mal so warm wird, brennt mein Serverraum und ich hab andere Probleme ;)

 

Bin mal gespannt wie sich das in Zukunft entwicklelt...

 

Grüßle,

nindahr

Link to comment

Stimmt, das findet ja auf Hardware-Level im Controller statt. Noch weniger Grund zur Sorge^^

 

Interessant finde ich das der Controller selber von dem Bug anscheinend nicht betroffen ist. Ne gedrosselte Übertragungsrate hab ich noch nicht beobachten können. Wobei das mit der Anbindung von 2x 1Gbit und nem Array das vllt. 100Mb/s packt  vermutlich eh nicht merklich ist.

 

Entweder hat der ne Verzögerung drin (anscheinend werden die 84°C nur sehr kurz berichtet) oder der Bug tritt nur beim melden an Hardware außerhalb der SSD statt.

 

Jetzt bin ich wirklich nur noch am spekulieren, die Meinung von nem richtigen Hardware-Spezi wär mal interessant...

 

Ich glaub in Zukunft bleib ich mehr bei meinem Hauptberuf... Also wenn einer von euch ne Frage zu Metallbearbeitung hat, da kann ich ne vernünftige Antwort geben xD

 

Grüßle,

nindahr

Link to comment
  • 2 months later...

Hallo in die Runde, 

 

nachdem ich immer wieder– zuletzt nach einem Update auf 6.11.1 Probleme mit einer NVME-SSD Kingston 512GB hatte (lief bei mir als Disk1 und ließ sich nicht mehr einbinden). Tauschte ich diese letzte Woche gegen eine neue NVME Samsung SSD 980 aus. 

 

SSD eingebaut, Rechner hochgefahren, SSD hinzugefügt und array gestartet. Die Temperatur blieb beim kompletten "restore" von Parität auf Disk 1 unter 35 Grad. Mit der alten Kingston wurden die Werte gerne mal auf 60 Grad hochgeschraubt - z.B. beim monatlichen Parity-Check. Soweit war ich glücklich. 

 

Allerdings hatte ich mit 6.11. extreme Probleme mit der Netzwerk-Performance. Der iPerf3-Server/Docker auf Unraid war plötzlcih nur noch mit 3 bis 30 Mbit/s erreichbar. Nach einigen Tests (mit/ohne Bonding) ging ich zurück auf aktuell Unraid 6.10.3. 

 

Nun mein Problem mit der oben - vor einer Woche - neu eingebauten SSD: Ich bekomme "rote" Hitzewarnungen mit 85 Grad wenn ich mich auf dem Webinterface einlogge! Aber ich weiß nicht in welchem Kontext?! Die Parität zeigt weiterhin 32 Grad und die Disk 1 (Samsung) 85 Grad. Augenscheinlich arbeitet das Raid aber nicht sonderlich. Klicke ich die Samsung an und lasse mir die Attribute anzeigen - steht dort zur gleichen Zeit 35 Grad! Nach einiger Zeit kommt grün (Normaltemperatur erreicht). Dabei fällt auf, dass die Werte nicht kontinuierlich sinken, sondern plötzlich einfach 35 Grad dastehen?! Ich habe dann testweise eine Parity-Check angestoßen um "Last" zu generieren, da blieb aber alles unauffällig?!

 

Ist das evtl. ein Bug? Oder kann das mit dem speziellen(?) "Temperaturmanagement" dieser SSD zusammen? Oder ist die SSD defekt, dann könnte ich sie noch retournieren. 

https://www.amazon.de/gp/product/B08TJ2649W/ref=ppx_yo_dt_b_asin_title_o00_s00?ie=UTF8&psc=1

 

Hat jemand eine Idee, woran das liegen könnte?

Link to comment
  • 1 month later...

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.