Nindahr Posted July 30, 2022 Share Posted July 30, 2022 (edited) Hallo zusammen, habe in letzter Zeit ein etwas merkwürdiges Problem: Ich hab zwei Samsung 980er NVMEs als Cache verbaut, mit nem kleinen Passivkühler, da sie recht warm werden wenn ich über 700GB am Stück schreibe. Nun hab ich vor ca. 2 Wochen das Update von 6.9.2 auf 6.10.3 eingespielt, und seit dem bekomm ich unregelmäßig falsche Temps von den SSDs gemeldet. Normalerweise bin ich zwischen 30-40°, dann springt die Temp. auf 84° (jedesmal) und nach ner halben Stunde (recht genau) fällt sie sofort wieder auf 30-40°. Ich hab die SSDs auch mal im Betrieb angefasst, die 84° sind definitiv nicht real. Kurzer Auszug zur Häufigkeit: 26.07.2022 20:28 Cache 1 überhitzt (84°C) 26.07.2022 20:58 Cache 1 normal 27.07.2022 04:37 Cache 2 überhitzt (84°C) 27.07.2022 05:07 Cache 1 normal 28.07.2022 23:26 Cache 1 überhitzt (84°C) 28.07.2022 23:56 Cache 1 normal 29.07.2022 07:35 Cache 2 überhitzt (84°C) 29.07.2022 08:06 Cache 2 normal 29.07.2022 12:10 Cache 2 überhitzt (84°C) 29.07.2022 12:41 Cache 2 normal 29.07.2022 17:16 Cache 1 überhitzt (84°C) 29.07.2022 17:47 Cache 1 normal 30.07.2022 02:14 Cache 1 überhitzt (84°C) 30.07.2022 02:45 Cache 1 normal 30.07.2022 04:46 Cache 2 überhitzt (84°C) 30.07.2022 05:17 Cache 2 normal 30.07.2022 05:47 Cache 2 überhitzt (84°C) 30.07.2022 06:17 Cache 2 normal 30.07.2022 15:53 Cache 2 überhitzt (84°C) 30.07.2022 16:24 Cache 2 normal In letzter Zeit häuft es sich jetzt schon, und mir gehen die Ideen aus. Wird ja kein schlechter Kontakt sein, da die SSDs ansonsten einwandfrei funktionieren. Hab leider im Forum bis jetzt auch noch nix gefunden. Hat einer von euch ne Idee was ich da machen könnte? Ich bedank mich schonmal für die Antworten und wünsch euch ein schönes Wochenende! Bleibt Gesund! Grüßle, nindahr Verbaute Hardware: CPU: Intel Core i3 9100, Stock Cooler RAM: 1x 32GB Kingston Server Premier ECC DDR4-2666 MoBo: Gigabyte C246M-WU4-CF Case: Fractal Design Define R5 PSU: 550 Watt be quiet! Pure Power 11 FM Modular 80+ Gold Cache: 2x Samsung 980 1TB Array: 3x 18TB Seagate Exos X 1x 2TB Crucial MX500 EDIT 17:11 Grade den passenden Bug-Report gefunden 🤦♂️ Da hab ich nicht gründlich gesucht. Sorry, kann zu. Edited July 30, 2022 by Nindahr Quote Link to comment
Patty92 Posted July 30, 2022 Share Posted July 30, 2022 (edited) Hey, das hilft dir zwar erstmal nicht weiter, aber ich habe gerade gesehen, das bei mir jetzt das gleiche Problem aufgetreten ist. Wo finde ich den passenden Report dazu? Des weiteren noch die Frage, wo finde ich die Auszüge (wie du oben, wann die Fehler auftreten) - wollte mal bei mir auch mal nach der Häufigkeit gucken. Gruß Edited July 30, 2022 by Patty92 Quote Link to comment
Nindahr Posted July 30, 2022 Author Share Posted July 30, 2022 (edited) Hallo Patty92, den Report hatte ich hier gefunden: ansonsten gibts hier noch ne Diskussion dazu: Den Auszug hab ich bei mir aus Telegram geholt, da meldet sich mein Server wenn ihm was nicht passt. Im Syslog stehen die Tempraturwarnungen glaube ich nicht drin. Grüßle, nindahr EDIT 22:53 Scheint ein Firmware-Fehler zu sein, gibts quer durch alle neueren Linux-Kernel: https://us.community.samsung.com/t5/Monitors-and-Memory/SSD-980-heat-spikes-to-84-C-183-F/td-p/2002779 Ein Nutzer vermutet einen Bitshift, scheint mir eine schlüssige Erklärung zu sein (42 -> 0101010, 84 -> 1010100) Anscheinend soll das Syslinux-Command "nvme_core.default_ps_max_latency_us=0" das fixen. ich hau das heute Abend mal rein und melde dann mal meinen (Miss)Erfolg. Edited July 30, 2022 by Nindahr Neuen Link hinzugefügt Quote Link to comment
Patty92 Posted July 30, 2022 Share Posted July 30, 2022 2 hours ago, Nindahr said: Den Auszug hab ich bei mir aus Telegram geholt, da meldet sich mein Server wenn ihm was nicht passt. Im Syslog stehen die Tempraturwarnungen glaube ich nicht drin. achso, ok hab schon gefühlt alles durchsucht wo die Info stehen könnte 2 hours ago, Nindahr said: Ein Nutzer vermutet einen Bitshift, scheint mir eine schlüssige Erklärung zu sein (42 -> 0101010, 84 -> 1010100) Klang auch in meiner Situation interessant. Hatte vorhin einiges auf einer VM gemacht (die auf der SSD liegt) und hatte öfters 40 / 41 Grad. Da dachte ich mir dann, das könnte sein, das die NVME kurzzeitig 42 Grad erreicht hat und dadurch die Geschichte zu stande kam. Hatte jetzt versucht die Temp der NVME zu provozieren auf 42 Grad - aber als die Temp erreicht war, keine Fehlermeldung. 2 hours ago, Nindahr said: Anscheinend soll das Syslinux-Command "nvme_core.default_ps_max_latency_us=0" das fixen. Das hatte ich dann in dem Beitrag auch gesehen 👍 2 hours ago, Nindahr said: ich hau das heute Abend mal rein und melde dann mal meinen (Miss)Erfolg. Nice, dann bin ich mal gespannt, was du berichten kannst. Grüße Patty Quote Link to comment
EliteGroup Posted July 31, 2022 Share Posted July 31, 2022 Ich hab das selbe Problem mit meiner Samsung_SSD_980_1TB M.2 Anscheinend hat "nvme_core.default_ps_max_latency_us=0" das Problem gelöst, da ich keine Meldung mehr bekomme Quote Link to comment
Patty92 Posted July 31, 2022 Share Posted July 31, 2022 44 minutes ago, EliteGroup said: Anscheinend hat "nvme_core.default_ps_max_latency_us=0" das Problem gelöst, da ich keine Meldung mehr bekomme Bei mir bisher das gleiche. Quote Link to comment
EliteGroup Posted August 1, 2022 Share Posted August 1, 2022 Leider habe ich eben erneut die Meldung erhalten... Komisch finde ich das es immer nur meine Samsung_SSD_980_1TB (Cache Pool) betrifft Von der Samsung_SSD_980_PRO_2TB (Data Pool) kommt keine Meldung. Beide haben aktuell 42C Quote Link to comment
jj1987 Posted August 1, 2022 Share Posted August 1, 2022 (edited) Grundsätzlich deaktiviert "nvme_core.default_ps_max_latency_us=0" eigentlich auch "nur" tiefere (oder gar alle?) Schlafzustände der SSD - also genaugenommen eigentlich eher ungünstig. Was aufjeden Fall ins Auge sticht - jeder der dieses Problem reported hat (zumindest soweit ich es gesehen habe) offensichtlich eine Samsung 980 NONPRO. Ich vermute jetzt einfach mal dass durch den neueren Kernel in Unraid 6.10 auch die NVME Ansteuerung/Abfrage anders läuft. Und wiederum die Firmware der 980 NONPRO das "nicht mag" Wäre interessant ob ein Ubuntu Live Linux ein ähnliches Verhalten zeigt Edit: Ach ich sehe gerade, das hat @Nindahrin seinem Edit quasi schon bestätigt Edited August 1, 2022 by jj1987 Edit von Nindahr nicht gesehen Quote Link to comment
Nindahr Posted August 12, 2022 Author Share Posted August 12, 2022 Kurzes Update: Das Syslinux-Command hat zumindest bei mir das Problem nicht gelöst, aber die Häufigkeit stark reduziert. Ich persönlich hab's jetzt rausgeschmissen und dafür die Warn-Temp auf 86°C hochgesetzt. Ich weiß, nicht die eleganteste Lösung, aber ich verlasse mich mal drauf das der passive Kühler schon dafür sorgt das die Kiste nicht überhitzt. Und wenn die SSD wirklich Mal so warm wird, brennt mein Serverraum und ich hab andere Probleme Bin mal gespannt wie sich das in Zukunft entwicklelt... Grüßle, nindahr Quote Link to comment
alturismo Posted August 12, 2022 Share Posted August 12, 2022 Just now, Nindahr said: Und wenn die SSD wirklich Mal so warm wird, drosselt Sie sich sehr sicher selbst ... hier geht es tatsächlich nur um "Kosmetik" in der Anzeige Quote Link to comment
Nindahr Posted August 12, 2022 Author Share Posted August 12, 2022 Stimmt, das findet ja auf Hardware-Level im Controller statt. Noch weniger Grund zur Sorge^^ Interessant finde ich das der Controller selber von dem Bug anscheinend nicht betroffen ist. Ne gedrosselte Übertragungsrate hab ich noch nicht beobachten können. Wobei das mit der Anbindung von 2x 1Gbit und nem Array das vllt. 100Mb/s packt vermutlich eh nicht merklich ist. Entweder hat der ne Verzögerung drin (anscheinend werden die 84°C nur sehr kurz berichtet) oder der Bug tritt nur beim melden an Hardware außerhalb der SSD statt. Jetzt bin ich wirklich nur noch am spekulieren, die Meinung von nem richtigen Hardware-Spezi wär mal interessant... Ich glaub in Zukunft bleib ich mehr bei meinem Hauptberuf... Also wenn einer von euch ne Frage zu Metallbearbeitung hat, da kann ich ne vernünftige Antwort geben Grüßle, nindahr Quote Link to comment
Snapmix Posted November 1, 2022 Share Posted November 1, 2022 Hallo in die Runde, nachdem ich immer wieder– zuletzt nach einem Update auf 6.11.1 Probleme mit einer NVME-SSD Kingston 512GB hatte (lief bei mir als Disk1 und ließ sich nicht mehr einbinden). Tauschte ich diese letzte Woche gegen eine neue NVME Samsung SSD 980 aus. SSD eingebaut, Rechner hochgefahren, SSD hinzugefügt und array gestartet. Die Temperatur blieb beim kompletten "restore" von Parität auf Disk 1 unter 35 Grad. Mit der alten Kingston wurden die Werte gerne mal auf 60 Grad hochgeschraubt - z.B. beim monatlichen Parity-Check. Soweit war ich glücklich. Allerdings hatte ich mit 6.11. extreme Probleme mit der Netzwerk-Performance. Der iPerf3-Server/Docker auf Unraid war plötzlcih nur noch mit 3 bis 30 Mbit/s erreichbar. Nach einigen Tests (mit/ohne Bonding) ging ich zurück auf aktuell Unraid 6.10.3. Nun mein Problem mit der oben - vor einer Woche - neu eingebauten SSD: Ich bekomme "rote" Hitzewarnungen mit 85 Grad wenn ich mich auf dem Webinterface einlogge! Aber ich weiß nicht in welchem Kontext?! Die Parität zeigt weiterhin 32 Grad und die Disk 1 (Samsung) 85 Grad. Augenscheinlich arbeitet das Raid aber nicht sonderlich. Klicke ich die Samsung an und lasse mir die Attribute anzeigen - steht dort zur gleichen Zeit 35 Grad! Nach einiger Zeit kommt grün (Normaltemperatur erreicht). Dabei fällt auf, dass die Werte nicht kontinuierlich sinken, sondern plötzlich einfach 35 Grad dastehen?! Ich habe dann testweise eine Parity-Check angestoßen um "Last" zu generieren, da blieb aber alles unauffällig?! Ist das evtl. ein Bug? Oder kann das mit dem speziellen(?) "Temperaturmanagement" dieser SSD zusammen? Oder ist die SSD defekt, dann könnte ich sie noch retournieren. https://www.amazon.de/gp/product/B08TJ2649W/ref=ppx_yo_dt_b_asin_title_o00_s00?ie=UTF8&psc=1 Hat jemand eine Idee, woran das liegen könnte? Quote Link to comment
jj1987 Posted November 1, 2022 Share Posted November 1, 2022 (edited) Ist ein Bug bei der SSD, siehe auch: https://forums.unraid.net/topic/126615-nvme-cache-gibt-falsche-temperatur-aus-gelöst/ Edited November 1, 2022 by jj1987 Quote Link to comment
Snapmix Posted November 1, 2022 Share Posted November 1, 2022 Oha, das also auch noch. Na wenigstens, liegts dann nicht an der SSD Vielen Dank. Die Info war mir wohl durchgerutscht. Von Problemen bzgl. Netzwerk und SSD-Erkennung hatte ich im Bezug auf die Updates schon gelesen. Quote Link to comment
mgutt Posted November 1, 2022 Share Posted November 1, 2022 Hat eigentlich schon mal jemand über Windows ein Firmware-Update bei der NVMe versucht? Vielleicht löst es ja das Problem. Quote Link to comment
Ale:x Posted December 31, 2022 Share Posted December 31, 2022 (edited) Und ich hab mir heute extra ein Kühlkörper an die SSD geschraubt... nächstes mal erst ins Forum und dann Kaufen Edited December 31, 2022 by Ale:x 1 Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.