C246N-WU2 - Kein Spindown nach Hardwareaustausch mit aktiviertem powertop

Anym001 · June 22, 2021

On 6/20/2021 at 2:06 PM, mgutt said:

So ich bin jetzt bei meinem Server mit dem C246N-WU2 auch auf Unraid 6.9.2 und was soll ich sagen. Auch alles voller ECC Fehler (wo ich vorher keine hatte)


Jun 20 13:25:02 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:25:02 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:38 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:38 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:53 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:53 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:28:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:28:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:30:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:30:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)

Und wenn ich das richtig verstehe, liegt das nicht am RAM, sondern an Linux bzw dem BIOS:

https://bugzilla.redhat.com/show_bug.cgi?id=564274

So ich hab jetzt nochmal getestet.

Bin auf Unraid 6.9.2 und BIOS Update gemacht von F1 auf F2c.

Dadurch keine EDAC MC0 Meldungen mehr im Syslog.

Auch bei Memtest86 keine Meldungen mehr.

Werde es in den nächsten Tagen mal beobachten.

On 6/20/2021 at 1:53 PM, mgutt said:

Werde hpet=disable mal Testen und dann berichten.

Scheint zu funktionieren.

Ohne diese "Einschränkung" wechselt er auf hpet.

Mit "Einschränkung" bleibt er bei tsc.

image.png.b8daecaa16bfd48c6c2635225227799c.png

On 6/20/2021 at 1:53 PM, mgutt said:

Which kernel version are you using? Also please provide the output of lscpi -nn | grep Host

Wie finde ich die Kernel Version raus?

image.png.a1f88ae00a2d2a435d655d0177a06589.png

mgutt · June 22, 2021

47 minutes ago, Anym001 said:

Scheint zu funktionieren.

Ohne diese "Einschränkung" wechselt er auf hpet.

Mit "Einschränkung" bleibt er bei tsc.

Dh jetzt geht bei dir C10?

48 minutes ago, Anym001 said:

Also please provide the output of lscpi -nn | grep Host

Da ist ein Dreher drin. Das Kommando muss so heißen:

lspci -nn | grep Host

48 minutes ago, Anym001 said:

Wie finde ich die Kernel Version raus?

so:

uname -a

Anym001 · June 22, 2021

3 minutes ago, mgutt said:

Dh jetzt geht bei dir C10?

Jap.

3 minutes ago, mgutt said:

lspci -nn | grep Host

4 minutes ago, mgutt said:

uname -a

image.png.55a537b084233370d84d37cb4f771a16.png

mgutt · June 22, 2021

10 minutes ago, Anym001 said:

Jap

Ui geil. Was sagt der Verbrauch?

Anym001 · June 22, 2021

1 minute ago, mgutt said:

Ui geil. Was sagt der Verbrauch?

Mit deaktivierten Dockern und VM's schwankt er zwischen 6,9W und 7,4W.

Mit aktivierten Dockern ca. 1W mehr.

mgutt · August 22, 2021

On 6/22/2021 at 2:22 PM, Anym001 said:

On 6/22/2021 at 2:17 PM, mgutt said:

lspci -nn | grep Host

On 6/22/2021 at 2:17 PM, mgutt said:

uname -a

Ich ergänze nun auch mal meins:

lspci -nn | grep Host
00:00.0 Host bridge [0600]: Intel Corporation 8th Gen Core Processor Host Bridge/DRAM Registers [8086:3ec6] (rev 07)
00:14.0 USB controller [0c03]: Intel Corporation Cannon Lake PCH USB 3.1 xHCI Host Controller [8086:a36d] (rev 10)
uname -a
Linux thoth 5.10.28-Unraid #1 SMP Wed Apr 7 08:23:18 PDT 2021 x86_64 Intel(R) Xeon(R) E-2146G CPU @ 3.50GHz GenuineIntel GNU/Linux

Ich habe aktuell nämlich selten diese Meldung (absolut zufällig, und teilweise Stunden auseinander):

Aug 22 15:55:31 thoth kernel: pcieport 0000:00:1d.0: AER: Corrected error received: 0000:04:00.0
Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0:   device [15b7:5006] error status/mask=00000001/0000e000

Als BIOS verwende ich auch schon F2c. Allerdings habe ich dauerhaft tsc, auch wenn ich hpet nicht deaktiviert habe:

cat /sys/devices/system/clocksource/clocksource0/available_clocksource
tsc hpet acpi_pm
cat /sys/devices/system/clocksource/clocksource0/current_clocksource
tsc

Aber wer weiß. Vielleicht wechselt er ja für eine Millisekunde auf hpt und dann wieder zurück und dadurch kommt der Fehler. Daher habe ich jetzt auch hpet=disable in die syslinux.cfg gepackt:

image.png.7258e0aafaac20d77770ef4bc071bf77.png

Mal sehen ob es hilft.

mgutt · August 23, 2021

Ok, das hat es offensichtlich nicht gebracht 😅

image.png.4954ed41c6abd35b38c4386fc866cdb6.png

Dass die Fehler jetzt häufiger kommen ist aber denke ich Zufall.

Die meisten im Netz empfehlen pcie_aspm=off. Das werde ich jetzt mal kurz testen, aber dauerhaft möchte ich das nicht nutzen, weil dann ja alle PCIE Geräte aktiv bleiben. Besser wäre es nur die NVMe zu anders einzustellen, wenn es das denn ist.

Anym001 · August 23, 2021

32 minutes ago, mgutt said:

Ok, das hat es offensichtlich nicht gebracht 😅

Schaut nicht ganz so aus. 😅

Ich hab seither keine Probleme mehr damit.

Habe allerdings bis dato auch keine NVME verbaut.

Kann es eventuell daran liegen?

mgutt · August 23, 2021

Also mit pcie_aspm=off ist Ruhe. Aber das geht natürlich zu Lasten des Stromverbrauchs. Wie viel kann ich gerade nicht sagen. Läuft zu viel ^^

mgutt · September 15, 2021

On 8/23/2021 at 5:00 PM, mgutt said:

Also mit pcie_aspm=off ist Ruhe

Jetzt mit der Samsung Evo Plus konnte ich die Einstellung wieder entfernen (vorher WD SN750). Fehler habe ich keine mehr. Ist also auch abhängig vom Modell.

mgutt · October 11, 2021

On 6/22/2021 at 1:28 PM, Anym001 said:

On 6/20/2021 at 1:53 PM, mgutt said:

Werde hpet=disable mal Testen und dann berichten.

Scheint zu funktionieren

Gibt jetzt ein Update im Kernel dazu:

https://www.phoronix.com/scan.php?page=news_item&px=Linux-5.15-rc5-x86

JonasH · January 26, 2022

On 8/22/2021 at 6:44 PM, mgutt said:

Ich habe aktuell nämlich selten diese Meldung (absolut zufällig, und teilweise Stunden auseinander):

Aug 22 15:55:31 thoth kernel: pcieport 0000:00:1d.0: AER: Corrected error received: 0000:04:00.0
Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0:   device [15b7:5006] error status/mask=00000001/0000e000

Hatte ich auch mit dem C246M-WU4 und einer WD SN750, sobald im Bios PCH ASPM aktiviert ist. Tritt wohl bei manchen NVME SSDs auf, weil der Stromsparmodus nicht richtig gesetzt wird. Keine Ahnung warum WD das nicht behebt.

Habe überlegt eine Samsung Evo Plus zu kaufen, da diese das Problem nicht haben soll. Die neue Version dieser SSD ist für mich aber leider zu langsam.

Also weitergesucht und das Problem endlich behoben. Man muss das hier zum Kernel hinzufügen:

nvme_core.default_ps_max_latency_us=5500

Edited January 26, 2022 by JonasH

SidM · February 16, 2022

@JonasH ich habe ebenfalls das C246M-WU4 und zwei WD SN750 1TB SSD´s verbaut und wollte mich jetzt auch mal den Energiesparen widmen. Mein LOG wird dabei aber auch sekündlich! mit:

"
Feb 16 19:33:37 Unraid kernel: pcieport 0000:00:1d.0: AER: Corrected error received: 0000:05:00.0
Feb 16 19:33:37 Unraid kernel: nvme 0000:05:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
Feb 16 19:33:37 Unraid kernel: nvme 0000:05:00.0: device [15b7:5006] error status/mask=00000001/0000e000
Feb 16 19:33:37 Unraid kernel: nvme 0000:05:00.0: [ 0] RxErr
„

gefüllt.

Deinen Eintrag habe ich ausprobiert, bin mir aber auch nicht sicher an welcher stelle er genau eingesetzt werden muss.

Wenn ich es so mache:

dann bleibt es unverändert und wenn ich es so mache:

dann wird nicht mehr in Unraid gebootet und ich muss erst über den Safemode booten und die änderung wieder rückgängig machen.

Ich habe jetzt außerdem gesehen dass es seit dem 29.11.2021 auch ein neue BIOS Update (F5) für das C246M- WU4 gibt. Das werde ich mal noch die tage ausprobieren, vielleicht bringt es was. Ich habe noch die F4 bei mir drauf.

Sonst noch eine Idee?

Vielen Dank!

mgutt · February 17, 2022

6 hours ago, SidM said:

Deinen Eintrag habe ich ausprobiert, bin mir aber auch nicht sicher an welcher stelle er genau eingesetzt werden muss

Es muss alles in einer Zeile stehen, ist also richtig. Den GUI Mode nutzt du nicht oder? Weil du hast die Option jetzt nur beim normalen Bootmodus ergänzt. Vielleicht wirklich mal ein BIOS Update machen.

SidM · February 17, 2022

@mgutt okay also wie im ersten Versuch.

Und muss das noch vor „initrd=/Boot“ eingefügt werden, so wie ich es gemacht habe, oder dahinter, oder spielt das wiederum keine Rolle?

Und ja benutze Unraid nur im normalen Modi also ohne GUI.

Hattest du dann auch nochmal ein Versuch mit deinen WD SN750 gestartet oder bist du jetzt bei den Samsung Evo Plus geblieben?

Und noch etwas: Wenn ich Änderungen in der syslinux.cfg mache, dann muss ein Neustart erfolgen um die Änderung Wirksam zu machen, richtig?

Edited February 17, 2022 by SidM

JonasH · February 19, 2022

On 2/17/2022 at 11:06 AM, SidM said:

Und muss das noch vor „initrd=/Boot“ eingefügt werden, so wie ich es gemacht habe, oder dahinter, oder spielt das wiederum keine Rolle?

Du kannst das ohne Config Editor machen, indem du auf deinen USB Stick "Flash" klickst. Bei mir sah es dann so aus:

Leider hat es den Fehler nicht vollständig behoben, ist aber viel seltener aufgetreten. Mein BIOS ist auf der neuesten Version und zurück geht nicht mehr. Das Problem liegt wirklich an der WD Nvme. Das Einzige was bei mir geholfen hat war, CEC 2019 im BIOS zu deaktivieren und alle Stromsparmaßnahmen wie C-States, niedrige Lüfterdrehzahl, etc. manuell zu aktivieren. Bei ASPM dann alles aktivieren außer PCH ASPM. Das löst den Fehler nämlich aus.

Du kannst auch CEC 2019 aktiviert lassen und einfach softwareseitig ASPM deaktivieren mit pcie_aspm=off, aber dann ist ASPM glaube ich für alle Gerätearten deaktiviert.

Ich hatte keine Lust mehr mich damit rumzuschlagen. Habe die WD verkauft und mir eine Kioxia Exceria Plus G2 gekauft. Dazu dann noch das Glück zwei Samsung 970 Evo Plus von der alten "besseren" Generation zu bekommen. Damit keinerlei Probleme mehr und alles läuft stabil.

SidM · February 19, 2022

@JonasH

Danke für deine Rückmeldung! Hattest du, als du die Versuche gemacht hast, bereits die letzte Bios Version (F5) vom 29.11.2021 oder noch die F4 ?

Ob man die Änderung nun über den Config Editor macht oder direkt über die Option in Flash Laufwerke sollte ja keine Rolle spielen, denk ich jedenfalls, korrigiert mich bitte wenn ich da falsch liege!✍️

DU sagst du hattest dann die Meldung viel seltener aufgetreten ist. In was für Abständen ca. weist du dasa noch?

Bei mir kommt wirklich sekündlich die Meldung.

Ich probiere es jetzt nochmal mit den Zusatz " pcie_aspm=off " wie von dir vorgeschlagen. Sitze gerade leider nicht direkt am Rechner, sonst würde ich gerne mal das BIOS Update probieren!

Unter den Energiesparmaßnahmen habe ich bis jetzt folgende Optionen gesetzt:

Audio --> deaktivert

CEC2019 --> aktiviert

Platform Power Management --> aktiviert

C-States Control --> aktivert

CPU Enhanced HALT (C1E) --> aktivert

C3 State Support --> aktivert

C6/C7 State Support --> aktivert

C8 State Support --> aktivert

C10 State Support --> aktivert

CPU EIST Function --> aktivert

Race TO HALT (RTH) --> aktivert

Voltage Opimization --> aktivert

JonasH · February 19, 2022

3 hours ago, SidM said:

Danke für deine Rückmeldung! Hattest du, als du die Versuche gemacht hast, bereits die letzte Bios Version (F5) vom 29.11.2021 oder noch die F4 ?

Habe es leider mit der F4 nicht probiert. Nur mit der neuesten F5. Habe noch vor der ersten Unraid Installation gleich das Bios geupdatet.

Quote

Ob man die Änderung nun über den Config Editor macht oder direkt über die Option in Flash Laufwerke sollte ja keine Rolle spielen, denk ich jedenfalls, korrigiert mich bitte wenn ich da falsch liege!✍️

Ja ist egal. Finde es nur einfacher.

Quote

DU sagst du hattest dann die Meldung viel seltener aufgetreten ist. In was für Abständen ca. weist du dasa noch?

Bei mir kommt wirklich sekündlich die Meldung.

Also bei mir war es ohne nvme_core.default_ps_max_latency_us=5500 auch sehr oft. Mindestens einmal pro Minute.

Mit ist es viel weniger gewesen. Da waren es bei mir vielleicht alle 6 Stunden dann einmal. Kam aber auch auf die Aktivität der SSD an. Viele Read/Write Vorgänge = mehr Fehlermeldungen.

Normalerweise sind diese Meldungen auch alle harmlos, aber halt nervig.

mgutt · February 20, 2022

Vielleicht auch mal im PC einbauen und ein Firmware Update machen. Wenn es denn sowas gibt.

mgutt · January 20, 2023

On 2/19/2022 at 10:07 PM, JonasH said:

Also bei mir war es ohne nvme_core.default_ps_max_latency_us=5500 auch sehr oft. Mindestens einmal pro Minute.

Mit ist es viel weniger gewesen. Da waren es bei mir vielleicht alle 6 Stunden dann einmal

Kannst du von deiner NVMe mal das ausgeben lassen:

smartctl -a /dev/nvme0

C246N-WU2 - Kein Spindown nach Hardwareaustausch mit aktiviertem powertop

Recommended Posts

Link to comment

Top Posters In This Topic

Popular Days

Top Posters In This Topic

Popular Days

Popular Posts

jj1987

JonasH

Anym001

Posted Images

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Link to comment

Join the conversation