C246N-WU2 - Kein Spindown nach Hardwareaustausch mit aktiviertem powertop


Anym001

Recommended Posts

On 6/20/2021 at 2:06 PM, mgutt said:

So ich bin jetzt bei meinem Server mit dem C246N-WU2 auch auf Unraid 6.9.2 und was soll ich sagen. Auch alles voller ECC Fehler (wo ich vorher keine hatte)


Jun 20 13:25:02 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:25:02 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:38 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:38 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:53 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:53 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:28:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:28:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:30:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:30:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)

 

Und wenn ich das richtig verstehe, liegt das nicht am RAM, sondern an Linux bzw dem BIOS:

https://bugzilla.redhat.com/show_bug.cgi?id=564274

 

So ich hab jetzt nochmal getestet. 

Bin auf Unraid 6.9.2 und BIOS Update gemacht von F1 auf F2c. 

Dadurch keine EDAC MC0 Meldungen mehr im Syslog. 

Auch bei Memtest86 keine Meldungen mehr. 

 

Werde es in den nächsten Tagen mal beobachten.

 

On 6/20/2021 at 1:53 PM, mgutt said:

Werde hpet=disable mal Testen und dann berichten. 

 

Scheint zu funktionieren. 

Ohne diese "Einschränkung" wechselt er auf hpet. 

Mit "Einschränkung" bleibt er bei tsc. 

image.png.b8daecaa16bfd48c6c2635225227799c.png

 

On 6/20/2021 at 1:53 PM, mgutt said:

Which kernel version are you using? Also please provide the output of lscpi -nn | grep Host

 

Wie finde ich die Kernel Version raus? 

image.png.a1f88ae00a2d2a435d655d0177a06589.png

 

Link to comment
47 minutes ago, Anym001 said:

Scheint zu funktionieren. 

Ohne diese "Einschränkung" wechselt er auf hpet. 

Mit "Einschränkung" bleibt er bei tsc. 

Dh jetzt geht bei dir C10?

 

48 minutes ago, Anym001 said:

Also please provide the output of lscpi -nn | grep Host

Da ist ein Dreher drin. Das Kommando muss so heißen:

lspci -nn | grep Host

 

48 minutes ago, Anym001 said:

Wie finde ich die Kernel Version raus? 

so:

uname -a

 

Link to comment
  • 2 months later...
On 6/22/2021 at 2:22 PM, Anym001 said:

 

 

On 6/22/2021 at 2:17 PM, mgutt said:

lspci -nn | grep Host

image.thumb.png.be31da3cca0e134b96d364b5d48d0158.png

 

On 6/22/2021 at 2:17 PM, mgutt said:

uname -a

image.png.55a537b084233370d84d37cb4f771a16.png

 

 

Ich ergänze nun auch mal meins:

lspci -nn | grep Host
00:00.0 Host bridge [0600]: Intel Corporation 8th Gen Core Processor Host Bridge/DRAM Registers [8086:3ec6] (rev 07)
00:14.0 USB controller [0c03]: Intel Corporation Cannon Lake PCH USB 3.1 xHCI Host Controller [8086:a36d] (rev 10)
uname -a
Linux thoth 5.10.28-Unraid #1 SMP Wed Apr 7 08:23:18 PDT 2021 x86_64 Intel(R) Xeon(R) E-2146G CPU @ 3.50GHz GenuineIntel GNU/Linux

 

Ich habe aktuell nämlich selten diese Meldung (absolut zufällig, und teilweise Stunden auseinander):

Aug 22 15:55:31 thoth kernel: pcieport 0000:00:1d.0: AER: Corrected error received: 0000:04:00.0
Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0:   device [15b7:5006] error status/mask=00000001/0000e000

 

Als BIOS verwende ich auch schon F2c. Allerdings habe ich dauerhaft tsc, auch wenn ich hpet nicht deaktiviert habe:

cat /sys/devices/system/clocksource/clocksource0/available_clocksource
tsc hpet acpi_pm
cat /sys/devices/system/clocksource/clocksource0/current_clocksource
tsc

 

Aber wer weiß. Vielleicht wechselt er ja für eine Millisekunde auf hpt und dann wieder zurück und dadurch kommt der Fehler. Daher habe ich jetzt auch hpet=disable in die syslinux.cfg gepackt:

image.png.7258e0aafaac20d77770ef4bc071bf77.png

 

Mal sehen ob es hilft.

Link to comment

Ok, das hat es offensichtlich nicht gebracht 😅

 

image.png.4954ed41c6abd35b38c4386fc866cdb6.png

 

 

Dass die Fehler jetzt häufiger kommen ist aber denke ich Zufall.

 

Die meisten im Netz empfehlen pcie_aspm=off. Das werde ich jetzt mal kurz testen, aber dauerhaft möchte ich das nicht nutzen, weil dann ja alle PCIE Geräte aktiv bleiben. Besser wäre es nur die NVMe zu anders einzustellen, wenn es das denn ist.

 

Link to comment
  • 4 weeks later...
  • 4 weeks later...
  • 3 months later...
On 8/22/2021 at 6:44 PM, mgutt said:

Ich habe aktuell nämlich selten diese Meldung (absolut zufällig, und teilweise Stunden auseinander):

Aug 22 15:55:31 thoth kernel: pcieport 0000:00:1d.0: AER: Corrected error received: 0000:04:00.0
Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0:   device [15b7:5006] error status/mask=00000001/0000e000

Hatte ich auch mit dem C246M-WU4 und einer WD SN750, sobald im Bios PCH ASPM aktiviert ist. Tritt wohl bei manchen NVME SSDs auf, weil der Stromsparmodus nicht richtig gesetzt wird. Keine Ahnung warum WD das nicht behebt.

Habe überlegt eine Samsung Evo Plus zu kaufen, da diese das Problem nicht haben soll. Die neue Version dieser SSD ist für mich aber leider zu langsam. 

Also weitergesucht und das Problem endlich behoben. Man muss das hier zum Kernel hinzufügen:

nvme_core.default_ps_max_latency_us=5500
Edited by JonasH
  • Thanks 3
Link to comment
  • 3 weeks later...

@JonasH ich habe ebenfalls das C246M-WU4 und zwei WD SN750 1TB SSD´s verbaut und wollte mich jetzt auch mal den Energiesparen widmen. Mein LOG wird dabei aber auch sekündlich! mit:

"
Feb 16 19:33:37 Unraid kernel: pcieport 0000:00:1d.0: AER: Corrected error received: 0000:05:00.0
Feb 16 19:33:37 Unraid kernel: nvme 0000:05:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
Feb 16 19:33:37 Unraid kernel: nvme 0000:05:00.0: device [15b7:5006] error status/mask=00000001/0000e000
Feb 16 19:33:37 Unraid kernel: nvme 0000:05:00.0: [ 0] RxErr

gefüllt.

 

Deinen Eintrag habe ich ausprobiert, bin mir aber auch nicht sicher an welcher stelle er genau eingesetzt werden muss. 

Wenn ich es so mache:

1533479075_ohneauswirkung.thumb.png.7e072d51f0d0924f48f538713a100354.png

dann bleibt es unverändert und wenn ich es so mache:

657378533_keinstartmehrmglich.thumb.png.2653bfc640fa7f103fbe02ef3404ca70.png

dann wird nicht mehr in Unraid gebootet und ich muss erst über den Safemode booten und die änderung wieder rückgängig machen.

 

Ich habe jetzt außerdem gesehen dass es seit dem 29.11.2021 auch ein neue BIOS Update  (F5) für das C246M- WU4 gibt. Das werde ich mal noch die tage ausprobieren, vielleicht bringt es was. Ich habe noch die F4 bei mir drauf.

 

Sonst noch eine Idee?

 

 

Vielen Dank!

Link to comment
6 hours ago, SidM said:

Deinen Eintrag habe ich ausprobiert, bin mir aber auch nicht sicher an welcher stelle er genau eingesetzt werden muss

Es muss alles in einer Zeile stehen, ist also richtig. Den GUI Mode nutzt du nicht oder? Weil du hast die Option jetzt nur beim normalen Bootmodus ergänzt. Vielleicht wirklich mal ein BIOS Update machen.

Link to comment

@mgutt okay also wie im ersten Versuch. 
 

Und muss das noch vor „initrd=/Boot“ eingefügt werden, so wie ich es gemacht habe, oder dahinter, oder spielt das wiederum keine Rolle?

 

Und ja benutze Unraid nur im normalen Modi also ohne GUI. 

Hattest du dann auch nochmal ein Versuch mit deinen WD SN750 gestartet oder bist du jetzt bei den Samsung Evo Plus geblieben?

 

Und noch etwas: Wenn ich Änderungen in der syslinux.cfg mache, dann muss ein Neustart erfolgen um die Änderung Wirksam zu machen, richtig?

Edited by SidM
Link to comment
On 2/17/2022 at 11:06 AM, SidM said:

Und muss das noch vor „initrd=/Boot“ eingefügt werden, so wie ich es gemacht habe, oder dahinter, oder spielt das wiederum keine Rolle?

Du kannst das ohne Config Editor machen, indem du auf deinen USB Stick "Flash" klickst. Bei mir sah es dann so aus:

image.thumb.png.aa5eb2c2fa2a297d17aa2fadad57af79.png

 

Leider hat es den Fehler nicht vollständig behoben, ist aber viel seltener aufgetreten. Mein BIOS ist auf der neuesten Version und zurück geht nicht mehr. Das Problem liegt wirklich an der WD Nvme. Das Einzige was bei mir geholfen hat war, CEC 2019 im BIOS zu deaktivieren und alle Stromsparmaßnahmen wie C-States, niedrige Lüfterdrehzahl, etc. manuell zu aktivieren. Bei ASPM dann alles aktivieren außer PCH ASPM. Das löst den Fehler nämlich aus.

 

Du kannst auch CEC 2019 aktiviert lassen und einfach softwareseitig ASPM deaktivieren mit pcie_aspm=off, aber dann ist ASPM glaube ich für alle Gerätearten deaktiviert.

 

Ich hatte keine Lust mehr mich damit rumzuschlagen. Habe die WD verkauft und mir eine Kioxia Exceria Plus G2 gekauft. Dazu dann noch das Glück zwei Samsung 970 Evo Plus von der alten "besseren" Generation zu bekommen. Damit keinerlei Probleme mehr und alles läuft stabil.

 

  • Like 1
Link to comment

@JonasH

 

Danke für deine Rückmeldung! Hattest du, als du die Versuche gemacht hast, bereits die letzte Bios Version (F5) vom 29.11.2021  oder noch die F4 ?

 

Ob man die Änderung nun über den Config Editor macht oder direkt über die Option in Flash Laufwerke sollte ja keine Rolle spielen, denk ich jedenfalls, korrigiert mich bitte wenn ich da falsch liege!✍️

 

DU sagst du hattest dann die Meldung viel seltener aufgetreten ist. In was für Abständen ca. weist du dasa noch? 

Bei mir kommt wirklich sekündlich die Meldung.

 

Ich probiere es jetzt nochmal mit den Zusatz  " pcie_aspm=off " wie von dir vorgeschlagen. Sitze gerade leider nicht direkt am Rechner, sonst würde ich gerne mal das BIOS Update probieren! 

 

Unter den Energiesparmaßnahmen habe ich bis jetzt folgende Optionen gesetzt:

 

Audio --> deaktivert

CEC2019 --> aktiviert

Platform Power Management --> aktiviert

C-States Control --> aktivert

                CPU Enhanced HALT (C1E) --> aktivert

                C3 State Support --> aktivert

                C6/C7 State Support --> aktivert

                C8 State Support --> aktivert

                C10 State Support --> aktivert

CPU EIST Function --> aktivert

Race TO HALT (RTH) --> aktivert

Voltage Opimization --> aktivert

 

 

Link to comment
3 hours ago, SidM said:

Danke für deine Rückmeldung! Hattest du, als du die Versuche gemacht hast, bereits die letzte Bios Version (F5) vom 29.11.2021  oder noch die F4 ?

Habe es leider mit der F4 nicht probiert. Nur mit der neuesten F5. Habe noch vor der ersten Unraid Installation gleich das Bios geupdatet.

 

Quote

Ob man die Änderung nun über den Config Editor macht oder direkt über die Option in Flash Laufwerke sollte ja keine Rolle spielen, denk ich jedenfalls, korrigiert mich bitte wenn ich da falsch liege!✍️

Ja ist egal. Finde es nur einfacher.

 

Quote

DU sagst du hattest dann die Meldung viel seltener aufgetreten ist. In was für Abständen ca. weist du dasa noch? 

Bei mir kommt wirklich sekündlich die Meldung.

Also bei mir war es ohne nvme_core.default_ps_max_latency_us=5500 auch sehr oft. Mindestens einmal pro Minute.

Mit ist es viel weniger gewesen. Da waren es bei mir vielleicht alle 6 Stunden dann einmal. Kam aber auch auf die Aktivität der SSD an. Viele Read/Write Vorgänge = mehr Fehlermeldungen.

 

Normalerweise sind diese Meldungen auch alle harmlos, aber halt nervig.

Link to comment
  • 11 months later...
On 2/19/2022 at 10:07 PM, JonasH said:

Also bei mir war es ohne nvme_core.default_ps_max_latency_us=5500 auch sehr oft. Mindestens einmal pro Minute.

Mit ist es viel weniger gewesen. Da waren es bei mir vielleicht alle 6 Stunden dann einmal

 

Kannst du von deiner NVMe mal das ausgeben lassen:

 

smartctl -a /dev/nvme0

 

 

Link to comment
  • mgutt changed the title to C246N-WU2 - Kein Spindown nach Hardwareaustausch mit aktiviertem powertop

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.