Kein Spindown nach Hardwareaustausch mit aktiviertem powertop


Recommended Posts

On 6/20/2021 at 2:06 PM, mgutt said:

So ich bin jetzt bei meinem Server mit dem C246N-WU2 auch auf Unraid 6.9.2 und was soll ich sagen. Auch alles voller ECC Fehler (wo ich vorher keine hatte)


Jun 20 13:25:02 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:25:02 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:38 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:38 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:53 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:53 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:28:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:28:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:30:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:30:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)

 

Und wenn ich das richtig verstehe, liegt das nicht am RAM, sondern an Linux bzw dem BIOS:

https://bugzilla.redhat.com/show_bug.cgi?id=564274

 

So ich hab jetzt nochmal getestet. 

Bin auf Unraid 6.9.2 und BIOS Update gemacht von F1 auf F2c. 

Dadurch keine EDAC MC0 Meldungen mehr im Syslog. 

Auch bei Memtest86 keine Meldungen mehr. 

 

Werde es in den nächsten Tagen mal beobachten.

 

On 6/20/2021 at 1:53 PM, mgutt said:

Werde hpet=disable mal Testen und dann berichten. 

 

Scheint zu funktionieren. 

Ohne diese "Einschränkung" wechselt er auf hpet. 

Mit "Einschränkung" bleibt er bei tsc. 

image.png.b8daecaa16bfd48c6c2635225227799c.png

 

On 6/20/2021 at 1:53 PM, mgutt said:

Which kernel version are you using? Also please provide the output of lscpi -nn | grep Host

 

Wie finde ich die Kernel Version raus? 

image.png.a1f88ae00a2d2a435d655d0177a06589.png

 

Link to comment
47 minutes ago, Anym001 said:

Scheint zu funktionieren. 

Ohne diese "Einschränkung" wechselt er auf hpet. 

Mit "Einschränkung" bleibt er bei tsc. 

Dh jetzt geht bei dir C10?

 

48 minutes ago, Anym001 said:

Also please provide the output of lscpi -nn | grep Host

Da ist ein Dreher drin. Das Kommando muss so heißen:

lspci -nn | grep Host

 

48 minutes ago, Anym001 said:

Wie finde ich die Kernel Version raus? 

so:

uname -a

 

Link to comment
  • 2 months later...
On 6/22/2021 at 2:22 PM, Anym001 said:

 

 

On 6/22/2021 at 2:17 PM, mgutt said:

lspci -nn | grep Host

image.thumb.png.be31da3cca0e134b96d364b5d48d0158.png

 

On 6/22/2021 at 2:17 PM, mgutt said:

uname -a

image.png.55a537b084233370d84d37cb4f771a16.png

 

 

Ich ergänze nun auch mal meins:

lspci -nn | grep Host
00:00.0 Host bridge [0600]: Intel Corporation 8th Gen Core Processor Host Bridge/DRAM Registers [8086:3ec6] (rev 07)
00:14.0 USB controller [0c03]: Intel Corporation Cannon Lake PCH USB 3.1 xHCI Host Controller [8086:a36d] (rev 10)
uname -a
Linux thoth 5.10.28-Unraid #1 SMP Wed Apr 7 08:23:18 PDT 2021 x86_64 Intel(R) Xeon(R) E-2146G CPU @ 3.50GHz GenuineIntel GNU/Linux

 

Ich habe aktuell nämlich selten diese Meldung (absolut zufällig, und teilweise Stunden auseinander):

Aug 22 15:55:31 thoth kernel: pcieport 0000:00:1d.0: AER: Corrected error received: 0000:04:00.0
Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0:   device [15b7:5006] error status/mask=00000001/0000e000

 

Als BIOS verwende ich auch schon F2c. Allerdings habe ich dauerhaft tsc, auch wenn ich hpet nicht deaktiviert habe:

cat /sys/devices/system/clocksource/clocksource0/available_clocksource
tsc hpet acpi_pm
cat /sys/devices/system/clocksource/clocksource0/current_clocksource
tsc

 

Aber wer weiß. Vielleicht wechselt er ja für eine Millisekunde auf hpt und dann wieder zurück und dadurch kommt der Fehler. Daher habe ich jetzt auch hpet=disable in die syslinux.cfg gepackt:

image.png.7258e0aafaac20d77770ef4bc071bf77.png

 

Mal sehen ob es hilft.

Link to comment

Ok, das hat es offensichtlich nicht gebracht 😅

 

image.png.4954ed41c6abd35b38c4386fc866cdb6.png

 

 

Dass die Fehler jetzt häufiger kommen ist aber denke ich Zufall.

 

Die meisten im Netz empfehlen pcie_aspm=off. Das werde ich jetzt mal kurz testen, aber dauerhaft möchte ich das nicht nutzen, weil dann ja alle PCIE Geräte aktiv bleiben. Besser wäre es nur die NVMe zu anders einzustellen, wenn es das denn ist.

 

Link to comment
32 minutes ago, mgutt said:

Ok, das hat es offensichtlich nicht gebracht 😅

 

Schaut nicht ganz so aus. 😅

 

Ich hab seither keine Probleme mehr damit. 

Habe allerdings bis dato auch keine NVME verbaut. 

Kann es eventuell daran liegen?

Link to comment
  • 4 weeks later...

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.