Kein Spindown nach Hardwareaustausch mit aktiviertem powertop


Recommended Posts

31 minutes ago, Ford Prefect said:

...ok, hmpf 🤐

Ich glaube die Meldung rührt eher daher, dass Powertop ursprünglich mal für Laptops gedacht war und die interne (Laptop-)Batterie getestet werden sollte. Und da der 08/15 Unraid-Server kein eingebautes Battery-Pack hat gibt's dazu auch keine Statistik, die somit dann auch nicht geladen werden kann ;-)

Edited by jj1987
  • Like 3
Link to comment
1 hour ago, Anym001 said:

Komisch das das aber nur auftritt wenn powertop aktiv ist? 

Aber der tsc Fehler kommt immer oder?

 

Vielleicht ist es wie du sagst, dass C10 der Auslöser ist und erst powertop verursacht hat C10. Also nur ein Folgefehler.

 

Aber warum hast du überhaupt C10 und ich nicht. Das muss ich noch mal testen.

 

Du könntest C10 denke ich verhindern, wenn du einen HDMI Dummy in die Buchse steckst. Mit ständig aktiver iGPU kann er meine ich nicht unter C8 fallen.

 

1 hour ago, Anym001 said:

Meiner Meinung nach gab es zwar Fehler, die aber durch ECC korrigiert wurden und somit keine Fehler sind. Verstehe ich das richtig?

Nein, das sind Fehler. Der RAM hat daher vermutlich eine Macke. ECC darf zwar korrigieren, aber nur wenn zb kosmische Strahlung ein Bit kippen lässt und nicht einfach so. Vielleicht gab es ja gerade Strahlung, wäre aber ein komischer Zufall.

 

1 hour ago, Anym001 said:

Das gleiche Netzteil war auch schon bei den “alten” Komponenten verbaut. Hier gab es keine Fehler. 

Das muss nichts heißen. Vielleicht ist das Board pingeliger?! Du hattest ja noch eine PicoPSU. Ich würde es damit auch einfach mal probieren um auch das Problem auszuschließen.

Link to comment
1 hour ago, mgutt said:

Aber der tsc Fehler kommt immer oder?

 

Ja immer wenn SATA Link Power Management per Befehl oder powertop --auto-tune aktiviert wird.

Ansonsten nicht.

 

1 hour ago, mgutt said:

Nein, das sind Fehler. Der RAM hat daher vermutlich eine Macke.

 

Wäre interessant was da wirklich die Fehler verursacht.

Teste die Tage noch einen RAM Riegel eines Freundes. (ohne ECC)

 

1 hour ago, mgutt said:

Du hattest ja noch eine PicoPSU. Ich würde es damit auch einfach mal probieren um auch das Problem auszuschließen.

 

Habe die PicoPSU gerade getestet.

Mit der treten die Fehlermeldungen genauso auf.

Also das Netzteil ist es schon mal nicht.

Link to comment
18 minutes ago, Anym001 said:

Wäre interessant was da wirklich die Fehler verursacht.

Naja, kaputter RAM wäre halt kaputt. Da sind ja Millionen Adressbereiche in dem RAM. Wenn da einzelne eine Macke haben, wäre das persistent. Das könntest du durch einen wiederholten RAM Test verifizieren.

 

 

18 minutes ago, Anym001 said:

Ja immer wenn SATA Link Power Management per Befehl oder powertop --auto-tune aktiviert wird.

Ansonsten nicht.

Ja aber das mit tsc wird doch beim Booten noch lange vorher gemacht, bevor das Nerd Pack und dann eben auch powertop installiert wird?!

 

Sollte es daran liegen, denke ich aber eher, dass es an C10 als an dem Befehl an sich liegt.

 

Noch eine Idee:

Resette das BIOS und lass CEC 2019 aus. CEC 2019 reduziert ja die Spannungen soweit wie möglich. Vielleicht kollidiert das mit C10.

 

Link to comment
15 minutes ago, mgutt said:

Ja aber das mit tsc wird doch beim Booten noch lange vorher gemacht, bevor das Nerd Pack und dann eben auch powertop installiert wird?!

 

Sollte es daran liegen, denke ich aber eher, dass es an C10 als an dem Befehl an sich liegt.

 

Habe gerade nochmal versucht auf C8 einzuschränken im BIOS -> wird einfach ignoriert, er geht trotzdem in C10 (keine Befehle hinsichtlich powertop aktiv)

 

16 minutes ago, mgutt said:

Noch eine Idee:

Resette das BIOS und lass CEC 2019 aus. CEC 2019 reduziert ja die Spannungen soweit wie möglich. Vielleicht kollidiert das mit C10.

 

Soeben nochmal ohne CEC 2019 gebootet. -> Leider ohne Erfolg.

 

 

Beim testen mit dem RAM Riegel meines Freundes.

Ist es egal, wenn das kein ECC ist?

Link to comment
13 hours ago, Anym001 said:

er geht trotzdem in C10 (keine Befehle hinsichtlich powertop aktiv)

Wieso kommst du in C10 und ich nicht?! Ich habe nun ohne HDMI und ohne USB Tastatur neu gestartet. Immer noch C9. Du liest das doch über das WebTerminal aus oder machst du das über einen externen SSH Client?

 

image.png.ced7b018dbcae954a4d36a9241e55f23.png

 

EDIT: Ich sehe gerade, dass mein Testaufbau noch Unraid 6.9.1 nutzt. Mal schnell ein Update machen... Ne, das war es auch nicht. Immer noch C9.

 

EDIT: Hast du den Intel iGPU Treiber installiert? Ich schon. Wenn ich in powertop mit der Pfeiltaste runterscrolle:

image.png.6dbdc16bb9433a963bb0b8993769ab68.png

 

Mit aktivem powertop --auto-tune erhalte ich nach wie vor tsc:

cat /sys/devices/system/clocksource/clocksource0/current_clocksource                                      
tsc
cat /sys/devices/system/clocksource/clocksource0/available_clocksource
tsc hpet acpi_pm 

 

On 6/10/2021 at 11:56 AM, Anym001 said:

1. M.I.T. -> Advanced Frequency Settings -> Advanced CPU Settings -> C-Stats Control -> Enabled

Die Option finde ich nicht. War die vom neueren BIOS?

 

EDIT: Mir fällt auch gerade ein, dass ich einen USB 3.0 Stick verwende. Ich starte mal neu und packe einen USB 2.0 Kabel dazwischen... jetzt sieht mein Aufbau so aus, aber immer noch C9:

image.thumb.png.c7a06ede5e00ff2355ed5f52720e387d.png

 

Nutzt du auch diese USB Buchse?

image.thumb.png.e00b9dfe9e7df375d0807c410874c871.png

 

EDIT: Kann es sein, dass C10 erst ab der 9ten Intel Generation möglich ist?

 

EDIT: Nein muss auch meiner können:

https://www.intel.com/content/dam/www/public/us/en/documents/datasheets/8th-gen-core-family-datasheet-vol-1.pdf

 

EDIT: Jetzt habe ich die Datei /boot/config/modprobe.d/i915.conf entfernt und erreiche nur noch C8:

image.png.b752ace4f7904d900b6c3a88f322e1cb.png

 

Hast du evtl einen anderen iGPU Treiber im Einsatz? Den von @ich777's Plugin zB?

 

EDIT: Hast du evtl das Tipps & Tweaks Plugin aktiv und powersave eingestellt?

Link to comment
Posted (edited)
9 hours ago, mgutt said:

Du liest das doch über das WebTerminal aus oder machst du das über einen externen SSH Client?


Direkt über das Webterminal. 
 

9 hours ago, mgutt said:

EDIT: Hast du den Intel iGPU Treiber installiert? Ich schon. Wenn ich in powertop mit der Pfeiltaste runterscrolle:


Ja das wird bei mir auch angezeigt. (Näheres siehe weiter unten)
 

9 hours ago, mgutt said:

Die Option finde ich nicht. War die vom neueren BIOS?


Ja die war vom F2c. 
Bin mittlerweile wieder auf F1. 
 

9 hours ago, mgutt said:

Nutzt du auch diese USB Buchse?


Ich habe mein LAN Kabel in der rechten Buchse angeschlossen und darunter meinen USB Stick. (3.0)

 

9 hours ago, mgutt said:

Hast du evtl einen anderen iGPU Treiber im Einsatz? Den von @ich777's Plugin zB?


Ich habe Intel_GPU_Top von @ich777 installiert für die Anwendung der iGPU in Jellyfin. 
 

9 hours ago, mgutt said:

EDIT: Hast du evtl das Tipps & Tweaks Plugin aktiv und powersave eingestellt?


Ich hatte es mal aktiv. 
Aktuell nicht. 
Wie kann man den aktuellen Zustand auslesen. (Also Performance oder Powersave)

 

Kurze Zwischenfrage:

Das Syslog ist voll mit den RAM Meldungen. 
Normalerweise mache ich am WE mein Backup auf die externe HDD. 

Ist es schlau in dieser Situation überhaupt Backups zu machen?

Kann ich den Server trotzdem laufen lassen? (Erreichbarkeit Nextcloud usw.)

Edited by Anym001
Link to comment
58 minutes ago, Anym001 said:

Ist es schlau in dieser Situation überhaupt Backups zu machen?

Kann ich den Server trotzdem laufen lassen? (Erreichbarkeit Nextcloud usw.)

Es ist auf jeden Fall ein Ritt auf der Klinge. Denn sobald Linux es nicht mehr schafft mit dem ECC Bit den Fehler zu korrigieren, hast du korrupte Daten.

 

Nach dem RAM Wechsel, solltest du in jedem Fall einen Parity Check machen.

 

1 hour ago, Anym001 said:

Wie kann man den aktuellen Zustand auslesen. (Also Performance oder Powersave)

 

cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor

 

1 hour ago, sonic6 said:

Wird das an meinem HBA liegen?

Ja. Sobald eine PCIe Karte eingesteckt wird und diese in Benutzung ist, kommt man nicht mehr unter C3.

 

 

  • Thanks 1
Link to comment
On 6/10/2021 at 8:23 PM, mgutt said:

Das F1 BIOS sichern geht nur über Windows oder?


Usage :
    efiflash [Input or Output File Name] [Command]..

   Switch options for Efiflash.exe:
    /C - Clear DMI data. (default: Keep DMI data)
    /S - Save Original BIOS Image to Disk
    /R - Reboot System after BIOS Update
    /DB- Update both main & backup BIOS

 

Du hattest dafür extra Windows installiert?

Link to comment

 

5 hours ago, Anym001 said:

Ich habe mein LAN Kabel in der rechten Buchse angeschlossen und darunter meinen USB Stick. (3.0)

Jetzt kommt der Hammer. Ich habe das nun auch so:

image.thumb.png.d9221f6ccf458ade644fe28963293f3a.png

 

Und wir staunen:

image.thumb.png.4130328f96b61c9a8cd62d4064302860.png

 

powertop geht super lahm auf und ich sehe nun auch C10:

image.png.ebf6f86034b4e30111fa30e33f653489.png

 

Für mich ein klares Indiz, dass C10 einen Bug hat (entweder C10 selbst oder eben auf dem Board). Ich probiere jetzt gerade mal aus, ob das auch passiert, wenn man nur das LAN Kabel umsteckt.... das reicht schon. Also links LAN und rechts USB und ich bleibe bei C9. Jetzt mal beides links... auch da keine Probleme und er geht nicht unter C9. Ich denke mal der rechte Port ist der Chipsatz Port und der linke mit dem extra Controller. Daher der Unterschied. Könnte also gut sein, dass es schon reicht, wenn du zwei LAN-Kabel einsteckst. Kannst du ja mal testen.

 

Glückwunsch. Du hast was Besonderes herausgefunden ^^

 

Jetzt bin ich gespannt ob die RAM-Fehler nun auch verschwinden. In C10 takten die VRMs runter und evtl ist dann die Spannung zum RAM auch zu niedrig. Wobei der RAM Test war ja ohne Powertop richtig? Dann wäre der RAM ja trotzdem defekt. Oder macht mal einen RAM Test, wenn du die Sachen umgesteckt hast und sicher bist, dass du nur noch C9 erreichst. Wie hast du den RAM Test eigentlich gemacht? Weil der von Unraid sieht ja anders aus.

  • Thanks 1
Link to comment
Posted (edited)
1 hour ago, mgutt said:

Für mich ein klares Indiz, dass C10 einen Bug hat (entweder C10 selbst oder eben auf dem Board). Ich probiere jetzt gerade mal aus, ob das auch passiert, wenn man nur das LAN Kabel umsteckt.... das reicht schon. Also links LAN und rechts USB und ich bleibe bei C9. Jetzt mal beides links... auch da keine Probleme und er geht nicht unter C9. Ich denke mal der rechte Port ist der Chipsatz Port und der linke mit dem extra Controller. Daher der Unterschied. Könnte also gut sein, dass es schon reicht, wenn du zwei LAN-Kabel einsteckst. Kannst du ja mal testen.

 

Das ist ja mal echt interessant. ^^

Habe nun auch auf die linke Buchse gewechselt und den USB-Stick ganz links in die rote Buchse gesteckt.

Der tsc Fehler ist nun weg und ich komm auch nur mehr in den C9 State. (powertop --auto-tune im go file aktiv)

 

Quote

Jun 12 13:02:11 nas kernel: ahci 0000:00:17.0: port does not support device sleep

Diese Meldung kommt bei Aktivierung von powertop --auto-tune trotzdem noch.

Werde aber noch beobachten ob er nun in Spindown geht oder nicht. -> Melde mich dazu noch.

 

Quote

Jun 12 13:06:29 nas kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)

Jun 12 13:06:30 nas kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8)

Die RAM Fehler kommen trotzdem noch.

Hier müsste für den Händler eigentlich reichen für einen Umtausch wenn ich ihm die Ergebnisse vom Memtest und die obenstehenden Fehler zuschicke oder? (Ich meine mich erinnern zu können, dass das Siegel beim RAM Riegel bei Anlieferung kaputt war -> Vielleicht wurde der schon mal getauscht)

 

2 hours ago, mgutt said:

Du hattest dafür extra Windows installiert?

 

Nein ich hab das BIOS Update direkt im BIOS via Q-Flash gemacht.

 

EDIT:

Quote

Jun 12 13:07:35 nas ntpd[1748]: kernel reports TIME_ERROR: 0x41: Clock Unsynchronized

Folgendes kommt auch.

tsc ist aber trotzdem aktiv.

Edited by Anym001
Link to comment
7 minutes ago, Anym001 said:

Diese Meldung kommt bei Aktivierung von powertop --auto-tune trotzdem noch.

Bei mir auch, aber hat ja scheinbar keine Auswirkungen. Ich denke mal damit ist gemeint, dass der SATA Controller selbst nicht schlafen gehen kann, was ja auch logisch ist, weil sonst ja alle Platten weg wären.

 

8 minutes ago, Anym001 said:

Hier müsste für den Händler eigentlich reichen für einen Umtausch wenn ich ihm die Ergebnisse vom Memtest und die obenstehenden Fehler zuschicke oder?

Das oder über den Hersteller.

 

18 minutes ago, Anym001 said:
Quote

Jun 12 13:07:35 nas ntpd[1748]: kernel reports TIME_ERROR: 0x41: Clock Unsynchronized

 

Wie gesagt. Das hat glaube ich jeder. Ich habe jedenfalls noch keine Log ohne diesen Fehler gesehen.

Link to comment
Posted (edited)
22 minutes ago, mgutt said:

Bei mir auch, aber hat ja scheinbar keine Auswirkungen. Ich denke mal damit ist gemeint, dass der SATA Controller selbst nicht schlafen gehen kann, was ja auch logisch ist, weil sonst ja alle Platten weg wären.


Stimmt, macht Sinn. 
Spindown funktioniert nun mit aktiviertem powertop. Juhu ^^ 

 

EDIT: Der Verbrauch im Idle liegt nun bei ca. 8,5W im Vergleich zu 12,5W von vorhin. 

 

22 minutes ago, mgutt said:

Das oder über den Hersteller.


Alles klar dann werde ich mir da mal einen neuen Riegel besorgen. 
Den von meinem Freund kann ich leider doch nicht testen, weil der nicht aufs Board passt. 

Edited by Anym001
Link to comment
Just now, mgutt said:

Hattest du den RAM schon mal rausgenommen und wieder eingesetzt? Vielleicht hilfts ja.


Ich hab den Channel schon mal gewechselt. 
Gleiche Fehlermeldungen. (Nur mit Info das es beim anderen Channel auftritt)

Link to comment

Beim Bug Report zum C10 wurde mir das gepostet:

CoffeeLake has a broken HPET. Please add "hpet=disable" to the kernel command line.

 

Das hattest du schon probiert @Anym001 oder? Du hast jetzt mein Board, daher kann ich es nicht testen ^^

Link to comment
57 minutes ago, Anym001 said:

Werde hpet=disable mal Testen und dann berichten. 

Dann check auch gleich das:

Quote

Which kernel version are you using? Also please provide the output of lscpi -nn | grep Host

 

Link to comment

So ich bin jetzt bei meinem Server mit dem C246N-WU2 auch auf Unraid 6.9.2 und was soll ich sagen. Auch alles voller ECC Fehler (wo ich vorher keine hatte)

Jun 20 13:25:02 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:25:02 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:38 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:38 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:53 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:27:53 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:28:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:28:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)
Jun 20 13:30:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8)
Jun 20 13:30:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8)

 

Und wenn ich das richtig verstehe, liegt das nicht am RAM, sondern an Linux bzw dem BIOS:

https://bugzilla.redhat.com/show_bug.cgi?id=564274

 

 

Dort wird empfohlen Quick Boot und Memory Remapping im BIOS zu deaktivieren. Muss ich mal checken was ich davon aktiv habe bzw ich muss dann auch erst mal ein BIOS Update ausprobieren.

Link to comment

Ich hatte mehrfach neu gebootet, aber die EDAC Fehler blieben. Jetzt habe ich das BIOS Update auf F2c gemacht und die Fehler sind weg. Allerdings habe ich auch die 10G Karte aktuell ausgebaut, da ich auch haufenweise solche Fehler in den Logs hatte:

pcieport 0000:00:1d.0: AER: Corrected error received: 0000:05:00.0

 

Vielleicht besteht also auch da noch ein Zusammenhang?!

 

@Anym001

Wenn ich das richtig verstehe, hattest du die EDAC Fehler erst nach deinem Downgrade oder?

 

Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.