Ford Prefect Posted June 11, 2021 Share Posted June 11, 2021 3 hours ago, Anym001 said: Ich hab gar keine USV. ^^ ...ok, hmpf 🤐 Quote Link to comment
jj1987 Posted June 11, 2021 Share Posted June 11, 2021 (edited) 31 minutes ago, Ford Prefect said: ...ok, hmpf 🤐 Ich glaube die Meldung rührt eher daher, dass Powertop ursprünglich mal für Laptops gedacht war und die interne (Laptop-)Batterie getestet werden sollte. Und da der 08/15 Unraid-Server kein eingebautes Battery-Pack hat gibt's dazu auch keine Statistik, die somit dann auch nicht geladen werden kann Edited June 11, 2021 by jj1987 3 Quote Link to comment
mgutt Posted June 11, 2021 Share Posted June 11, 2021 1 hour ago, Anym001 said: Komisch das das aber nur auftritt wenn powertop aktiv ist? Aber der tsc Fehler kommt immer oder? Vielleicht ist es wie du sagst, dass C10 der Auslöser ist und erst powertop verursacht hat C10. Also nur ein Folgefehler. Aber warum hast du überhaupt C10 und ich nicht. Das muss ich noch mal testen. Du könntest C10 denke ich verhindern, wenn du einen HDMI Dummy in die Buchse steckst. Mit ständig aktiver iGPU kann er meine ich nicht unter C8 fallen. 1 hour ago, Anym001 said: Meiner Meinung nach gab es zwar Fehler, die aber durch ECC korrigiert wurden und somit keine Fehler sind. Verstehe ich das richtig? Nein, das sind Fehler. Der RAM hat daher vermutlich eine Macke. ECC darf zwar korrigieren, aber nur wenn zb kosmische Strahlung ein Bit kippen lässt und nicht einfach so. Vielleicht gab es ja gerade Strahlung, wäre aber ein komischer Zufall. 1 hour ago, Anym001 said: Das gleiche Netzteil war auch schon bei den “alten” Komponenten verbaut. Hier gab es keine Fehler. Das muss nichts heißen. Vielleicht ist das Board pingeliger?! Du hattest ja noch eine PicoPSU. Ich würde es damit auch einfach mal probieren um auch das Problem auszuschließen. Quote Link to comment
Anym001 Posted June 11, 2021 Author Share Posted June 11, 2021 1 hour ago, mgutt said: Aber der tsc Fehler kommt immer oder? Ja immer wenn SATA Link Power Management per Befehl oder powertop --auto-tune aktiviert wird. Ansonsten nicht. 1 hour ago, mgutt said: Nein, das sind Fehler. Der RAM hat daher vermutlich eine Macke. Wäre interessant was da wirklich die Fehler verursacht. Teste die Tage noch einen RAM Riegel eines Freundes. (ohne ECC) 1 hour ago, mgutt said: Du hattest ja noch eine PicoPSU. Ich würde es damit auch einfach mal probieren um auch das Problem auszuschließen. Habe die PicoPSU gerade getestet. Mit der treten die Fehlermeldungen genauso auf. Also das Netzteil ist es schon mal nicht. Quote Link to comment
mgutt Posted June 11, 2021 Share Posted June 11, 2021 18 minutes ago, Anym001 said: Wäre interessant was da wirklich die Fehler verursacht. Naja, kaputter RAM wäre halt kaputt. Da sind ja Millionen Adressbereiche in dem RAM. Wenn da einzelne eine Macke haben, wäre das persistent. Das könntest du durch einen wiederholten RAM Test verifizieren. 18 minutes ago, Anym001 said: Ja immer wenn SATA Link Power Management per Befehl oder powertop --auto-tune aktiviert wird. Ansonsten nicht. Ja aber das mit tsc wird doch beim Booten noch lange vorher gemacht, bevor das Nerd Pack und dann eben auch powertop installiert wird?! Sollte es daran liegen, denke ich aber eher, dass es an C10 als an dem Befehl an sich liegt. Noch eine Idee: Resette das BIOS und lass CEC 2019 aus. CEC 2019 reduziert ja die Spannungen soweit wie möglich. Vielleicht kollidiert das mit C10. Quote Link to comment
Anym001 Posted June 11, 2021 Author Share Posted June 11, 2021 15 minutes ago, mgutt said: Ja aber das mit tsc wird doch beim Booten noch lange vorher gemacht, bevor das Nerd Pack und dann eben auch powertop installiert wird?! Sollte es daran liegen, denke ich aber eher, dass es an C10 als an dem Befehl an sich liegt. Habe gerade nochmal versucht auf C8 einzuschränken im BIOS -> wird einfach ignoriert, er geht trotzdem in C10 (keine Befehle hinsichtlich powertop aktiv) 16 minutes ago, mgutt said: Noch eine Idee: Resette das BIOS und lass CEC 2019 aus. CEC 2019 reduziert ja die Spannungen soweit wie möglich. Vielleicht kollidiert das mit C10. Soeben nochmal ohne CEC 2019 gebootet. -> Leider ohne Erfolg. Beim testen mit dem RAM Riegel meines Freundes. Ist es egal, wenn das kein ECC ist? Quote Link to comment
mgutt Posted June 11, 2021 Share Posted June 11, 2021 27 minutes ago, Anym001 said: Beim testen mit dem RAM Riegel meines Freundes. Ist es egal, wenn das kein ECC ist? Ja das ist egal. Entweder sind die Fehler weg oder nicht. Wenn die Fehler noch da sind, könntest du mit dem RAM auch noch mal einen Test machen. Es soll ja auch mal CPUs geben, die Bits kippen lassen. Quote Link to comment
mgutt Posted June 11, 2021 Share Posted June 11, 2021 13 hours ago, Anym001 said: er geht trotzdem in C10 (keine Befehle hinsichtlich powertop aktiv) Wieso kommst du in C10 und ich nicht?! Ich habe nun ohne HDMI und ohne USB Tastatur neu gestartet. Immer noch C9. Du liest das doch über das WebTerminal aus oder machst du das über einen externen SSH Client? EDIT: Ich sehe gerade, dass mein Testaufbau noch Unraid 6.9.1 nutzt. Mal schnell ein Update machen... Ne, das war es auch nicht. Immer noch C9. EDIT: Hast du den Intel iGPU Treiber installiert? Ich schon. Wenn ich in powertop mit der Pfeiltaste runterscrolle: Mit aktivem powertop --auto-tune erhalte ich nach wie vor tsc: cat /sys/devices/system/clocksource/clocksource0/current_clocksource tsc cat /sys/devices/system/clocksource/clocksource0/available_clocksource tsc hpet acpi_pm On 6/10/2021 at 11:56 AM, Anym001 said: 1. M.I.T. -> Advanced Frequency Settings -> Advanced CPU Settings -> C-Stats Control -> Enabled Die Option finde ich nicht. War die vom neueren BIOS? EDIT: Mir fällt auch gerade ein, dass ich einen USB 3.0 Stick verwende. Ich starte mal neu und packe einen USB 2.0 Kabel dazwischen... jetzt sieht mein Aufbau so aus, aber immer noch C9: Nutzt du auch diese USB Buchse? EDIT: Kann es sein, dass C10 erst ab der 9ten Intel Generation möglich ist? EDIT: Nein muss auch meiner können: https://www.intel.com/content/dam/www/public/us/en/documents/datasheets/8th-gen-core-family-datasheet-vol-1.pdf EDIT: Jetzt habe ich die Datei /boot/config/modprobe.d/i915.conf entfernt und erreiche nur noch C8: Hast du evtl einen anderen iGPU Treiber im Einsatz? Den von @ich777's Plugin zB? EDIT: Hast du evtl das Tipps & Tweaks Plugin aktiv und powersave eingestellt? Quote Link to comment
sonic6 Posted June 12, 2021 Share Posted June 12, 2021 ich lese jetzt seit ein paar Tagen still mit. Ich komme gar nicht erst über C3. Wird das an meinem HBA liegen? Quote Link to comment
Anym001 Posted June 12, 2021 Author Share Posted June 12, 2021 (edited) 9 hours ago, mgutt said: Du liest das doch über das WebTerminal aus oder machst du das über einen externen SSH Client? Direkt über das Webterminal. 9 hours ago, mgutt said: EDIT: Hast du den Intel iGPU Treiber installiert? Ich schon. Wenn ich in powertop mit der Pfeiltaste runterscrolle: Ja das wird bei mir auch angezeigt. (Näheres siehe weiter unten) 9 hours ago, mgutt said: Die Option finde ich nicht. War die vom neueren BIOS? Ja die war vom F2c. Bin mittlerweile wieder auf F1. 9 hours ago, mgutt said: Nutzt du auch diese USB Buchse? Ich habe mein LAN Kabel in der rechten Buchse angeschlossen und darunter meinen USB Stick. (3.0) 9 hours ago, mgutt said: Hast du evtl einen anderen iGPU Treiber im Einsatz? Den von @ich777's Plugin zB? Ich habe Intel_GPU_Top von @ich777 installiert für die Anwendung der iGPU in Jellyfin. 9 hours ago, mgutt said: EDIT: Hast du evtl das Tipps & Tweaks Plugin aktiv und powersave eingestellt? Ich hatte es mal aktiv. Aktuell nicht. Wie kann man den aktuellen Zustand auslesen. (Also Performance oder Powersave) Kurze Zwischenfrage: Das Syslog ist voll mit den RAM Meldungen. Normalerweise mache ich am WE mein Backup auf die externe HDD. Ist es schlau in dieser Situation überhaupt Backups zu machen? Kann ich den Server trotzdem laufen lassen? (Erreichbarkeit Nextcloud usw.) Edited June 12, 2021 by Anym001 Quote Link to comment
mgutt Posted June 12, 2021 Share Posted June 12, 2021 58 minutes ago, Anym001 said: Ist es schlau in dieser Situation überhaupt Backups zu machen? Kann ich den Server trotzdem laufen lassen? (Erreichbarkeit Nextcloud usw.) Es ist auf jeden Fall ein Ritt auf der Klinge. Denn sobald Linux es nicht mehr schafft mit dem ECC Bit den Fehler zu korrigieren, hast du korrupte Daten. Nach dem RAM Wechsel, solltest du in jedem Fall einen Parity Check machen. 1 hour ago, Anym001 said: Wie kann man den aktuellen Zustand auslesen. (Also Performance oder Powersave) cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor 1 hour ago, sonic6 said: Wird das an meinem HBA liegen? Ja. Sobald eine PCIe Karte eingesteckt wird und diese in Benutzung ist, kommt man nicht mehr unter C3. 1 Quote Link to comment
Anym001 Posted June 12, 2021 Author Share Posted June 12, 2021 Just now, mgutt said: cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor Quote Link to comment
mgutt Posted June 12, 2021 Share Posted June 12, 2021 On 6/10/2021 at 8:23 PM, mgutt said: Das F1 BIOS sichern geht nur über Windows oder? Usage : efiflash [Input or Output File Name] [Command].. Switch options for Efiflash.exe: /C - Clear DMI data. (default: Keep DMI data) /S - Save Original BIOS Image to Disk /R - Reboot System after BIOS Update /DB- Update both main & backup BIOS Du hattest dafür extra Windows installiert? Quote Link to comment
mgutt Posted June 12, 2021 Share Posted June 12, 2021 5 hours ago, Anym001 said: Ich habe mein LAN Kabel in der rechten Buchse angeschlossen und darunter meinen USB Stick. (3.0) Jetzt kommt der Hammer. Ich habe das nun auch so: Und wir staunen: powertop geht super lahm auf und ich sehe nun auch C10: Für mich ein klares Indiz, dass C10 einen Bug hat (entweder C10 selbst oder eben auf dem Board). Ich probiere jetzt gerade mal aus, ob das auch passiert, wenn man nur das LAN Kabel umsteckt.... das reicht schon. Also links LAN und rechts USB und ich bleibe bei C9. Jetzt mal beides links... auch da keine Probleme und er geht nicht unter C9. Ich denke mal der rechte Port ist der Chipsatz Port und der linke mit dem extra Controller. Daher der Unterschied. Könnte also gut sein, dass es schon reicht, wenn du zwei LAN-Kabel einsteckst. Kannst du ja mal testen. Glückwunsch. Du hast was Besonderes herausgefunden ^^ Jetzt bin ich gespannt ob die RAM-Fehler nun auch verschwinden. In C10 takten die VRMs runter und evtl ist dann die Spannung zum RAM auch zu niedrig. Wobei der RAM Test war ja ohne Powertop richtig? Dann wäre der RAM ja trotzdem defekt. Oder macht mal einen RAM Test, wenn du die Sachen umgesteckt hast und sicher bist, dass du nur noch C9 erreichst. Wie hast du den RAM Test eigentlich gemacht? Weil der von Unraid sieht ja anders aus. 1 Quote Link to comment
Anym001 Posted June 12, 2021 Author Share Posted June 12, 2021 (edited) 1 hour ago, mgutt said: Für mich ein klares Indiz, dass C10 einen Bug hat (entweder C10 selbst oder eben auf dem Board). Ich probiere jetzt gerade mal aus, ob das auch passiert, wenn man nur das LAN Kabel umsteckt.... das reicht schon. Also links LAN und rechts USB und ich bleibe bei C9. Jetzt mal beides links... auch da keine Probleme und er geht nicht unter C9. Ich denke mal der rechte Port ist der Chipsatz Port und der linke mit dem extra Controller. Daher der Unterschied. Könnte also gut sein, dass es schon reicht, wenn du zwei LAN-Kabel einsteckst. Kannst du ja mal testen. Das ist ja mal echt interessant. ^^ Habe nun auch auf die linke Buchse gewechselt und den USB-Stick ganz links in die rote Buchse gesteckt. Der tsc Fehler ist nun weg und ich komm auch nur mehr in den C9 State. (powertop --auto-tune im go file aktiv) Quote Jun 12 13:02:11 nas kernel: ahci 0000:00:17.0: port does not support device sleep Diese Meldung kommt bei Aktivierung von powertop --auto-tune trotzdem noch. Werde aber noch beobachten ob er nun in Spindown geht oder nicht. -> Melde mich dazu noch. Quote Jun 12 13:06:29 nas kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8) Jun 12 13:06:30 nas kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8) Die RAM Fehler kommen trotzdem noch. Hier müsste für den Händler eigentlich reichen für einen Umtausch wenn ich ihm die Ergebnisse vom Memtest und die obenstehenden Fehler zuschicke oder? (Ich meine mich erinnern zu können, dass das Siegel beim RAM Riegel bei Anlieferung kaputt war -> Vielleicht wurde der schon mal getauscht) 2 hours ago, mgutt said: Du hattest dafür extra Windows installiert? Nein ich hab das BIOS Update direkt im BIOS via Q-Flash gemacht. EDIT: Quote Jun 12 13:07:35 nas ntpd[1748]: kernel reports TIME_ERROR: 0x41: Clock Unsynchronized Folgendes kommt auch. tsc ist aber trotzdem aktiv. Edited June 12, 2021 by Anym001 Quote Link to comment
mgutt Posted June 12, 2021 Share Posted June 12, 2021 7 minutes ago, Anym001 said: Diese Meldung kommt bei Aktivierung von powertop --auto-tune trotzdem noch. Bei mir auch, aber hat ja scheinbar keine Auswirkungen. Ich denke mal damit ist gemeint, dass der SATA Controller selbst nicht schlafen gehen kann, was ja auch logisch ist, weil sonst ja alle Platten weg wären. 8 minutes ago, Anym001 said: Hier müsste für den Händler eigentlich reichen für einen Umtausch wenn ich ihm die Ergebnisse vom Memtest und die obenstehenden Fehler zuschicke oder? Das oder über den Hersteller. 18 minutes ago, Anym001 said: Quote Jun 12 13:07:35 nas ntpd[1748]: kernel reports TIME_ERROR: 0x41: Clock Unsynchronized Wie gesagt. Das hat glaube ich jeder. Ich habe jedenfalls noch keine Log ohne diesen Fehler gesehen. Quote Link to comment
Anym001 Posted June 12, 2021 Author Share Posted June 12, 2021 (edited) 22 minutes ago, mgutt said: Bei mir auch, aber hat ja scheinbar keine Auswirkungen. Ich denke mal damit ist gemeint, dass der SATA Controller selbst nicht schlafen gehen kann, was ja auch logisch ist, weil sonst ja alle Platten weg wären. Stimmt, macht Sinn. Spindown funktioniert nun mit aktiviertem powertop. Juhu ^^ EDIT: Der Verbrauch im Idle liegt nun bei ca. 8,5W im Vergleich zu 12,5W von vorhin. 22 minutes ago, mgutt said: Das oder über den Hersteller. Alles klar dann werde ich mir da mal einen neuen Riegel besorgen. Den von meinem Freund kann ich leider doch nicht testen, weil der nicht aufs Board passt. Edited June 12, 2021 by Anym001 Quote Link to comment
mgutt Posted June 12, 2021 Share Posted June 12, 2021 Hattest du den RAM schon mal rausgenommen und wieder eingesetzt? Vielleicht hilfts ja. Quote Link to comment
Anym001 Posted June 12, 2021 Author Share Posted June 12, 2021 Just now, mgutt said: Hattest du den RAM schon mal rausgenommen und wieder eingesetzt? Vielleicht hilfts ja. Ich hab den Channel schon mal gewechselt. Gleiche Fehlermeldungen. (Nur mit Info das es beim anderen Channel auftritt) Quote Link to comment
mgutt Posted June 20, 2021 Share Posted June 20, 2021 Beim Bug Report zum C10 wurde mir das gepostet: CoffeeLake has a broken HPET. Please add "hpet=disable" to the kernel command line. Das hattest du schon probiert @Anym001 oder? Du hast jetzt mein Board, daher kann ich es nicht testen ^^ Quote Link to comment
Anym001 Posted June 20, 2021 Author Share Posted June 20, 2021 1 hour ago, mgutt said: Das hattest du schon probiert @Anym001 oder? Nein ich hatte hpet=enable getestet. Werde hpet=disable mal Testen und dann berichten. Quote Link to comment
mgutt Posted June 20, 2021 Share Posted June 20, 2021 57 minutes ago, Anym001 said: Werde hpet=disable mal Testen und dann berichten. Dann check auch gleich das: Quote Which kernel version are you using? Also please provide the output of lscpi -nn | grep Host Quote Link to comment
mgutt Posted June 20, 2021 Share Posted June 20, 2021 So ich bin jetzt bei meinem Server mit dem C246N-WU2 auch auf Unraid 6.9.2 und was soll ich sagen. Auch alles voller ECC Fehler (wo ich vorher keine hatte) Jun 20 13:25:02 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8) Jun 20 13:25:02 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8) Jun 20 13:27:38 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:8) Jun 20 13:27:38 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8) Jun 20 13:27:53 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:8) Jun 20 13:27:53 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8) Jun 20 13:28:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8) Jun 20 13:28:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8) Jun 20 13:30:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8) Jun 20 13:30:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8) Und wenn ich das richtig verstehe, liegt das nicht am RAM, sondern an Linux bzw dem BIOS: https://bugzilla.redhat.com/show_bug.cgi?id=564274 Dort wird empfohlen Quick Boot und Memory Remapping im BIOS zu deaktivieren. Muss ich mal checken was ich davon aktiv habe bzw ich muss dann auch erst mal ein BIOS Update ausprobieren. Quote Link to comment
mgutt Posted June 20, 2021 Share Posted June 20, 2021 Ich hatte mehrfach neu gebootet, aber die EDAC Fehler blieben. Jetzt habe ich das BIOS Update auf F2c gemacht und die Fehler sind weg. Allerdings habe ich auch die 10G Karte aktuell ausgebaut, da ich auch haufenweise solche Fehler in den Logs hatte: pcieport 0000:00:1d.0: AER: Corrected error received: 0000:05:00.0 Vielleicht besteht also auch da noch ein Zusammenhang?! @Anym001 Wenn ich das richtig verstehe, hattest du die EDAC Fehler erst nach deinem Downgrade oder? Quote Link to comment
Anym001 Posted June 20, 2021 Author Share Posted June 20, 2021 1 hour ago, mgutt said: Wenn ich das richtig verstehe, hattest du die EDAC Fehler erst nach deinem Downgrade oder? Dadurch ich so viel durchgetestet habe bin ich mir nicht mehr zu 100% sicher. Aber ich glaube schon. Werde es bei den nächsten Tests mitberücksichtigen. Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.