Anym001 Posted June 22, 2021 Author Share Posted June 22, 2021 On 6/20/2021 at 2:06 PM, mgutt said: So ich bin jetzt bei meinem Server mit dem C246N-WU2 auch auf Unraid 6.9.2 und was soll ich sagen. Auch alles voller ECC Fehler (wo ich vorher keine hatte) Jun 20 13:25:02 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8) Jun 20 13:25:02 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8) Jun 20 13:27:38 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:8) Jun 20 13:27:38 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8) Jun 20 13:27:53 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#0 (csrow:1 channel:0 page:0x0 offset:0x0 grain:8) Jun 20 13:27:53 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#1channel#1 (csrow:1 channel:1 page:0x0 offset:0x0 grain:8) Jun 20 13:28:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8) Jun 20 13:28:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8) Jun 20 13:30:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#0 (csrow:0 channel:0 page:0x0 offset:0x0 grain:8) Jun 20 13:30:01 thoth kernel: EDAC MC0: 1 UE ie31200 UE on mc#0csrow#0channel#1 (csrow:0 channel:1 page:0x0 offset:0x0 grain:8) Und wenn ich das richtig verstehe, liegt das nicht am RAM, sondern an Linux bzw dem BIOS: https://bugzilla.redhat.com/show_bug.cgi?id=564274 So ich hab jetzt nochmal getestet. Bin auf Unraid 6.9.2 und BIOS Update gemacht von F1 auf F2c. Dadurch keine EDAC MC0 Meldungen mehr im Syslog. Auch bei Memtest86 keine Meldungen mehr. Werde es in den nächsten Tagen mal beobachten. On 6/20/2021 at 1:53 PM, mgutt said: Werde hpet=disable mal Testen und dann berichten. Scheint zu funktionieren. Ohne diese "Einschränkung" wechselt er auf hpet. Mit "Einschränkung" bleibt er bei tsc. On 6/20/2021 at 1:53 PM, mgutt said: Which kernel version are you using? Also please provide the output of lscpi -nn | grep Host Wie finde ich die Kernel Version raus? Quote Link to comment
mgutt Posted June 22, 2021 Share Posted June 22, 2021 47 minutes ago, Anym001 said: Scheint zu funktionieren. Ohne diese "Einschränkung" wechselt er auf hpet. Mit "Einschränkung" bleibt er bei tsc. Dh jetzt geht bei dir C10? 48 minutes ago, Anym001 said: Also please provide the output of lscpi -nn | grep Host Da ist ein Dreher drin. Das Kommando muss so heißen: lspci -nn | grep Host 48 minutes ago, Anym001 said: Wie finde ich die Kernel Version raus? so: uname -a Quote Link to comment
Anym001 Posted June 22, 2021 Author Share Posted June 22, 2021 3 minutes ago, mgutt said: Dh jetzt geht bei dir C10? Jap. 3 minutes ago, mgutt said: lspci -nn | grep Host 4 minutes ago, mgutt said: uname -a Quote Link to comment
mgutt Posted June 22, 2021 Share Posted June 22, 2021 10 minutes ago, Anym001 said: Jap Ui geil. Was sagt der Verbrauch? Quote Link to comment
Anym001 Posted June 22, 2021 Author Share Posted June 22, 2021 1 minute ago, mgutt said: Ui geil. Was sagt der Verbrauch? Mit deaktivierten Dockern und VM's schwankt er zwischen 6,9W und 7,4W. Mit aktivierten Dockern ca. 1W mehr. Quote Link to comment
mgutt Posted August 22, 2021 Share Posted August 22, 2021 On 6/22/2021 at 2:22 PM, Anym001 said: On 6/22/2021 at 2:17 PM, mgutt said: lspci -nn | grep Host On 6/22/2021 at 2:17 PM, mgutt said: uname -a Ich ergänze nun auch mal meins: lspci -nn | grep Host 00:00.0 Host bridge [0600]: Intel Corporation 8th Gen Core Processor Host Bridge/DRAM Registers [8086:3ec6] (rev 07) 00:14.0 USB controller [0c03]: Intel Corporation Cannon Lake PCH USB 3.1 xHCI Host Controller [8086:a36d] (rev 10) uname -a Linux thoth 5.10.28-Unraid #1 SMP Wed Apr 7 08:23:18 PDT 2021 x86_64 Intel(R) Xeon(R) E-2146G CPU @ 3.50GHz GenuineIntel GNU/Linux Ich habe aktuell nämlich selten diese Meldung (absolut zufällig, und teilweise Stunden auseinander): Aug 22 15:55:31 thoth kernel: pcieport 0000:00:1d.0: AER: Corrected error received: 0000:04:00.0 Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID) Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0: device [15b7:5006] error status/mask=00000001/0000e000 Als BIOS verwende ich auch schon F2c. Allerdings habe ich dauerhaft tsc, auch wenn ich hpet nicht deaktiviert habe: cat /sys/devices/system/clocksource/clocksource0/available_clocksource tsc hpet acpi_pm cat /sys/devices/system/clocksource/clocksource0/current_clocksource tsc Aber wer weiß. Vielleicht wechselt er ja für eine Millisekunde auf hpt und dann wieder zurück und dadurch kommt der Fehler. Daher habe ich jetzt auch hpet=disable in die syslinux.cfg gepackt: Mal sehen ob es hilft. Quote Link to comment
mgutt Posted August 23, 2021 Share Posted August 23, 2021 Ok, das hat es offensichtlich nicht gebracht 😅 Dass die Fehler jetzt häufiger kommen ist aber denke ich Zufall. Die meisten im Netz empfehlen pcie_aspm=off. Das werde ich jetzt mal kurz testen, aber dauerhaft möchte ich das nicht nutzen, weil dann ja alle PCIE Geräte aktiv bleiben. Besser wäre es nur die NVMe zu anders einzustellen, wenn es das denn ist. Quote Link to comment
Anym001 Posted August 23, 2021 Author Share Posted August 23, 2021 32 minutes ago, mgutt said: Ok, das hat es offensichtlich nicht gebracht 😅 Schaut nicht ganz so aus. 😅 Ich hab seither keine Probleme mehr damit. Habe allerdings bis dato auch keine NVME verbaut. Kann es eventuell daran liegen? Quote Link to comment
mgutt Posted August 23, 2021 Share Posted August 23, 2021 Also mit pcie_aspm=off ist Ruhe. Aber das geht natürlich zu Lasten des Stromverbrauchs. Wie viel kann ich gerade nicht sagen. Läuft zu viel ^^ Quote Link to comment
mgutt Posted September 15, 2021 Share Posted September 15, 2021 On 8/23/2021 at 5:00 PM, mgutt said: Also mit pcie_aspm=off ist Ruhe Jetzt mit der Samsung Evo Plus konnte ich die Einstellung wieder entfernen (vorher WD SN750). Fehler habe ich keine mehr. Ist also auch abhängig vom Modell. Quote Link to comment
mgutt Posted October 11, 2021 Share Posted October 11, 2021 On 6/22/2021 at 1:28 PM, Anym001 said: On 6/20/2021 at 1:53 PM, mgutt said: Werde hpet=disable mal Testen und dann berichten. Scheint zu funktionieren Gibt jetzt ein Update im Kernel dazu: https://www.phoronix.com/scan.php?page=news_item&px=Linux-5.15-rc5-x86 1 Quote Link to comment
JonasH Posted January 26, 2022 Share Posted January 26, 2022 (edited) On 8/22/2021 at 6:44 PM, mgutt said: Ich habe aktuell nämlich selten diese Meldung (absolut zufällig, und teilweise Stunden auseinander): Aug 22 15:55:31 thoth kernel: pcieport 0000:00:1d.0: AER: Corrected error received: 0000:04:00.0 Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID) Aug 22 15:55:31 thoth kernel: nvme 0000:04:00.0: device [15b7:5006] error status/mask=00000001/0000e000 Hatte ich auch mit dem C246M-WU4 und einer WD SN750, sobald im Bios PCH ASPM aktiviert ist. Tritt wohl bei manchen NVME SSDs auf, weil der Stromsparmodus nicht richtig gesetzt wird. Keine Ahnung warum WD das nicht behebt. Habe überlegt eine Samsung Evo Plus zu kaufen, da diese das Problem nicht haben soll. Die neue Version dieser SSD ist für mich aber leider zu langsam. Also weitergesucht und das Problem endlich behoben. Man muss das hier zum Kernel hinzufügen: nvme_core.default_ps_max_latency_us=5500 Edited January 26, 2022 by JonasH 3 Quote Link to comment
SidM Posted February 16, 2022 Share Posted February 16, 2022 @JonasH ich habe ebenfalls das C246M-WU4 und zwei WD SN750 1TB SSD´s verbaut und wollte mich jetzt auch mal den Energiesparen widmen. Mein LOG wird dabei aber auch sekündlich! mit: " Feb 16 19:33:37 Unraid kernel: pcieport 0000:00:1d.0: AER: Corrected error received: 0000:05:00.0 Feb 16 19:33:37 Unraid kernel: nvme 0000:05:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID) Feb 16 19:33:37 Unraid kernel: nvme 0000:05:00.0: device [15b7:5006] error status/mask=00000001/0000e000 Feb 16 19:33:37 Unraid kernel: nvme 0000:05:00.0: [ 0] RxErr „ gefüllt. Deinen Eintrag habe ich ausprobiert, bin mir aber auch nicht sicher an welcher stelle er genau eingesetzt werden muss. Wenn ich es so mache: dann bleibt es unverändert und wenn ich es so mache: dann wird nicht mehr in Unraid gebootet und ich muss erst über den Safemode booten und die änderung wieder rückgängig machen. Ich habe jetzt außerdem gesehen dass es seit dem 29.11.2021 auch ein neue BIOS Update (F5) für das C246M- WU4 gibt. Das werde ich mal noch die tage ausprobieren, vielleicht bringt es was. Ich habe noch die F4 bei mir drauf. Sonst noch eine Idee? Vielen Dank! Quote Link to comment
mgutt Posted February 17, 2022 Share Posted February 17, 2022 6 hours ago, SidM said: Deinen Eintrag habe ich ausprobiert, bin mir aber auch nicht sicher an welcher stelle er genau eingesetzt werden muss Es muss alles in einer Zeile stehen, ist also richtig. Den GUI Mode nutzt du nicht oder? Weil du hast die Option jetzt nur beim normalen Bootmodus ergänzt. Vielleicht wirklich mal ein BIOS Update machen. Quote Link to comment
SidM Posted February 17, 2022 Share Posted February 17, 2022 (edited) @mgutt okay also wie im ersten Versuch. Und muss das noch vor „initrd=/Boot“ eingefügt werden, so wie ich es gemacht habe, oder dahinter, oder spielt das wiederum keine Rolle? Und ja benutze Unraid nur im normalen Modi also ohne GUI. Hattest du dann auch nochmal ein Versuch mit deinen WD SN750 gestartet oder bist du jetzt bei den Samsung Evo Plus geblieben? Und noch etwas: Wenn ich Änderungen in der syslinux.cfg mache, dann muss ein Neustart erfolgen um die Änderung Wirksam zu machen, richtig? Edited February 17, 2022 by SidM Quote Link to comment
JonasH Posted February 19, 2022 Share Posted February 19, 2022 On 2/17/2022 at 11:06 AM, SidM said: Und muss das noch vor „initrd=/Boot“ eingefügt werden, so wie ich es gemacht habe, oder dahinter, oder spielt das wiederum keine Rolle? Du kannst das ohne Config Editor machen, indem du auf deinen USB Stick "Flash" klickst. Bei mir sah es dann so aus: Leider hat es den Fehler nicht vollständig behoben, ist aber viel seltener aufgetreten. Mein BIOS ist auf der neuesten Version und zurück geht nicht mehr. Das Problem liegt wirklich an der WD Nvme. Das Einzige was bei mir geholfen hat war, CEC 2019 im BIOS zu deaktivieren und alle Stromsparmaßnahmen wie C-States, niedrige Lüfterdrehzahl, etc. manuell zu aktivieren. Bei ASPM dann alles aktivieren außer PCH ASPM. Das löst den Fehler nämlich aus. Du kannst auch CEC 2019 aktiviert lassen und einfach softwareseitig ASPM deaktivieren mit pcie_aspm=off, aber dann ist ASPM glaube ich für alle Gerätearten deaktiviert. Ich hatte keine Lust mehr mich damit rumzuschlagen. Habe die WD verkauft und mir eine Kioxia Exceria Plus G2 gekauft. Dazu dann noch das Glück zwei Samsung 970 Evo Plus von der alten "besseren" Generation zu bekommen. Damit keinerlei Probleme mehr und alles läuft stabil. 1 Quote Link to comment
SidM Posted February 19, 2022 Share Posted February 19, 2022 @JonasH Danke für deine Rückmeldung! Hattest du, als du die Versuche gemacht hast, bereits die letzte Bios Version (F5) vom 29.11.2021 oder noch die F4 ? Ob man die Änderung nun über den Config Editor macht oder direkt über die Option in Flash Laufwerke sollte ja keine Rolle spielen, denk ich jedenfalls, korrigiert mich bitte wenn ich da falsch liege!✍️ DU sagst du hattest dann die Meldung viel seltener aufgetreten ist. In was für Abständen ca. weist du dasa noch? Bei mir kommt wirklich sekündlich die Meldung. Ich probiere es jetzt nochmal mit den Zusatz " pcie_aspm=off " wie von dir vorgeschlagen. Sitze gerade leider nicht direkt am Rechner, sonst würde ich gerne mal das BIOS Update probieren! Unter den Energiesparmaßnahmen habe ich bis jetzt folgende Optionen gesetzt: Audio --> deaktivert CEC2019 --> aktiviert Platform Power Management --> aktiviert C-States Control --> aktivert CPU Enhanced HALT (C1E) --> aktivert C3 State Support --> aktivert C6/C7 State Support --> aktivert C8 State Support --> aktivert C10 State Support --> aktivert CPU EIST Function --> aktivert Race TO HALT (RTH) --> aktivert Voltage Opimization --> aktivert Quote Link to comment
JonasH Posted February 19, 2022 Share Posted February 19, 2022 3 hours ago, SidM said: Danke für deine Rückmeldung! Hattest du, als du die Versuche gemacht hast, bereits die letzte Bios Version (F5) vom 29.11.2021 oder noch die F4 ? Habe es leider mit der F4 nicht probiert. Nur mit der neuesten F5. Habe noch vor der ersten Unraid Installation gleich das Bios geupdatet. Quote Ob man die Änderung nun über den Config Editor macht oder direkt über die Option in Flash Laufwerke sollte ja keine Rolle spielen, denk ich jedenfalls, korrigiert mich bitte wenn ich da falsch liege!✍️ Ja ist egal. Finde es nur einfacher. Quote DU sagst du hattest dann die Meldung viel seltener aufgetreten ist. In was für Abständen ca. weist du dasa noch? Bei mir kommt wirklich sekündlich die Meldung. Also bei mir war es ohne nvme_core.default_ps_max_latency_us=5500 auch sehr oft. Mindestens einmal pro Minute. Mit ist es viel weniger gewesen. Da waren es bei mir vielleicht alle 6 Stunden dann einmal. Kam aber auch auf die Aktivität der SSD an. Viele Read/Write Vorgänge = mehr Fehlermeldungen. Normalerweise sind diese Meldungen auch alle harmlos, aber halt nervig. Quote Link to comment
mgutt Posted February 20, 2022 Share Posted February 20, 2022 Vielleicht auch mal im PC einbauen und ein Firmware Update machen. Wenn es denn sowas gibt. Quote Link to comment
mgutt Posted January 20, 2023 Share Posted January 20, 2023 On 2/19/2022 at 10:07 PM, JonasH said: Also bei mir war es ohne nvme_core.default_ps_max_latency_us=5500 auch sehr oft. Mindestens einmal pro Minute. Mit ist es viel weniger gewesen. Da waren es bei mir vielleicht alle 6 Stunden dann einmal Kannst du von deiner NVMe mal das ausgeben lassen: smartctl -a /dev/nvme0 Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.