January 8, 20233 yr Hallo zusammen, durch 'Fix Common Problems' wurde ich soeben auf Fehlermeldungen zu meinem Server aufmerksam gemacht. Das sind die entsprechenden Einträge im log: Jan 6 18:55:52 Halut kernel: pcieport 0000:00:01.3: AER: Corrected error received: 0000:10:00.0 Jan 6 18:55:52 Halut kernel: nvme 0000:10:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID) Jan 6 18:55:52 Halut kernel: nvme 0000:10:00.0: device [15b7:5011] error status/mask=00000001/0000e000 Jan 8 02:51:51 Halut kernel: mce: [Hardware Error]: Machine check events logged Jan 8 02:51:51 Halut kernel: [Hardware Error]: Corrected error, no action required. Jan 8 02:51:51 Halut kernel: [Hardware Error]: CPU:1 (19:21:2) MC13_STATUS[Over|CE|MiscV|AddrV|-|-|CECC|-|Poison|-]: 0xccccccccc35d5b00 Jan 8 02:51:51 Halut kernel: [Hardware Error]: Error Addr: 0x0000000000000000 Jan 8 02:51:51 Halut kernel: [Hardware Error]: IPID: 0x0000000000000000 Jan 8 02:51:51 Halut kernel: [Hardware Error]: Bank 13 is reserved. Jan 8 02:51:51 Halut kernel: [Hardware Error]: cache level: RESV, tx: INSN Jan 8 04:30:06 Halut root: Fix Common Problems: Error: Machine Check Events detected on your server ** Ignored Jan 8 04:30:06 Halut root: mcelog: ERROR: AMD Processor family 25: mcelog does not support this processor. Please use the edac_mce_amd module instead. Wenn ich die Meldungen richtig verstehe, dann handelt es sich um Fehler, die bereits entsprechend korrigiert wurden und ich somit nicht tätig werden muss. Ist diese Wertung so richtig? Viele Grüße!
January 8, 20233 yr 5 minutes ago, DerTom said: Jan 6 18:55:52 Halut kernel: pcieport 0000:00:01.3: AER: Corrected error received: 0000:10:00.0 Jan 6 18:55:52 Halut kernel: nvme 0000:10:00.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID) Jan 6 18:55:52 Halut kernel: nvme 0000:10:00.0: device [15b7:5011] error status/mask=00000001/0000e000 Der part ist ein Fehler im Stromsparmodus deiner eingesetzten NVME (ich vermute Mal eine Western Digital?) Das hatten wir hier schon: https://forums.unraid.net/topic/121146-nvme-aer-corrected-error-und-pcie-bus-error/?do=findComment&comment=1108543
January 8, 20233 yr Author 54 minutes ago, jj1987 said: Der part ist ein Fehler im Stromsparmodus deiner eingesetzten NVME (ich vermute Mal eine Western Digital?) Das hatten wir hier schon: https://forums.unraid.net/topic/121146-nvme-aer-corrected-error-und-pcie-bus-error/?do=findComment&comment=1108543 Hallo @jj1987 vielen Dank für den Link. Habe mal die Firmware der (ja tatsächlich) WD NVME aktualisiert. Mal abwarten...
January 8, 20233 yr Im dümmsten Fall musst du tatsächlich ASPM für die SSD abschalten. Es scheint je nach Kombi aus Mainboard/SSD/Betriebssystem ein hartnäckigeres Problem zu sein
January 9, 20233 yr @DerTom welche NVME von WD hast du denn im Einsatz? Habe mit der SN750 als auch der SN770 Probleme, aber die hatten jeweils schon die aktuellste Firmware drauf. Wäre auch interessant welche Hardware du sonst noch hast und vor allem Feedback ob das Update was gebracht hat.
January 9, 20233 yr Author Es handelt sich um eine WD Black SN850. Die neue Firmware hat leider nicht so viel gebracht - Fehler ist wieder da. Ich werde also mal schauen müssen, was in den Thread, den jj1987 genannt hat, noch als Lösung angeboten wird. Zur Hardware: Ryzen 9 5950x ASRock x570 taichi 64 GB ECC RAM RX5700
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.