Andreas2020 Posted November 8, 2020 Share Posted November 8, 2020 Guten Abend, mein Server meldet mir gerade, dass er einen Hardwarefehler festgestellt hat. mcelog ist installiert. Wie kann ich nun damit eine Diagnose erstellen? Diese möchte ich dann hier veröffentlichen! Quote Link to comment
mgutt Posted November 9, 2020 Share Posted November 9, 2020 Wenn ich das richtig verstehe, dann ist mcelog überflüssig und man braucht nur die normale Diagnose Dateien erstellen: https://forums.unraid.net/topic/61057-machine-check-events-error/ Quote Link to comment
Andreas2020 Posted November 12, 2020 Author Share Posted November 12, 2020 (edited) Guten Abend, nun konnte ich den Fehler nachvollziehen. Er tritt beim Start auf: Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: Machine check events logged Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 6: ae00000000801136 Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8cb47cc0 MISC 3040000086 Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605201573 SOCKET 0 APIC 0 microcode ca Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: Machine check events logged Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 7: ae00000000801136 Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8cb47c80 MISC 3040000086 Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605201573 SOCKET 0 APIC 0 microcode ca Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: ae00000000801136 Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8c286c80 MISC 43040000086 Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605201573 SOCKET 0 APIC 0 microcode ca Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 9: ae00000000801136 Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8c286cc0 MISC 43040000086 Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605201573 SOCKET 0 APIC 0 microcode ca Die anderen Fehler beziehen sich auf das Fehlen der Internetverbindung. Den RAM hatte ich eigentlich getestet. Andreas media-syslog-20201112-1810.zip Edited November 12, 2020 by Andreas2020 Quote Link to comment
mgutt Posted November 12, 2020 Share Posted November 12, 2020 Hier schreibt @Squid, dass man das ignorieren kann: https://forums.unraid.net/topic/87169-your-server-has-detected-hardware-errors/?tab=comments#comment-811190 Woanders habe ich noch was von Reboots gelesen und den Hinweis zu möglicherweise defektem RAM, aber da gab es sonst kein Feedback mehr: https://forums.unraid.net/topic/95621-random-reboots/ Da du aber keine Reboots hast, würde ich es auch erst mal ignorieren. 1 Quote Link to comment
ich777 Posted November 12, 2020 Share Posted November 12, 2020 @Andreas2020 Hast du irgendwelche Fehler die du in Unraid bemerkst (Crashes, reboots, etc...)? Quote Link to comment
Andreas2020 Posted November 12, 2020 Author Share Posted November 12, 2020 Absolut keine Fehler. Beim normalen Betrieb habe ich keine Probleme. Einige TB Daten aufgespielt, Paritycheck gemacht alles ohne Auffälligkeiten. Eben habe ich einen Neustart gemacht, da sah der Fehler schon wieder anders aus: Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: Machine check events logged Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: ee00000000801136 Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8c286c80 MISC 43040000086 Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605209318 SOCKET 0 APIC 0 microcode ca Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: Machine check events logged Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 9: ee00000000801136 Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8c286cc0 MISC 43040000086 Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605209318 SOCKET 0 APIC 0 microcode ca Für einen erneuten Ramtest müsste ich sicher meine Live-CD vom Linux nochmal einlegen, wollte ich vermeiden. Oder kann ich vom unraid-Stick aus auch etwas machen? Beim Start des BIOS über F12 wird ja auch einTest angeboten, aber der dauert nur eine knappe Minute (CPU/RAM) - da kommen keine Fehler, aber ob der aussagefähig ist bezweifle ich ein wenig. Quote Link to comment
Squid Posted November 12, 2020 Share Posted November 12, 2020 Yup. It's a false reporting of a hardware error. Basically, some combinations of hardware will report an MCE when initializing the processor at boot time 2 Quote Link to comment
ich777 Posted November 12, 2020 Share Posted November 12, 2020 Thanks @Squid! Also wie er schon schreibt, kein Hardwarefehler generell wird nur falsch gemeldet beim Start deines Systems, kannst also ignorieren. 1 Quote Link to comment
Andreas2020 Posted November 12, 2020 Author Share Posted November 12, 2020 (edited) Thanks @mgutt, squid and ich 177 for the reassuring information! 👍 Edited November 12, 2020 by Andreas2020 2 Quote Link to comment
mrdreirad Posted November 13, 2020 Share Posted November 13, 2020 Hallo zusammen, ich habe für meine Frau eine VM zum Zocken auf dem Server laufen. Nach mehreren Tagen des Zockens fing die VM plötzlich an immer kurz zu freezen und verabschiedete sich plötzlich komplett und der komplette Unraid-Server gleich mit. Danach tauchte bei mir ebenfalls dieser Fehler auf. Oct 31 16:03:10 Kamino kernel: mce: [Hardware Error]: Machine check events logged Oct 31 16:03:10 Kamino kernel: mce: [Hardware Error]: CPU 4: Machine Check: 0 Bank 5: bea0000000000108 Oct 31 16:03:10 Kamino kernel: mce: [Hardware Error]: TSC 0 ADDR 1f8058a2bbb5e MISC d012000100000000 SYND 4d000000 IPID 500b000000000 Oct 31 16:03:10 Kamino kernel: mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1604156536 SOCKET 0 APIC a microcode 8701013 Alles läuft nun seit 13+ Tagen ohne Auffälligkeiten, allerdings kommt es sehr selten vor, dass die VM wieder anfängt zu freezen. Eine Überlastung des Systems konnte ich im Zusammenhang mit den Freezes bisher nicht feststellen. Woher die rühren, kann ich leider nicht sagen. :( Die Botschaft hier beruhigt mich natürlich, aber ich werde das Ganze weiter im Auge behalten. Quote Link to comment
mrdreirad Posted December 7, 2020 Share Posted December 7, 2020 Hallo zusammen. ich muss die Geschichte leider nochmal hochholen. Am 30.11. hat sich die VM und der komplette Unraidserver wie oben beschrieben wieder verabschiedet. Nachvollziehbar war es für mich erneut nicht. Leider ist der LOG ja auch weg, wenn er neustartet. :( Rot war wieder der Machine Check nach dem Neustart. gibt es ne Möglichkeit den Log nach dem Absturz/Neustart des Systems zu erhalten? Über die Feiertage habe ich wahrscheinlich mal etwas Zeit um das Problem zuerörtern. Auch wenn mir nicht so ganz klar ist wo und wie ich anfangen sollte. Ist ja leider Fischen im Dunkeln. :( Vielleicht hat jemand von euch eine Idee? Viele Grüße mrdreirad Quote Link to comment
mgutt Posted December 7, 2020 Share Posted December 7, 2020 24 minutes ago, mrdreirad said: Nachvollziehbar war es für mich erneut nicht. Leider ist der LOG ja auch weg, wenn er neustartet. Wenn er nicht komplett tot ist, könnte man sich direkt auf dem Server anmelden und da über das Terminal die Log-Datei zB auf den Stick kopieren. Für Debugging kann man aber übergangsweise auch diese Option aktivieren: https://forums.unraid.net/topic/84309-persisent-logs-from-unraid-possible/?tab=comments#comment-781281 1 Quote Link to comment
mrdreirad Posted December 8, 2020 Share Posted December 8, 2020 Ah danke. Das ist mir bisher noch gar nicht über den Weg gelaufen. Ich werd’s mal aktivieren und warten bis er sich das nächste Mal verabschiedet. 👍🏻 Quote Link to comment
Thorsten Posted August 31, 2021 Share Posted August 31, 2021 Ich habe heute gegen 17:34 mehrer Fehler Meldungen im Log mit Kernel Hardware Error. Ich habe zur der Zeit mit meiner VM bei der die Grafikkarte durchgeschliffen ist Mircosoft Flight Simmulator 2020 gespielt. Auf einmal hat mein Server ein Reboot durchgeführt. Fix Common Problems hat daraufhin folgendes gesagt: anbei auch die Diagnose Logfiles thetwist-diagnostics-20210831-1948.zip Mein Server besitzt ECC Speicher akutell läuft ein Memtest. Hatte aber auch seit 17:36 Uhr keine Probleme mehr. Hat jemand von Euch eine idee. Ich nutze Unraid 6.9.2 Pro. Quote Link to comment
Thorsten Posted August 31, 2021 Share Posted August 31, 2021 Unter /var/log/dmesg steht folgendes: [ 0.371853] .... node #0, CPUs: #1 #2 #3 #4 #5 #6 #7 #8 #9 [ 0.381745] mce: [Hardware Error]: Machine check events logged [ 0.382805] mce: [Hardware Error]: CPU 9: Machine Check: 0 Bank 5: bea0000000000108 [ 0.382884] mce: [Hardware Error]: TSC 0 ADDR 1ffffa00690fc MISC d012000100000000 SYND 4d000000 IPID 500b000000000 [ 0.382982] mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1630424048 SOCKET 0 APIC 18 microcode 8701021 [ 0.383078] #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20 [ 0.395761] mce: [Hardware Error]: Machine check events logged [ 0.395777] #21 [ 0.395826] mce: [Hardware Error]: CPU 20: Machine Check: 0 Bank 5: bea0000000000108 [ 0.396045] mce: [Hardware Error]: TSC 0 ADDR 1ffff810403f8 MISC d012000100000000 SYND 4d000000 IPID 500b000000000 [ 0.396144] mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1630424048 SOCKET 0 APIC 15 microcode 8701021 [ 0.397776] #22 #23 [ 0.399750] smp: Brought up 1 node, 24 CPUs Ich habe noch was gefunden im Bugzilla von kernel.org https://bugzilla.kernel.org/show_bug.cgi?id=206903 Quote Link to comment
mgutt Posted August 31, 2021 Share Posted August 31, 2021 Siehe oben die Beiträge. Wenn es kein RAM-Problem ist, dann evtl irgendwas anderes was mit der Hardware zusammenhängt. Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.