Fix Common Problems: "Error: Machine Check Events detected on your server" MCE Hardware Errors


Andreas2020

Recommended Posts

Guten Abend,

 

nun konnte ich den Fehler nachvollziehen. Er tritt beim Start auf:

Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: Machine check events logged
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 6: ae00000000801136
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8cb47cc0 MISC 3040000086 
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605201573 SOCKET 0 APIC 0 microcode ca
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: Machine check events logged
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 7: ae00000000801136
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8cb47c80 MISC 3040000086 
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605201573 SOCKET 0 APIC 0 microcode ca
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: ae00000000801136
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8c286c80 MISC 43040000086 
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605201573 SOCKET 0 APIC 0 microcode ca
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 9: ae00000000801136
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8c286cc0 MISC 43040000086 
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605201573 SOCKET 0 APIC 0 microcode ca

Die anderen Fehler beziehen sich auf das Fehlen der Internetverbindung.

 

Den RAM hatte ich eigentlich getestet.

 

Andreas

media-syslog-20201112-1810.zip

Edited by Andreas2020
Link to comment

Hier schreibt @Squid, dass man das ignorieren kann:

https://forums.unraid.net/topic/87169-your-server-has-detected-hardware-errors/?tab=comments#comment-811190

 

Woanders habe ich noch was von Reboots gelesen und den Hinweis zu möglicherweise defektem RAM, aber da gab es sonst kein Feedback mehr:

https://forums.unraid.net/topic/95621-random-reboots/

 

Da du aber keine Reboots hast, würde ich es auch erst mal ignorieren.

  • Like 1
Link to comment

Absolut keine Fehler. Beim normalen Betrieb habe ich keine Probleme. Einige TB Daten aufgespielt, Paritycheck gemacht alles ohne Auffälligkeiten. Eben habe ich einen Neustart gemacht, da sah der Fehler schon wieder anders aus:

Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: Machine check events logged
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: ee00000000801136
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8c286c80 MISC 43040000086 
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605209318 SOCKET 0 APIC 0 microcode ca
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: Machine check events logged
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 9: ee00000000801136
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8c286cc0 MISC 43040000086 
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605209318 SOCKET 0 APIC 0 microcode ca

Für einen erneuten Ramtest müsste ich sicher meine Live-CD vom Linux nochmal einlegen, wollte ich vermeiden. Oder kann ich vom unraid-Stick aus auch etwas machen?

Beim Start des BIOS über F12 wird ja auch einTest angeboten, aber der dauert nur eine knappe Minute (CPU/RAM) - da kommen keine Fehler, aber ob der aussagefähig ist bezweifle ich ein wenig.

Link to comment

Hallo zusammen,

 

ich habe für meine Frau eine VM zum Zocken auf dem Server laufen. Nach mehreren Tagen des Zockens fing die VM plötzlich an immer kurz zu freezen und verabschiedete sich plötzlich komplett und der komplette Unraid-Server gleich mit. Danach tauchte bei mir ebenfalls dieser Fehler auf.

 

Oct 31 16:03:10 Kamino kernel: mce: [Hardware Error]: Machine check events logged
Oct 31 16:03:10 Kamino kernel: mce: [Hardware Error]: CPU 4: Machine Check: 0 Bank 5: bea0000000000108
Oct 31 16:03:10 Kamino kernel: mce: [Hardware Error]: TSC 0 ADDR 1f8058a2bbb5e MISC d012000100000000 SYND 4d000000 IPID 500b000000000 
Oct 31 16:03:10 Kamino kernel: mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1604156536 SOCKET 0 APIC a microcode 8701013

Alles läuft nun seit 13+ Tagen ohne Auffälligkeiten, allerdings kommt es sehr selten vor, dass die VM wieder anfängt zu freezen.

Eine Überlastung des Systems konnte ich im Zusammenhang mit den Freezes bisher nicht feststellen. Woher die rühren, kann ich leider nicht sagen. :(

 

Die Botschaft hier beruhigt mich natürlich, aber ich werde das Ganze weiter im Auge behalten.

Link to comment
  • 4 weeks later...

Hallo zusammen.

 

ich muss die Geschichte leider nochmal hochholen.

Am 30.11. hat sich die VM und der komplette Unraidserver wie oben beschrieben wieder verabschiedet.

 

Nachvollziehbar war es für mich erneut nicht. Leider ist der LOG ja auch weg, wenn er neustartet. :(

Rot war wieder der Machine Check nach dem Neustart.

 

gibt es ne Möglichkeit den Log nach dem Absturz/Neustart des Systems zu erhalten?

Über die Feiertage habe ich wahrscheinlich mal etwas Zeit um das Problem zuerörtern. Auch wenn mir nicht so ganz klar ist wo und wie ich anfangen sollte. Ist ja leider Fischen im Dunkeln. :(

Vielleicht hat jemand von euch eine Idee?

 

Viele Grüße 

mrdreirad

Link to comment
24 minutes ago, mrdreirad said:

Nachvollziehbar war es für mich erneut nicht. Leider ist der LOG ja auch weg, wenn er neustartet. :(

Wenn er nicht komplett tot ist, könnte man sich direkt auf dem Server anmelden und da über das Terminal die Log-Datei zB auf den Stick kopieren. Für Debugging kann man aber übergangsweise auch diese Option aktivieren:

https://forums.unraid.net/topic/84309-persisent-logs-from-unraid-possible/?tab=comments#comment-781281

 

 

  • Thanks 1
Link to comment
  • ich777 changed the title to [SOLVED] Identifizieren Hardwarefehler
  • 7 months later...

Ich habe heute gegen 17:34 mehrer Fehler Meldungen im Log mit Kernel Hardware Error. Ich habe zur der  Zeit mit meiner VM bei der die Grafikkarte durchgeschliffen ist Mircosoft Flight Simmulator 2020 gespielt. Auf einmal hat mein Server ein Reboot durchgeführt.

 

Fix Common Problems hat daraufhin folgendes gesagt:

bild.thumb.PNG.ceadaf40edbf8985051604bf2c6ccb53.PNG

 

anbei auch die Diagnose Logfiles thetwist-diagnostics-20210831-1948.zip

 

Mein Server besitzt ECC Speicher akutell läuft ein Memtest. Hatte aber auch seit 17:36 Uhr keine Probleme mehr.

Hat jemand von Euch eine idee. Ich nutze Unraid 6.9.2 Pro.

 

Link to comment

Unter /var/log/dmesg steht folgendes:

 

[    0.371853] .... node  #0, CPUs:        #1  #2  #3  #4  #5  #6  #7  #8  #9
[    0.381745] mce: [Hardware Error]: Machine check events logged
[    0.382805] mce: [Hardware Error]: CPU 9: Machine Check: 0 Bank 5: bea0000000000108
[    0.382884] mce: [Hardware Error]: TSC 0 ADDR 1ffffa00690fc MISC d012000100000000 SYND 4d000000 IPID 500b000000000
[    0.382982] mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1630424048 SOCKET 0 APIC 18 microcode 8701021
[    0.383078]  #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20
[    0.395761] mce: [Hardware Error]: Machine check events logged
[    0.395777]  #21
[    0.395826] mce: [Hardware Error]: CPU 20: Machine Check: 0 Bank 5: bea0000000000108
[    0.396045] mce: [Hardware Error]: TSC 0 ADDR 1ffff810403f8 MISC d012000100000000 SYND 4d000000 IPID 500b000000000
[    0.396144] mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1630424048 SOCKET 0 APIC 15 microcode 8701021
[    0.397776]  #22 #23
[    0.399750] smp: Brought up 1 node, 24 CPUs

 

Ich habe noch was gefunden im Bugzilla von kernel.org

 

https://bugzilla.kernel.org/show_bug.cgi?id=206903

Link to comment
  • mgutt changed the title to Fix Common Problems: "Error: Machine Check Events detected on your server" MCE Hardware Errors

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.