Skip to content
View in the app

A better way to browse. Learn more.

Unraid

A full-screen app on your home screen with push notifications, badges and more.

To install this app on iOS and iPadOS
  1. Tap the Share icon in Safari
  2. Scroll the menu and tap Add to Home Screen.
  3. Tap Add in the top-right corner.
To install this app on Android
  1. Tap the 3-dot menu (⋮) in the top-right corner of the browser.
  2. Tap Add to Home screen or Install app.
  3. Confirm by tapping Install.

Fix Common Problems: "Error: Machine Check Events detected on your server" MCE Hardware Errors

Featured Replies

Guten Abend,

mein Server meldet mir gerade, dass er einen Hardwarefehler festgestellt hat.

mcelog ist installiert. Wie kann ich nun damit eine Diagnose erstellen? Diese möchte ich dann hier veröffentlichen!

HWfehler.png

  • Author

Guten Abend,

 

nun konnte ich den Fehler nachvollziehen. Er tritt beim Start auf:

Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: Machine check events logged
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 6: ae00000000801136
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8cb47cc0 MISC 3040000086 
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605201573 SOCKET 0 APIC 0 microcode ca
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: Machine check events logged
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 7: ae00000000801136
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8cb47c80 MISC 3040000086 
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605201573 SOCKET 0 APIC 0 microcode ca
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: ae00000000801136
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8c286c80 MISC 43040000086 
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605201573 SOCKET 0 APIC 0 microcode ca
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 9: ae00000000801136
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8c286cc0 MISC 43040000086 
Nov 12 18:19:48 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605201573 SOCKET 0 APIC 0 microcode ca

Die anderen Fehler beziehen sich auf das Fehlen der Internetverbindung.

 

Den RAM hatte ich eigentlich getestet.

 

Andreas

media-syslog-20201112-1810.zip

Edited by Andreas2020

  • Community Expert

Hier schreibt @Squid, dass man das ignorieren kann:

https://forums.unraid.net/topic/87169-your-server-has-detected-hardware-errors/?tab=comments#comment-811190

 

Woanders habe ich noch was von Reboots gelesen und den Hinweis zu möglicherweise defektem RAM, aber da gab es sonst kein Feedback mehr:

https://forums.unraid.net/topic/95621-random-reboots/

 

Da du aber keine Reboots hast, würde ich es auch erst mal ignorieren.

  • Author

Absolut keine Fehler. Beim normalen Betrieb habe ich keine Probleme. Einige TB Daten aufgespielt, Paritycheck gemacht alles ohne Auffälligkeiten. Eben habe ich einen Neustart gemacht, da sah der Fehler schon wieder anders aus:

Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: Machine check events logged
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: ee00000000801136
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8c286c80 MISC 43040000086 
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605209318 SOCKET 0 APIC 0 microcode ca
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: Machine check events logged
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 9: ee00000000801136
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: TSC 0 ADDR 8c286cc0 MISC 43040000086 
Nov 12 20:28:53 Media kernel: mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1605209318 SOCKET 0 APIC 0 microcode ca

Für einen erneuten Ramtest müsste ich sicher meine Live-CD vom Linux nochmal einlegen, wollte ich vermeiden. Oder kann ich vom unraid-Stick aus auch etwas machen?

Beim Start des BIOS über F12 wird ja auch einTest angeboten, aber der dauert nur eine knappe Minute (CPU/RAM) - da kommen keine Fehler, aber ob der aussagefähig ist bezweifle ich ein wenig.

Yup.  It's a false reporting of a hardware error.  Basically, some combinations of hardware will report an MCE when initializing the processor at boot time

Thanks @Squid!

 

Also wie er schon schreibt, kein Hardwarefehler generell wird nur falsch gemeldet beim Start deines Systems, kannst also ignorieren. ;)

  • Author

 Thanks @mgutt, squid and ich 177 for the reassuring information!  👍

Edited by Andreas2020

Hallo zusammen,

 

ich habe für meine Frau eine VM zum Zocken auf dem Server laufen. Nach mehreren Tagen des Zockens fing die VM plötzlich an immer kurz zu freezen und verabschiedete sich plötzlich komplett und der komplette Unraid-Server gleich mit. Danach tauchte bei mir ebenfalls dieser Fehler auf.

 

Oct 31 16:03:10 Kamino kernel: mce: [Hardware Error]: Machine check events logged
Oct 31 16:03:10 Kamino kernel: mce: [Hardware Error]: CPU 4: Machine Check: 0 Bank 5: bea0000000000108
Oct 31 16:03:10 Kamino kernel: mce: [Hardware Error]: TSC 0 ADDR 1f8058a2bbb5e MISC d012000100000000 SYND 4d000000 IPID 500b000000000 
Oct 31 16:03:10 Kamino kernel: mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1604156536 SOCKET 0 APIC a microcode 8701013

Alles läuft nun seit 13+ Tagen ohne Auffälligkeiten, allerdings kommt es sehr selten vor, dass die VM wieder anfängt zu freezen.

Eine Überlastung des Systems konnte ich im Zusammenhang mit den Freezes bisher nicht feststellen. Woher die rühren, kann ich leider nicht sagen. :(

 

Die Botschaft hier beruhigt mich natürlich, aber ich werde das Ganze weiter im Auge behalten.

  • 4 weeks later...

Hallo zusammen.

 

ich muss die Geschichte leider nochmal hochholen.

Am 30.11. hat sich die VM und der komplette Unraidserver wie oben beschrieben wieder verabschiedet.

 

Nachvollziehbar war es für mich erneut nicht. Leider ist der LOG ja auch weg, wenn er neustartet. :(

Rot war wieder der Machine Check nach dem Neustart.

 

gibt es ne Möglichkeit den Log nach dem Absturz/Neustart des Systems zu erhalten?

Über die Feiertage habe ich wahrscheinlich mal etwas Zeit um das Problem zuerörtern. Auch wenn mir nicht so ganz klar ist wo und wie ich anfangen sollte. Ist ja leider Fischen im Dunkeln. :(

Vielleicht hat jemand von euch eine Idee?

 

Viele Grüße 

mrdreirad

  • Community Expert
24 minutes ago, mrdreirad said:

Nachvollziehbar war es für mich erneut nicht. Leider ist der LOG ja auch weg, wenn er neustartet. :(

Wenn er nicht komplett tot ist, könnte man sich direkt auf dem Server anmelden und da über das Terminal die Log-Datei zB auf den Stick kopieren. Für Debugging kann man aber übergangsweise auch diese Option aktivieren:

https://forums.unraid.net/topic/84309-persisent-logs-from-unraid-possible/?tab=comments#comment-781281

 

 

Ah danke. Das ist mir bisher noch gar nicht über den Weg gelaufen.

Ich werd’s mal aktivieren und warten bis er sich das nächste Mal verabschiedet. 👍🏻

  • ich777 changed the title to [SOLVED] Identifizieren Hardwarefehler
  • 7 months later...

Ich habe heute gegen 17:34 mehrer Fehler Meldungen im Log mit Kernel Hardware Error. Ich habe zur der  Zeit mit meiner VM bei der die Grafikkarte durchgeschliffen ist Mircosoft Flight Simmulator 2020 gespielt. Auf einmal hat mein Server ein Reboot durchgeführt.

 

Fix Common Problems hat daraufhin folgendes gesagt:

bild.thumb.PNG.ceadaf40edbf8985051604bf2c6ccb53.PNG

 

anbei auch die Diagnose Logfiles thetwist-diagnostics-20210831-1948.zip

 

Mein Server besitzt ECC Speicher akutell läuft ein Memtest. Hatte aber auch seit 17:36 Uhr keine Probleme mehr.

Hat jemand von Euch eine idee. Ich nutze Unraid 6.9.2 Pro.

 

Unter /var/log/dmesg steht folgendes:

 

[    0.371853] .... node  #0, CPUs:        #1  #2  #3  #4  #5  #6  #7  #8  #9
[    0.381745] mce: [Hardware Error]: Machine check events logged
[    0.382805] mce: [Hardware Error]: CPU 9: Machine Check: 0 Bank 5: bea0000000000108
[    0.382884] mce: [Hardware Error]: TSC 0 ADDR 1ffffa00690fc MISC d012000100000000 SYND 4d000000 IPID 500b000000000
[    0.382982] mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1630424048 SOCKET 0 APIC 18 microcode 8701021
[    0.383078]  #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20
[    0.395761] mce: [Hardware Error]: Machine check events logged
[    0.395777]  #21
[    0.395826] mce: [Hardware Error]: CPU 20: Machine Check: 0 Bank 5: bea0000000000108
[    0.396045] mce: [Hardware Error]: TSC 0 ADDR 1ffff810403f8 MISC d012000100000000 SYND 4d000000 IPID 500b000000000
[    0.396144] mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1630424048 SOCKET 0 APIC 15 microcode 8701021
[    0.397776]  #22 #23
[    0.399750] smp: Brought up 1 node, 24 CPUs

 

Ich habe noch was gefunden im Bugzilla von kernel.org

 

https://bugzilla.kernel.org/show_bug.cgi?id=206903

  • mgutt changed the title to Fix Common Problems: "Error: Machine Check Events detected on your server" MCE Hardware Errors
  • Community Expert

Siehe oben die Beiträge. Wenn es kein RAM-Problem ist, dann evtl irgendwas anderes was mit der Hardware zusammenhängt. 

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

Account

Navigation

Search

Search

Configure browser push notifications

Chrome (Android)
  1. Tap the lock icon next to the address bar.
  2. Tap Permissions → Notifications.
  3. Adjust your preference.
Chrome (Desktop)
  1. Click the padlock icon in the address bar.
  2. Select Site settings.
  3. Find Notifications and adjust your preference.