Jump to content

Win VMs stürzen ab und crashen auch unRAID


Schult0r
Go to solution Solved by Schult0r,

Recommended Posts

Nabend zusammen,

 

ich verzweifle langsam an meinem Projekt und mir gehen die Ideen aus. Ich muss daher einfach mal die Schwarmintelligenz um Hilfe bitten.

 

Vorwort

Mein aktuelles Projekt ist als Ersatz für meinen betagten Gaming, Fotobearbeitungs- und Alltags-Rechner gedacht. Ich habe bereits einen weiteren unRAID-Server erfolgreich für diverse convenience und Smart Home-Aufgaben stabil laufen und bin von den Vorzügen von unRAID sehr angetan.

 

Daher auch meine ursprüngliche Idee, den Neuen mit unRAID, einem Array mit Parity und ordentlich NVMeCaches aufzubauen. Also war geplant eine Win 11/10-VM mit Autostart zu verwenden und alle Festplatten etc. pp. dann über Shares und virtuelle Disks an diese weiterzugeben. Ich nehme keine reine Windows-Maschine, da auch einige Backup-Jobs sowie Dedicated Game Server als Docker im Hintergrund laufen sollen und später mal meine Kinder ggf. mit mir zusammen auf dem Ding zocken können sollen.

 

Ich hatte große Probleme, den RAM mit XMP zum Laufen auf den 6.400 MHz zu bewegen. Ich musste das werkseitige Profil händisch in der Spannung höher nehmen, damit ich von wahnsinnig vielen Fehlern im memtest86 runter gekommen bin. Jetzt habe ich nur noch sporadisch mal 1-4 Fehlern in 4 Durchgängen. Das ist nicht schön, denn in meiner Welt sollte er gar keine Fehler haben, werde ich aber mit dem Hersteller besprechen. Alle hier angesprochenen Fehler passieren allerdings auch mit Default-Einstellungen im BIOS.

 

System

- i9-13900K

- Gigabyte Z790 Gaming X AX (rev. 1.0) mit aktuellem BIOS (F3i)

- 4 x 16 = 64 GiB RAM G.Skill Trident Z5 DDR5 6.400 MHz CL32-39-39-102

- 2x 1 TB NVMe, 2x 2 TB NVMe

- 2x 2 TB WD RED HDD, 1x 2 TB WD BLACK HDD (Parity)

- Powercolor RX 6700 XT 12 GB (--> an VM durchgeschleift an einem Monitor)

- 2. Monitor an iGPU angeschlossen für Konsole

 

Problem

 

Soviel vorab:

- memtest86 ohne XMP --> Null Fehler

- prime95-Stresstest auf dem unRAID-Linux direkt ausgeführt --> alle Kerne i.O., keine Abstürze, nix

- Parity ist gecheckt, alles i.O. (sind auch noch fast keine Daten auf dem Array)

 

Ich starte die Win 11/10 VM und sie bootet ordentlich. Ich kann alles machen. Unter Last erlebe ich allerdings dann Abstürze. Last heißt in dem Fall bspw. zum Ende von Unigine's Superpositon-Benchmark oder beim Stresstest von prime95 oder einfach nur ein Spiel (Fallout 4, Satisfactory, sowas). Manchmal auch einfach so beim Mausbewegung oder Rumkllicken, es erscheint ein schwarzer Kasten um den Mauszeiger oder direkt ein Green Screen und alles crashed. Crash heißt in dem Falle, dass sowohl in der Konsole der Cursor nicht mehr blinkt, das Web-UI nicht mehr erreichbar ist und der Bildschirm einfriert. VM-Einstellungen als Screenshots anbei.

 

Gerade ganz aktuell schmiert der unRAID-Server aus der Win 11-VM im 3DMark Time Spy nach dem 2. Grafiktest mit Green Screen ab. Im VM-Log kein Eintrag. Web-UI nicht mehr erreichbar, Lüfter laufen weiter, keine Konsole mehr auf dem Bildschirm. 

 

Logfiles habe ich auf den Flashdrive ausgelagert, allerdings steht dort meist nichts drin. Die beigefügten Diagnostics habe ich unmittelbar nach dem Reboot aus dem oben beschriebenen Green Screen erzeugt. Der Absturz erfolgte ca. 01.01.2023 um 21:31 Uhr. Genau da ist eine Lücke im Log. Ich hänge ein Bildschirm-Foto der Konsole von einem provozierten Absturz an wenn ich es hinbekomme, meist lese ich da was von "Kernel panic".

 

So, jetzt hoffe ich auf die Schwarmintelligenz. Bitte sagt mir, welche Diagnose-Infos ich euch noch geben muss, damit ihr euch ein Bild machen und mir noch ein paar Denkanstöße geben könnt. Ich bin langsam wirklich frustriert, da ich nun seit einer guten Woche diesen Fehler versuche in den Griff zu kriegen. Ich bin tatsächlich kurz davor, das Projekt aufzugeben und Windows einfach wie üblich zu installieren.

 

Edit 21:50 Uhr

Gerade eben erneut probiert. VM stürzt beim Öffnen von EA App, Steam etc. ab, schwarzer Kasten um Mauszeiger, dann Bildschirm dunkel. Dann kommt nach ein paar Minuten wieder der Splashscreen von Windows. Der täuscht aber nur kurz darüber hinweg, dass daraufhin das gesamte System wieder crashed.

Syslog sagt das:

Jan  1 21:48:16 BOFH-BEAST kernel: vfio-pci 0000:03:00.0: vfio_bar_restore: reset recovery - restoring BARs
Jan  1 21:48:23 BOFH-BEAST  rc.diskinfo[21650]: PHP Warning: strpos(): Empty needle in /usr/local/emhttp/plugins/unassigned.devices.preclear/scripts/rc.diskinfo on line 413
Jan  1 21:48:39 BOFH-BEAST  rc.diskinfo[22201]: PHP Warning: strpos(): Empty needle in /usr/local/emhttp/plugins/unassigned.devices.preclear/scripts/rc.diskinfo on line 413
Jan  1 21:48:54 BOFH-BEAST  rc.diskinfo[22882]: PHP Warning: strpos(): Empty needle in /usr/local/emhttp/plugins/unassigned.devices.preclear/scripts/rc.diskinfo on line 413
Jan  1 21:49:09 BOFH-BEAST  rc.diskinfo[23449]: PHP Warning: strpos(): Empty needle in /usr/local/emhttp/plugins/unassigned.devices.preclear/scripts/rc.diskinfo on line 413
Jan  1 21:49:21 BOFH-BEAST kernel: vfio-pci 0000:03:00.0: vfio_bar_restore: reset recovery - restoring BARs
Jan  1 21:49:24 BOFH-BEAST  rc.diskinfo[24127]: PHP Warning: strpos(): Empty needle in /usr/local/emhttp/plugins/unassigned.devices.preclear/scripts/rc.diskinfo on line 413
Jan  1 21:49:39 BOFH-BEAST  rc.diskinfo[24686]: PHP Warning: strpos(): Empty needle in /usr/local/emhttp/plugins/unassigned.devices.preclear/scripts/rc.diskinfo on line 413
Jan  1 21:49:55 BOFH-BEAST  rc.diskinfo[25424]: PHP Warning: strpos(): Empty needle in /usr/local/emhttp/plugins/unassigned.devices.preclear/scripts/rc.diskinfo on line 413
Jan  1 21:50:11 BOFH-BEAST  rc.diskinfo[26037]: PHP Warning: strpos(): Empty needle in /usr/local/emhttp/plugins/unassigned.devices.preclear/scripts/rc.diskinfo on line 413
Jan  1 21:50:27 BOFH-BEAST  rc.diskinfo[26748]: PHP Warning: strpos(): Empty needle in /usr/local/emhttp/plugins/unassigned.devices.preclear/scripts/rc.diskinfo on line 413
Jan  1 21:50:35 BOFH-BEAST kernel: usb 1-11.1.1: reset low-speed USB device number 8 using xhci_hcd
Jan  1 21:50:35 BOFH-BEAST kernel: usb 1-11.1.4: reset full-speed USB device number 11 using xhci_hcd
Jan  1 21:50:35 BOFH-BEAST kernel: usb 1-11.2: reset full-speed USB device number 7 using xhci_hcd
Jan  1 21:50:36 BOFH-BEAST kernel: usb 1-13: reset full-speed USB device number 6 using xhci_hcd
Jan  1 21:50:36 BOFH-BEAST kernel: usb 1-14: reset full-speed USB device number 9 using xhci_hcd
Jan  1 21:50:36 BOFH-BEAST kernel: Bluetooth: hci0: Firmware timestamp 2022.28 buildtype 1 build 47489
Jan  1 21:50:36 BOFH-BEAST kernel: Bluetooth: hci0: Found device firmware: intel/ibt-0041-0041.sfi
Jan  1 21:50:36 BOFH-BEAST kernel: Bluetooth: hci0: Boot Address: 0x100800
Jan  1 21:50:36 BOFH-BEAST kernel: Bluetooth: hci0: Firmware Version: 129-28.22
Jan  1 21:50:36 BOFH-BEAST kernel: Bluetooth: hci0: Firmware already loaded
Jan  1 21:50:40 BOFH-BEAST kernel: usb 1-11.1.1: reset low-speed USB device number 8 using xhci_hcd
Jan  1 21:50:40 BOFH-BEAST kernel: usb 1-11.1.4: reset full-speed USB device number 11 using xhci_hcd
Jan  1 21:50:41 BOFH-BEAST kernel: usb 1-11.2: reset full-speed USB device number 7 using xhci_hcd
Jan  1 21:50:41 BOFH-BEAST kernel: usb 1-13: reset full-speed USB device number 6 using xhci_hcd
Jan  1 21:50:41 BOFH-BEAST kernel: usb 1-14: reset full-speed USB device number 9 using xhci_hcd
Jan  1 21:50:41 BOFH-BEAST kernel: Bluetooth: hci0: Firmware timestamp 2022.28 buildtype 1 build 47489
Jan  1 21:50:41 BOFH-BEAST kernel: Bluetooth: hci0: Found device firmware: intel/ibt-0041-0041.sfi
Jan  1 21:50:41 BOFH-BEAST kernel: Bluetooth: hci0: Boot Address: 0x100800
Jan  1 21:50:41 BOFH-BEAST kernel: Bluetooth: hci0: Firmware Version: 129-28.22
Jan  1 21:50:41 BOFH-BEAST kernel: Bluetooth: hci0: Firmware already loaded

Win 11 VM 1v3.png

Win 11 VM 2v3.png

Win 11 VM 3v3.png

bofh-beast-diagnostics-20230101-2137.zip

Edited by Schult0r
Link to comment
47 minutes ago, Schult0r said:

- 2. Monitor an iGPU angeschlossen für Konsole

 

Auf dem erscheint nichts bei einem Crash? Manchmal schaffen es die kritischen Kernelfehler nicht ins Syslog und werden einfach nur auf dem Monitor rausgeworfen.

 

Ich würde auch mal eine neue VM erstellen und diese abspecken so weit es geht. Dh nur eine vdisk, keine USB und PCI Devices außer der dGPU und vielleicht auch mal eine andere Version als Q35-7.1 testen. Aus Spaß auch mal nur ein RAM-Modul verbauen.

 

 

Hast du die selbe Hardware mal direkt in Windows gebootet und da auch Stresstests gemacht?

 

Von deinen Erzählungen her, tendiert ja eigentlich alles Richtung Grafikkarte. Hast du zufällig noch eine andere rumfliegen, mit der man testen könnte?

 

  • Thanks 1
Link to comment
1 hour ago, Schult0r said:

Ich hatte große Probleme, den RAM mit XMP zum Laufen auf den 6.400 MHz zu bewegen. Ich musste das werkseitige Profil händisch in der Spannung höher nehmen, damit ich von wahnsinnig vielen Fehlern im memtest86 runter gekommen bin. Jetzt habe ich nur noch sporadisch mal 1-4 Fehlern in 4 Durchgängen. Das ist nicht schön, denn in meiner Welt sollte er gar keine Fehler haben, werde ich aber mit dem Hersteller besprechen. Alle hier angesprochenen Fehler passieren allerdings auch mit Default-Einstellungen im BIOS.

Reduziere mal die Anzahl der Speichermodule und takte die so niedrig wie es geht (also auch unterhalb default).

Oder, aflls Du noch andere Module zur hand hast, mit denen ausprobieren.

Ich tippe auf RAM Probleme unter Last.

Ich weiß, Du hast memtest86 und so weiter schon laufen lassen, aber diese Dinger  machen an einigen Stellen Zufallstests (random) , das bedeutet sie decken seehr viele Sachen ab, aber wenn sie nicht durch Zufall genau das problembehaftete Bitmuster/Verhalten testen, dann meldet er auch keine Fehler, weil der eben nicht auftritt.

Nur weil memtest85/Prime95 etc.. einige Zeit (auch 24h) problemlos durchgelaufen sind, heißt das nicht, dass es nicht doch ein Problem in der Richtung geben kann.

Und da Du ja schon festgestellt hast, dass da mit dem Speicher etwas im Argen ist, würde ich versuchen es mit anderem (oder wenn kein anderer Vorhanden ist) mit je nur einem dieser 16GB Module (alle mal einzeln in diese Situation bringen) zu testen.

 

  • Thanks 1
Link to comment

Danke für eure Anregungen. Ich werde sie mal nach und nach durchgehen und dann berichten.

 

@mgutt: Ich habe bereits mehrere Q35-Versionen getestet. Hatte keine Auswirkung. Ich teste es aber der Vollständigkeit halber mit den Default-RAM-Einstellung jetzt mit einer neuen VM und so, wie du vorschlägst nochmal.

 

Nein, ich habe dieselbe Hardware bisher nicht in Windows gebootet. Das wäre jetzt mein nächster Schritt, ich habe noch eine HDD, die ich nehmen kann. Ich habe leider nur noch eine uralte GTX 560 Ti AMP rumfliegen, kann ich mal probieren. Hoffentlich bekomme ich sie durchgeschleift.

 

Gerade eben noch einmal einen Absturz gehabt beim Beenden des Spiels Rise of the Tomb Raider. Zocken selbst ging ohne Probleme, beim Beenden - zack, freeze. Und auf dem iGPU-Monitor hört nur der Cursor auf zu blinken, sonst zeigt der nichts an.

 

@DataCollector: Ich habe sogar bereits beide 32 GB-Kits separat getestet, dabei sogar Null Fehler mit aktiviertem und optimiertem XMP-Profil. Dann wieder alle eingebaut, und 5 Fehler in 4 Läufen. Mit 32 GB RAM (ich habe erst vor kurzem das zweite 32 GB-Kit nachgerüstet) war das Verhalten im Übrigen identisch.

Edited by Schult0r
Link to comment

im 1. Step hört sich das stark nach Hardware an ...

 

was noch offen wäre, Netzteil, ich hatte mein 550er auch mal ausgereizt mit ner 2070s Karte, da hat es mir dann auch in der Gaming VM gerne alles zerissen ... ;)

 

die RAM Fehler (wenn auch sporadisch) sind dazu sicherlich auch nicht förderlich, dann wären noch die Temps ein Thema ob was throttled und dann ...

 

rBAR, above 4g ... rBar im BIOS aktiviert, Treiber Einstellung dazu auch mal getestet, mit/ohne ... ?

ich habe es aktiviert, jedoch setze ich nur auf Nvidia (leider) da AMD gerne Fehleranfällig ist.

 

dann würde ich auch das CPU Pinning überdenken, Core0 würde ich sicherlich aus der Gaming rausnehmen (Linux liebt den), Beispiel hier

 

Gaming VM (keine VM hier nutzt core0)

image.thumb.png.a46cc8e340873dcb49621db2622994d0.png

image.thumb.png.78e22e597a2c8a863466007d5935ce82.png

  • Thanks 1
Link to comment
11 hours ago, Schult0r said:

- Powercolor RX 6700 XT 12 GB (--> an VM durchgeschleift an einem Monitor)

Ich vermute hier wie schon oben von @alturismo erwähnt die AMD Karte als übeltäter.

 

Leider ist AMD noch nicht so weit mit den VMs wie Intel/Nvidia.

Weder konnte mich AMD für den Betrieb der Grafikkarten sowie als Host Platform (CPU/Motherboard) bis jetzt überzeugen.

 

Hast du vielleicht irgendwo die Möglichkeit dir eine Nvidia Karte zum Testen ein zu bauen?

Link to comment
1 hour ago, ich777 said:

Ich vermute hier wie schon oben von @alturismo erwähnt die AMD Karte als übeltäter.

 

Leider ist AMD noch nicht so weit mit den VMs wie Intel/Nvidia.

Weder konnte mich AMD für den Betrieb der Grafikkarten sowie als Host Platform (CPU/Motherboard) bis jetzt überzeugen.

 

Hast du vielleicht irgendwo die Möglichkeit dir eine Nvidia Karte zum Testen ein zu bauen?

Ja wie gesagt nur die olle GTX 560. Ich probiere Mal ein paar Dinge, die Uhr vorgeschlagen geht, wenn ich heute Zeit dazu finde

Link to comment
12 hours ago, Schult0r said:

Ich habe sogar bereits beide 32 GB-Kits separat getestet, dabei sogar Null Fehler mit aktiviertem und optimiertem XMP-Profil. Dann wieder alle eingebaut, und 5 Fehler in 4 Läufen. Mit 32 GB RAM (ich habe erst vor kurzem das zweite 32 GB-Kit nachgerüstet) war das Verhalten im Übrigen identisch.

Einige Boards/Designs sind empfindlicher, wenn man alle Speicherbänke voll bestückt.

Ich weiß jetzt nicht, ob das auf Dein Modell zutrifft. Im PDF Handbuch habe ich dazu leider keinen Hinweis gefunden.

Link to comment

Hatte bisher nicht viel Zeit, daher hab ich jetzt nur folgendes getan:

- Core0 und Core1 aus der VM rausgeschmissen

- im BIOS alles was mit resizable BAR oder Above 4G Decoding zu tun hat, angeschmissen

 

VM gestartet, Bildschirm bleibt schwarz.

VM über WebUI neugestartet, Splash Screen kommt. Auflösung 800x600

AMD Treiber neuinstalliert und manuell aus der Liste den neusten Treiber ausgewählt. Code 43.

Link to comment
35 minutes ago, Schult0r said:

Hatte bisher nicht viel Zeit, daher hab ich jetzt nur folgendes getan:

- Core0 und Core1 aus der VM rausgeschmissen

- im BIOS alles was mit resizable BAR oder Above 4G Decoding zu tun hat, angeschmissen

 

VM gestartet, Bildschirm bleibt schwarz.

VM über WebUI neugestartet, Splash Screen kommt. Auflösung 800x600

AMD Treiber neuinstalliert und manuell aus der Liste den neusten Treiber ausgewählt. Code 43.

 

Code 43 ist ja ein typischer Fehler, entweder liegt es an der Hardware oder am Treiber.

 

Lade dir mal den "Display Driver Uninstaller (DDU)" und entferne alles was vom Treiber übrig ist und installiere danach mal neu.

Link to comment

Update

 

Ich habe gerade einfach mal eine neue Win 11 VM erstellt, wie von @mguttvorgeschlagen auf Basis von Q35-7.0, Zugriff über VNC. Minimal eingerichtet, prime95 gestartet um Stress auszulösen. Läuft 30 min anstandslos durch.

 

Anschließend die RX 6700 an die VM gebunden. VM gestartet und diesmal die "Auto detect" Software von AMD runter geladen und ausgeführt. Durchlaufen lassen, Treiber installiert (heißen jetzt irgendwie Enterprise oder so). Neueste Treiber im Gerätemanager aus Liste gewählt, da Gerät fehlerhaft - Code 43. Auflösung die ganze Zeit 800x600.

 

DDU laufen lassen, normale Adrenalin Software ohne Auto detect runtergeladen und installiert. Neueste Treiber im Gerätemanager aus Liste gewählt, da Gerät fehlerhaft - wieder Code 43.

 

Langsam bekomme ich aber das kalte Kotzen. Ohne die aktivierten Above 4G und Resizable BAR-Optionen konnte ich wenigstens noch die Treiber installieren und die Auflösung anpassen. Ich bin kurz davor zum örtlichen Saturn zu fahren und eine RTX 3060 zu holen...

 

 

Link to comment

Mal ein anderer Ansatz:

 

Soundcard muss die gleiche wie bei der Grafikkarte sein. Das lösst nämlich auch Error 43 aus.

Bei mir sieht die Soundcard gleich auch wie die Grafikkarte.

 

image.png.5467fb0a9780d4abc029cccafb86bfa9.png

 

Oben bei dir sehe ich Soundcard Amd Navi?? Keine Ahnung ob das die deiner 6700 ist??

 

Schau mal ob du da was anderes auswählen kannst. Bei mir heisst die Audio Card gleich bzw steht dahinter Radeon RX 470/480

 

Habe mal gegooglet deine Soundcard ist eher die von Mainboard? Kannst du mir das bestätigen?

Link to comment
15 minutes ago, JayLong said:

Mal ein anderer Ansatz:

 

Soundcard muss die gleiche wie bei der Grafikkarte sein. Das lösst nämlich auch Error 43 aus.

Bei mir sieht die Soundcard gleich auch wie die Grafikkarte.

 

image.png.5467fb0a9780d4abc029cccafb86bfa9.png

 

Oben bei dir sehe ich Soundcard Amd Navi?? Keine Ahnung ob das die deiner 6700 ist??

 

Schau mal ob du da was anderes auswählen kannst. Bei mir heisst die Audio Card gleich bzw steht dahinter Radeon RX 470/480

 

Habe mal gegooglet deine Soundcard ist eher die von Mainboard? Kannst du mir das bestätigen?

 

Nein, die Soundkarte ist schon richtig so. Die liegt zusammen mit der GraKa auf demselben IOMMU 03:00.00 (GraKa) und 03:00.01 (Sound).

 

Update 2

 

Ich habe mich jetzt mal an eine alte Anleitung von The Geek Freaks gewagt und habe die XML angepasst. Auch habe ich das ROM von der Graka einmal von techpowerup.com geladen und (unverändert) in die VM-Einstellungen gepackt. Leider auch ohne Erfolg. Ich komme nicht von den 800x600 weg und teilweise erzeugen die Treiber immer noch Code 43.

 

Habe jetzt noch mal alles mit Above 4G etc. im BIOS deaktiviert und habe sofort die korrekte Auflösung in der neuerstellten, minimalen VM. Jetzt schauen wir mal, ob prime95 das Ding aus der Bahn wirft.

 

Link to comment
  • Solution

Update

 

Wie oben geschrieben habe ich mir gestern nach einem echten "Schnauze jetzt dick voll"-Moment meinen Kurzen geschnappt und bin zum örtlichen Dealer. Habe eine ASUS GeForce RTX™ 3060 Dual OC 12GB V2 LHR gekauft. Ich habe nicht vor irgendwas mit Cryptocurrencies zu machen, also ist mir LHR egal.

 

Habe jetzt die ursprüngliche Win 11 VM - die zu Beginn meines Posts die Probleme bereitete - umgebogen auf die neue nVidia-Karte. Nach einem bisschen Konfigurations-Heck-Meck im BIOS habe ich die VM jetzt am Laufen. Problemlos. Gut, Bootup ist ziemlich langsam, habe aber auch noch n bisschen was zu erledigen bzgl. Parity Check und bei einer Platte machen sich nach den ganzen Crashes jetzt Read Error breit.

 

Fakt ist aber, dass der 3D Mark Time Spy Test komplett durch läuft. Kein Absturz, nix. War ja vorher nicht möglich. Sogar mit Auto Tuning der GPU läuft die VM stabil. Die Framerate liegt gefühlt leicht niedriger als bei der RX 6700 XT, ist aber auch vielleicht verständlich, denn die spielt eher in der Liga einer 3070. Wollte aber mein Budget jetzt nicht noch weiter überziehen.

 

Jetzt läuft noch mal prime95 für den finalen Stabilitätstest. Wenn das jetzt durchläuft, dann kann ich das Kapitel zu machen. Die RX 6700 geht dann zurück zum Händler. Schade drum - und doof ob der ganzen Mühe der letzten Woche(n). Leider bestätigt das mein altes Vorurteil, weswegen ich seit über 15 Jahren eigentlich keine AMD-GPU mehr hatte. Aber aufgrund des positiven Preis-Leistungs-Verhältnisses wollte ich AMD noch mal eine Chance geben.

  • Like 3
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...