Jump to content

unRAID Crash nach Windows VM Shutdown


Pardasus
Go to solution Solved by Pardasus,

Recommended Posts

Moin zusammen,

ich stehe vor einem rätzel und hoffe hier hat jemand ein Tipp/Lösung für mich. Seit ein paar Monaten nutzen ich unRAID. Alles lief perfekt. Ich habe neben ein paar Docker-Container noch eine Home Assistant VM und eine Windows 11 VM. Dazu habe ich mir dann vor ein paar Tagen noch eine macOS VM aufgesetzt. Am nächsten morgen bekomme ich von unRAID die Meldung, dass die Cache Platte weg ist. Nach einem System neustart war diese dann wieder da und ich konnte sie auch Problemlos wieder einbinden. Seitdem Crasht unRAID jedesmal, wenn ich die Windows 11 VM herrunterfahre.

 

Was habe ich bis her schon gemacht?

- Cache Festplatte komplett geprüft (100% ok)

- Windows 11 VM x mal neu aufgesetzt (komplett alles neu!)

- Wenn die Winodws 11 VM über VNC läuft, lässt sich diese Problemlos runterfahren.

- Wenn die Windows 11 VM über die Grafikkarte läuft, funktioniert alles Problemlos, bis ich Windows runterfahre. Dann Crash unRAID wieder.

- Die Home Assistant VM macht keinerlei Probleme, hat aber auch keine Grafikkarte durchgeschleift.

 

Wie sieht so ein unRAID Crash aus?

- Der reiter VMs lässt sich nicht mehr öffnen. Alle anderen gehen aber noch. (Home Assistant VM funktioniert weiter)

- Beim öffnen des Sys-Logs über die GUI kommt "Bad Gateway".

- Wenn man nun unRIAD herrunterfahren will, passiert nichst und es hängt sich komplett alles auf.

 

Was sagt die Log?

Quote

WARNING: CPU: 2 PID: 8102 at drivers/gpu/drm/amd/amdgpu/amdgpu_irq.c:656 amdgpu_irq_put+0x4e/0x90 [amdgpu]

 

Modules linked in: xt_CHECKSUM ipt_REJECT nf_reject_ipv4 ip6table_mangle ip6table_nat iptable_mangle vhost_net tun vhost vhost_iotlb tap veth xt_nat xt_tcpudp xt_conntrack xt_MASQUERADE nf_conntrack_netlink nfnetlink xfrm_user xfrm_algo iptable_nat nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 xt_addrtype br_netfilter xfs md_mod zfs(PO) zunicode(PO) zzstd(O) zlua(O) zavl(PO) icp(PO) zcommon(PO) znvpair(PO) spl(O) tcp_diag inet_diag ip6table_filter ip6_tables iptable_filter ip_tables x_tables efivarfs af_packet 8021q garp mrp bridge stp llc bonding tls amdgpu intel_rapl_msr intel_rapl_common i915 x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel kvm crct10dif_pclmul gpu_sched crc32_pclmul iosf_mbi crc32c_intel drm_buddy ghash_clmulni_intel drm_ttm_helper i2c_algo_bit sha512_ssse3 ttm aesni_intel btusb drm_display_helper crypto_simd btrtl cryptd btbcm drm_kms_helper btintel rapl mei_hdcp mei_pxp intel_cstate gigabyte_wmi wmi_bmof drm bluetooth intel_gtt nvme
Aug 21 22:46:12 SmartHomeServer kernel: intel_uncore r8169 i2c_i801 agpgart mei_me ahci i2c_smbus cp210x input_leds syscopyarea ecdh_generic i2c_core nvme_core mei realtek joydev libahci led_class ecc usbserial sysfillrect tpm_crb sysimgblt fb_sys_fops thermal fan video tpm_tis tpm_tis_core wmi tpm backlight intel_pmc_core acpi_tad acpi_pad button unix

 

CPU: 2 PID: 8102 Comm: rpc-libvirtd Tainted: P        W  O       6.1.38-Unraid #2

 

Die CPU bei "WARNING" ändert sich aber hin und wieder mal.

 

In dem Protokoll der Windows VM steht beim Herrunterfahren noch mehrfach:

Quote

qemu-system-x86_64: VFIO_MAP_DMA failed: Invalid argument

qemu-system-x86_64: vfio_dma_map(0x15314e5cc800, 0x380010000000, .......) = -2 (No such file or directory)

 

Das komisch ist, wenn Windows läuft ist alles gut. Ich kann alles Problemlos machen ohne die irgendwelche Probleme. Ich darf halt nur Windows nicht runterfahren wenn ich die Grafikkarte durchgereicht habe.

 

Wäre es denkbar das der unRAID USB-Stick korrupt ist bzw. dort Daten fehlen oder defekt sind? Wenn ja, kann ich da einfach ein neues Image drüber bügeln?

Alternativ könnte natürlich auch eine Hardware Komponente defekt sein, halte ich aber für unwarscheinlich.

 

syslog.txt

Edited by Pardasus
Link to comment
6 hours ago, Pardasus said:

ich stehe vor einem rätzel und hoffe hier hat jemand ein Tipp/Lösung für mich.

nimm eine Nvidia Karte ;) Spaß beiseite, das hört sich (leider) nach dem typischen Reset Bug Verhalten von AMD an ... ist im VM passthrough Betrieb öfters kritsich.

 

du kannst gerne mal deine diagnostics anhängen, wäre hilfreicher, dein syslog verrät nur du hast einen kernel crash, die vm engine hängt sich auf und daher kommst du auch nicht mehr in den Reiter usw ... webui hängt mit allem wo VM drin hängt ...

 

6 hours ago, Pardasus said:

Wäre es denkbar das der unRAID USB-Stick korrupt ist bzw. dort Daten fehlen oder defekt sind? Wenn ja, kann ich da einfach ein neues Image drüber bügeln?

 

sehr unwahrscheinlich da die VM Engine da nichts macht, weder lesend noch schreibend ... das spielt sich dann alles in der libvirt.img ab ... welche normal unter /mnt/user/system auf dem cache liegt ... aber wie erwähnt, das wird es nicht sein.

 

6 hours ago, Pardasus said:

Alternativ könnte natürlich auch eine Hardware Komponente defekt sein, halte ich aber für unwarscheinlich.

 

denke ich jetzt auch nicht ... dann würde eher beim Start ein crash passieren.

 

hier ein Link mit ein paar Infos, einlesen zu Rom, multifuncction und ACS revidieren falls aktiv, ansonsten die boot Optionen durchspielen ...

Einlesen zu dem AMD Reset Bug der GPU und ggf. das Plugin hierfür nutzen, sofern deine GPU da reinpasst ... weiß jetzt nicht welche du nutzt.

mehr bleibt leider kaum bei AMD Karten ... und das hängt an AMD, nicht an Unraid ... ist ein bekanntes Thema.

 

 

Link to comment
Quote

du kannst gerne mal deine diagnostics anhängen, wäre hilfreicher, dein syslog verrät nur du hast einen kernel crash, die vm engine hängt sich auf und daher kommst du auch nicht mehr in den Reiter usw ... webui hängt mit allem wo VM drin hängt ...

Ich habe die Diagnotics.zip hier mit angehängt.

 

Quote

sehr unwahrscheinlich da die VM Engine da nichts macht, weder lesend noch schreibend ... das spielt sich dann alles in der libvirt.img ab ... welche normal unter /mnt/user/system auf dem cache liegt ... aber wie erwähnt, das wird es nicht sein.

Meinst du? Seit 3-4 Monaten betreibe ich den unRAID Server und hatte bis zu den Problem wo die Cache Platte rausgesprungen ist, nie probleme. Kann ich die Datei libvirt.img einfach austauschen? Wenn ja, wo finde ich diese? (google ich weis ;) aber gibt es da eine spezielle Version die unRAID nutzt?)

 

Quote

hier ein Link mit ein paar Infos, einlesen zu Rom, multifuncction und ACS revidieren falls aktiv, ansonsten die boot Optionen durchspielen ...

Einlesen zu dem AMD Reset Bug der GPU und ggf. das Plugin hierfür nutzen, sofern deine GPU da reinpasst ... weiß jetzt nicht welche du nutzt.

mehr bleibt leider kaum bei AMD Karten ... und das hängt an AMD, nicht an Unraid ... ist ein bekanntes Thema.

Für die VM habe ich mir damals das Grafikkarten BISON gezogen und binde es separat in der VM mit ein. Ich nutze eine AMD RX 6700 XT Grafikkarte. Habe mir mal das "AMD Vendor Reset" Plug-In Installiert. Glaube aber mit einfach nur Installieren ist es nicht getan, oder? Wenn nicht, verstehe ich leider nicht, was ich tun muss um es aktiv zu nutzen.

 

Ich werde mir den Link mal anschauen, vielen Dank! Aber es ist doch merkwüridg, das Monate lang alles Problemlos lief und von jetzt auf gleich überhaupt nicht mehr geht. Das ich Macinabox genutzt habe, kann darauf aber keinen einfluss gehabt haben, oder?

smarthomeserver-diagnostics-20230822-0821.zip

Edited by Pardasus
Link to comment
On 8/22/2023 at 8:36 AM, Pardasus said:

Kann ich die Datei libvirt.img einfach austauschen?

VM Dienst ausschalten, löschen, VM Dienst starten (sollte dann neu erstellt werden), oder einfach umbenennen ... dann hast du auch ein Backup.

 

Achtung, ich würde mir die xml's sichern (oder zumindest screenshots machen) um die Einstellungen zu sichern ... was, wie, wo bei den jeweiligen VM's eingestellt war.

Link to comment
  • Solution

Ich habe mich heute mal den gesamten Tag damit beschäftigt und soeben die Lösung gefunden. Da musss man aber auch erst mal drauf kommen.

 

In letzter Zeit habe ich unRAID immer im GUI-Modus gestartet. Dabei läuft unRAID über die interne GPU der INTEL CPU. Wenn ich jetzt Windows über die ATI Garfikkarte starte und beende, hängt sich unRAID fast komplett weg.

Wenn ich aber unRAID NICHT im GUI Modus starte, lässt sich die Windows VM Problemlos beenden und auch wieder neu starten. Auf die Weboberlfäche von unRAID komme ich dann über mein Handy/Tablet drauf.

 

Ich freue mich jetzt, dass jetzt alles wieder läuft. Aber ist das jetzt ein Bug von unRAID?

  • Like 1
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...