Jump to content

直通显卡后cpu长期满载占用,unraid未死机但无法进行操作


Go to solution Solved by Wizard_,

Recommended Posts

硬件配置:铭瑄w680+13500+64g ecc,显卡为一张gt710。

虚拟机为win10 22h2,之前显卡直通一直正常,在某一个晚上突然出现问题且导致unraid死机。

此为直通显卡且启动虚拟机后unraid日志报错。cache池是一个zfs池,重启后进行scrub未发现错误,ssd smart也无错误信息,文件读写看起来也是正常的。

1302925532_2024-01-23030011.thumb.png.a910a71735409bf3b7fe5c3084960791.png

此时怀疑是win10虚拟机系统问题,不直通显卡通过vnc访问虚拟机正常

重做了一个win11系统(vnc正常)且直通显卡,系统无法正常启动,虚拟机日志如图

403964253_2024-01-23031251.thumb.png.5020cf07589229ada93387f1fa6bf6b5.png

求解决方案!

顺带一提,当我将ssd插到直连cpu的m2插槽时会有如下报错:

image.thumb.png.d671182b8ca4411474399c06f4466306.png

尝试在syslinux文件里添加pci=nommconf,可进入系统但无法获取ip,关闭aspm无明显效果。

此为将显卡直通到win10虚拟机,cpu满载时生成的日志。

此时webui功能正常,命令行可使用top命令,显示占用最多的是 z_wr_iss、z_wr_int_2等几个类似的进程,无法kill虚拟机进程

wizard-server-diagnostics-20240123-0258.zip

 

Link to comment
22 hours ago, JackieWu said:

请尝试在 BIOS 中关闭相关的节能配置以及超频配置(CPU和内存超频),参考:

 

 

另外你也可以尝试在启动参数中添加:

 

nvme_core.default_ps_max_latency_us=0

 

Snipaste_2024-01-25_02-15-57.thumb.png.5b83edf89e6683c184dad61ee34cfb02.png

收到,感谢大佬回复!

我这个虚拟机无法启动的问题是纯粹由ssd引起的吗?如果不直通显卡的话,是可以正常启动系统的。

Link to comment
29 minutes ago, Wizard_ said:

我这个虚拟机无法启动的问题是纯粹由ssd引起的吗?如果不直通显卡的话,是可以正常启动系统的。

 

不太好确定是不是 SSD 引起的,因为根据你的截图信息,虽然 SSD 构成的 cache 池出现了 I/O 错误,但是重启之后貌似也正常了,所以我才建议去调整下主板关于电源策略的相关设置。

 

另外由于你的 Win 虚拟机的虚拟硬盘是存储在 cache 池里面,所以当 SSD 出现问题时那么虚拟机也必然会跟着出问题,建议你尝试将虚拟机的虚拟硬盘放到阵列或者其他缓存池去让虚拟机读取,看看是否还会出现类似的问题。

 

如果说上面的方法没能解决问题,那么我建议你检测一下内存,方法参考:unRAID内存的重要性以及内存测试方法。但也要说明的是,内存检测通过不代表问题不是由于内存造成的,内存与主板不兼容是会造成 unRAID 出现一些奇奇怪怪的问题(因为 unRAID 是加载到内存中运行的)。

 

然后你还可以尝试将显卡换一个 PCIE 插槽,如果有其他插槽的话。

Link to comment
15 hours ago, JackieWu said:

 

不太好确定是不是 SSD 引起的,因为根据你的截图信息,虽然 SSD 构成的 cache 池出现了 I/O 错误,但是重启之后貌似也正常了,所以我才建议去调整下主板关于电源策略的相关设置。

 

另外由于你的 Win 虚拟机的虚拟硬盘是存储在 cache 池里面,所以当 SSD 出现问题时那么虚拟机也必然会跟着出问题,建议你尝试将虚拟机的虚拟硬盘放到阵列或者其他缓存池去让虚拟机读取,看看是否还会出现类似的问题。

 

如果说上面的方法没能解决问题,那么我建议你检测一下内存,方法参考:unRAID内存的重要性以及内存测试方法。但也要说明的是,内存检测通过不代表问题不是由于内存造成的,内存与主板不兼容是会造成 unRAID 出现一些奇奇怪怪的问题(因为 unRAID 是加载到内存中运行的)。

 

然后你还可以尝试将显卡换一个 PCIE 插槽,如果有其他插槽的话。

我今天尝试了一下

使用nvme_core.default_ps_max_latency_us=0后开机不再会有大量AER错误刷屏,但是一旦进行高负载操作依然会刷屏

image.thumb.png.6e2790afd5c07aa012932d0c9e736e1e.png

 

我根据日志里的提示,又加了一条pcie_aspm=off,目前还不清楚效果。

另外,虚拟机依旧无法启动,但是显示器能显示出桌面(随后死机并出现以下日志,这是否说明问题与显卡关系不大?)

image.thumb.png.31ec8d71e58f1312ec0bf4dfcc31daf8.png

 

而且,正常情况下使用zpool status -v命令,没有什么特殊的

image.png.f2aed68a3287033fe702d40a8e41f7c4.png

 

但是在显示nvme控制器出问题时,再使用这个命令就能看到错误了(类似这样)

image.png.f7ff756aa5fc3c5c33e6663482582378.png

最后,我尝试重装了下ssd上的文件系统,目前还是装的zfs,问题依旧。

 

wizard-server-diagnostics-20240126-1725.zip

Link to comment
On 1/26/2024 at 5:34 PM, Wizard_ said:

另外,将系统放到别的池里再启动是可行的,我将镜像放到了raw池里并成功在显卡直通的情况下启动了系统。

 

后续呢,如果解决了麻烦在帖子里说一下,可以让其他有同样问题的朋友去参考。

Link to comment
15 hours ago, JackieWu said:

 

后续呢,如果解决了麻烦在帖子里说一下,可以让其他有同样问题的朋友去参考。

没有后续...问题还没解决

既然虚拟机放在其他阵列里是可以运行的,我怀疑就是ssd/zfs配置的问题了,下一步考虑更换文件系统到xfs试一试。

目前的临时解决方案是暂时先把虚拟机放在raw池,也就是hdd池里使用。

Link to comment
  • Solution

似乎问题解决了?具体我也不太清楚是什么情况,但是貌似"无法纠正的I/O错误"问题不再出现、RxErr问题和BadDLLP问题无论高低负载情况都没有再出现。

似乎之前日志内要求的两条启动参数解决了问题。

此问题暂时解决,如有其他问题我会更新

 

简单总结一下解决方案:

在syslinux内加上两条启动参数,即

nvme_core.default_ps_max_latency_us=0 
pcie_aspm=off

image.png.09b0bde827186f0c41aa223584f34d2d.png

 

命令作用:

第一条命令的作用是禁止nvme的APST,禁止ssd主动进入省电模式,只能进入Host设置的电源状态。

第二条命令的作用是禁止linux内核的ASPM,在这种情况下系统将不会启用ASPM,也就不会主动省电。

  • Like 1
Link to comment

好了,给直通了显卡的虚拟机关机的时候问题再次出现。

因为昨天相同环境下已经尝试过关机,当时一切正常。所以应该初步可以判断是系统稳定性的问题吧?

image.png.d8c3f2501c909230fd40fe539468b703.png

image.thumb.png.e0eb2947fc15e21ddb812a940ee465a1.png

网上查了一圈也没有问题的具体成因和解决方案,只能暂时这样了

Link to comment
Quote

网上查了一圈也没有问题的具体成因和解决方案,只能暂时这样了

我觉得有可能是因为内核与 M2 控制器存在不兼容的问题,你可以尝试换一下 unraid 的版本试试,最好是降级测试一下。

Edited by JackieWu
Link to comment
  • 3 weeks later...
  • 4 months later...
Posted (edited)

很遗憾,问题在很久以后再次出现了,看起来上面的解决方案只能暂时缓解问题。

 

在上次更新之后,unraid论坛有人发了这个帖子:

 

似乎这是一个linux内核问题,没办法只能等unraid7更新了+openzfs适配6.9内核后再作下一步计划。

Edited by Wizard_
Link to comment

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...