Wizard_ Posted January 24 Share Posted January 24 硬件配置:铭瑄w680+13500+64g ecc,显卡为一张gt710。 虚拟机为win10 22h2,之前显卡直通一直正常,在某一个晚上突然出现问题且导致unraid死机。 此为直通显卡且启动虚拟机后unraid日志报错。cache池是一个zfs池,重启后进行scrub未发现错误,ssd smart也无错误信息,文件读写看起来也是正常的。 此时怀疑是win10虚拟机系统问题,不直通显卡通过vnc访问虚拟机正常 重做了一个win11系统(vnc正常)且直通显卡,系统无法正常启动,虚拟机日志如图 求解决方案! 顺带一提,当我将ssd插到直连cpu的m2插槽时会有如下报错: 尝试在syslinux文件里添加pci=nommconf,可进入系统但无法获取ip,关闭aspm无明显效果。 此为将显卡直通到win10虚拟机,cpu满载时生成的日志。 此时webui功能正常,命令行可使用top命令,显示占用最多的是 z_wr_iss、z_wr_int_2等几个类似的进程,无法kill虚拟机进程 wizard-server-diagnostics-20240123-0258.zip Quote Link to comment
JackieWu Posted January 24 Share Posted January 24 请尝试在 BIOS 中关闭相关的节能配置以及超频配置(CPU和内存超频),参考: 另外你也可以尝试在启动参数中添加: nvme_core.default_ps_max_latency_us=0 Quote Link to comment
Wizard_ Posted January 25 Author Share Posted January 25 22 hours ago, JackieWu said: 请尝试在 BIOS 中关闭相关的节能配置以及超频配置(CPU和内存超频),参考: 另外你也可以尝试在启动参数中添加: nvme_core.default_ps_max_latency_us=0 收到,感谢大佬回复! 我这个虚拟机无法启动的问题是纯粹由ssd引起的吗?如果不直通显卡的话,是可以正常启动系统的。 Quote Link to comment
JackieWu Posted January 25 Share Posted January 25 29 minutes ago, Wizard_ said: 我这个虚拟机无法启动的问题是纯粹由ssd引起的吗?如果不直通显卡的话,是可以正常启动系统的。 不太好确定是不是 SSD 引起的,因为根据你的截图信息,虽然 SSD 构成的 cache 池出现了 I/O 错误,但是重启之后貌似也正常了,所以我才建议去调整下主板关于电源策略的相关设置。 另外由于你的 Win 虚拟机的虚拟硬盘是存储在 cache 池里面,所以当 SSD 出现问题时那么虚拟机也必然会跟着出问题,建议你尝试将虚拟机的虚拟硬盘放到阵列或者其他缓存池去让虚拟机读取,看看是否还会出现类似的问题。 如果说上面的方法没能解决问题,那么我建议你检测一下内存,方法参考:unRAID内存的重要性以及内存测试方法。但也要说明的是,内存检测通过不代表问题不是由于内存造成的,内存与主板不兼容是会造成 unRAID 出现一些奇奇怪怪的问题(因为 unRAID 是加载到内存中运行的)。 然后你还可以尝试将显卡换一个 PCIE 插槽,如果有其他插槽的话。 Quote Link to comment
Wizard_ Posted January 26 Author Share Posted January 26 15 hours ago, JackieWu said: 不太好确定是不是 SSD 引起的,因为根据你的截图信息,虽然 SSD 构成的 cache 池出现了 I/O 错误,但是重启之后貌似也正常了,所以我才建议去调整下主板关于电源策略的相关设置。 另外由于你的 Win 虚拟机的虚拟硬盘是存储在 cache 池里面,所以当 SSD 出现问题时那么虚拟机也必然会跟着出问题,建议你尝试将虚拟机的虚拟硬盘放到阵列或者其他缓存池去让虚拟机读取,看看是否还会出现类似的问题。 如果说上面的方法没能解决问题,那么我建议你检测一下内存,方法参考:unRAID内存的重要性以及内存测试方法。但也要说明的是,内存检测通过不代表问题不是由于内存造成的,内存与主板不兼容是会造成 unRAID 出现一些奇奇怪怪的问题(因为 unRAID 是加载到内存中运行的)。 然后你还可以尝试将显卡换一个 PCIE 插槽,如果有其他插槽的话。 我今天尝试了一下 使用nvme_core.default_ps_max_latency_us=0后开机不再会有大量AER错误刷屏,但是一旦进行高负载操作依然会刷屏 我根据日志里的提示,又加了一条pcie_aspm=off,目前还不清楚效果。 另外,虚拟机依旧无法启动,但是显示器能显示出桌面(随后死机并出现以下日志,这是否说明问题与显卡关系不大?) 而且,正常情况下使用zpool status -v命令,没有什么特殊的 但是在显示nvme控制器出问题时,再使用这个命令就能看到错误了(类似这样) 最后,我尝试重装了下ssd上的文件系统,目前还是装的zfs,问题依旧。 wizard-server-diagnostics-20240126-1725.zip Quote Link to comment
Wizard_ Posted January 26 Author Share Posted January 26 另外,将系统放到别的池里再启动是可行的,我将镜像放到了raw池里并成功在显卡直通的情况下启动了系统。 Quote Link to comment
JackieWu Posted January 27 Share Posted January 27 On 1/26/2024 at 5:34 PM, Wizard_ said: 另外,将系统放到别的池里再启动是可行的,我将镜像放到了raw池里并成功在显卡直通的情况下启动了系统。 后续呢,如果解决了麻烦在帖子里说一下,可以让其他有同样问题的朋友去参考。 Quote Link to comment
Wizard_ Posted January 28 Author Share Posted January 28 15 hours ago, JackieWu said: 后续呢,如果解决了麻烦在帖子里说一下,可以让其他有同样问题的朋友去参考。 没有后续...问题还没解决 既然虚拟机放在其他阵列里是可以运行的,我怀疑就是ssd/zfs配置的问题了,下一步考虑更换文件系统到xfs试一试。 目前的临时解决方案是暂时先把虚拟机放在raw池,也就是hdd池里使用。 Quote Link to comment
Solution Wizard_ Posted January 29 Author Solution Share Posted January 29 似乎问题解决了?具体我也不太清楚是什么情况,但是貌似"无法纠正的I/O错误"问题不再出现、RxErr问题和BadDLLP问题无论高低负载情况都没有再出现。 似乎之前日志内要求的两条启动参数解决了问题。 此问题暂时解决,如有其他问题我会更新。 简单总结一下解决方案: 在syslinux内加上两条启动参数,即 nvme_core.default_ps_max_latency_us=0 pcie_aspm=off 命令作用: 第一条命令的作用是禁止nvme的APST,禁止ssd主动进入省电模式,只能进入Host设置的电源状态。 第二条命令的作用是禁止linux内核的ASPM,在这种情况下系统将不会启用ASPM,也就不会主动省电。 1 Quote Link to comment
Wizard_ Posted January 30 Author Share Posted January 30 好了,给直通了显卡的虚拟机关机的时候问题再次出现。 因为昨天相同环境下已经尝试过关机,当时一切正常。所以应该初步可以判断是系统稳定性的问题吧? 网上查了一圈也没有问题的具体成因和解决方案,只能暂时这样了 Quote Link to comment
JackieWu Posted January 30 Share Posted January 30 (edited) Quote 网上查了一圈也没有问题的具体成因和解决方案,只能暂时这样了 我觉得有可能是因为内核与 M2 控制器存在不兼容的问题,你可以尝试换一下 unraid 的版本试试,最好是降级测试一下。 Edited January 30 by JackieWu Quote Link to comment
Wizard_ Posted February 17 Author Share Posted February 17 把980pro升级到最新的固件(5开头那个),再搭配上文提到的两条命令。已经两周以上没有再出现类似问题了,应该可以认为问题已经解决。 1 Quote Link to comment
JackieWu Posted February 17 Share Posted February 17 Just now, Wizard_ said: 把980pro升级到最新的固件(5开头那个),再搭配上文提到的两条命令。已经两周以上没有再出现类似问题了,应该可以认为问题已经解决。 谢谢反馈 Quote Link to comment
Wizard_ Posted July 15 Author Share Posted July 15 (edited) 很遗憾,问题在很久以后再次出现了,看起来上面的解决方案只能暂时缓解问题。 在上次更新之后,unraid论坛有人发了这个帖子: 似乎这是一个linux内核问题,没办法只能等unraid7更新了+openzfs适配6.9内核后再作下一步计划。 Edited July 15 by Wizard_ Quote Link to comment
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.