Jump to content

系统6.11.5存在cpu核心长时间占用100%


Go to solution Solved by sirtlks,

Recommended Posts

自组的homeserver,硬件12900 es+铭瑄B660M终结者+64G RAM,系统为unraid 6.11.5,会有某个CPU核心长时间100%占用(而且占用的进程不一定是哪个,附件图片为一个示例,核心4满载),造成风扇猛转,占用进程无法通过命令行kill掉,也试过不管它,过几个小时或者一天才会正常。这样时不时的来一下,导致机器功耗很高。请问有没有大佬了解此情况产生原因,以及如何规避?htop.thumb.png.8cb134dbf6c5997f50cf69e606e9976d.png

 

Link to comment
  • 2 weeks later...

2023-07-19,记录一下最近的进展:

由于我的物理机使用Unraid的不稳定性,我决定在裸机安装了PVE8.0,将Unraid作为虚拟机运行,直通SATA控制器、网卡、USB引导到虚拟机。得益于Unraid的引导机制,此操作简单且顺利。

Unraid-in-PVE.thumb.png.9314d811ad4ec10ae2966ce70e1fc5c9.png

有意思的是,本帖反应的单个cpu核心占用100%问题,在此后都没有发生了!而且基于Debian的PVE,也是坚如磐石,没有出现过物理机卡死问题。

但是产生了新的问题:每隔几天会存在Unraid虚拟机卡死/失联问题,GUI和SSH都没有响应。此问题在论坛也存在相当多的帖子反馈,疑似从好几年前的版本,到最新的Release,都没有得到有效解决。我遇到此问题只能SSH到PVE,使用qm stop 100强行停止Unraid虚拟机。

我在控制台发现Unraid卡死时,存在以下异常信息:

异常①

2023-07-17.thumb.png.18568d5fe1202d8167d72612a7ebc1f3.png

异常②

2023-07-18.thumb.png.9d57d46e8cefeed73cc5f8e440e01d83.png

其中异常①看不出来,异常②疑似与内存调用出错有关。我使用MemTest86+测试内存,果然检测出10个左右的错误。

推断问题:疑似主板、内存兼容存在问题,光威D4-3200的条子,在铭瑄B660M终结者的BIOS里启用XMP,是无法点亮的,默认只有2400的频率,所以我按照网上相关教程,关闭了XMP和自动内存频率,使用了手动拉高内存频率到3200。现在看来这个操作可能埋下了隐患。索性将此操作还原,使用2400的自动内存频率,再跑MemTest86+,就没有错误了。

鉴于以上硬件问题,我决定再使用观察一段时间,考察稳定性。后续会继续在本帖反馈。

 

 

 

 

Edited by sirtlks
Link to comment
  • 2 weeks later...
  • Solution

2023-7-27更新:最近查找资料搞定了XMP设置,在3200频率下跑了几遍MemTest86+都是PASS。

这段时间,作为虚拟机的Unraid6.11.5也没有出现死机、失联。所以目前我认为解决Unriad死机问题的最有效办法,就是不将其作为物理机底层系统来使用,专业的事情交给专业的系统去做。

总结:Unraid作为一款不那么稳定、无技术团队支援的商业化系统,只能说它仅适合喜欢玩的用户,在折腾的路上渐行渐远。

 

 

  • Like 1
Link to comment
  • 4 weeks later...
  • 2 weeks later...

关于 Unraid 崩溃的问题,比较常见的原因是内存(参考我博客 unRAID 内存的重要性以及内存测试方法 )。

 

内存问题可能涉及(但不局限于)以下几个方面:

  • 内存条物理上的问题,比如质量不好、做工有问题等。
  • BIOS 设置:比如在 BIOS 中开启了内存超频(XMP)。
  • 内存不兼容。

 

我在博客中记录一个因内存条问题而出现的 U 盘“损毁”和系统崩溃的情况(链接),由于使用的内存有问题,出现了以下几种比较罕见的现象:

  • 不管用什么U盘都会提示U盘损毁、出现 I/O 错误。
  • BIOS 设置中关闭各种节能的选项也不管用。
  • 不管用什么版本的 Unraid 都会出现一样的问题。
  • 怀疑是内存问题,但是检测内存没有错误。
  • 安装 PVE 系统也一样不能正常运行。

最后更换内存之后一切正常了。

 

我想说的是,其实此类问题在其他的系统会比较少见,因为 Unraid 是运行在内存中的(有不少朋友人并不知道这一点),因此如果内存存在问题就会直接造成系统不稳定的情况,比如系统崩溃。

 

但是由于内存问题不容易被发现,且用户往往不会想到是内存造成的(更多会往系统层面考虑),所以此类问题会给用户造成比较大的困扰,因此我在帮别人处理问题时会经常建议去做内存检测(内存检测方法)来从根本上去排除此类问题,但即使检测结果没问题也不一定就表示跟内存无关,就比如我这里提到的案例。

 

也由于 Unraid 运行在内存这一特点,因此一些系统层面的运作方式也会因此与一般的系统有所不同,这也进一步导致了更多 Unraid ”独有“的问题(但也请大家理性看待将系统载入内存运行的这一方式,这种方式会有它的好处)。

 

其他因内存而出现问题的案例:

  1. 6.12.2版本死机,只能强制重启
  2. UNRAID WINDOWS11 虚拟机间歇性死机
  3. 6.12.2版本死机,只能强制重启
  4. 求助!内核报错,WEBUI失联,DOCKER可以正常访问
  5. 今天UNRAID频繁死机,尝试了好多方法都无法解决问题,大佬们帮我看一下日志,看看到底是什么问题
Edited by JackieWu
Link to comment
  • 4 weeks later...

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...