×
前面去兰州出差的时候带回来一台服务器,原配置是2颗AMD EPYC7302,32核心64线程,256G内存。拿回来以后正赶上大船靠岸,所以升级为2颗AMD EPYC7532,性能提升很大,64核心128线程。不得不说AMD YYDS!性能抗打!注意,7k62虽然和7532价格相差不大,且核心数是7532的一倍,但是它不适合做CFD!!
这俩U的对比见下图:
可以看到功耗单个U从155W提升到了200W,虽然电源可以抗住,但是出现了各种小问题!7月份基本每天都在折腾它。
问题1:硬盘掉盘
这个问题的外在表现就是用着用着盘没了,尤其是在满载跑CFD的时候,所以你算一晚上起来一看,算的文件全丢了。这肯定是不可接受的,在更换CPU之前没有出现过这个问题,所以先从硬盘排查,更换硬盘也会出现,然后更换不同的硬盘数据线包括更换硬盘的供电线,都没有解决这个问题,一度想把电源换了!但是买个新电源还挺贵的,重装系统也没解决!
所以继续折腾,我认为这种情况可能和主板的关系更大,主板自带的2个NVME接口可能有问题了,所以买了一个PCI-E转STAT3.0的转接器,如下图所示:
主板上最不缺的就是PCI-E插槽了:
用这个转接头连接硬盘,这个掉盘的问题就解决了。因为更换CPU后供电增大,可能对STAT口有影响,但是群友也有遇到这个问题的,更换插口就行,而我这块主板不可以。
问题2:内存条、CPU温度高
这个问题肯定会遇到,原来的散热器是金钱豹4U R20,虽然这玩意介绍可以压住205W的CPU,还是有点吃力,CPU核心温度超过75度,这个不算啥,主要是内存条的温度一度给干到了92度,到这个温度后CPU开始降频,主频从3.2Ghz降低至1.5Ghz,这肯定不能忍!
原来的服务器内部如下图所示:
可以看到服务器的CPU风扇从机箱前向后吹风,热量都从机箱后部吸出去,且CPU2的热风会先经过CPU1的散热器,所以CPU1的温度是比2要高的!同时这种散热布局导致内存条的温度会比较高,主要体现在主板顶部的1EFGH和2ABCD内存,他们的散热只能靠机箱前侧的风扇吹过来的风,但是实际上这个风非常小,很难解决内存条温度高的问题。
所以入手了2颗coolserver金钱豹4U主动AMD SP3/TR4散热器,除了双风扇的配置外,风扇尺寸也从9cm增大到12cm,温度算是给压住了!另外散热风扇布局也发生了变化,从前向后吹的布局改成了从下部送风顶部抽风的方案,我是先更换了CPU1的风扇来测试效果,内存条的温度从92°下降到80°左右!见下图左侧的CPU风扇:
这效果肯定不错,但是CPU2的热风吹到1上被挡住了,所以CPU2的风扇也一起换:
俩都更换了以后目前CPU的温度室温下维持在70°以内,但是内存条的温度还是有点高,会干到75°左右!当然由于合肥近期降温,户外33°的情况下测试的,等到户外37°的时候再看看,只要CPU和内存条的温度能控制在70°以内就算成功了!
为了解决内存条温度过高的问题,我只能增加物理外挂了,毕竟机箱内部的空间非常有限,所以我对机箱背部的防尘网下手了,直接在防尘网上外挂风扇吹温度高的内存条处的后主板,效果立竿见影。直接吹到了60°以内!
问题3:机箱风道不合理
改了CPU风扇后就不能采用从前往后吹的风道方案了,会打乱CPU风扇的风道,所以我取消了机箱前侧的2颗送风风扇,然后机箱顶部的抽风风扇听从群友的建议,换成了风量更大的零度世家风尊T30电脑机箱12CM散热风扇,颜值和性能都很棒,而且它没有彩带,不会造成光污染。推荐给大家!
从上边这个图里可以看到,我在机箱底部加了一个朝上吹的风扇,目的有2个,给CPU风扇提供风的同时照顾到mos散热。
为了进一步优化散热,机箱两侧的大背板我换成防尘网了。
问题4:风扇转速忽高忽低,阶段性噪声大
这个也是老生常谈的问题了,我百度的时候发现不少人会遇到这个问题,在群友的帮助下,我也解决了这个问题,那就是IPMI修改服务器散热方式,然后机箱风扇单独控制转速,不要插在主板上!
我理解的产生周期性风扇转速变化的主要原因是主板检测到温度高了就提高风扇转速,CPU风扇和机箱风扇同时增大温度马上下降,然后再马上降低转速,周而复始。当二者转速都提高后,那噪声一下就起来了。所以CPU的风扇还是交给主板去控制,我们把机箱上面配置的几个风扇单独供电并且通过调节电阻来手工调节转速即可,这个很简单,我们需要用到一个PMW服务器风扇调速器:
它的供电方式大概有4种,基本都能用,靠这2个旋钮来控制转速。值得注意的是只有真4pin供电的可调速风扇才可以用!
当然你也可以买这种能固定在机箱背部的外置可调速旋钮,更方便!
有这玩意最大的好处,在于CPU满载的时候我们可以人为将机箱风扇调节到一个噪声相对很低的转速,缺点是IPMI里边看不到机箱风扇的转速了,所以这个操作需要自己盲操作,听声调速😂!
当然这种方案群友也有疑问,如果这个单独供电模块坏了,那服务器会有Boom的风险,不无道理,但是这是概率问题,且机箱风扇停摆cpu散热如果有问题,cpu温度过高会自动降频的,这一点没问题的!
室温满载状态下的服务器温度和噪声:
给大家的装机建议:
1、机箱买好点的,内部空间要足够,这样对散热很有好处!
2、内存条要插满,频率可以低但是一定要插满!
3、CPU多线程要关闭,在BIOS里边可以设置!
4、服务器系统装Linux运算速度据说优于Win,但是Win用惯的我们建议装LTSC企业版!
5、其他的见上文,折腾一个月摸索出来的!
6、多问群友,群友真是万能的!!!
7、有钱别自己装!
在此特别感谢@电脑硬件DIY瓜皮交流3群各位大佬对我的帮助!装机有难度,但是好玩!