锐龙9000两大补丁正式发布!延迟大降58%、性能提升35%

体娱   2024-10-09 23:59   中国香港  

随着X870E/X870主板的正式解禁上市,AMD宣布了多条重大消息,尤其是锐龙9000系列的延迟问题、架构优化。

AMD表示,部分媒体测试发现,双CCD配置锐龙9000系列的核心间延迟偏高,但他们测试的场景很罕见,对实际性能影响很小,但即便如此,AMD还是做了优化。

目前,AMD已经正式发布了AGESA PI 1.2.0.2版本的微代码,包括X870E/X870在内的全系AM5主板都可以刷新BIOS,降低核心间延迟。

AMD没有透露核心间延迟的具体改善幅度,而根据此前测试,有的从180纳秒降低到了75纳秒,幅度高达58%,有的从200纳秒降到了95纳秒,幅度也有52.5%。

1.2.0.1

1.2.0.2

同时,AMD联合微软发布了KB5041587系统补丁,可以优化Zen架构的分支预测,显著提升性能。

该补丁之前只是可选项,现在已经正式加入Windows自动更新,支持Windows 11 23H2 Build 22631.4112及更新版本、24H2 Build 26100.1301及更新版本。

据悉,这一补丁除了优化Zen5,也能给Zen4、Zen3带来一定的改善。

根据实测,锐龙7 9700X游戏性能平均提升约11%,部分游戏相当夸张,比如《战争机器5》提升多达35.1%,《堡垒之夜》提升30.6%,《遗迹2》提升22.3%,《星球大战绝地武士:幸存者》提升21.9%,《世界大战3》提升21.5%,《家园3》提升20.0%。

同时,锐龙7 7700X可平均提升10%,其中《战争机器5》高达32.6%。

至于该补丁是否会下放给Windows 10,暂时不详。

AGESA PI 1.2.0.2版微代码还正式解锁了锐龙5 9600X、锐龙7 9700X的热设计功耗限制,从原本的65W开放到105W,官方预计最多可带来10%的性能提升。

它同样支持所有的AM5主板,包括新的X870E/X870。

AMD确认,X870E/X870主板上只需打开EXPO,就可以一键达成DDR5-8000的超高内存频率,尤其适合X870E。

华硕ROG团队宣布,将一颗锐龙9 9950X超频到了惊人的7548.65MHz,并且打破了五项世界纪录。

主板是新发布的ROG CROSSHAIR X870E HERO,液氮自然也是少不了的,温度低至零下189度,最终在16核心全开的情况下达到了这一成就,只是关闭了多线程。

这也是锐龙处理器迄今为止的最高频率,比之前又提高了100MHz——上个记录也是锐龙9 9950X创造的。

如此高频下,GeekBench 3多核得分170646,7-Zip得分321970,CineBench R20多核得分23550,CineBench R23多核得分60798,HWBOT x265 4K得分77.57,都是世界第一。

除了极限超频,X870主板普遍也针对日常操作做了大量支持,尤其是新的AI超频,即便是小白也能轻松释放全部潜力。

接下来,锐龙9000X3D系列即将登场,而担当首发的将是大家最青睐的型号,锐龙7 5800X3D/7800X3D的继承者,锐龙7 9800X3D。

根据MLID的最新曝料,锐龙7 9800X3D在官方资料中被列为2024年的产品,而更高端的锐龙9 9900X/9950X、更主流的锐龙5 9600X3D都不在此列,显然要明年再见了。

锐龙7 9800X3D的缓存总量仍然是104MB,包括6MB二级缓存、32MB原生三级缓存、64MB 3D缓存,这已经三代没变了。

不过,它的频率会显著提升频率,解决前两代最大的不足,同时有望基本解除对超频的限制,那就几乎不存在短板了,游戏、生产力可兼顾。

AMD在宣传材料中多次提及“最佳”(the best)、“精彩游戏终极处理器”(Ultimate Processor for Elite Gaming)等字样,看起来是极为自信啊。

另外,AMD还表示,锐龙9000X3D的最佳显卡搭档是RX 7000系列,完全没提RX 8000系列,显然得明年了。

最后,AMD发布了自己的首个小语言模型(SLM),名为“AMD-135M”。

相比于越来越庞大的大语言模型(LLM),它体积小巧,更加灵活,更有针对性,非常适合私密性、专业性很强的企业部署。

AMD-135小模型隶属于Llama家族,有两个版本:

一是基础型“AMD-Llama-135M”,拥有多达6700亿个token,在八块Instinct MIM250 64GB加速器上训练了六天。

二是延伸型“AMD-Llama-135M-code”,额外增加了专门针对编程的200亿个token,同样硬件训练了四天。


创建与部署流程

它使用了一种名为“推测解码”(speculative decoding)的方法,通过较小的草稿模型,在单次前向传播中生成多个候选token,然后发送给更大的、更精确的目标模型,进行验证或纠正。

这种方法可以同时生成多个token,不会影响性能,还可以降低内存占用,但因为数据交易更多,功耗也会增加。

AMD还使用AMD-Llama-135M-code作为CodeLlama-7b的草案模型,测试了推测解码使用与否的性能。

比如在MI250加速器上,性能可提升最多约2.8倍,锐龙AI CPU上可提升最多约3.88倍,锐龙AI NPU上可提升最多约2.98倍。


推测解码

AMD-135M小模型的训练代码、数据集等资源都已经开源,遵循Apache 2.0。

按照AMD的说法,它的性能与其他开源小模型基本相当或略有领先,比如Hellaswag、SciQ、ARC-Easy等任务超过Llama-68M、LLama-160M,Hellaswag、WinoGrande、SciQ、MMLU、ARC-Easy等任务则基本类似GTP2-124MN、OPT-125M。

Windows电脑
Windows最新版系统下载和动态,电脑爱好者之家。关注加交流群
 最新文章