AMD王宏强：全产品线推动大模型从云到端落地，解读下一代AI PC平台丨GACS 2024

科技 2024-09-29 10:05 北京

从云端到PC，AMD打造全方位智能生态。

2024全球AI芯片峰会（GACS 2024）于9月6日~7日在北京举行，大会由智一科技旗下芯片行业媒体芯东西和硬科技知识分享社区智猩猩发起举办。在大会第一天的主会场开幕式上，AMD人工智能事业部高级总监王宏强以《推进大模型从云到端部署，打造变革性未来》为题发表演讲。

AMD在端到端的AI基础设施领域打造了全面的产品线，覆盖从数据中心服务器、AI PC到智能嵌入式和边缘设备，并提供领先的AI开源软件及开放的生态系统。AMD基于先进ZEN4架构设计的CPU处理器平台、基于CDNA3架构面向AI推理&训练的MI系列加速器，已被微软等巨头采用。

据AMD人工智能事业部高级总监王宏强分享，AMD还在推动数据中心高性能网络基础设施（UALink，Ultra Ethernet），这对AI网络结构需要支持快速切换和极低延迟、扩展AI数据中心性能至关重要。AMD即将发布下一代高性能AI PC芯片，其基于第二代XDNA架构的Ryzen AI NPU，可提供50TOPS算力，将能效比提高至通用架构的35倍。

在AI PC对隐私、安全和数据自主性的推动下，重要的AI工作负载开始部署在PC上。作为全球领先的AI基础设施提供商之一，AMD愿意携手广大客户与开发者共建变革性未来。

目前，为了推进AI从云到端部署，AMD重点主要集中在提供丰富多样的高性能和自适应硬件和软件解决方案组合、建设开放式生态系统、将复杂的工作负载简化为引人入胜的用户体验这三大关键领域。

▲AMD人工智能事业部高级总监王宏强

以下为王宏强演讲内容的完整整理：

自去年以来，人工智能（AI）领域实现了显著的发展，尤其是在大模型和生成式AI方面。AMD在这些技术产品方面逐步推出了从硬件平台到软件，从端到端的解决方案。

AMD拥有非常全的产品线，从数据中心服务器，到边缘侧的Edge&Embedded，还有AI PC，都有非常全面的硬件AI平台。

AMD公司真正做到针对不同数据中心业务需求进行优化，以满足各种工作负载。这包括使用CPU处理器进行轻量级AI推理，或者利用MI加速器处理大规模任务，尤其是当前生成式AI大模型的推理和训练。

同时，我们知道在数据中心，除了推理和训练，特别是在训练里面，我们需要有Scaling Out（横向扩展）和Scaling Up（纵向扩展）。在同一个节点里面有多卡互联，在不同节点之间则是需要有Scaling Out扩大整个处理的能力。

针对这方面，我们集中发展开放的高速互联，如UALink和Ultra Ethernet，我们在计算和跨节点互联方面都提供了重要的技术支持。AI网络有一个很重要的需求，就是需要一个极低的延时和响应的时间，AMD找的是开放的UALink和Ultra Ethemet，更好地与业界其他客户一起构建我们整个的计算加速平台。

01.

加速器轻松处理上万亿参数模型

AMD的EPYC系列新一代CPU拥有多达192个核心和384个线程，这是基于我们最新的ZEN5架构设计的，它相比上一代也有非常大的性能提升，不仅是从Instruction Bandwidth（指令带宽），还有数据的Bandwidch（带宽），比如L2到L1的，还有L1到浮点数据的带宽都有提升2倍。

同时，我们的AVX-512技术是完整的，它在数据的buffer（缓冲区）也有带宽，从而能够更有效地支持AI推理服务。

自去年12月以来，我们在数据中心也推出了一系列新的MI加速器，这些产品已经被包括微软在内的大型互联网公司采用。

我们加速的板卡已经被服务器制造商，包括OEM（原始设备制造商）和ODM（原始设计制造商）集成到他们的服务器中。

对于用户而言，只要购买了这些服务器，就可以获得内置我们的CPU和MI加速器的系统，并用于执行AI推理和训练任务。

目前，在大模型生成式AI领域，ADM也是一直在提升我们的架构。我们原来是Llama3的架构，对此我们也将继续演进。

在存储容量和存储带宽方面，我们也取得了快速的发展。预计到今年年底，大家将会看到一些相关的更新产品的发布。

我们将更有效地支持当前在大模型的推理，例如Llama和GPT等。让所有的这些模型都能轻松地在我们的加速器上运行。更为重要的是，我们的加速器甚至能够处理具有上万亿参数的模型。

02.

GPU设计完全开源，

人人都可对代码进行修改

在GPU软件设计上，我们有ROCm，它是一个开源的加速器软件。我们不仅设计是开源的，而且整个架构也是模块化的，对用户完全开放、开源。

用户和社区成员都可以访问这些开源代码，你甚至可以对代码进行修改。我们鼓励更多地去把AI整个社区的贡献集成在我们整个ROCm平台里面。

我们针对当下最热的生成式AI也做了很多创新，比如像对RADEON这个开源推理引擎的支持。此外，我们还积极支持了像SGlang这样的新型开源推理引擎。

SGlang和RADEON之间存在一些差异，特别是在调度上。与CUDA这个相对闭源的环境不同，我们支持不同的开源推理引擎，使用户、社区，整个生态处在一个环境里面。

为了支持生成式AI的大模型，我们对FlashAttention-2和FlashAttention-3进行了优化，包括对FP8这些算子的支持。这些都是用在推理里面非常典型的数据类型，在训练里面，我们也能够支持BF16的数据类型。

除了提供算子支持，我们还支持通信，包括RCCL优化和虚拟化技术的支持等。

03.

AI发展不仅在于硬件，

软件和基础设施投入同样重要

我们坚持在AI的软件及基础设施上的投入。除了加大自己内部的投入，我们还会收购一些业界比较有名的公司。

最近我们收购了SILO.ai，这是一家拥有众多杰出AI案例的公司。

通过收购SILO.ai，我们不仅能够进一步提供AI优化技术，还获得了他们在AI开源领域积累的丰富专业知识。

我们也收购了ZT Systems。作为行业领先的数据中心，ZT Systems专注于AI基础设施。

我们不仅从软件、硬件平台，还从整个机框、机架这一整套来提供AI加速的能力。

开源加速的发展速度在不断加快，每天都有新的开源算子和框架被推出。

AMD本着开源开放的战略，积极在开源社区进行部署和推广新模型。我们借助整个生态系统的力量，迅速推动AI技术的发展，这与相对封闭的CUDA环境完全不一样。

我们与HuggingFace的合作也是非常紧密的。HuggingFace上有70多万个模型，每天我们都会进行一些测试，保证它的这些模型都是可以直接运行在我们加速器的平台上，包括在数据中心里面，还有在个人笔记本Ryzen平台上。

我们还与OpenAI Triton合作，它提供了更高层次的AI语言抽象，使我们能够在更高层次的语言抽象上更容易地实现功能。此外，我们很早就开始支持像PyTorch这样的推理框架。

04.

XDNA2架构下的NPU，

算力与存储提升

刚刚介绍了我们在数据中心的投入，实际上我们在AI PC的投入也非常大。

我们一直在RyzenAI平台引领AI PC。

现在越来越多的应用可以跑在个人笔记本电脑里面，比如一些实时的协同都可以在个人电脑里面跑一些大模型，通过这些大模型作为基座，去开发各种应用，这就使得各种应用真的可以落地到端侧。

我们AMD要发布的下一代高性能AI PC芯片，它也是基于我们Zen5 CPU的架构，加上了第2代XDNA，Ryzen是升级到3.5的版本，能够提供50TOPS的算力。

在AI PC领域，用户越来越重视隐私保护、数据安全和数据自主性。随着重要的AI工作流程逐步在个人电脑端部署，对专用处理器的需求也随之增加。

在PC部署上，大家对PC机的耗电需求非常大，因此非常需要NPU的处理器。NPU在性能功耗比具有非常大的优势，相比通用的处理器，它能够扩大35倍以上的能效，所以我们在AI PC里面有集成这个NPU。

NPU是基于我们XDNA2最新的架构，它的底层是AI处理引擎，相比之前，从算力，包括存储都有一点几倍的提升。

我们在数据类型上也进行了很多创新，例如对Block FP16的支持。与第一代XDNA相比，我们实现了更高的能效比，计算能力提升了5倍，功耗效率也提高了2倍。

关于关键数据类型的创新，就是块状浮点的支持。块状浮点的优势在于它结合了8-bit数据类型的高性能和16-bit精度的优点，从而在数据位宽、精度以及存储需求之间实现了理想的平衡。它在性能上与8-bit相近，同时在模型大小上仅需9-bit表征。此外，它在精度上非常接近16-bit，能够达到与16-bit数据类型几乎相同的99.9%的准确度。

另外一个在AI PC上的应用就是RAG推荐系统。它包括前处理步骤，其中一些处理在CPU上执行，而核心计算则在NPU，这种设计使得整个系统能够实时处理RAG推荐系统的任务。

刚刚介绍的这些功能都是通过AMD的Ryzen软件达到的，RyzenAI的软件架构包括从浮点模型开始，通过内置的量化器进行优化，最后通过ONNX的表示执行到NPU里面。

我们也支持通用架构，并正在开发Unified AI software stack（软件栈）。这一软件栈能够智能地识别系统中的CPU、NPU和iGPU这三种加速引擎，并自动分配最适合的引擎来处理相应的工作流程，从而实现最优性能。

我将很快分享一下AMD基于Edge&Embedded，在嵌入式和边缘的应用。

在AMD，这个平台是真正的一个异构计算平台，它不仅包括可编程逻辑，也包括XDNA和ARM CPU。它能够处理AI中的关键模块，包括前处理，如LiDAR数据处理，这些都可以由可编程模块来执行。

AI的Inference可以在XDNA架构中进行，而一些后处理、决策和Dedision Making则可以在后处理器，如CPU里面去进行。

我介绍一个Demo，它是基于AI的立体摄像头实现的，没有用雷达，也没有用地图，可以看到只是用了立体摄像头做AI相应的处理，就能实现自动驾驶的功能。

最后我总结一下我们的优势，我们能够定义新的AI时代端到端的基础设施，我们整个产品的线路是最全的，从数据中心、从边缘，到端侧，都有一整套的硬件。

我们在AI软件上一直有非常大的投入，包括对软件的支持，我们一直走的是开源开放的生态，让所有的AI开发者、客户、用户，包括整个社区，大家都可以在我们开放的软件平台上贡献，去推进整个AI软件的快速发展，去支持在不同平台上的各种新的模型。

我们正处在一个AI推动的社会变革中，AI的影响已经深入到我们的日常生活之中。AMD会继续推进大模型，从云边端的部署，以真正帮助到用户，基于AI技术去打造一个更加方便、更加便捷的生活。

http://mp.weixin.qq.com/s?__biz=MjM5NTM4MTUyMg==&mid=2447908626&idx=2&sn=7a507e2da8252d8cd5556925d0d31741

芯东西

芯东西专注报道芯片、半导体产业创新，尤其是以芯片设计创新引领的计算新革命和国产替代浪潮；我们是一群追“芯”人，带你一起遨游“芯”辰大海。

最新文章

亏损1182亿，芯片大厂业绩逆转！股价上涨7%

苹果最强3nm电脑芯片，来了！

武汉芯片独角兽冲刺IPO！年入38亿，大基金参投

美国遏华半导体政策升级！新规颁布，1月2日生效

融了15轮的成都半导体公司，要卖了

公开课预告：智算中心融合算力调度｜矩向科技CEO黄朝波主讲

酷睿Ultra 200S首测！功耗唰唰暴降，AI塞入台式机，英特尔这波稳了？

负债超20亿！上海芯片厂破产清算，“中国芯片教父”创办

突发！Arm取消对高通授权

高通汽车芯片大暴走！AI性能提升12倍，上车理想奔驰

高通旗舰芯皇性能狂飙，挤爆牙膏！

估值170亿美元！曝英特尔卖Altera股权

36家半导体企业，宣布并购重组！

智算集群基础架构、国产化方案及发展趋势｜公开课预告

英伟达台积电联盟，出现裂缝

黄仁勋对话Arm CEO：预言AI每年成本砍半，自曝演讲靠“硬着头皮”

湖南越摩研究院院长马晓波：玻璃基板Chiplet先进封装及多物理场仿真｜公开课预告

VC套现1.9亿，一家B轮半导体设备公司卖了

2美元/小时出租H100：GPU泡沫破灭前夜

为什么半导体人不愿意进晶圆厂？

AMD最强大模型芯片登场！五大硬核新品轰向AI，旗舰CPU单颗10万，OpenAI微软Meta都来站台

三年追超苹果，从能效比到端侧AI，联发科为高端芯片树立新标杆

中国集成电路“黄埔军校”，如今在走什么样的“芯”路

浪潮信息Stephen Feng：应对生成式AI发展四大挑战，以应用为导向以系统为核心解题丨GACS 2024

国产半导体的上半年

AI芯片独角兽申请IPO！两年净亏21亿

曝台积电高管嘲讽OpenAI：造芯计划太荒谬了

AMD王宏强：全产品线推动大模型从云到端落地，解读下一代AI PC平台丨GACS 2024

芯片法案两周年，看穿美国造芯大结局

亿铸科技熊大鹏：算力增长面临挑战，存算一体技术成破局密钥丨GACS 2024

复旦教授创业，再获超2亿元融资

后摩智能信晓旭：存算一体解锁AI大模型的边端侧潜力 | GACS 2024

苹芯科技杨越：拆解存算一体技术进阶，解读大模型芯片的四个优化方向 | GACS 2024

云天励飞李爱军：详解“算力积木”架构，探路国产工艺边缘AI芯片丨GACS 2024

罕见，10家国资联手，投出一个上海独角兽

国产芯片设备龙头人事地震！2名美籍高管辞职

国产AI芯片公司破产清算，公开拍卖！

曝Apollo拟向英特尔投资50亿美元

不是简单的“连连看”——SoC集成设计的挑战｜智猩猩国产EDA技术公开课预告

突发！传高通拟收购英特尔

突发，CPU公司被曝考虑卖身！

年报季中的国产半导体出海2024

HBM的意外赢家

国产射频PA，走到哪一步了？

中东土豪盯上了半导体

国产GPU独角兽启动IPO！

从电信行业到千行百业，AMD EPYC为创新发展带来“芯”动能

基于形式化方法的C模型和RTL实现逻辑等价性检验｜智猩猩国产EDA技术公开课预告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉