Hot Chips 2024 | 可持续计算在AI和云原生工作负载中的应用

文摘科技 2024-11-08 08:00 四川

引言

在当今快速发展的技术环境中，对高效且可持续的计算解决方案的需求从未如此迫切。本文旨在帮助了解AI和云原生工作负载方面的创新。随着人工智能(AI)和云原生工作负载的复杂性和规模不断增长，需要能够处理这些任务同时最大限度减少能源消耗的处理器变得极为重要。AmpereOne应运而生，这是一系列突破性的云原生处理器，旨在直面现代计算的挑战[1]。

处理器设计的范式转变

传统的处理器设计技术在满足当今工作负载需求方面已达到极限。AmpereOne代表了范式转变，摒弃了传统的涡轮频率和超线程等方法。相反，它专注于功率优化、一致的性能和线性核心扩展。

图1展示了从传统处理器技术到AmpereOne创新方法的转变，强调了功率优化和线性核心扩展的重点。

AmpereOne路线图：持续创新的承诺

AmpereOne的产品路线图展示了快速创新的步伐，明确承诺在气冷环境下为AI计算提供每机架最佳性能。路线图从当前的AmpereOne系列开始，具有高达192个核心的5nm工艺，一直延伸到未来的迭代版本，如AmpereOne Aurora，承诺提供高达512个核心，并集成用于训练和推理工作负载的AI硅。

图2展示了AmpereOne的产品路线图，展示了从当前型号到未来迭代的发展过程，核心数量不断增加，功能不断先进。

深入了解AmpereOne核心

AmpereOne性能的核心在于其创新的核心设计。让我们探索使该处理器脱颖而出的关键组件：

1. 前端

最先进的分支预测
解耦的预测和获取流水线
用于大代码足迹的高带宽接口

2. 执行

8个调度器供给12个执行管道
对称的整数和FP/矢量执行管道
通过单uop int8 MMLA支持AI推理吞吐量

3. 加载存储单元

64KB，4路写直通DL1缓存
4周期整数加载使用延迟
从零开始的熔断保护

4. 内存管理

支持任何页面大小的通用TLB条目
用于页面遍历的专用L2接口
优化的TLB维护响应时间

5. L2缓存

2MB 8路私有L2数据/指令缓存
11周期加载使用延迟
请求率和预取的自适应节流

图3概述了AmpereOne核心流水线，突出显示了各个组件及其互连。

AmpereOne的分解架构

AmpereOne的一个关键创新是分解架构。这种方法将计算、内存和PCIe子系统分离到不同的芯片上，每个芯片使用最合适的制程制造。然后，这些组件通过Ampere的自定义芯片间(D2D)互连连接，每个方向能够达到2.8TB/s的带宽。

图4展示了AmpereOne的分解架构，显示了计算、内存和PCIe组件如何分离和互连。

这种灵活的架构允许：

使用相同的构建块实现8通道和12通道设计
快速集成客户IP
定制以满足独特的客户I/O和内存需求

增强安全性和性能的先进功能

内存标记

AmpereOne引入了强大的内存标记功能，增强了稳健性和安全性。这一功能有助于检测指针编程错误并减轻利用内存安全漏洞的攻击。

内存标记的关键方面：

每16字节内存粒度获得4位"分配标记"
指针在地址的高位携带"访问标记"
核心对每次内存访问检查"访问标记 = 分配标记"
不匹配会导致故障并阻止数据访问

图5演示了内存标记的概念，显示了标记如何与内存分配和指针相关联。

自适应流量管理

为了提供一致和可扩展的性能，AmpereOne采用了自适应流量管理。这一能力对于最小化运行间变异和独立并发工作负载之间的干扰非常关键。

运行原理：

内存服务代理通报"繁忙"程度
核心相应地修改请求流量的速率和配置
针对不同工作负载行为的自适应响应

图6比较了AmpereOne与AMD Bergamo和AMD Genoa的加载延迟，展示了自适应流量管理的有效性。

性能领先地位

AmpereOne在各种基准测试和工作负载中展示了令人印象深刻的性能指标：

1. SPECrate 2017_int_base:

每机架性能比AMD Genoa高出34%
每瓦性能比AMD Genoa高出50%

图7比较了AmpereOne与AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基准测试中的每机架性能和每瓦性能。

2. 云原生工作负载：

键值存储的每机架性能提高了58%
在容器化Web服务、缓存和数据库方面有显著改进

图8展示了AmpereOne在各种云原生工作负载中相对于AMD Genoa和AMD Bergamo的每机架性能改进。

3. AI推理：

在无GPU推理性能和效率方面处于领先地位
在各种AI模型（包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B）中表现出色

图9比较了AmpereOne与AMD EPYC和Intel Xeon处理器在不同AI模型中的推理性能和每瓦推理性能。

生态系统就绪

任何处理器架构的成功都取决于生态系统的支持。AmpereOne在各个类别中都拥有强大的生态系统：

操作系统：支持流行的Linux发行版，如Alma Linux和Ubuntu
编排、虚拟化和容器：与Docker、Kubernetes和VMware等领先平台兼容
语言和运行时：支持Java、Python、Go等
网络和存储：与Mellanox、Marvell等解决方案集成
应用程序：准备用于广泛的Web服务、数据库、AI和云游戏应用

图10展示了AmpereOne广泛的生态系统支持，突出显示了各种软件和硬件兼容性类别。

结论

AmpereOne代表了AI和云原生工作负载处理器设计的重大进步。其创新架构专注于可持续计算和可扩展性能，使其在快速发展的数据中心和云计算领域处于领先地位。随着对高效AI处理需求的持续增长，AmpereOne在分解设计、先进安全功能和生态系统支持方面的方法使其成为组织构建下一代云基础设施的极具吸引力的选择。

通过优先考虑每瓦性能和适应多样化工作负载的能力，AmpereOne不仅满足了行业的当前需求，还为未来可持续计算的创新奠定了基础。随着我们迈向日益由AI驱动的世界，像AmpereOne这样的处理器将在确保我们的技术进步不以环境可持续性为代价方面发挥关键作用。

参考文献

[1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024.

END

软件申请

我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

关注我们

关于我们：

深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/

（点击上方名片关注我们，发现更多精彩内容）

http://mp.weixin.qq.com/s?__biz=Mzg5MzY2NDAxMw==&mid=2247499941&idx=4&sn=66e85c24b077264bf39ba55ec4616b52

逍遥设计自动化

分享特色工艺半导体（PIC/Power/MEMS）设计自动化解决方案及行业技术资讯，与广大业界朋友、专家共同交流！

最新文章

双偏振IMDD系统推进数据中心连接技术

激光雷达遥感技术的最新进展与未来展望

OCP2024 | 新一代人工智能服务器设计

重磅发布 | 逍遥科技推出PIVOT：基于pSim Plus的光子智能变量优化工具

IDTechEx | 光电子集成芯片和硅基光电子的演进

电子系统从2D到4D集成技术的发展

氮化镓技术：从制造到器件加工

光纤供电与射频光纤传输：新一代网络中的复合传输系统

GaN从衬底到器件技术的进展

NVIDIA自动驾驶汽车安全开发技术综述

人工智能时代传输网络的未来规划

Applied Sciences | 集成光电子技术的核心概念与未来展望

上海交大-平湖智能光电研究院携手逍遥科技助力光电子集成芯片产业发展

Optics Express | 使用角锥型横向转移反射器进行三孔径阵列主动相位锁定

无电感低功耗低电压交叉耦合调节式共源跨阻放大器设计

激光雷达数据获取系统

人工智能如何重塑数据中心基础设施

仿真技术推动光/微电子产业高质量发展——逍遥科技第六届仿真技术报道

激光雷达遥感技术原理与应用

通过制造感知反向设计来优化光电子集成芯片

Acacia | 未来光传输网络为人工智能时代做好准备

激光雷达遥感技术简介

Nature Photonics | 通过可控合成时间光子晶格的量子态处理

氮化镓技术：材料与生长工艺

Hot Chips 2024 | 人工智能普及之旅：现代计算中的挑战与解决方案

讯石专访逍遥科技：探索MEMS Studio创新方案，协同并进共创未来

硅基单片波长选择开关：利用阵列波导光栅和布拉格光栅滤波器

Chiplet架构的发展与设计

理解紧密耦合异构系统中的内存操作：Grace Hopper超级芯片指南

Optics Letters | 光学差分波前传感：利用深度学习提高灵敏度和动态范围

GaN技术在电力电子中的应用概述

基于强化学习的模拟线路设计优化

Meta | 人工智能集群光连接的挑战与机遇

Optics Express | 硅基光电子平台上高速外调制宽可调谐激光器

Lightmatter | 光子技术与人工超级智能的道路

基于波导介电网络的偏微分方程求解

利用3D光电子技术实现超低能耗、高带宽密度的芯片数据链路

氮化镓功率器件技术的现状与展望

Hot Chips 2024 | 可持续计算在AI和云原生工作负载中的应用

案例分享 | 使用pSim Plus实现光学神经网络中的脉冲幅值调制技术仿真

Applied Physics Letters | 使用转印技术将铟磷激光器异质集成到硅基光电子波导平台上

面向自动驾驶的硅基光电子车载光网络(SiPhON)系统

IDTechEx | 先进半导体封装技术

APL Quantum | 基于锗硅单光子雪崩二极管的集成硅基光电子室温光量子计算

Nanophotonics | 基于生物启发的平面光学用于3D光检测和测距

现代计算中铜互连的演进

Hot Chips 2024 | 设备端人工智能的优势、发展与热设计挑战

案例分享 | 使用PhotoCAD实现基于马赫曾德干涉仪的光学卷积矩阵单元

异质集成光电子技术中绝热波导耦合器设计的系统方法

经济可持续的AI扩展：硬件挑战和光学解决方案分析

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉