通往万亿晶体管GPU之路

百科 2024-12-06 14:00 北京

人工智能的繁荣发展需要新的芯片技术。

1997年，IBM的“深蓝”超级计算机打败了国际象棋世界冠军加里•卡斯帕罗夫。这是超级计算机技术的一次突破性展示，也首次让人们看到了高性能计算有一天可能超越人类智能。在接下来的十年里，我们开始将人工智能用于许多实际任务，如面部识别、语言翻译以及电影和商品推荐。

又过了15年，人工智能已经发展到可以“结合知识”的地步。ChatGPT和Stable Diffusion等生成式人工智能可以写诗、创作艺术作品、诊断疾病、编写总结报告和计算机代码，甚至可以设计出与人类设计相媲美的集成电路。

人工智能很有可能成为未来所有人类活动的数字助手。ChatGPT就是一个很好的例子，它展示了人工智能有助于推动高性能计算的普及性应用，为社会中的每一个人带来益处。

所有这些奇妙的人工智能应用都归功于3个因素：高效机器学习算法的创新、可用于训练神经网络的海量数据，以及通过半导体技术发展实现的节能计算进步。虽然最后这一项贡献无处不在，但它在生成式人工智能革命中的重要性却未得到应有的重视。

在过去30年里，人工智能的重要里程碑都是通过当时最先进的半导体技术实现的，没有它们，这些里程碑就不可能实现。深蓝计算机是通过结合0.6微米和0.35微米节点的芯片制造技术实现的；赢得ImageNet竞赛并开启当前机器学习时代的深度神经网络是用40纳米技术实现的；AlphaGo使用28纳米技术征服了围棋世界，初版ChatGPT是在采用5纳米技术的计算机上训练的。而最新版的ChatGPT则依靠使用了更先进的4纳米技术的服务器提供支持。从软件和算法到架构、电路设计和设备技术，人工智能所涉及的每一层计算机系统都是提高人工智能性能的倍增器。但公平地说，基础晶体管技术是实现上层进步的关键。

如果人工智能革命要继续按照当前的速度发展下去，将需要半导体行业提供更多的支持。10年内，它将需要拥有1万亿个晶体管的GPU，是目前常见GPU所拥有的晶体管数量的10倍。

人工智能模型规模的持续增长

过去5年里，人工智能训练所需的计算能力和内存访问量提高了几个数量级。例如，训练GPT-3需要相当于每秒超过5000千万亿次的运算持续一整天，并需要3万亿字节（3TB）的内存容量。

新的生成式人工智能应用所需的计算能力和内存访问量还在继续快速增长。现在，我们需要回答一个紧迫的问题：半导体技术如何才能跟上这一步伐？

从集成器件到集成芯粒

自集成电路发明以来，半导体技术一直致力于缩小特征尺寸，以便将更多的晶体管塞进极小的芯片中。今天，集成已经上升到了一个更高的层次；我们将超越二维缩放，进入三维系统集成。我们正在将许多芯片组装成一个紧密集成的大规模互连系统。这是半导体技术集成的范式转变。

在人工智能时代，系统能力直接与系统集成的晶体管数量成正比。限制晶体管集成数量的主要因素之一是光刻芯片制造工具被设计成只能制造不超过约800平方毫米的集成电路，这被称为“光罩限制”。但现在，我们可以将集成系统的尺寸扩展到光刻技术的光罩限制之外。通过将几块芯片连接到一个更大的中介层（一块内置互连的硅片）上，我们可以集成一个能够比单芯片包含更多器件的系统。例如，台湾积体电路制造股份有限公司（以下简称台积电）的基板上晶圆芯片（CoWoS）技术可以容纳多达6个光罩范围的计算芯片，以及十几个高带宽存储器（HBM）芯片。

高带宽存储器是另一种对人工智能而言越来越重要的关键半导体技术：该技术可将芯片堆叠在一起进行系统集成，台积电称之为“集成片上系统”（SoIC）。高带宽存储器由一堆动态随机存取存储器（DRAM）垂直互连芯片组成，位于控制逻辑集成电路之上。它使用了称为“硅通孔”的垂直互连来让信号通过每块芯片，并使用了焊锡球连接内存芯片。如今，高性能图形处理器（GPU）广泛使用了高带宽存储器。

未来，3D 系统级集成单芯片技术可以为目前的常规高带宽存储器技术提供替代方案，在堆叠芯片之间实现更密集的垂直互连。最新进展显示，高带宽存储器测试结构使用混合键合堆叠了12层芯片，相较于目前使用的焊锡球，这种铜对铜连接实现了更高的密度。这种内存系统在低温下在较大的基础逻辑芯片之上进行键合，总厚度仅为600微米。

随着由大量芯片组成的高性能计算系统运行大型人工智能模型，高速有线通信可能很快会限制计算速度。如今，数据中心已经在使用光互连来连接服务器机架。很快，我们将需要基于硅光子技术与GPU和中央处理器（CPU）一起封装的光学接口。它们将提高带宽的能源效率和面积效率，实现直接的GPU到GPU光学通信，使成百上千台服务器像一个具有统一内存的巨型GPU一样工作。人工智能应用的需求将让硅光子技术将成为半导体行业最重要的使能技术之一。

迈向万亿晶体管GPU

如前所述，用于人工智能训练的典型GPU芯片已经达到了光罩范围限制，其晶体管数量约为1000亿个。要持续晶体管数量增多的趋势，将需要用2.5D或3D集成互连的多芯片来执行计算。通过基板上晶圆芯片、集成片上系统或相关的先进封装技术集成多个芯片，可以使每个系统的总晶体管数量远远超过单块芯片所能容纳芯片的数量。我们预测，在10年内，一个多芯粒GPU将拥有超过1万亿个晶体管。

我们需要在一个3D堆栈中将所有这些芯粒连接起来，不过幸运的是，业界已经能够迅速缩小垂直互连的间距，从而提高连接的密度，而且还有很大的进步空间。我们认为互连密度完全可以提高一个数量级，甚至更多。

GPU的能效性能趋势

那么，这些硬件创新技术将如何提升系统性能？

如果关注能效性能（EEP）这一指标的稳步提升，我们便可以从服务器GPU中看到这一趋势。能效性能是系统能源效率和速度的综合衡量指标。在过去15年里，半导体行业的能效性能每两年提高大约3倍。我们相信这一趋势将按照历史速度继续。它将受到来自多方面创新的推动，包括新材料、设备和集成技术、极紫外光刻、电路设计、系统架构设计以及所有这些技术元素的协同优化等。

特别是我们在此讨论的先进封装技术，它将推动能效性能的提高。此外，系统技术协同优化等概念也会越来越重要，系统技术协同优化是将GPU的不同功能部分分散到各自的芯粒上，并使用性能最佳、最经济的技术来构建每个部分。

3D集成电路的米德-康维时刻

1978年，加州理工学院教授卡沃•米德（Carver Mead）和施乐帕洛阿尔托研究中心的琳•康维（Lynn Conway）发明了一种用于集成电路的计算机辅助设计方法。他们使用了一套设计规则来描述芯片尺寸，使工程师无须深入了解工艺技术就能轻松设计超大规模集成电路。

现在，3D芯片设计也需要类似的能力。如今的设计师需要了解芯片设计、系统架构设计以及软硬件优化。制造商需要了解芯片技术、3D集成电路技术和先进封装技术。正如1978年那样，我们再次需要一种描述这些技术的通用语言，让电子设计工具能够理解这些技术。这种硬件描述语言可以让设计师自由地进行3D集成电路系统设计，而不必考虑底层技术。这种语言已经在发展之中了，一种名为3Dblox的开源标准已经被当今大多数技术公司和电子设计自动化公司接受。

隧道尽头的未来

在人工智能时代，半导体技术是推动新的人工智能能力和应用发展的关键因素。新的GPU不再受制于过去的标准尺寸和形式因素。新的半导体技术不再局限于在二维平面上来缩小下一代晶体管。人工智能集成系统可以由尽可能多的节能晶体管、专用计算工作负载的高效系统架构以及软硬件优化关系组成。

在过去50年里，半导体技术的发展就像在隧道中行走。前方的道路是清晰的，因为有一条明确的路径，而且大家都知道需要缩小晶体管。

现在，我们已经走到了隧道的尽头，之后的半导体技术将越来越难开发。然而在隧道之外，还有更多的可能性在等待着我们。

作者：刘德音，黄汉森

END

更多精彩文章请点击下面“蓝字”标题查看：

《物理与工程》期刊是专注于物理教育教学研究的学术期刊，是中国科技核心期刊，1981年创刊，欢迎踊跃投稿，期刊投审稿采编平台：

http://gkwl.cbpt.cnki.net

欢迎关注

《物理与工程》微信公众号

物理与工程

《物理与工程》期刊由教育部主管，清华大学主办，教育部大学物理教指委直接领导，主编是王青教授。主要发表物理教育教学研究论文以及物理与工程中的学术论文，是中国科技核心期刊，1980年创办，1981年创刊。

最新文章

喜讯｜宿非凡老师微信文章获2024年清华大学新媒体联盟优秀网络原创作品

新的光纤技术打破数据传输速率纪录——402太比特/秒！

量子计算“华山论剑”，中美竞争态势胶着

使用新的开源跨学科数据集训练AI人工智能模型像科学家那样思考

关于召开医药类大学物理虚拟教研室第三次工作会议的通知

“5倍声速”搭上“星链”，高超声速无人机时代拉开序幕？

雯宇教授和他的教学论文

军校大学物理教学改革与学习自我效能感的提升

中国天眼FAST发现的脉冲星是什么？能吃吗？

第24届亚洲物理奥林匹克竞赛实验试题介绍与解答

两种核物理科学范式的对话

海森堡 —— 一个被误解误传的量子力学奠基人(上)

海森堡 —— 一个被误解误传的量子力学奠基人(下)

直播预告 | 姬扬+曹则贤+吴宝俊+刘全慧：乘着物理夜航船，驱散笼罩AI的迷雾

为什么霍普菲尔德跨界成功？

聚焦实战化需求的大学物理资源库建设

神经网络通过测量数据刻画量子系统

2024诺奖颁奖现场，AI之父Hinton演讲：当AI已经开始理解人类的喜好和情绪（附视频）

梅宏院士：当前 AI 存在三大问题！

物理青椒联盟第3期活动纪要

叶企孙和他的哈佛同学在量子力学诞生前夜

自动驾驶汽车揭示人工智能的风险

清华大学顾晨：带电粒子运动

中国设计的未来环形对撞机

快讯｜崔芬萍等35项案例入选“2024年中国大学物理教育MOOC联盟优秀案例”

美国数学大奖首位女性华人得主！她说：我只是一个普通人

近场微波显微镜的应用

大学物理课程教学模式五化建设创新实践

通往万亿晶体管GPU之路

【线上活动预告】“青年教师提升计划”之演示动画创作经验分享——全国物理基础课程青年教师发展联盟系列线上活动第三期

顶级俄国数学家是怎样炼成的？

昆明理工大学开设物理学前沿讲座的教学改革实践

阵列式大口径激光雷达——窥探近地空间环境的“千里眼”

潘建伟院士：通用量子计算机至少操纵百万量子比特，我国正编制规划

新材料驱动量子革命

基于OBE理念的大学物理实验教学的改革与实践

比利时微电子研究中心计划利用超导缩小计算机

清华大学顾晨：自制云室

寻找超导量子比特信息丢失的原因

神经网络通过测量数据刻画量子系统

赵凯华｜九旬畅谈物理教育

深切缅怀北京大学物理学院资深教授赵凯华先生

日程｜全国慕课教育创新大会（第五届）暨高校在线开放课程联盟联席会2024年会

杨振宁的“卷王”好友，黄昆给物理学界留下了什么？

12月2日截止｜关于征集2024年中国大学物理教育MOOC联盟典型案例的通知

提升“地球物理场论”课程教学质量的三个着力点

基于大中衔接的金割效应物理摆教学设计

刘全慧｜统计规律和力学规律关系辨析

遵循摩尔定律的机器

能斯特公式和零点热

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉