"北大突破：颠覆GPU！首秀180nm制程碳纳米管TPU芯片，能效惊人，每瓦功耗下实现万亿次运算里程碑！"

科技 2024-07-31 21:31 江苏

大家都知道昨天苹果宣布使用谷歌的TPU芯片，导致英伟达史诗级暴跌2000亿美元市值，这无疑说明英伟达的GPU并不是无可替代，也间接说明谷歌TPU的优越性。TPU大家可能不太了解，因为全球只有谷歌与寒武纪在使用这种架构。那么接下来AI老师给大家详解下TPU的结构与北大碳纳米管TPU芯片，有兴趣的朋友可以点击关注我哟！

北大精英科研先锋，彭练矛与张志勇率领的卓越团队，在尖端科技领域投下震撼弹，成功解锁未来计算的新篇章——全球范围内首次研发出以碳纳米管为核心技术的革命性张量处理器（TPU）芯片。这一创举不仅标志着芯片设计的一次飞跃式跨越，更是碳纳米管应用于高性能计算领域的璀璨里程碑。

01/

TPU-定义

“专为机器学习工作负载设计”

现在的大模型的参数量越来越大，从GPT3到5，如果光靠GPU单张大显存肯定是很难搞的，这个时候就需要我们的TPU出场了。TPU是ASIC架构其中一种。

故事先从开源社区说起，DDP与FSDP作为并行训练的两大旗舰策略，紧密绑定于PyTorch的深厚技术底蕴，专为GPU这类内存巨擘设计，当计算规模攀升至一定的高度时，卡之间的瓶颈就出现了，无法做到高效。尤其是当计算节点间缺乏如NVLink或RDMA这样的高速通道时，难免会搁浅的。

GPU的进化就是向着更大显存的前进，大家可以参考英伟达A100到H100GB200对标下，他们大多数是以减少对通信的依赖，成为缓解瓶颈的关键策略。但现在的大模型真的是脱缰野马狂飙，远远甩开了GPU显存扩容节奏。就拿Google的PaLM-540B大模型作为例子，参数就不用说了吧，BF16存储就需要吞1080GB显存，这是对整个计算生态非常大的考验。面对这种情况，传统方法压根无法处理，offload策略虽能勉强维持，但频繁的数据搬运是多么坎坷。例如苹果昨天就使用了2048颗TPUv5p芯片开始训练自己的端侧大模型，据说效果非常高效，具体论文我还没细看。

这个时候TPU的出现。作为专为神经网络训练打造的超级计算芯片，TPU Pod1000块的集群能力，就可以达到前所未有的计算超能力。确实是重新定义了大模型训练的游戏规则。

02/

TPU-架构

“脉动阵列、‌矩阵乘法、特定计算任务”

在国内，TPU其实跟谷歌是同一起跑线。

架构我总结分为脉动阵列、‌矩阵乘法单元MXU、‌针对特定计算任务的优化。‌

1、脉动阵列：‌TPU的核心架构是脉动阵列，‌这是一种特殊的并行计算架构，‌数据在一系列运算逻辑单元中以波的形式流动，‌类似于心脏供血的方式，‌这种结构使得TPU能够在每个周期内执行大量的乘法累加操作。‌

2、矩阵乘法单元：‌MXU由128×128的乘法累加器组成，‌每个MXU每个周期能够执行16K次乘法累加操作。‌MXU是TensorCore的主要组成部分，‌提供了大部分的计算能力。‌MXU的设计专门针对矩阵乘法运算进行了优化，‌不适用于通用计算。‌

3、针对特定计算任务的优化：‌TPUv4在硬件构型上针对Transfomer结构进行了适配和优化，‌包括增加针对MLP和Embedding workloads优化的组件。‌MLP主要处理连续性的数值特征，‌而Embedding组件处理离散型的分类特征。‌这种设计尤其对于语言模型、‌推广模型的加速效益极高。‌

4、内存管理与‌‌激活函数和池化操作我这里就不细说了，‌

微架构哲学我单独说下：‌TPU芯片的微架构的哲学是保持矩阵单元忙碌，‌通过使用统一缓存区和脉动运行来减少能耗和提高效率。‌这种设计减少了从SRAM读取数据时的功耗消耗，这个作用对于计算效率提升是指数级增长。‌

03/

TPU-苹果是谷歌的第一个客户

“脉动阵列、‌矩阵乘法、特定计算任务”

苹果是在设备端AI模型的上，其实可以理解成端侧，没有选N卡，而是2048颗TPU v5p。然后又使用8192颗TPU v4芯片（第四代AI ASIC芯片）的集群，为云端AI训练。我相信很快会出结果，到时候我会继续发文，给大家分析苹果训练的效果。因为这是大家最关心的，毕竟初次使用要对比下GPU训练优势。

04/

北大-首推碳纳米管TPU芯片

“180nm、‌低功耗、3000个碳纳米管”

3000个碳纳管、99。9999%的纯度。

这项技术是北京碳基电子学研究中心的彭练矛与张志勇团队所研发，核心只有惊人的3000个碳纳米管场效应晶体管精妙编织而成，独特的脉动阵列架构设计，可以让并行处理的2位整数乘积累加运算如虎添翼，例如——在仅消耗295微瓦的情况下，竟能驾驭5层卷积神经网络，实现对MNIST图像识别高达88%的精准度。

我们彭总与张总，通过对碳纳米管制造工艺的极致雕刻，成功解锁了半导体材料的至高纯度——99.9999%，我只能用四个字形容“精益求精”。这不仅提升了电流密度的极限，更确保了晶体管性能的均匀与稳定。

不敢想象的是，这款芯片采用的是180nm制程，8位碳纳米管，以850MHz的主频，以及每瓦1万亿次运算的惊人能效，震瘫老黄。这是对GPU霸权的一次深情告白，宣告着一个由碳纳米管技术引领的新时代的到来。

CNT TPU的硬件架构与创新实现

CNT TPU，它由精心布局的3x3处理单元（PE）矩阵、精密控制模块以及高效输入/输出多路复用器共同编织而成，每一部分都为了极致的性能优化而精心打造。

每个PE，作为CNT TPU的基石，被赋予了执行高精度2位整数乘法累加运算的使命。这些PE如同精密的齿轮，在复杂的计算任务中默契配合，共同驱动着整个系统的高效运转。而这都是建立在大约3000个精心制造的碳纳米管场效应晶体管（CNT FET）之上。

在制造工艺上，CNT TPU更是展现了其非凡的创新力。为了确保CNT晶体管的高性能与稳定性，研发团队采取了多项突破性技术。首先，通过先进的多重分散分选方法，成功制备出高纯度的碳纳米管薄膜，这一成果不仅提升了CNT网络的均匀性，更为后续的性能优化奠定了坚实基础。其次，为了打造超洁净的晶体管表面，研发团队巧妙结合了退火与湿法清洁工艺，有效去除了表面杂质，进一步提升了晶体管的性能与可靠性。

直观的方式展示了CNT TPU的整体系统架构，其中PE矩阵、控制模块与多路复用器的精妙布局一目了然。同时，图中还呈现了所制造的CNT FET的扫描电子显微镜（SEM）图像及其结构示意图，这些图像不仅揭示了CNT网络的高纯度与均匀性，更向世人展示了CNT TPU在制造工艺上的卓越成就。

图片来自于上海碳材料展

CNTFET的电学特性与逻辑电路性能展示

CNTFET（碳纳米管场效应晶体管）的卓越电气特性被全面揭示，从传输特性的流畅曲线到输出特性的稳定表现，尤为引人注目的是，基于CNTFET构建的基本逻辑门——如反相器和NAND门——的性能展示。这些逻辑门作为数字电路的基本构建块，其性能直接决定了整个系统的运算速度与稳定性。我们可以看到这些逻辑门展现出了令人瞩目的稳健性和高性能，它们的开关速度快、功耗低，且噪声容限高，完美诠释了CNTFET在逻辑电路设计中的独特优势。

脉动阵列架构：CNT TPU的效能核心

在CNT TPU的精密构造中，脉动阵列架构犹如其心脏，驱动着整个系统的高效运作。这一创新设计巧妙地利用规则阵列来组织基础处理单元（PE），不仅大幅简化了设计复杂度，还显著增强了系统的容错性，为CNT TPU的稳定运行奠定了坚实基础。

每个PE，作为脉动阵列的基本细胞，专注于执行乘法累加（MAC）操作，这是计算领域的基石之一。这些PE不仅独立作战，更紧密协作，通过网状拓扑结构将运算结果无缝传递给相邻的PE，形成了一条条高效的数据流动脉络。

从乘法器到加法器，再到寄存器，每一个组件都紧密配合，共同编织着高效运算的网络。同时，通过高精度的SEM图像和生动的测试信号演示，我们得以窥见卷积运算期间数据流的动态之美，感受到脉动阵列架构所赋予CNT TPU的非凡活力。

北大彭练矛院士、张志勇教授的这项研究成果，发表在最新一期《Nature Electronics》题目为“A carbon-nanotube-based tensor processing unit”。大家有兴趣的可以去看看。

转载请联系本公众号获得授权

http://mp.weixin.qq.com/s?__biz=Mzk0MzYxMjgwNw==&mid=2247486935&idx=1&sn=df87cd9f5c10485b6d661a9e105582d5

AI科技之窗

全网最懂AI的科技博主！200万科技爱好者都关注的公众号。全面解读全球AI新闻。未来是人工智能提升生产效率的时代，2024年AIGC，智能驾驶，量子计算机，万物互联，虚拟现实等等应用爆发的一年，当下正在经历第四次科技革命。

最新文章

寒武纪！为所欲为？快哉！

蓝色光标：什么是真正的All in AI？

港大孵化“独角兽”，赴港上市遭疯抢！公开认购超5000倍。

什么原因？OpenAI o1准确率竟下降36.3%！

【重要通知】智算技术与算力规划设计及部署方案与实践在南京开班了！！！

国产GPU龙头千卡集群大突破，性能提升近一倍！

真恶心！寒武纪又爆雷亏7个亿。（文中有惊喜）

老美远远落后！国产的AI 的「Phone Use」时刻也来了！自动帮忙开房叫外卖。

OpenAI新技术提效50倍

GLM-4-Voice：智谱新一代端到端语音大模型，同步开源。

大超越GPT-4,讯飞星火4.0 Turbo发布，首发11项技术及应用

4年亏损100亿，估值1000亿！特朗普垂涎三尺的独角兽即将香港上市。

拜登寐以求封杀的“中国独角兽”，寒武纪遭骂，谁之过？

9月全球代表作学术排名——量子物理与医学研究新突破，材料科学与跨学科创新成就

逆袭传奇！国产大模型黑马杀出重围，直逼腾讯宝座，73.56高分不得不服！

奥迪“臣服”国产智驾？特斯拉坐不住了，商汤解密背后真相！

“寒王”把黄阿姨推倒：“服不服？”

AI双杀诺贝尔奖！难道霍金预言成真了？

太硬了！忍了44年，那个男人终于憋不住了！发射！

焦虑了！大厂连夜紧急开会！GPT-5高达5万亿参数。比GPT-4强大100倍。GPT Next？

不可思议！龙芯GPU逆袭！英伟达黄急跳墙，算力提高10倍。

开创“寒武纪” 陈天石：“未来无处不在的AI应用的垫脚石”。

从“冷门”中诞生，“寒武纪”是怎样炼成的？ | 科技自立自强之路

谷歌T G6芯片曝光：台积电2nm，三星良率不足10%。TPU能否撼动苹果的地位？

英特尔斩获再获35亿美元补贴，美军国防芯片生产成关键转折点。

历史记录！甲骨文豪掷13万块Blackwell GPU，打造全球最大的算力集群。总投资200亿美元。

不为人知的秘密！OpenAI 草莓o1大模型，急需10万颗B200集群算力。

眼前一黑！国产GPU大地震！“华夏芯”白菜价破产，起拍价不到30000元！

麻雀变凤凰！联想美国市场份额达到14%，联想到底做对了什么？

《冰封王座》——中科寒武纪屁股做空。

离了大谱！国产GPU龙头轰然倒下，哭着：“我们到底做错了什么？”

扬眉吐气！国产高铁“芯片”打破50年垄断，西方慌了：立马降价

菲律宾飘了？前脚挑衅我国，后脚又想强卖5.4万吨榴莲，中方：白日做梦！

向全世界宣布！我国科学家新突破：打破欧美垄断，万元洋货大跌85%

3000万钻石豪车出圈，河南5位数高定钻排单紧俏，富豪：想要得靠抢

为什么说海光才是国产AI PC黑马？

坚决“去中国”到底！反华弹丸小邦外债470亿将破产，我方：再拆200条铁轨

宁愿报废也不卖给中国！俄方撕毁4.6万吨级核潜艇订单，背后留有一手？

正面硬刚！国产时间科技打破美日20年垄断，美媒崩溃：能不能别卷了

AI算力全场景应用，国产DCU加速卡卖疯了！

谷歌前CEO警告：AI控制权=世界霸权？中国想做老大！——失控的AI竞赛

又一个美国科技巨头趴窝，1000名精英被裁，想不到的竟然是。。。

"科技战升级！美国重拳出击：42家中企入'黑名单'总数量已超1300家。全球科技版图震动！

狂跌97%，中国造出首台1.9ATA“时光舱”，欧美哀叹：往后高价卖给谁？

两个宇航员都没回来，美国还想定月球时间？结局大快人心

靠一辆自行车,征服任正非的天才少年稚晖君！发布了0元模块化机器人。碾压特斯拉！

拦不住了？ 4款战机齐上舰，福建号“四试”蓄势待发，直捣美国家门

惹不起俄方，转身挑衅中国？弹丸小国千里来犯，6000吨战舰直逼东海

美国防部认怂！中国雷达巨头被移出黑名单，获胜手段很少人看懂

挑衅不成反自损？菲律宾又来碰瓷，被撞出1米大洞，中方发出最后通牒

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉