大家都知道昨天苹果宣布使用谷歌的TPU芯片,导致英伟达史诗级暴跌2000亿美元市值,这无疑说明英伟达的GPU并不是无可替代,也间接说明谷歌TPU的优越性。TPU大家可能不太了解,因为全球只有谷歌与寒武纪在使用这种架构。那么接下来AI老师给大家详解下TPU的结构与北大碳纳米管TPU芯片,有兴趣的朋友可以点击关注我哟!
北大精英科研先锋,彭练矛与张志勇率领的卓越团队,在尖端科技领域投下震撼弹,成功解锁未来计算的新篇章——全球范围内首次研发出以碳纳米管为核心技术的革命性张量处理器(TPU)芯片。这一创举不仅标志着芯片设计的一次飞跃式跨越,更是碳纳米管应用于高性能计算领域的璀璨里程碑。
“专为机器学习工作负载设计”
现在的大模型的参数量越来越大,从GPT3到5,如果光靠GPU单张大显存肯定是很难搞的,这个时候就需要我们的TPU出场了。TPU是ASIC架构其中一种。
故事先从开源社区说起,DDP与FSDP作为并行训练的两大旗舰策略,紧密绑定于PyTorch的深厚技术底蕴,专为GPU这类内存巨擘设计,当计算规模攀升至一定的高度时,卡之间的瓶颈就出现了,无法做到高效。尤其是当计算节点间缺乏如NVLink或RDMA这样的高速通道时,难免会搁浅的。
GPU的进化就是向着更大显存的前进,大家可以参考英伟达A100到H100GB200对标下,他们大多数是以减少对通信的依赖,成为缓解瓶颈的关键策略。但现在的大模型真的是脱缰野马狂飙,远远甩开了GPU显存扩容节奏。就拿Google的PaLM-540B大模型作为例子,参数就不用说了吧,BF16存储就需要吞1080GB显存,这是对整个计算生态非常大的考验。面对这种情况,传统方法压根无法处理,offload策略虽能勉强维持,但频繁的数据搬运是多么坎坷。例如苹果昨天就使用了2048颗TPUv5p芯片开始训练自己的端侧大模型,据说效果非常高效,具体论文我还没细看。
这个时候TPU的出现。作为专为神经网络训练打造的超级计算芯片,TPU Pod1000块的集群能力,就可以达到前所未有的计算超能力。确实是重新定义了大模型训练的游戏规则。
“脉动阵列、矩阵乘法、特定计算任务”
在国内,TPU其实跟谷歌是同一起跑线。
架构我总结分为脉动阵列、矩阵乘法单元MXU、针对特定计算任务的优化。
1、脉动阵列:TPU的核心架构是脉动阵列,这是一种特殊的并行计算架构,数据在一系列运算逻辑单元中以波的形式流动,类似于心脏供血的方式,这种结构使得TPU能够在每个周期内执行大量的乘法累加操作。
2、矩阵乘法单元:MXU由128×128的乘法累加器组成,每个MXU每个周期能够执行16K次乘法累加操作。MXU是TensorCore的主要组成部分,提供了大部分的计算能力。MXU的设计专门针对矩阵乘法运算进行了优化,不适用于通用计算。
3、针对特定计算任务的优化:TPUv4在硬件构型上针对Transfomer结构进行了适配和优化,包括增加针对MLP和Embedding workloads优化的组件。MLP主要处理连续性的数值特征,而Embedding组件处理离散型的分类特征。这种设计尤其对于语言模型、推广模型的加速效益极高。
4、内存管理与激活函数和池化操作我这里就不细说了,
微架构哲学我单独说下:TPU芯片的微架构的哲学是保持矩阵单元忙碌,通过使用统一缓存区和脉动运行来减少能耗和提高效率。这种设计减少了从SRAM读取数据时的功耗消耗,这个作用对于计算效率提升是指数级增长。
“脉动阵列、矩阵乘法、特定计算任务”
苹果是在设备端AI模型的上,其实可以理解成端侧,没有选N卡,而是2048颗TPU v5p。然后又使用8192颗TPU v4芯片(第四代AI ASIC芯片)的集群,为云端AI训练。我相信很快会出结果,到时候我会继续发文,给大家分析苹果训练的效果。因为这是大家最关心的,毕竟初次使用要对比下GPU训练优势。
“180nm、低功耗、3000个碳纳米管”
3000个碳纳管、99。9999%的纯度。
这项技术是北京碳基电子学研究中心的彭练矛与张志勇团队所研发,核心只有惊人的3000个碳纳米管场效应晶体管精妙编织而成,独特的脉动阵列架构设计,可以让并行处理的2位整数乘积累加运算如虎添翼,例如——在仅消耗295微瓦的情况下,竟能驾驭5层卷积神经网络,实现对MNIST图像识别高达88%的精准度。
我们彭总与张总,通过对碳纳米管制造工艺的极致雕刻,成功解锁了半导体材料的至高纯度——99.9999%,我只能用四个字形容“精益求精”。这不仅提升了电流密度的极限,更确保了晶体管性能的均匀与稳定。
不敢想象的是,这款芯片采用的是180nm制程,8位碳纳米管,以850MHz的主频,以及每瓦1万亿次运算的惊人能效,震瘫老黄。这是对GPU霸权的一次深情告白,宣告着一个由碳纳米管技术引领的新时代的到来。
CNT TPU的硬件架构与创新实现
CNT TPU,它由精心布局的3x3处理单元(PE)矩阵、精密控制模块以及高效输入/输出多路复用器共同编织而成,每一部分都为了极致的性能优化而精心打造。
每个PE,作为CNT TPU的基石,被赋予了执行高精度2位整数乘法累加运算的使命。这些PE如同精密的齿轮,在复杂的计算任务中默契配合,共同驱动着整个系统的高效运转。而这都是建立在大约3000个精心制造的碳纳米管场效应晶体管(CNT FET)之上。
在制造工艺上,CNT TPU更是展现了其非凡的创新力。为了确保CNT晶体管的高性能与稳定性,研发团队采取了多项突破性技术。首先,通过先进的多重分散分选方法,成功制备出高纯度的碳纳米管薄膜,这一成果不仅提升了CNT网络的均匀性,更为后续的性能优化奠定了坚实基础。其次,为了打造超洁净的晶体管表面,研发团队巧妙结合了退火与湿法清洁工艺,有效去除了表面杂质,进一步提升了晶体管的性能与可靠性。
直观的方式展示了CNT TPU的整体系统架构,其中PE矩阵、控制模块与多路复用器的精妙布局一目了然。同时,图中还呈现了所制造的CNT FET的扫描电子显微镜(SEM)图像及其结构示意图,这些图像不仅揭示了CNT网络的高纯度与均匀性,更向世人展示了CNT TPU在制造工艺上的卓越成就。
图片来自于上海碳材料展
CNTFET的电学特性与逻辑电路性能展示
CNTFET(碳纳米管场效应晶体管)的卓越电气特性被全面揭示,从传输特性的流畅曲线到输出特性的稳定表现,尤为引人注目的是,基于CNTFET构建的基本逻辑门——如反相器和NAND门——的性能展示。这些逻辑门作为数字电路的基本构建块,其性能直接决定了整个系统的运算速度与稳定性。我们可以看到这些逻辑门展现出了令人瞩目的稳健性和高性能,它们的开关速度快、功耗低,且噪声容限高,完美诠释了CNTFET在逻辑电路设计中的独特优势。
脉动阵列架构:CNT TPU的效能核心
在CNT TPU的精密构造中,脉动阵列架构犹如其心脏,驱动着整个系统的高效运作。这一创新设计巧妙地利用规则阵列来组织基础处理单元(PE),不仅大幅简化了设计复杂度,还显著增强了系统的容错性,为CNT TPU的稳定运行奠定了坚实基础。
每个PE,作为脉动阵列的基本细胞,专注于执行乘法累加(MAC)操作,这是计算领域的基石之一。这些PE不仅独立作战,更紧密协作,通过网状拓扑结构将运算结果无缝传递给相邻的PE,形成了一条条高效的数据流动脉络。
从乘法器到加法器,再到寄存器,每一个组件都紧密配合,共同编织着高效运算的网络。同时,通过高精度的SEM图像和生动的测试信号演示,我们得以窥见卷积运算期间数据流的动态之美,感受到脉动阵列架构所赋予CNT TPU的非凡活力。
转载请联系本公众号获得授权