热辣薯条(Hot Chips 2024) - 英特尔的Gaudi

文摘   2024-08-27 11:39   美国  

引言 — Hot Chips 2024上Intel关于Gaudi的介绍,抓几张干货的图,结合一些自己想表达的整理一下


原材料已上传至知识星球:IT奶爸-知识星球



开篇一首儿歌,与琅琅上口是不沾边了,甚至都没有一句押韵,主要讲究诗歌的建筑美。

一个芯片两个die

两个die上四组核

每组核里算两种

剩下区域放cache



MME为矩阵乘法引擎,一共有8个,每个里面有64K的乘法累加单元。MME从内存中检索对应的张量,拉入其缓冲区(buffer)再进行矩阵乘法,完成后将结果推入内存。

优化实现可以确保在重复使用的数据只从HBM获取一次,存储在cache中,给不同的MME使用。

AGU能够高效地计算复杂数据结构(多维数据张量)中的具体内存位置,提高数据访问速度,并且妥善处理边界数据的读填充和写保护。


下面是Tensor Processor Core的介绍。MME,TPC和NIC可以同时被激活,同时工作。

当数据没有依赖性时,这三个单元可以并行工作。


当数据有依赖性时,引擎之间以流水线方式调度执行,并且有生产者与消费者关系,图形编译器调度和协调不同的引擎工作。


下图是内存子系统,可以实现基本的近存计算。

最后是网络部分:

Gaudi 3 AI加速器上集成了以太网RDMA的NIC,通过可靠的连接实现高带宽和低延迟。在开放的以太网接口上,原生而便捷地支持基础设施中的Scale up和Scale out网络。

更多信息,参考前文:

不是NV用不起,而是以太网更有性价比 ——Gaudi 3 技术白皮书解读 - 1

不是NV用不起,而是以太网更有性价比 ——Gaudi 3 技术白皮书解读 - 2

不是NV用不起,而是以太网更有性价比 ——Gaudi 3 技术白皮书解读 - 3




为感谢支持,已点赞/分享/赞赏10篇/次以上的朋友,请加微信,进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球



高阅读量文章





IT奶爸
实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。
 最新文章