745TFLOPS！Tenstorrent推768核RISC-V AI芯片：对标英伟达A100

科技 2024-08-29 11:28 广东

8月28日消息，由传奇芯片架构师Jim Keller领导的AI芯片新创公司Tenstorrent在近日的Hot Chips 2024活动上详细介绍了其新一代基于RISC-V架构的BlackHole系列AI处理器，性能高达745 TOPS，尽管芯片集成的内存容量和带宽低于英伟达A100，但是整体的AI性能和可扩展性更优。

The accelerator's 140 Tensix cores promise up to 745 teraFLOPS of FP8 performance.

据介绍，这款Blackhole AI芯片共拥有768个RISC-V内核，包括16个Big RISC-V内核、752个Baby RISC-V内核，其中大量的Baby RISC-V内核被分别集成在140 个 Tensix 人工智能计算核心当中，241MB的片上SRAM内存和一系列高速连接，可以提供745TFLOPS 的 FP8 性能（FP16 时为 372 TFLOPS）。Blackhole还支持32GB 的 GDDR6 内存和基于以太网的互连，能够在其 10 个 400Gbps 链路上实现 1TBps 的总带宽。

Big RISC-V和Baby RISC-V

具体来说，与之前推出的基于PCIe的Greyskull 和 Wormhole加速芯片不同，Blackhole是一款独立的AI计算机系统。

根据Tenstorrent ML 框架和编程模型高级研究员 Jasmina Vasiljevic 的说法，这主要归功于其内部集成的16 个具有64 位、双发射、顺序执行的Big RISC-V CPU内核，这些内核排列在四个集群中。至关重要的是，这些Big RISC-V CPU内核足够强大，可以用作运行 Linux 的设备端主机。并且，还有与之配对的752 个“Baby RISC-V”内核，这些内核负责内存管理、片外通信和数据处理。

The Blackhole accelerator is packed with 16 Big RISC-V and 752 Baby RISC-V cores.

△Blackhole 加速器包含 16 个 Big RISC-V 和 752 个 Baby RISC-V 内核。

然而，Blackhole实际的AI计算则主要由 Tenstorrent自研的140 个 Tensix AI内核处理，每个内核由五个“Baby RISC-V”内核、一对路由器、一个计算综合体和一些 L1 缓存组成。

Each of Blackholes' Tensix cores features five RISC-V baby cores, two routers, L1 cache, and matrix and vector engines.

这个计算综合体则是由一个旨在加速矩阵工作负载的平铺数学引擎和一个矢量数学引擎组成。前者将支持 Int8、TF32、BF/FP16、FP8 以及 2bit 到 8bit 的浮点数据类型，而矢量引擎则主要面向 FP32、INT16 和 INT32数据类型。

根据Tenstorrent 的 AI 软件和架构高级研究员 Davor Capalija 的说法，这种配置意味着该芯片可以支持 AI 和 HPC 应用中的各种常见数据模式，包括矩阵乘法、卷积和分片数据布局。

Blackhole's baby cores can be programmed to support a variety of data movement patterns.

△Blackhole 的 Baby RISC-V核心可以进行编程以支持各种数据移动模式

总的来说，Blackhole 的 Tensix 内核占了总共752 个Baby RISC-V 内核中的 700 个。如上图，其余的Baby RISC-V 内核则负责内存管理（“D”代表 DRAM）、片外通信（“E”代表以太网）、系统管理（“A”）和 PCIe（“P”）。

Blackhole Galaxy系统

然而，就像英伟达的AI加速芯片通常被组成集群来使用一样，Tenstorrent 的 Blackhole 也被设计为作为支持横向扩展系统的一部分进行部署。Tenstorrent计划将 32 个 Blackhole 加速器塞进一个 4x8 网格网络中，并将其称为 Blackhole Galaxy系统。

Tenstorrent's Blackhole Galaxy systems will mesh together 32 Blackhole accelerators for nearly 24 petaFLOPS of FP8 performance.

△Tenstorrent 的 Blackhole Galaxy 系统将 32 个 Blackhole 加速器组成了一个集群，可以实现近 24 petaFLOPS 的 FP8 性能。

总的来说，单个 Blackhole Galaxy 承诺可以带来FP8 的 23.8 petaFLOPS 或 FP16 的 11.9 petaFLOPS算力，以及 1TB 的内存，能够实现 16 TBps 的原始带宽。

更重要的是，Tenstorrent 表示，该芯片的内核密集架构意味着这些系统中的每一个都可以用作计算或内存节点或11.2TBps 高带宽的AI 交换机。

“你可以把它当作乐高积木来制作一个完整的训练集群，”Davor Capalija 说。

Tenstorrent contends an entire training cluster can be built using nothing but Blackhole Galaxy systems as "Lego blocks."

Tenstorrent 认为，整个训练集群可以只使用 Blackhole Galaxy 系统作为“乐高积木”来构建。

相比之下，英伟达最密集的 HGX/DGX A100 服务器系统基本都是8个GPU组成一个系统，其FP16性能不到 2.5 petaFLOPS，相比之下Blackhole Galaxy 的速度提高了近 4.8 倍。事实上，在系统级别，Blackhole Galaxy 应该可以与英伟达的HGX/DGX H100 和 H200系统竞争，后者在FP8数据类型下，可以提供大约 15.8 petaFLOPS的算力。

Tenstorrent 使用板载以太网来进行连接，意味着它避免了与处理芯片到芯片和节点到节点网络的多种互连技术相关的挑战，就像英伟达使用 NVLink 和 InfiniBand/以太网一样。在这方面，Tenstorrent 的横向扩展策略与英特尔的Gaudi‍系列AI加速器平台非常相似，后者也使用以太网作为其主要互连。

构建软件生态系统

除了芯片之外，Tenstorrent 还披露了其加速器的 TT-Metalium 低级编程模型。

熟悉英伟达CUDA 平台的人都知道，即使竞品的硬件性能表现比英伟达更高，配套的软件也仍可以决定其成败。Capalija 解释说，事实上，TT-Metalium 有点让人想起 CUDA 或 OpenCL 等 GPU 编程模型，因为它是异构的，但不同之处在于它是从“为 AI 和横向扩展”计算而构建的。

这些差异之一是内核本身是带有 API 的普通 C++。“我们认为不需要特殊的内核语言，”他解释说。

Tenstorrent 旨在支持许多标准模型运行时，如 TensorFlow、PyTorch、ONNX、Jax 和 vLLM 。结合包括 TT-NN、TT-MLIR 和 TT-Forge 在内的其他软件库，Tenstorrent 旨在支持使用 PyTorch、ONNX、JAX、TensorFlow 和 vLLM 等常用运行时在其加速器上运行任何 AI 模型。

对这些高级编程模型的支持应该有助于抽象出跨这些加速器部署工作负载的复杂性，类似于我们在 AMD 和 Intel 加速器中看到的情况。

编辑：芯智讯-浪客剑

往期精彩文章

又一位英伟达"杀手"亮相：性能是H100数倍，成本仅1/10，支持万亿参数模型！

传小米玄戒SoC明年推出：N4P制程，外挂展锐5G基带，性能与骁龙8 Gen1相当！

官宣！IBM彻底关闭中国研发部门：涉及超1600人，赔偿N+3

美国将39家中企列入“实体清单”，还有42个实体被列入SDN名单！

GaN功率半导体市场发展提速，行业首波整合潮出现

台积电独占62%晶圆代工市场，中芯国际站稳全球第三！

台积电德国晶圆厂开工：50亿欧元补贴获批！欧洲芯片法案吸引1150亿欧元投资！

长安借道阿维塔115亿拿下华为引望10%股权！赛力斯跟吗？

破产危机解除！国产GPU厂商砺算科技获3.28亿元融资

国产AI芯片厂商如何打破英伟达CUDA生态垄断？

中国对锑相关物项实施出口管制，影响几何？

行业交流、合作请加微信：icsmart01
芯智讯官方交流群：221807116

http://mp.weixin.qq.com/s?__biz=MzA4MTE5OTQxOQ==&mid=2650101456&idx=2&sn=a46b67f4fb261adba1cd5ad4818860b3

芯智讯

“芯智讯”——有料的科技新媒体！专注于半导体产业链、智能手机产业链、人工智能、AR/VR、智能硬件及汽车电子等相关领域。

最新文章

三星启动全球大裁员：比例最高30%！

Wi-Fi HaLow实现16公里距离的视频传输！

黄仁勋：Blackwell需求强劲，若选其他代工厂质量会降低！

Altera否认将被英特尔出售！

2023年裁员13000人后，戴尔宣布今年将继续裁员！

肖特成立半导体部门，发力先进封装玻璃解决方案

传三星2nm良率最多20%，已撤出美国泰勒厂人员

壁仞科技启动IPO上市辅导，估值将超155亿

魏哲家发内部信：台积电是世界的台积电！

英飞凌成功研发出全球首款12英寸GaN晶圆

华为拿下中国折叠屏市场份额，三星份额仅4.2%！

美众议院通过多项法案：拟禁售大疆无人机，禁止采购6家中企电池

英特尔85亿美元“芯片法案”补贴拨款要“泡汤”？

祸不单行，英特尔内部高端人才正快速流失

从芯片到系统赋能创新，2024新思科技开发者大会共创万物智能未来

性能比肩12/13代高端酷睿，龙芯3B6600明年上半年流片

合盛新材料8英寸导电型4H-SiC衬底项目全线贯通

台积电今年1-8月营收同比增长30.8%

索尼PS5 Pro发布：GPU计算单元增加67%，售价699.99美元

19999元起！预约突破450万人！华为Mate XT供应链曝光！

苹果A18系列处理器发布：性能提升也“挤牙膏”！

华夏芯多项资产公开拍卖：起拍价不到30000元！

英伟达被起诉专利侵权，Blackwell GPU或将禁售

玻璃基板商业化加速，2029年先进IC载板市场将达255.3亿美元

2024年三季度NAND Flash平均售价将环比上涨5%~10%

国产滤波器的破局：TF SAW能否担此大任？

蓝牙6.0核心规范发布：可实现厘米级精准定位！

2024Q2全球PC GPU市场：英伟达拿下20%份额

传台积电美国晶圆厂试产良率与南科厂相当！

Tower与Adani投资100亿美元在印度建晶圆厂计划获批

台积电3nm迎来出货高潮，预计全年营收将增长34%

信越化学宣布推出用于GaN器件的12英寸晶圆

三星正与台积电联手开发HBM4

华为三折屏旗舰来袭：预约人数突破160万！

荷兰升级光刻机限制？ASML回应

美国升级对量子计算/半导体设备/GAAFET出口管制

博通测试失败？英特尔对Intel 18A再下重注

国家大基金一期入股鸿芯微纳：出资近5亿元，持股38.7%

BOE/华星/惠科16座面板厂停产计划全曝光

芯动科技与腾讯云达成战略合作，打造一站式芯片设计服务云平台

2024年上半年三星、SK海力士在华营收增长超过100%

AI相关营收暴涨200%！博通Q4财测不仅预期，盘后股价大跌7%

三星电子中国销售部门裁员8%，明年将再裁30%？官方回应

中国大陆8家半导体大厂被调查！

台积电CoWoS产能将提升4倍，台企抱团发展先进封装生态

三星HBM4将转向Logic Base Die及3D封装

英伟达否认收到美国司法部反垄断调查传票！

英特尔酷睿Ultra 200V系列发布：算力高达120TOPS，功耗降低50%

SK海力士：9月底量产12层HBM3E

力积电Logic-DRAM技术获AMD等多家大厂采用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉