芝能智芯出品
Tenstorrent 在 2024 年 Hot Chips 大会上揭示了其最新的 AI 处理芯片 Blackhole 和 Metalium,在独立 AI 处理领域迈出了创新的一步,芯片以其基于 RISC-V 和以太网的架构脱颖而出,展示了 AI 计算机设计的全新思路。
Part 1
Blackhole:
以太网驱动的 AI 计算平台
Blackhole 是 Tenstorrent 近年来最重要的产品之一,其作为一款独立的基于以太网的 AI 计算机,展现了巨大的创新潜力。
与传统的 AI 芯片设计不同,Blackhole 并未追求最高的计算性能,而是将注意力集中在通过以太网进行大规模扩展上,这使得它能够轻松适应不断变化的 AI 需求。
● 架构设计:Blackhole 由 16 个 RISC-V 核心组成,这些核心被划分为 4 个集群,每个集群包含 4 个核心。
此外,它还拥有 752 个小型 RISC-V 内核用于数据移动和计算。这些内核通过两个路由器连接到片上网络(NOC),为数据的高效传输提供了基础。
● 以太网集成:Blackhole 拥有 10x 400Gbps 的以太网接口,使得芯片之间的通信更加流畅。得益于以太网的高带宽和低延迟,Blackhole 实现了优异的可扩展性。
以太网作为一个通用且不断演进的技术,提供了几乎所有 AI 芯片架构中所需的连接能力,使得 Tenstorrent 不需要设计专用的互连技术,如 NVLink 或 InfiniBand。
● 强大的计算能力:在计算引擎部分,Blackhole 拥有一个图块数学引擎和一个矢量数学引擎,支持对 AI 工作负载中常见的矩阵和向量运算进行高效处理。
这些引擎在 32×32 的图块上运行,优化了数据局部性,减少了数据传输的频次和延迟。
Tenstorrent 的创新不仅限于硬件设计,其软件编程模型 TT-Metalium 同样亮点十足。Metalium 旨在将硬件的复杂性抽象化,使开发者能够轻松地在这些独特的 AI 芯片上实现算法的开发和优化。
● 灵活的编程环境:TT-Metalium 允许用户在每个 Tensix 核心上编写一个计算内核和两个数据移动内核。
这种灵活性使得芯片能够根据实际需求调整工作负载,最大化性能输出。
● 高效的内存管理:为了优化数据处理效率,Tenstorrent 引入了硬件启用的流控制功能,帮助在不同内核之间进行同步。
同时,尽可能将数据保留在本地 SRAM 中,而不是使用外部 DRAM,进一步降低了延迟,提高了系统整体的响应速度。
Part 2
开放系统加速 AI:
RISC-V 与以太网的结合
Tenstorrent 采用 RISC-V 和以太网的结合,不仅体现了开放系统的设计理念,更代表着未来 AI 计算的发展趋势。
● 开放的架构设计:RISC-V 作为一种开源指令集架构,为 Tenstorrent 提供了更大的灵活性和可定制性。
通过开放的生态系统,开发者可以自由地在芯片上进行开发和优化,无需依赖于特定的专用硬件平台。
● 高扩展性的以太网网络:以太网的引入使得 Blackhole 具有天然的扩展能力。
随着以太网技术的不断演进,如 800GbE 和未来的 1.6TbE 互连,Tenstorrent 可以通过增加更多的 Blackhole 芯片来线性扩展其 AI 计算能力,为未来的超大规模 AI 模型训练和推理提供支持。
Tenstorrent 的创新不止于单一芯片,而是通过构建一个可扩展的计算网络来实现更高的 AI 处理能力。
通过将多个 Blackhole 芯片按 4×8 网格拓扑结构排列,形成一个名为 Blackhole Galaxy 的系统,Tenstorrent 能够以低功耗、高带宽的方式进行大规模计算。
这种网络架构使得每个 Blackhole 芯片都能通过以太网无缝连接,从而形成一个强大、灵活的 AI 计算平台。这种设计不仅提高了计算效率,也为 AI 研究人员提供了一个开放且高效的开发环境,促进了 AI 领域的持续创新。
小结
Tenstorrent 的 Blackhole 和 Metalium 代表了 AI 计算架构的新方向,通过以太网和 RISC-V 的结合,创造了一个高效、灵活且开放的 AI 计算平台。