利用 NoC 创新加速 SoC 演进,使用 NoC 平铺实现 AI 和机器学习

文摘   2024-11-16 07:01   上海  
高端数十亿晶体管片上系统 (SoC) 设备的设计中出现了一种新趋势。这种演进方法被称为“NoC 平铺”,它使用经过验证的、强大的片上网络 (NoC) 技术来促进扩展、缩短设计时间、加快测试速度并降低风险。

传统的基于 NoC 的 SoC 设计
NoC 现在已用于当今大多数领先的 SoC。传统的基于 NoC 的 SoC 设计从选择一组软知识产权 (IP) 内核开始,例如处理器、加速器、通信功能、内存等。这些软 IP 内核中的大多数通常来自值得信赖的第三方供应商。这使得设计团队可以专注于开发他们独特的专有 IP,这将使他们的 SoC 在市场上与竞争产品区分开来。
所有这些软 IP 核都使用 NoC 连接,允许每个 IP 发送和接收来自其他 IP(包括与外界通信的 IP)的信息包。IP 的接口称为套接字。网络接口单元 (NIU) 将 IP 套接字连接到 NoC,是 NoC 结构中最复杂的元素之一。
此处的“软”一词是指 IP、NoC 和 NIU 呈现在寄存器传输级 (RTL)。最终,逻辑综合引擎将处理整个 SoC 设计。生成的门级网表将交给物理布局团队进行布局和布线。
图 1 显示了这种传统实施方法的简化视图。此图中演示的 NoC 反映了通用拓扑。SoC 中采用的常见 NoC 拓扑包括星型、环型、树型、分层树型、网格型或组合型。
图 1:基于软 IP 和 NoC 的 SoC 的简化表示。
多个数据包可以同时通过 NoC。NoC 将包括用于临时存储数据包的缓冲区、用于在发起方 IP 和目标 IP 之间引导数据包的交换机以及用于帮助物理布局团队完成时序收敛的流水线阶段。

同质加速器阵列
图 1 中反映的通用 SoC 架构可以假设由许多异构(各种各样、多样且不相关)的 IP 功能组成。然而,这种架构需要更好地满足对能够以高性能、高效率和低功耗执行人工智能 (AI) 和机器学习 (ML) 等任务的 SoC 的指数级增长的需求。
用于 AI/ML 应用的 SoC 的常见架构是将同质(相同、标准化和统一)的 AI/ML 加速器阵列与异构 IP 功能相结合,如图 2 所示。每个 AI 加速器都称为处理单元 (PE),而网状 NoC 拓扑提供了广泛的底层通信基础设施。
图 2:许多现代设计都具有加速器阵列。
每个 AI 加速器 (PE) 通过不同颜色的方框中显示的 NIU 连接到网格 NoC,使它们能够无缝交换数据并在 AI/ML 处理工作流程中协作。
在这种情况下,每个加速器都呈现为一个分层功能块。这些相同的块可能包含多个 IP 和一个或多个内部 NoC。重点是,这种技术仍然基于传统的实现方法,因为每个 PE 块都需要单独配置一个 NIU。

NoC 平铺
本专栏开头提到的新兴趋势是“NoC 平铺”,它允许 SoC 架构师通过复制 NoC 网络接口单元 (NIU) 及其相关处理元件 (PE) 更轻松地创建可扩展和模块化设计。这可以加快创新速度,并实现更可靠、更高效的 AI 芯片开发,如图 3 所示。
图 3:具有平铺 NIU 的网格 NoC。
这种方法允许 SoC 架构师仅配置一个 NIU 和 PE 对,然后多次实例化它们。每个图块的 ID 在重置后分配,使用顶层信号绑定来克服每个图块在其他方面相同的事实。
网格平铺方法适用于非相干和相干 NoC。图 4 显示了具有多个 CPU 图块的相干 NoC。每个图块可以是单个 CPU,也可以是一组 CPU。每个蓝色 CPU 图块都是相同的和复制的,如果需要,也可以复制 I/O 图块。它们与 I/O 一致接口(标记为“I/O”)一起构成了一致的 NoC。一致 NoC 的左侧是简化的网格 NoC 视图,其 PE (A) 平铺如图 3 所示,右侧是网格 NoC A’,它与 A 完全相同,只是在水平轴上翻转,这是通过平铺方法实现的。因此,非一致 NoC 的每个平铺都已复制以制作 A,翻转副本制作 A’,CPU 平铺和 I/O 平铺也已复制以制作一致的 NoC 网格。物理布局的重复使用显著减少了实施进度。
图 4:一致和非一致平铺 NoC

支持 NoC 的平铺
我们正在与市场塑造领导者合作,以应对不断发展的 IP 和 SoC 设计挑战。NoC 是新兴平铺实施策略的关键推动因素之一。目前正在开发的 AI/ML SoC 设计遍布最热门的垂直市场。图 5 对此进行了说明,该图反映了按市场划分的 AI 应用用例。
图 5. AI 用例目前存在于关键垂直市场。

总结
设计数十亿晶体管的 SoC 非常耗时,而且面临许多挑战。某些 SoC 设备(例如用于 AI/ML 应用的设备)可能会将一组异构 IP 功能与一系列同构 AI 加速器相结合。
使用“NoC 平铺”轻松创建加速器阵列有助于扩展、缩短设计时间、加快测试速度并降低风险。下一步,加速器阵列甚至可以合并到“Chiplet 平铺”中,这些芯片是集成到单个封装中的物理上独立的硅片,可作为统一系统运行,为不同技术提供更大的灵活性,但与 NoC 平铺相比,设计和制造更复杂——但这是另一个故事了。NoC 是当前和新兴 AI/ML 应用 SoC 的关键推动因素。

软硬件协同设计 HW-SW Co-Design
欢迎后台留言,AI 客服全天在线。脱离物理硬件,开发测试和调试软件。基于虚拟原型的软硬件协同设计,提前一年实现产品上市创收,降低一半开发时间。
 最新文章