「工业人工智能」论文分享:初探强化学习在芯片布局中的应用

文摘   2024-10-09 07:45   日本  

引言

在芯片设计流程中,布局规划是最具挑战性且耗时的环节之一,其目标是在二维芯片画布(通常被描述成二维网格)上确定数百万电路模块的位置。这些模块可以通过网表来描述,即一个包含大量宏元件(如存储器)和标准单元(如逻辑门)的超大规模超图。每个宏单元和标准单元可能包含多个甚至数百个通过导线连接的引脚。在进行芯片布局时,要尽可能使功率、性能、面积(PPA)降到最低,同时还必须考虑密度和布线拥塞等方面的约束。

尽管业界对芯片布局的研究已有数十年历史,但业内专家仍需花费数周的时间进行迭代,以完成一个满足多方面设计标准的解决方案。随着现代超大规模集成电路(VLSI)规模的不断扩大,基于优化的传统方法面临越来越多的挑战。因此,研究人员开始探索基于深度学习的一系列方法,以提高布局质量,其中强化学习方法尤为引人注目。例如,MaskPlace[1]、ChiPFormer[2] 和 EfficientPlace[3]等方法在一定程度上提升了布局质量,并显著减少了所需时间。接下来,我们一起学习这些方法吧!


研究背景

芯片放置方法通常可分为两类:基于优化的方法和基于学习的方法。在第一类中,硬件科学家经常将布局制定为优化问题并放宽硬约束。例如,让一对向量表示2D画布上所有电路模块的坐标值,布局的目标函数可以表示为最小化,到 ,其中  和  分别是线长和密度的估计函数, 是一个硬约束,具有很强的较小的密度值α,保证所有模块不重叠。例如,DREAMPlace是一种最新的先进方法,它最小化 ,从而放宽了硬密度约束。然而,它不能直接产生有效且可制造的布局,因为松弛后不满足非重叠约束。这些方法通常需要后处理步骤,例如手动细化和合法化(LG),以消除布局中的重叠,从而导致两个问题:(1)LG之后线长可能会大幅增加,(2)没有可行的解决方案可以在后处理前发现可用芯片面积是否不足。
在第二类中,强化学习(RL)将布局作为顺序决策问题来解决,一次放置每个电路模版。尽管基于学习的方法仍处于早起阶段,但它们可以产生有希望的结果,无需人工干预即可实现芯片设计流程端到端的自动化。RL模型会将网表描述成超图,即表示的是节点的集合,每一个节点表示一个模块,是边的集合,表示连接所有模块的线。研究人员们训练RL智能体,通过最大化代理指标作为奖励,一次放置一个模版,来实现芯片的宏布局。在训练过程中,由于线长的计算是一个NP完全问题,常见的放置方法都是使用半周长线长(HPWL)作为估计线长的代理(见图1),它以边际计算成本来估计线长。
               图1 使用半周长线长(HPWL)作为估计线长代理的放置方法实例

如上图所示,通过连四个引脚连接了四个模块  ,而通过连三个引脚连接了三个模块 。而HPWL的确定就是通过将所有网络的边界框的半周长来相加来估计线长,如上图中的红色和绿色长方形所示。所以,上图的HPWL就是 为了实现有效且可制造的芯片布局,我们还要考虑以下两个硬约束:(1) 拥塞约束:布线拥塞应低于所需的小阈值以降低芯片成本。(2) 重叠约束:密度应为最小化以实现非重叠放置。综上所述,我们可以给出芯片布局优化问题的描述:


论文1:MaskPlace: Fast Chip Placement via Reinforced Visual Representation Learning

         论文链接:https://arxiv.org/pdf/2211.13382

由于超图不可扩展以全面编码网表信息,引脚对的相对位置(偏移)在之前一些强化学习模型(例如,Graph Placement和DeepPR)中被丢弃。如果没有引脚的相对位置信息,线长的估计是不准确的;如果对这些丰富的信息进行编码,又会使得超图过于复杂,因为每个模块上可以有数百个引脚,放置过程也会需要大量的计算。为了解决这个问题,该论文提出了一种新颖的强化学习方法,名为MaskPlace, 它可以在几个小时内自动生成高质量且有效的布局,而不像以前可能要用商业电子设计自动化(EDA)工具耗时近72小时评估布局,再进行手动细化修改不合法的布局。MaskPlace 将芯片布局问题视为使用卷积神经网络进行电路模块像素级视觉表示学习的问题。MaskPlace可以使用三种类型的像素级特征图来完全表示大量网络和引脚配置,从而能够在大画布尺寸上的完整动作空间中快速放置。而由于问题的大小,MaskPlace主要用于宏布局。

MaskPlace的整体架构

图2 MaskPlace的整体架构
该架构先将芯片布局重新定义为学习视觉表示的问题,以全面描述芯片上数百万个电路模块。然后设计了一个新的策略网络,可以捕获和聚合芯片画布上的全局和局部信息,最大化线长所带来的回报时确保有效的非重叠布局。MaskPlace包含三个主要部分:像素掩码生成模型、策略网络和价值网络。像素掩码生成模型将当前放置状态转换为像素级掩码。策略和价值网络将这些掩码转换为基于全局和局部特征的行动和价值。拥塞满足块是满足拥塞约束并给出最终动作。MaskPlace通过三种类型的像素级特征图来完全表示大量网络和引脚配置,包括位置掩码,线掩码和视图掩码。通过卷积来融合不同的掩码来学习到相关的状态表示。

位置掩码:例如, 是一个尺寸为224*224的画布网格的二进制矩阵。其中值“1”表示放置模块的可行位置。位置掩码的目的是保证模块之间没有重叠(即满足重叠约束)并了解布局和线长之间的关系。

布线掩码:例如 是一个连续矩阵,用于表示如果在特定位置放置模块,总布线长度(HPWL)将如何增加。

视图掩码:表示为 ,是对当前芯片布局的全局观测,其中值为“1”表示该网格单元已经被一个模块占据。MaskPlace考虑了模块的实际尺寸。例如,如果一个模块的尺寸为 ,它在画布上覆盖  个网格单元,其中 和 表示画布的尺寸。

 实验结果

    实验表明MaskPlace模型在24个公共芯片基准测试中优于最新的先进方法。能够极大减小线长,并且做到0%重叠的布局。论文还通过消融实验,证明了MaskPlace中各个组件的重要性,如掩码、稠密奖励等。与之前的方法相比,MaskPlace在各项性能指标上都有显著提升(如表1所示

  • • 在HPWL(半周长线长)指标上,MaskPlace可以减少60%~90%。

  • • 在拥塞和密度指标上,MaskPlace可以保证所有模块完全不重叠。

表1 多种方法的HPWL值的比较


论文2:ChiPFormer: Transferable Chip Placement via Offline Decision Transformer


  论文链接:https://proceedings.mlr.press/v202/lai23c/lai23c.pdf

   

尽管基于强化学习的方法可以实现比经典优化方法更强的布局性能,但其较长的运行时间使其不如在几分钟内生成布局设计的经典方法实用。这是因为在较大的布局搜索空间中,之前的强化学习算法在线学习策略很慢,当芯片电路规模增加时尤其如此。ChiPFormer[2]将芯片放置问题建模为离线强化学习问题,从而能够从固定的离线数据中高效地学习可迁移的放置策略。ChipFormer使用一个专家级别的多任务芯片放置数据集,表示为 ,其中  表示芯片电路任务的索引, 表示与  对应的已收集的专家级别放置行为。与传统的离线强化学习不同,ChipFormer通过考虑专家级别的行为,省略了奖励项。在Chipformer完成宏布局后,宏布局结果将作为初始布局结果,使用基于优化的方法完成标准单元布局。

ChiPFormer的整体架构

图3 电路token生成(左)和ChiPFormer架构(右)

电路token生成模块:首先通过预训练的条件变分自编码器(Conditional VAE)模型,从电路的拓扑结构(邻接矩阵和节点特征)中提取出一个表示该电路的token,作为ChiPFormer的输入之一。

状态嵌入模块:用类似于MaskPlace的位置掩码、布线掩码和视图掩码作为一个三通道输入来表示state token,并以此作为ChiPFormer的另一个输入。

动作嵌入模块:对于动作token,用宏元件的二维坐标来表示,作为ChiPFormer的第三个输入。

决策变换器模块:ChiPFormer的核心是一个基于GPT架构的决策变换器模型,它使用因果自注意力机制自回归地预测下一个动作。该模块将上述三种输入token(电路token、状态token和动作token)拼接在一起,并通过多层transformer编码器进行处理,最终输出下一个动作。

与最近的在线 RL 方法相比,它们需要长时间的训练并且迁移能力较低,ChiPFormer 可以利用预先收集的多任务离线放置数据来更有效地学习可迁移的放置策略。这使得 ChiPFormer 在公开基准测试和现实工业任务上都能够实现显著更好的放置质量,同时与当时最先进的模型相比将运行时间缩短了 10 倍。
图4 比较(a)在线RL放置和(b)离线RL放置的整体流程

在线强化学习模型不断与环境(即布局模拟器或EDA设计工具,用于从布局设计中获取指标,其时间消耗通常与电路规模成正比)交互,从头开始学习策略。因此,在ISPD05基准测试中,在线策略学习在一张芯片上要花3个多小时。在(b)中,离线方法使ChiPFormer能够使用固定的离线放置数据来学习策略,从而消除耗时的在线交互。当出现没有看见过的芯片时,只需几次部署即可通过多任务离线数据中重用和转移学到的经验来对ChiPFormer进行微调。我们发现,与之前的在线方法相比,这种离线方法可以将ISPD05基准测试中的运行时间减少十倍。

实验结果

在32个芯片电路上进行的大量实验表明,在公共基准测试和实际工业任务中,ChiPFormer与最近先进的方法相比实现了更好的布局质量,并且将运行时间减少了10倍。
表2 宏布局的HPWL值比较

方法后面的式子指的是在线的布局尝试次数。ChiPFormer(1)表示零样本布局表现。粉红色和青色的百分比分别表示与最先进的基线结果相比HPWL的降低和增加率。与最佳基线MaskPlace(3k)相比,通过将尝试次数减少10倍,ChiPFormer(300)仍然可以在12个电路中的10个达到最小HPWL值。此外,当将尝试次数增加到2k(仍然小于之前基线所需要的时间)时,ChiPFormer可以在所有电路中实现最先进的结果。受益于离线预训练,在混合尺寸上,ChiPFormer可以产生当时最先进的布局质量。

表3  混合布局的HPWL值比较


论文3:Reinforcement Learning within Tree Search for Fast Macro Placement

论文链接:https://openreview.net/pdf/553a91760b8f7315d16d55796fdc93ceb4d2b16f.pdf

现有的基于强化学习的技术受到样本效率低的挑战,需要大量的在线部署或者大量离线专家数据来实现引导,这在工业场景中通常是不切实际的。研究团队提出了一种新颖的样本高效框架,即EfficientPlace,用于快速宏放置。该模型集成了全局树搜索算法来策略性地指导优化过程,以及用于本地策略学习的RL代理来推进树搜索。

模型架构

图5 Efficient的双层架构
图6 方法概览

全局树搜索:构建一个搜索树,其中每个节点代表一个布局状态。动态管理一组“前沿节点”,即表示当前关注状态的节点。在每一轮迭代中,以前沿节点为初始状态执行多次回溯,用于扩展树结构并通过反向传播来指导树的演化。在每轮迭代中更新前沿节点,并对不需要再次访问的节点进行剪枝。

局部策略学习: 使用强化学习代理执行回溯操作。该代理专注于利用前沿节点,推动树的扩展。强化学习代理在搜索过程中不断训练,提升其在更广泛的树结构中进行有效局部搜索的能力。

实验结果

   如表4的相关实验结果表明,EfficientPlace在ISPD2005基准测试集上的宏观布局质量优于最新的状态技术,包括基于强化学习(GraphPlace、DeepPR、MaskPlace、ChiPFormer)和基于黑箱优化(SA、WireMask-EA)的方法。

表4 在8个芯片电路上比较7种方法得到的宏布局HPWL值
具体来说,EfficientPlace始终在1000步以内实现最低HPWL值,每个芯片平均需要2.2小时。该性能超越了经过3000步训练的MaskPlace以及经过预训练和额外2000步微调的ChiPFormer。它还优于WireMask-EA,后者每个芯片需要6.9个小时。此外,EfficientPlace在大多数芯片上仅用500步就获得了次佳的结果,进一步证明了其卓越的样本效率。
图 7 HPWL和部署步数图表
此外,表5的实验结果表明,EfficientPlace在混合尺寸布局任务中也表现出色,在HPWL指标上优于其他方法,如DREAMPlace、SP-SA、MaskPlace和WireMask-EA。
表 5 混合尺寸布局的HPWL值

总结与展望

本文介绍了在芯片布局问题中,基于强化学习的三种代表性方法:MaskPlace、ChiPFormer 和 EfficientPlace,极大提升了布局质量并显著减少了所需的时间。MaskPlace 通过将芯片布局问题重新定义为视觉表示学习问题,利用像素级特征图实现高效的宏布局。这种方法显著减少了线长,同时保证了布局的合法性,适用于处理复杂的布局任务。ChiPFormer 则通过离线决策变换器模型,将芯片布局问题建模为离线强化学习问题,从固定的离线数据中学习可迁移的布局策略。与传统在线强化学习方法相比,ChiPFormer在实现高质量布局的同时显著减少了运行时间,展现了强大的迁移能力和实用性。EfficientPlace 结合了全局树搜索和局部策略学习,提出了一种样本高效的布局框架。该方法通过树搜索指导布局优化,并使用强化学习代理推动搜索进程,最终在较短时间内实现了优于当前最先进方法的布局质量。 这些基于强化学习的方法展示了巨大的潜力,为未来更复杂、更大规模的芯片设计铺平了道路。未来的研究可以进一步优化这些方法的效率和适用性,并且探索在更大规模的实际工业场景中的应用。

参考文献

[1] Lai, Y., Mu, Y., & Luo, P. (2022). Maskplace: Fast chip placement via reinforced visual representation learning. Advances in Neural Information Processing Systems, 35, 24019-24030.

[2] Lai, Y., Liu, J., Tang, Z., Wang, B., Hao, J., & Luo, P. (2023, July). Chipformer: Transferable chip placement via offline decision transformer. In International Conference on Machine Learning (pp. 18346-18364). PMLR.

[3] Geng, Z., Wang, J., Liu, Z., Xu, S., Tang, Z., Yuan, M., ... & Wu, F. (2024). Reinforcement Learning within Tree Search for Fast Macro Placement. In Forty-first International Conference on Machine Learning.

                

初稿 :诸俊涵  颜学明

复审 :颜学明

终审 :金耀初

可信及通用人工智能实验室
金耀初实验室(可信及通用人工智能实验室)由欧洲科学院院士、IEEE Fellow,西湖大学人工智能讲席教授金耀初领导成立。实验室致力于应用驱动的可信人工智能研究,以及采用演化发育方法探索实现通用人工智能的新途径。
 最新文章