登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

科技 2024-11-19 15:04 北京

机器之心报道

机器之心编辑部

终于，面对近年来对自家自动 AI 芯片设计研究的质疑，谷歌坐不住了，发文回应！论文作者中包括了谷歌首席科学家 Jeff Dean。

论文地址：https://arxiv.org/pdf/2411.10053
论文标题：That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design

我们先来回顾一下事情的来龙去脉：

2020 年，谷歌发表了预印本论文《Chip Placement with Deep Reinforcement Learning》，介绍了其设计芯片布局的新型强化学习方法 AlphaChip。在 2021 年，这项研究发表在 Nature 上并开源了出来。

此后，AlphaChip 激发了 AI 芯片设计方面的大量工作，并在谷歌母公司 Alphabet 三代 TPU、数据中心 CPU 和其他芯片中部署，并由外部芯片制造商扩展。

然而，ISPD 2023 上的一篇论文对谷歌 AlphaChip 的性能提出了质疑（Cheng 等人），论文指出，尽管谷歌承诺会提供数据和代码，但实际上这些资源并不完全可用。

论文地址：https://arxiv.org/pdf/2302.11014

Cheng 等人还认为基于谷歌的 Circuit Training（CT）框架的 AlphaChip 和《Nature》论文存在几项不一致：如输入网表的预放置信息、代理成本函数的权重设置、宏观和标准单元群集的放置规则等。

根据他们的评估，相比模拟退火算法（SA），在大多数情况下，AlphaChip 的代理成本更高、HPWL 也不如 SA 方法。

但谷歌方称：「他们并没有按照我们 Nature 论文中描述的方法运行。」

例如 Cheng 等人的论文中没有预训练 RL 方法（消除了从先验中学习的能力）、使用的计算资源少得多（RL 经验收集器减少 20 倍，GPU 数量减少一半）、没有训练到收敛（机器学习标准做法），并且用于评估的测试用例也是过时的。

在最近一期 CACM 上，Synopsys 的杰出架构师 Igor Markov 也发表了对三篇论文的元分析，包括登上《Nature》的 AlphaChip 原论文、Cheng 等人投稿到 ISPD 的论文以及 Markov 未发表的论文，总结了人们对 AlphaChip 的各种质疑。

文章地址：https://cacm.acm.org/research/reevaluating-googles-reinforcement-learning-for-ic-macro-placement/

谷歌还拉了一张时间线：

因此，面对以上质疑，谷歌通过本文进行了回应，确保没有人因为错误的原因而放弃在这个有影响力的领域继续创新。

Jeff Dean 发推表示，Cheng 等人的论文很大程度上并没有遵循谷歌的方法，尤其是没有进行预训练，在算力、训练收敛方面也都存在缺陷。

Jeff Dean 还认为，Igor Markov 的文章提出了含蓄的指控，完全没有根据。他很惊讶 Synopsys 竟然想与此事扯上关系，也很惊讶 CACMmag 竟然认为发表这些指控是恰当的。除了两篇有缺陷、未经同行评议的文章之外，没有任何证据或技术数据。

Cheng 等人在复现谷歌方法时的错误

Cheng 等人并未按照谷歌在《Nature》中的描述复刻论文中方法，因此他们的结果不好，并不意外。

以下是谷歌指出的主要错误：

未对强化学习方法进行预训练

AlphaChip 的核心优势在于能够从先验中学习，即在正式测试前通过「练习」模块中进行预训练。去除这一点，相当于评估一个完全不同且效果变差的方法。

下图 2 中展示了：训练数据集越大，AlphaChip 在新模块上的布局效果越好。

AlphaChip 的原论文中也通过下表展示了对 20 个模块进行预训练，模型可以掌握更有效的布局策略的效果。

此外，AlphaChip 的原论文中多次强调预训练的重要性。例如下图所示，在开源的 Ariane RISC-V CPU 上，未预训练的强化学习策略需要 48 小时才能接近预训练模型 6 小时的效果。

AlphaChip 在主数据表中的实验结果正是基于 48 小时的预训练，但 Cheng 等人没有进行任何预训练。这意味着强化学习模型从未接触过芯片，需要从零开始在每个测试案例上学习布局。

这就像对未见过围棋对局的 AlphaGo，却得出了 AlphaGo 不擅长下围棋的结论。

为此，Cheng 等人在论文中指出，谷歌开源的内容不支持复现预训练。但预训练仅需运行多个案例的训练过程，开源的数据一直支持预训练。

在 Cheng 等人的论文中称，截至目前，对 AlphaChip《Nature》论文和 CT 框架的数据和代码都未完全公开，因此，评估遇到了阻碍。

用的计算资源少了一个数量级

强化学习经验收集器比 Nature 论文中少 20 倍 (26 个 VS 512 个)，GPU 数量也少一半 (8 个 VS 16 个)。计算资源变少往往需要更长的训练时间才能达到相同的效果。

根据另一篇复现 AlphaChip 的论文《Scalability and Generalization of Circuit Training for Chip Floorplanning》，使用更多 GPU 进行训练可以加速收敛。

如果 Cheng 等人能够按照 AlphaChip 原论文中的描述配置实验，其结果可能会有所改善。

没有训练到收敛

众所周知，没训练到收敛会显著影响模型性能。

从 Cheng 等人的项目网站，可以找到四个模块的收敛曲线（Ariane-GF12、MemPool-NG45、BlackParrot-GF12 和 MemPool-GF12），但在这些模块的训练中均未达到收敛状态（他们还没提供 BlackParrot-NG45 或 Ariane-NG45 的曲线）。

对于这四个模块，训练均在相对较少的步数下被中断。

在不具代表性且无法复现的基准上进行评估

Cheng 等人使用的基准（45nm 和 12nm 的节点）与 AlphaChip（7nm 以下的节点）所用的相比，更老更旧，在物理设计上差异显著。

对于 10nm 的技术节点，多重图形化技术容易引发布线拥塞问题。

因此，对于没那么先进的技术节点，可能需要调整 AlphaChip 的奖励函数中的相关组件。

AlphaChip 的研究团队称：「我们主要为 7nm、5nm 以及更先进的工艺节点设计，对于前几代节点，尚未深入研究。但我们欢迎社区在这方面的贡献！」

此外，Cheng 等人未能或不愿提供用于复现其主要数据表中结果的综合网表。

对此，AlphaChip 的研究团队称：「Cheng 等人虽说对我们的方法进行了大规模重现，但是不是复现错了？我们建议直接使用我们的开源代码。」

除了在复现谷歌方法时存在错误，Cheng 等人还存在一些其他问题，包括如下：

将 AlphaChip 与闭源商业自动布局器做对比；
在调整标准单元设计时，对初始布局进行了人为「消融」；
有缺陷的相关性研究；
对谷歌工程师验证的错误声明。

Cheng 等人声称，谷歌的代理成本与最终指标没有很好的相关性，但他们自己的相关性研究实际上表明，总体代理成本与除标准单元面积之外的所有最终指标之间存在微弱但正相关的相关性。具体如下图 6 所示。

最后，谷歌表示 AlphaChip 完全开源，他们开源了一个软件存储库，以完全复现《Nature》论文中描述的方法。RL 方法的每一行都可以免费检查、执行或修改，并且提供源代码或二进制文件来执行所有预处理和后处理步骤。

GitHub 地址：https://github.com/google-research/circuit_training

更多回应细节请参阅原论文。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943609&idx=1&sn=82f90b296382e19d0bf5a9831143a605

机器之心

专业的人工智能媒体和产业服务平台

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

刚刚，谷歌宣布35岁Keras之父Francois Chollet离职

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

WHALE来了，南大周志华团队做出更强泛化的世界模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉