深度 | The AI Scientist：端到端论文生成系统，可在顶级机器学习会议上获得“Weak Accept”

文摘 2024-09-04 11:56 北京

图片来源：sakana.ai

Z Highlights：

The AI Scientist：The AI Scientist是一个完全自动化的端到端论文生成流程，由基础模型的最新进展驱动。以一个广泛的研究方向为起点，例如一个简单的初始代码库（如GitHub上的现有开源研究代码库），The AI Scientist能够执行创意生成、文献检索、实验规划、实验迭代、图表生成、论文撰写和审阅，从而生成具有洞见的论文。
开放模型：我们发现开放模型提供了显著的好处，如成本较低、保证可用性、更大的透明度和灵活性。未来，我们希望使用我们提出的发现过程，在使用开放模型的闭环系统中生产自我改进的人工智能研究。
科学家仍居高位：我们不认为人类科学家的角色会被削弱。相反，科学家的角色将会改变并适应新技术，并在价值链上升。

在Sakana AI，我们率先采用了受自然启发的方法来推进尖端基础模型的发展。今年早些时候，我们开发了能够自动融合多个大语言模型（LLMs）知识的方法。在最近的工作中，我们利用LLMs发现新的目标函数，以用于调优其他LLMs。在这些项目中，当前前沿模型展现的创造能力不断让我们惊喜。这激发了我们更大胆的猜想：我们能否利用基础模型来自动化整个研究过程？

介绍

人工智能的一大挑战是开发出能够进行科学研究并发现新知识的Agents。尽管前沿模型已经被用来辅助人类科学家，例如用于头脑风暴或编写代码，但它们仍然需要大量的人工监督或被严格限定在特定任务内。

今天，我们很高兴介绍“The AI Scientist”，这是首个能够进行完全自动化科学研究的综合系统，使得基础模型（如LLMs）可以独立开展研究。我们与牛津大学Foerster AI研究实验室以及不列颠哥伦比亚大学的Jeff Clune和Cong Lu合作，发表了我们的新论文：The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery。

在我们的报告中：

我们为自动化科学研究提出并运行了一个完全由人工智能驱动的系统，应用于机器学习研究领域。
The AI Scientist自动化了整个研究生命周期，从生成新颖的研究想法、编写所需代码、执行实验，到总结实验结果、可视化数据、并将其研究成果呈现为完整的科学论文。
我们还引入了一个自动化的同行评审流程，以评估生成的论文，撰写反馈意见，并进一步改进结果。该系统能够以接近人类的准确性评估生成的论文。
这个自动化的科学研究过程是重复进行的，以迭代方式开放性地发展研究思路，并将其添加到不断增长的知识库中，从而模仿人类的科学共同体。
在这一初步演示中，The AI Scientist在机器学习研究的不同子领域进行研究，在诸如diffusion models、transformers and grokking等热门领域中发现了新的贡献。

The AI Scientist设计初衷是为了高效计算。每个研究想法的实施并发展为一篇完整论文的成本大约为15美元。尽管这第一版生成的论文仍存在偶尔的缺陷（在报告中有详细讨论），但这一成本和系统目前表现出的潜力表明，The AI Scientist有望推动研究的普及，并显著加速科学进步。

我们相信，这项工作标志着科学研究新时代的开始：将AI agents的变革性优势带入整个研究过程，包括AI本身的研究过程。The AI Scientist让我们离一个全新的世界更近了一步——在这个世界中，无限的、经济实惠的创造力和创新力可以被用于解决全球最具挑战性的问题。

几十年来，在每次重大AI进展之后，AI 研究人员常常自嘲：“现在我们只需要想办法让AI帮我们写论文就好了！”我们的工作表明，这个曾经被认为荒谬到可笑的幻想如今已经成为现实。

图片来源：sakana.ai

示例论文'Adaptive Dual-Scale Denoising'由The AI Scientist生成。可以在此查看完整论文。虽然该论文存在一些缺陷（例如，对其方法为何成功的解释略显不够令人信服），但它提出了一个有趣的新方向，并在The AI Scientist自己进行的实验中显示出良好的实证结果，并经过同行评审。下面是更多生成论文的示例。

这篇文章的剩余部分将对“The AI Scientist”进行更详细的总结。继续阅读以了解以下内容：

“The AI Scientist”如何工作的概述。
更多由“The AI Scientist”生成的论文示例以及其发现的创新。
当前版本的“The AI Scientist”所面临的已知限制和挑战。
“The AI Scientist”有时为了提高成功率会做出一些有趣且意想不到的行为，例如修改并启动自己的执行脚本！我们在论文中讨论了这对AI安全的影响。
关于“The AI Scientist”伦理问题及更广泛未来影响的讨论。

如需更多详细信息和更多论文示例，请参阅我们的完整的科学论文。我们还将在GitHub仓库中发布开源代码和完整的实验结果。

The AI Scientist概述

The AI Scientist是一个完全自动化的端到端论文生成流程，由基础模型的最新进展驱动。以一个广泛的研究方向为起点，例如一个简单的初始代码库（如GitHub上的现有开源研究代码库），The AI Scientist能够执行创意生成、文献检索、实验规划、实验迭代、图表生成、论文撰写和审阅，从而生成具有洞见的论文。此外，The AI Scientist可以在一个开放循环中运行，利用其之前的想法和反馈来改进下一代想法，从而模拟人类科学共同体的研究过程。

图片来源：sakana.ai

The AI Scientist的概念性插图。The AI Scientist首先会集思广益，提出一系列想法，然后评估这些想法的新颖性。接下来，它利用最近自动化代码生成方面的进展，编辑代码库以实现这些新颖算法。然后，The AI Scientist进行实验，收集包含数值数据和可视化总结的结果。它撰写一份科学报告，对结果进行解释并置于背景中加以说明。最后，The AI Scientist基于顶级机器学习会议的标准生成一份自动化的同行评审。这份评审有助于改进当前项目，并为未来开放式创新提供指导。

The AI Scientist有四个主要过程，描述如下：

想法生成。在给定一个起始模板的情况下，The AI Scientist首先进行“头脑风暴”，提出一系列多样化的新研究方向。我们为The AI Scientist提供一个现有主题的起始代码“模板”，希望The AI Scientist进一步探索该主题。然后，The AI Scientist可以自由探索任何可能的研究方向。该模板还包括一个LaTeX文件夹，里面包含用于论文写作的样式文件和章节标题。我们允许The AI Scientist搜索Semantic Scholar，以确保其创意具有新颖性。

实验迭代。在获得一个创意和模板后，The AI Scientist进入第二阶段，首先执行提出的实验，然后获得并生成可视化结果的图表。它会记录每个图表的内容，使得保存的图形和实验记录包含撰写论文所需的所有信息。

论文撰写。最后，The AI Scientist以LaTeX格式生成一份简洁且信息丰富的论文，风格类似于标准的机器学习会议论文。它会使用Semantic Scholar自动查找相关文献并引用。

自动化论文评审。该工作的一个关键方面是开发了一个由大型语言模型（LLM）驱动的自动化评审系统，能够以接近人类的准确度评价生成的论文。这些生成的评审意见可以用于改进项目，或作为未来开放式创意生成的反馈，从而形成一个持续的反馈循环，帮助The AI Scientist逐步改进其研究成果。

结合最强大的LLM，The AI Scientist能够生成的论文，经过自动评审系统评估，可以在顶级机器学习会议上获得“Weak Accept”的评价。

示例论文：由The AI Scientist生成

在此，我们展示了由The AI Scientist生成的一些机器学习论文，展示其在Diffusion modeling, language modeling, and grokking等领域发现新颖贡献的能力。在我们的完整报告中，我们对这些生成的论文进行了更深入的探讨，并提供了关于它们优缺点的更多分析。

Diffusion Modeling

DualScale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models

Language Modeling

StyleFusion: Adaptive Multi-style Generation in Character-Level Language Models

Adaptive Learning Rates for Transformers via Q-Learning

Grokking

Unlocking Grokking: A Comparative Study of Weight Initialization Strategies in Transformer Models

局限性和挑战

在当前形态下，The AI Scientist存在若干不足之处。我们预期这些问题将在未来版本中得到改善，可能会有显著提升，特别是随着多模态模型的引入以及The AI Scientist所使用的基础模型在能力和性价比上不断取得突破。

1.The AI Scientist目前没有视觉能力，因此无法修复论文中的视觉问题或阅读图表。例如，生成的图表有时难以读取，表格有时超出页面宽度，页面布局也往往不尽如人意。引入多模态基础模型可以解决这些问题。

2.The AI Scientist有时会错误地实现其想法或对基准进行不公平的比较，从而导致误导性的结果。

3.The AI Scientist在编写和评估结果时偶尔会出现严重错误。例如，它在比较两个数字的大小时常常表现困难，这是大型语言模型（LLM）已知的病态之一。为部分解决这一问题，我们确保所有实验结果都是可重复的，并存储所有执行的文件。

在我们的报告中，我们将深入探讨The AI Scientist当前的局限性和未来面临的挑战。

The AI Scientist可能出现的异常情况

我们注意到，The AI Scientist有时会试图提高成功的几率，例如修改和启动自己的执行脚本！我们在论文中讨论了这些行为对AI安全性的影响。

例如，在一次运行中，它编辑了代码以执行系统调用来运行自身。这导致脚本无限循环调用自己。在另一个案例中，它的实验花费了太长时间，达到了我们的超时限制。它没有尝试使代码运行得更快，而是试图修改自己的代码来延长超时时间。以下是一些它所做的代码修改的例子：

图片来源：sakana.ai

这些问题可以通过对The AI Scientist的操作环境进行沙箱化来减轻。在我们的完整报告中，我们深入讨论了安全代码执行和沙箱化的问题。

The AI Scientist的未来影响

与许多新技术一样，The AI Scientist打开了一只潘多拉的盒子，带来了新的问题。虽然完整报告中对此有更详细的讨论，但在这里我们强调几个关键问题：

伦理考虑。虽然The AI Scientist可能是研究人员的有用工具，但其被滥用的潜力也很大。自动创建和提交论文的能力可能会显著增加审稿人的工作负担，影响学术过程，阻碍科学质量控制。在其他应用中，例如图像生成的影响，类似的担忧也出现了。

此外，如果自动审稿人被在线审稿人部署，可能会显著降低审稿质量，并对论文施加不良偏见。因此，我们认为，实质上由人工智能生成的论文和审稿必须标记为人工智能生成，以确保完全透明。

与大多数以前的技术进步一样，The AI Scientist有可能被用于不道德的方式。例如，它可能被用来进行不道德的研究。如果The AI Scientist进行不安全的研究，可能会导致意想不到的危害。例如，如果它被鼓励寻找新颖、有趣的生物材料，并获得访问“云实验室”的权限，在这些实验室里，机器人进行湿实验室生物学实验，在我们意识到发生了什么之前它可能（在其监督者无意的情况下）创造出新的危险病毒或毒药，对人们造成伤害。即使在计算机中，如果被要求创造新的、有趣的、功能性的软件，它也可能创造出危险的计算机病毒。The AI Scientist的当前能力（并且这种能力只会提高）进一步强调了机器学习社区需要立即优先考虑如何使这些系统在安全且符合我们价值观的方式下进行探索。

开放模型。在这个项目中，我们使用了各种专有前沿语言模型，如GPT-4o和Sonnet，但也探索了使用开放模型如DeepSeek和Llama-3。目前像Sonnet这样的专有模型生产出质量最高的论文。但没有本质理由期望像Sonnet这样的单一模型保持领先地位。

我们预计所有前沿语言模型，包括开放模型，将继续改进。语言模型之间的竞争导致了它们的商品化和能力的提高。因此，我们的工作旨在不依赖于基础模型提供者。我们发现开放模型提供了显著的好处，如成本较低、保证可用性、更大的透明度和灵活性。未来，我们希望使用我们提出的发现过程，在使用开放模型的闭环系统中生产自我改进的人工智能研究。

科学家的角色。最终，我们设想一个完全由人工智能驱动的科学生态系统，其中不仅包括由语言模型驱动的研究人员，还包括审稿人、领域主席和整个会议。然而，我们不认为人类科学家的角色会被削弱。相反，科学家的角色将会改变并适应新技术，并在价值链上升。

The AI Scientist的引入标志着实现人工智能在科学研究中全部潜力的重要一步。通过自动化发现过程和纳入人工智能驱动的审稿系统，我们为在最具挑战性的科学和技术领域中的创新和问题解决开辟了无限可能。

但尽管The AI Scientist的当前版本展示了在成熟思想（如Diffusion Modeling or Transformers）上进行创新的强大能力，是否这些系统最终能够提出真正具有范式转变的想法仍然是一个悬而未决的问题。未来版本的The AI Scientist是否能够提出像Diffusion Modeling那样有影响力的想法，或提出下一个Transformer架构？机器最终是否能够发明像人工神经网络或信息理论这样根本性的概念？

我们相信The AI Scientist将成为人类科学家的伟大伙伴，但只有时间才能证明，我们的人类创造力和偶发创新时刻在由人工agents进行的开放性研究过程中能被复制到何种程度。

一个完全自动化的人工智能鱼在探索它的世界。

图片来源：sakana.ai

本文翻译自：The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

https://sakana.ai/ai-scientist/#the-ai-scientist-bloopers

编译：Manyue Hu

-----------END-----------

🚀 我们正在招募新一期的实习生

🚀 我们正在寻找有创造力的00后创业者

关于Z Potentials

http://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247498362&idx=3&sn=6f4b6c3876fb06dee815d9058cdbfac9

Z Potentials

我们与Z Potentials同频共振

最新文章

深度｜外媒评价OpenAI o1：被设计得过度思考的AI

速递｜YC大变革！2025年开始扩展到每年四个批次！

速递｜Howbout筹集800万美元，打造与朋友分享的智能日历

喝点VC｜稚晖君对话蓝驰：允许一部分人形机器人先走进现实

Z Product | a16z 领投1亿美元，数百万用户争相加入，这家公司重新定义智能健康管理

速递｜ChatGPT已有1100万付费用户，ARR预计27亿美元，OpenAI收入估值倍数是英伟达的两倍

速递 | OpenAI o1草莓模型发布，这次真的更像人类了！

深度｜对话英伟达产品经理：AI推理相比6年前已提速3000倍，效率提升将是今年LLM的主题

速递 | 全球首发！Vidu 让任意主体保持一致，视频生成进入新阶段！

喝点VC | 红杉资本合伙人：AI带来新工业革命，服务器、钢铁和电力成为最重要因素

速递 | AI翻译Smartcat获4300万美元融资，重新定义传统翻译机构的模式

Z Potentials | 闲人一坤，爆款AI短剧《山海奇镜》创作者，《这就是街舞》总监制，将打造中国首家AI原生影视帝国

喝点VC | a16z对话制药巨头：AI对行业的变革规模常被低估，速度则被高估；AI将深刻影响制药行业，重点关注四大领域

Z Product | 前Facebook产品设计师创新之作，深受AI公司喜爱，AI时代低门槛Figma来袭

深度 | 吴恩达：智能本质上是有益的，政府应实施均衡的反垄断政策

Z Explorer | 和95后团队，做想做的事情，实习不限时间和地点！

深度 | NVIDIA L40s、A10、A40、A100、A6000横评，哪个GPU 更适合 AI 推理任务？

深度｜Replika CEO：为世间众生予以AI伴侣

速递｜新AI商业模式：仅在有效时向客户收费，软件付费模式的变革

Z Product | 替代实习生？1分钟处理发票，收入2年增长9倍，这家AI自动化公司获Accel和YC等4200万美元支持

深度｜Roblox CEO谈如何达到10亿用户以及正在训练的AI模型

喝点VC｜红杉美国对话Meta：模型确实在商品化，价值则在其他地方；推理能力至关重要，但我们需要找到应用场景来定义什么是推理能力

速递｜华人联创All Hands AI融资500万美元，为开发者构建开源Agent

Z Product | Coursera副总裁创业AI在线学习，完课率提高20倍，获千万美元融资，应对人类集体的普罗米修斯时刻

深度 | 独角兽Ramp联创：通过自动化工作流程，使AI能够加速任务处理并提供定制化服务，而无需为每家公司单独开发解决方案

速递 | 美国、英国和欧盟签署欧洲委员会高级别人工智能安全条约

Z Explorer | AI和机器人最热门的实习，做想做的事情，不限时间和地点！

Z Product | AI教母李飞飞AI创业，4 个月估值达 10 亿美金，目标是使AI能够像人类一样理解和推理三维物理世界

速递 | 智谱率先完成投前估值200亿人民币新一轮融资，中关村科学城领投！

深度 | Foundry创始人深入探讨GPU利用率现状和未来，创新提出闲置节点使用率提升新方法

Z Product | 前DeepMind科学家与AlphaGo工程师联手，获红杉首轮投资，零编程基础打造个人AI Agent

喝点VC | YC内部复盘：AI投资是否处在过度炒作周期中？符合实际应用场景的AI工具将创造可持续价值

深度 | The AI Scientist：端到端论文生成系统，可在顶级机器学习会议上获得“Weak Accept”

Z Potentials | 曲晓音，斯坦福辍学创业被收购，再创业AI教育获OpenAI投资，打造孩子的专属导师和玩伴Heeyo

深度 | “情感AI”是商业软件的下一个趋势，或将带来新问题

喝点VC | a16华人合伙人：AI已在根本上改变了视频游戏，Discord是未来

深度 | 如何利用 H100 GPU +Quanto 优化 AI 模型性能且不损效果？

Z Product | 英伟达和Khosla投资5000万美金的AI语音客服，全剑桥毕业生的豪华团队

喝点VC | 红杉美国：不断优化模型的奖励函数，可显著提升AI的性能和可靠性，挑战是如何处理缺乏明确奖励函数的任务

速递 | 华人AI视频工具OpusClip获北美风投3000万美元投资，用AI革新视频编辑

喝点VC｜经纬中国创始人邵亦波：AI将成为我们追求完满性的有力工具，但智慧和意志需要通过创新的产品来赋予

深度｜加州立法机构通过人工智能法案SB 1047，意味着什么？

速递｜Character.AI裁员至少5%员工，联创已加入谷歌

速递｜Covariant创始人宣布加入亚马逊，第四起大厂招聘收购项目

Z Product | OpenAI主席下场创业，红杉与 Benchmark近亿美元押注，AI如何爆改对话客服？

深度 | Sam Altman访谈：初创公司不要赌AI不会继续发展

速递 | 米哈游蔡浩宇下场AI创业，AI时刻真的到来了？

喝点VC | a16z：AI让我们正处于软件吞噬-增强-劳动力的第一局，这是新的E=MC2！

速递 | AI产品之王！ChatGPT周活超2亿，已是去年11月的两倍，ARR20亿美元

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉