AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

学术 2024-10-24 11:49 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | ScienceAI

伟大科学家的研究，往往开始于一个小的灵感、小的创意。

长久以来，科学创新与研究能力被视为人类在人工智能时代中坚守的一片独特领地。然而，一篇来自西湖大学深度学习实验室的论文在科学界掀起了波澜。

该论文揭示了一种前所未有的方法——利用大型语言模型来催生海量具有突破性的科学构想。仅需一篇前沿的学术文章作为引子，这一模型便能激发出几百个有创意的、高质量的科研 idea。

AI真的要取代人类科学家了吗？

西湖大学蓝振忠团队联合浙江大学、电子科技大学等多所高校研发了「Nova大模型」，它能够生成大量突破性的科研 idea，在创新性、价值性、可行性等方面可以媲美甚至超过人类科学家。

论文链接：https://arxiv.org/abs/2410.14255

思考：AI科学家真的要来了？

回答这个问题前，我们先来看看西湖大学蓝振忠团队的研究结论：

该团队提出的模型大大提升了顶级 idea 的生成能力。以最近 170 篇与大语言模型相关的论文（来自 ACL、ICLR、CVPR 等人工智能领域顶级会议）为测试集，Nova 模型生成的高质量想法的数量（根据 Si 等人在 2024 年提出的瑞士制排名赛评分来衡量）至少比全球顶尖机构（如斯坦福、微软）现有的模型多 2.5 倍。

图示：Nova 与几个竞品的效果比较。（来源：研究团队）

模型之所以能够有效提升高质量想法的生成数量，是因为研究团队引入了一种增强的规划和搜索方法，用于提升大语言模型的能力。该方法能够帮助模型检索外部知识，逐步丰富想法，使其包含更广泛和深入的见解。

图示：Nova Pipeline。（来源：论文）

为了验证「Nova大模型」的能力，研究团队进行了一系列测试，将得到的结果拿给身边的科学家看，他们都不敢相信这是AI创作的。

让我们通过几个具体的例子来进一步了解「Nova 大模型」是如何工作的。

例 1：癌症治疗研究者

提示词：假设你是一位致力于癌症治疗研究的科学家，正试图寻找一种新的治疗手段。你将一篇关于免疫疗法的论文输入 Nova 系统作为种子。Nova 随即生成了一些初步的想法，比如「结合 CRISPR 基因编辑技术和 CAR-T 细胞疗法，针对肿瘤微环境中的特定免疫抑制因子。」

接下来，Nova 通过迭代规划和检索机制，进一步细化和完善这些初步的概念。在这个过程中，Nova 不仅查阅了最新的研究进展，还借鉴了其他相关领域的知识，如纳米技术、蛋白质工程等。

最终，它形成了一个详细且创新的研究计划。这个计划不仅包括了理论上的设想，还包含了具体的实验步骤和预期的结果分析，使得研究者可以轻松地将想法转化为实际操作。

例 2：人工智能教育技术开发者

提示词：再假设你是一位专注于人工智能教育技术的研发者，你希望开发一种能够个性化教学的人工智能系统。你将一篇关于自适应学习算法的论文输入 Nova 系统作为种子。

Nova 随即生成了一些初步的想法，比如「结合情感计算与自适应学习算法，开发一种能够感知学生情绪状态并相应调整教学策略的人工智能系统。」

Nova 会进一步细化和完善这些初步概念，比如引入情感计算技术来识别学生的情绪变化，并据此调整教学节奏和内容，使得教学更加个性化和有效。通过这样的迭代过程，最终形成一个既具有创新性又可行的研究方案。

通过这样的方法，Nova 不仅帮助科学家们找到了新的研究方向，还在教育技术领域发挥了重要作用。个性化的教学系统能够根据每个学生的具体情况调整教学策略，这对于提高教育质量和促进教育公平具有重要意义。

例 3：环境科学研究员

提示词：假设你是一位环境科学研究员，致力于开发新的可持续能源解决方案。你将一篇关于太阳能电池效率提升的论文输入 Nova 系统作为种子。

Nova 随即生成了一些初步的想法，比如「利用石墨烯增强太阳能电池的光电转换效率。」

接下来，Nova 通过检索最新的材料科学文献，进一步细化和完善这些初步的概念。比如，结合石墨烯的导电特性与太阳能电池的光电转换机理，设计一种新的太阳能电池结构。最终，形成一个既有科学依据又具有实用性的研究计划。

初心：为什么要研究「Nova 大模型」？

「我身边的科学家，包括我自己做科研这么多年了，有一个特别明显的感受，就是我们虽然做着最前沿的最具探索性的事情，但实际组织工作的方式却是非常传统的，甚至像是手工作坊。」蓝振忠说。

让我们来看一个科研工作者的一天是如何构成的。到了办公室，打开电脑开始看 paper，如果有了新的 idea 会记录下来，查阅相关资料，看是否有人已经在做这个方向。深度阅读 1-2 篇 paper，一上午就过去了。下午，开组会，讨论上午想出来的 idea，与团队一起头脑风暴，探讨可行性。

这一天的效率已经够高了，但是这样的工作模式可能远跟不上有价值的 paper 的产生速度。况且，接下来有很多伟大的创新会诞生于跨学科领域，Idea 的产生同样受到科学家学科背景、过往经验的限制。

如果我们有一个 AI 模型，可以帮助科学家提升效率，那科研的进展会不会突发猛进？

有了 Nova 大模型后，科研工作者的一天可能会这样度过。大模型可以迅速阅读最新的 Paper，帮助科研工作者提取其中的关键信息，根据提取的信息，生成多个高质量的 idea。涉及到跨领域的知识，大模型也可以轻松完成。人类科学家只需要根据模型生成的内容进行判断，大大节省了科研的时间，提升了科研的效率。

不仅如此，科研所需的创新能力，也正是模型擅长的。「不断找到最有价值的科研的方向很难，我们就是要尝试打破现状，所以打造了 Nova 大模型。科学家个体的能力固然强，我们更希望用 AI 模型『杠杆』科学家的科研能力，加速人类科学的进步。」作为团队负责人，蓝振忠充满信心。

十足的信心来源于对规律的把握和前景的判断。蓝振忠坦言：「接下来有很多伟大的创新会是跨学科的，比如今年诺贝尔奖颁发给了 AI 交叉领域的科学家，也是对AI跨学科成就的一种肯定。但是，科学家个人终其一生顶多成为1-2个领域的专家，所以单靠个人能力，做跨学科颠覆式创新是非常困难的。但这件事天然适合大模型来做。我们打算让模型成为各个领域最懂创新的专家，希望它能够产生人类科研结果中最重要、最稀缺的『跨学科式创新』。」

此外，全球一年的科研经费（以2022年为例）接近2.5万亿美元，我们的模型哪怕只是「替代」了部分科研人员的能力，带来的价值也是不可估量的。

「因此，提升科研效率、节约资源、为国家科技创新贡献力量，就是我们研发『Nova大模型』的初心。」蓝振忠认为。

难题：训练 Nova，需要克服什么困难？

我们借鉴了生物进化里面的演进原理，idea 的迭代就像生物进化，一代一代的演进与选择。

「做这件事情是真的很难。」蓝振忠坦言。要让模型像人类一样思考，懂得人类是如何创新的，并把这种思考方式抽象成算法和模型的架构，真的做了才知道有多难。

简单来说，整个模型的创新过程很像人类。

首先我们把人类各种创新方法论融合到模型的推理过程中。然后让模型基于这些验证过的方法论、创新路径来产生一批 idea。这些 idea 对于我们整个模型来说，只是第一步，它们被称为 seed idea （gen_0）。

这些 seed idea 其实只是模型自我推进创新的开始。模型基于这些 seed idea 会进一步去主动学习搜索各种各样的资料，动态选择新的创新方法论，进而生成下一波更创新的idea（gen_1, gen_2, gen_3 ...）, 持续迭代，不断进步—— 这是一种持续「探索-学习-进步」的自我进化算法原理。

验证：Nova 大模型采用了什么样的自动化、人工评估过程？

研究团队在质量、多样性、新颖性三个方面对 Nova 模型进行全面的自动化评估。

1）质量：采用专业的评测方法，将 4 个不同方法生成的 idea 按照瑞士轮方法一起进行打分，Nova 产生的 619 个想法和 2521 个想法分别获得了 4 分和 5 分，大大超越了其他基线方法。

图示：瑞士制排名赛不同方法的得分分布。（来源：论文）

2）多样性：大模型生成 idea 重复度比较高是当前面临的主要问题之一。研究团队通过计算 idea 之间的相似度来对生成的 idea 进行去重。可以看出，随着生成的想法数量的增加，Nova 模型可以通过迭代规划和搜索不断产生新的想法。在非重复百分比方面，Nova 的表现明显优于其他产品，超过 80% 的想法都是独一无二的。

图示：非重复百分比比较。（来源：论文）

3）新颖性：为了探索方法对持续生成新的 idea 的影响，研究团队还进一步通过消融实验证明了该方法能持续生成新颖的非重复的 idea。当不采用 plan 方法时，步骤 3 中的独特想法数量（44.1）与步骤 2 (42.4) 相比不再增加。

这表明，如果没有plan，仅依靠基于种子想法的检索会限制获取有价值的外部知识以进行创新。当规划和检索都被删除时，由于没有引入外部知识，独特新颖想法的数量在步骤 2 略有增加（从 25.3 增加到 30.6），在步骤 3 停滞不前（从 30.6 增加到 31.35）。这也进一步说明方法的有效性。

图示：Nova 的消融研究。（来源：论文）

研究团队同样进行了一系列人工评估。找了 10 位专家（包括对应领域的博士，博后以及资深教授），对生成 idea 在 Overall（整体），Novelty（新颖性），Feasibility（可行性），effectiveness（有效性）进行全面的评估。

同样地，研究人员发现在人工评估中，Nova 在整体质量和新颖性方面均获得了最高分。Nova 贡献了前 4 个想法的 37.5%，是四种方法中最高的。此外，Nova 在最差的 4 个想法中所占比例非常低，在整体质量方面仅占 17.53%。在新颖性评估中也观察到了类似的模式。

图示：（左）总体质量的人工评估；（右）新颖性的人工评价。（来源：研究团队）

展望：未来何时来？

「让 AI 自驱的进化，推进我们人类的科学突破与产业提升。」蓝振忠有自己的梦想，他和团队也为这个远大的目标规划了清晰的路径。

Nova 模型的发布，只是团队迈出的第一步，后续将持续发力：

1）从 0 到 1：先让模型在单个学科、领域实现创新，快速验证算法和模型效果，把基建和底子打好，让模型成为一个可以给科学家使用的产品。

2）从 1 到 10：进一步拓展模型的横向能力，成为多学科的创新专家，不仅能生成创新的科学 idea，而且能自动执行验证，最终发表科研论文。

3）终极目标：让模型能够自驱地进行科学探索、商业创新，让模型推进人类的科学突破与产业提升。

好的愿景与目标，需要好的团队配合实现。研发 Nova 大模型的团队中，有非常具有创新精神的行业专家，有在国内大厂工作过的算法专家，有非常懂创新的产品专家。

背靠中国新型研究型大学西湖大学，拥有丰厚的人才储备和强大的算力资源。谈及大模型的前景，蓝振忠说：「海外有一家公司，想做的事情跟我们有相似之处，它们今年成立，从初始到现在几个月的时间估值已经提升至 15 亿美元了。说明现在全球都非常认可『AI 在科学领域自驱探索突破』这个方向。我们不能落下，需要尽快打造属于自己的大模型，为国家科技创新贡献力量。」

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503433&idx=1&sn=1ede826aa2d09ac48b872508fd90d229

ScienceAI

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

上交大、复旦中山团队开发糖尿病专用大语言模型，助力个性化糖尿病管理

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

借助谷歌AI工具，科学家揭示「生物蛋白如何应对恶劣条件」

全球首个真实场景城市内涝监测大模型

首个多模态地理科学大模型「坤元」

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉