分析约 7500 万篇论文揭示：人工智能如何更好地推动科学创新｜集智科学家最新成果

学术 2024-10-15 20:02 北京

导语

最近，2024年诺贝尔物理学奖颁奖授予人工神经网络与机器学习，化学奖授予蛋白质设计和结构预测，展现了人工智能在推动科学创新方面的重要作用。然而，AI 到底如何促进当下科学的发展？又将如何影响科学的未来？对于 AI 带来的广阔机遇，科学家做好准备了吗？香港大学社会科学学院助理教授高见与美国西北大学凯洛格商学院教授王大顺合作于10月11日在 Nature Human Behaviour 发表最新研究，对这些问题提供了定量解释。

通过分析 7460 万篇论文、710 万项专利和 420 万份课程大纲数据，他们发现自2015年以来，人工智能的影响扩展到了几乎所有科学领域，使用人工智能的论文表现出“影响力溢价”。与此同时，人工智能对学科研究产生的影响并不均等，且人工智能的教育投入落后于人工智能的科研使用。领域专家与人工智能学者进行跨领域合作，可能是促进人工智能在科学领域广泛应用的新模式。

研究领域：科学学，人工智能，论文影响力，自然语言处理，计算社会科学

郭瑞东 | 作者

梁金 | 编辑

论文题目：
Quantifying the use and potential benefits of artificial intelligence in scientific research
论文地址：
https://www.nature.com/articles/s41562-024-02020-5

1. 人工智能给各个学科带来的
直接与间接影响迅速增加

从医学中的新药设计到社会科学中的税收政策制定，人工智能（AI）为科学研究带来的益处无处不在。今年两位科学家以开创性的人工智能研究获得了诺贝尔物理学奖，三位科学家因为将AI应用于蛋白质设计和结构预测的相关研究获得了诺贝尔化学奖。尽管人工智能发展迅速且应用广泛，但许多研究人员对人工智能如何造福他们的研究缺乏系统性的理解，对人工智能是否能够在每个领域都推动科学发展仍存在怀疑。

王大顺团队的新研究开发了一个测量框架，应用自然语言处理（NLP）技术处理庞大的数据集（包含19个学科292个领域在1960-2019年间发表的近7500万篇学术论文的题目和摘要），可估算人工智能在科学研究中的直接使用和潜在益处。该框架首先估计一个领域中 AI 使用的频率。具体来说，研究者从AI领域论文的标题和摘要中提取 AI 相关术语词组（AI n-gram；他们识别出5个AI子领域：机器学习，人工智能，计算机视觉，自然语言处理和模式识别。然后从这些AI子领域的论文中提取使用频率最高的关键术语，如监督学习、词嵌入、生成对抗网络），并计算 AI n-gram 在每篇AI文章中出现的频率。接着将所有论文分领域，同样从论文的标题和摘要中提取 AI n-gram，进一步按年度统计这些领域内论文中 AI n-gram 的出现频率，以近似代表AI在特定年份在某一学科领域内的使用情况（图1a）。

图1. 各学科和不同年份对AI的直接使用情况估计

研究发现，近年来人工智能在各个领域的直接使用情况令人瞩目，并且使用人工智能的论文有更多的“影响力溢价”。具体而言，研究人员考察一篇论文被引用的次数，并将引用次数位于同一领域和年份发表论文的 5%以内的论文定义为“热门论文”。研究发现：无论学科如何，在标题或摘要中提及 AI 相关术语的学科论文都会获得更多引用，更有可能成为热门论文，并从其他学科获得更高的引用比例（图1e,f）。

人工智能在学科领域内的使用量不断增加，以出版物标题或摘要中提及与人工智能相关的术语来体现。从 2015 年到 2019 年，与人工智能发展停滞不前的假设情况相比，人工智能的飞速发展提高了各个学科对其的直接使用，包括计算机科学（37%）、工程（24%）、物理（24%）、生物学（22%）、心理学（24%）、经济学（14%）、社会学（30%）和政治学（27%）。由于新人工智能算法的成熟，人工智能带来的直接影响（使用）均显著上升，且预期未来还会进一步上升。

值得关注的是，这种人工智能直接使用的增长并非线性；增长幅度在2015年后特别显著。具体而言，图1g中的虚线表示如果固定使用2015年AI相关的词汇计算得出的AI影响，实线为使用新词后得到的AI影响，实线显著高于虚线，说明AI在各个学科直接使用的显著增加，更多源于人工智能领域的前沿发展。与此同时，研究者也发现各个学科间的增幅存在不均等的现象，例如人工智能在工程学中的使用量远高于社会学。

前文讨论的是AI对各个学科的直接影响（使用），然而随着人工智能的“能力”提升，可能有助于完成学科领域内的基本“任务”。该研究假设，人工智能的“能力”可以用“动词-名词”组合来表征（例如，“learn representation”，即“学习表征”），从而进一步量化人工智能对科学研究可能产生的潜在影响（图2a）。对于生物学家来说，这样的领域任务可能就是“识别基因”；对于化学家来说，可能是“催化反应”。

图2. AI 对不同学科的潜在影响估计及学科异质性分析

根据这一框架，可估计一个学科内哪些子领域可能从人工智能中受益最大。以生物学为例，研究结果表明，从人工智能中获益最大的子领域是“生物系统”（图2c），因为许多这个领域的基本“任务”与人工智能的“能力”相一致（例如，“提取特征”、“检测对象”和“改进预测”）。除此之外，各个领域的AI直接使用与间接获益彼此高度相关（图2e）。而综合各个学科（图2g），可发现几乎每个学科都有一些子领域受到人工智能的显著影响，即使在整体 AI 影响较低的学科中也是如此，比如社会学和经济学。这表明了人工智能对自然及社会科学的影响是普遍的。

2. 大学对科研工作者在AI上的教育投入，
可能已经滞后AI给科研的帮助

通过对开放课程大纲项目（OSP）数据库的 420 万份大学课程大纲的分析，可估算每个学科中教授人工智能相关内容的多少，图3a和b指出，多数科学的人工智能人才和知识供应，与它们可能从人工智能中提取的益处不相称，这突出AI在科学研究中的影响力与相关领域的AI教育间存在显著差距。人工智能的相关教育存在系统性错位。高等教育中对人工智能的关注，并没有跟上科学受益于人工智能的步伐。这也就意味着，人工智能在科学领域的应用已经飞速发展，而培训科研工作者更好地使用人工智能的大学教育却落后了。

为了满足人们对人工智能日益增长的知识需求，领域专家可能会依赖跨学科合作以获取人工智能知识。通过分析涉及人工智能的合作研究（图3c），发现大约 42% 涉及人工智能的论文是由领域专家独立完成，约三分之一的论文是由领域专家和计算机科学家合作的，而由计算机科学家独立完成的占21.6%。

图3. 学科中AI教育与AI使用的关系及AI相关研究的合作情况

在人工智能使用多的学科领域，能看到领域专家与计算机科学家更多地展开合作（图3d,e）。此外，主要学科中合著的人工智能文章占比随着时间的推移而增加（图3f）。领域专家与AI学者的合作，能暂时缓解对AI知识的迫切需求，跨学科合作可能变得更加重要。各个学科领域的科学家越来越倾向于依赖那些对人工智能有更专业知识的同行。这表明，在科学领域充分利用人工智能不仅需要更多的资金来培训科学家，还需要更多跨学科合作的机会。

3. 人工智能的影响
对女性和少数族裔研究人员有差别

历史上，女性和少数族裔在某些领域，尤其是在 STEM（科学，技术，工程及数学）领域，代表性不足。该研究发现：随着科学领域人工智能的使用持续增长，这些群体从新技术中受益的可能性也不成比例。图4a和b展示了每个学科中女性科学家的比例与其受到AI的直接与间接影响得分，结果指出女性占比越高的研究领域，从AI的潜在获益越少。换句话说，女性科学家往往与较低的人工智能直接使用和间接益处得分相关，也就意味着，相比于男性科学家，她们较少地从人工智能的发展中获益（图4c,d）。类似地，少数族裔也有存在从人工智能中获益不均等的现象。

图4. 女性和少数族裔从人工智能的发展中获益不均

上述结果表明，尽管人工智能对所有学科都具有潜在益处，这些益处可能在不同学科间分配不均。随着人工智能对科学的影响持续增长，可能会带来性别和种族方面的职业发展差距，进而加剧学术界的不平等。

4. 总结

这项基于大规模数据分析的研究，有助于我们更好地理解人工智能可能对科学研究所产生的影响。研究指出：领域专家与人工智能学者的合作，可能是一种促进人工智能在科学领域广泛应用的新模式，这有助于将人工智能理论发展迅速转化为人工智能落地应用。同时，在大学通识教育和研究生专业教育中，相应地增加人工智能教育投入，有助于发展领域内的AI专业知识，帮助领域专家从飞速发展的人工智能技术中获得更多的益处，从而推动和加速科学发展。

参考链接：https://insight.kellogg.northwestern.edu/article/ai-is-revolutionizing-science-are-scientists-ready#!

学者简介

高见，香港大学社会科学学院助理教授。致力于开展计算社会科学、科学与创新、复杂系统等跨学科交叉研究，以大规模数据分析和人工智能技术为主要工具，定量化地揭示复杂社会经济系统的结构和运行规律，为深入理解科学创新和社会发展提供新视角。研究成果发表在Science、Nature Human Behaviour、Nature Communications、Physics Reports等期刊；被 Nature News、Science Magazine、Scientific American、Forbes、中国日报等媒体广泛报道。

王大顺，美国西北大学凯洛格商学院和 McCormick 工程学院教授。凯洛格学院 Ryan 复杂性研究所联合创始主任，科学学与创新中心（CSSI）创始主任，西北复杂系统研究所（NICO）核心教员。目前的研究重点是科学学，希望利用和发展复杂科学和人工智能工具，广泛探索科学与创新领域的运行发展规律。研究成果发表于 Nature、Science、PNAS、Nature Human Behaviour、Nature Physics、Nature Reviews Physics、Nature Machine Intelligence、Nature Communications 等期刊。他的第一本书是《科学学》（The Science of Science），与 Albert-Laszlo Barabasi 合著。

面向未来的科学学读书会招募中

科学是研究实践、是理性精神，也是一个由学者、文献、科研项目、科学思想与灵感等一起构成的自组织、自生长的复杂系统。科学学这门学科，旨在深入理解科学研究的种种因素并推动科学发展。科学的迅猛发展在积累科学知识的同时，也遭遇诸多社会、伦理、政策问题：开放科学的范式如何影响科学研究的实践？阶层、性别、种族、国家等视角如何揭示科学不平等的起源？期刊编辑和审稿人如何塑造当今的科学活动？科学人口结构、人才激励、科技人才流动如何影响科学发展？AI大模型如何重塑科学研究的各个环节？

为了思考和回应科学的多元化挑战、科学开放性面临的危机，以及新兴技术对科学的冲击，集智俱乐部联合美国匹兹堡大学博士后崔浩川、东南大学副研究员孙烨、田纳西大学信息学院助理教授李恺、纽约大学阿布扎比分校博士研究生刘逢源、南京大学地理与海洋科学学院研究员古恒宇，共同发起「面向未来的科学学读书会」，这是继「复杂系统下的科学学读书会」之后的新一季科学学读书会。读书会从2024年8月25日开始，每周六晚19:00-21:00，持续时间预计8-10周。欢迎感兴趣的朋友报名参与！

详情请见：面向未来的科学学读书会：探索开放科学范式，揭示科学不平等的起源

推荐阅读

1. Science最新：流行病大爆发期间政策与科学的共演化

2. 后疫情时代的科学：新启动项目减少，带娃分身乏术，性别不平等加剧

3. "计算社会经济学"长文综述：洞察社会经济发展的跨学科新视角

4. Science长文综述：什么是科学学

5. 张江：第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

6. 龙年大运起，学习正当时！解锁集智全站内容，开启新年学习计划

7. 加入集智，一起复杂！

点击“阅读原文”，报名读书会

http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247700305&idx=1&sn=d67609555256261f106f7de5337cd997

集智俱乐部

关注复杂科学与人工智能的前沿进展、书籍资料、工具文献、交叉前沿等，同时也发布集智俱乐部、集智学园举办的各类讲座、课程等活动相关信息。

最新文章

Nat. Commun. 速递：深度学习预测复杂网络系统韧性

双十一限时特惠！加入集智学园VIP，一次性解锁集智平台所有内容资源

AlphaFold3开源了，诺奖AI工具人人可用，开启生物分子设计新时代

上智院与集智科学研究中心等联合发布“科学智能十大前沿观察”：探索“AI爱因斯坦”的无限可能

生物启发的神经形态AI——从昆虫到微型自主无人机丨周三直播·昆虫智能与AI读书会

基于多尺度建模的机器学习正反问题求解｜周四分享·复杂系统自动建模读书会第二季

混沌、吸引子、分形：复杂非线性系统的多稳定性与不可预测性

PRX Life 进展：细胞状态转化中基因调控网络的动力学研究

大模型2.0读书会：融合学习与推理的大模型新范式！

“双11”共议AI Science“双螺旋引擎”！2024科学智能创新论坛议程和嘉宾阵容公布

科普讲座：涌现、因果与人工智能｜集智进校园·香港浸会大学

科学学视角下 AI 对 Science 的影响丨面向未来的科学学读书会

11.11一年一次限时特惠！加入集智学园VIP，一次性解锁集智平台所有内容资源

阻塞相变：无序体系的一阶相变

圆桌讨论：当 AI 遇见细胞复杂系统｜周二直播·生命复杂性读书会

3D视觉运动计算与应用——从昆虫到机器人丨周三直播·昆虫智能与AI读书会

当复杂科学遇见地球系统：气候网络、复杂性与人工智能

长序列预测 & 时空预测万字长文：一文带你探索多元时间序列预测的研究进展！

冯·诺依曼的遗产：寻找人工生命的理论根源

海量时空数据如何改进 POI 推荐系统？对模型、架构与安全的全面综述

如何创造出超越人工智能的生命系统？从自复制自动机到人工生命丨周日直播·《一种新科学》读书会

如何利用数据提高论文影响力？三万篇论文揭示数据中的重组理论

前沿进展：通过层次结构信息和分子动力学模拟发现高活性肽

整合信息指标 Φ 的近似计算｜周六直播·整合信息论读书会

一作解读：数据中的重组理论如何促进科学影响力丨面向未来的科学学读书会

复杂系统的可解释性动力学推断和临界点预测｜周四直播·复杂系统自动建模读书会第二季

社会性昆虫的行为与群体智能丨周三直播·昆虫智能与AI读书会

时空数据的复杂疾病算法研究和临床应用｜周二直播·生命复杂性读书会

诺奖之后，物理学不存在了？——集智科学家解读2024年诺贝尔奖｜周六直播

整合信息论基础理论：IIT4.0 深入研读｜周日直播·整合信息论读书会

爱因斯坦和固体量子论：还原与演生的两条道路

你和ChatGPT理解语言的方式一样吗？从表征对齐角度比较人工神经网络与生物大脑

诺贝尔物理学奖为何颁给机器学习？Physics for AI 综述介绍

科学计算中的符号回归方法｜周四直播·复杂系统自动建模读书会第二季

简单生物如何形成复杂认知？昆虫智能启发群体智能与集群机器人

学术会议预告｜北京邮电大学第五届“系统论、信息论、博弈论”三论融合学术会议

从结合模型与推理的昆虫神经机制研究到轻量化智能算法设计丨周三直播·昆虫智能与AI读书会

扩散模型与演化算法的隐秘联系

Nat. Commun.速递：多任务神经网络预测多体量子态物理性质

信息整合的统一框架：基于信息几何的视角｜周六直播·整合信息论读书会

寻找机器学习的“热力学”：临界相变如何启发机器学习研究？

南京线下：科学学视角的科技劳动力老龄化丨科学学读书会

注册延长！第九届国际认知神经动力学大会 (9th ICCN2024)

分析约 7500 万篇论文揭示：人工智能如何更好地推动科学创新｜集智科学家最新成果

《城市规模法则》：城市研究和空间科学中的异速生长｜新书速递

复杂社会建模与推演：城市应急管理与智能信息传播｜周四直播·复杂系统自动建模读书会第二季

昆虫也有意识吗？昆虫脑的复杂性与意识的进化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

分析约 7500 万篇论文揭示：人工智能如何更好地推动科学创新｜集智科学家最新成果

1. 人工智能给各个学科带来的直接与间接影响迅速增加

2. 大学对科研工作者在AI上的教育投入，可能已经滞后AI给科研的帮助

3. 人工智能的影响对女性和少数族裔研究人员有差别

4. 总结

1. 人工智能给各个学科带来的
直接与间接影响迅速增加

2. 大学对科研工作者在AI上的教育投入，
可能已经滞后AI给科研的帮助

3. 人工智能的影响
对女性和少数族裔研究人员有差别