新智元报道
新智元报道
【新智元导读】AI真是助力科研的神器,不光能用大模型提升写作效率,跟AI技术沾边的论文中顶刊的概率也会增加,升职速度也会提升;但对于科学界来说,大家都一股脑去研究AI,那些不能用AI的领域受到了冷落,最终导致整体科研多样性下降。
比如最近的研究成果,清华大学、芝加哥大学、Google的研究人员利用AI工具(模型性能F1值为0.876)分析了六大主要学科的6790万篇研究论文,结果发现,采用AI工具的科学家发表的论文数量增加了67.37%,获得的引用次数是未使用AI工具的科学家的3.16倍,并且还能提前4年成为团队领导者。
论文链接:https://arxiv.org/pdf/2412.07727
但凡事都有代价。
一旦打开「AI模型」的潘多拉魔盒,就代表研究人员不再广泛探索科学领域,而是专注于某个细小的课题,利用AI模型发表的论文大多都是在已有的、数据丰富的领域。
也就是说,大模型不会帮助科研人员创立一个新领域,虽然提高了个人的科研生产力,但却极大减少了整个科研集体的多样性和广泛参与度。
44年,6800万篇论文
通过深度强化学习改进的模型已经能够处理复杂的核聚变反应,并发现了新的、针对硬件优化的矩阵乘法形式,从而加速了深度学习本身的发展。
此外,大型语言模型可以非常出色地帮助科研人员修订和提炼论文写作,促进了发现结果的提炼和传播。
尽管在科研领域中,AI模型的参与度越来越高,但业界仍然没有对AI科学影响的大规模实证评估。
所以这篇论文的研究团队主要提出并回答一个问题:个体科研人员基于自身利益选择AI模型进行辅助,对整个科学界有何影响?
研究人员进行了一项大规模的定量分析,利用OpenAlex数据集中从1980年到2024年的1.09亿篇论文,选择其中六个学科(生物学、医学、化学、物理学、材料科学和地质学),涵盖了主要的自然科学学科,并特意排除掉计算机科学和工程学,以避免混入AI相关从业者的影响,最终得到约6800万篇论文。
然后利用BERT语言模型根据「标题」和「摘要」内容区分出论文中用到的技术是机器学习、某个深度学习架构,或者是基于Transformer的大模型。
研究人员采用两阶段的微调将预训练的BERT模型适应到论文识别任务:先分别基于论文的标题和摘要独立训练两个模型,再将两个优化后的个体模型集成起来,以识别所有选定的论文,无需人工选择与AI相关的触发词。
为了评估BERT模型识别的准确性,研究人员招募了一个专家团队来验证结果,在对六个重点学科中随机抽样的论文组进行独立标注时共识很高,平均Fleiss' Kappa值为0.960,把专家标注数据当作金标准进行评估时,得到的F1分数为0.876,证明了模型的可靠性。
为了提高识别结果的可解释性,研究人员对输入标题和摘要时BERT模型最终层的平均注意力强度进行可视化,比如在分析一篇AI辅助的化学论文时,模型对「人工智能」和「深度神经网络」等术语分配了非常高的注意力权重,并且识别出的AI论文基本上都是「人工智能」和跨学科传统研究主题的结合,说明了模型如何正确解释并准确识别与AI相关的内容。
最终识别出107万篇AI辅助论文,大约占论文总数的1.57%,并且可以观察到所有学科采纳AI的趋势都在上升,AI论文和采纳AI的研究人员比例都有显著增加。
尽管各个学科每年发表的论文数量总体上升,但从1980年到2024年,AI论文的份额在地质学中增长了21.39倍,在材料科学中增长了241.36倍;同样,采纳AI的研究人员比例增长得更快,从地质学的42.36倍增长到物理学的307.40倍。
研究人员将过去几十年的AI发展划分为机器学习(ML)、深度学习(DL)和大型语言模型(LLM)时代,三个时代的增长率逐渐加快,可以看出AI在科学中的普及率不断提高,以及理解AI对科学研究和进步影响的重要性。
AI是职业生涯加速器
此外,研究人员还检查了AI辅助论文在不同期刊引用报告(JCR)分位数中的分布,结果发现,在Q1期刊中,AI论文的比例比所有期刊中的非AI论文高出18.60%;在Q2期刊中,AI论文的比例仅高出1.59%,而Q3和Q4期刊中包含AI的论文比例相对较低。
结果表明,AI辅助论文在期刊中的分布不均,且在高影响力期刊中更为普遍。
AI论文逐渐受到重视,AI研究人员的影响力也大幅增加,平均来看,采用AI的研究人员每年发表的论文数量比不使用AI的研究人员多出67.37%,获得的引用次数则是后者的3.16倍,这一趋势在各个学科中都有体现。
为了研究采用AI对职业发展的影响,文中将科研人员分为「初级」(尚未领导研究团队)和「资深」(已经领导过团队)两类,并从数据集中提取了351万条职业轨迹。
分析显示,AI研究会导致团队规模的缩小,平均每个研究团队少了1.5名科研人员,具体来说,初级科研人员的平均人数从非AI团队的2.31人减少到AI团队的1.47人(减少了36.45%),而资深科研人员的人数从4.14人减少到3.48人(减少了15.95%)。
在所有学科中,采用AI的初级科学家转变为资深科学家的概率为49.92%,比不采用AI的同行高出32.01%,表明AI为初级科学家提供了更多领导研究团队的机会,并降低了离开学术界的概率,从而促使了他们从初级到资深科学家的职业转变。
为了进一步量化这一效应,研究人员采用生死模型,并根据科学家的职业轨迹拟合模型参数λ,结果发现,采用AI的初级科学家成为资深科学家的预期时间比同行大约缩短了四年;采用AI的初级科学家的转变时间期望值为6.84年,而不采用AI的为10.90年。
进一步分析显示,这种缩短升职时间的现象在所有学科中都是普遍存在的,并且在各个学科中,参与AI论文的资深科学家平均年龄比非AI论文的资深科学家年轻。
科学探索范围收缩
为了评估AI如何影响整个科学领域研究的前沿,研究人员设计了一种测量方法来描述一组研究论文所代表的「学术关注广度」。
具体来说,先使用在大量科学文献预训练的文本嵌入模型SPECTER 2.0,在给定每个领域中同样大小的样本量来计算代表AI和非AI论文的主题覆盖范围;与传统研究相比,AI研究使整个科学的集体知识广度缩小了4.96%,并且该效应在六个学科中都是一致的。
此外,当将学科细分为200多个子领域时,可以观察到超过70%的子领域的知识广度出现了收缩;当比较AI和非AI研究在每个领域知识分布的熵时,结果表明AI研究的知识分布熵明显更低,表明人们越来越关注特定问题,而不是整个领域。
也就是说,个体和集体之间采用AI的动机存在冲突和矛盾:科研人员获得了更多的个人影响力,但整个科学领域知识的范围却缩小了,只是将注意力集中在最适合AI研究的领域,例如那些数据丰富的领域。
尽管AI可能为科学家个人带来了好处,但可能也会使科学作为一个整体的探索范围变得更加狭窄。
AI研究一窝蜂,创新冗余
首先检查单个论文的「引用家族」(citation families)的知识空间特征,即一篇原创论文及其所有后续引用,结果显示,与非AI论文相比,单个AI论文的引用家族的知识空间更为多样性,因此,领域知识空间的缩小并不是由于在AI与非AI研究基础上构建的论文范围的缩小所致。
之后,研究人员通过测量后续论文参与度的程度来考察论文之间的关系,即同一原创论文的引用之间相互引用的频率,结果表明,AI研究产生的后续参与度比非AI研究少了24.40%,表明AI论文更倾向于扩展原创论文,而不是在彼此之间形成互动,而互动恰恰是促进新兴领域的关键要素。
在不同领域中AI论文引用的马太效应中也发现了这种集中的进一步证据:在AI研究中,少数超级明星论文主导了该领域,大约20%的顶级论文获得了80%的引用,50%的论文获得了95%的引用,这种不平等的分布导致了AI研究引用模式的基尼系数为0.753,高于非AI论文的0.684,表明认可度的不平等正在增加。
最后,研究人员还检查了引用同一原始工作的论文对在向量空间中的距离,区分出相互引用的论文,结果发现,科学界的AI更加集中于特定的热门话题,导致了更多的重复想法和冗余创新,与科学知识范围和多样性的缩小有关。