如何利用数据提高论文影响力？三万篇论文揭示数据中的重组理论

学术 2024-10-31 22:01 北京

导语

重组理论揭示了多样性（不寻常组合）与科学进步之间的潜在关系，指出对于知识的非常规组合，例如结合来自不同领域的两项高影响力发现，可以促进新的发现和科学突破。那这一理论对于数据而言是否有效呢？近期发表在PNAS上的一项研究揭示了非典型数据集组合在科学影响力中的关键作用。研究表明，在科学界和公众传播中，使用不常见数据集组合的论文通常更具影响力，而且即使数据集并没有带来创新性的主题组合，这种高影响力依然存在。研究还揭示了规模较小、经验较少的研究团队更可能使用非典型的数据集组合。这些发现为科学创新引入了重要的数据视角，这对于研究人员与数据管理者都有重要启发。

本周六（11月2日）晚的「面向未来的科学学」读书会邀请到论文一作、密歇根大学博士生喻宇琳，解读这项 PNAS 最新研究。欢迎感兴趣的朋友关注，详情见文末。

关键词：数据使用，重组理论，科学学，计算社会科学

侯煜欣 | 解读作者

论文题目：
Does the Use of Unusual Combinations of Datasets Contribute to Greater Scientific Impact?
论文链接：
https://www.pnas.org/doi/10.1073/pnas.2402802121

数据对于科学和经济进步至关重要。最近十年，学术界、工业界和社会都在努力生产和公开数据集，而数据共享和管理平台也日趋完善，这使得研究者有机会使用越来越多的公开数据集。那这些数据集将会如何影响科学创新呢？重组理论（Recombination）指出了知识的不寻常组合可以导致新的发现和科学突破，这一理论是否也可以应用于科学研究中的数据集使用上呢？

在这项发表于PNAS的研究中，研究者使用大学政治和社会研究联盟 (ICPSR) 的数据来识别研究与数据集之间的引用关系，使用OpenAlex和Altmetric识别过去十年中研究论文在新闻和社交媒体等在线平台上的引用和提及数据，并编制了一个综合数据集，数据集包含了利用超过5,000个不同数据集的30,000多篇论文。基于这一数据集，研究者系统探讨了数据集组合与科学创新的关系。有趣的是，研究结果表明，数据集组合，尤其是非典型的数据集组合，可以显著促进科学研究的影响力。此外，研究还发现，规模较小且经验较少的研究团队会更频繁地在研究中使用非典型的数据集组合。

1. 多个数据集的使用与高影响力相关

探讨数据集组合的策略有一个前提，即论文使用了多个数据集。因此，研究者先针对使用多个数据集如何影响文章影响力进行了分析。

该项分析的结果变量是论文的影响力，研究者将其定义为论文在发表后固定年份（3年、5年、10年）获得的引用次数。由于「引用次数」这一结果变量呈现出长尾分布，此处采用负二项回归来建模引用次数与使用多个数据集之间的关系。自变量是一个二元变量，标记了一篇论文是否使用多个数据集（在数据集中，有30,479篇论文仅使用一个数据集，有8,836篇论文使用了多个数据集）。该分析还控制了数据集的使用频率（可能表明该数据集于热门主题的相关性或科学价值）、团队规模、团队经验、学科、发表时间、期刊影响因子等变量。

分析结果如图1所示。从图中可以看到，使用多个数据集的论文相比使用单一数据集的论文，其论文引用次数显著增加（p<0.001），在论文发表后3年、5年、10年其引用次数分别高17.1%、15.2%、14.0%。图1右上角的图显示了在不同时段分析的结果，可以看到，除了在1900年前后（数据较为稀疏）的其他时间段，上述结论均保持显著和一致。

图1 数据集组合对不同时间段引用量的影响效应（基于负二项回归，已标记95%置信区间）

作者使用两种方法对于上述结果进行了稳健型检验。（1）进行回归分析，将“是否使用多个数据集”这一二元变量转为“论文中使用的数据集数量”这一连续变量，结果表明，论文每多使用一个数据集，在发表后3年、5年、10年的引用量分别会高1.4%、1.0%和0.8%。（2）使用无模型稳健型检验，对于使用多个数据集与单个数据集的两组论文进行匹配，并比较匹配后两组论文的引用次数，结果与前面的结论保持一致。

2. 非典型数据集组合与高影响力相关

同样使用了多个数据集的论文，其数据集的组合也可能存在不同策略。研究者进一步讨论了「非典型数据集组合」（atypical combinations of datasets）对于研究影响力的关系。

论文数据集组合的非典型性由Rao-Stirling指数评估得出。Rao-Stirling是一个在生态学、信息科学、科学学等领域广泛应用等非典型性度量方法。在本文中，如果一篇论文使用的多个数据集被共引次数较少，则会得到一个较高的Rao-Stirling指数，代表着更高的非典型性（具体计算方式如图2C所示）。当前数据集中，Rao-Stirling指数从0.25到0.92不等，该指数被用作后续分析的自变量。

研究者使用固定效应负二项回归针对至少使用两个数据集的8,836篇论文进行了分析。分析的因变量是论文发表3年后的被引用量。控制变量包括团队规模、团队经验、期刊影响因子、学科、发表时间、平均数据使用频率，以及论文使用的数据集数量。此外，研究者还控制了论文引用期刊组合的非典型性（论文的新颖性）。

图2A呈现了负二项回归的结果，可以看到控制了所有的控制变量（对应图中Full Control）之后，使用非典型数据集组合的论文仍然会显著获得更高的引用量（p<0.001）。数据集组合的非典型性每增加1个标准差（Rao-Stirling指数增加0.13），论文在发表3年后的引用量会增加18.4%。这一结果在不同的引用时间窗口和不同的时间段保持稳健。

研究者进一步分析了非典型数据集组合的使用是否会影响论文更广泛的影响力——在线传播的影响力，包括在知识平台（如Wikipedia）、政策文件、社交媒体（如Twitter）、新闻平台上的传播。如图2B所示，可以看到使用非典型数据集组合的论文拥有更高的在线传播影响力，数据集组合的非典型性每增加1个标准差，论文的Wikipedia的提及次数增加76.0%，Twitter的提及次数增加68.2%，政策提及次数增加44.6%，新闻提及次数增加9%。

图2 非典型数据集组合对引用率和传播范围的影响

3. 非典型数据集组合的高影响力
是来自其独特的主题吗？

但是，现有的分析还面临着另一种解释——非典型数据集组合具有更高的影响力，也许是因为这部分论文组合了具有不同主题的数据集，从而可以探讨一些新的主题，而不仅仅是因为非典型的数据集组合。为了讨论这两种解释，研究者分析了非典型数据集主题组合对科学影响力的作用。

ICPSR的数据集有一套由专家定义的主题，例如“美国生活成本”这一数据集包括了“消费者”、“生活成本”、“经济指标”、“支出”、“家庭”、“住户”、“收入”、“城市人口”和“工人阶级”等主题。这使得当前这项分析成为可能。基于这一数据，研究者使用Rao-Stirling指数来衡量论文使用数据集的主题的非典型性，其定义与数据集组合的非典型性类似，由主题组合的公现频率决定，具体测量方式如图3A所示。

图3B显示了主题组合非典型性（上）和数据集组合非典型性（下）的回归结果，其中数据集组合非典型性的分析控制了主题组合非典型性这一变量。可以看到，在控制了主题组合的非典型性之后，使用非典型性数据集组合的论文依然在发表3年、5年、10年后拥有显著更高的引用量，且这一结论在各种模型设置下保持稳健。而使用非典型性主题组合的论文的引用量也呈现小幅度增高，但是在控制了论文是否是引用量最多的前5%时，这一结果并不显著。

基于上述结果可以得到亮点结论：（1）非典型数据集组合的使用对论文引用量的影响占据主导地位，这一正向影响不受到数据集主题组合的特性影响。（2）数据集主题组合的非典型性只对论文引用量有轻微的正向影响。

图3 数据集组合与主题组合的非典型性对引用率影响的比较分析

4. 哪些研究团队会结合非典型数据集？

研究者最后想回答的问题是，什么样的研究团队会更有可能使用非典型的数据集组合？在这一部分，研究者讨论了团队规模和团队经验两个属性的影响，这两个属性在先前的研究也被证明与创造力和创新有关。图4呈现了这一部分的分析结果，包括团队规模对于使用多个数据集的影响（A）、团队规模对于使用非典型数据集组合的影响（B），以及团队经验的相应影响（C、D）。

从分析结果可以看到，更大规模的团队倾向于在研究中使用多个数据集，但是使用非典型数据集组合的却往往是小规模的团队，此外，经验更少的团队也更倾向于使用非典型数据集。

图4 团队规模与经验对数据集组合及非典型数据集组合的影响

-活动预告-

面向未来的科学学读书会招募中

科学是研究实践、是理性精神，也是一个由学者、文献、科研项目、科学思想与灵感等一起构成的自组织、自生长的复杂系统。科学学这门学科，旨在深入理解科学研究的种种因素并推动科学发展。科学的迅猛发展在积累科学知识的同时，也遭遇诸多社会、伦理、政策问题：开放科学的范式如何影响科学研究的实践？阶层、性别、种族、国家等视角如何揭示科学不平等的起源？期刊编辑和审稿人如何塑造当今的科学活动？科学人口结构、人才激励、科技人才流动如何影响科学发展？AI大模型如何重塑科学研究的各个环节？

为了思考和回应科学的多元化挑战、科学开放性面临的危机，以及新兴技术对科学的冲击，集智俱乐部联合美国匹兹堡大学博士后崔浩川、东南大学副研究员孙烨、田纳西大学信息学院助理教授李恺、纽约大学阿布扎比分校博士研究生刘逢源、南京大学地理与海洋科学学院研究员古恒宇，共同发起「面向未来的科学学读书会」，这是继「复杂系统下的科学学读书会」之后的新一季科学学读书会。读书会从2024年8月25日开始，每周六晚19:00-21:00，持续时间预计8-10周。欢迎感兴趣的朋友报名参与！

详情请见：面向未来的科学学读书会：探索开放科学范式，揭示科学不平等的起源

推荐阅读

1. 分析约 7500 万篇论文揭示：人工智能如何更好地推动科学创新｜集智科学家最新成果

2. PNAS：数以亿计的论文，正在成为科学创新的阻力

3. AI 技术突飞猛进时代，如何推动科学创新？科学学给科学的启示

4. 张江：第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

5. 龙年大运起，学习正当时！解锁集智全站内容，开启新年学习计划

6. 加入集智，一起复杂！

点击“阅读原文”，报名读书会

http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247700867&idx=1&sn=ac7b53a1d1ab9153417b0e01fb31bf91

集智俱乐部

关注复杂科学与人工智能的前沿进展、书籍资料、工具文献、交叉前沿等，同时也发布集智俱乐部、集智学园举办的各类讲座、课程等活动相关信息。

最新文章

Nat. Commun. 速递：深度学习预测复杂网络系统韧性

双十一限时特惠！加入集智学园VIP，一次性解锁集智平台所有内容资源

AlphaFold3开源了，诺奖AI工具人人可用，开启生物分子设计新时代

上智院与集智科学研究中心等联合发布“科学智能十大前沿观察”：探索“AI爱因斯坦”的无限可能

生物启发的神经形态AI——从昆虫到微型自主无人机丨周三直播·昆虫智能与AI读书会

基于多尺度建模的机器学习正反问题求解｜周四分享·复杂系统自动建模读书会第二季

混沌、吸引子、分形：复杂非线性系统的多稳定性与不可预测性

PRX Life 进展：细胞状态转化中基因调控网络的动力学研究

大模型2.0读书会：融合学习与推理的大模型新范式！

“双11”共议AI Science“双螺旋引擎”！2024科学智能创新论坛议程和嘉宾阵容公布

科普讲座：涌现、因果与人工智能｜集智进校园·香港浸会大学

科学学视角下 AI 对 Science 的影响丨面向未来的科学学读书会

11.11一年一次限时特惠！加入集智学园VIP，一次性解锁集智平台所有内容资源

阻塞相变：无序体系的一阶相变

圆桌讨论：当 AI 遇见细胞复杂系统｜周二直播·生命复杂性读书会

3D视觉运动计算与应用——从昆虫到机器人丨周三直播·昆虫智能与AI读书会

当复杂科学遇见地球系统：气候网络、复杂性与人工智能

长序列预测 & 时空预测万字长文：一文带你探索多元时间序列预测的研究进展！

冯·诺依曼的遗产：寻找人工生命的理论根源

海量时空数据如何改进 POI 推荐系统？对模型、架构与安全的全面综述

如何创造出超越人工智能的生命系统？从自复制自动机到人工生命丨周日直播·《一种新科学》读书会

如何利用数据提高论文影响力？三万篇论文揭示数据中的重组理论

前沿进展：通过层次结构信息和分子动力学模拟发现高活性肽

整合信息指标 Φ 的近似计算｜周六直播·整合信息论读书会

一作解读：数据中的重组理论如何促进科学影响力丨面向未来的科学学读书会

复杂系统的可解释性动力学推断和临界点预测｜周四直播·复杂系统自动建模读书会第二季

社会性昆虫的行为与群体智能丨周三直播·昆虫智能与AI读书会

时空数据的复杂疾病算法研究和临床应用｜周二直播·生命复杂性读书会

诺奖之后，物理学不存在了？——集智科学家解读2024年诺贝尔奖｜周六直播

整合信息论基础理论：IIT4.0 深入研读｜周日直播·整合信息论读书会

爱因斯坦和固体量子论：还原与演生的两条道路

你和ChatGPT理解语言的方式一样吗？从表征对齐角度比较人工神经网络与生物大脑

诺贝尔物理学奖为何颁给机器学习？Physics for AI 综述介绍

科学计算中的符号回归方法｜周四直播·复杂系统自动建模读书会第二季

简单生物如何形成复杂认知？昆虫智能启发群体智能与集群机器人

学术会议预告｜北京邮电大学第五届“系统论、信息论、博弈论”三论融合学术会议

从结合模型与推理的昆虫神经机制研究到轻量化智能算法设计丨周三直播·昆虫智能与AI读书会

扩散模型与演化算法的隐秘联系

Nat. Commun.速递：多任务神经网络预测多体量子态物理性质

信息整合的统一框架：基于信息几何的视角｜周六直播·整合信息论读书会

寻找机器学习的“热力学”：临界相变如何启发机器学习研究？

南京线下：科学学视角的科技劳动力老龄化丨科学学读书会

注册延长！第九届国际认知神经动力学大会 (9th ICCN2024)

分析约 7500 万篇论文揭示：人工智能如何更好地推动科学创新｜集智科学家最新成果

《城市规模法则》：城市研究和空间科学中的异速生长｜新书速递

复杂社会建模与推演：城市应急管理与智能信息传播｜周四直播·复杂系统自动建模读书会第二季

昆虫也有意识吗？昆虫脑的复杂性与意识的进化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

如何利用数据提高论文影响力？三万篇论文揭示数据中的重组理论

1. 多个数据集的使用与高影响力相关

2. 非典型数据集组合与高影响力相关

3. 非典型数据集组合的高影响力是来自其独特的主题吗？

4. 哪些研究团队会结合非典型数据集？

3. 非典型数据集组合的高影响力
是来自其独特的主题吗？