图 | The Internet
论文出处
Yang, A. J., Yan, X., Hu, H., Hu, H., Kong, J., & Deng, S. (2024). Are disruptive papers more likely to impact technology and society?[J/OL]. Journal of the Association for Information Science and Technology, 1–17. https://doi.org/10.1002/asi.24947
研究简介
根据托马斯-库恩的范式变革理论,科学的进步往往萌芽于违背现行范式的反常现象,颠覆性的新概念通过挑战既定的范式成为科学进步的基石。这些科学概念从根本上偏离了先前的状态,例如,阿尔伯特-爱因斯坦的相对论彻底改变了传统的科学框架,沃森和克里克发现的DNA双螺旋结构从根本上重塑了对生命本质的认识。这些颠覆性的科学研究都成功地颠覆了既有范式,并提出了新的范式,体现了颠覆性创新的本质。
在引文网络中,颠覆性的论文往往导致了局部网络结构的中断和再生。基于这种范式变革理论以及对创新的测度需求,Funk 和 Owen Smith提出了CD指数,得以区分科学领域的渐进式进步和颠覆性创新。虽然颠覆性科学的测度模型和相关概念迅速引发了学界的关注和思考,但颠覆性科学本身与技术产业进步和社会影响之间的复杂关系仍然是一个尚未得到充分探索的重要主题。
本文通过融合多个大规模数据集,首次系统性地探索了颠覆性科学对技术产业进步和社会影响的直接作用。本文重点考虑了四类技术领域和社会领域情境下的科学影响:(1)专利发明中引用的科学论文,(2)药物临床试验中引用的科学论文,(3)权威新闻媒体中引用的科学论文,以及(4)在社交媒体传播的科学论文。运用固定效应逻辑回归分析模型,本文提供了颠覆性科学对技术产业进步和社会影响的全面视角,并探讨了在不同情境、不同科学领域和不同年份下的异质性。
CD指数测度了多大程度上未来的引用认可了其原创性或继承性,除了使用CD指数测度论文的颠覆性(比例)程度外,本文还提出了颠覆性被引量这一概念,以直接测度论文的颠覆性影响大小。基于本文的分析结果,CD指数和颠覆性被引量这两个指标对科学论文的技术社会影响产生了截然相反的效应:更高的颠覆性被引量显著提升了科学论文的技术社会影响概率,而更高的CD指数则显著抑制了科学论文的技术社会影响概率。本文的结论有助于理解不同类型科学创新的公共效用,并提供对CD指数本身测度局限的细微思考。
数据框架
理解科学、技术和社会之间的复杂相互作用至关重要,然而,系统地分析相关机制在数据上和方法上都充满了挑战。近年来,在科学学(Science of science)领域,科学家和一些企业陆续公开了许多高质量的大规模数据集,使得对于科学、技术和社会的大规模分析得以实现。本文以微软学术图谱(MAG)数据集作为基准数据,筛选出了发表于1950年至2020年的近4000万篇期刊论文,涵盖了MAG中全部19个领域和近4万种期刊。在此基础上,本文重点考虑了四类技术领域和社会领域情境下的科学影响:(1)专利发明中引用的科学论文,(2)药物临床试验中引用的科学论文,(3)权威新闻媒体中引用的科学论文,以及(4)在社交媒体传播的科学论文。数据框架如图1所示。
图1 数据框架
第一类涉及获得专利发明引用的科学研究。将科学知识转化为市场中的实际应用一直是科学和创新文献的重点。关于专利活动的强大数据集,包括关于专利受让人、发明人、法律方面、内部引用和全文信息的详细元数据,可以从美国专利商标局、PatentsView和欧洲专利局等可信来源获取。论文-专利引用是科学向技术转移知识的桥梁。本文使用了Marx等构建的“Reliance on Science”大规模数据集来研究科学论文在专利发明中的认可。
第二类涉及纳入药物临床试验的科学研究。在生物医学研究中,理解从实验室设置到临床应用的知识转化至关重要。由ClinicalTrials.gov等平台提供了公开的临床研究记录,包括汇编药物、法规、出版物等信息的全面数据。本文通过SciSciNet数据集中提供的临床链接数据来研究科学论文在药物临床试验的应用。
第三类和第四类分别涉及在权威新闻媒体中报道的科学研究和通过社交媒体传播的科学研究。研究科学论文在新闻媒体中的提及通常反映了科学论文对于社会大众的影响,而推特(X)等社交媒体则建立了科学与用户之间的联系,提供了科学家或大众对于科学讨论的途径。本文通过结合Crossref中的论文被新闻媒体或推特引用数据,以及SciSciNet数据集中提供的新闻媒体或推特引用数据来研究科学论文对社会的影响。
方法与指标
1 CD指数
Funk和Owen-Smith提出的CD指数基于引用网络中的结构特征测度论文的颠覆性,定义为:
其中,
及其参考文献的引文数量,
2 颠覆性被引量
CD指数测度了论文未来的颠覆性被引量相对于总被引量的相对比例,但它在很多情况下都表现出测度局限和评价偏见。为此,本文进一步提出了颠覆性被引量这一指标以衡量科学论文的颠覆性影响大小,从而平衡其局限。如图2d所示,颠覆性被引量定义为未来引用该论文而不引用其参考文献的引文数量:
颠覆性被引量呈现出明显的幂律分布特征(图2e),类似于很多经典的网络指标(例如degree、PageRank等)。重要的是,颠覆性被引量一定程度上解决了论文参考文献数量对CD指数的影响,从而避免了由引用行为带来的测度偏差。此外,幂律分布特征体现了长尾分布和广泛的值域,从而能实现对高低颠覆性影响论文的细粒度区分。
图2 CD指数与颠覆性被引量
3 回归模型与控制变量
为了评估颠覆性研究在推动技术和社会进步方面的潜力,通过其与专利、临床试验、新闻报道和社交媒体传播的关联来体现,本文采用了逻辑回归模型。这一方法有助于估计CD指数对科学论文被这些不同来源引用的可能性的影响。
为控制领域、年份、和期刊的异质性影响,本文在回归模型中纳入了三层固定效应:基于MAG 292个二级领域来控制领域异质性,基于39893种期刊来出版渠道异质性,基于71个年份固定效应来控制时间异质性。此外,为了减轻团队因素的干扰效应,本文加入了团队规模、团队成员跨学科性、跨国合作等变量作为控制变量。进一步地,本文还考虑了基金资助、参考文献数量和参考文献跨学科性等控制变量。
研究结果
1 描述性统计
图3揭示了科学融入技术和社会领域的趋势和分布。在本文的数据集中,与技术和社会关联的论文数量相对稀少,只有9.48%的论文被专利直接引用,0.77%的论文被临床试验直接引用,0.55%的论文被新闻直接引用,6.14%被推特直接引用。从时间趋势来看,科学的技术和社会影响规模和概率总体呈现增长趋势,然而与专利和临床试验相关的论文比例在近十年略有下降,这一现象可能源于两个可能因素:数据集中近期的相关引用链接覆盖不足;论文通过技术在专利和临床试验中获得认可所需的时间较长。
图3 科学论文的技术/社会影响分布
本文首先基于CD指数的正负值(CD指数为正表示该论文获得的颠覆性被引量多于巩固性被引量)将论文分为两类,进行双尾T检验,如表1所示。结果表明,CD指数大于零的论文不仅体现出较低的技术和社会影响,并且其被引量也更少。此外,CD指数大于零的论文更可能是非资助的小团队,体现出更低的跨学科性。这些结果强调了CD指数的潜在偏见。
表1 双尾T检验
2 逻辑回归分析
基于固定效应逻辑回归分析,本文发现CD指数与论文被专利或临床试验引用的概率呈现显著的负相关性。此外,CD指数对论文被新闻或社交媒体引用的概率也同样呈现显著的负相关性。然而,本文发现颠覆性被引量与论文被专利或临床试验引用的概率呈现显著的正相关性。此外,颠覆性被引量对论文被新闻或社交媒体引用的概率也同样呈现显著的正相关性。这些结果在不同的模型设定下均显著且一致,表明CD指数越高并不意味着论文更可能会有技术和社会领域的影响,但颠覆性被引量越高的论文则有更大的概率被技术和社会领域所认可。
3 异质性分析
本文在图4a中展示了逐年分样本分析的结果,控制了其他干扰因素。2000年之前的论文中,CD指数与论文的技术/社会影响基本呈现出显著的正相关性,这表明在早期没有对颠覆性创新的明显偏见。然而,在过去的二十年里,CD指数与论文的技术/社会影响的负相关性逐渐明显。2000年至2010年之间的过渡点显现出从正效应到负效应的转变。相对于历史的论文,近期年份的样本量明显更多,从而呈现出总体的负相关性。在图4b中,本文对19个不同领域进行分样本回归,结果发现CD指数与论文的技术/社会影响主要在STEM领域呈现出显著的负相关性。
图4 CD指数与科学论文的技术/社会影响的关系异质性
本文进一步分析了不同年份和不同领域下颠覆性被引量与论文的技术/社会影响的关系异质性,如图5所示。结果表明颠覆性被引量与论文的技术/社会影响的正相关性在所有年份和所有领域均显著且一致。这体现出颠覆性影响更大的论文在任何情境下都更可能有更大的技术和社会影响。
图5 颠覆性被引量与科学论文的技术/社会影响的关系异质性
4 稳健性分析
本文使用mCD指数作为颠覆性被引量的替代指标,以衡量论文的颠覆性影响大小,结果表明其与科学论文的技术/社会影响也显示出显著的正相关性。考虑到颠覆性被引量代表总被引量的一部分,在回归模型中引入了总引用作为控制变量,结果表明,即使在控制了总被引量后,颠覆性被引量与科学论文的技术/社会影响仍然呈现出显著的正相关性。
采用5年和10年的时间窗口,CD指数与科学论文的技术/社会影响的关系在部分模型设定下变为正,这可能与科学论文的动态颠覆性影响分布相关。相比之下,即使采用5年和10年的时间窗口,颠覆性被引量与科学论文的技术/社会影响仍然呈现出显著的正相关性。
作者简介|PROFILE
杨杰
南京大学2022级博士研究生。曾获ISSI尤金-加菲尔德博士奖荣誉提名、国家奖学金、中国科协征文三等奖等荣誉。研究成果以第一作者身份发表于JASIST、IPM、QSS、JOI、SCIM、JIS、《情报学报》、《图书情报工作》等期刊。
闫晓慧
南京大学博士。主要研究方向为信息计量与科学评价。研究成果发表于JASIST、《情报学报》、《图书情报工作》等期刊。
胡昊天
南京大学博士,江苏省农业科学院农业信息研究所助理研究员。主要研究方向为文本挖掘、知识组织、科学计量等。主持省部级项目1项,发表论文20余篇。
胡汗林
南京大学2022级硕士研究生。主要研究方向为知识图谱、信息计量学。研究成果发表于JASIST、《数据分析与知识发现》、《数字图书馆论坛》等期刊。
孔嘉
南京大学博士,贵州财经大学信息学院讲师。主要研究领域为技术创新与知识管理。研究成果发表于JASIST、JOI、《情报学报》等期刊。
邓三鸿
南京大学教授,博士生导师,信息管理学院副院长,江苏省国际信息学联合实验室执行主任,江苏省数据工程与知识服务重点实验室办公室主任。
往期 · 推荐
▲点击访问信息资源管理学报小程序
制版编辑 | 周凡倩
审核 | 于媛
长按识别二维码关注我们
信息资源管理学报
分享、在看与点赞
只要你点,我们就是朋友😊