国际优秀论文荐读 | 利用三维框架探测新兴主题弱信号

学术   科学   2024-07-06 12:31   重庆  

图 | The Internet


论文出处

Ma M, Mao J, Li G. Discovering weak signals of emerging topics with a triple-dimensional framework[J]. Information Processing & Management, 2024, 61(5): 103793. DOI: https://doi.org/10.1016/j.ipm.2024.103793.


一、研究简介

      在科学与技术领域,及时探测到新兴主题的早期阶段是推动创新和预见未来的关键。传统的预测方法虽然在一定程度上能够捕捉到新兴主题的早期信号,但通常依赖于显著的数据模式和历史趋势,难以在主题发展的早期阶段进行有效预测。同时,已有方法缺乏对新兴主题不同特征综合影响的研究,因而难以处理和捕捉大规模数据集中隐藏的、细微的初始变化,导致对新兴领域的洞察不够及时和准确。

      在新兴主题研究中,弱信号被视为新兴主题的早期阶段,具体可见性、扩散性和影响力特征。通过整合弱信号的可见性、扩散性和影响力,研究能够更全面地评估弱信号的潜在影响力和发展趋势,从而在科技创新和政策制定中提供更为准确的前瞻性信息。新颖性作为新兴主题的基本特征之一,在研究过程中同样不可忽视,具有新颖性的弱信号通常更具创新发展的潜力。

      为此,本研究提出了一种融合了弱信号的可见性、扩散性和影响力,并将弱信号的新颖性作为分析重点嵌入到多维特征中的创新性三维分析框架。本研究首先构建关键词引用网络,基于网络结构变化识别具有新颖性的信号集合。然后,对具有时间加权属性的信号的可见度和扩散度进行时序分析识别弱信号,并考虑弱信号的社会影响,利用替代计量指标从公众感知的角度量化弱信号的影响力。最后,从信号的可见度、扩散度以及影响力等三个维度构建新兴主题弱信号评估框架。研究以基因编辑为实证领域进行了方法实验与对比分析,结果验证了方法的有效性和先进性。

      实验结果表明,本研究所提方法在预测新兴话题的潜力方面更为准确,而且能够增强在早期阶段识别新兴主题并掌握其发展趋势的能力。尤其是社会影响力指标的运用使得方法能够更好地捕捉到可能对社会产生显著影响的科技前沿。方法强调了科技创新和应用的重要性,与传统的侧重于学术影响力的方法形成了鲜明对比,从而能够更全面地评估新兴主题对社会的潜在贡献和影响。


二、研究框架

弱信号是尚未得到广泛认可和发展的新兴主题。本文基于科学论文,构建识别领域弱信号的任务流程,所识别的弱信号可以用作未来新兴主题的早期表征。研究包括三个主要步骤,关键词引用网络构建、信号表示以及弱信号评估。方法框架如图1所示。

图1 方法框架


三、研究方法

1. 关键词引用网络构建

首先根据文献间的引用关系构建文献引用关系矩阵(C-R);其次,根据关键词与文献间的隶属关系,构建关键词引用关系矩阵(WC-WR);最后,分别以矩阵WC-WR中的行元素和列元素作为为关键词引用网络中的源节点和目标节点,构建关键词引用网络。网络构建过程并未考虑相同关键词间的引用,即网络中不存在自环。关键词引用网络构建方式见图2。

图2    关键词引用网络构建方式

2. 基于三元组的信号表示

      本研究将具有新颖性的关键词视为新兴主题的潜在弱信号集。新颖性通过关键词引用网络拓扑结构的变化进行衡量。对于网络拓扑结构,研究发现,将三元组作为网络基本结构研究时,透过三元组结构的变化有助于更好地解释网络发展原则与发生方式。然而,不同类型的三元组具有重要性差异,与随机网络相比,当三元组在真实网络中出现的频率更高时才具有显著意义,可被视为网络的基本结构。因此,本研究首先对具有显著意义的三元组进行了统计分析,识别符合基本网络结构特征的三元组。然后,通过比较相同类型的三元组在相邻时段的变化捕捉弱信号的新颖性。

      在计算统计显着性的过程中,通常使用过度表示、最小频率和最小偏差作为指标。具体见公式(1)-(3):

      过度表示:三元组在N个相似的随机网络中出现的平均频率高于其在真实网络中出现频率的概率;

      最少频次:限定了三元组的最少出现频次,确保识别结果具有统计分析意义;

      最小偏差:考虑了三元组在真实网络与随机网络中的频率差值,认为三元组在真实网络中的出现频次应远高于在随机网络中的出现频次

3. 弱信号评估

(1)可见性

以关键词在网络中的被引及引用频次,即利用节点度替代已有研究中的关键词出现频次,计算方式见公式(4):

上式中  表示关键词i在j时期的可见度,  表示关键词  在  时期关键词引用网络中的节点度,  表示  时期的文献总量。  表示时间权重,研究通常将其设置为0.05。  表示分析的时期数量。动态视角下,关键词  在  时期的可见度增长率可定义为:


(2)扩散性

以关键词所在文献的数量与总文献数量的比值作为关键词扩散度。该指标计算过程同样考虑了时间权重,计算方式见公式(6):

上式中  为关键词  在  时期的扩散度,  表示包含关键词  的文献数量。同样,关键词  在  时期的扩散度增长率可定义为:

(3)影响力

从替代计量学的角度,通过测度网络环境中的多方主体与相关研究成果间的交互数据,进而定量分析研究成果的社会影响力。



四、研究结果

(1)弱信号识别结果(2020-2022)

表1显示了按信号强度排名的前10个弱信号,为未来潜在的发展方向提供了见解。

表1 弱信号强度Top 10

(2)方法验证

本研究认为信号强度反映信号发展潜力,信号强度更高的弱信号更有可能演变为强信号。图3分别统计了2014-2016以及2017-2019时段的弱信号在演化为强信号与演化为其他类型信号时,两者在平均信号强度方面的差异。结果显示,在弱信号的演化过程中,演化为强信号的弱信号拥有最高的信号强度值。这一结果证实了本文的发现,即信号强度更高的弱信号更有可能演变为强信号。此外,研究发现数据噪音的信号强度要高于弱信号,这进一步表明弱信号的低感知力特性,其容易被外界噪音所掩盖。

图3 信号演化强度差异


五、方法对比

本研究提出了一个创新的三维分析框架来识别新兴主题的弱信号。该分析框架的改进在于三个方面。首先,与之前基于关键词的信号表示相比,我们的方法采用基于三元组的方法来表示信号。其次,作为弱信号的一个基本方面,新颖性已明确嵌入到分析框架中。第三,通过公众感知来衡量的弱信号的社会影响力。进一步,本研究将通过将本文所提框架与一些相关方法进行比较来讨论上述改进,以展示所提方法的优越性。

(1)基于节点的信号表示vs基于三元组的信号表示

表2列出了2020-2022年期间基于节点和基于三元组的信号表示方法识别出的弱信号数量。可发现,基于节点的表示方法总共识别出1152个信号,多于基于三元组的信号表示方法(935),因为后者对信号进行了进一步的过滤。此外,基于节点的方法主要识别的信号类型为Laten signal(低频低增长),而强信号、弱信号和Well signal(高频低增长)较少。相比之下,基于三元组的信号表示方法在识别强信号(高频高增长)和弱信号(低频高增长)方面表现出色。通过分析关键词引用网络结构的变化,基于三元组的信号表示方法表现出发现细微变化和偏差的能力,从而提高了其在噪声中识别弱信号的可靠性。

表2 基于节点的信号表示vs基于三元组的信号表示的信号识别结果

(2)新颖性的重要性

表3显示,与不考虑新颖性的方法相比,结合可见性、扩散性和新颖性的方法可以识别出更多的弱信号和强信号。根据转变为强信号的弱信号数量,可以看出,本研究所提方法有更高的概率(0.46)识别出那些会成长为强信号的弱信号。因此可得出结论,结合新颖性的方法不仅可以发现更多的强信号和弱信号,而且可以提高识别弱信号的准确性。

表3 不同方法弱信号识别结果

(3)学术影响力vs社会影响力

表4展示了不同方法识别出的2020-2022年期间的弱信号。通过咨询领域专家和文献研究,发现基于学术影响力的弱信号评估(第一种和第三种方法)涉及的内容侧重于传统研究方向中具有学术影响力的研究主题。相比之下,基于社会影响力的弱信号评估(第二种方法和本文所提方法)更侧重于识别具有重大潜在社会影响的领域,如病毒感染、疫情防控和全球粮食危机。两种评估方法之间的差异凸显了它们在识别和评估弱信号方面的不同。基于学术影响力的方法以传统学术研究领域为中心,优先考虑学科知识的进步和积累。而基于社会影响力的评估方法强调技术创新和应用,关注研究对解决社会问题的潜在贡献。

表4 基于学术影响力与基于社会影响力所识别出的Top 10弱信号



作者简介|PROFILE




马铭

南京大学数据管理创新研究中心2022级博士生,主要研究方向为科技预测、科技情报挖掘等,研究成果发表在Information Processing & Management、《图书情报工作》等国内外高水平学术期刊。

毛进

武汉大学信息管理学院副教授、博士生导师,入选第四届中国科协青年人才托举工程,湖北省“楚天学者”计划楚天学子和第一批湖北省联合培养博士后青年创新人才,获中国科学技术情报学会青年情报科学家奖,中国科学技术情报学会情报研究与咨询专委会秘书长、中国系统工程学会信息系统工程专业委员会CNAIS第六届理事、中国信息经济学会理事。主要研究方向为文本挖掘、科技大数据分析,主持国家自科基金面上项目和青年项目、博士后面上项目等多项,在SCI/SSCI期刊和国内核心期刊上发表论文80余篇。相关成果获2019-2020年度湖北省科技信息成果奖一等奖。

李纲

武汉大学信息管理学院教授,博士生导师,美国北德克萨斯大学“数字知识研究中心”任高级访问学者,教育部人文社科重点研究基地武汉大学信息资源研究中心主任,武汉大学学术委员会副主任,社会科学学部分委员会主任,国家技术转移中部中心首席科学家,长江学者特聘教授、武汉大学珞珈特聘教授、武汉大学珞珈杰出学者。主要研究方向为竞争情报、网络信息资源管理、大数据分析,先后主持承担国家社会科学基金重大项目“智慧城市应急决策情报体系建设研究”、国家自然科学基金重大项目课题“国家安全大数据集成与分析方法”、国家重点研发计划重点专项“长江中游城市群综合科技服务集成及应用示范”、教育部人文社会科学基地重大项目等重要科研项目,部分政策建议获国家领导人批示或政府部门采用。


往期 · 推荐

国际优秀论文荐读 | 探索科研合作:成本-收益视角

国际优秀论文荐读 |  学科领域巨刊的引用研究:谁受益,受益多少

国际优秀论文荐读 | 利用人类阅读过程中产生的认知信号增强微博关键词提取

国际优秀论文荐读 |  更早首次亮相对科学家的影响:来自国家自然科学基金青年科学基金的证据

国际优秀论文荐读 |  像人类一样感知:异构图中的结构因果模型学习

▲点击访问信息资源管理学报小程序


制版编辑 | 周凡倩

审核 | 于


长按识别二维码关注我们

信息资源管理学报

微信号

xxzyglxb


分享在看点赞

只要你点,我们就是朋友😊


信息资源管理学报
《信息资源管理学报》是武汉大学主办、武汉大学信息管理学院和武汉大学信息资源研究中心承办的学术类期刊。双月刊,CSSCI来源期刊、中国人文社会科学核心期刊、人大复印报刊资料重要转载来源期刊。
 最新文章