论文标题:HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction
作者:Qianyue Hao, Jingyang Fan, Fengli Xu∗, Jian Yuan, Yong Li∗
发表:38th Conference on Neural Information Processing Systems (NeurIPS 2024)
论文链接:https://arxiv.org/abs/2410.09112
代码链接:https://github.com/tsinghua-fib-lab/H-LM
导读
论文的引用网络能够帮助研究者追溯相关研究工作,而预测一篇新论文将引用哪些已有论文是一个重要的研究问题。然而,论文引用的作用存在显著差异,一些被引文章是新论文的核心理论基础,而另一些则只是在上下文中被简单提及。为细化此任务,我们将引文预测任务从简单的二分类问题提升为更细致的问题:区分核心引用、表层引用和非引用。区分这些作用需要更深入地理解论文之间的逻辑关系,而不仅仅是简单地对引文网络的边连接关系进行分析。为了解决这一问题,我们提出了HLM-Cite这一用于引文预测的混合语言模型工作流。HLM-Cite结合了文本嵌入模型和生成式大语言模型,利用微调、智能体工作流等方式,实现了揭示论文之间隐含的关系的效果。由此,我们将选集扩展到10万篇论文,远超现有方法所能处理的规模。在涵盖19个科学领域的数据集上评估中,HLM-Cite与现有最优方法相比性能提升了17.6%。
背景介绍
论文的引用网络是现代科学的重要基础结构,能够帮助研究者追溯、寻找相关研究工作。挖掘隐藏在论文引用网络的边上的信息,例如预测一篇新论文将引用哪些已有论文长期以来是一个被广泛研究的问题。然而,这一任务仍存在亟待解决的问题:论文引用的作用存在显著差异,一些被引文章起到新论文的基础知识支撑的作用,而另一些则只是在上下文中简单提及。为此,我们提出了核心引用(core citation)的新概念,根据引用网络中局部结构的关系,将被引文章分为核心引用与表层引用。统计结果表明,一篇论文与它的核心引用内容关联度更高,同时核心引用也在正文中被更多地提及。基于此概念,我们将引文预测任务从简单的二分类问题提升为更细致的问题:区分核心引用、表层引用和非引用。
图1 核心引用与表层引用
区分核心引用与表层引用需要更深入地理解论文之间的逻辑关系,而不是仅简单地对引文网络的边连接关系进行分析。随着具有文本推理能力的大型语言模型(LLMs)的出现,区分这些关系成为可能,但仍面临两大挑战。
(1)一篇新论文可能从大量已有论文中选择引用,而这些候选论文的文本总量远超LLM的上下文长度限制。
(2)论文间的逻辑关系通常是隐式的,直接提示LLM预测引用可能会导致结果主要基于表层文本相似性,而非所需的深层逻辑推理。
为了解决这一问题,我们提出了用于引文预测的混合语言模型工作流HLM-Cite(Hybrid Language Model workflow),在相关测试任务上取得了良好的性能。
模型方法
图2 HLM-Cite混合语言模型工作流
整体流程
为了从大规模候选集中高效预测核心引用,我们整合了嵌入模型和生成式语言模型的能力,形成了一种混合语言模型工作流(HLM-Cite)。如图2所示,HLM-Cite工作流包含两个主要模块,检索模块和排序模块。在给定查询和候选集(大小为)的情况下,我们首先调用检索模块,即一个经过微调的预训练文本嵌入模型。我们计算查询和候选集中每篇论文的嵌入向量,分别记为和 ,其中输入为论文标题和摘要的拼接文本。基于和中每个向量的内积,我们从 中检索出最有可能是的核心引用的篇论文,形成检索集。随后,我们在排序模块中采用LLM智能体对检索到的论文进行分析,并根据其作为核心引用的可能性对其进行排序,从而提高预测的准确性。最后,我们将排名最高的论文作为最终预测结果。
检索模块:文本嵌入模型的微调
我们在检索模块中采用了GTE-base预训练模型,该模型是大规模文本嵌入基准(MTEB)排行榜上的顶尖模型之一。GTE-base模型具有1.1亿参数,其初始化基于BERT,并通过多阶段对比学习任务进行训练,将输入文本嵌入到768维的密集向量中。我们冻结了GTE-base模型的前7层,仅微调后5层的参数。此前研究已经实证证明,这种设计能够在微调过程中降低计算消耗,同时保持良好的迁移能力。如上所述,表层引用(superficial citations)作为难负样本,增加了区分核心引用的难度。因此,我们没有直接将GTE-base模型应用于从表层引用和非引用中挑选核心引用的任务,而是设计了一种两阶段的课程微调策略(curriculum finetuning),以从简单到复杂逐步将通用语料模型适配到我们的特定任务中。
在第一阶段,我们通过一个分类任务对模型进行微调,仅区分核心引用与非引用,排除表层引用(即难负样本)的干扰。在这一阶段,我们为每条训练数据构造一个查询、一个核心引用以及大量非引用,并使用交叉熵损失函数(cross-entropy loss)来计算分类误差。在第二阶段,我们全面考虑了区分核心引用、表层引用和非引用的排序任务。在每条训练数据中包含一个查询及其多个核心引用、表层引用和非引用,并采用NeuralNDCG损失函数(NeuralNDCG loss function),即NDCG 的一种可微分近似,来衡量模型输出与真实排名之间的差异。在这两个阶段中,我们均使用批内负采样(in-batch negative sampling)为每个查询获取非引用,以降低嵌入计算成本。
排序模块:基于LLM的智能体工作流
为了提高核心引用预测的准确性,我们结合了LLM的文本推理能力,以校正上一阶段检索到的论文的核心引用可能性排名。我们设计的LLM智能排序模块由三个代理组成:分析器(analyzer)、决策器(decider)和指导器(guider)。这三个代理均由LLM驱动,并通过自然语言交流协同工作。
具体而言,给定查询论文及其从候选集中检索出的可能核心引用,首先由分析器负责分析检索集中每篇论文与查询论文之间的逻辑关系。接着,将分析结果输入决策器,由其生成修正后的核心引用可能性排名,得出最终预测结果。此外,我们设计了一个指导器,用于增强复杂推理。指导器在人类监督下生成单个示例(one-shot example),通过链式思维(CoT)方法支持分析器和决策器的推理工作。
实验结果
实验设定
我们在Microsoft Academic Graph (MAG) [15] 上进行实验,MAG包含了跨越19个主要科学领域的数亿篇研究论文,形成了一个庞大的引文网络。我们对该数据集进行遍历,筛选出1200万篇拥有丰富核心引用和表层引用的论文,并从中随机抽取45万篇查询论文,每篇查询论文随机抽取5个核心引用和5个表层引用。随后,我们将抽取的查询论文随机划分为训练集和测试集,比例为8:2。我们将科学领域分为自然科学(包括生物学、化学、计算机科学、工程学、环境科学、地理学、地质学、材料科学、数学、医学、物理学)和社会科学(包括艺术、商业、经济学、历史、哲学、政治学、心理学、社会学)。
表1 数据集统计
我们主要将方法与三类基线进行对比评估:简单的基于规则的方法、专为科学文本设计的语言模型(LMs)、以及用于通用任务的预训练语言模型(LMs)。第一类:基于规则的方法;在这一类中,我们主要通过关键词重叠度来预测核心引用,即候选论文的关键词与查询论文的关键词重叠越多,越有可能是核心引用,这是一种简单的基于文本特征的启发式方法。第二类:专为科学文本设计的语言模型;这一类包括SciBERT、METAG、PATTON和 SciPATTON、SPECTER、SciNCL、SciMult。第三类:通用任务的预训练语言模型;BERT、GTE、OpenAI-embedding-ada-002、OpenAI-embedding-3。我们通过访问这些模型的现成预训练参数或API接口,来进行模型评估。如果有多个版本,我们会包括不同规模的版本进行对比。
总体性能
在评估中,我们为所有模型设置了大规模的候选集,令,,同时将检索集大小设置为。我们使用PREC@3/5和NDCG@3/5作为评估指标,评估结果表明,我们的方法在所有科学领域的所有指标上都显著超越了所有基线方法,其中PREC@5的整体提升高达17.6%。
表2 总体性能
消融实验
为了验证我们设计的有效性,我们对检索模块的课程微调和排序模块中LLM代理的设计进行了消融实验(ablation studies)。关于课程微调的消融实验:我们分别去除了课程微调的第一阶段和第二阶段,并计算了在检索集上的性能。两者的性能下降表明,课程微调设计确实能够使预训练模型从简单到复杂逐步适应,提升了从通用语料到科学文献的迁移性能。关于LLM代理的消融实验:我们分别去除了分析器(analyzer)和指导器(guider)。具体来说,去除分析器后,决策器直接根据检索候选的原始标题和摘要对其进行排序;去除指导器后,分析器和决策器在没有一站式示例指导的情况下执行任务。结果表明,缺少任何一个代理都会导致性能下降,证明了每个代理在任务中的重要作用。这些消融实验的结果验证了我们设计中各个模块的关键性和有效性。
表3 消融实验
变量分析
为了展示我们方法在大规模候选集上的优势,我们保持不变,并通过改变非引用的数量来构造大小为、和的候选集。无论候选集的大小如何,我们的方法都显著超越了所有顶级基线方法,并且在较大的候选集上(例如时)实现了更高的相对性能提升,最大提升达到18.5%。
在我们的混合工作流中,检索集大小是一个关键超参数,它平衡了检索模块和LLM智能排序模块之间的工作量。为了探讨的影响,我们将其从6调整到10,并展示了每个查询的性能和LLM token消耗。结果表明,随着的增加,性能有所提升,但代价是更多的token消耗。较大的提高了检索集中的核心引用召回率,因此,LLM代理可以从长度增加的文本中筛选出更多核心引用。然而,当达到足够大时,继续增加它会导致性能下降,并且消耗更多的tokens。我们认为这是因为检索到的候选论文过多,超出了LLM的推理能力,导致分析混乱和低质量的排名。从结果中我们一般可以观察到,最佳的值应为7-8。
图3 变量分析-不同大小的候选集与检索集
我们探讨了在我们的工作流中,将GPT-3.5替换为其他开源且轻量级的LLM(大语言模型)对性能的影响。在此,我们继续使用GPT-4作为指导器(guider)来提供高质量的示例,并将分析器(analyzer)和决策器(decider)替换为不同的开源LLM。具体来说,我们测试了两种版本的Llama3,两种版本的Mixtral,以及ChatGLM2-6B。结果表明,尽管较大的LLM在性能上稍有提升,例如Llama3-70B优于Llama3-8B,Mixtral-8×22B优于Mixtral-8×7B,但这些轻量级LLM的表现仍显著逊色于GPT模型。这一结果强调了LLM大规模参数中隐性知识的重要性,特别是在像引文预测这样需要强大专业知识的任务中,大规模模型的隐性知识对解决问题至关重要。
表4 变量分析-不同大模型
参考文献
[1] Arman Cohan, Sergey Feldman, Iz Beltagy, Doug Downey, and Daniel S. Weld.
SPECTER: document-level representation learning using citation-informed transformers.
In ACL, pages 2270–2282. Association for Computational Linguistics, 2020.
[2] Malte Ostendorff, Nils Rethmeier, Isabelle Augenstein, Bela Gipp, and Georg Rehm.
Neighborhood contrastive learning for scientific document representations with citation embeddings.
In EMNLP, pages 11670–11688. Association for Computational Linguistics, 2022.
[3] Bowen Jin, Wentao Zhang, Yu Zhang, Yu Meng, Xinyang Zhang, Qi Zhu, and Jiawei Han.
Patton: Language model pretraining on text-rich networks.
In ACL (1), pages 7005–7020. Association for Computational Linguistics, 2023.
[4] Lingfei Wu, Dashun Wang, and James A Evans.
Large teams develop and small teams disrupt science and technology.
Nature, 566(7744):378–382, 2019.
[5] Zehan Li, Xin Zhang, Yanzhao Zhang, Dingkun Long, Pengjun Xie, and Meishan Zhang.
Towards general text embeddings with multi-stage contrastive learning.
arXiv preprint arXiv:2308.03281, 2023.
[6] Przemysław Pobrotyn and Radosław Białobrzeski. Neuralndcg: Direct optimisation of a ranking metric via differentiable relaxation of sorting.
arXiv preprint arXiv:2102.07831, 2021.