论文解读 |【NeurIPS 2024】基于混合语言模型的科学文本引用预测

文摘 2024-11-30 20:40 北京

论文标题：HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction

作者：Qianyue Hao, Jingyang Fan, Fengli Xu∗, Jian Yuan, Yong Li∗

发表：38th Conference on Neural Information Processing Systems (NeurIPS 2024)

论文链接：https://arxiv.org/abs/2410.09112

代码链接：https://github.com/tsinghua-fib-lab/H-LM

导读

论文的引用网络能够帮助研究者追溯相关研究工作，而预测一篇新论文将引用哪些已有论文是一个重要的研究问题。然而，论文引用的作用存在显著差异，一些被引文章是新论文的核心理论基础，而另一些则只是在上下文中被简单提及。为细化此任务，我们将引文预测任务从简单的二分类问题提升为更细致的问题：区分核心引用、表层引用和非引用。区分这些作用需要更深入地理解论文之间的逻辑关系，而不仅仅是简单地对引文网络的边连接关系进行分析。为了解决这一问题，我们提出了HLM-Cite这一用于引文预测的混合语言模型工作流。HLM-Cite结合了文本嵌入模型和生成式大语言模型，利用微调、智能体工作流等方式，实现了揭示论文之间隐含的关系的效果。由此，我们将选集扩展到10万篇论文，远超现有方法所能处理的规模。在涵盖19个科学领域的数据集上评估中，HLM-Cite与现有最优方法相比性能提升了17.6%。

背景介绍

论文的引用网络是现代科学的重要基础结构，能够帮助研究者追溯、寻找相关研究工作。挖掘隐藏在论文引用网络的边上的信息，例如预测一篇新论文将引用哪些已有论文长期以来是一个被广泛研究的问题。然而，这一任务仍存在亟待解决的问题：论文引用的作用存在显著差异，一些被引文章起到新论文的基础知识支撑的作用，而另一些则只是在上下文中简单提及。为此，我们提出了核心引用（core citation）的新概念，根据引用网络中局部结构的关系，将被引文章分为核心引用与表层引用。统计结果表明，一篇论文与它的核心引用内容关联度更高，同时核心引用也在正文中被更多地提及。基于此概念，我们将引文预测任务从简单的二分类问题提升为更细致的问题：区分核心引用、表层引用和非引用。

图1 核心引用与表层引用

区分核心引用与表层引用需要更深入地理解论文之间的逻辑关系，而不是仅简单地对引文网络的边连接关系进行分析。随着具有文本推理能力的大型语言模型（LLMs）的出现，区分这些关系成为可能，但仍面临两大挑战。

（1）一篇新论文可能从大量已有论文中选择引用，而这些候选论文的文本总量远超LLM的上下文长度限制。

（2）论文间的逻辑关系通常是隐式的，直接提示LLM预测引用可能会导致结果主要基于表层文本相似性，而非所需的深层逻辑推理。

为了解决这一问题，我们提出了用于引文预测的混合语言模型工作流HLM-Cite（Hybrid Language Model workflow），在相关测试任务上取得了良好的性能。

模型方法

图2 HLM-Cite混合语言模型工作流

整体流程

为了从大规模候选集中高效预测核心引用，我们整合了嵌入模型和生成式语言模型的能力，形成了一种混合语言模型工作流（HLM-Cite）。如图2所示，HLM-Cite工作流包含两个主要模块，检索模块和排序模块。在给定查询和候选集（大小为）的情况下，我们首先调用检索模块，即一个经过微调的预训练文本嵌入模型。我们计算查询和候选集中每篇论文的嵌入向量，分别记为和，其中输入为论文标题和摘要的拼接文本。基于和中每个向量的内积，我们从中检索出最有可能是的核心引用的篇论文，形成检索集。随后，我们在排序模块中采用LLM智能体对检索到的论文进行分析，并根据其作为核心引用的可能性对其进行排序，从而提高预测的准确性。最后，我们将排名最高的论文作为最终预测结果。

检索模块：文本嵌入模型的微调

我们在检索模块中采用了GTE-base预训练模型，该模型是大规模文本嵌入基准（MTEB）排行榜上的顶尖模型之一。GTE-base模型具有1.1亿参数，其初始化基于BERT，并通过多阶段对比学习任务进行训练，将输入文本嵌入到768维的密集向量中。我们冻结了GTE-base模型的前7层，仅微调后5层的参数。此前研究已经实证证明，这种设计能够在微调过程中降低计算消耗，同时保持良好的迁移能力。如上所述，表层引用（superficial citations）作为难负样本，增加了区分核心引用的难度。因此，我们没有直接将GTE-base模型应用于从表层引用和非引用中挑选核心引用的任务，而是设计了一种两阶段的课程微调策略（curriculum finetuning），以从简单到复杂逐步将通用语料模型适配到我们的特定任务中。

在第一阶段，我们通过一个分类任务对模型进行微调，仅区分核心引用与非引用，排除表层引用（即难负样本）的干扰。在这一阶段，我们为每条训练数据构造一个查询、一个核心引用以及大量非引用，并使用交叉熵损失函数（cross-entropy loss）来计算分类误差。在第二阶段，我们全面考虑了区分核心引用、表层引用和非引用的排序任务。在每条训练数据中包含一个查询及其多个核心引用、表层引用和非引用，并采用NeuralNDCG损失函数（NeuralNDCG loss function），即NDCG 的一种可微分近似，来衡量模型输出与真实排名之间的差异。在这两个阶段中，我们均使用批内负采样（in-batch negative sampling）为每个查询获取非引用，以降低嵌入计算成本。

排序模块：基于LLM的智能体工作流

为了提高核心引用预测的准确性，我们结合了LLM的文本推理能力，以校正上一阶段检索到的论文的核心引用可能性排名。我们设计的LLM智能排序模块由三个代理组成：分析器（analyzer）、决策器（decider）和指导器（guider）。这三个代理均由LLM驱动，并通过自然语言交流协同工作。

具体而言，给定查询论文及其从候选集中检索出的可能核心引用，首先由分析器负责分析检索集中每篇论文与查询论文之间的逻辑关系。接着，将分析结果输入决策器，由其生成修正后的核心引用可能性排名，得出最终预测结果。此外，我们设计了一个指导器，用于增强复杂推理。指导器在人类监督下生成单个示例（one-shot example），通过链式思维（CoT）方法支持分析器和决策器的推理工作。

实验结果

实验设定

我们在Microsoft Academic Graph (MAG) [15] 上进行实验，MAG包含了跨越19个主要科学领域的数亿篇研究论文，形成了一个庞大的引文网络。我们对该数据集进行遍历，筛选出1200万篇拥有丰富核心引用和表层引用的论文，并从中随机抽取45万篇查询论文，每篇查询论文随机抽取5个核心引用和5个表层引用。随后，我们将抽取的查询论文随机划分为训练集和测试集，比例为8:2。我们将科学领域分为自然科学（包括生物学、化学、计算机科学、工程学、环境科学、地理学、地质学、材料科学、数学、医学、物理学）和社会科学（包括艺术、商业、经济学、历史、哲学、政治学、心理学、社会学）。

表1 数据集统计

我们主要将方法与三类基线进行对比评估：简单的基于规则的方法、专为科学文本设计的语言模型（LMs）、以及用于通用任务的预训练语言模型（LMs）。第一类：基于规则的方法；在这一类中，我们主要通过关键词重叠度来预测核心引用，即候选论文的关键词与查询论文的关键词重叠越多，越有可能是核心引用，这是一种简单的基于文本特征的启发式方法。第二类：专为科学文本设计的语言模型；这一类包括SciBERT、METAG、PATTON和 SciPATTON、SPECTER、SciNCL、SciMult。第三类：通用任务的预训练语言模型；BERT、GTE、OpenAI-embedding-ada-002、OpenAI-embedding-3。我们通过访问这些模型的现成预训练参数或API接口，来进行模型评估。如果有多个版本，我们会包括不同规模的版本进行对比。

总体性能

在评估中，我们为所有模型设置了大规模的候选集，令，，同时将检索集大小设置为。我们使用PREC@3/5和NDCG@3/5作为评估指标，评估结果表明，我们的方法在所有科学领域的所有指标上都显著超越了所有基线方法，其中PREC@5的整体提升高达17.6%。

表2 总体性能

消融实验

为了验证我们设计的有效性，我们对检索模块的课程微调和排序模块中LLM代理的设计进行了消融实验（ablation studies）。关于课程微调的消融实验：我们分别去除了课程微调的第一阶段和第二阶段，并计算了在检索集上的性能。两者的性能下降表明，课程微调设计确实能够使预训练模型从简单到复杂逐步适应，提升了从通用语料到科学文献的迁移性能。关于LLM代理的消融实验：我们分别去除了分析器（analyzer）和指导器（guider）。具体来说，去除分析器后，决策器直接根据检索候选的原始标题和摘要对其进行排序；去除指导器后，分析器和决策器在没有一站式示例指导的情况下执行任务。结果表明，缺少任何一个代理都会导致性能下降，证明了每个代理在任务中的重要作用。这些消融实验的结果验证了我们设计中各个模块的关键性和有效性。

表3 消融实验

变量分析

为了展示我们方法在大规模候选集上的优势，我们保持不变，并通过改变非引用的数量来构造大小为、和的候选集。无论候选集的大小如何，我们的方法都显著超越了所有顶级基线方法，并且在较大的候选集上（例如时）实现了更高的相对性能提升，最大提升达到18.5%。

在我们的混合工作流中，检索集大小是一个关键超参数，它平衡了检索模块和LLM智能排序模块之间的工作量。为了探讨的影响，我们将其从6调整到10，并展示了每个查询的性能和LLM token消耗。结果表明，随着的增加，性能有所提升，但代价是更多的token消耗。较大的提高了检索集中的核心引用召回率，因此，LLM代理可以从长度增加的文本中筛选出更多核心引用。然而，当达到足够大时，继续增加它会导致性能下降，并且消耗更多的tokens。我们认为这是因为检索到的候选论文过多，超出了LLM的推理能力，导致分析混乱和低质量的排名。从结果中我们一般可以观察到，最佳的值应为7-8。

图3 变量分析-不同大小的候选集与检索集

我们探讨了在我们的工作流中，将GPT-3.5替换为其他开源且轻量级的LLM（大语言模型）对性能的影响。在此，我们继续使用GPT-4作为指导器（guider）来提供高质量的示例，并将分析器（analyzer）和决策器（decider）替换为不同的开源LLM。具体来说，我们测试了两种版本的Llama3，两种版本的Mixtral，以及ChatGLM2-6B。结果表明，尽管较大的LLM在性能上稍有提升，例如Llama3-70B优于Llama3-8B，Mixtral-8×22B优于Mixtral-8×7B，但这些轻量级LLM的表现仍显著逊色于GPT模型。这一结果强调了LLM大规模参数中隐性知识的重要性，特别是在像引文预测这样需要强大专业知识的任务中，大规模模型的隐性知识对解决问题至关重要。

表4 变量分析-不同大模型

参考文献

[1] Arman Cohan, Sergey Feldman, Iz Beltagy, Doug Downey, and Daniel S. Weld.

SPECTER: document-level representation learning using citation-informed transformers.

In ACL, pages 2270–2282. Association for Computational Linguistics, 2020.

[2] Malte Ostendorff, Nils Rethmeier, Isabelle Augenstein, Bela Gipp, and Georg Rehm.

Neighborhood contrastive learning for scientific document representations with citation embeddings.

In EMNLP, pages 11670–11688. Association for Computational Linguistics, 2022.

[3] Bowen Jin, Wentao Zhang, Yu Zhang, Yu Meng, Xinyang Zhang, Qi Zhu, and Jiawei Han.

Patton: Language model pretraining on text-rich networks.

In ACL (1), pages 7005–7020. Association for Computational Linguistics, 2023.

[4] Lingfei Wu, Dashun Wang, and James A Evans.

Large teams develop and small teams disrupt science and technology.

Nature, 566(7744):378–382, 2019.

[5] Zehan Li, Xin Zhang, Yanzhao Zhang, Dingkun Long, Pengjun Xie, and Meishan Zhang.

Towards general text embeddings with multi-stage contrastive learning.

arXiv preprint arXiv:2308.03281, 2023.

[6] Przemysław Pobrotyn and Radosław Białobrzeski. Neuralndcg: Direct optimisation of a ranking metric via differentiable relaxation of sorting.

arXiv preprint arXiv:2102.07831, 2021.

数据科学与智能实验室

本公众号为清华大学电子系数据科学与智能实验室的公众账号，主要推送实验室重要通知、日常活动、文章导读、前沿分享等资讯，敬请关注。

活动预告 |【第47次技术研讨会】Physics-informed AI for Complex Systems

论文解读 |【ICWSM 2024】基于多角色合作大模型智能体的立场检测

论文解读 |【NeurIPS 2024】基于混合语言模型的科学文本引用预测

活动预告 |【第46次技术研讨会】Spatial Embodied Intelligence

论文解读 |【IJCAI 2024】从像素看发展：基于卫星图像的欠发达区域路网识别与社会经济关联性分析

论文解读｜【Nature Communications】复杂网络韧性的深度学习预测方法

论文解读 |【IJCAI 2024】脆弱度地图VulnerabilityMap：刻画美国城市弱势群体脆弱度的开放框架

收集20+时空数据集，超1.3亿样本点，清华研究团队基于生成式AI，提出3种城市复杂系统建模方法

城市科学与计算研究中心近期活动速览来啦!

【会议回顾】CNCC | 第三届“AI+复杂系统”技术论坛：赋能科学应用

玩转「智能体魔方」！清华推出AgentSquare模块化搜索框架，开启AI智能体高速进化时代

论文解读 |【IJCAI 2024】基于卫星图像识别的城中村识别与监测

活动预告 |【第45次技术研讨会】Reinforced LLM Reasoning

论文解读 |【SIGIR 2024】建模用户疲倦的序列推荐

论文解读 |【KDD 2024】UniST：基于提示学习的通用城市时空预测模型

论文解读 |【KDD 2024】基于重整化群的复杂网络长时动力学预测

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

论文解读 |【KDD 2024】基于拓扑与动力学生成式数据增强的复杂网络系统韧性预测

AI能否让复杂系统变简单｜CNCC第三届“AI+复杂系统”技术论坛

论文解读 |【KDD 2024】基于预训练语言模型“群体-个体”微调端测适配的用户意图预测

城市科学与计算研究中心九月活动速览来啦！

【会议回顾】研究中心多项研究成果在KDD 2024发表

活动预告 |【第44次技术研讨会】World Model

清华城市科学与计算研究中心招募AI方向科研实习生

论文解读 | 【KDD2024】CDGON: 一种用于灾后城市人口流动性恢复预测的物理启发神经常微分方程

论文解读 |【KDD 2024】OpenDiff：基于公开数据与扩散模型的移动网络流量生成

论文解读 | 【ACL 2024】EconAgent : LLM智能体驱动的宏观经济模拟

选课通知｜清华-美团联合课程《大数据技术的应用与实践》课程号：80231143

喜迎新学期，欢聚新起点——城市科学与计算研究中心八月活动速览来啦！

论文解读 |【KDD 2024】ReStruct: LLM驱动的异质图元结构发现

精彩回顾 | 第二届国际城市科学大会在清华大学成功举办

ADL153《时空数据智能》开启报名

活动预告 | 第二届城市科学大会注册通知

活动预告 |【第43次技术研讨会】LLM for Interdisciplinary Research

活动预告 |【第42次技术研讨会】Agent and Embodied AI

前沿导读 | 大模型通用推理

活动预告 |【第41次技术研讨会】AI for Urbanization and Sustainable Development

WWW 2024 Tutorial 报告: 基于大模型智能体的社会模拟仿真

活动预告 |【第40次技术研讨会】Multi-modal Large Language Model

论文解读 |【ICLR 2024】基于扩散模型参数生成的时空少样本学习

仅需 5% 训练样本达到最优性能，清华大学研究团队发布条件去噪扩散模型 SPDiff，实现长程人流移动模拟

活动预告 |【第39次技术研讨会】LLM for Computational Social Science

论文解读 |【SIGSPATIAL 2023】融合多尺度人类移动动力学增强传染病空间传播预测

论文解读 |【SIGSPATIAL 2023】基于知识增强扩散模型的城市人流量生成

城市科学与计算研究中心十二月活动速览来了~

论文解读 |【SIGSPATIAL 2023】通过街景卫星图像识别建成环境疾病传播风险

活动预告 |【第38次技术研讨会】Urban Data Generation

【会议回顾】课题组多项研究成果在ACM SIGSPATIAL 2023发表

城市科学与计算研究中心十一月活动速览

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉