网络首发时间
2024-06-27
网络首发地址
https://link.cnki.net/urlid/42.1085.g2.20240626.1754.002
引用本文
陈帅朴,刘芳霖,钱宇星,倪珍妮,张志剑,荣国阳.检入新境:大语言模型引领的信息检索主题与知识关联演化分析[J/OL].图书情报知识(2024-06-27).
https://link.cnki.net/urlid/42.1085.g2.20240626.1754.002
Photo by Unsplash+ in collaboration with Sanja Djordjevic on Unsplash. |
陈帅朴 刘芳霖
武汉大学信息管理学院,武汉,430072
武汉大学大数据研究院,武汉,430072
武汉大学信息资源研究中心,武汉,430072
钱宇星
南京大学新闻传播学院,南京,210023
倪珍妮 张志剑 荣国阳
武汉大学信息管理学院,武汉,430072
武汉大学大数据研究院,武汉,430072
武汉大学信息资源研究中心,武汉,430072
目的 | 意义 | 大语言模型(Large Language Model,LLM)正在引领信息检索领域经历从简单的文档检索走向全面满足用户信息需求的新阶段,审视和探讨LLM 在这一转型过程中的演化趋势及其未来发展,对于LLM 赋能信息检索领域的理论模式创新与实践应用延展有着重要意义。 | |
研究设计 | 方法 | 研究选取信息检索领域的多个前沿学科会议,通过主题以及知识关联演化的双重视角分析,深入探究LLM 等前沿技术如何推动信息检索领域的演化发展、知识重构以及创新应用,进而揭示在LLM 影响下信息检索领域的未来发展方向。 | |
结论 | 发现 | 受LLM驱动,信息检索领域的研究主题和知识结构正经历演变。研究范式层面注重人机协同新理念、技术伦理的重视、用户体验增强带来的范式融合。研究技术层面注重LLM的高效检索模型架构与工作流程优化、轻量级语言模型与LLM的协同发展以及LLM的开源及平权发展。然而,LLM 赋能信息检索领域仍面临技术评测有效性困难、生成内容的可靠性存疑以及社会应用的复杂性较高等挑战。 | |
创新 | 价值 | 将细粒度的知识关联网络引入演化分析框架,创新技术赋能领域研究的多维分析视角。同时从数据层面厘清和揭示信息检索领域的演化规律,明确领域未来发展。 | |
关键词 | 大语言模型;信息检索;主题演化;检索增强生成 |
1 引言 |
在信息社会向数智社会发展的历程中,技术演进始终是科技发展的关键驱动力。近年来,传统的数理统计方法难以满足人类对智能水平的追求,深度学习的空前普及将人工智能引入各个领域并带来了革命性的变化,如医学领域的疾病诊断、生物领域的蛋白质设计、金融领域的风险评估等。其中,预训练模型(Pre-trained Language Model,PLM )扮演着关键角色。2018 年开始,BERT 模型的诞生极大程度上推动了自然语言处理(Natural Language Processing,NLP)领域的繁荣。如今,大语言模型(Large Language Model,LLM)的出现进一步拓展领域边界,权威科学期刊《Nature 》也将GPT-5等新一代AI的到来与挑战列为2024年最值得关注的科学事件之一。
信息检索作为信息资源管理和计算机科学的重要分支,历经了布尔逻辑、概率模型、语言模型、神经语言模型 的发展阶段,展现出受技术驱动的显著特征。其早期核心任务是从海量存储库中检索与用户查询相关的信息。伴随PLM向LLM的持续突破,已有观点认为信息检索正面临新的转型时期:从依赖简单匹配策略转向为更加智能化和语境化的交互策略,经历着从简单的文档检索向全面满足用户信息需求的新阶段。在这一过程中,由于新模型、新架构、新方法的层出不穷,信息检索领域呈现出技术交织递进的典型特点。面对技术发展与应用转型的交汇期,学界对于不同技术的应用模式与集成尚未形成明显共识,凸显出厘清技术演化的重要性。其中,LLM在理解、生成和推理等方面所展现的突出能力 不仅引领了人机交互方式的变革,更具有推动领域前沿发展和检索任务重塑的潜力。基于上述背景,本研究深入探索前沿技术在转型过程中的演化趋势,发现关键应用场景并厘清领域未来发展方向,对于加快LLM赋能信息检索领域具有至关重要的意义。
以SIGIR、CIKM为代表的信息检索领域的重要学科会议为理解领域发展提供了前沿、权威且全面的研究依据。值得注意的是,SIGIR2024首次将LLM在信息检索领域的实践应用纳入征稿主题,并细化出众多与LLM功能密切相关的主题,如对话式信息检索、多模态信息检索等,这一新动向彰显了前沿技术在信息检索领域的引领作用。目前,已有众多学者致力于通过分析重要会议论文来发现研究趋势。早期研究多以文献计量为视角,例如Smeaton等、Hiemstra等以及陈少涌等 以SIGIR会议为视角探索信息检索领域的研究主题、作者分布及合著情况。为探索信息检索领域的主题演化趋势,赵忠伟等 构建了10年间SIGIR邮件列表数据集和同期会议论文数据集,对主题聚类和主题演化进行了对比分析。杨超凡等基于5年间ACL、SIGIR等多个前沿会议集的论文数据,采用词频分析法总结和归纳信息检索领域的研究热点与发展趋势。近期研究开始关注主题的演化路径,李跃艳等 以SIGIR会议10年间的录用论文为数据集,不仅揭示主题发展趋势,还展示了主题群落内部的演化路径。上述研究证实了前沿会议在追踪和识别信息检索领域发展趋势的重要性,但是以研究主题为粗粒度的影响分析仍显宽泛,且多数研究未涉及大模型。知识实体关联网络的演化具有揭示重要性程度和组合结构动态变化的优势,能够更加细粒度和动态化地发现新兴应用场景和创新模式。因此,本研究综合主题演化和知识关联网络演化,通过双重分析视角,洞察LLM在信息检索领域的演化趋势及潜在影响,并提出如下研究问题。
(1)自BERT到ChatGPT为代表的预训练语言模型技术的发展过程中,信息检索领域的研究主题呈现出怎样的演化趋势?
(2)在预训练模型技术发展的过程中,信息检索与LLM的知识关联呈现出怎样的演化趋势?
问题一从主题视角出发,首先探索LLM对信息检索领域的影响程度,并在此基础上揭示前沿技术推动信息检索领域发展的整体影响和主题演化趋势。问题二从知识视角出发,揭示LLM对信息检索领域知识重构和创新应用的发现。
为回答上述研究问题,进而揭示信息检索受LLM影响的未来发展方向,本研究以信息检索领域的多个会议为数据来源,分别开展主题和知识关联网络的演化分析,以期为信息检索领域的相关研究提供参考和启示。
2 研究方法 |
2.1 研究框架
研究首先选取信息检索领域的多个前沿学科会议相关论文集的题录信息(包括标题、摘要、关键词)作为初始数据,并通过分词、词性还原、去除停用词、专业词典构建等数据处理操作,得到相应数据集。在此基础上,分别从主题和知识视角展开演化分析:主题层面首先统计涉及LLM主题的发文量,分析其发展趋势。然后,再通过BERTopic模型进行主题建模,并基于相似度计算揭示主题差异和演化路径;知识层面首先完成知识构建与对齐,其次构建知识关联网络,计算知识重要性指标,通过核心知识关联与新兴知识关联揭示与LLM关联的知识演化。双重视角共同揭示LLM对于信息检索领域的影响趋势,进而以此为引导,深入探讨信息检索领域在LLM时代下的未来发展,研究框架如图1所示。
图1 研究框架图 |
2.2 数据来源与处理
为深入评估从以BERT为代表的早期PLM到近期以ChatGPT为代表的LLM的这一发展阶段中信息检索领域的变化,研究选取2019—2024年的SIGIR、 WSDM、CIKM、CHIIR会议集文章进行演化分析,其中SIGIR和CIKM在2024年的系列文章尚未发布录 用信息。选取理由如下:①从会议选择来看,SIGIR、 WSDM、CIKM均是CCF认证的信息检索领域权威会议,CHIIR则主要关注用户检索行为,四个会议能够较为全面地反映该领域的研究前沿与动态。②从研究时间选择来看,2019作为起始年,原因在于2018年底发布的BERT在2019年达到成熟阶段,引发公众与学术界的广泛关注,且会议论文开始大量涉及PLM。与此同时,自2019年起,以T5、BART为代表的生成式语言模型开始流行,信息检索领域开始融入生成功能的探索与实践,表现出LLM在信息检索领域的应用潜力。
在数据处理环节,本研究采用NLTK工具包实现英文分词、词性还原和去除停用词等操作。同时,为尽可能减少对信息检索领域专业术语的错误分词,构建了领域专业词典:一方面将不同时期论文的关键词作为专业知识补充至词典;另一方面,特别关注论文摘要中括号前的词语对,如Retrieval Augmented Generation(RAG),通过正则表达式匹配的方式,将此类术语也补充至专业词典。
2.3 研究分析方法
主题聚类采用BERTopic模型。相较于传统的LDA主题模型,BERTopic基于预训练语言模型,能够更深入地理解文本语义表示和上下文信息,从而在无需预设主题数量的情况下,高效执行复杂文本数据的深层语义聚类任务,具有更强大且灵活的主题发现能力。
知识关联网络构建采用知识共现关系,其中知识关联网络中各个知识实体作为网络中的节点,同篇论文中提及的不同知识实体构成连边,实体间共同出现的次数作为连边的权重。为量化评估知识实体在网络中的重要程度,参考现有计算网络节点重要性的研究,选用z-score作为量化指标。其通过计算一个实体与网络中其他实体连边权重的标准化得分来评估其相对重要性,得分越高表明实体与其他节点的联系越紧密,其影响力越显著,具体计算如公式(1)所示:
其中,C 代表知识关联网络,N 代表共现网络中的实体数量,Wic表示实体i与网络C中其他实体的边权重之和。
3 信息检索研究主题及其演化 |
3.1 研究发文量变化趋势
为回答第一个研究问题,本研究对发文量进行频次分析,初步探索PLM以及LLM在分析窗口内对信息检索领域的影响。研究具体使用启发式规则进行迭代式搜索:一是识别两类模型的定义性描述,分别为Pre-trained Language Model和Large Language Model等。二是识别两类模型的特定模型名称,根据已有研究参数规模的划分,将1B以上的PLM定义为LLM。其中PLM包含ELMo、BERT、ELECTRA、RoBERTa、ERNIE 及其采用Transforemr 的Encoder 结构的衍生模型;LLM包含GPT系列模型(GPT-3及之后由OpenAI发布的LLM,包括WebGPT、InstructGPT、GPT-3.5、ChatGPT、GPT-4等)、T5、LLaMA、PALM、Claude等模型。三是对初步搜索结果中出现的关键词进行补充并进一步迭代搜索。具体变化趋势如图2所示。
图2 LLM及PLM的研究发文量变化趋势 |
根据图2所示,信息检索领域涉及LLM和PLM的论文数量整体上呈现持续增长的态势,反映出基于神经网络的模型已成为研究的热点并广泛被采用。其中, LLM相关论文数量增长更为迅猛,正在深刻影响信息检索前沿领域。具体来看,2019年以来,BERT及其衍生的PLM的应用不断深化,为信息检索领域带来了新的研究动力。同时,尽管LLM的研究数量快速攀升,PLM的研究却依旧保持着稳健的发展势头,强调了传统研究领域的持续价值与发展潜力。特别值得关注的是,2023至2024年期间,LLM的研究数量呈现爆炸式的增长,这种增长在很大程度上得益于ChatGPT在2022年末的问世,这一事件将LLM推向了学术界和工业界的关注焦点。该结果初步厘清了PLM和LLM技术在信息检索领域的发展趋势,为后续深入挖掘该领域的演化趋势和知识重塑模式奠定了基础。
3.2 研究主题聚类分析
为深入回答第一个研究问题,本研究对主题层面进行聚类和演化分析。首先,使用BERTopic模型对数据集进行主题聚类。为确保研究的时效性、新旧技术的交织期的覆盖性、平衡主题趋势的观察性,本研究以两年为时间窗口,共划分为2019—2020、2021—2022、 2023—2024三个阶段。
以2023-2024阶段的聚类结果作为示例进行展示,如图3所示,直至此阶段,LLM在信息检索领域形成了独立的显著主题,尤以生成(generation)、对话(conversation)、ChatGPT等关键词与其密切相关,体现出LLM的技术成熟和应用潜力。
图3 2023—2024阶段研究主题的特征词分布 |
各阶段聚类主题名称及数量如表1所示。
表1 各阶段主题聚类结果 |
为进一步量化和对比不同阶段的主题聚类异同,本研究采用余弦相似度方法来量化由关键词所组成的各主题间的相似性,并在此基础上对主题间共同点进行归纳概括,这在一定程度上保障了结果的客观性,克服主观解释可能产生的偏差。
根据余弦相似度的计算结果,将主题划分为四类:历年均出现且余弦相似度达到或超过0.8的被归类为“稳定核心型主题”;仅在两个阶段出现且相似度超过0.8,或者相似度介于0.5至0.8之间的被视为“持续关注型主题”;相似度低于0.5且在研究历史中未曾出现过的主题被认定为“新兴潜力型主题”;而相似度低于0.5且未在后续研究中再次被提及的主题被认定为“衰退消亡型主题”。需要注意的是,尽管部分主题的名称在不同阶段有所变化,但由于它们的高相似度,这些主题被认为属于同一群体。在划分主题类型时,本研究根据主题的核心特征提炼出更具一般性的主题名称,如涉及问答系统的主题在不同阶段被统一归纳为 “对话问答系统”主题。具体分类结果如下:
稳定核心型主题包含图网络与推荐系统、对话问答系统、信息检索与用户研究、隐私保护与联邦学习、社交媒体与虚假信息检测、多模态信息检索。
持续关注型主题包含算法公平与可解释性等特性研究、文档表示与内容分析强化学习与决策模拟、对抗学习与异常检测、迁移学习与领域适应、特定领域的信息检索、隐私保护与联邦学习。
新兴潜力型主题包含少样本学习、时空预测研究。
衰退消亡型主题包含众包应用研究、卷积神经网络与图像检索。
三个时间窗口的主题聚类异同呈现出如下显著特点:
(1)主题数量的持续增加。这一变化反映了信息检索领域研究不断深化和拓展的趋势。值得注意的是,主题数量的增长趋势与LLM技术的爆发式发展时间节点高度吻合,而在PLM时期,主题增速则相对平稳。这从数据层面印证了已有研究的观点,即LLM 正在以更快的速度推动着信息检索领域的前沿发展。
(2)研究内容的演进与丰富。稳定核心型主题与持续关注型主题揭示了研究领域的长期动向和焦点,并展现了趋于深入和细化的趋势。以“多模态检索”为例,在模态类别层面,早期研究主要集中于单一图像(image)模态,但逐渐拓展至视频(vedio)、音频(audio)、多媒体(multi-media)、时空数据(spatial temprol)等丰富的模态数据。新兴潜力型主题反映了新技术解决领域问题的创新应用,如小样本与泛化能力(few-shot、zero-shot)的系列研究;衰退消亡型主题反映了研究话题的优化和视角的拓展,如从卷积神经网络与图像检索(CNN、image)转向多模态信息检索(multi-modal)。
(3)研究技术呈现更新迭代。各类研究主题的关键技术从LSTM、CNN等简单神经网络,发展至以BERT等PLM的广泛运用,再至目前对具备生成能力的ChatGPT等LLM的深入探索。与此同时,不同主题中关键组成实体随着主导技术的发展也呈现出变化,如由2021—2022 阶段语言模型主导的算法特性仅考虑效能(ranking effect),而2023—2024中开始将伦理(ethic)也纳入研究范围。由此可见,技术演进为解决复杂问题提供了新的工具与视角,同时也带来了新的研究挑战。
3.3 研究主题演化分析
上述分析凸显了技术演进对于主题发展的驱动作用,尤其LLM作为当下前沿技术的代表,对信息检索领域研究主题格局的塑造作用不容忽视。为系统追踪并阐释LLM发展过程对各研究主题的演化影响,以及发现主题间的内在联系,本研究在主题聚类分析的基础上,采用主题影响链追踪法。该方法通过对比连续时间窗口内各主题相似性的变化,揭示了主题的演化路径。借助PyEcharts工具绘制桑基图,以线条的粗细来呈现主题间的相关程度,呈现受LLM技术推动下各研究主题之间的流动与演化,具体如图4所示。
图4 主题演化桑基图 |
以图4中2023—2024时间段内与LLM紧密相关的主题为分析切入点,进行反向扩散追溯,可以发现 LLM与对话问答研究、用户信息检索行为研究、算法公平与可解释性等特性研究等主题存在密切关联,而这些正是信息检索研究的核心主题。这一发现一方面印证了主题划分的合理性,另一方面也揭示出LLM等前沿技术正在从影响该领域的核心部分开始,向更广阔的研究范畴延伸其影响力。下文以上述三个典型主题为例进行分析。
(1)对话问答研究的演化。在2019—2020阶段,研究多使用BERT 模型进行问题理解(understand)和 文本匹配(match),但尚未在对话生成方面取得显著成效。演化到2021—2022 阶段,研究开始使用T5 模型等基于X-Transformer 架构实现对话生成任务,推动从单向的匹配问答向互动交流的转变。进而至2023— 2024阶段,对话问答系统成为与LLM关联最为密切的主题,研究使用ChatGPT等LLM进行生成、内容抽取(extraction)等更为深入的对话研究,强化了语境理解(context)、多轮对话连贯性等能力。但需注意的是,此时对话系统研究更多倾向于闭源(close)LLM产品的应用。
(2)用户信息检索行为研究的演化。在2019—2020阶段,用户信息检索研究多聚焦于技术视角,专注提升检索结果(ranking)的响应精度,用户体验方面的研究并不充分。发展至2021—2022阶段,研究视角扩展到技术与用户体验的平衡,探究如何通过优化技术来满足用户需求与查询(Query),此时用户体验成为重要的研究维度,用户评估研究(evaluation)也随之开展。到了2023—2024阶段,与用户导向的关键词数量不断增多,如interactive、human LLM interaction,标志用户导向研究越来越得到注重。LLM在这一转变中扮演了关键角色,通过对用户需求的深入理解,提供了精准和个性化的解决方案,大大推动了交互式和个性化检索的用户体验。
(3)算法公平与可解释性等特性研究的演化。在 2019—2020阶段,该类研究更多聚焦于算法效率和排序精度(rank),以排序学习(Learing to Rank)和无偏学习(unbiased)等技术手段对排序算法性能进行优化。然而,此阶段的研究较少关注算法可能引发的社会风险和偏见问题。在2021—2022阶段,研究视野扩展到算法公平性(fairness)与偏见(algorithmic bias)等特性研究,同时追求算法的可解释性(explanation),旨在实现更透明和可理解的决策过程。2023—2024阶段,LLM的迅猛发展带来了新的研究问题和挑战,强调在推动算法公平和可解释性的同时,更侧重于构建更加负责任(responsible)和符合伦理标准的人工智能(AI)的新目标,反映了对未来人工智能应用的深远考量。
除此之外,其他主题也有新的进展,如社交媒体主题下引入更多虚假信息核查(fact checking)和可信度检测(credibility)的研究;在文档分析主题,LLM的应用不再局限于文本内容的表面处理,如关键词提取或文本分类(classfication)。相反,它们现在能够理解文档的深层含义,包括上下文意义(contexual)、叙述风格(narrative)和隐含的情感倾向(sentiment)。这种深层次的理解能力使得LLM在提取和生成信息和摘要(summary)方面表现出色,它们不仅能捕捉文档的关键信息,还能以一种连贯和准确的方式重述(rewrite)这些信息,甚至能够在多个文档(cross document)之间建立联系,提供综合的分析。
综上所述,针对问题一,本研究验证了技术演进,尤其LLM对信息检索领域起到了显著作用,同时揭示了LLM正在深刻影响信息检索领域的相关研究,具体发现如下。
(1)LLM相关研究主题的日渐成熟。随着LLM技术的发展,与之相关的研究主题逐渐在信息检索领域内凝练并成型,体现了LLM在该领域中的重要性和广阔应用前景。
(2)技术驱动的信息检索领域的研究活跃度攀升。研究主题数量持续增长,反映了信息检索领域研究活跃度不断提高,对新兴问题反应灵敏。这种增长得益于前沿技术,尤其是LLM的驱动为领域注入了新的动力并开辟了创新视角。
(3)LLM 推动信息检索领域各个主题的延展。LLM等前沿技术正在通过影响信息检索的核心主题,进而在三个方面展现出更广泛的作用:一是增强主题间的协同与关联,在LLM强大的跨领域迁移和通用能力的引导下,各主题展现出更多的研究相似性和重叠度,有助于构建更加系统化的信息检索领域的知识体系。二是重塑主题的研究目标,由关注技术层面进步转向探索智能化、个性化等高阶认知智能目标,朝着深入理解和满足用户需求方向发展。三是推动领域延伸,既在广度上关注不同领域数据和场景,也在深度上支撑更贴合实际应用场景的复杂任务。
4 知识关联网络演化 |
主题演化分析回应了第一个研究问题,展现出LLM对信息检索领域的显著影响。然而,主题演化分析更多反映整体影响趋势,不足以细粒度地揭示LLM在信息检索领域的前沿作用。为此,本研究进一步构建知识实体层面的知识关联网络以回应问题二,旨在尽可能及时、准确地把握信息检索领域在LLM影响下的知识重塑和创新应用。具体而言,研究从核心知识关联和新兴知识关联两个维度出发,利用z-score进行知识关联网络的分析,为全面理解和揭示LLM在信息检索领域的影响作用与前沿发展提供了更为丰富的视角。
4.1 知识实体构建与对齐
为精确地捕捉并表示信息检索领域中的知识实体,并确保实体之间的比较和关联分析的准确性,本研究在构建知识关联网络前,首先采取如下知识实体构建和对齐流程。
(1)初步知识实体提取。为确保知识实体的有效性和代表性,本研究选用题录信息中的关键词,并补充历年主题聚类过程中的专业词典作为初步的知识实体。然而,由于同一知识实体可能以不同的形式或变体出现(缩写、复数形式或不同的拼写),因此为了确保知识实体的一致性和唯一性,还需进行知识实体对齐操作。
(2)知识实体对齐。实体对齐过程包括将所有提取的实体对组合,采用余弦相似度和主题聚类结果作为度量标准来评估和识别相似知识实体。具体而言,本研究首先设立了一系列相似度阈值,并通过实验比较了不同阈值下的匹配效果,基于实验结果,最终确定使用0.8作为相似性筛选阈值,由此实现相似实体对的初步筛选。然后,进一步基于聚类分析实现实体对齐,如果完成初筛的实体对在BERTopic的主题聚类过程中被归为同一主题下,则认定其属于相同实体群组,同时给出具有共同特点的名称,如文档生成(Document Generation)和文本生成(Text Generation)会被归类为生成类研究(Generation Study)。
(3)涉及LLM的知识实体构建。在构建整体的知识实体关联网络中,本研究特别关注与LLM相关的知识实体构建,这一过程兼顾了LLM的显性关联和功能关联。显性关联是指大语言模型的直接影响,如具体的模型名称或定义性描述与其他知识实体的直接共现。本研究沿用了2.2节探索LLM影响的搜索策略,构建相应的数据集。功能关联则关注于LLM在不同主题下的生成功能特征,如推理(inference)、生成等。为保证这些功能是与语言模型的技术发展相关,将功能与语言模型(Language Model,LM)、PLM等关键词相关联,以全面揭示受语言模型启发的功能关联演化路径。
最后,在此基础上实现三个阶段的知识关联网络构建,并通过z-score计算知识实体的重要性。
4.2 知识关联网络演化分析
4.2.1 核心知识关联演化分析
核心知识指那些在三个时间阶段中均与LLM知识实体存在共现关系的知识实体。首先,本研究围绕总体数量占比和重要性占比对核心实体的基本情况进行分析。可以发现,核心知识的总体数量占比呈现下降趋势,这说明信息检索领域的研究范围正在逐渐扩大,且面临在知识快速增长的环境中保持对核心知识的深度挖掘和创新性应用的新挑战。从重要性占比发展来看,网络中z-score得分前100名实体中,核心实体的占比稳定维持在70%以上,且前5名中始终包含这些核心实体,这再次印证了LLM的发展正在显著影响着信息检索领域的发展。因此,系统分析核心知识重要性的演化有助于把握信息检索领域的发展前沿。其次,从平均影响视角进行分析,具体对三个时间窗口中平均影响最大的实体前10个核心知识进行分析,其发展趋势如图5所示。
图5 Z-score排名前10的核心知识发展趋势 |
这类核心知识体现出研究领域和研究技术特征。从研究领域来看,生成类研究一直呈现出典型的上升趋势,它代表着信息检索领域对于智能检索的期待, 2019—2020阶段并未出现具备强大能力的生成模型,但PLM的兴起让其得到广泛的探索与实践。2021—2022阶段,得益于诸如T5等生成模型以及生成式检索架构的演进,生成研究开始被大规模应用。2023—2024阶段,LLM使得高质量和高性能的生成式检索任务和各类问答任务得到充分的发展。除此之外,推荐系统、图导向研究、问答系统以及用户研究一直保持较高且相对稳定的发展态势,这证明核心主题受新技术的影响有着新的解决方案和发展方向。
研究技术呈现出独特的发展趋势。神经网络模型和深度学习技术作为信息检索领域重点关注的技术,其核心代表为传统的CNN模型以及BERT 类模型。CNN模型影响力呈现出逐年下滑的态势,而以BERT为代表的深度学习模型则是经历着先上升再下滑的趋势。伴随着这些经典模型的影响力下降,传统神经网络和深度学习模型在信息检索前沿领域的影响正在逐渐减弱。
更进一步,从影响增速视角进行分析。本研究计算两个时间阶段的平均影响增速,并对其进行排名。首先从平均影响增速来看,LLM、知识蒸馏、增强研究、序列推荐和时序推荐是增速的前五名,且平均增幅均超过1。其中,LLM增速最为突出,其推动的推理和生成功能增速也极为突出,再次彰显了LLM的显著影响作用。知识蒸馏研究广受关注,旨在面临模型量级的挑战下,缓解LLM部署成本,是在资源受限场景落地应用的关键技术。数据增强和模型增强研究增速较快,反映了在现有模型基础上,如何利用增强技术提高模型使用效率的重要性。序列推荐和时序推荐等研究增速也较高,体现了该领域对捕捉序列模式、挖掘时序语义知识的重视,与LLM在长序列建模推荐和时序推理的优势高度契合。
此外,从单个时间阶段增速来看,2021—2022阶段向2023—2024阶段演化的增速显著高于上一个演化阶段。具体而言,在平均增速最快的前20名实体中,有14名来自这一阶段,其平均影响增速为0.36,高于之前的0.21。在这一时期,伴随LLM 的爆发增长,人工智能理论研究、开源与闭源模型、人机交互、评测研究、少样本学习、强化学习呈现出相较以往阶段更快的增速。这说明在LLM推动下,信息检索领域的核心知识有着新的发展动力,研究不仅关注算法技术的效率与性能提升,更加重视机器智能和人类智能的未来发展。
4.2.2 新兴知识关联演化分析
新兴知识指每个时间段特有的知识实体。鉴于第一个时间切片作为起始点,其内的知识实体无法被界定为新兴知识。因此,本研究直接从第二个阶段的新兴实体进行相应分析,选取各自阶段影响最大的前5个新兴知识,并结合部分典型新兴知识进行分析,各阶段前五个新兴实体仍呈现出研究领域和研究技术的特征,如图6所示。
图6 不同阶段Z-score排名前5的新兴知识 |
2021—2022阶段,从研究领域特点来看,领域适应被广泛关注,目的是提高模型在不同领域间的迁移能力,契合了跨领域数据集和应用需求增长的趋势。时空分析成为了新的知识组合实体,这可能是由于时空数据的丰富以及技术的发展使得处理这种复杂数据更加高效。问答系统中的查询扩展模块得到发展,意味着现有模型可以更加准确地理解用户意图,并进行动态扩展。从研究技术应用来看,对比学习引发了广泛的重视,其早期在计算机视觉领域的成功实践被NLP所关注,不仅提升了文本表示能力和多模态能力,还引入了信息检索领域。其次,各类领域BERT模型(X-BERT模型)也扮演着更加重要的角色,例如 PubmedBERT等。
2023—2024阶段,新兴实体呈现更多独特性。从研究领域层面来看,这一阶段研究显著凸显了对人类研究的关切,如人本中心、人与大模型交互等,更加聚焦提升人类绩效的智能检索系统构建。同时也引发了更多关于人工智能的系列讨论知识组合,其中尤其以可解释性人工智能和生成式人工智能产生着重要影响,标识智能技术的推广应用,让人类看到了具有智慧能力的信息检索系统的希望。除此之外,尽管模型评测不作为新兴知识单独出现,但模型评估的特征变得更加复杂,并和心理学和伦理产生关联。从研究技术层面来看,以ChatGPT为代表的LLM开始受到广泛关注与应用。提示工程同样成为信息检索领域的热门话题,同时微调技术更加丰富,诸如效率微调、指令微调也引发了重视。检索增强生成作为提升LLM性能的关键技术同样引发关注。
值得注意的是,2023—2024阶段的新实体平均影响高于2021—2022阶段的实体,且排名靠前的实体占比更高,这说明LLM对研究领域的冲击相对更大。除此之外,一些2022阶段的新实体没有出现在2023— 2024阶段的研究中,反映了研究迭代升级,例如查询扩展变为更加复杂和系统化的查询重构。
基于知识关联网络演化分析,针对问题二,研究发现LLM正在多维度深刻重塑信息检索领域的知识结构,催生了一系列研究方法、研究模式和研究应用的创新,为该领域带来全新的发展机遇和前景,具体发现如下。
(1)在研究方法层面,LLM推动生成式研究大规模应用,成为影响最大的研究方向,充分展现了其强大的生成能力。同时其也催生了知识蒸馏、数据/模型增强等提升模型效率的技术创新,以应对LLM模型量级挑战。另外,LLM优越的长序列建模能力激发了序列推理、时序语义等新兴方法的探索。
(2)在研究模式层面,核心研究领域聚焦生成、推理等智能化功能,人机协同成为新的研究范式。新兴研究则凸显人本理念,如人机交互、可解释AI等,注重人类体验和伦理考量。技术演进也加速了知识更新,传统方法影响力下降,LLM等前沿技术影响力迅猛增长,重构了该领域的知识体系。
(3)在创新应用层面,LLM赋能了对话系统、推荐系统等信息检索核心领域,提供了新的解决方案和发展路径。同时也拓展了多模态、时空学习等新兴应用场景,提升了跨领域、跨模态的处理能力。在检索增强生成、提示工程等前沿任务中,LLM也展现出创新应用的潜力。
5 讨论与展望 |
从主题演化和知识关联网络演化可以发现,LLM正在多维度深刻影响信息检索领域的研究主题和知识结构,呈现出以下发展趋势:一方面,LLM带来了智能化、个性化等高阶认知智能目标,以及人机深层协同交互的新理念;另一方面,也显示了LLM在自身可信度和伦理等方面的挑战。这些均反映出传统的技术导向的检索研究范式正在经历重塑。在这一背景下,LLM正在推动融入新兴理念的信息检索研究范式的不断发展,同时也催生了一系列前沿技术创新,但其带来的潜在挑战亦不容忽视。在当前演化趋势下,深入探讨LLM对信息检索领域研究范式、关键技术和挑战影响的内涵与进展,对展望该领域发展方向至关重要。
5.1 LLM赋能的信息检索研究范式发展
主题与知识关联演化结果显示,信息检索领域研究呈现出三种并行的研究范式:技术范式、“技术+用户”范式、人本范式。这些范式愈发重视AI引领的机器智能与人类智能的作用。其中,技术范式研究一直是重点和主流,“技术+用户”和人本范式的重要性与影响力正在逐年递增,这一结果印证了智能信息检索范式进展的结论发现。在此基础上,厘清LLM时代下各范式的内涵与前景具有重要意义。
三个范式都受到LLM的显著影响。技术范式旨在提升信息检索的效率和精度,在LLM推动下,研究不再局限于优化传统检索系统的排序算法,而朝向前沿的生成范式转移,逐渐摆脱对传统检索系统流程的依赖。尽管技术范式以前沿技术为指导,但仍需探讨技术自身存在的可解释性等挑战对信息检索领域的影响。“技术+ 用户”范式旨在融入用户研究并对传统检索技术进行优化,在LLM 推动下,正在不断提升理解用户深层需求的能力与方法,不仅从能力层面实现更强大、鲁棒、多模态的用户行为建模框架,也从方法上实现诸如智能体的创新,通过现实仿真拓展和增强用户体验。人本范式关注信息检索技术的伦理问题、人本系统设计以及人机交互中的行为与认知,这一范式受LLM引发的AI技术伦理以及机器智能对人类认知的影响,成为新兴的热门研究方向。
更进一步,LLM带来的人机协同新理念、技术伦理的重视、用户体验增强正推动三个范式的协同发展。技术范式会愈加重视LLM自身挑战,发挥技术引领作用;人本范式则为融入LLM的信息检索系统提供理论基础,建立新的检索技术伦理规范和评估体系;“技术+用户”范式则承担起人机交互的桥梁作用,不断深化交互研究模式,实现技术与人类的高水平融合。三者相互渗透、相互支撑,共同推动LLM赋能的信息检索领域向更加智能化、个性化和高可靠性的方向发展。
5.2 LLM赋能的信息检索研究技术发展
主题与知识关联演化结果显示,信息检索领域在研究技术层面正围绕以生成功能为核心的LLM展开深入探索,具体呈现出如下发展趋势。
(1)以LLM为核心的高效检索模型架构与检索工作流程优化。首先,在检索模型架构层面,LLM注重融合适配信息检索任务的预训练和微调方法,使其能够更好地理解和利用领域知识。值得关注的是,知识关联网络结果显示,涉及微调方法的知识实体数量不断增多,尤其以参数高效微调(Parameter-Efficient Fine-Tuning)为代表的轻量级微调方法显著增加,这强调了LLM在保证建模效果的同时,降低各类计算与存储资源消耗的重要性。其次,将优化后的LLM 架构应用于改善检索工作流程也是重要环节。其中,查询重构(query reformulation)等实体被频繁提及,旨在优化检索过程的查询理解和知识匹配。与此同时,检索增强生成(Retrieval-Augmented Generation,RAG)作为有影响力的知识实体被广泛关注,通过将检索组件引入高质量知识库,然后运用类似于提示工程的方法来优化LLM,实现知识的即时更新与扩充。未来 RAG如何深度整合LLM实现迭代式学习,是实现高效检索工作流程的关键所在。
(2)LLM 与轻量级语言模型(如BERT等PLM)的协同发展。尽管LLM 正在以迅猛的速度成为创新热点,但是知识关联演化显示BERT等轻量级的预训练模型与LLM仍旧有着密切联系。因此,在信息检索的工作流程中,实现LLM与轻量级LM的高效协同仍是关键技术路线,在这种发展模式下,计算资源需求较高的LLM承担长文本语义理解和生成的核心任务,而轻量级LM专注特定领域的增量学习和微调。值得注意的是,LLM与轻量级LM在模型架构、参数规模、训练数据等多个层面存在明显差异,未来如何实现二者的高效衔接将是该技术路线面临的主要挑战。模型蒸馏、联合推理、并行化计算设施建设都是未来的重要方向。
(3)LLM的开源与闭源问题引发广泛关注。开源模型在推动学术研究和知识共享方面发挥了重要作用,如BERT 模型引领了NLP和信息检索领域的繁荣。而如今,成熟的LLM大多秉承商业化应用的发展理念,如何实现LLM的普适化应用以及平权发展,推动工业与学术社区的持续创新与进步,是未来重要的思考问题。
5.3 LLM 赋能信息检索研究的潜在挑战
LLM赋能信息检索领域仍面临技术评测有效性、生成内容的可靠性及社会应用的复杂性等潜在挑战。
(1)技术评测有效性面临困难。传统信息检索技术评测依赖人工标注数据集和搜索量化指标,用于衡量检索结果的相关性和排序质量。然而,其难以应对 LLM的开放复杂查询场景。主要困难包括:一是评估目标与指标的复杂性,不仅需注重检索质量,还需考虑生成内容的质量,如答案忠实度、噪声鲁棒性等问题。二是评估方法的特殊性,LLM在预训练中已吸收了大量相关知识,可能存在答案记忆的情况,这导致标准答案的参考意义降低。同时LLM生成的答复往往复杂多样,难以自动精确解析评判。三是高质量数据集的获取困难,一方面需要大量人工标注,另一方面缺乏明确的“金标准”评估基准。综上,如何有效评估在LLM赋能下信息检索系统在理解复杂查询方面的能力,仍然是一个亟待解决的开放性问题。
(2)生成内容的可靠性存疑。LLM作为联合概率模型,不可避免地会出现生成内容的真实性和可信度问题,包括最为典型的幻觉问题。这通常是由于训练数据的偏差、模型训练的过拟合以及推理过程的不透明等因素所造成的。在检索场景下,幻觉问题会导致检索结果的相关性和准确性受损,提供错误或低质量的信息,影响检索体验和知识获取质量。同时也可能误导用户对查询主题的认知,产生不利影响。为改善这种情况,未来的LLM研究需要完善模型训练架构、引入事实核查机制、持续改善检索增强技术、提升用户媒介素养、加强模型输出监管等。
(3)实践应用中存在较高的社会复杂性。LLM在社会各界的检索应用日益广泛,然而伴随而来的检索生态、应用伦理等方面的挑战亦不容忽视。首先在检索生态建设方面,各大科技公司积极涉足LLM领域,推出诸如LangChain等技术栈,但如何构建更加完善的生态体系,使LLM更好地结合检索技术,以持续推动工业界与学术界的创新,是一个亟待思考的重要问题。进一步,在应用伦理方面,面临着诸如伦理道德、知识产权、算法公平性和透明度的挑战,除在算法层面持续优化,更需要以价值对齐作为模型建设观念,借鉴诸如心理学等社会科学领域的价值理论,建立更全面的价值观指导原则和法规政策,并从数据建设、模型对齐等层面引领人工智能向着更加负责任、透明,且与人类利益相符的方向迈进。
本研究基于信息检索领域的学科会议论文,通过主题和知识的双重演化视角,厘清了信息检索领域在技术交织时期,尤其在LLM影响下的发展趋势,明确研究和应用的前沿方向,为未来研究提供有价值的参考与指导。然而,研究在论文选取覆盖度和知识对齐方面存在一定程度的局限。一是研究选择的是信息检索领域内具有代表性的会议论文,用以反映该领域的研究动态。然而,信息检索作为一个广泛的研究领域,其相关研究遍布众多顶级学术会议。虽然本研究已尝试结合前沿的研究成果来补充讨论,但在未来工作中,扩大论文选取的范围,将有助于更全面地挖掘该领域的发展趋势。二是考虑到知识实体的复杂性和多样性,尽管本研究努力采取了较为严格的知识实体对齐流程,但仍然存在一些不可避免的误差。这些误差可能会在知识实体的准确对应上带来偏差,进而在一定程度上影响知识关联网络实验结果的准确性。在未来的研究中,改进知识实体识别和对应方法将是提高研究质量的关键。
*参考文献略,请详见原文。 |
END
版式设计
陆澜
制版编辑
王淳洋
关注公众知识状态 / 引领学科发展潮流 Focusing on the State of Public Knowledge Leading the Development Trends of the Discipline |
网络首发 | 从文化场景看“打卡”风潮:网络社群用户文旅打卡行为研究
网络首发 | 新型公共文化空间高质量发展的组态路径研究
网络首发 | 涨知识了?泛知识直播中多重沟通和多模态展示对用户知识采纳和持续参与的影响
网络首发 | 全球视野下我国人工智能素养教育内容框架的构建
网络首发 | 数字断连:从多元视角到对图书馆信息职业的启示