Uni-Finder科学文献理解性能再提超10%,源于模型内核SciLitLLM新范式升级

文摘   科学   2024-09-24 19:18   中国  





在科研信息爆炸的时代,如何高效理解并提取科学文献中的关键信息,成为推动科学发现的关键挑战。虽然大语言模型在自然语言处理方面取得了显著成就,但在科学文献理解上仍面临诸多困难,如缺乏专业知识和对科学任务适应性差。针对这两个问题,深势科技研究团队开发了一个全新的科学文献理解大语言模型—— SciLitLLM。这是一款专门为科学文献理解设计的大型语言模型,它采用了继续预训练( Continual Pre-training, CPT )和指令微调( Supervised Fine-tuning, SFT )的混合策略,在注入科学领域知识的同时,大幅提升了模型对特定科学任务的指令遵循能力。我们将SciLitLLM 作为基座语言模型集成到科学文献理解工具 Uni-Finder 中,期待能提升研究人员科学文献阅读效率,从而推动科学发现。

研究背景


科学文献的理解在科学发现的过程中扮演着至关重要的角色。它不仅帮助科研人员识别研究趋势,还能够从海量的文献中提取有针对性的信息。然而,当前的语言模型在科学文献理解上仍存在显著的挑战。我们将挑战总结为:

  1. 缺乏科学领域知识。尽管大型语言模型(LLMs)在自然语言处理领域取得了显著成功,但它们在科学文献理解方面表现出的局限性主要源于缺乏对特定领域的深度知识,这使得现有模型难以有效处理领域内的复杂概念。

  2. 科学任务适应性差。现有的大型语言模型通常只针对通用任务进行训练,而科学文献理解则涉及到更加复杂和专业的任务,如表格信息提取、分子生成等。模型在这些领域的表现往往因为缺乏有效的科学任务指令训练而不尽如人意。

训练框架

为了克服上述挑战,SciLitLLM 引入了一个混合策略,即通过继续预训练(CPT)注入科学知识,并通过监督微调(SFT)增强模型在科学任务中的指令执行能力。具体来说:

  1. 科学知识注入阶段通过高质量的科学文献的继续预训练,使模型具备更加丰富的科学知识。

  2. 科学指令微调阶段则通过在合成的科学任务指令集上指令微调,提升模型对科学任务的理解和执行能力。

SciLitLLM训练框架

阶段一:科学知识注入

高质量的科学教科书和研究论文为我们提供了丰富的科学知识来源。然而,我们仍然面临一些实际障碍:

  1. PDF 解析过程中引入的格式和语法错误。

  2. 一些信息量较少的部分,例如参考文献和乱码文本。

 格式和语法校正

为了解决这些问题,我们设计了以下模块:

  1. 格式和语法校正:使用 Llama3-8B 模型来纠正 PDF 解析过程中引入的这些错误。

  2. CPT 质量过滤:使用 Llama3-70B 对部分文本进行评分,这些评分结果将作为训练小型分类器的标签,用于训练语料质量评估器。

语料质量评估

阶段二:科学指令微调

为了解决科学领域指令的稀缺性以及人工标注的高成本问题,我们提出了一种全新的指令生成与质量控制流程:首先构建领域关键词的概率表和科学任务描述列表,通过关键词和任务采样的方式构建多样化的领域指令数据。

合成科学指令

之后,为了确保生成指令的质量,我们还引入了指令质量控制模块:启发式去重和基于模型的过滤。具体而言,我们首先通过计算 Levenshtein 距离筛除20%重复性高的指令以确保整个指令集的多样性。然后使用 Llama3-70B-Instruct 从五个维度(清晰性,复杂性,正确性,实用性和适应性)对生成的指令进行评估,筛除平均得分低于4分的领域以确保整个指令集的质量。

生成指令质量评估


模型性能


基模型科学知识性能比较

下表展示了基础模型的性能对比。SciLitLLM-base 在四个科学基准测试中优于其他通用基础模型。具体来说,与参数少于 15B 的模型相比,SciLitLLM-7B-Base 的平均准确率提升了3.9%,超越了出发模型 Qwen2-7B 。对于参数超过 50B 的 LLMs ,经过 QLoRA 训练的 SciLitLLM-72B-Base 表现优异,超过了其他同等规模的模型。这些结果证明了在高质量科学语料库上进行继续预训练的有效性。

基模型科学知识性能比较

令微调模型在科学文献理解数据集性能比较

如下表所示,SciLitLLM-7B-Instruct 在 SciAssess 的5个领域中有4个取得了最高性能,超出第二名模型3.6%。特别是在 SciRIFF 基准上,它相比基线模型的性能提升了显著的10.1%。此外,经过 QLoRA 训练的 SciLitLLM-72B 在 SciAssess 和 SciRIFF 上,分别比 Qwen2-72B 提高了1.7%和0.9%的性能。

指令微调模型在科学文献理解数据集性能比较

应用案例


下图展示了从生物医学论文中准确提取实体的任务,需要模型从提供的论文摘要中准确识别 CellLine , Disease 和 Variant 三类实体。现有的科学领域模型 Galactica 由于缺乏有效的指令微调,无法准确理解指令要求,提取出对应实体并按照 json 格式输出。通用语言模型 Llama3 由于缺乏足够的科学领域知识,导致错误识别了部分实体。相比于上述模型,SciLitLLM-7B 展示了丰富的科学知识和优秀的指令执行能力,能够准确识别并提取这些实体。

科学文献理解 -- 实体提取

参考资料

论文地址:https://arxiv.org/abs/2408.15545

模型地址:https://huggingface.co/Uni-SMART/SciLitLLM

代码仓库:https://github.com/dptech-corp/Uni-SMART/tree/main/SciLitLLM

Uni-Finder申请体验:https://uni-finder.dp.tech/

关于深势科技

深势科技是“AI for Science”科学研究范式的引领者和践行者。AI for Science 即运用 AI 学习一系列的科学原理和科学知识,并进一步解决科学研究和工业研发领域的关键问题。

深势科技依托在交叉学科领域的深耕,构建了“深势 · 宇知®”AI for Science 大模型体系,将众多学科的科研方法从“实验试错/计算机”时代带入了“预训练模型时代”,并以“微尺度工业设计与仿真”为切入点,打造了 Bohrium® 玻尔®科研空间站、Hermite® 药物计算设计平台、RiDYMO® 难成药靶标研发平台及 Piloteye® 电池设计自动化平台等科研和工业研发基础设施,形成了 AI for Science 的“创新-落地”链路和开放生态,赋能“千行百业”,为人类经济发展最基础的生物医药、能源、材料和信息科学与工程研究打造新一代工业设计与仿真系统。

深势科技是国家高新技术企业、国家专精特新“小巨人”企业,在北京、上海、深圳等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中博士及博士后在公司成员中占比超过35%。核心成员获得过2020年全球高性能计算领域的最高奖项“戈登贝尔奖”,相关工作入选2020年中国十大科技进展和全球 AI 领域十大技术突破。

深势科技 DP Technology
深势科技致力于运用人工智能和多尺度的模拟仿真算法,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。
 最新文章