研究背景
科学文献的理解在科学发现的过程中扮演着至关重要的角色。它不仅帮助科研人员识别研究趋势,还能够从海量的文献中提取有针对性的信息。然而,当前的语言模型在科学文献理解上仍存在显著的挑战。我们将挑战总结为:
缺乏科学领域知识。尽管大型语言模型(LLMs)在自然语言处理领域取得了显著成功,但它们在科学文献理解方面表现出的局限性主要源于缺乏对特定领域的深度知识,这使得现有模型难以有效处理领域内的复杂概念。
科学任务适应性差。现有的大型语言模型通常只针对通用任务进行训练,而科学文献理解则涉及到更加复杂和专业的任务,如表格信息提取、分子生成等。模型在这些领域的表现往往因为缺乏有效的科学任务指令训练而不尽如人意。
训练框架
为了克服上述挑战,SciLitLLM 引入了一个混合策略,即通过继续预训练(CPT)注入科学知识,并通过监督微调(SFT)增强模型在科学任务中的指令执行能力。具体来说:
科学知识注入阶段通过高质量的科学文献的继续预训练,使模型具备更加丰富的科学知识。
科学指令微调阶段则通过在合成的科学任务指令集上指令微调,提升模型对科学任务的理解和执行能力。
阶段一:科学知识注入
高质量的科学教科书和研究论文为我们提供了丰富的科学知识来源。然而,我们仍然面临一些实际障碍:
PDF 解析过程中引入的格式和语法错误。
一些信息量较少的部分,例如参考文献和乱码文本。
格式和语法校正
为了解决这些问题,我们设计了以下模块:
格式和语法校正:使用 Llama3-8B 模型来纠正 PDF 解析过程中引入的这些错误。
CPT 质量过滤:使用 Llama3-70B 对部分文本进行评分,这些评分结果将作为训练小型分类器的标签,用于训练语料质量评估器。
语料质量评估
阶段二:科学指令微调
为了解决科学领域指令的稀缺性以及人工标注的高成本问题,我们提出了一种全新的指令生成与质量控制流程:首先构建领域关键词的概率表和科学任务描述列表,通过关键词和任务采样的方式构建多样化的领域指令数据。
合成科学指令
生成指令质量评估
模型性能
基模型科学知识性能比较
下表展示了基础模型的性能对比。SciLitLLM-base 在四个科学基准测试中优于其他通用基础模型。具体来说,与参数少于 15B 的模型相比,SciLitLLM-7B-Base 的平均准确率提升了3.9%,超越了出发模型 Qwen2-7B 。对于参数超过 50B 的 LLMs ,经过 QLoRA 训练的 SciLitLLM-72B-Base 表现优异,超过了其他同等规模的模型。这些结果证明了在高质量科学语料库上进行继续预训练的有效性。
基模型科学知识性能比较
指令微调模型在科学文献理解数据集性能比较
如下表所示,SciLitLLM-7B-Instruct 在 SciAssess 的5个领域中有4个取得了最高性能,超出第二名模型3.6%。特别是在 SciRIFF 基准上,它相比基线模型的性能提升了显著的10.1%。此外,经过 QLoRA 训练的 SciLitLLM-72B 在 SciAssess 和 SciRIFF 上,分别比 Qwen2-72B 提高了1.7%和0.9%的性能。
指令微调模型在科学文献理解数据集性能比较
应用案例
下图展示了从生物医学论文中准确提取实体的任务,需要模型从提供的论文摘要中准确识别 CellLine , Disease 和 Variant 三类实体。现有的科学领域模型 Galactica 由于缺乏有效的指令微调,无法准确理解指令要求,提取出对应实体并按照 json 格式输出。通用语言模型 Llama3 由于缺乏足够的科学领域知识,导致错误识别了部分实体。相比于上述模型,SciLitLLM-7B 展示了丰富的科学知识和优秀的指令执行能力,能够准确识别并提取这些实体。
科学文献理解 -- 实体提取
参考资料
论文地址:https://arxiv.org/abs/2408.15545
模型地址:https://huggingface.co/Uni-SMART/SciLitLLM
代码仓库:https://github.com/dptech-corp/Uni-SMART/tree/main/SciLitLLM
Uni-Finder申请体验:https://uni-finder.dp.tech/
关于深势科技