李群,肖甫,Bir Bhanu等 | PS-CoT-Adapter:先计划后求解的科学问答任务解决方法
文摘
科技
2024-12-08 12:00
北京
研究团队
李群,孙海新,肖甫:南京邮电大学计算机学院
高新平:南京紫金山实验室
Bir Bhanu:加州大学河滨分校电气与计算机工程学院
文章下载
Qun Li, Haixin Sun, Fu Xiao, Yiming Wang, Xinping Gao & Bir Bhanu. PS-CoT-Adapter: Adapting plan-and-solve chain-of-thought for ScienceQA. Sci China Inf Sci, 2024, doi: 10.1007/s11432-024-4211-9
在多模态思维链领域,一种直接的方法是将不同模态的输入转换为同一模态。例如,可以通过视觉语言模型将图像转化为文本描述,或将视觉特征嵌入到现有的语言模型中,利用简单的投影方案融合图像和文本表示。然而,在应对复杂科学问题时,这些方法可能导致重要信息的丢失,限制了语言模型对视觉信息的适应能力。同时,微调过程高度依赖于数据集中预先存在的人工注释,这些注释的质量直接影响模型的推理效果。在现有的数据集中,人工注释质量参差不齐:一些注释过于详细甚至冗余,另一些则缺少解决特定问题所需的关键步骤。这种欠佳的注释质量会在微调过程中影响模型的原理解释性能,进而影响模型基于解释进行推理的准确性。为了解决上述挑战,本文提出了一个专为科学问答任务设计的新框架,旨在增强模型对图像的理解能力及其在复杂推理任务中的表现。该框架包含三个关键阶段:训练语义适配器、生成“先计划后求解”的思维链,以及利用计划生成的原理解释进行微调。语义适配器为多模态的集成提供了更大的灵活性,使模型架构能够更有效地融合不同模态的信息。(1) 提出了一种新颖的语义适配器,使模型能够有效提取并整合视觉环境中的关键信息,同时增强了多模态特征融合的灵活性。(2) 设计了一种适用于科学问题的“先计划后求解”思维链策略,用于优化手工注释中的次优原理解释。该策略生成高质量的、按计划的原理解释,从而提升了生成解释的质量和准确性。(3) 提出了一种专为ScienceQA任务设计的框架——PS-CoT-Adapter,旨在增强模型对多模态信息的理解能力及其在复杂推理任务中的表现。PS-CoT-Adapter框架包含三个关键阶段:预训练语义适配器、生成“先计划后求解”的思维链以及使用计划生成的原理解释进行微调。每个阶段都经过精心设计,以显著提升模型性能。本文提出的PS-CoT-Adapter在ScienceQA数据集上进行了验证。ScienceQA数据集包含21,208个样本,覆盖自然科学、社会科学和语言科学的广泛主题,共分为26个主题、127个类别,涉及与这三个学科相关的379种技能。在该数据集上,我们将PS-CoT-Adapter与当前最先进的科学问答方法进行了对比。结果显示,PS-CoT-Adapter的准确率达到95.35%,较最优微调基线高出2.82%,而模型大小仅为微调基线的5.7%。显著的性能提升验证了本方法的有效性。此外,PS-CoT-Adapter能够有效减弱冗余信息的干扰,提供准确的中间推理步骤。