李群,肖甫,Bir Bhanu等 | PS-CoT-Adapter：先计划后求解的科学问答任务解决方法

文摘科技 2024-12-08 12:00 北京

研究团队

李群，孙海新，肖甫：南京邮电大学计算机学院

高新平：南京紫金山实验室

Bir Bhanu：加州大学河滨分校电气与计算机工程学院

文章下载

Qun Li, Haixin Sun, Fu Xiao, Yiming Wang, Xinping Gao & Bir Bhanu. PS-CoT-Adapter: Adapting plan-and-solve chain-of-thought for ScienceQA. Sci China Inf Sci, 2024, doi: 10.1007/s11432-024-4211-9

研究意义

在多模态思维链领域，一种直接的方法是将不同模态的输入转换为同一模态。例如，可以通过视觉语言模型将图像转化为文本描述，或将视觉特征嵌入到现有的语言模型中，利用简单的投影方案融合图像和文本表示。然而，在应对复杂科学问题时，这些方法可能导致重要信息的丢失，限制了语言模型对视觉信息的适应能力。同时，微调过程高度依赖于数据集中预先存在的人工注释，这些注释的质量直接影响模型的推理效果。在现有的数据集中，人工注释质量参差不齐：一些注释过于详细甚至冗余，另一些则缺少解决特定问题所需的关键步骤。这种欠佳的注释质量会在微调过程中影响模型的原理解释性能，进而影响模型基于解释进行推理的准确性。

本文工作

为了解决上述挑战，本文提出了一个专为科学问答任务设计的新框架，旨在增强模型对图像的理解能力及其在复杂推理任务中的表现。该框架包含三个关键阶段：训练语义适配器、生成“先计划后求解”的思维链，以及利用计划生成的原理解释进行微调。语义适配器为多模态的集成提供了更大的灵活性，使模型架构能够更有效地融合不同模态的信息。

本文的创新点如下：

(1) 提出了一种新颖的语义适配器，使模型能够有效提取并整合视觉环境中的关键信息，同时增强了多模态特征融合的灵活性。

(2) 设计了一种适用于科学问题的“先计划后求解”思维链策略，用于优化手工注释中的次优原理解释。该策略生成高质量的、按计划的原理解释，从而提升了生成解释的质量和准确性。

(3) 提出了一种专为ScienceQA任务设计的框架——PS-CoT-Adapter，旨在增强模型对多模态信息的理解能力及其在复杂推理任务中的表现。PS-CoT-Adapter框架包含三个关键阶段：预训练语义适配器、生成“先计划后求解”的思维链以及使用计划生成的原理解释进行微调。每个阶段都经过精心设计，以显著提升模型性能。

实验结果

本文提出的PS-CoT-Adapter在ScienceQA数据集上进行了验证。ScienceQA数据集包含21,208个样本，覆盖自然科学、社会科学和语言科学的广泛主题，共分为26个主题、127个类别，涉及与这三个学科相关的379种技能。在该数据集上，我们将PS-CoT-Adapter与当前最先进的科学问答方法进行了对比。结果显示，PS-CoT-Adapter的准确率达到95.35%，较最优微调基线高出2.82%，而模型大小仅为微调基线的5.7%。显著的性能提升验证了本方法的有效性。此外，PS-CoT-Adapter能够有效减弱冗余信息的干扰，提供准确的中间推理步骤。

中国科学信息科学

《中国科学：信息科学》及其英文版《Science China Information Sciences》的宣传平台。

最新文章

朱若澜,李晨,李学龙等 | 自主水下航行器多分支网络光学导引定位方法

SCIS专题 | 多模态大模型（英文版）

武汉大学马佳义团队 | 基于多重感受野交融网络的偏振三维重建

尤肖虎院士观点 | When AI meets sustainable 6G

赵志甲,贺威,陈俊龙等 | 考虑输入约束和全局预设性能的两自由度直升机系统自适应神经网络控制

山东大学余国先团队 | 个性化联邦小样本节点分类：基于参数解耦与节点增强的联邦学习

SCIS会议 | 第58次《中国科学：信息科学》前沿学术沙龙

钱锋院士观点 | 人工智能赋能的化工新材料设计

《中国科学：信息科学》祝您新年快乐！

张翠娟,纪良浩,李华青等 | 事件触发和优先经验回放的多智能体系统最优一致控制

张笑钦,范登平,肖国宝等 | COMPrompter：多提示重构SAM的伪装目标检测

申晨,Jun Tanimoto,王震等 | 退出机制促进亲社会惩罚，但非一劳永逸的解决方案

2024年第12期目录 | SCIENCE CHINA Information Sciences

征稿启事 | 大规模智能体系统的平均场博弈与控制：从理论到实践（英文版）

东南大学虞文武团队 | 求解大规模混合整数规划问题的分布式算法架构

中科大李厚强&字节跳动联合团队 | DocPedia：高分辨率多模态文档大模型

征稿启事 | 太赫兹无线通信技术创新与应用专题（英文版）

张晏,冀中,庞彦伟,韩军功,李学龙 | 模态专家协调的多模态大模型参数高效微调方法

《中国科学: 信息科学》2024年第12期目录

中科大陈恩红团队 | Woodpecker: 多模态大语言模型的幻觉缓解方法

电子科技大学白天,肖鸣宇 | 超图上最大独立集问题的精确算法

左明成,巩敦卫 | 深度嵌入适应度评估分配策略的约束多目标进化优化方法

张笑钦,黄自玮,郑晶晶等 | DcnnGrasp：采用自适应学习方式的抓取手势识别

OCRBench：多模态大模型中隐藏的OCR奥秘

华为吴建军, 孙黎, 王东晖等 | 面向6G网络的内生安全架构和关键技术思考

王巍院士团队 | 面向多源自主导航的智能学习方法研究

党吉圣,郑慧诚,赖剑煌等 | 基于逐帧和逐段时空交互记忆网络的高效视频目标分割

王常虹,余旭东,王震等 | 基于集成后继表征的离线到在线任务泛化

上海交通大学&苏州实验室联合团队 | ChemDFM-X：跨模态化学材料大模型

大连理工大学赵楠等 | 智能通感一体化综述

华中师范大学杨宗凯团队 | COMET：用于数学题目生成的教育领域多模态模型

重庆邮电大学胡林,刘锡炎,齐倩等 | 可重构智能表面辅助多用户NOMA网络鲁棒安全资源分配

RISTA前沿大讲堂 | 可编程超表面赋能感知与通信-空军工程大学许河秀教授

丁瑞森,杨飞生,潘泉,等 | 混合攻击下基于带宽感知型事件触发机制的负荷频率控制

李群,肖甫,Bir Bhanu等 | PS-CoT-Adapter：先计划后求解的科学问答任务解决方法

姜霞,孙健,陈杰等 | 求解非光滑优化问题的随机重排采样近似梯度算法

24个领域97万条指令！MMInstruct：具备丰富多样性的高质量多模态指令调优数据集

北京大学刘譞哲金鑫等 | 万卡深度学习集群中的高效GPU共享系统

招聘科技期刊编辑 |《中国科学》杂志社

西南交通大学庞琦珂, 马征, 唐小虎 | 新一代非易失性存储器下的LDPC硬译码算法

林达华,乔宇,代季峰联合团队 | 我们距离GPT-4V还有多远？使用开源套件弥合与商用多模态模型的差距

中国科学院自动化所程龙团队 | 动态系统辅助机器人学习周期性操作技能

吴小太,唐漾等 | 驻留时间信息不可用的半马尔可夫跳跃线性系统的稳定性分析与镇定

贾茹茹,宗小峰,王庆 | 具有多领导者和乘性噪声的高阶多智能体系统时变编队跟踪控制

山东科技大学张焕水团队 | 基于最优控制的优化方法

【活动通知】庆祝中华人民共和国成立75周年暨共绘AI大模型创新蓝图峰会

东南大学孙伟锋课题组 | P型沟道氮化镓晶体管的衬底偏置效应研究

SCIS会议 | 第57次《中国科学：信息科学》前沿学术沙龙

吕思宇,吴臻,熊捷 | 混合随机系统的零和脉冲博弈

《中国科学: 信息科学》2024年第11期目录

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉