业界首款能“自适应慢思考” 的开源通用思维链大模型震撼发布!性能比肩OpenAI!

科技   2025-01-23 18:05   北京  

点击蓝字

关注我们



大模型发展至今,其理解和生成能力显著提升,不仅得益于数据量和模型参数的增长,也离不开思维链技术的应用。该技术通过模拟人类解决问题的思考过程,引导模型在输出答案前进行深入思考,提供更具解释性的推理步骤,从而提高答案的准确性。但同时,这一技术也带来了答案长度增加和推理计算资源消耗过大等问题。

联通数据智能有限公司于1月18日发布了元景思维链大模型。作为央企首个开源的通用思维链大模型,元景思维链大模型既拥有强大的慢思考能力,又具备不限于数学的多学科、多场景通用推理能力,且能做到针对不同任务和难度的自适应慢思考,大幅降低了资源消耗,实现了大模型“慢思考”能力高性价比落地应用。

推理能力业界领先,超过通义千问QwQ,比肩OpenAI o1

元景思维链大模型基于合成数据进行分步采样构造长思维链形式的答案,经过质量评估后得到长思维链训练集,在此基础上对基座模型进行监督微调,使基座模型具备了“慢思考”能力,后续通过对模型采样构造答案偏序对,经过强化学习后得到最终的元景思维链大模型。

主流榜单的测评结果显示:元景思维链大模型的表现超过了目前最好的通用语言模型(GPT-4o和Deepseek V3)以及业界顶尖开源思维链模型通义千问QwQ。

思维链大模型整体实现方案

“自适应慢思考”显著优化推理性能

元景思维链大模型通过任务自适应和难度自适应两种策略来实现模型的“自适应慢思考”。

主流思维链大模型在知识问答、信息提取等非推理任务中常因过度思考生成冗余信息。元景思维链大模型通过将通用领域指令数据与推理任务的长思维链数据合理配比后以混合微调方式赋予模型一定的任务自适应能力。该模型在推理任务中使用慢思考长思维链模式,在常规任务中输出简洁回答,显著优化了推理性能并缓解了信息过载问题。

在非推理任务测评集上对比,元景思维链模型在保证正确率的情况下明显倾向于生成更短的答案(长度小于100和200个token的数量明显多于通义千问QwQ):

非推理任务长度对比:元景思维链大模型vs通义千问QwQ

元景思维链大模型在评估模型生成的长思维链数据时,除了考虑生成的答案正确与否,还综合考虑了问题的难度以及生成答案的长度,通过强化学习让模型将答案长度与当前问题的难度相匹配。

在推理任务测评集(MATH)上对比,元景思维链模型在不同难度等级的问题上生成的回答长度较通义千问QWQ均明显下降,并且对于最高难度(Level 5)输出的回答长度减少幅度最低,体现了模型对不同难度等级问题具有一定的自适应能力。

推理任务长度对比:元景思维链大模型vs通义千问 QwQ模型

思维链大模型自适应慢思考对比实例展示:元景vs其他

某主流思维链大模型A的“过度思考”现象示例

某主流思维链大模型B的“过度思考”现象示例

元景思维链大模型自适应慢思考示例

测试效果一览

面对经典的通用语言模型易错题,元景思维链模型可以按照“慢思考”的方式自动避坑一步步生成正确答案:

面对数学领域常见的考察是否会遗漏负数的“陷阱题”,元景思维链模型可以在思考过程中通过反思检查,成功发现需要考虑负整数的情况,最终得到了正确答案:

对于经典的24点游戏,元景思维链大模型在不断尝试后正确给出了答案:

在逻辑推理问题题上,元景思维链模型经过思考后顺利找到了解决方案:

元景思维链模型顺利解答出了物理和化学高考真题:

联通元景思维链大模型不仅能够完成复杂的推理任务,而且通过“自适应慢思考”有效提升了思维链模型应用的性价比,具备赋能医疗诊断、工业设备故障检测等应用场景落地的能力。

面向未来,中国联通将持续升级基础模型能力,不断量化和扩展模型能力边界,深化与国产算力的合作,为千行百业提供更懂行业,更加安全普惠的数智服务。

目前,元景思维链模型已在GitHub、魔搭、始智等社区全面开源,网页地址可后台回复“元景思维链大模型”获取。




-END-



协官网https://kx.10010.com/

投稿邮箱|hqs-kx10010@chinaunicom.cn


来源 |  联通数智有限公司

编辑 |  潘贝贝

校审 |  赵鑫、吕新



 推荐阅读

联通元景港口大模型 再获认可!


联通研究院 获奖!



一起推动联通科技创新,我们携手同行!

点赞+分享+点亮‘在看’,共筑科技梦想!


联通科技创新
联通科技创新致力于宣传中国联通重大科技进展,展示技术攻关成果,普及前沿技术知识,推介国际、国内标准化等相关工作
 最新文章