Qwen2.5-Max发布,性能超越DeepSeek V3

科技   2025-01-31 10:21   安徽  

近日,超大规模的 MoE 模型(混合专家模型)通义千问 Qwen2.5-Max 正式上线,通义千问团队使用超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。


通义千问团队表示,“今天,我们很高兴能给大家分享 Qwen2.5-Max 目前所取得的成果。大家可以在Qwen Chat 直接体验,或是通过阿里云百炼平台调用 API 服务。”


同时,通义千问还将 Qwen2.5-Max 与业界领先的模型(无论是闭源还是开源)在一系列广受关注的基准测试上进行了对比评估。这些基准测试包括测试大学水平知识的 MMLU-Pro、评估编程能力的 LiveCodeBench,全面评估综合能力的 LiveBench,以及近似人类偏好的 Arena-Hard。评估结果涵盖了基座模型和指令模型的性能得分。


首先,通义千问直接对比了指令模型的性能表现。指令模型即我们平常使用的可以直接对话的模型。通义千问将 Qwen2.5-Max 与业界领先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)的性能结果进行了对比。



在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen2.5-Max 的表现领先。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。


在基座模型的对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型,通义千问将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。


对比结果如下图所示:


通义千问的基座模型在大多数基准测试中都展现出了显著的优势。“我们相信,随着后训练技术的不断进步,下一个版本的 Qwen2.5-Max 将会达到更高的水平。”


通义千问表示,将持续提升数据规模和模型参数规模能够有效提升模型的智能水平。“接下来,我们将持续探索,除了在预训练的 scaling 继续探索外,将大力投入强化学习的 scaling,希望能实现超越人类的智能,驱动 AI 探索未知之境。”


编辑:芯智讯-浪客剑

往期精彩文章

ASML营收创历史新高:中国大陆净系统销售占比跌至27%!
DeepSeek掀起AI算力革命:英伟达暴跌17%!台积电暴跌13%!
Q1财测不及预期,股价大跌7.5%!TI 回应在华倾销被调查传闻
传瑞芯微前副总经理陈锋将加盟安谋科技!
传台积电6万片晶圆报废!内部人士回应
传字节跳动今年将采购240亿元国产AI芯片!
瑞芯微副总经理陈锋辞职!
寒武纪遭前CTO梁军索赔42.9亿元!
黄仁勋宴请35位供应链大佬:每桌菜价约1182元!
前华为悍将李健出任荣耀CEO!赵明:选择放手和离开!
全栈自研!又一家国产GPU厂商启动IPO!引发“寒王”暴跌?
美国将算能/智谱/科益虹源等25家中企列入实体清单!
详解美国对华晶圆代工限制新规(附完整规则)
荷兰宣布对特定测量和检测设备出口管制!

行业交流、合作请加微信:icsmart01
芯智讯官方交流群:221807116

芯智讯
“芯智讯”——有料的科技新媒体!专注于半导体产业链、智能手机产业链、人工智能、AR/VR、智能硬件及汽车电子等相关领域。
 最新文章