首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

阿里又双叒叕开源啦，14 款模型，效果劲爆！

创业 2024-09-19 23:58 中国

作者｜子川

来源｜AI 先锋官

见过卷的，没见过这么卷的！

时隔不到1个月，阿里又双叒叕开源啦！！

一口气开源了14个模型！！！

Qwen2.5: 0.5B、1.5B、3B、7B、14B、32B 和 72B
Qwen2.5-Coder：1.5B、7B 和 32B（即将发布）
Qwen2.5-Math：1.5B、7B 和 72B。
Qwen2-VL：72B。

除了3B和72B的版本外，所有的开源模型都采用了 Apache 2.0 许可证。

下面让我们看一下相较于Qwen2系列，Qwen2.5带来了哪些升级！

先说总结：吊爆了！！！

更大规模、更高质量的预数据训练集：Qwen2.5的预训练数据集规模从7T tokens 扩展到了18Ttokens。（“ T ”表示“万亿”， 18T 即 18 万亿）

知识量升级：Qwen2.5的知识涵盖更广。在MMLU基准中，Qwen2.5-7B 和 72B的得分相较于Qwen2分别从70.3提升到 74.2，和从84.2提升到 86.1。

此外，Qwen2.5还在 GPQA、MMLU-Pro、MMLU-redux 和 ARC-C 等多个基准测试中有了明显提升。

代码能力增强：由于Qwen2.5-Coder的突破，Qwen2.5在代码生成能力上也大幅提升。

Qwen2.5-72B在LiveCodeBench（2305-2409）、MultiPL-E和MBPP中的分别得分55.5、75.1和88.2，优于Qwen2-72B-Instruct的32.2、69.2和80.2。

数学能力提升：在MATH基准测试中，Qwen2.5-7B和Qwen2.5-72B在数学推理得分上。分别从Qwen2-7B和Qwen2-72B的52.9和69.0上升到了 75.5和83.1。

更符合人类偏好：Qwen2.5生成的内容更加贴近人类的偏好。

具体来看，Qwen2.5-72B-Instruct的Arena-Hard得分从 48.1 大幅提升至 81.2，MT-Bench得分也从 9.12 提升到了 9.35。

其他核心能力提升：Qwen2.5在指令跟随、生成长文本（从1K升级到 8K tokens）。

此次阿里可不是简简单单的发布一些充数的模型，而是实打实全方位升级！！！

本次阿里开源的最大版本指令微调模型Qwen2.5-72B在多个全球知名基准测试平台的测试结果显示：

仅有720亿参数的Qwen2.5击败了Meta拥有4050亿参数的最新开源Llama-3.1指令微调模型；成为目前最强大参数的开源模型之一。

即便是没有进行指令微调的基础语言模型，其性能同样赶超Llama-3-405B。

此外，阿里开放API的模型Qwen-Plus 与 GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B 和 DeepSeek-V2.5等模型相比较，也丝毫不落下风。显著优于 DeepSeek-V2.5。

但是在某些方面仍不及 GPT4-o 和 Claude-3.5-Sonnet， Llama-3.1-405B。

Qwen2.5 还开放了 140 亿参数和 320 亿参数模型，即 Qwen2.5-14B 和 Qwen2.5-32B。

这两个模型在多样化的任务中超越了 Phi-3.5-MoE-Instruct 和 Gemma2-27B等同等规模的基线模型。

值得注意的是，即便是只有30亿参数的小模型， Qwen2.5-3B 也表现了出惊人的能量，在MMLU基准中得分超过65。优于Llama-2-70B等大模型。

此次除了Qwen2.5系列模型表现优异之外。

Qwen2.5-Coder和Qwen2.5-Math系列模型表现同样令人震撼。

一个月前，阿里开源了 Qwen 家族的第一款数学专项大语言模型Qwen2-Math。

如今再度升级并开源 Qwen2.5-Math 系列。

相较于 Qwen2-Math 只支持使用思维链（CoT）解答英文数学题目，Qwen2.5 系列能同时支持使用思维链（CoT）和工具集成推理（TIR）解决中英双语的数学题。

其中Qwen2.5-Math-72B的整体性能超越了Qwen2-Math-72B指令微调和著名闭源模型GPT4o。

即使是非常小的 Qwen2.5-Math-1.5B模型也拿到了不错的成绩。

今年四月份阿里发布了 CodeQwen1.5（代码模型）。

反响特别好！

如今又开源Qwen2.5-Code系列模型。

Qwen2.5-Coder 在 128K tokens 上下文，支持 92 种编程语言。

并在多个代码相关的评估任务中都取得了显著的提升，包括代码生成、多编程语言代码生成、代码补全、代码修复等。

值得注意的是，本次开源的 7B 版本 Qwen2.5-Coder，打败了更大尺寸的 DeepSeek-Coder-V2-Lite 和 Codestral-20B，成为当前最强大的基础代码模型之一。

为了更广泛的评估多编程语言能力，阿里还使用 McEval 在 Qwen2.5-Coder 上进行了更多的测试，设计 40 多种编程语言。

结果表明：Qwen2.5-Coder在多种编程语言任务上表现依旧十分出色。

大家伙别忘了在多模态的赛道上，阿里也一直秉持着开源的初心。

这不，还开源了Qwen2-VL-72B模型。

Qwen2-VL-72B模型的图像理解能力能解读能够处理各种分辨率和长宽比的图片，还能够有效理解长达20分钟的视频。并支持多语言。

该模型在视觉理解方面的性能足以和GPT-4o相媲美。

此次阿里的开源简直用丧心病狂来形容一点都不为过。

有人形容阿里是中国版的Mate。

我更愿称阿里是开源路上的领跑者，是先锋！

.END.

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

http://mp.weixin.qq.com/s?__biz=MzA3MzgzMjA3NA==&mid=2650764995&idx=1&sn=b10d08028c8ab359d9d7c9880b6aff9b

AIGC大模型及应用精选与评测

最新文章

生数科技Vidu 1.5 称首次突破多主体一致性，实测发现效果很差

阿里推全球首个B2B AI搜索，采购转化提升 30%，垂直 AI 搜索工具还有这些

李彦宏说iRAG灭了 AI 生图幻觉，我们实测文心一言发现并没有

智谱 AI 清影全新升级，上手实测不敌可灵

媲美 Runway，看看字节这款 AI 表情迁移工具有没救下向佐演技

腾讯混元Large、混元3D模型开源，我们实测了下都有些拉跨

特朗普、哈里斯谁会当选？我们把问题抛给了 20 个 AI 大模型

万圣节“毒液”变身视频刷屏，这款 AI 视频工具火出圈了

微信悄咪咪上线“ AI搜索”，我们连夜实测发现有点垮

评测超级小爱：Apple Intelligence爽约，跟随者小米要在AI上反超苹果了？

Runway推视频换头术，我们将它与Viggle、快手LivePortrait来了个PK

字节推 AI 配音应用，口型同步Get，且与表情、说话风格完美结合（附5款AI配音应用）

刚刚 Claude 3.5 升级发布:AI 可像人一样操控电脑，查资料、填表格、写代码、改 bug、发布网站

Adobe 推神级 AI 工具:2D 矢量图直接变 3D，可编辑无需重绘

阶跃星辰做的这款 AI 歌曲爆改器太魔性了

更懂电商语境！阿里推翻译大模型，实测比GPT 4o、Google、DeepL好

实测Suno新功能，看图/视频就可创作一首歌

有点炸裂！这项 AI 技术居然能让我的物理课本动起来

智谱开源2款生图模型，第一手实测后，效果不太好

收藏! Anthropic CEO烧脑雄文（略删减 ):5-10年，AI将扫除人类几乎所有疾病，寿命翻倍

慢思考会是AI搜索的理想形态么？我们评测了下Kimi探索版和智谱AI搜索

Flux 1.1成最强AI绘画工具？对比了MJ、Ideogram2.0，效果并没有那么好

AI能帮炒股么？小编做了个专项产品评测，这几个小工具不错

Pika憋了个大招，特效酸爽，看下和可灵1.5、Vidu的对比评测

最强 AI 换衣工具升级了，可能成了最强大的视频编辑工具之一

收藏！Google发布6大类185个最佳人工智能用例

当ChatGPT开始说中国方言

多邻国推视频通话功能，看看真人般 AI+语言学习有多酷

字节豆包发布 AI 视频模型，剧情、人物一致性有不俗突破

OpenAI 奥特曼深夜发文：深度学习起效了，几千天内将迎来超级智能

让 AI 帮理财靠谱么？我们体验了下蚂蚁金服的“蚂小财”

活动预告｜9月25日 AI 赋能智绘未来——人工智能应用创新专场活动

6个维度测评可灵1.5模型，效果不输Sora，太惊艳啦！

不限次数，完全免费！阿里通义万相AI生视频评测：更懂中国风，且能加音效

阿里又双叒叕开源啦，14 款模型，效果劲爆！

豆包开学季升级了豆包爱学，这几个小功能有点意思

Suno 上线翻唱功能，一键换曲风、哼两句就自动编曲，实测有翻车

Openai o1系列模型：博士级理科水平，但阉割严重像半成品，且太贵

Google 发布蛋白质AI生成模型，阻断癌症靶点效率提升 300 倍

Openai 推新模型“草莓”，这里是第一批用户使用体验

Apple intelligence 真等于 AI 么？看看昨晚出炉的 iphone16 N 大 AI 场景

AI编程门槛又降低！自然语言输入，2分钟一个可用APP

原来狗语翻译器真的可以有，还是个华人团队搞的

火线评测支小宝：这是在我手机装了个真正的 Siri吧？

文心一言改名文小言，造词“新搜索”能颠覆AI搜索、传统搜索？

MiniMax推 AI 视频模型，我们对比了Sora、可灵，效果有点翻车

字节悄咪咪上了一款 AI 音乐生成工具，对比 Suno 我们做了测评

电脑装了个夸克，就变 AI 电脑了？

AI 换衣难题，快手推出的这个模型，可以首次实现人衣分离

比 Claude 更强的 AI 前端设计工具，零代码复刻个美团

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉