首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

全球开源大模型新王！阿里Qwen2.5来了，性能跨量级超Llama3.1

文摘 2024-09-24 17:30 北京

通义千问Qwen下载量突破4000万，“产仔”超5万个。

作者 | 三北

编辑 | 漠影

来源 | 智东西

云计算“春晚”云栖大会开幕，通义千问大模型再次燃爆全场！

近日，阿里云推出全球最强开源大模型Qwen2.5-72B，性能“跨量级”超越Llama3.1-405B，再登全球开源大模型王座。

▲Qwen2.5-72B在多项权威测试中超越Llama-405B

同时，一大串Qwen2.5系列模型随之开源，包括：语言模型Qwen2.5、视觉语言模型Qwen2-VL-72B、编程模型Qwen2.5-Coder、数学模型Qwen2.5-Math等，累计上架超100个，部分性能赶超GPT-4o，刷新世界纪录。

“今天是疯狂星期四”、“史诗级产品”……发布几个小时里，Qwen2.5在海内外社交媒体上掀起讨论热潮，全球开发者纷纷加入试用测试队伍。

▲Qwen2.5在海内外社交媒体上掀起讨论热潮

我们也第一时间在魔搭平台上试用了Qwen2.5，以结合视觉识别的Qwen2.5-Math为例，当输入一张几何相似选择题截图，Qwen2.5-Math快速识别题意，并给出了正确的解题过程和答案“B”，准确与速度都很惊艳。

▲Qwen2.5-Math

自2023年4月以来短短一年半时间，通义千问Qwen已长成仅次于Llama的世界级模型群。

根据阿里云CTO周靖人公布的最新数据，截至2024年9月中旬，通义千问开源模型累计下载量已突破4000万，衍生大模型超5万个。

▲Qwen系列衍生大模型超5万个

Qwen2.5在性能上具体有哪些提升？超100个新上架开源模型有哪些亮点？

▲官方博客发布阿里云Qwen2.5模型族群

01.

再登全球榜首，Qwen2.5跨量级
赶超Llama3.1-405B

具体来看看Qwen2.5的性能。

Qwen2.5模型支持高达128K的上下文长度，可生成最多8K内容，支持超29种语言，这意味着能帮用户胜任万字文章撰写。

不仅如此，基于18T token数据预训练，相比Qwen2，Qwen2.5整体性能提升18%以上，拥有更多的知识、更强的编程和数学能力。

▲阿里云CTO周靖人在讲解Qwen2.5

据悉，旗舰模型Qwen2.5-72B模型在MMLU-rudex基准（考察通用知识）、MBPP 基准（考察代码能力）和MATH基准（考察数学能力）的得分高达86.8、88.2、83.1。

720亿参数的Qwen2.5，甚至“跨数量级”超越4050亿巨量参数的Llama3.1-405B。

Llama3.1-405B由Meta于2024年7月发布，在150多个基准测试集中追平甚至超越了当时SOTA（业界最佳）模型GPT-4o，引发“最强开源模型即最强模型”论断。

Qwen2.5指令跟随版本Qwen2.5-72B-Instruct在MMLU-redux、MATH、MBPP、LiveCodeBench、Arena-Hard、AlignBench、MT-Bench、MultiPL-E等权威测评中，超越Llama3.1-405B。

▲Qwen2.5-72B模型测评情况

Qwen2.5再次坐稳全球最强开源大模型位置，助推“开源超闭源”行业趋势。

这是阿里云继今年6月开源通义千问Qwen2系列、赶超当时的最强开源模型Llama3-70B后，再次推出开源系列版本。

每一个新王出现后，很快就会被通义新版本超越，这已成为AI开发者圈熟悉的节奏。

9月18日晚间Qwen2.5开放后，不少开发者激动地觉都不睡了，先试再说。

▲海内外开发者热议Qwen2.5

02.

史上最大模型族群诞生
开源模型上架超百个

Qwen2.5开源模型数量史无前例。

阿里云CTO周靖人在云栖大会上宣布，Qwen2.5系列总计上架开源模型超过100个，充分适配各种场景的开发者和中小企业需求。

这响应了众多开发者的呼声，他们已经在各大社交媒体“催更”多时。

▲海内外开发者催更Qwen2.5

1、语言模型：从0.5B到72B七个尺寸，从端侧到工业级场景全覆盖

Qwen2.5开源了7个尺寸语言模型，包括0.5B、1.5B、3B、7B、14B、32B、72B，均在对应赛道实现了SOTA成绩。

▲多个尺寸Qwen2.5满足多样化场景需求

这些版本助开发者兼顾模型能力和成本，适配多种场景需求，比如，3B是适配手机等端侧设备的黄金尺寸，32B是最受开发者期待的“性价比之王”，72B是足够用于工业级、科研级场景的性能王者。

2、多模态模型：视觉模型理解20分钟视频，音语言模型支持8种语言

备受期待的大规模视觉语言模型Qwen2-VL-72B，正式开源。

Qwen2-VL能识别不同分辨率和长宽比的图片，理解20分钟以上长视频，具备调节手机和设备的视觉智能体能力，视觉理解能力超越GPT-4o水平。

▲大规模视觉语言模型Qwen2-VL-72B开源

在全球权威测评LMSYS Chatbot Arena Leaderboard上，Qwen2-VL-72B成为得分最高的开源视觉理解模型。

▲Qwen2-VL-72B成为得分最高的开源视觉理解模型

Qwen2-Audio大规模音频语言模型则是一款能听懂人声、音乐、自然声音的开源模型，支持语音聊天、音频信息分析，支持超8种语言和方言，在主流测评指标上全球领先。

3、专项模型：最先进开源数学模型亮相，赶超GPT-4o

用于编程的Qwen2.5-Coder、用于数学的Qwen2.5-Math，也于本次云栖大会宣告开源。

其中，Qwen2.5-Math是迄今为止最先进的开源数学模型系列，本次开源了1.5B、7B、72B三个尺寸和数学奖励模型Qwen2.5-Math-RM。

▲Qwen2.5-Math开源

旗舰模型Qwen2-Math-72B-Instruct在数学相关的下游任务中，表现优于GPT-4o和Claude 3.5等专有模型。

Qwen2.5-Coder在多达5.5T tokens的编程相关数据上作了训练，当天开源1.5B和7B版本，未来还将开源32B版本。

▲Qwen2.5-Coder开源

此外值得一提的是，通义千问旗舰模型Qwen-Max也实现了全面升级，在MMLU-Pro、MATH等十多个权威基准上接近甚至赶超GPT-4o，上线通义千问官网和通义APP。用户也可通过阿里云百炼平台调用Qwen-Max的API。

▲Qwen-Max实现全面升级

自2023年4月初代通义千问大模型发布以来，阿里云让中国企业低成本用上大模型，反过来也推动今天的Qwen2.5系列“越用越好用”。

Qwen2.5系列模型涵盖基础版本、指令跟随版本、量化版本，正是在实战场景中迭代而来。

03.

通义千问Qwen下载破4000万
“产仔”超5万个

狂飙一年半，通义千问已成为仅次于Llama的世界级模型群。

周靖人公布的两组最新数据对此进行了印证：

一是模型下载量，截至2024年9月初，通义千问开源模型累计下载量已经突破4000万，这是开发者和中小企业用脚投票的结果；

二是衍生模型数量，截至9月初，通义原生模型和衍生模型总数超过5万个，仅次于Llama。

▲通义千问开源模型累计下载量突破4000万

至此，“万模同源”已成为中国大模型产业发展的显著趋势。

什么概念？国产开源不仅在性能上稳居全球榜首，并且在生态上开疆扩土。海内外的开源社区、生态伙伴、开发者成为通义千问的“自来水”，通义千问成为很多企业采用的第一款大模型，也是用得最久的大模型。

早在2023年8月，阿里云就开源通义千问70亿参数模型至免费可商用，再到今年的Qwen1.5、Qwen2、Qwen2.5接连发布，让开发者快速用上最先进模型的同时，获得更大控制权和调优空间，从而成为更多企业的首选。

7月初，全球最大开源社区Hugging Face的工程师曾发推认证，通义是中国最卷的大模型。而通过阿里云，通义大模型已经服务了各行各业的30多万客户。在刚刚过去的2024年第二季度（对应阿里巴巴2025财年Q1），阿里云AI相关产品收入实现三位数增长。

▲通义大模型服务超30万客户

阿里云做对了什么？

笔者认为，不同于国外大厂微软与ChatGPT强绑定、亚马逊AWS汇聚三方模型做底层基础设施，阿里云综合两者优势，一开始就选择了AI基础设施服务和自研大模型两手抓。

聚焦自研模型方面，阿里云是国内唯一坚定明确模型开源开放的云巨头，在模型突破、生态兼容、开发者服务等方面都不遗余力地做出了巨大投入，从而让通义大模型一步步走进世界AI竞争的核心圈。

04.

结语：万模同源
行业分水岭时刻

开源模型正追平甚至赶超闭源模型。从7月Meta的Llama-405B到今天阿里云的Qwen2.5-72B，“万源同模”景观正在形成。通义千问大模型的一年半狂飙，让众多行业和企业实现更低成本AI规模化落地，行业正进入新的分水岭时刻。

END

观看中国人力资源管理数智化发展白皮书全文请扫下图二维码

期待你的

分享

点赞

在看

http://mp.weixin.qq.com/s?__biz=Mzg5NzU2MDIyMw==&mid=2247513013&idx=1&sn=5695633d0ed093059289e6787d75e0de

青贝克智慧工场

中国人力资源开发研究会智能分会官方公众号，致力于推动人力资源智能化的研究与应用，促进相关人才的职业技能培养和职业发展，提供相关学术成果、专业知识、实践案例和专业化咨询服务，组织智慧沙龙等，为您提供一站式的人力资源智能化的共享平台。

最新文章

哪些AI产品，真的有人在用？

“AI教父”获诺奖，背后是时代变天了！

AI教育应用落地的首枪终于打响，但扣动扳机的并不是GPT？

人才友好型城市50强榜单出炉：哪些城市最吸引人才？

本科、研究生人数“倒挂”背后：追赶的蓝领与下沉的白领

百度搭台，创业者打擂，智能体时代来临

失业率再创新高，年轻人还要不要跳槽？

怒斥学生用 ChatGPT 代写作业，教授发帖：他们的思维能力正在退化！

普通人如何守护心力，穿越周期？

百模大战和价格战之后，大模型下一个战场在工具平台

万字深剖！13位AI巨擘联袂，1.6万字解码生成式AI产品

汇聚人才智慧，共创人才友好型城市——2024年人才友好型城市研究报告发布

智能分会荣获中国人力资源开发研究会“2024年度先进分支机构”称号

停止内耗最好的方式：2个字

北京，冲刺人形机器人第一城

【行业要闻】人力数智化新闻资讯直通车

HRSSC价值衡量的要点：关键目标设定与优化

脉脉林凡：AI落地商业的3词6字5概念

全球开源大模型新王！阿里Qwen2.5来了，性能跨量级超Llama3.1

人形机器人产业的新机遇

外部抓机会是治愈内部问题的良方

除了延迟退休，你更应该知道这件事

刘润：仅靠战术上的勤奋，打不下明天的山头！

【行业要闻】人力数智化新闻资讯直通车

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

案例分享 | HRSSC如何引领HR数字化转型？

不焦虑的人，都有1个顶级心态

蚂蚁的AI故事，讲到哪儿了？

网易ToB，一场大模型内生外化之战

AI是技术，而非神话！

【行业要闻】人力数智化新闻资讯直通车

延迟退休要来！谁是全国最“老”的地方？

未来，需要重新审视人工智能对人类的意义

HR在数字化转型中的关键角色与核心成功策略

AI正在重构支付宝

数字化，如何提升人效？

管理的本质：管人、管事、管自己

中小企业用AI，怎么把门槛打下来

【行业要闻】人力数智化新闻资讯直通车

从AI城市体到千行百业，曙光跑出数字山河间的中国速度

数字化管理五人谈

艾瑞数智张晓璐：大模型如何重塑行业生态

数字人狂奔600天，还有四大槛

智慧金融新篇章：AI、算力与区块链，如何惠及亿万百姓生活？

真正的将才，都是长出来的

管人3件事：人才、人性、人效

用新质生产力思维审视企业管理

【行业要闻】人力数智化新闻资讯直通车

刘辉丨无差异、不分享、难流动，优秀人才怎么脱颖而出？

甘华鸣：从区块链技术看未来科技金融的发展

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉