爆了！阿里再次第一。。。

科技 2024-10-24 12:12 美国

你好，我是郭震

今年9月，阿里云开源Qwen2.5大模型，经过1个月的使用，另结合国内外主流榜单，得出结论：爆！Qwen2.5是目前「国内第一开源大模型」。

说到这里，可能有些人不禁会问，你怎么证明它是国内最好的开源大模型呢？接下来，给大家论述下，阅读完后，就知道我说的有无道理。

最近做科研，正好也在比较国内外各个不同的大模型，很多朋友应该听过GPT-4o这个模型吧，它在很长一段时间都是领先的大模型之一。

今天拿GPT-4o和Qwen2.5，从数学推理维度，测试一道中小学生数学题，题目来自推理数据集GSM8K，题目是英文，英文不好的，直接观察结果就行：

首先提问GPT4o，给出的答案是8：

然后同样问题提问Qwen2.5，它给出的答案是10：

看到Qwen2.5的回复看起来明显是靠谱的，正确答案的确也是10，这是一道求解一元一次方程的问题，Qwen2.5从推理到最后的答案，回答都超过GPT4o。

在实测了两者数学推理的能力后，初步证明了Qwen2.5的性能很爆，具有很好的数学推理能力。

看了这个具体的例子，接下来看下各个大模型的榜单排名情况。

9月12日，gpt-o1发布，大模型的推理能力提升到一个新的level，根据hugging face的大模型榜单：

Qwen2.5是国内第一开源大模型，领先于Llama3.1和GPT-4。

这个榜单名字叫ZeroEval，它是一个非常综合的榜单，具有很强的说服力。他从四个不同纬度评估大模型能力，MMLU-Redux数据集评估知识推理，文章开头使用的GSM和MATH（Level 5）评估数学推理，ZebraLogic评估逻辑推理，CRUX评估代码推理，ZeroEval榜单介绍原文如下所示：

另外还有更多其他榜单，如下面，Qwen2.5的代码能力，红框所示，超过o1：

所以，想学习编程的，可多借助Qwen2.5，提升学习效率。

Qwen2.5占据国内最好开源大模型，它是如何做到的？

Qwen2.5是在18T tokens数据上进行预训练，拥有更多的知识、更强的编程和数学能力。

Qwen2.5-72B模型正如我们在Zero-Eval榜单中看到的，在MMLU-rudex基准（考察通用知识）、MBPP 基准（考察代码能力）和MATH基准（考察数学能力）的得分高达86.8、88.2、83.1，如下图所示：

在生态上，通义千问(Qwen) 开疆拓土，与海内外的开发者共建生态网络，截至2024年9月中旬，通义千问开源模型下载量突破4000万，Qwen系列衍生模型总数已超过7万个，超越Llama，成为国内外衍生模型最多的大模型。

综合以上各个不同榜单，Qwen多模态训练和得分，开源社区衍生模型数量，得出结论，目前国内最好用的大模型，Qwen2.5，应该当之无愧！

下面是我创作的一个AI教程，全部开源免费，目前下载量突破10万：

PDF 指南思维导图

这个《普通人学AI指南》PDF，一共42页，都是我来编写的，完全免费，大家在我下面的公众号回复：AI，直接拿走。

以上。如果对你有用，随手点个赞、在看、转发三连吧，如果以后想第一时间收到推送，也可以给我个星标⭐。谢谢你看我的文章，下篇文章再见。

点击阅读原文，学习编程和AI

http://mp.weixin.qq.com/s?__biz=MzI3NTkyMjA4NA==&mid=2247515384&idx=1&sn=3185edf9a80cd49e68ba4084036483fd

郭震AI

郭震，工作8年后到美读AI博士，努力分享一些最新且有料的AI。

最新文章

大模型算法岗工资都是4开头了吗！。。。

国内12家主流大模型，谁是地表最强？亲测后发现是它！。。。

985计算机硕士，拿了10个offer。。。

字节2024年不同岗位的薪资表，差别蛮大。。。

终于可以这样在线刷题、在线编程了，好用到爆！。。。

文字转图表，这个AI工具秒杀PPT。。。

字节不同职级薪资待遇一览表。。。

他偷瞄的AI神器，竟是百度网盘的隐藏功能。。。

AI“底裤“被扒，百度文库上榜。。。

值得去的16家IT公司及待遇（西安篇）。。。

现在大专生年薪都35万了吗！。。。

飞行员薪资曝光，程序员看完后傻眼了。。。

值得去的20家国企名单（北京篇）。。。

值得去的15家IT公司及待遇（苏州篇）。。。

爆了！这个AI 应用开发。。。

值得去的25家IT公司及薪资（成都篇）。。。

值得去的20家央国企名单。。。

清华硕士8面字节，最后被拒。。。

爆了！阿里再次第一。。。

快手不同职级薪资待遇一览表。。。

程序员炒股亏了48万。。。

比亚迪在越南员工的薪资曝光。。。

值得去的20家IT公司及薪资（杭州篇）。。。

他19天副业收入过千。。。

拼多多不同职级薪资待遇一览表。。。

80w起！零成本快速入门大模型指南

来了！GPT4.0接入个人微信！！

全球顶尖AI人工智能大集合：ChatGPT、Midjourney、Suno、Luma等等

2024年民企前35强榜单一览表。。。

美团不同职级薪资待遇一览表。。。

纽约街头偶遇马云。。。

值得去的20家IT公司及薪资待遇（广州篇）

一条短视频赚了2154元（附教程）。。。

华为不同职级薪资待遇一览表。。。

值得去的30家IT公司（深圳篇）。。。

哇，OpenAI又一重磅功能来袭。。。

百度不同职级薪资一览表

值得去的IT公司（上海篇）。。。

比亚迪员工突然收到8万6千多的奖金。。。

院士密集发声在提醒我们什么？

小米不同职级薪资一览表

值得去的IT公司（北京篇）。。。

鹅厂不同职级薪资待遇一览表

值得去的IT公司前10名榜单。。。

简历投了上百家，0面试正常吗？

京东不同职级薪资待遇一览表

师兄学历变强了，但找工作却血亏了。。。

严重了！ "AI程序员"要来了。。。

阿里不同职级薪资待遇一览表。。。

AI生成各种证件照工具火了，又能省钱了。。。

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉