爆了!阿里再次第一。。。

科技   2024-10-24 12:12   美国  

你好,我是郭震

今年9月,阿里云开源Qwen2.5大模型,经过1个月的使用,另结合国内外主流榜单,得出结论:爆!Qwen2.5是目前「国内第一开源大模型」。

说到这里,可能有些人不禁会问,你怎么证明它是国内最好的开源大模型呢?接下来,给大家论述下,阅读完后,就知道我说的有无道理。

最近做科研,正好也在比较国内外各个不同的大模型,很多朋友应该听过GPT-4o这个模型吧,它在很长一段时间都是领先的大模型之一。

今天拿GPT-4o和Qwen2.5,从数学推理维度,测试一道中小学生数学题,题目来自推理数据集GSM8K,题目是英文,英文不好的,直接观察结果就行:

首先提问GPT4o,给出的答案是8:

然后同样问题提问Qwen2.5,它给出的答案是10:

看到Qwen2.5的回复看起来明显是靠谱的,正确答案的确也是10,这是一道求解一元一次方程的问题,Qwen2.5从推理到最后的答案,回答都超过GPT4o。

在实测了两者数学推理的能力后,初步证明了Qwen2.5的性能很爆,具有很好的数学推理能力。



看了这个具体的例子,接下来看下各个大模型的榜单排名情况。
9月12日,gpt-o1发布,大模型的推理能力提升到一个新的level,根据hugging face的大模型榜单:
Qwen2.5是国内第一开源大模型,领先于Llama3.1和GPT-4。
这个榜单名字叫ZeroEval,它是一个非常综合的榜单,具有很强的说服力。他从四个不同纬度评估大模型能力,MMLU-Redux数据集评估知识推理,文章开头使用的GSM和MATH(Level 5)评估数学推理,ZebraLogic评估逻辑推理,CRUX评估代码推理,ZeroEval榜单介绍原文如下所示:

另外还有更多其他榜单,如下面,Qwen2.5的代码能力,红框所示,超过o1:
所以,想学习编程的,可多借助Qwen2.5,提升学习效率。

Qwen2.5占据国内最好开源大模型,它是如何做到的?
Qwen2.5是在18T tokens数据上进行预训练,拥有更多的知识、更强的编程和数学能力。
Qwen2.5-72B模型正如我们在Zero-Eval榜单中看到的,在MMLU-rudex基准(考察通用知识)、MBPP 基准(考察代码能力)和MATH基准(考察数学能力)的得分高达86.8、88.2、83.1,如下图所示:

在生态上,通义千问(Qwen) 开疆拓土,与海内外的开发者共建生态网络,截至2024年9月中旬,通义千问开源模型下载量突破4000万,Qwen系列衍生模型总数已超过7万个,超越Llama,成为国内外衍生模型最多的大模型。
综合以上各个不同榜单,Qwen多模态训练和得分,开源社区衍生模型数量,得出结论,目前国内最好用的大模型,Qwen2.5,应该当之无愧!

下面是我创作的一个AI教程,全部开源免费,目前下载量突破10万:
PDF 指南思维导图
这个《普通人学AI指南》PDF,一共42页,都是我来编写的,完全免费,大家在我下面的公众号回复:AI,直接拿走。
以上。如果对你有用,随手点个赞、在看、转发三连吧,如果以后想第一时间收到推送,也可以给我个星标⭐。谢谢你看我的文章,下篇文章再见。
点击阅读原文,学习编程和AI

郭震AI
郭震,工作8年后到美读AI博士,努力分享一些最新且有料的AI。
 最新文章