实测天工4.0,比肩o1,力压kimi,推理能力大增!

创业   2025-01-08 23:43   广东  

作者子川

来源AI先锋官


原以为2025年刚开始,各大模型厂商还在休养生息,没想到天工打响了第一枪。
近日,昆仑万维突然就发布了 「天工大模型4.0」o1版(Skywork o1)与4o版(Skywork 4o)。
开箱即用,重点还是免费!
目前,这两款模型已正式登陆昆仑万维旗下天工web与APP,全面向用户开放。
传送门:https://www.tiangong.cn/
不说废话,先来看一眼交出的成绩单——

Skywork o1在数学基准评测上的表现

Skywork o1在代码基准评测上的表现
从官方放出的榜单不难看出,在数学、代码基准测试中,Skywork o1的能力要优于国产模型,看起来不如o1-mini。
大家都知道,官方发出来的榜单只能信一半,是骡子还是马,得拉出来来溜溜才知道。 
老规矩,测一波!
参加的选手:
有测评界的苹果之称:o1以及我们国产弄潮儿——kimi。
题目1:数草莓
这道题,大家并不陌生,每逢测试,必选题,但是绝大部分的模型都拜倒在这道题下,我们来看一下Skywork o1表现如何。
居然答对了,要知道这道题在小编的印象中好像就o1回答正确过,想不到Skywork o1也回答正确了,好像有点意思了。
题目2:未被训练的高考数学真题
这不,2025年初了,高三年级也陆陆续续的开始了摸底测试,刚好拿来测试用。最重要的是,新鲜出炉的真题,大概率还未当做训练数据。

郑州一中数学摸底开始最后一道选择题

先来看一下Skywork o1的回答如何。

正确!
在来看一下o1能否解答出来。
推理过程较长,就不放出来了

同样,回答正确。
再来看一下kimi的表现如何。
kimi只找到两个正确答案,答案应是A,C,D。
题目3:3升水问题
假设有一个池塘,里面有无穷多的水。现有 2 个空水壶,容积分别为 5 升和 6 升。问题是如何只用这 2 个水壶从池塘里取得 3 升的水。
先来看一下Skywork o1的回答。

不负众望,正确。
再来看看o1模型。

不愧是AI推理界的扛把子,同样正确
最后再来看一下kimi的回答:
看这次kimi能否顶住压力。回答错误,它把6升水壶中的水倒掉一半,就变成3升了...
题目4:数独题
众所周知,数独题一直是大模型的拦路虎,不知多少AI模型倒在数独题之下,刚好,用来测一下。
先来看一下是否会难住Skywork o1。
折戟了,回答错误,最后一列居然冒出相同的数字,再来看看另外两位选手的表现如何。
来看看o1表现如何。
还得是o1,回答正确。
最后我们再来看看kimi。
同样也错了。
这几道题,虽然没有基准测评那么全面,但可以很直观的让大家感受到彼此的差距。
最后不得不说,天工的推理能力真的提升了不少,虽说还比不上o1,但是国产AI模型的第一梯队还是稳稳的。
随后小编还去扒了一下Skywork o1的技术路径,果然变强都是有原因的。
根据官方透露,Skywork o1变强的核心在于这三大技术迭代:
推理反思能力训练
天工团队研发了多智能体体系,并建立了一套涵盖数学、代码、常识和伦理的高质量分步推理与反思数据集。通过强化监督学习与拒绝采样,从而提升了模型在长思考任务中的一致性和准确性。
推理能力强化学习
新的 Skywork-PRM(Process Reward Model)在奖励模型中加入了分步推理激励,使模型能在数学、逻辑、日常对话等不同场景中进行更细致的评估和自动纠错,从而实现多种场景的推理能力覆盖。
Q*算法与在线思考
这是Q*算法首次被应用到全球的大型语言模型中。它将多步思考看作一种有策略的搜索方式,帮助模型像人类深思熟虑一样回答问题,并以树状结构呈现。
这种方法不仅减少了无用的输出,还能在处理复杂问题时合理分配资源,使Skywork o1在解决难题时更快、更准确。
昆仑万维在过去一年的发展可谓硕果累累。不仅在模型研发方面展现出了强劲实力,更是构建起了一个全方位的AI生态版图:
AI音乐(SkyMusic)、AI搜索(天工AI助手),到AI游戏(《Club Koala》)与AI短剧(SkyReels)。
似乎,已经迫不及待得要在AI场乘风破浪,大展拳脚了。


 .END.
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾


AI先锋官
AIGC大模型及应用精选与评测
 最新文章