实测天工4.0,比肩o1,力压kimi,推理能力大增!
创业
2025-01-08 23:43
广东
作者|子川
来源|AI先锋官
原以为2025年刚开始,各大模型厂商还在休养生息,没想到天工打响了第一枪。近日,昆仑万维突然就发布了 「天工大模型4.0」o1版(Skywork o1)与4o版(Skywork 4o)。目前,这两款模型已正式登陆昆仑万维旗下天工web与APP,全面向用户开放。传送门:https://www.tiangong.cn/![]()
![]()
从官方放出的榜单不难看出,在数学、代码基准测试中,Skywork o1的能力要优于国产模型,看起来不如o1-mini。大家都知道,官方发出来的榜单只能信一半,是骡子还是马,得拉出来来溜溜才知道。 有测评界的苹果之称:o1以及我们国产弄潮儿——kimi。这道题,大家并不陌生,每逢测试,必选题,但是绝大部分的模型都拜倒在这道题下,我们来看一下Skywork o1表现如何。居然答对了,要知道这道题在小编的印象中好像就o1回答正确过,想不到Skywork o1也回答正确了,好像有点意思了。这不,2025年初了,高三年级也陆陆续续的开始了摸底测试,刚好拿来测试用。最重要的是,新鲜出炉的真题,大概率还未当做训练数据。![]()
郑州一中数学摸底开始最后一道选择题
先来看一下Skywork o1的回答如何。
![]()
![]()
假设有一个池塘,里面有无穷多的水。现有 2 个空水壶,容积分别为 5 升和 6 升。问题是如何只用这 2 个水壶从池塘里取得 3 升的水。![]()
![]()
看这次kimi能否顶住压力。回答错误,它把6升水壶中的水倒掉一半,就变成3升了...众所周知,数独题一直是大模型的拦路虎,不知多少AI模型倒在数独题之下,刚好,用来测一下。折戟了,回答错误,最后一列居然冒出相同的数字,再来看看另外两位选手的表现如何。这几道题,虽然没有基准测评那么全面,但可以很直观的让大家感受到彼此的差距。最后不得不说,天工的推理能力真的提升了不少,虽说还比不上o1,但是国产AI模型的第一梯队还是稳稳的。随后小编还去扒了一下Skywork o1的技术路径,果然变强都是有原因的。根据官方透露,Skywork o1变强的核心在于这三大技术迭代:天工团队研发了多智能体体系,并建立了一套涵盖数学、代码、常识和伦理的高质量分步推理与反思数据集。通过强化监督学习与拒绝采样,从而提升了模型在长思考任务中的一致性和准确性。新的 Skywork-PRM(Process Reward Model)在奖励模型中加入了分步推理激励,使模型能在数学、逻辑、日常对话等不同场景中进行更细致的评估和自动纠错,从而实现多种场景的推理能力覆盖。这是Q*算法首次被应用到全球的大型语言模型中。它将多步思考看作一种有策略的搜索方式,帮助模型像人类深思熟虑一样回答问题,并以树状结构呈现。这种方法不仅减少了无用的输出,还能在处理复杂问题时合理分配资源,使Skywork o1在解决难题时更快、更准确。昆仑万维在过去一年的发展可谓硕果累累。不仅在模型研发方面展现出了强劲实力,更是构建起了一个全方位的AI生态版图:AI音乐(SkyMusic)、AI搜索(天工AI助手),到AI游戏(《Club Koala》)与AI短剧(SkyReels)。似乎,已经迫不及待得要在AI场乘风破浪,大展拳脚了。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
![]()
![]()
![]()
![](/static/gotop.png)