首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

实测天工4.0，比肩o1，力压kimi，推理能力大增！

创业 2025-01-08 23:43 广东

作者｜子川

来源｜AI先锋官

原以为2025年刚开始，各大模型厂商还在休养生息，没想到天工打响了第一枪。

近日，昆仑万维突然就发布了「天工大模型4.0」o1版（Skywork o1）与4o版（Skywork 4o）。

开箱即用，重点还是免费！

目前，这两款模型已正式登陆昆仑万维旗下天工web与APP，全面向用户开放。

传送门：https://www.tiangong.cn/

不说废话，先来看一眼交出的成绩单——

Skywork o1在数学基准评测上的表现

Skywork o1在代码基准评测上的表现

从官方放出的榜单不难看出，在数学、代码基准测试中，Skywork o1的能力要优于国产模型，看起来不如o1-mini。

大家都知道，官方发出来的榜单只能信一半，是骡子还是马，得拉出来来溜溜才知道。

老规矩，测一波！

参加的选手：

有测评界的苹果之称：o1以及我们国产弄潮儿——kimi。

题目1：数草莓

这道题，大家并不陌生，每逢测试，必选题，但是绝大部分的模型都拜倒在这道题下，我们来看一下Skywork o1表现如何。

居然答对了，要知道这道题在小编的印象中好像就o1回答正确过，想不到Skywork o1也回答正确了，好像有点意思了。

题目2：未被训练的高考数学真题

这不，2025年初了，高三年级也陆陆续续的开始了摸底测试，刚好拿来测试用。最重要的是，新鲜出炉的真题，大概率还未当做训练数据。

郑州一中数学摸底开始最后一道选择题

先来看一下Skywork o1的回答如何。

正确！

在来看一下o1能否解答出来。

推理过程较长，就不放出来了

同样，回答正确。

再来看一下kimi的表现如何。

kimi只找到两个正确答案，答案应是A，C，D。

题目3：3升水问题

假设有一个池塘，里面有无穷多的水。现有 2 个空水壶，容积分别为 5 升和 6 升。问题是如何只用这 2 个水壶从池塘里取得 3 升的水。

先来看一下Skywork o1的回答。

不负众望，正确。

再来看看o1模型。

不愧是AI推理界的扛把子，同样正确

最后再来看一下kimi的回答：

看这次kimi能否顶住压力。回答错误，它把6升水壶中的水倒掉一半，就变成3升了...

题目4：数独题

众所周知，数独题一直是大模型的拦路虎，不知多少AI模型倒在数独题之下，刚好，用来测一下。

先来看一下是否会难住Skywork o1。

折戟了，回答错误，最后一列居然冒出相同的数字，再来看看另外两位选手的表现如何。

来看看o1表现如何。

还得是o1，回答正确。

最后我们再来看看kimi。

同样也错了。

这几道题，虽然没有基准测评那么全面，但可以很直观的让大家感受到彼此的差距。

最后不得不说，天工的推理能力真的提升了不少，虽说还比不上o1，但是国产AI模型的第一梯队还是稳稳的。

随后小编还去扒了一下Skywork o1的技术路径，果然变强都是有原因的。

根据官方透露，Skywork o1变强的核心在于这三大技术迭代：

推理反思能力训练

天工团队研发了多智能体体系，并建立了一套涵盖数学、代码、常识和伦理的高质量分步推理与反思数据集。通过强化监督学习与拒绝采样，从而提升了模型在长思考任务中的一致性和准确性。

推理能力强化学习

新的 Skywork-PRM（Process Reward Model）在奖励模型中加入了分步推理激励，使模型能在数学、逻辑、日常对话等不同场景中进行更细致的评估和自动纠错，从而实现多种场景的推理能力覆盖。

Q*算法与在线思考

这是Q*算法首次被应用到全球的大型语言模型中。它将多步思考看作一种有策略的搜索方式，帮助模型像人类深思熟虑一样回答问题，并以树状结构呈现。

这种方法不仅减少了无用的输出，还能在处理复杂问题时合理分配资源，使Skywork o1在解决难题时更快、更准确。

昆仑万维在过去一年的发展可谓硕果累累。不仅在模型研发方面展现出了强劲实力，更是构建起了一个全方位的AI生态版图：

AI音乐（SkyMusic）、AI搜索（天工AI助手），到AI游戏（《Club Koala》）与AI短剧（SkyReels）。

似乎，已经迫不及待得要在AI场乘风破浪，大展拳脚了。

.END.

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

AIGC大模型及应用精选与评测

最新文章

OpenAI 急推 o3-mini 救场，实测与DeepSeek谁是最强推理大模型

除夕无休! DeepSeek 推多模态大模型Janus-Pro，实测生图效果一般

春节旅行前，请收下夸克AI锦囊

实测豆包全家桶，推理、视觉、语音能力大增，唱歌居然跑调

均不输o1，DeepSeek、Kimi 撞车发布最新模型

实测，小红书正式上线翻译功能

对比可灵、vidu2.0，实测 Luma AI 全新视频模型Ray2

OpenAI开年首发Tasks，AI agent真的要来了？

马斯克xAI首推Grok APP，我们实测发现了这些震惊和翻车

DeepSeek推出手机App，实测体验就一个字“快”

王星被绑架案敲响警钟，看看这款国外的“黛西奶奶”AI反诈工具

“被埋男孩图”涉案者被行拘，我们实测了这些AI图鉴别工具

实测！谷歌最火 AI 工具NotebookLM重磅更新

英伟达Cosmos平台阳谋

实测天工4.0，比肩o1，力压kimi，推理能力大增！

最全！英伟达 CES 2025 发布会核心产品与技术详解

黄仁勋CES 2025演讲实录，现场“王炸”不断，5090显卡、3000美元个人AI超算等等

第一时间评测：罗永浩首个AI产品J1 Assistant，只支持英文并限制国内IP

一文带您看懂AI agent

英伟达AI科学家Jim Fan 2024年盘点(全文):DeepSeek是开源LLMs领域最大黑马

对比测试可灵1.5 ，及PK Veo2，可灵1.6物理规律、语义理解等能力皆大幅提升

DeepSeek V3 引发AI路径之辩：从“鹦鹉学舌”到“乌鸦喝水”？

理想汽车做了个独立的 AI APP

突然刷屏的ai界“拼多多”deepseek

新王诞生！阿里通义开源多模态推理模型QVQ，实测杀赢旧王ChatGPT o1

我们让这些 AI 大模型推选了 “2024年10大AI产品”

最全！ OpenAI 12天直播大戏合集（文字+视频）

又是期货，OpenAI推出全新推理模型o3，实力远超o1

深夜发布！英伟达 Jetson Orin Nano“掌中超算”到底有多强？

Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

最全！AI大模型订阅和API价格全球排行榜

Kimi 终于出手多模态！实测视觉思考模型 K1.VS. 正式版o1，不相上下

AI驱动人形机器人大爆发（附:最新锐34款人形机器人视频）

实测谷歌Gemini 2.0：数数、推理翻车，多模态惊艳，编程输Claude

新增视频编辑功能，OpenAI最大期货Sora兑现，奥特曼称其视频版 GPT-1

Sora v2即将发布，支持生成一分钟视频、多场景切换、完美的角色一致性

OpenAI上线o1满血版，ChatGPT Pro 会员200美元/月被吐槽

谷歌Genie2:单图生成无限可交互 3D 世界，马斯克要用它做游戏

“一图一世界”！李飞飞World labs 最全视频 Demo 合集

实测腾讯开源混元视频模型：PK 可灵、即梦，效果不赖

李飞飞《经济学人》撰文：AI 革命始于大语言模型，下一步是基于视觉的空间大模型

搭载阶跃大模型，这款二次元 AI 应用可读出任意物件灵魂

周鸿祎为它拍短剧，实测纳米搜索是视频创作工具，不是 AI 搜索

可口可乐AI圣诞广告惹争议，网友:令人毛骨悚然（附:其他7个品牌 AI广告）

Sora 接口泄露三小时:网友创作视频“最全合集”（附:艺术家对 OpenAI 控诉信全文）

k0-math模型上线Kimi，实测效果还不错

Luma 紧跟Runway半小时推文-图-视频模型，我们实测效果一言难尽

搜狗输入法嵌入AI 搜索功能，实测很丝滑，对比微信输入法 AI 会如何？

能替你开会的 AI 工具人他来了！只需动嘴，表情口型神同步

“乐坛ChatGPT”Suno发布V4版本，我们试了下，效果确实更好了！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉