智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！

科技 2024-12-31 09:43 北京

金磊发自凹非寺
量子位 | 公众号 QbitAI

终于，在2024年的最后一天，智谱版o1也来了！

名字叫做GLM-Zero-Preview，Zero推理模型（下文简称Zero模型），自称是擅长通过逻辑推理来解决数理问题。

既然如此，那么我们就直接一套2024年考研数学真题来伺候一下吧~

规则也很简单，就是把真题的题目以截图的方式“喂”给Zero模型，这样也可以顺便考验一下它的视觉理解能力。

例如我们小试牛刀地截取第一道函数选择题：

这道题怎么解？

从Zero模型生成的结果来看，主要分为四大部分：

读题审题
深度思考
解题步骤
最终答案

上下滑动查看所有内容：

有意思的是，Zero模型在深度思考过程中，它的思维方式像极了人类，而且每一步思考也描述的非常详细，最终给出了正确答案：C。

但同样的问题给到了ChatGPT o1……Emmm，先败在了“识图”这一步。

再来第二道测试题——线性代数：

还是同样的“配方”，来看下Zero的解题过程（上下滑动查看所有内容）：

Zero模型按照逻辑顺序一步步拆解了这个问题，从基本定义、条件推导到最终结果，展示了较为清晰的解题思路。

在过程中，Zero模型对关键条件还进行了分步分析，同时对结果的数学意义进行了验证。

最终，依旧是给出了正确答案：D。

在函数、线性代数之后，我们再来一道概率统计：

我们来看下Zero模型的解析过程（上下滑动查看所有内容）：

回答依然正确：D。

在尝试不同类型的选择题之后，我们不妨再来测一波大题。

直接上压轴题！

值得注意的一点是，这道题需要同时解答两个问题，我们来看下结果（上下滑动查看所有内容）：

Zero模型统统答对了！

看来智谱版o1敢把“擅长数理问题”直接打出来，确实是有点东西在身上的。

据官方介绍，同基座模型相比，GLM-Zero-Preview 在不显著降低通用任务能力的情况下，在专家任务能力方面表现大幅提升。

并且它在AIME 2024、MATH500 和 LiveCodeBench评测中，已经取得了与OpenAI o1-preview相当的效果。

而且有一说一，抛出解析过程和结果，相比其它类o1大模型来说，单是整体的布局这块，不论是文字和公式，似乎更加符合数学之美。

但毕竟数学还是只是评测大模型推理能力的维度之一，因此，我们继续开启更多维度的“极限挑战”。

一句话让马斯克跳舞变字符画

代码编程能力，同样也是类o1推理模型重要的一面。

我接下来就实测一下Zero模型能否用一句话生成小游戏：

用HTML做一个贪吃蛇。

Zero模型根据要求，一步一步推理过后生成了一段完整的代码（上下滑动查看所有内容）：

然后我们只需复制粘贴到了IDE里，并在浏览器中运行，一个可玩的简单版贪吃蛇游戏就做好了。

再来一个有意思的：

HTML实现动态黑客帝国雨，全屏幕，竖着下，错落有致，敏感交错。

我们同样先来看下生成出来的代码（上下滑动查看所有内容）：

还是一个复制粘贴的动作，来看下效果：

嗯，确实是有点那个味道了。

或许你会说，这些代码功能过于简单了，别急，我们这就来上点难度——

把马斯克跳舞名场面视频，一句话变成字符画版本！

我们的Prompt是这样的：

在Mac中，用Python把输入视频内容变成字符画，然后再输出一个新的视频。

然后Zero模型就给出了代码（上下滑动查看所有内容）：

同样仅需复制粘贴，然后设置一些输入、输出文件的路径，运行代码后我们就可以得到这样的视频啦：

（PS：背景音乐为后期所配）

如果想再来点颜色，也是一句话的是：

在上面的代码基础上，进行彩色化处理。

由此可见，Zero模型在代码生成方面可以说是过关的。

智谱的大模型再添一块拼图

在2024年的最后一天，智谱也是终于在各大玩家之后发布了类o1模型。

由此，其大模型的矩阵也变得更加庞大：

文本生成（GLM）、图像生成（CogView）、视频生成（CogVideoX）、音效生成（CogSound）、音乐生成（CogMusic）、端对端语音（GLM-4-Voice）、自主代理（AutoGLM）、AI推理（GLM-Zero-Preview）。

能够以如此“全栈”姿态在大模型时代角逐的玩家，着实是屈指可数。

而另一方面，若是细数今年内智谱的技术发布时间轴，结果是更加的密集且紧凑：

11月，发布AutoGLM升级版，可自主执行超50步的长步骤操作，也可以跨app执行任务，开启“全自动”上网新体验，支持基于浏览器的数十个网站的无人驾驶。
11月，发布GLM-PC内测，基于智谱多模态模型CogAgent，探索“无人驾驶”PC。可代替用户参与视频会议、处理文档、搜索网页并总结、远程定时操作。
11月，视频模型CogVideoX升级，支持10s时长、4k、60帧超高清画质、任意尺寸以及更好人体动作和物理世界模拟。
10月，GLM-4-Voice端到端情感语音模型发布，并上线清言app，能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断。
10月，AutoGLM内测版发布，只需接收简单的文字/语音指令，就可以模拟人类操作手机，不受限于API调用。
10月，和三星、高通宣布合作，分别共同打造AI产品和端侧多模态交互大模型。
8月，发布跨文本音频和视频模态实时推理大模型GLM-4-Videocall，实现AI与人实时视频通话。通过API接口可无缝部署在包括手机在内各类带摄像头端侧设备。
8月，新一代基座大模型GLM-4-Plus发布，语言理解、指令遵循、长文本处理等方面性能全面提升。
7月，视频生成模型“清影”在清言PC端、移动应用端以及小程序端正式上线，提供文本生成视频和图像生成视频的服务，30秒即可完成6秒视频生成，真实还原物理世界中的运动过程。
6月，GLM-4-9B模型，支持100万Tokens长文本和26种语言，多模态能力比肩GPT-4V。
1月，新一代基座大模型GLM-4发布，整体性能相比上一代大幅提升，支持更长上下文，具备更强多模态能力，推理速度更快，支持更高并发，大大降低推理成本。

这也有就很好理解为何在前不久，智谱能够拿到30亿元的新一轮融资，估值已超200亿元。

模型够全栈，技术够密集，市场够认可，智谱可以说是给今年画上了较为圆满的句号。

除此之外，智谱选择在今年最后一天发布类o1模型，其实也在预示着明年的大模型发展依旧会在推理Scaling Law上发力。

但与此同时，诚如ChatGPT o3这般“烧钱猛兽”目前也无法完全应对Frontier Math、ARC-AGI等超高难度的测试。

那么智谱又将会在推理这块如何出奇制胜，是值得期待一波。

Zero模型体验地址：
1、智谱清言：
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
2、智谱开放平台：
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview

2000万token免费体验资源包领取地址：
https://zhipuaishengchan.datasink.sensorsdata.cn/t/7K

参考链接：
https://kaoyan.eol.cn/shiti/shuxue/202312/t20231225_2550980_7.shtml

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

量子位

追踪人工智能新趋势，关注科技行业新突破

OpenAI再招华人研究员！高中入围美国“少年诺贝尔奖”，还在哈佛教书

Grok新生图功能大翻车，画人总是画不对，网友喊话马斯克：给谷歌道歉

你的专属“钢铁侠”助手OS Agents来了！浙大联手OPPO、零一万物等10个机构推出全新综述

CES2025倒计时，量子位AI专题已就位

抑郁6个月后，DeepMind两万引科学家离世，万字绝笔谈在AI行业工作的压力

昆仑万维周亚辉：AGI时代也叫机器人时代，决定未来十年新首富

阿里零一万物强强联合！成立产业大模型联合实验室

4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

10秒极速出片！还有超多特效模版，国产视频模型又整新活了

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

CES2025倒计时，量子位AI专题已就位

具身智能工业场景需求明确，扩大应用场景和处理复杂数据仍是发展重点｜云深处李超@MEET2025

潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

阿里前端第一人AI创业首秀，要做全球内容创作者的GitHub！公司俩月估值过亿，5k人排队内测

本科学历但创造出GPT，奥特曼盛赞为「爱因斯坦级」天才，OpenAI总裁：他想要的，我们都给

搞乐队的物理学家，开始给普通人科普黑洞了

这届打工人太难带？全能智能体出手了

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

黄仁勋自掏腰包50亿，开源英伟达GPU管理工具

ViT作者飞机上也要读的改进版Transformer论文，花2个小时详细批注解读分享出来

奥特曼公布OpenAI新年目标：AGI/Agent排前列，4o/Sora要更新，还有……

智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！

智源王仲远：多模态大模型对产业更加重要，得多模态大模型得天下 | MEET 2025

AI视频突飞猛进这一年，国产之光可灵AI笑到最后

苹果布局人形机器人：“自我为中心”感知系统动态避障，比英伟达cuRobo计算效率提升26倍

LeCun：对人工智能末日的担忧被夸大了，Meta正在构建超级智能助手

一张图生成高质量广视野3D场景，还可控制摄像轨迹

南京大学FinTech课题组招募大模型AI4Finance国际联培博士生

稚晖君开源百万机器人真机数据集

南大周志华：百万模型进入学件基座系统，很多我们没预期过的事也有可能实现 | MEET 2025

DeepSeek V3“报错家门”：我是ChatGPT

算力直降97%，GPT-3存储只用20MB？！这篇直接在1.58-bit下训练模型的新论文火了

机器人空间泛化也有Scaling Law！清华新国大新算法框架让机器人操作更加鲁棒

北大数学家独作论文登数学顶刊！袁新意统一了算术与几何Bogomolov猜想

CPO薪资倒挂CEO，创业公司薪酬情况大起底

超越ControlNet++！腾讯优图提出动态条件选择新架构

OpenAI科学家：现有模型+后训练足以产生黎曼猜想的新证明

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

3D版抖音有望诞生，零门槛3D创作时代来临｜VAST宋亚宸@MEET 2025

协议曝光！原来微软OpenAI这样定义AGI

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

把注意力计算丢给CPU，大模型解码吞吐量提高1.76~4.99倍

宿舍/房间网不好？一加新机能穿3墙、离200米接收wifi信号，玩《原神》平均帧率超120

2年间AI大模型成本骤降万倍，商业化应用加速跑｜智谱张帆@MEET2025

智平方郭彦东：具身智能到达GPT-2时刻，产业化成败在于“物理世界大模型”工程化能力

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

英伟达年终核弹！全新B300为o1推理大模型打造，RTX5090也曝光了

钛动科技陈德品：Scaling Law在营销应用中也适用，AIGC内容正在催生爆款 | MEET2025

o3挑战ARC-AGI，遇见大网格就懵圈？英国工程师：ARC-AGI不适合大模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！

金磊发自凹非寺
量子位 | 公众号 QbitAI

一句话让马斯克跳舞变字符画

更多维度实测

视觉推理

加密问题

经典问题：9.9和9.11哪个大？

智谱的大模型再添一块拼图

智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！

金磊 发自 凹非寺量子位 | 公众号 QbitAI

一句话让马斯克跳舞变字符画

更多维度实测

视觉推理

加密问题

经典问题：9.9和9.11哪个大？

智谱的大模型再添一块拼图

金磊发自凹非寺
量子位 | 公众号 QbitAI