智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

科技   2024-12-31 09:43   北京  
金磊 发自 凹非寺
量子位 | 公众号 QbitAI

终于,在2024年的最后一天,智谱版o1也来了!

名字叫做GLM-Zero-Preview,Zero推理模型(下文简称Zero模型),自称是擅长通过逻辑推理来解决数理问题

既然如此,那么我们就直接一套2024年考研数学真题来伺候一下吧~

规则也很简单,就是把真题的题目以截图的方式“喂”给Zero模型,这样也可以顺便考验一下它的视觉理解能力。

例如我们小试牛刀地截取第一道函数选择题

这道题怎么解?

从Zero模型生成的结果来看,主要分为四大部分

  1. 读题审题

  2. 深度思考

  3. 解题步骤

  4. 最终答案

上下滑动查看所有内容:

有意思的是,Zero模型在深度思考过程中,它的思维方式像极了人类,而且每一步思考也描述的非常详细,最终给出了正确答案:C

但同样的问题给到了ChatGPT o1……Emmm,先败在了“识图”这一步。

再来第二道测试题——线性代数

还是同样的“配方”,来看下Zero的解题过程(上下滑动查看所有内容)

Zero模型按照逻辑顺序一步步拆解了这个问题,从基本定义、条件推导到最终结果,展示了较为清晰的解题思路。

在过程中,Zero模型对关键条件还进行了分步分析,同时对结果的数学意义进行了验证。

最终,依旧是给出了正确答案:D

在函数、线性代数之后,我们再来一道概率统计

我们来看下Zero模型的解析过程(上下滑动查看所有内容)

回答依然正确:D。

在尝试不同类型的选择题之后,我们不妨再来测一波大题。

直接上压轴题!

值得注意的一点是,这道题需要同时解答两个问题,我们来看下结果(上下滑动查看所有内容)

Zero模型统统答对了!

看来智谱版o1敢把“擅长数理问题”直接打出来,确实是有点东西在身上的。

据官方介绍,同基座模型相比,GLM-Zero-Preview 在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升。

并且它在AIME 2024、MATH500 和 LiveCodeBench评测中,已经取得了与OpenAI o1-preview相当的效果。

而且有一说一,抛出解析过程和结果,相比其它类o1大模型来说,单是整体的布局这块,不论是文字和公式,似乎更加符合数学之美

但毕竟数学还是只是评测大模型推理能力的维度之一,因此,我们继续开启更多维度的“极限挑战”

一句话让马斯克跳舞变字符画

代码编程能力,同样也是类o1推理模型重要的一面。

我接下来就实测一下Zero模型能否用一句话生成小游戏

用HTML做一个贪吃蛇。

Zero模型根据要求,一步一步推理过后生成了一段完整的代码(上下滑动查看所有内容)

然后我们只需复制粘贴到了IDE里,并在浏览器中运行,一个可玩的简单版贪吃蛇游戏就做好了。

再来一个有意思的:

HTML实现动态黑客帝国雨,全屏幕,竖着下,错落有致,敏感交错。

我们同样先来看下生成出来的代码(上下滑动查看所有内容)

还是一个复制粘贴的动作,来看下效果:

嗯,确实是有点那个味道了。

或许你会说,这些代码功能过于简单了,别急,我们这就来上点难度——

把马斯克跳舞名场面视频,一句话变成字符画版本!

我们的Prompt是这样的:

在Mac中,用Python把输入视频内容变成字符画,然后再输出一个新的视频。

然后Zero模型就给出了代码(上下滑动查看所有内容)

同样仅需复制粘贴,然后设置一些输入、输出文件的路径,运行代码后我们就可以得到这样的视频啦:

(PS:背景音乐为后期所配)

如果想再来点颜色,也是一句话的是:

在上面的代码基础上,进行彩色化处理。

由此可见,Zero模型在代码生成方面可以说是过关的。

更多维度实测

在数学和代码之后,我们继续从更多维度来全方面测试一下Zero模型。

视觉推理

请听题:

以下是一组数字与符号的对应关系:
1→♡
2→
3→♢
4→♡
请推测 6 的符号表示,并解释推导过程。

上下滑动查看所有内容:

Zero模型能够根据数字与符号的关系,分析出潜在规律,推导过程的过程也是清晰地阐述了出来。

再来:

这几个数字能组合成的最大数字是多少?

Zero模型给出的答案是这样的(上下滑动查看所有内容)

可以看到,Zero模型先是准确识别出了台球上的数字,然后用推理能力一步步尝试将能够组合成的最大数值给了出来,但很可惜差了一点。

加密问题

我们再来一道可以考验大模型能力的加密问题

请听题:

已知 ukwmfvhxyondhxjz rhfvpfjzxn ukjzwmkajzhxyo -> practice makes perfect 请基于这个例子找到密文 ukqgfvsi gwjzkatjwmjz dttjzp hxtjiyjz 对应的原文。

而这里出现的结果就比较有意思了。

Zero模型给出的答案是:hard work pays off.

但我们同时还用ChatGPT o1和DeepSeek V3做了比较:

  • ChatGPT o1生成结果:pray before you code.

  • DeepSeek V3生成结果:planned forest consented.

各家大模型的结果均不相同,这道题到底是谁正确,小伙伴们可以亲测一下,然后在评论留言讨论哦~

经典问题:9.9和9.11哪个大?

最后一道测试,我们还是用那个非常经典的问题:

9.9和9.11哪个大?

嗯,这个问题已经是难不倒Zero模型了。

智谱的大模型再添一块拼图

在2024年的最后一天,智谱也是终于在各大玩家之后发布了类o1模型。

由此,其大模型的矩阵也变得更加庞大:

文本生成(GLM)、图像生成(CogView)、视频生成(CogVideoX)、音效生成(CogSound)、音乐生成(CogMusic)、端对端语音(GLM-4-Voice)、自主代理(AutoGLM)、AI推理(GLM-Zero-Preview)

能够以如此“全栈”姿态在大模型时代角逐的玩家,着实是屈指可数。

而另一方面,若是细数今年内智谱的技术发布时间轴,结果是更加的密集且紧凑:

  • 11月,发布AutoGLM升级版,可自主执行超50步的长步骤操作,也可以跨app执行任务,开启“全自动”上网新体验,支持基于浏览器的数十个网站的无人驾驶。

  • 11月,发布GLM-PC内测,基于智谱多模态模型CogAgent,探索“无人驾驶”PC。可代替用户参与视频会议、处理文档、搜索网页并总结、远程定时操作。

  • 11月,视频模型CogVideoX升级,支持10s时长、4k、60帧超高清画质、任意尺寸以及更好人体动作和物理世界模拟。

  • 10月,GLM-4-Voice端到端情感语音模型发布,并上线清言app,能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断。

  • 10月,AutoGLM内测版发布,只需接收简单的文字/语音指令,就可以模拟人类操作手机,不受限于API调用。

  • 10月,和三星、高通宣布合作,分别共同打造AI产品和端侧多模态交互大模型。

  • 8月,发布跨文本音频和视频模态实时推理大模型GLM-4-Videocall,实现AI与人实时视频通话。通过API接口可无缝部署在包括手机在内各类带摄像头端侧设备。

  • 8月,新一代基座大模型GLM-4-Plus发布,语言理解、指令遵循、长文本处理等方面性能全面提升。

  • 7月,视频生成模型“清影”在清言PC端、移动应用端以及小程序端正式上线,提供文本生成视频和图像生成视频的服务,30秒即可完成6秒视频生成,真实还原物理世界中的运动过程。

  • 6月,GLM-4-9B模型,支持100万Tokens长文本和26种语言,多模态能力比肩GPT-4V。

  • 1月,新一代基座大模型GLM-4发布,整体性能相比上一代大幅提升,支持更长上下文,具备更强多模态能力,推理速度更快,支持更高并发,大大降低推理成本。

这也有就很好理解为何在前不久,智谱能够拿到30亿元的新一轮融资,估值已超200亿元。

模型够全栈,技术够密集,市场够认可,智谱可以说是给今年画上了较为圆满的句号。

除此之外,智谱选择在今年最后一天发布类o1模型,其实也在预示着明年的大模型发展依旧会在推理Scaling Law上发力。

但与此同时,诚如ChatGPT o3这般“烧钱猛兽”目前也无法完全应对Frontier Math、ARC-AGI等超高难度的测试。

那么智谱又将会在推理这块如何出奇制胜,是值得期待一波。

Zero模型体验地址:
1、智谱清言: 
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
2、智谱开放平台:
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview

2000万token免费体验资源包领取地址:
https://zhipuaishengchan.datasink.sensorsdata.cn/t/7K

参考链接:
https://kaoyan.eol.cn/shiti/shuxue/202312/t20231225_2550980_7.shtml

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

量子位
追踪人工智能新趋势,关注科技行业新突破
 最新文章