今天凌晨,OpenAI 的“草莓”模型正式发布,名为“o1”,作为一系列新的人工智能模型,“o1”模型将花更多时间在思考上,然后再做出回答。
OpenAI发布新模型
在刚刚结束的2024 IOI信息学奥赛题目中,“o1”的微调版本在每题尝试50次条件下取得了213分,属于人类选手中前49%的成绩,但如果允许它每道题尝试10000次,就能获得362.14分,高于金牌选手门槛,可获得金牌。在解决博士水平的物理问题时,GPT-4o是“不及格”的59.5分,“o1”系列则是一跃来到“优秀档”,直接干到92.8分!与GPT-4o相比,o1在数理化生、英语法律经济等各种科目都有不同成绩改进。开发人员提到,与以前的科学、编码和数学模型相比,“o1”系列可以推理复杂的任务,解决更难的问题,而且,就像人类一样,“o1”系列模型会用更多时间思考问题,通过训练后更是学会了完善思考过程、尝试不同的策略,并能够认识到自己的错误,简单来说,就是学会了“慢思考”。
新出的o1系列
已经成为AI能力的新天花板?
“o1”不仅学会了磨练自己的思维链,还能自己进一步去完善使用策略,除此之外它也学会了将复杂的步骤分解为更简单的步骤,而且如果当前的方法不起作用,它也会尝试不同的方法。以上的这些,就是我们人类最核心的思考方式:慢思考。诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作,名叫:《思考,快与慢》。非常详细的阐述了人类的两种思考方式:第一种是快思考,特点是快速、自动、直觉性、无意识,举几个例子:看到一个笑脸就知道对方心情很好,1+1=2 这样简单的计算,这些就是快思考,对应的就是传统的大模型,靠死记硬背学得的快速反应的能力。图源网络
第二种是慢思考,特点是缓慢、需要努力、逻辑性、有意识,举几个例子:解决一道复杂的数学题、权衡利弊后做出重要决定,这就是慢思考,这是我们人类之所以强大的核心,也是目前AI要达到的目标。而现在,“o1”终于踏出了坚实的一步,拥有了人类慢思考的特质,在回答前,会反复的思考、拆解、理解、推理,然后给出最终答案。不过“o1”目前还在早期模型阶段,尚不具备ChatGPT的许多有用功能,例如联网搜索以及上传文件和图像,但对于复杂的推理任务来说,这是一个重大进步,OpenAI称代表了人工智能的最高水平。说了很多关于“o1”学会思考的内容,那么TA思考起来究竟是什么样子?我们可以从官网示例中的编写Bash脚本的编程任务一窥究竟。首先作为对比,GPT-4o会直接就开始写代码,遗憾得到错误结果。而o1-preiview会先用自己的理解复述一遍要求,然后开始拆解要求,明确最终目标,接下来它会给自己定义任务、分析限制条件、列出需要用到的方法,然后进一步把任务拆解成明确的数个小步骤,最后才动手编写代码,并保证一次性得到正确结果。“o1”把任务拆解成明确的数个小步骤
思路如此清晰!讲到这里好富想起来另一个AI大事件,今年七月份的时候,各大AI模型因为分不清9.9和9.11那个更大,还被嘲笑上了热搜😂不少网友表示“熟悉的人工智障”。
俩数字难倒“英雄汉”
面对“9.11和9.9哪个大”这样简单的问题,不少主流AI模型都纷纷被难倒:
强如GPT-4o,都坚定地认为9.11更大:
Claude 3.5 Sonnet不仅认为9.11更大,还一本正经地给出离谱的计算方法:
把网友看得一脸黑人问号...
国产大模型翻车率也比较高,智谱清言APP上的ChatGLM,自动触发了联网查询,然后描述了自己的比较方法,可惜却执行错了:
字节豆包是少数能把比较方法描述清楚,而且用对的:
比较可惜的是文心一言,面对这个问题也是触发了联网查询。本来都已经做对了,但突然话锋一转又导向了错误结论:
不过从文心一言的思路解释上也可以看出背后问题所在:大模型在比较时,会对数字的不同部分进行拆分,当9.11被拆成“9”“小数点”“11”三部分时,11确实比9大。
巧的是,当时路透社的刚好泄漏了一点OpenAI秘密模型“草莓”(也就是现在的“o1”)的消息,不少网友也在期待新模型能不能“智能一回”,在没有额外提示情况下,能不能自主解决“9.11和9.9哪个大?”。
因此这次模型出炉后,NYU助理教授谢赛宁就上手测试了类似的问题:“9.11和9.8哪个大?”没想到自如应对各类难题的o1-preview,面对这个问题却回答错了,给出“9.11比9.8更大”的答案...
看来人类养育的人工智能,还是有很长的路要走...
如果你也想跟着世界顶级名校教授一起研究人工智能,追赶行业发展的脚步,积累科研经验、洞悉这个世界,首先要获得背景提升、拿大牛推荐信、上岸心仪名校,然后继续拓展人生中更多的可能性,盐趣可以助你一臂之力。海外留学竞争激烈,学生的综合素质和学术能力越来越卷,尽早积累科研能力十分必要。扫描下方二维码,享受免费科研一对一咨询。