首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI发布最强模型o1：博士水平的物理题能拿92.8分，但是却比不出「9.11和9.8谁大」？！

教育教育 2024-09-13 19:31 北京

今天凌晨，OpenAI 的“草莓”模型正式发布，名为“o1”，作为一系列新的人工智能模型，“o1”模型将花更多时间在思考上，然后再做出回答。

OpenAI发布新模型

这个新出的“o1”系列有多强呢？

在刚刚结束的2024 IOI信息学奥赛题目中，“o1”的微调版本在每题尝试50次条件下取得了213分，属于人类选手中前49%的成绩，但如果允许它每道题尝试10000次，就能获得362.14分，高于金牌选手门槛，可获得金牌。

在解决博士水平的物理问题时，GPT-4o是“不及格”的59.5分，“o1”系列则是一跃来到“优秀档”，直接干到92.8分！

与GPT-4o相比，o1在数理化生、英语法律经济等各种科目都有不同成绩改进。

开发人员提到，与以前的科学、编码和数学模型相比，“o1”系列可以推理复杂的任务，解决更难的问题，而且，就像人类一样，“o1”系列模型会用更多时间思考问题，通过训练后更是学会了完善思考过程、尝试不同的策略，并能够认识到自己的错误，简单来说，就是学会了“慢思考”。

新出的o1系列

已经成为AI能力的新天花板？

“o1”不仅学会了磨练自己的思维链，还能自己进一步去完善使用策略，除此之外它也学会了将复杂的步骤分解为更简单的步骤，而且如果当前的方法不起作用，它也会尝试不同的方法。

以上的这些，就是我们人类最核心的思考方式：慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作，名叫：《思考，快与慢》。非常详细的阐述了人类的两种思考方式：

第一种是快思考，特点是快速、自动、直觉性、无意识，举几个例子：看到一个笑脸就知道对方心情很好，1+1=2 这样简单的计算，这些就是快思考，对应的就是传统的大模型，靠死记硬背学得的快速反应的能力。

图源网络

第二种是慢思考，特点是缓慢、需要努力、逻辑性、有意识，举几个例子：解决一道复杂的数学题、权衡利弊后做出重要决定，这就是慢思考，这是我们人类之所以强大的核心，也是目前AI要达到的目标。

而现在，“o1”终于踏出了坚实的一步，拥有了人类慢思考的特质，在回答前，会反复的思考、拆解、理解、推理，然后给出最终答案。

不过“o1”目前还在早期模型阶段，尚不具备ChatGPT的许多有用功能，例如联网搜索以及上传文件和图像，但对于复杂的推理任务来说，这是一个重大进步，OpenAI称代表了人工智能的最高水平。

说了很多关于“o1”学会思考的内容，那么TA思考起来究竟是什么样子？我们可以从官网示例中的编写Bash脚本的编程任务一窥究竟。

首先作为对比，GPT-4o会直接就开始写代码，遗憾得到错误结果。

而o1-preiview会先用自己的理解复述一遍要求，然后开始拆解要求，明确最终目标，接下来它会给自己定义任务、分析限制条件、列出需要用到的方法，然后进一步把任务拆解成明确的数个小步骤，最后才动手编写代码，并保证一次性得到正确结果。

“o1”把任务拆解成明确的数个小步骤

思路如此清晰！讲到这里好富想起来另一个AI大事件，今年七月份的时候，各大AI模型因为分不清9.9和9.11那个更大，还被嘲笑上了热搜😂不少网友表示“熟悉的人工智障”。

9.11和9.9

俩数字难倒“英雄汉”

面对“9.11和9.9哪个大”这样简单的问题，不少主流AI模型都纷纷被难倒：

强如GPT-4o，都坚定地认为9.11更大：

Claude 3.5 Sonnet不仅认为9.11更大，还一本正经地给出离谱的计算方法：

把网友看得一脸黑人问号...

国产大模型翻车率也比较高，智谱清言APP上的ChatGLM，自动触发了联网查询，然后描述了自己的比较方法，可惜却执行错了：

字节豆包是少数能把比较方法描述清楚，而且用对的：

比较可惜的是文心一言，面对这个问题也是触发了联网查询。本来都已经做对了，但突然话锋一转又导向了错误结论：

不过从文心一言的思路解释上也可以看出背后问题所在：大模型在比较时，会对数字的不同部分进行拆分，当9.11被拆成“9”“小数点”“11”三部分时，11确实比9大。

巧的是，当时路透社的刚好泄漏了一点OpenAI秘密模型“草莓”（也就是现在的“o1”）的消息，不少网友也在期待新模型能不能“智能一回”，在没有额外提示情况下，能不能自主解决“9.11和9.9哪个大？”。

因此这次模型出炉后，NYU助理教授谢赛宁就上手测试了类似的问题：“9.11和9.8哪个大？”没想到自如应对各类难题的o1-preview，面对这个问题却回答错了，给出“9.11比9.8更大”的答案...

看来人类养育的人工智能，还是有很长的路要走...

如果你也想跟着世界顶级名校教授一起研究人工智能，追赶行业发展的脚步，积累科研经验、洞悉这个世界，首先要获得背景提升、拿大牛推荐信、上岸心仪名校，然后继续拓展人生中更多的可能性，盐趣可以助你一臂之力。

盐趣世界名校教授人工智能课题

扫描下方二维码即可立即咨询！

◀️ 左右滑动查看课程 ▶️

海外留学竞争激烈，学生的综合素质和学术能力越来越卷，尽早积累科研能力十分必要。扫描下方二维码，享受免费科研一对一咨询。

往期回顾

http://mp.weixin.qq.com/s?__biz=MzAwMjczMjc0Nw==&mid=2652015261&idx=1&sn=3d37d5df4d9f080dd109440e3dbad825

打破科研的高墙，带学术小白入门！ViaX盐趣核心教研团队由来自麻省理工、斯坦福、哈佛、伯克利等世界名校的教授、博士后、博士，以及劳伦斯伯克利国家实验室等实验室的科学家组成。做科研，发paper，申名校！

最新文章

学术巨骗！日本一博士狂编200篇论文，被揭发后自杀...

JHU经济学教授来袭！世界顶尖战略公司顾问，带你用上帝视角看中美经济！

自学AP，斩获美本总计270W奖学金，这样的学生为何如此优秀？丨ViaX专访

恭喜L同学斩获大众情校纽约大学、南加州大学offer！和世界名流共沐学术光辉！

放弃211保研，到国外大杀四方的女战士，本科发2了篇EI，力斩新国立、悉大等5所名校offer！

重磅offer喜报！恭喜S同学斩获哥大、康奈尔生物医学offer！

上海某幼儿园计划开设“理科班”，8800元每月，学习内容为pre-AMC

佐治亚理工学院数学系终身正教授带你领略Python的复杂算法优化及其在大数据处理中的应用！

5申5中斩获宾大、哥大、芝大等“大众梦校”及19万奖学金，INFP二次元少女专攻“留学生心理疗愈”！

重磅offer喜报！恭喜Z同学斩获耶鲁大学、JHU生物医学offer！

判了！港大学历造假保录女生获刑17周！被这些假材料搞怕了的港校开启史上最严审查...

佐治亚理工学院数学系终身正教授带你领略Python的复杂算法优化及其在大数据处理中的应用！

GPA3.85，海本名校，5段“四大”实习的高颜值金融学长，脆录哥大LSE后的唯一感言竟是：不敢不做科研！

重磅offer喜报！恭喜Z同学斩获耶鲁大学、JHU生物医学offer！

婚姻是抗抑郁良药？！看完哈佛学者发表的这篇研究，我对婚姻的力量又有了新的认知...

佐治亚理工学院数学系终身正教授带你领略Python的复杂算法优化及其在大数据处理中的应用！

12个字，让港大给双非排名400+的我秒发offer

重磅offer喜报！恭喜Z同学斩获耶鲁大学、JHU生物医学offer！

光棍节专属“硕博偶像剧”：砸5亿给未婚妻搞科研，霸总＋硕博双buff设定，我磕疯！

哥伦比亚大学数学系教授为你揭开ESG投资与企业可持续发展的奥秘！

重磅offer喜报！恭喜Z同学斩获耶鲁大学、JHU生物医学offer！

放弃211保研，到国外大杀四方的女战士，本科发2了篇EI，力斩新国立、悉大等5所名校offer！

78岁川普勇闯“秋招”再次拿到“offer”，儿孙满堂且个个名校出身，网友：我真服了...

玩转科研双十一，尽享全年巅峰性价比！！

恭喜Y同学翠鹿牛津，卷赢每年录取的中国学生只有个位数的心理学专业！

热爱且深耕后，你会是剑桥本科想要的人丨ViaX专访

佐治亚理工学院数学系终身正教授带你领略Python的复杂算法优化及其在大数据处理中的应用！

撤回所有未接受offer？！新南威尔士大学这个通知一发布，“慢手党”留子哭了

玩转科研双十一，尽享全年巅峰性价比！！

重磅offer喜报！恭喜Z同学斩获耶鲁大学、JHU生物医学offer！

专访丨放弃保研资格，斩获UCLA和南加大offer，盐趣助我圆梦跨专业申请

哥伦比亚大学数学系教授为你揭开ESG投资与企业可持续发展的奥秘！

玩转科研双十一，尽享全年巅峰性价比！！

重磅offer喜报！恭喜Z同学斩获耶鲁大学、JHU生物医学offer！

5申5中斩获宾大、哥大、芝大等“大众梦校”及19万奖学金，INFP二次元少女专攻“留学生心理疗愈”！

佐治亚理工学院数学系终身正教授带你领略Python的复杂算法优化及其在大数据处理中的应用！

41岁黄圣依入学中欧国际商学院，成为董明珠学妹！网友：现实版《玫瑰的故事》上演！

玩转科研双十一，尽享全年巅峰性价比！！

12个字，让港大给双非排名400+的我秒发offer

重磅offer喜报！恭喜Z同学斩获耶鲁大学、JHU生物医学offer！

纽约大学数学与大气海洋科学教授带你揭开气候变化的科学依据！

官方证实姜萍作弊，数学天才少女的神话坍塌了

玩转科研双十一，尽享全年巅峰性价比！！

重磅offer喜报！恭喜Z同学斩获耶鲁大学、JHU生物医学offer！

放弃211保研，到国外大杀四方的女战士，本科发2了篇EI，力斩新国立、悉大等5所名校offer！

纽约大学数学与大气海洋科学教授带你揭开气候变化的科学依据！

重磅！ChatGPT上线AI搜索功能，免费还无广告！网友：谷歌危，勿归...

玩转科研双十一，尽享全年巅峰性价比！！

重磅offer喜报！恭喜Z同学斩获耶鲁大学、JHU生物医学offer！

专访丨放弃保研资格，斩获UCLA和南加大offer，盐趣助我圆梦跨专业申请

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉