OpenAI发布重磅模型o1，AI推理能力突破，智能水平向人类靠拢

文摘 2024-09-13 07:21 北京

来源｜The Verge

文｜Kylie Robison

刚刚，OpenAI 发布了一款名为 o1 的新模型。这是计划中的一系列“推理”模型中的第一个，这些模型经过训练可以回答更复杂的问题，速度比人类更快。它将与更小、更便宜的 o1-mini 一起发布。

是的，如果你对人工智能八卦很感兴趣：这实际上是被大肆宣传的 Strawberry模型。

对于 OpenAI 来说，o1 代表着它朝着类人人工智能的更广泛目标迈出了一步。更实际的是，它在编写代码和解决多步骤问题方面比以前的模型做得更好。但它也比GPT-4o更昂贵、使用速度更慢。OpenAI 称 o1 的这个版本为“预览版”，以强调它还处于起步阶段。

ChatGPT Plus 和 Team 用户从今天开始可以访问 o1-preview 和 o1-mini，而 Enterprise 和 Edu 用户将于下周初获得访问权限。OpenAI 表示，它计划向 ChatGPT 的所有免费用户提供 o1-mini 访问权限，但尚未确定发布日期。开发人员访问 o1非常昂贵：在 API 中，o1-preview 每 100 万个输入token或模型解析的文本块收费 15 美元，每 100 万个输出token收费 60 美元。相比之下，GPT-4o 每 100 万个输入token收费 5 美元，每 100 万个token令牌收费 15 美元。

OpenAI 的研究负责人 Jerry Tworek 告诉我，o1 背后的训练与之前的版本有着根本的不同，尽管该公司没有透露具体细节。他说 o1“使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行了训练。”

OpenAI 教会了之前的 GPT 模型模仿其训练数据中的模式。借助 o1，它使用一种称为强化学习的技术训练模型自行解决问题，该技术通过奖励和惩罚来教导系统。然后，它使用“思路链”来处理查询，类似于人类通过逐步解决问题来处理问题的方式。

OpenAI 表示，由于采用了这种新的训练方法，该模型应该会更加准确。“我们注意到这个模型的幻觉减少了，”Tworek 说。但问题仍然存在。“我们不能说我们解决了幻觉问题。”

OpenAI 表示，这个新模型与 GPT-4o 的主要区别在于，它能够比之前的产品能够更好地解决编码和数学等复杂问题，同时还能解释其推理。

OpenAI 首席研究官 Bob McGrew 表述：“该模型在解决 AP 数学测试方面肯定比我做得更好，而我在大学时辅修了数学。”他说，OpenAI 还用国际数学奥林匹克资格考试对 o1 进行了测试，虽然 GPT-4o 只正确解决了 13% 的问题，但 o1 的得分为 83%。

在被称为 Codeforces 竞赛的在线编程竞赛中，这个新模型达到了参与者的第 89 个百分位，OpenAI 声称该模型的下一次更新将“在物理、化学和生物学领域具有挑战性的基准任务上表现得与博士生相似”。

与此同时，o1 在很多领域的能力不如 GPT-4o。它在关于世界的事实知识方面表现不佳。它也没有浏览网页或处理文件和图像的能力。不过，该公司认为它代表了一种全新的能力。它被命名为 o1，表示“将计数器重置为 1”。

“说实话，我认为我们传统上在命名方面很糟糕，”麦格鲁说。“所以我希望这是更新、更理智的名字的第一步，可以更好地向世界传达我们正在做的事情。”

我无法亲自演示 o1，但 McGrew 和 Tworek 本周通过视频通话向我展示了它。他们要求它解决这个难题：

“当公主的年龄是王子的两倍，而公主的年龄是他们现在年龄的一半时，公主的年龄将与王子一样大。王子和公主的年龄是多少？请提供该问题的所有答案。”

该模型缓冲了 30 秒，然后给出了正确答案。OpenAI 设计了界面来展示模型思考时的推理步骤。令我印象深刻的不是它展示了自己的工作成果（GPT-4o 可以在提示下做到这一点），而是它似乎有意模仿人类思维。“我很好奇”、“我正在思考”和“好的，让我看看”等短语营造出一种一步一步思考的幻觉。

但这个模型并没有思考，当然也不是人类。那么，为什么要把它设计得看起来像是人类呢？

OpenAI 推理能力的屏幕截图，其中它使用“我”语句分解了它如何回答问题。

Tworek 表示，OpenAI 并不认为人工智能模型思维等同于人类思维。但他表示，界面旨在展示模型如何花费更多时间处理问题并深入解决问题。“与之前的模型相比，它在某些方面感觉更人性化。”

“我认为你会发现，在很多方面，它都给人一种外星人的感觉，但也有很多方面，它让人感觉非常人性化，”McGrew 说。该模型被赋予了有限的时间来处理查询，因此它可能会说这样的话：“哦，我的时间不多了，让我快点找到答案。”在早期，在它的思维链中，它也可能看起来像是在集思广益，并说这样的话：“我可以做这个或那个，我应该怎么做？”

大语言模型并不像现在这样智能。它们本质上只是根据从大量数据中学习到的模式预测单词序列，从而为用户提供答案。以 ChatGPT 为例，它往往会错误地声称“strawberry”这个词只有两个 R，因为它没有正确地分解这个词。值得一提的是，新的 o1 模型确实正确回答了该查询。

据报道，OpenAI 希望以 1500 亿美元估值筹集更多资金，其发展势头取决于更多的研究突破。该公司正在为 LLM 带来推理能力，因为它看到了未来自主系统或代理能够代表您做出决策并采取行动的前景。

对于人工智能研究人员来说，破解推理是迈向人类智能的重要一步。他们认为，如果一个模型的能力不仅限于模式识别，那么它就可以在医学和工程等领域取得突破。不过，目前，o1 的推理能力相对较慢，不像代理，而且开发人员使用起来成本高昂。

“我们花了好几个月研究推理，因为我们认为这实际上是一个关键的突破，”麦格鲁说。“从根本上说，这是一种新的模型模式，能够解决真正困难的问题，从而达到与人类相似的智能水平。”

*本号系数智云科旗下人工智能领域垂直号。黑智，人工智能领域产业服务平台，专注AI行业报道，探讨AI商业价值。

点击关注人工智能领域垂直号黑智

了解更多AI产业资讯

👇👇👇

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NjIxMg==&mid=2247494186&idx=1&sn=6a2d46bdbcafb3563e53bfff2fc0319d

黑智

人工智能领域产业服务平台，专注AI行业报道，探讨AI商业价值。

最新文章

AI革命降速？专家称OpenAI新模型提升或微乎其微｜黑智编译

这家帮你叠衣服打扫卫生的机器人公司，估值20亿美金｜黑智编译

峰瑞资本李罡：具身智能前程远大，但每个“人”奔跑在曲折道路上

【京港AI应用加速器】首轮面试结束，最后报名机会不容错过

【聚焦互联网3.0】朝阳加快建设互联网3.0高地

任正非最新讲话：华为要向美国学习开放性、包容性

一个福建极客，正在帮实体商超重获生机

【品牌方专属邀请】集聚20+AI电商企业，推动品牌AI产业化升级……

文献书记围绕“应用场景创新促进科技成果转化”调研北京市数字人基地

184个项目报名，ITEC2024人工智能 & 互联网3.0专场赛亮点一览

ITEC2024全球创业赛人工智能及互联网3.0专场赛成功举办

2024怀柔黑马科技服务论坛举办，怀柔黑马科技加速实验室成果显著

角逐万亿隐形蓝海市场：开源情报如何靠AI更新换代

【征集通知】关于公开征集《朝阳区关于支持互联网3.0创新发展的若干措施》2024年度支持项目的通知

【征集通知】关于公开征集《朝阳区促进通用人工智能创新应用发展的若干措施》2024年度支持项目的通知

【征集通知】关于公开征集2024年朝阳区通用人工智能算力合作伙伴的通知

寻找具身智能潜力企业！2024具身智能最具投资潜力榜评选启动

安筱鹏：超越AI大模型的“加拉帕戈斯”效应

刚刚，Sam Altman发布最新预测：几千天后，人类将进入智能时代！

【最高110万资助】两地政策加持，公益项目京港AI应用加速器正式启动招募

京港洽谈会新亮点：京港AI应用加速器正式启动

吴泳铭：AI最大的想象力是接管数字世界，改变物理世界

谷歌AI机器人项目的终结：“登月计划”为何夭折｜黑智编译

OpenAI发布重磅模型o1，AI推理能力突破，智能水平向人类靠拢

大模型能力壁垒真的消失了吗？李彦宏内部讲话曝光..

高光时刻！一文看全苹果今年最重大发布会：iPhone 16、Apple Watch Series 10、新款 AirPods

AI驱动电商丨朝阳AI电商应用加速器正式开营，赋能电商企业创新发展

走出弯路：中国半导体正在走向“一个确定的未来”

牛文文：老板到底要不要做网红？

征集开始！天津市滨海新区“滨城人才服务证”专属卡面设计征集需求书发布

知网状告秘塔AI搜索侵权；腾讯回应“苹果税争议”：希望三赢正与苹果协商；美国司法部考虑分拆谷歌｜AI产业周报

张一鸣宿华帮忙出主意、黄仁勋帮忙“插队”买H100，“沐神”复盘创业第一年的进展、纠结和反思

技术精英团队领衔，打造世界级具身智能大脑，千寻智能宣布完成近2亿元天使轮融资

马斯克“复仇诉讼”OpenAI及其创始人；黄仁勋抛售近5亿美元股票；Figure AI新人形机器人“入职”宝马｜AI产业周报

如何破解“对赌回购”难题？20位大咖分享了7条方案！

Mistral AI：被法国总统赞扬，估值超60亿美元，直面微软、监管挑战｜黑智编译

星地AI应用孵化器路演日举行：24个AIGC创业项目、上百家投资机构参加，覆盖AIGC、大语言模型等多领域

苹果施压腾讯字节跳动或禁止微信抖音更新；微软将OpenAI列入竞争对手名单；英特尔宣布裁员 1.5 万人｜AI产业周报

黄仁勋对话扎克伯格：抨击闭源、互送夹克、预判下一波AI浪潮

朝阳区创投机构科技创新产业政策宣讲会顺利举行

网传百川智能A轮融资50亿元；Meta推出史上最强开源模型Llama 3.1；OpenAI推出SearchGPT｜AI产业周报

持续学习如何终结大模型的灾难性遗忘？这里有一份来自创业公司的实操案例

朱啸虎：投资AIGC企业的秘密全都藏在这九张图里

重磅发布！一文读懂北京市AI 电商应用现状及发展趋势

五大理由，速来报名！“创客北京2024”报名即将截止

关于开展新设市级政府投资基金储备项目常态化征集的通知

梅花创投吴世春：坚持向前走就是胜利

推动数实融合，2024全球数字经济大会互联网3.0高层论坛举办

牛文文：403天，一个中国AI实践者的观察与体验

疏通AI初创企业成长堵点、卡点，星地AI应用孵化器第三次活动如期举行

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉