首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI正式发布其首款具有“推理”能力的模型o1。

文摘 2024-09-13 18:00 四川

OpenAI发布全新推理模型o1：

复杂问题解决能力再升级

近日，OpenAI发布了其备受期待的新模型o1，这一模型正是此前传闻中的“Strawberry”。

o1以其卓越的推理能力和处理复杂问题的速度而备受瞩目，不仅在编程和数学难题上表现出色，还能详细解释其推理过程。

尽管o1在某些方面的性能超越了前代模型，如GPT-4o，但它同样面临着高成本和相对缓慢的问题。

#01

新一代推理模型登场

近日，人工智能领域的领军企业OpenAI宣布推出一款名为o1的新模型，这款模型在处理复杂查询方面的能力有了显著提升，比人类更快捷。

同时，还推出了一个更小、更便宜的版本——o1-mini。这一新模型正是之前备受瞩目的“Strawberry”模型。

对于OpenAI而言，o1不仅是其迈向类人智能道路上的一个重要里程碑，它在编写代码和解决多步骤问题上也表现出色。

然而，与GPT-4o相比，o1的使用成本更高且速度较慢。目前，OpenAI将其定义为“预览版”（o1-preview ），以强调其尚处于初期阶段。

#02

用户访问权限与定价策略

从今天起，ChatGPT Plus和Team用户将能够访问o1-preview和o1-mini，而Enterprise和Edu用户将在下周获得访问权限。

OpenAI计划未来向所有免费用户提供o1-mini的访问权限，但具体日期尚未确定。

开发者对o1的API访问费用则相当高昂：

o1-preview的输入令牌价格为每百万个收费为15美元，输出令牌价格为每百万个为60美元。

相比之下，GPT-4o的价格则为输入每百万个为5美元，输出每百万个为15美元。

#03

技术革新与训练方法

据OpenAI的研究负责人Jerry Tworek介绍，o1的训练方式与其前身有着根本性的不同。

Tworek表示，o1采用了全新的优化算法和专门为其定制的训练数据集。

与以往通过模仿训练数据中的模式来工作的GPT模型不同，o1通过强化学习技术训练，使其能够独立解决问题，并通过“思考链”来处理查询，类似于人类逐步解决问题的方式。

OpenAI 提供的图表。他们写道，“o1 在包括 54/57 MMLU 子类别在内的广泛基准上都比 GPT-4o 有所改进。”

得益于新的训练方法，OpenAI的研究负责人Jerry Tworek指出，o1在准确性上有所提高。“我们注意到这个模型较少出现幻觉性错误。” 他说，尽管这个问题仍然存在。

o1在解决如编程和数学等复杂问题方面表现突出，并能解释其推理过程。

OpenAI的首席研究官Bob McGrew透露，o1在AP数学测试上的表现超过了他本人，而在国际数学奥林匹克竞赛的资格考试中，o1的得分率高达83%，远超GPT-4o的13%。

#04

争议与质疑

然而，o1在世界事实知识方面不如GPT-4o，也不能浏览网页或处理文件和图像。即便如此，OpenAI认为o1代表了一种全新的能力类别。o1的命名意在“将计数器重置回1”。

Bob McGrew坦诚地说：“传统上我们在命名方面确实很糟糕。我希望这标志着我们开始使用更新、更理智的名字，以便更好地向外界传达我们的工作。”

在本周的一次视频通话中，McGrew和Tworek展示了它的解题能力。

他们给模型提出了一道复杂的年龄谜题，模型在30秒内给出了正确答案，并展示了其推理步骤。

令人印象深刻的是，o1似乎刻意模仿了类似人类的思维过程，使用诸如“我在思考”、“让我看看”这样的短语来创建一个逐步思考的错觉。

在回答的过程中添加了诸如“我很好奇”，“我正在思考”，“好的，让我看看”等短语创造了一种逐步思考的幻觉。

Is this what could “威胁到人类？”

自去年十一月以来，“Strawberry”一直受到广泛关注，最初它被称为Q*（Q星）。

当时，《The Information》和路透社报道说，在Sam Altman短暂离任CEO之前，OpenAI员工曾向公司董事会发出警告，称新的Q*模型可能“威胁到人类”。

今年八月，当《The Information》报道OpenAI向美国国家安全官员展示Strawberry的消息时，这种炒作进一步加剧。

即使现在o1已经发布，AI行业的观察者也应该注意到，这一模型即将发布时在媒体上被大肆渲染为一种危险的进步，而OpenAI并未公开降低这种说法。

对于一个需要108秒才能解决八个填字游戏线索并且在一个答案上产生幻觉的AI模型，我们可以断言其潜在的危险可能是过度炒作（至少目前看来）。

围绕“推理”术语的争议

众所周知，科技界有些人对将AI模型拟人化，并使用“思考”或“推理”等词汇来描述这些神经网络系统执行的合成和处理操作持有异议。

就在OpenAI宣布o1之后不久，Hugging Face公司的CEO Clement Delangue在社交媒体上评论道：“再一次地，AI系统并不是‘思考’，而是‘处理’、‘运行预测’……就像Google或计算机一样。

给人错误的印象，让技术系统看起来像人类，这只是廉价的噱头和营销手段，目的是让你觉得它比实际上更聪明。”

“推理”也是一个有些模糊的概念，因为即使在人类中，也很难准确界定这个术语的含义。在公告发布的几小时前，独立AI研究员Simon Willison在推特上回应了《Bloomberg》关于Strawberry的故事，他写道：“我仍然难以用LLM的能力来定义‘推理’。

我很想知道有没有一种提示，可以在当前模型失败的情况下，却能在Strawberry上成功，从而有助于解释这个词的含义。”

无论是否具备推理能力，o1-preview目前缺少早期模型中的一些功能，例如网络浏览、图像生成和文件上传。OpenAI计划在未来更新中增加这些功能，并继续开发o1和GPT系列模型。

虽然OpenAI声称o1-preview和o1-mini模型今天开始推出，但我们尚未在ChatGPT Plus界面中看到它们的身影，因此还没有机会评估这两个模型的表现。我们将报告我们的印象，说明这一模型与其他我们先前报道过的大型语言模型有何不同。

未来...

展望未来，OpenAI正致力于构建具有自主决策能力的系统，即代理(agent)，这些系统能够在用户的指示下做出决策并采取行动。

尽管目前o1的推理能力还有待提高，但无疑为实现这一愿景迈出了坚实的步伐。随着OpenAI不断推进其技术边界，我们可以期待看到更多令人兴奋的发展和应用。

http://mp.weixin.qq.com/s?__biz=MzkxNzY1MzM4OQ==&mid=2247485276&idx=1&sn=e5e39279a65bf47753e3e1eb683bc136

“速递AI前沿，解读智能科技”

最新文章

AI育儿新时代：科技如何重塑育儿方式？

特朗普上台或将取消拜登AI监管措施，对AI产业影响几何？

内部代号“Atlas”苹果智能眼镜新动向

AI跟踪美国大选实时数据

谷歌AI项目“Big Sleep”发现软件漏洞，AI提升网络安全新实力

十月月报：OpenAI的最新进展与战略部署

算力限制下的创新：Sam Altman 解答为何新品频频延迟

ChatGPT搜索功能上线：实时信息查询，为AI搜索注入新活力

超过四分之一的谷歌新代码由AI生成。

OpenAI 计划于 2026 年打造其首款 AI 芯片

Adobe副总裁：拒绝AI的创作者将被新世界淘汰。

谷歌DeepMind开发“哈贝马斯机器”：化解社会冲突的AI系统

OpenAI将发布新模型“Orion”，前高级顾问称全球尚未为AGI做好准备

青少年沉迷AI聊天机器人致自杀，Character.AI和谷歌被起诉

美国AI安全研究所面临解散，全球AI监管格局或将改变

AI生成《银翼杀手》影像引发版权纠纷，特斯拉及马斯克被起诉

人工智能进课堂：学生因使用AI受罚，家长提告维权

特斯拉Optimus机器人：依然依赖人类操控，AI自主化尚未实现

特斯拉的机器人是AI突破还是遥控假象？

AMD反击Nvidia：AI芯片大战拉开序幕

人工智能武器应否决定生死？硅谷科技公司与政策制定者的伦理博弈。

马斯克发布Tesla Cybercab，自动驾驶出行新时代开启

AI模型愈加复杂，谎言愈加“精致”

跨越AI与物理的创新：2024年诺贝尔物理学奖为何颁给人工智能奠基者？

诺贝尔化学奖2024：人工智能如何改变生命科学

AI先驱荣获诺奖，推动智能革命

Meta新AI黑科技“Movie Gen”上线！只需一张照片，就能生成视频！

OpenAI推出全新“Canvas”界面，助力写作与编程项目

Meta智能眼镜引发隐私危机：几秒内暴露个人信息，甚至被用于AI模型训练

Sam Altman推动美国政府支持建设多座5GW超大规模AI数据中心。

替代iPhone？Meta推出Orion原型眼镜

ChatGPT即将涨价？探索AI工具涨价背后的发展与挑战。

OpenAI的变革之路：从实验室到科技巨头。

宫本茂谈任天堂在AI趋势下的独特策略。

OpenAI高层再度震荡：CTO Mira Murati离职，未来挑战与机遇并存

[EMNLP 2024] PORTIA - 大模型评估器位置偏差的修复

OpenAI 奥特曼预测：未来数千天内或迎来超智能。

AI规模化发展：现状与未来。——从大模型训练到智能推理的新趋势

Netflix新纪录片 | 比尔·盖茨谈AI、信息误导与气候变化。

AI治理不能被利益集团操控 | 联合国关于人工智能的报告揭示全球治理的复杂挑战

揭开AI思维的禁区：OpenAI新模型o1引发封禁风波

微软的人工智能悖论：气候创新与化石燃料产业的双面游戏

“人工智能（AI）科学家”会为科学带来什么？

OpenAI正式发布其首款具有“推理”能力的模型o1。

泰勒·斯威夫特因AI伪造视频公开支持哈里斯竞选

索尼PS5 Pro：AI技术助力游戏体验再升级

苹果发布会亮点解读：Apple Intelligence，开启AI新篇章

特斯拉与xAI：共铸AI未来还是利益冲突？

AI赋能手工艺者：技术创新如何创造就业机会

美国一男子利用AI音乐诈骗千万美元：一场现代音流欺诈盛宴

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉