复杂问题解决能力再升级
近日,OpenAI发布了其备受期待的新模型o1,这一模型正是此前传闻中的“Strawberry”。
o1以其卓越的推理能力和处理复杂问题的速度而备受瞩目,不仅在编程和数学难题上表现出色,还能详细解释其推理过程。
尽管o1在某些方面的性能超越了前代模型,如GPT-4o,但它同样面临着高成本和相对缓慢的问题。
新一代推理模型登场
近日,人工智能领域的领军企业OpenAI宣布推出一款名为o1的新模型,这款模型在处理复杂查询方面的能力有了显著提升,比人类更快捷。
同时,还推出了一个更小、更便宜的版本——o1-mini。这一新模型正是之前备受瞩目的“Strawberry”模型。
对于OpenAI而言,o1不仅是其迈向类人智能道路上的一个重要里程碑,它在编写代码和解决多步骤问题上也表现出色。
然而,与GPT-4o相比,o1的使用成本更高且速度较慢。目前,OpenAI将其定义为“预览版”(o1-preview ),以强调其尚处于初期阶段。
用户访问权限与定价策略
从今天起,ChatGPT Plus和Team用户将能够访问o1-preview和o1-mini,而Enterprise和Edu用户将在下周获得访问权限。
OpenAI计划未来向所有免费用户提供o1-mini的访问权限,但具体日期尚未确定。
开发者对o1的API访问费用则相当高昂:
o1-preview的输入令牌价格为每百万个收费为15美元,输出令牌价格为每百万个为60美元。
相比之下,GPT-4o的价格则为输入每百万个为5美元,输出每百万个为15美元。
技术革新与训练方法
据OpenAI的研究负责人Jerry Tworek介绍,o1的训练方式与其前身有着根本性的不同。
Tworek表示,o1采用了全新的优化算法和专门为其定制的训练数据集。
与以往通过模仿训练数据中的模式来工作的GPT模型不同,o1通过强化学习技术训练,使其能够独立解决问题,并通过“思考链”来处理查询,类似于人类逐步解决问题的方式。
得益于新的训练方法,OpenAI的研究负责人Jerry Tworek指出,o1在准确性上有所提高。“我们注意到这个模型较少出现幻觉性错误。” 他说,尽管这个问题仍然存在。
o1在解决如编程和数学等复杂问题方面表现突出,并能解释其推理过程。
OpenAI的首席研究官Bob McGrew透露,o1在AP数学测试上的表现超过了他本人,而在国际数学奥林匹克竞赛的资格考试中,o1的得分率高达83%,远超GPT-4o的13%。
争议与质疑
然而,o1在世界事实知识方面不如GPT-4o,也不能浏览网页或处理文件和图像。即便如此,OpenAI认为o1代表了一种全新的能力类别。o1的命名意在“将计数器重置回1”。
Bob McGrew坦诚地说:“传统上我们在命名方面确实很糟糕。我希望这标志着我们开始使用更新、更理智的名字,以便更好地向外界传达我们的工作。”
在本周的一次视频通话中,McGrew和Tworek展示了它的解题能力。
他们给模型提出了一道复杂的年龄谜题,模型在30秒内给出了正确答案,并展示了其推理步骤。
令人印象深刻的是,o1似乎刻意模仿了类似人类的思维过程,使用诸如“我在思考”、“让我看看”这样的短语来创建一个逐步思考的错觉。
在回答的过程中添加了诸如“我很好奇”,“我正在思考”,“好的,让我看看”等短语创造了一种逐步思考的幻觉。
Is this what could “威胁到人类?”
自去年十一月以来,“Strawberry”一直受到广泛关注,最初它被称为Q*(Q星)。
当时,《The Information》和路透社报道说,在Sam Altman短暂离任CEO之前,OpenAI员工曾向公司董事会发出警告,称新的Q*模型可能“威胁到人类”。
今年八月,当《The Information》报道OpenAI向美国国家安全官员展示Strawberry的消息时,这种炒作进一步加剧。
即使现在o1已经发布,AI行业的观察者也应该注意到,这一模型即将发布时在媒体上被大肆渲染为一种危险的进步,而OpenAI并未公开降低这种说法。
对于一个需要108秒才能解决八个填字游戏线索并且在一个答案上产生幻觉的AI模型,我们可以断言其潜在的危险可能是过度炒作(至少目前看来)。
围绕“推理”术语的争议
众所周知,科技界有些人对将AI模型拟人化,并使用“思考”或“推理”等词汇来描述这些神经网络系统执行的合成和处理操作持有异议。
就在OpenAI宣布o1之后不久,Hugging Face公司的CEO Clement Delangue在社交媒体上评论道:“再一次地,AI系统并不是‘思考’,而是‘处理’、‘运行预测’……就像Google或计算机一样。
给人错误的印象,让技术系统看起来像人类,这只是廉价的噱头和营销手段,目的是让你觉得它比实际上更聪明。”
“推理”也是一个有些模糊的概念,因为即使在人类中,也很难准确界定这个术语的含义。在公告发布的几小时前,独立AI研究员Simon Willison在推特上回应了《Bloomberg》关于Strawberry的故事,他写道:“我仍然难以用LLM的能力来定义‘推理’。
我很想知道有没有一种提示,可以在当前模型失败的情况下,却能在Strawberry上成功,从而有助于解释这个词的含义。”
无论是否具备推理能力,o1-preview目前缺少早期模型中的一些功能,例如网络浏览、图像生成和文件上传。OpenAI计划在未来更新中增加这些功能,并继续开发o1和GPT系列模型。
虽然OpenAI声称o1-preview和o1-mini模型今天开始推出,但我们尚未在ChatGPT Plus界面中看到它们的身影,因此还没有机会评估这两个模型的表现。我们将报告我们的印象,说明这一模型与其他我们先前报道过的大型语言模型有何不同。
未来...
展望未来,OpenAI正致力于构建具有自主决策能力的系统,即代理(agent),这些系统能够在用户的指示下做出决策并采取行动。
尽管目前o1的推理能力还有待提高,但无疑为实现这一愿景迈出了坚实的步伐。随着OpenAI不断推进其技术边界,我们可以期待看到更多令人兴奋的发展和应用。