OpenAI o1发布,理科推理能力超越人类专家博士

科技   2024-09-13 18:43   广东  

9月12日,OpenAI正式发布了其最新的推理系列模型——OpenAI o1。

| OpenAI o1-preview

OpenAI o1-preview这款新模型旨在处理更为复杂的任务,尤其是在科学、编程与数学领域,能够展现出超越以往模型的强大能力。

据官方介绍,OpenAI o1-preview经过专门设计,能够在回应之前花费更多的时间来思考问题。

该模型在强化学习的基础上进行了训练,旨在执行复杂的推理任务。

不同于传统的语言模型,o1在回答之前会经历一个内部思考的过程,通过一系列逻辑链来形成最终的答案。

通过这种方式,模型不仅能够对问题进行深入的分析,还能学习到如何改进自身的思考策略,并识别出可能的错误。

在多项基准测试中,o1展示了其强大的推理能力。

它在Codeforces平台上的编程竞赛问题上达到了第89个百分位,在美国数学奥林匹克竞赛(AIME)预选赛中位列前500名学生之中,并且在物理、生物和化学的博士水平问题(GPQA)上超过了人类专家的表现。

尽管要使这一新模型达到与现有模型一样易于使用的程度仍需进一步工作,但OpenAI已经发布了o1的一个早期版本,即o1-preview,供ChatGPT用户和受信任的API用户使用。

o1通过大规模的强化学习算法进行训练,使其能够有效地利用内部的逻辑链条来进行高效思考。

研究发现,o1的表现随着训练时间和测试时间计算资源的增加而平稳提升。

这种规模化的路径与大型语言模型预训练所需的资源有显著不同,目前OpenAI正在继续探索这些差异。

为了验证o1相对于GPT-4o的进步,研究人员对其进行了多样化的考试和机器学习基准测试。

结果显示,o1在大多数需要复杂推理的任务中显著优于GPT-4o。

具体而言,在2024年的国际信息学奥林匹克竞赛(IOI)中,经过额外编程竞赛训练的o1变体模型获得了49百分位的成绩。

此外,o1在MMLU的54个子类别中也表现出色。

人类偏好评估中,人们更喜欢在受益于更好推理的域中使用 o1-preview。

尽管OpenAI o1-preview在复杂推理任务上表现出色,但在诸如浏览网络信息、上传文件或图片等功能上尚不具备。

对于许多常规应用场景来说,短期内GPT-4o仍将是更合适的选择。

然而,对于需要高级推理能力的任务,如科研人员在细胞测序数据标注、物理学家生成量子光学所需的复杂数学公式、以及开发人员创建执行多步骤工作流等方面,OpenAI o1-preview无疑提供了重要的支持。

在安全性和对齐性方面,o1同样取得了进步。

通过将行为准则整合进模型的逻辑链条中,OpenAI发现这种方法有助于更牢固地教导模型遵循人类的价值观和原则。

在多种安全测试和对抗性测试中,o1-preview显示出了更高的安全性,特别是在处理有害提示的安全完成率上,从标准到具有挑战性的边缘案例,o1-preview都表现出了显著的改进。

关于隐藏的逻辑链条,OpenAI认为这为模型监控提供了独特的机遇。

如果逻辑链条忠实且清晰可见,则可以“读取”模型的思想过程。

然而,为了确保模型自由表达其思想而不被修改,OpenAI决定不对用户展示原始的逻辑链条,而是让模型在回答中总结其思考过程的关键点。

OpenAI采取了一系列措施确保模型的安全使用,公司引入了一种新的训练方法,利用模型的推理能力来更好地遵循安全与一致性指导原则。

在一项难度较大的尝试绕过规则(即“越狱”)测试中,GPT-4o得分为22(满分为100),而OpenAI o1-preview则获得了84分的高分。

这表明新模型在遵守既定规则方面的表现更为出色。

为了适应这些模型的新能力,OpenAI加强了其安全性工作、内部治理以及与联邦政府的合作。

公司实施了严格的测试和评估程序,包括使用其准备框架、顶级的红队演练以及由安全与保障委员会主持的董事会层面审查流程。

OpenAI还与美国和英国的人工智能安全研究所正式达成了合作协议,包括提前向这些机构提供研究版本的模型访问权。

| OpenAI o1-mini

除了OpenAI o1-preview之外,此次发布还包括了一个名为OpenAI o1-mini的版本。

该模型在科学、技术、工程与数学(STEM)领域表现出色,尤其在数学和编程方面接近旗舰模型o1的表现。

该版本特别针对编程任务进行了优化,相较于o1-preview,它具有更快的速度和更低的成本。

大型语言模型如o1通常是在庞大的文本数据集上预训练而成,虽然这些高容量模型具有广泛的世界知识,但对于实际应用来说可能会显得过于昂贵且速度缓慢。

相比之下,o1-mini是一款更小的模型,在预训练期间针对STEM推理进行了优化,通过优化推理能力,为需要推理但不需要广泛世界知识的应用程序提供快速且经济实惠的选择。

作为一款较小的模型,o1-mini的价格比o1-preview便宜80%,适用于那些需要推理但不需要广泛世界知识的应用场景。

经过与o1相同的高性能计算强化学习(RL)管道训练后,o1-mini在许多实用推理任务上实现了与之相当的表现,同时大大降低了成本。

o1-mini现已面向API用户层级5开放,其价格比o1-preview便宜80%,为ChatGPT Plus、Team、Enterprise及Edu用户提供了更具性价比的选择。

除了成本优势外,o1-mini还提供了更高的速率限制和更低的延迟,使其成为需要高效处理大量请求的应用的理想选择。

在AIME高中数学竞赛评估中,o1-mini取得了70%的成绩,这一成绩与o1相近(74.4%),而远超o1-preview(44.6%)。

o1-mini在这项测试中的得分大约为11题中的11题,这将它置于美国前500名高中生的水平。

在编程方面,o1-mini在Codeforces竞赛网站上的表现也十分出色,达到了1650的Elo评分,这个评分不仅与o1(1673)相当,并且显著高于o1-preview(1258)。

这样的Elo评分表明o1-mini在Codeforces平台上的编程者中排名约第86百分位,并且在HumanEval编码基准测试和高中水平的网络安全夺旗挑战赛(CTF)中也有不错的表现。

除了在数学和编程领域的优异表现,o1-mini在多模态机器学习联合(MMLU)、0-shot CoT等评估中也获得了85.2%的分数,优于o1-preview的85.5%,但略低于顶级模型o1的90.8%。

此外,在GPQA Diamond 0-shot CoT评测中,o1-mini达到了60%,相较于o1-preview的73.3%有所提高,但仍落后于o1的77.3%。

而在MATH-500 0-shot CoT评测中,o1-mini得分为90%,同样超过了o1-preview(85.5%),但低于顶级模型o1(94.8%)。

人类偏好评估显示,在涉及复杂开放性提示的各种领域,o1-mini的表现与GPT-4o相比,在重推理的领域中更受青睐,但在语言为中心的领域中则不如GPT-4o。

在个人写作、文本编辑、计算机编程、数据分析以及数学计算等领域的人类偏好评估中,与 o1-preview 类似,在推理较多的领域中,o1-mini 优于 GPT-4o,但在以语言为中心的领域中,o1-mini 不优于 GPT-4o。

速度方面, o1-mini 找到答案的速度大约快了 3-5 倍。

安全性方面,OpenAI已经仔细评估了o1-mini在部署前的安全风险,并采取了与o1-preview相同的准备措施、外部红队测试和安全性评估方法。

在安全性和对有害提示的安全完成拒绝率上,o1-mini与GPT-4o相同,均为99%的标准完成率。

然而,在面对更具挑战性的越狱尝试和边缘情况时,o1-mini显示出93.2%的安全完成率,远高于GPT-4o的71.4%。

o1-mini还在StrongREJECT数据集上展示了比GPT-4o高出59%的越狱鲁棒性。

此外,o1-mini在“不过度拒绝”的良性边缘案例上的合规率为92.3%,略高于GPT-4o的91%。

尽管o1-mini在STEM相关任务上表现出色,但在非STEM领域的事实知识上,如日期、传记和琐事等,其表现类似于小型语言模型GPT-4o mini。

未来版本将继续改进这些局限性,并探索扩展模型至STEM以外的其他领域和专长。

从今日起,ChatGPT Plus和团队用户可以开始使用OpenAI o1系列模型。

用户可以通过手动选择模型来进行交互,初始阶段每周的消息限额分别为o1-preview 30条和o1-mini 50条。

OpenAI正致力于提升这些限制,并计划使ChatGPT能够自动选择最适合特定提示的模型。

随着OpenAI o1系列的推出,人工智能领域的研究者与开发者们将迎来新的工具,助力他们在各自的专业领域内取得突破性进展。

直达链接:chatgpt.com

关注我们:即可加入【AI交流群】,免费领取【AI大礼包】


晓得智能
每日聚焦最新AI,让每个人都能享受到AI带来的乐趣!
 最新文章