关于生成式AI更多内容,欢迎关注:
OpenAI o1发布以后,又圈了波粉。微软的Azure OpenAI也同步release了。不过在Azure上目前要访问o1和o1 mini需要填个申请表格。
一、关于命名
OpenAI没有选择命名为GPT-5或GPT-4.1,为什么选择o1呢?
根据OpenAI的说法,这些新模型的进步如此显著,以至于他们觉得有必要将计数器重置为1:
对于复杂推理任务,这是一个显著的进步,代表了AI能力的新水平。鉴于此,我们将计数器重置为1,并将这一系列命名为OpenAI o1。
这些模型的主要关注点是思考和推理复杂任务,并解决更难的问题。因此,不要期望它速度极快;相反,它提供比以前的模型更好、更合乎逻辑的答案。
o1系列模型有两个变体:o1-mini和o1-preview。
o1-preview:这是即将发布的最先进、最强大的o1模型的预览版。o1在AI推理方面显著提升了技术水平。
o1-mini:这是一个更快、更便宜的推理模型,特别擅长编程。作为一个较小的模型,o1-mini比o1-preview便宜80%,使其成为需要推理但不需要广泛世界知识的应用的强大且经济的选择。
OpenAI强调,这些新模型通过强化学习进行训练,以执行复杂推理。那么,在大型语言模型的背景下,推理究竟意味着什么?
推理如何运作?就像人类在回答困难问题前会思考一段时间一样,o1在尝试解决问题时使用思维链。
o1学会识别并纠正自己的错误。它学会将复杂步骤分解为更简单的步骤。当当前方法无效时,它学会尝试不同的方法。
关键点在于,推理使模型能够在生成最终响应之前考虑多种方法。
过程如下:
生成reasoning tokens
生成可见的completion tokens作为答案
从上下文中丢弃reasoning tokens
注:丢弃reasoning tokens可以使上下文专注于关键信息。
虽然Reasoning tokens在API中不可见,但它们仍然占据模型的上下文窗口空间,并作为输出 tokens计费。
NVIDIA’s senior researcher Jim的观点很独到,我稍微拓展一下进行解释:
推理不需要大模型:通常,大模型有很多参数,这些参数主要用于记忆大量的事实,以便在问答等任务中表现良好。但推理能力可以与知识分开。也就是说,我们可以有一个小的“推理核心”,它知道如何使用工具(比如浏览器或代码验证器)来帮助解决问题。这意味着我们可以减少在预训练阶段所需的计算量。
计算资源的转移:传统上,很多计算资源用于模型的预训练和后处理。但Jim建议将更多的计算资源用于推理阶段。大型语言模型可以被视为文本模拟器,通过在模拟器中尝试多种策略和场景,模型可以逐渐找到好的解决方案。这类似于AlphaGo使用的蒙特卡罗树搜索(MCTS),这是一种通过模拟多种可能性来找到最佳解决方案的方法。
二、o1与GPT-4o相比如何?
为了测试o1模型与GPT-4o的对比,OpenAI进行了多种人类考试和机器学习基准测试。
上面的图表显示,o1在数学、编程和科学问题的复杂推理基准测试中,比GPT-4o有了显著提升。
在评估新发布的o1模型时,OpenAI发现它们在GPQA-diamond基准测试中表现出色。这是一项评估化学、物理和生物学专业知识的高难度智力测试。
为了比较模型与人类的表现,OpenAI与拥有博士学位的专家合作,这些专家回答了相同的GPQA-diamond问题。
令人惊讶的是,o1超越了这些人类专家,成为第一个在该基准测试中做到这一点的模型。虽然这并不意味着o1在所有方面都优于博士,但它确实表明在解决某些博士预期解决的问题上,o1更为出色。
o1用了33秒和296个tokens来解决问题,并且回答正确。
GPT-4o用了不到一秒,消耗了39个 tokens,但未能通过测试。
三、o1模型的Prompt技巧
与Claude 3.5 Sonnet、Gemini Pro或GPT-4o等模型相比,o1的提示方式会有些不同。
o1在简单直接的提示下表现最好。有些提示技巧,比如少样本提示或让模型“逐步思考”,可能不会提升效果,有时甚至会有反作用。
以下是一些建议:
保持提示简单明了:模型擅长理解和回应简短、清晰的指令,不需要过多的指导。
避免使用思维链提示:因为这些模型在内部已经进行推理,不需要提示它们“逐步思考”或“解释你的推理”。
使用分隔符来提高清晰度:用三重引号、XML标签或章节标题等分隔符,清楚地标示输入的不同部分,帮助模型正确理解。
在检索增强生成(RAG)中限制额外上下文:提供额外上下文或文档时,只包含最相关的信息,以免模型的响应过于复杂。
四、o1对AI训练的影响
o1的推出不仅仅是技术上的进步,它还可能对AI训练方法产生深远影响。传统上,AI模型的性能提升主要依赖于增加模型的规模和参数数量。然而,o1展示了一种不同的路径,通过优化推理阶段的计算资源使用,实现了更高效的性能。
降低训练成本:o1的策略使得较小的模型能够在性能上与更大模型媲美,这意味着训练和运行这些模型的成本大幅降低。这对于资源有限的研究机构和公司来说是一个巨大的优势。
加速研发周期:由于较小的模型训练时间更短,研究人员可以更快地进行实验和迭代。这种加速的研发过程可能会带来更多创新的AI技术和应用。
提高模型可解释性:较小的模型更容易分析和调试,结合o1的思维链推理方法,研究人员可以更好地理解模型的决策过程。这对于提高AI系统的稳健性和可靠性尤为重要。
总之,o1不仅仅是一个新的AI模型,它代表了一种新的思维方式和技术路径,可能会在未来几年内重塑AI的格局。
五、o1对AI推理的影响
如果后续SLM也采用类似o1的训练方法,SLM在边缘端对NPU/GPU/CPU的需求,可能会有所不同。
硬件厂商可能会通过以下方式优化NPU和CPU,以更好地支持AI模型的推理需求:
提高计算能力:增强处理器的计算能力,以更快地执行复杂的推理任务。
优化内存管理:改进内存架构,以更高效地处理大规模数据和模型参数,减少数据传输瓶颈。
能效提升:通过降低功耗来提高能效,使得在边缘设备上运行AI模型更加可行。
专用加速器:开发专门用于推理优化的加速器,支持特定的AI操作和算法。
支持新算法:更新硬件以支持最新的AI算法和技术,如自监督学习或新的推理优化方法。
参考链接
https://medium.com/@alcarazanthony1/why-openai-o1s-training-method-will-open-a-golden-age-for-small-language-models-7d64cb58f2ba
https://medium.com/generative-ai/openais-o1-model-is-finally-here-a-model-that-thinks-hard-before-it-responds-0ef53042844c