超越人类博士,OpenAI在o1模型中使用了什么独门秘技?

科技   2024-10-08 12:05   北京  
文末赠书

Part.1

OpenAI o1:超越人类博士的 AI 模型

近期,OpenAI 公司放出大招,推出全新大模型 o1,再一次震撼了业界。o1 模型在一系列高难度基准测试中展现出了超强实力,其推理能力甚至能在博士级别的科学问答环节上超越人类专家。
用数据说话,在 Blocksworld 任务中,o1 模型的准确率达到了97.8%,远超 LLaMA 3.1 405B 的 62.6%;o1 模型在 AIME 资格考试中的解题正确率为 83%,而 GPT-4o 仅为 13%;o1 模型在 Codeforces 比赛中的 Elo 评分为1807,超越 93% 的竞争对手。

OpenAI 在 o1 模型中使用了什么独门秘技?

o1 模型主要基于强化学习(Reinforcement Learning, RL)和蒙特卡罗树搜索(Monte Carlo Tree Search, MCTS)来实现复杂推理能力的提升,并且通过内部化的思维链(Chain of Thought, CoT)学习,能够不断验证和纠错,优化使用策略。
更厉害的是,o1 模型在解决问题时会进行深层次的思考,模仿人类的思维方式,尝试不同的解题策略,并在过程中识别并纠正自己的错误。有评论说,这是大模型从快思考走向慢思考的范式升级。
o1 模型擅长编写和调试复杂程序,在物理、化学、生物科学的基础研究上能达到博士生水准。要想将 o1 这种通用大模型的能力进一步发挥出来,就要掌握大模型应用的开发方法,《大模型应用开发:动手做AI Agent》这本书就讲透了大模型的理论与实践。
点击下方,即可优惠购书
我们现在探索一下,用好超强模型的秘诀是什么。

Part.2

用好超强模型的秘诀

AI Agent 是一种能理解自然语言、生成回复并执行具体行动的智能体,它依托基础大模型,可以开发各种应用形态,例如虚拟助手、智能客服、专家系统等。
对于如何做好 AI Agent,《大模型应用开发:动手做AI Agent》提出了一套完整的方法论。

1. 博学:Agent 需要基于海量数据进行训练,以获得广泛的知识和技能。

2. 审问:Agent 应接受清晰明确的指令,即有效的提示工程,以确保正确理解任务要求。

3. 慎思:Agent 应在精巧设计的模式下进行认知,配置思维链、思维树(Tree of Thought, ToT)、ReAct 框架等。

4. 明辨:Agent 需要明确地遵循人类道德规范,通过指令微调和价值对齐来确保 AI 安全无害。

5. 笃行:Agent 需要借助技术工具(如 ToolCalls 和 Function Calling) 与外界交互,执行具体行动。

如果能将 o1 的推理能力形成应用,那我们就会拥有机器形态的资深软件工程师、专业科研工作者了。
大模型驱动的自主 Agent 架构
本书作者黄佳,笔名咖哥,是新加坡科技研究局的人工智能研究员。他的专业领域包括自然语言处理(NLP)、大模型研发与应用,以及 AI 在金融科技(FinTech)和医疗科技(MedTech)中的应用。
黄佳
咖哥在人工智能领域深耕多年,积累了丰富的科研项目经验,主导研发了多个政府、银行、能源和医疗等领域的 AI 项目。他出版多本畅销技术图书,包括《GPT图解:大模型是怎样构建的》《零基础学机器学习》和《数据分析咖哥十话》等。
相信咖哥已经在琢磨怎么动手做 o1 的 Agent 了,我们来学习七大 Agent 开发实例,把握咖哥的构建思路吧。

Part.3

七大实例教你玩转 AI Agent

本书通过 7 个实操项目,带领读者动手实现 Agent 技术,并启发思考,使读者触类旁通,能创造性运用所学知识。接下来对这些实例逐一介绍。


· Agent 1:自动化办公的实现

通过 Assistants API 和 DALL·E 3 模型创作 PPT。这个项目展示了如何利用 OpenAI 的 API 来实现自动化办公任务,比如制作演示文稿。

· Agent 2:多功能选择的引擎

通过 Function Calling 调用函数。这个 Agent 项目探讨了如何通过 Assistants API 实现 Function Calling,以及通过 ChatCompletion API 实现 Tool Calls。

· Agent 3:推理与行动的协同

这个实例演示了如何使用 LangChain 的 ReAct 框架实现一个自动定价系统。

· Agent 4:计划和执行的解耦

通过LangChain 中的 Plan-and-Execute 实现智能调度库存。先是介绍了 Plan-and-Solve 策略,然后通过 Plan-and-Execute Agent 实现物流管理。

· Agent 5:知识的提取与整合

此 Agent 项目利用 LlamaIndex 的 ReAct RAG Agent 实现花语秘境财报检索,展示了通过 LlamaIndex 实现检索增强生成(Retrieval-Augmented Generation,RAG)的能力。

· Agent 6:GitHub 的网红聚落

这个项目介绍了几个在 GitHub 上流行的 AI Agent 项目,包括 AutoGPT、BabyAGI 和 CAMEL,它们在社区中受到了广泛的关注和讨论。

· Agent 7:多 Agent 框架

这个项目探讨了多 Agent 框架的概念和实现,包括 AutoGen 和 MetaGPT 这两个工具的使用。

这些项目覆盖了办公自动化、智能调度、知识整合以及检索增强生成等领域。通过这些实例,读者可以更深入地理解 AI Agent 的设计与实现。
为了帮助大家更深入地理解大模型的原理与使用,这里再推荐几本关于 GPT 原理、强化学习与提示词工程的优秀图书给大家。

1

《GPT图解:大模型是怎样构建的》

点击下方,即可优惠购书

这也是咖哥的一本力作,保持了咖哥生动活泼的行文风格,以轻松幽默的故事和缤纷多彩的图画,引领读者穿梭于技术时空中,吃透 GPT 技术核心思想,并从零开始搭建语言模型。

2

《动手学强化学习》

点击下方,即可优惠购书

这是上海交大 ACM 班创办人俞勇教授团队推出的强化学习入门经典书,本书全面、系统地介绍了强化学习的基本技术,帮助读者学习强化学习的基本概念和代表性方法,并涉及模仿学习、多智能体强化学习等前沿技术。

书中还提供各个算法的可执行代码,帮助读者快速上手,从零搭建强化学习的理论与工程体系。

3

《Easy RL:强化学习教程》

点击下方,即可优惠购书

本书由 Datawhale 技术团队创作,吸收了李宏毅老师的“深度强化学习”、周博磊老师的“强化学习纲要”、李科浇老师的“世界冠军带你从零实践强化学习”等公开课的精华内容,深入浅出地介绍强化学习知识。

主要知识点包括马尔可夫决策过程、蒙特卡罗方法、时序差分方法、Sarsa、Q 学习等传统强化学习算法,以及策略梯度、近端策略优化、深度Q 网络、深度确定性策略梯度等。

本书还提供了全面的习题解答以及 Python 代码实现,帮助读者充分掌握强化学习算法的原理并能进行实战。

4

《人人都是提示工程师》

点击下方,即可优惠购书

本书讲述了提示技术的基本工作原理、提示工程师的常用工具、提示技术的基础模式和提示技术的进阶知识,包括零样本提示、少样本提示和思维链提示。

还讲解了NLP的基础知识和 ChatGPT 大模型的原理,以及 NLP 模型的特点和应用场景。展示提示工程在办公、图片处理、代码开发和电商中的应用。

Part.4

结语

《大模型应用开发:动手做AI Agent》非常重要的一点,就是咖哥从传统知识出发,提出“博学之,审问之,慎思之,明辨之,笃行之”的一套完整的 Agent 开发方法论,这在业界具有开创性意义。
咖哥写书的特点是以轻松幽默的方式分享知识,在书中他以“咖哥”和“小雪”两个角色之间的对话展开技术讨论,使得复杂的技术概念变得易于理解。
本书另一个特点是实战指导性强,详细介绍了 7 个实战项目,覆盖了自动化办公、智能调度、知识整合以及检索增强生成等领域。让读者看到 Agent 的开发过程,体验到 Agent 的实际威力。
本书提供了丰富的配套资源,包括书中的全部代码和思维导图,方便读者学习和实践。
书中内容从基础理论到技术工具,再到项目实战,循序渐进,适合不同层次的读者学习。对 Agent 技术感兴趣或致力于该领域的研究人员、开发人员、企业负责人,以及高等院校相关专业师生等,都可以从本书中收获知识与价值。
要将超强大模型的能力发挥到极致,就看这本《大模型应用开发:动手做AI Agent》吧!
点击下方,即可优惠购书
—END—



分享你对RAG的看法


在留言区参与互动,并点击在看和转发活动到朋友圈,我们将选1名读者赠送e读版电子书1本,截止时间10月31日。


异步图书
人民邮电出版社IT专业图书品牌,发布最新纸书、电子书资讯,分享深度技术文章,与作译者互动交流。
 最新文章