o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型II:融合学习与推理的大模型新范式 」读书会,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。
从2024年11月30日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!
2024年7月,Google DeepMind发布的AlphaProof展示AI在数学推理领域的重要突破,该模型能够在国际奥林匹克数学竞赛(IMO)中达到银牌水平;不久,在2024年9月,OpenAI发布了具有里程碑意义的o1模型,它们标志着大语言模型正式进入“深度思考”时代。不同于传统的快速响应模式,o1通过强化学习内化了思维链推理能力,能够在回答问题时进行深入的推理和验证。在数学、编程等需要复杂推理的任务中,o1表现出了惊人的能力提升——在国际奥林匹克信息学竞赛(IOI)中达到金牌水平,在美国数学邀请赛(AIME)中取得83%的得分率。这一突破性进展不仅代表了AI向着更高智能形态的演进,更为我们理解机器推理、人工智能的本质提供了全新视角。从技术层面,o1的成功揭示了一个重要趋势:大模型的能力提升不再局限于简单地扩大参数规模,而是转向了对推理过程的深度优化。这种范式转变涉及多个前沿技术领域的创新,包括思维链的内化机制、基于搜索的推理优化、强化学习在推理能力培养中的应用等。这些技术进展不仅推动了AI领域的发展,也为认知科学、计算机科学等多个学科带来了深刻启示。
本系列读书会旨在深入探讨大模型推理新范式背后的核心技术和基本原理。我们将重点关注以下关键问题:
推理范式的演进:大模型如何从简单的模式匹配走向深度推理?System 1(快思考)和System 2(慢思考)的整合机制是什么?
基于搜索与蒙特卡洛树的推理优化:蒙特卡洛树搜索(MCTS)等方法如何提升模型的推理能力?推理过程的可靠性如何保证?
基于强化学习的大模型优化:强化学习如何培养模型的推理能力?自我对弈(self-play)等机制的作用是什么?
思维链方法与内化机制:如何将外部提示的思维链转化为模型的内在能力?这一过程与人类认知学习有何异同?
- 自我改进与推理验证:模型如何通过自我验证和迭代优化提升推理能力?这种能力的边界在哪里?
这些问题不仅关系到AI技术的发展方向,也涉及到对智能本质的深入理解。我们期望通过这个读书会,汇聚来自机器学习、认知科学、数学等不同领域的观点,共同探索大模型推理能力提升的内在机制,为人工智能的下一个发展阶段贡献洞见。
张江,北京师范大学系统科学学院教授,集智俱乐部、集智学园创始人,集智科学研究中心理事长,曾任腾讯研究院、华为战略研究院等特聘顾问。主要研究领域包括因果涌现、复杂系统分析与建模、规模理论等。冯熙栋,伦敦大学学院计算机系博士,本科毕业于清华大学自动化系。即将加入 Google DeepMind 担任研究科学家。其主要研究方向涵盖语言模型、单智能体,多智能体,以及元强化学习。致力于通过强化学习推动下一代语言模型的发展。https://waterhorse1.github.io/王维埙,关注强化学习前沿技术的探索与应用,研究领域为多智能体系统、深度强化学习、基于人类反馈的强化学习。当前从事RL for LLM相关的工作。个人主页:http://wwxfromtju.github.io/张杰,中科院信工所四年级博士生,安远AI伙伴,上海人工智能实验室实习生。具有人工智能和网络安全交叉背景,关注大模型安全与对齐。研究方向为可信AI、可解释性。
运行模式
从2024年11月30日开始,每周六20:00-22:00,持续时间预计 6-8 周左右,按读书会框架设计,每周进行线上会议,与主讲人等社区成员当面交流,会后可以获得视频回放持续学习。
报名方式
如需用支付宝支付,请在PC端进入读书会页面报名支付:第三步:添加运营负责人微信,获取所有推荐论文资源包,拉入对应主题的读书会社区(微信群)。PS:为确保专业性和讨论的聚焦,本读书会谢绝脱离读书会主题和复杂科学问题本身的空泛的哲学和思辨式讨论;如果出现讨论内容不符合要求、经提醒无效者,会被移除群聊并对未参与部分退费。加入社区后可以获得的资源:
完整权限,包括线上问答、录播回看、资料共享、社群交流、信息同步、共创任务获取积分等。
参与共创任务获取积分,共建学术社区:
读书会采用共学共研机制,成员通过内容共创获积分(字幕修改、读书会笔记、论文速递、公众号文章、集智百科、论文解读等共创任务),积分符合条件即可退费。发起人和主讲人同样遵循此机制,无额外金钱激励。PS:具体参与方式可以加入读书会后查看对应的共创任务列表,领取任务,与运营负责人沟通详情,上述规则的最终解释权归集智俱乐部所有。点击“阅读原文”,报名读书会