大模型2.0读书会来了！融合学习与推理的大模型新范式

学术 2024-11-11 20:13 浙江

Datawhale推荐

方向：大模型，组织方：集智俱乐部

导语

o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型II：融合学习与推理的大模型新范式」读书会，本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径，帮助我们更好的理解机器推理和人工智能的本质。

从2024年11月30日开始，预计每周六进行一次，持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加，激发更多的思维火花！

背景介绍

2024年7月，Google DeepMind发布的AlphaProof展示AI在数学推理领域的重要突破，该模型能够在国际奥林匹克数学竞赛(IMO)中达到银牌水平；不久，在2024年9月，OpenAI发布了具有里程碑意义的o1模型，它们标志着大语言模型正式进入“深度思考”时代。不同于传统的快速响应模式，o1通过强化学习内化了思维链推理能力，能够在回答问题时进行深入的推理和验证。在数学、编程等需要复杂推理的任务中，o1表现出了惊人的能力提升——在国际奥林匹克信息学竞赛(IOI)中达到金牌水平，在美国数学邀请赛(AIME)中取得83%的得分率。这一突破性进展不仅代表了AI向着更高智能形态的演进，更为我们理解机器推理、人工智能的本质提供了全新视角。

从技术层面，o1的成功揭示了一个重要趋势：大模型的能力提升不再局限于简单地扩大参数规模，而是转向了对推理过程的深度优化。这种范式转变涉及多个前沿技术领域的创新，包括思维链的内化机制、基于搜索的推理优化、强化学习在推理能力培养中的应用等。这些技术进展不仅推动了AI领域的发展，也为认知科学、计算机科学等多个学科带来了深刻启示。

框架介绍

本系列读书会旨在深入探讨大模型推理新范式背后的核心技术和基本原理。我们将重点关注以下关键问题：

推理范式的演进：大模型如何从简单的模式匹配走向深度推理？System 1（快思考）和System 2（慢思考）的整合机制是什么？
基于搜索与蒙特卡洛树的推理优化：蒙特卡洛树搜索(MCTS)等方法如何提升模型的推理能力？推理过程的可靠性如何保证？
基于强化学习的大模型优化：强化学习如何培养模型的推理能力？自我对弈(self-play)等机制的作用是什么？
思维链方法与内化机制：如何将外部提示的思维链转化为模型的内在能力？这一过程与人类认知学习有何异同？
自我改进与推理验证：模型如何通过自我验证和迭代优化提升推理能力？这种能力的边界在哪里？

这些问题不仅关系到AI技术的发展方向，也涉及到对智能本质的深入理解。我们期望通过这个读书会，汇聚来自机器学习、认知科学、数学等不同领域的观点，共同探索大模型推理能力提升的内在机制，为人工智能的下一个发展阶段贡献洞见。

发起人介绍

张江，北京师范大学系统科学学院教授，集智俱乐部、集智学园创始人，集智科学研究中心理事长，曾任腾讯研究院、华为战略研究院等特聘顾问。主要研究领域包括因果涌现、复杂系统分析与建模、规模理论等。

冯熙栋，伦敦大学学院计算机系博士，本科毕业于清华大学自动化系。即将加入 Google DeepMind 担任研究科学家。其主要研究方向涵盖语言模型、单智能体，多智能体，以及元强化学习。致力于通过强化学习推动下一代语言模型的发展。

https://waterhorse1.github.io/

王维埙，关注强化学习前沿技术的探索与应用，研究领域为多智能体系统、深度强化学习、基于人类反馈的强化学习。当前从事RL for LLM相关的工作。

个人主页：http://wwxfromtju.github.io/

张杰，中科院信工所四年级博士生，安远AI伙伴，上海人工智能实验室实习生。具有人工智能和网络安全交叉背景，关注大模型安全与对齐。研究方向为可信AI、可解释性。

报名参与读书会

运行模式

从2024年11月30日开始，每周六20:00-22:00，持续时间预计 6-8 周左右，按读书会框架设计，每周进行线上会议，与主讲人等社区成员当面交流，会后可以获得视频回放持续学习。

报名方式

第一步：扫码填写报名信息。

扫码报名（可开发票）

第二步：填写信息后，付费报名。

如需用支付宝支付，请在PC端进入读书会页面报名支付：

第三步：添加运营负责人微信，获取所有推荐论文资源包，拉入对应主题的读书会社区（微信群）。

PS：为确保专业性和讨论的聚焦，本读书会谢绝脱离读书会主题和复杂科学问题本身的空泛的哲学和思辨式讨论；如果出现讨论内容不符合要求、经提醒无效者，会被移除群聊并对未参与部分退费。

加入社区后可以获得的资源：

完整权限，包括线上问答、录播回看、资料共享、社群交流、信息同步、共创任务获取积分等。

参与共创任务获取积分，共建学术社区：

读书会采用共学共研机制，成员通过内容共创获积分（字幕修改、读书会笔记、论文速递、公众号文章、集智百科、论文解读等共创任务），积分符合条件即可退费。发起人和主讲人同样遵循此机制，无额外金钱激励。

PS：具体参与方式可以加入读书会后查看对应的共创任务列表，领取任务，与运营负责人沟通详情，上述规则的最终解释权归集智俱乐部所有。

点击“阅读原文”，报名读书会

http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247689873&idx=1&sn=b6bcc67410ddfeff19c14408e6a650ef

Datawhale

一个专注于AI领域的开源组织，汇聚了众多优秀学习者，使命-for the learner，和学习者一起成长。

最新文章

上海交大教授建议：Datawhale给开源AI通识课新命名

火了！一份AI领域的经典论文清单！

2025 QS 亚洲大学排名公布！197所中国高校上榜！

谷歌2024博士奖学金名单公布

微软 AI CEO 清华演讲全文（建议收藏）

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

线下百校联动，AI线下共学活动开放报名

2025冬季科创营报名启动

导师：自己每天科研工作近10小时，都觉得不够。研究生们：每天工作不够5小时，拿什么去竞争？

李飞飞团队新作：空间智能版ImageNet来了！

大模型2.0读书会来了！融合学习与推理的大模型新范式

教授何恺明在MIT的第二门课！

知名开源项目阿里官宣停更，太痛了

ACL 2024亮点：RAG技术进展与论文解析

组队学习首次开放许愿啦！下个月想学什么，听你的

报名开启 | 11月8日 Google活动来华师大了

实测讯飞智作，一张照片定制属于自己的数字人

十一月组队学习来了！

Datawhale公益组，帮孩子找到兴趣和热爱

《OPEN AI通识课》重磅发布！Datawhale 联合浙江大学智海 Mo 平台

刚刚，阿里全球数学竞赛决赛结果公布！姜萍违反预选赛规则未获奖

沈向洋在青年科学家50²论坛的演讲全文：关于大模型的10个思考

时代变了！英伟达纳入道琼斯指数，英特尔被取代

库克：我从乔布斯那里学到的

阿里、京东、鹅厂、小米不同职级薪资待遇一览表

Runway CEO喊话：我们不是一家 AI 公司

马斯克正在用他的方法「拯救世界」

神秘模型“小熊猫”一夜霸榜，疑似中国制造

本周六，北京中关村见！

Claude喜提清华物理特奖得主，学物理的都去搞大模型了？

薅优惠GPU算力机会来了！

一篇具身智能的最新全面综述！（下）

一篇具身智能的最新全面综述！（上）

开源一夜崩塌：Linux无理由除名俄罗斯开发者。我们该醒了？

今年的1024，一些有趣的AI观察

稚晖君玩了个大的：开源人形机器人全套图纸+代码！

论文发表难！OpenAI又有高管走了，还发了长篇离职信

10月29日，上海阿里见！

Datawhale AI+X高校行于复旦大学圆满举行！

值得去的20家IT公司及薪资（杭州篇）

实验室一块GPU都没有怎么做深度学习？

卷疯了！美国AI博士生「人手10篇顶会」

华为不同职级薪资待遇一览表

李飞飞最新访谈：AI十年，她所看见的世界

本周五，合肥见！

CCF 大模型安全挑战赛获奖队伍公示！

陶神回应：AI还无法达到他12岁时的水平

又一外企巨头在中国裁员了

4所高校、1000+师生受益，9月AI+X高校行圆满举行！

Yann LeCun最新万字演讲：致力于下一代AI系统，我们基本上不做LLM了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉