学术前沿 | 彭一杰课题组发文提出了一种解决大规模决策问题的高效蒙特卡洛树节点选择策略

文摘 2024-08-14 14:25 湖北

导读

近期，北京大学人工智能研究院多智能体与社会智能研究中心彭一杰课题组以“An Efficient Node Selection Policy for Monte Carlo Tree Search with Neural Networks”为题的文章已被Informs Journal of Computing 接收（点击下方阅读原文）。

Informs Journal of Computing发表运筹与管理科学领域中涉及计算优化、决策支持系统、仿真、人工智能和数据科学等多个方向的理论算法与实际应用，长期以来，该期刊一直被认为是运筹与管理科学领域的高水平期刊。

期刊截图

背景

近年来，智慧化运营管理、制造业及机器人控制等领域正面临着日益增多的大规模决策挑战。这些挑战的核心在于如何在庞大的动作空间中精确地识别出最优行动方案，这对于多数传统的基于规则的搜索方法而言，其计算复杂度往往极高。蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS），作为一种融合了蒙特卡洛仿真的随机性与树搜索精确性的高效算法，能够有效处理复杂且大规模决策的问题，并在自动驾驶、计算机游戏及组合优化问题等多个领域展现出了其独特的优势与潜力。人工智能AlphaGo的成功引领了一种新趋势，即在MCTS中融入价值网络和策略网络，以进一步提升算法的性能。

图1：蒙特卡洛树搜索

MCTS 本质上是一个黑箱系统仿真优化问题。在经典的 MCTS 中，节点选择策略采用置信上界树（Upper Confidence Bounds applied to Trees, UCT）算法，该策略能够有效平衡节点选择中的探索与开发。然而，用于推导 UCT 算法的多臂老虎机问题与 MCTS 问题的框架存在差异，且该算法未能充分利用仿真抽样过程中获得的信息。本研究将蒙特卡洛树搜索中的节点选择问题建模为多阶段的排序与选择（Ranking and Selection, R&S）问题，这一框架与蒙特卡洛树搜索问题更加契合。本研究将用于求解排序与选择问题的渐近最优仿真资源分配策略扩展为一种用于树搜索的节点选择策略。该策略通过平衡行动值与方差，能够高效地分配有限的仿真资源，以最大化正确选择最优行动的概率。进一步地，本研究将价值神经网络与策略神经网络融入所提出的节点选择策略中，分别为算法提供了先验信息与最优行动识别信息，从而进一步提升策略的表现。

图2：在井字棋下的实验结果

图3：在五子棋下的实验结果

图4：在强化学习倒立摆环境中的实验结果

本文将所提出的算法应用于井字棋和五子棋计算机游戏中。数值结果表明，在不结合任何神经网络信息的情况下，与经典的 UCT 策略相比，该算法能够显著提升正确识别最优行动的概率；在结合神经网络信息后，该算法在游戏对弈中比 AlphaGo Zero 中使用的 UCT 策略具有更高的获胜率。此外，在 OpenAI 倒立摆环境测试中，该算法相比于 MuZero 中使用的 UCT 策略，在相同的迭代次数下能够获得更高的游戏得分。进一步地，本文通过数值测试分别验证了价值网络与策略网络在提升算法表现方面的效果。这项研究揭示了将动态仿真资源分配策略扩展为 MCTS 中节点选择策略的潜力，应用这种新的蒙特卡洛树搜索方法来解决大规模决策问题值得进一步深入研究。

作者信息

刘啸天，美国佐治亚理工大学工业与系统工程系博士研究生，于2022年从北京大学信息与科学技术学院获学士学位，于2022-2023年期间在北京大学光华管理学院彭一杰课题组从事研究工作。主要研究方向为人工智能技术在运筹管理问题中的应用，特别是基于人工智能的供应链管理和库存理论。

彭一杰，光华管理学院管理科学与信息系统系副教授、人工智能研究院多智能体与社会智能研究中心执行主任。从事复杂系统随机仿真优化的方法论与理论研究，并将新方法应用于人工智能、金融工程与风险管理、健康医疗等领域。在Operations Research, INFORMS Journal on Computing, IEEE Transactions on Automatic Control等期刊、人工智能顶会上发表高水平学术论文，曾获INFORMS Outstanding Simulation Publication Award。主持国家自然科学基金优青、原创探索、杰青项目等。

张公伯，北京大学光华管理学院助理研究员。从事复杂系统随机仿真优化的方法论与理论研究，并将新方法应用于人工智能、调度规划等领域。在INFORMS Journal on Computing和IEEE Transaction on Automatic Control等高质量期刊上发表学术论文。

周睿涵，北京大学光华管理学院博士研究生，于2022年从武汉大学数学与统计学院获得学士学位，主要从事随机仿真优化与人工智能的交叉研究。学术论文发表在国际高质量期刊INFORMS Journal on Computing上。

数据魔术师

有数据的地方，就有机遇

最新文章

第二届智能优化论文写作研讨会参会总结

成果速递|When Gray Markets Meet “Made in China”: The Impacts of...

第二届运筹优化论文写作研讨会报名通知（最终轮）

边流模型与集合划分模型在车辆路径规划问题中的上界或下界的对比

第二届运筹优化论文写作研讨会报名通知（第四轮）

秦虎教授简介

谷粒学堂第六期直播预告：等不到市场“红利”，那就主动出击降本增效！

2024年UTD最新中国商学院科研百强榜发布

第二届运筹优化论文写作研讨会报名通知（第三轮）

【高峰论坛】2024年第二十届物流系统工程暨第八届管理系统工程学术研讨会（第三轮通知）

免费参与 | 专项奖金 | 2024年中国运筹学会运筹竞赛正式开启！

学术前沿 | 彭一杰课题组发文提出了一种解决大规模决策问题的高效蒙特卡洛树节点选择策略

第二届运筹优化论文写作研讨会报名通知（第二轮）

【高峰论坛】2024年第二十届物流系统工程暨第八届管理系统工程学术研讨会（第二轮通知）

第二届运筹优化论文写作研讨会报名通知（第一轮）

论文识萃|基于站点的无人机大型设施巡检(SDIP)的最优分配与路径设计

论文拾萃｜基于Branch-and-Cut的两阶段算法求解考虑储物柜的无人机配送问题

第二期运筹优化技术培训班成功举办

面上项目增幅48.77%，官方发布2024年度国家自然科学基金项目申请集中接收与受理情况分析

论文拾萃｜分支定价切割算法解决紧急停电时基站的发电机分配问题

秦虎教授简介

北京大学武汉人工智能研究院单位介绍

论文拾萃｜分支定价切割算法精确求解单向汽车共享系统中的E-VReP

重要通知 | 第二届工程管理前沿年会（FEM2024）将于7月13-15日在武汉光谷科技会展中心举办

【高峰论坛】2024年第二十届物流系统工程暨第八届管理系统工程学术研讨会（第一轮通知）

谷粒学堂｜选型避坑指南：如何巧妙避开陷阱，掌握供应链优化选型策略？

第二届工程管理前沿年会（FEM2024）第一轮通知

第二期运筹优化技术短期培训班通知（第一轮）

第七届智能制造系统工程学术会议暨“数智时代智能制造技术与管理创新”论坛通知（第二轮）

第二期运筹优化技术短期培训班通知（第一轮）

2024年智能优化应用实践研讨会成功召开

学术报告|本科生智能算法培训系列讲座（2024年4月21日15:00 - 17:00）

【通知公告】2024年管理科学与工程学会“博士学位论文支撑计划”项目申报通知

《中国可持续发展研究报告（2023）》（蓝皮书）重磅发布

2024年北京大学光华管理学院“全国优秀大学生夏令营”通知

谷粒学堂｜链界智能：智能供应链在汽车汽配行业的实战应用

智能制造学域杜娟教授课题组博士后招聘

商学院All in AI：它在吞噬世界

运筹学教学|Logic-based Benders Decomposition技术介绍(一)

谷粒学堂｜链界智能：智能供应链在汽车汽配行业的实战应用

2024年智能优化应用实践研讨会（终轮通知）

学术报告|本科生智能算法培训系列讲座（2024年3月31日19:00 - 21:00）

直播预告丨COPT在量化投资中的应用：情景信息下基于高斯混合模型的鲁棒投资组合优化

2024年智能优化应用实践研讨会（第三轮通知）

深度强化学习求解优化问题介绍——以动态旅行商问题为例（附python代码）

COPT的AI+MIP求解能力当前极限在哪里？

2024年智能优化应用实践研讨会（第二轮通知）

2024年智能优化应用实践研讨会（第一轮通知）

港科大工业工程与决策分析学系暑期研究实习计划

中国AI发展步入歧途

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉