导读
近期,北京大学人工智能研究院多智能体与社会智能研究中心彭一杰课题组以“An Efficient Node Selection Policy for Monte Carlo Tree Search with Neural Networks”为题的文章已被Informs Journal of Computing 接收(点击下方阅读原文)。
Informs Journal of Computing发表运筹与管理科学领域中涉及计算优化、决策支持系统、仿真、人工智能和数据科学等多个方向的理论算法与实际应用,长期以来,该期刊一直被认为是运筹与管理科学领域的高水平期刊。
期刊截图
本文将所提出的算法应用于井字棋和五子棋计算机游戏中。数值结果表明,在不结合任何神经网络信息的情况下,与经典的 UCT 策略相比,该算法能够显著提升正确识别最优行动的概率;在结合神经网络信息后,该算法在游戏对弈中比 AlphaGo Zero 中使用的 UCT 策略具有更高的获胜率。此外,在 OpenAI 倒立摆环境测试中,该算法相比于 MuZero 中使用的 UCT 策略,在相同的迭代次数下能够获得更高的游戏得分。进一步地,本文通过数值测试分别验证了价值网络与策略网络在提升算法表现方面的效果。这项研究揭示了将动态仿真资源分配策略扩展为 MCTS 中节点选择策略的潜力,应用这种新的蒙特卡洛树搜索方法来解决大规模决策问题值得进一步深入研究。
02
作者信息
刘啸天,美国佐治亚理工大学工业与系统工程系博士研究生,于2022年从北京大学信息与科学技术学院获学士学位,于2022-2023年期间在北京大学光华管理学院彭一杰课题组从事研究工作。主要研究方向为人工智能技术在运筹管理问题中的应用,特别是基于人工智能的供应链管理和库存理论。
彭一杰,光华管理学院管理科学与信息系统系副教授、人工智能研究院多智能体与社会智能研究中心执行主任。从事复杂系统随机仿真优化的方法论与理论研究,并将新方法应用于人工智能、金融工程与风险管理、健康医疗等领域。在Operations Research, INFORMS Journal on Computing, IEEE Transactions on Automatic Control等期刊、人工智能顶会上发表高水平学术论文,曾获INFORMS Outstanding Simulation Publication Award。主持国家自然科学基金优青、原创探索、杰青项目等。
张公伯,北京大学光华管理学院助理研究员。从事复杂系统随机仿真优化的方法论与理论研究,并将新方法应用于人工智能、调度规划等领域。在INFORMS Journal on Computing和IEEE Transaction on Automatic Control等高质量期刊上发表学术论文。
周睿涵,北京大学光华管理学院博士研究生,于2022年从武汉大学数学与统计学院获得学士学位,主要从事随机仿真优化与人工智能的交叉研究。学术论文发表在国际高质量期刊INFORMS Journal on Computing上。