信管·讲座 | Building Generalizable Sequential Decision-Making...

教育 2024-11-25 16:46 上海

时间

TIME

2024年12月3日（周二）14:00-15:00

地点

VENUE

信管学院308会议室

主讲人

SPEAKER

Muning Wen(温睦宁) is currently a third-year Ph.D. student at Shanghai Jiao Tong University, under the supervision of Professor Weinan Zhang. He possesses extensive theoretical and practical experience in reinforcement learning, multi-agent systems, and LLM agents. In his recent academic endeavors, Muning has been dedicated to developing advanced RL/MARL algorithms aimed at enhancing the sequential decision-making capabilities of LLM agents in dynamic environments. Additionally, he has been deeply involved in the application of these algorithms in fields such as data science, mathematics, and embodied intelligence. In the past three years, Muning has published over ten papers in top-tier academic conferences, including NeurIPS, ICML, and ICLR. Since 2023, he has also been serving as a reviewer for these prestigious conferences.

个人主页

PERSONAL HOMEPAGE

https://scholar.google.com/citations?user=Zt1WFtQAAAAJ

主题

TITLE

Building Generalizable Sequential Decision-Making Systems: Multi-Agent Reinforcement Learning in the Era of LLMs

摘要

ABSTRACT

In this talk, the speaker will discuss the feasibility of building a sequence decision-making system with strong generalization abilities, drawing from his previous research experience in the fields of multi-agent reinforcement learning and LLM agents. The speaker will first introduce the Multi-Agent Advantage Decomposition Theorem and its application in multi-agent reinforcement learning. This approach allows for transforming the MARL problem into a sequence modeling problem, which can then be optimized in conjunction with sequence models like Transformers. Additionally, the speaker will present their latest exploration to improve LLM agents' performance, including a framework for LLM agent reinforcement learning—Action Decomposition-based Bellman Update and Policy Optimization (BAD and POAD), which aims to bridge the theoretical gaps between reinforcement learning and language model optimization and improve learning efficiency. Lastly, the speaker will explore the alignment between multi-agent sequence modeling methods and the current generative paradigm of language agents, discussing the potential and challenges of applying multi-agent reinforcement learning for systems involving multiple language agents.

欢迎关注！

上财信息

上海财经大学信息管理与工程学院官方新媒体平台，用于学院各类信息发布，欢迎关注！

“数智赋能”教学研讨系列活动 |人工智能时代的教学思考和实践

“数智赋能”教学研讨系列活动 | 用户中心化方法构建可信推荐系统

信息人的故事·窦露 | 行远自迩，登高博见

信管·讲座 | Security and Privacy of AI-based systems and...

信管·讲座 | Neural-Network Mixed Logit Choice Model...

2025年全国硕士研究生招生考试上海财经大学考点（代码：3109）考前提醒（一）

信管·讲座 | Active Learning of General Halfspaces: Label Queries..

信管·讲座 | Discrete Choice Modeling and Assortment Optimization...

青春信息 | 活动预告 · 寻找合伙人，沉浸体验商场沉浮

信管·讲座 | Towards Trustworthy and Responsible Large...

青春信息·十大歌手 | 信息管理与工程学院第一届十佳歌手决赛活动回顾

2025研考生请注意！11日开通《准考证》下载

信管·讲座 | Towards Robust and Efficient Large-Scale Stochastic

信管·新闻 | 我院获得2025年CCF中国数字金融大会承办权

逐梦数海智驭未来｜2022级大数据2班获评校“文明班级”提名奖

“智慧未来，引领出行” | 信息管理与工程学院学生党支部走进蔚来汽车

2024年校级文明班级|信息管理与工程学院2022级数据科学与大数据技术1班获评校“文明班级”

信管·喜报丨上财MEM学子在第八届上海市工程管理创新大赛中荣获一等奖

青春信息 | 信管学院十佳歌手决赛即将来袭

信管·讲座 | Hash functions bridging the gap from theory to practice

信息先锋·党章知识竞赛 | 活动回顾：七十五载风雨路，砥砺前行谱华章

信管·讲座 | Screening with Limited Information: A Dual Perspective

信管·讲座 | Incorporating LLMs for Effective and Efficient...

信管·讲座预告 | 【武东大讲坛第2期】证券公司大模型实践与证券行业探索前瞻

追寻三曾里足迹传承红色薪火 | 蒲公英先锋党支部赴中共三大后中央局机关历史纪念馆开展主题党课

经验分享•师生面对面 | 星灯冉冉，师生益谈—江敏祺老师座谈会回顾

青春信息·四大名著巡礼 | 纵谋三国叱风云活动回顾

育人于微服务于行 | “倾听·一站式”学生社区活动成功举办

“数智赋能”教研室活动系列 | 面向计算社会科学的教学设计

青春信息·冬日来信 | 时光信笺，冬日来信活动预告

信管·喜报 | 2021级信息管理与信息系统班团支部荣获2024年上海高校活力团支部

蓝色信息 | 蓝色信息创业创新基金期中汇报暨第九期立项答辩会成功举行

访企拓岗 | 信息管理与工程学院师生赴中国银行参访

信息人的故事·张俊 | 力学不倦，以信息管理赋能机械制造

经验分享•进博会︱进博潮头志愿影，服务浪尖青春行

论文指引 | 2024-2025学年第二学期MEM学位论文答辩工作指引

“数智赋能”教学研讨系列活动 | 数字财经的融合路径

信息先锋·党章知识竞赛 | 活动预告：七十五载风雨路，砥砺前行谱华章

听见心声唱响青春 | 信管学院十佳歌手大赛即将震撼开启

信管·讲座 | Building Generalizable Sequential Decision-Making...

经验分享•师生面对面 | 星灯冉冉，师生益谈——江敏祺老师座谈会预告

青春信息·四大名著巡礼｜西游×三国·破关克难突重围活动回顾

科技启航梦想｜N.O.P.E机器人协会与财大附小机器人互动体验课活动圆满结束

信息战报·校运会｜信息学子志千里，运动健儿梦今朝

信息学联 | 受聘大会：新力加盟启征程，继往开来谱新篇

青春信息·四大名著巡礼 | 三国·纵谋三国叱风云

信管·论文指引 | 2024-2025学年第二学期学术型硕士学位论文答辩工作指引

信管·论文指引 | 2024-2025学年第二学期博士学位论文答辩工作指引

信息先锋·BBWALK11.0 | “博学慎思，笃行明志”活动总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉