首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
【书籍推荐】清华大学李升波教授撰写《面向工业控制的强化学习理论与方法》
文摘
2023-11-26 13:23
加拿大
来源||清华大学IDLab实验室
转载自:
CAAI认知系统与信息处理专委会
自
2000年以来,人工智能的快速崛起正重塑
人类社会的各个角落,有望引导工业文明进入第四次革命浪潮。
以道路交通为例,汽车的智能化变革促使整个行业发生了翻天覆地的变化,包括驾驶辅助、自动驾驶、
云控协同等一系列新技术如雨后春笋般涌现,它们在提升地面车辆行驶性能的同时,也为解决交通事故、排放污染、城市拥堵等问题提供了一条可行的途径。
近年随着人工智能和自动控制的融合发展,以模仿人类大脑学习机制为原理的强化学习(RL,Reinforcement Learning)方法迅速进入人们的视野,它为大规模复杂动态系统的高性能决策与高实时控制提供了一套极具前景的解决方案。一个引人注目的成功案例是以Alpha Go为代表的围棋智能:它利用深度强化学习算法实现围棋智能的自进化,以超乎想象的速度进化出打败人类专业棋手的能力,引发学术界和工业界的热切关注。
尽管强化学习具有处理复杂任务的潜在优势,但是这一方法的工程应用尚属于起步阶段。一个重要的原因是该方法既具有前瞻理论的复杂度,又具有工程实践的挑战性。该方法隶属于最优控制、统计学习、最优化三者的交叉结合部,涉及的数理知识较深,内容涵盖面较广,学习周期较长,系统性掌握非一日之功。若是不能深入理解算法背后的核心理论,难以对算法和代码进行针对性调整和修改,不能发挥强化学习应有的性能,这极大制约了其工程应用。
为了应对上述挑战,这本参考书的撰写主要面向工程领域的科研工作者和技术人员,按照原理剖析、主流算法、典型示例的架构,介绍用于工业控制问题的强化学习理论及方法。所涉及的知识点包括马尔科夫决策、蒙特卡洛学习、时序差分学习、函数近似法、策略梯度法、近似动态规划、深度强化学习等。
希望本书的出版将为领域内的行业同仁,包括本科生、研究生以及技术人员,提供一本体系较为完整、内容较为全面、讲解循序渐进,且适合入门学习和能力进阶的参考书籍。
全书总共包括11章。第1章介绍强化学习(Reinforcement Learning, RL)概况,包括发展历史、知名学者、典型应用以及主要挑战等。
第2章介绍RL的基础知识,包括定义概念、自洽条件、最优性原理与问题架构等。
第3章介绍免模型RL的蒙特卡洛法,包括Monte Carlo估计、On-policy/Off-policy、重要性采样等。
第4章介绍免模型RL的时序差分法,包括它衍生的Sarsa、Q-learning、Expected Sarsa等算法。
第5章介绍带模型RL的动态规划法,包括策略迭代、值迭代、通用迭代架构与收敛性证明等。
第6章介绍间接型RL的函数近似法,包括常用近似函数、值函数近似、策略函数近似以及所衍生的Actor-critic架构等。
第7章介绍直接型RL的策略梯度法,包括On-policy gradient、Off-policy gradient、它们的代价函数与优化算法等。
第8章介绍带模型的近似动态规划(ADP)方法,包括无穷时域的ADP、有限时域的ADP、ADP与MPC的联系与区别等。
第9章探讨了状态约束的处理手段,它与求解可行性、策略安全性之间的关系,以及Actor-Critic-Scenery三要素求解架构等。
第10章介绍深度强化学习(DRL),即以神经网络为载体的RL,包括神经网络的原理与训练,深度化挑战以及DQN、DDPG、TD3、TRPO、PPO、DSAC等典型深度化算法。
第11章介绍RL的各类拾遗,包括鲁棒性、POMDP、多智能体、元学习、逆强化学习、离线强化学习以及训练框架与平台等。
引用
:S. Eben Li, Reinforcement Learning for Sequential Decision and Optimal Control. Springer Verlag, Singapore, 2023
电子版下载网址
:
https://link.springer.com/book/10.1007/978 -981-19-7784-8
扫描二维码:
专著作者简介
:
李升波,清华大学车辆与运载学院教授,博士生导师。先后留学工作于斯坦福大学,密歇根大学和加州大学伯克利分校。主要从事自动驾驶汽车、强化学习、最优控制与估计等研究。他的研究提出了周期波动型节能操控、网联车群分布式控制、类脑学习集成式决策等核心理论方法,突破了高级别智能汽车自主学习与数据闭环所面临的一系列关键技术难题。获中国自动化学会自然科学一等奖、中国汽车工业科技进步特等奖、国家科技进步二等奖、国家技术发明二等奖等。他是教育部青年科学奖的入选者,曾获得国家高层次科技创新领军人才、交通运输行业中青年科技创新领军人才、清华大学青年教师学术新人奖、清华大学青年教师教学优秀奖等。担任AI国际评测组织MLPerf自动驾驶咨询委员会委员、IEEE智能交通系统学会的理事会委员、中国汽车工程学会青工委首任主任、IEEE OJ-ITS高级副主编、IEEE TITS/IEEE ITSM/IEEE TIV副主编等。
本文转载自公众号:CAAI认知系统与信息处理专委会
https://mp.weixin.qq.com/s/ujR1kGJSexU5aLyf92D0Ww
深度强化学习实验室
【开源开放、共享共进】强化学习社区\x26amp;实验室,分享推动DeepRL技术落地与社区发展,社区 deeprlhub.com
最新文章
NeurIPS 2024 | DACER:扩散模型与在线强化学习强强联合创造新SOTA!
清华团队提出RL专用神经网络优化器,性能位居榜首
【第二弹】强化微调,用少量样本训练专家模型
【清华大学】当鲁棒控制遇到强化学习:零和博弈视角的非线性拓展
【重磅】阿尔伯塔大学提出“Stream-X”强化学习新范式,无需经验重放、目标网络或批量更新。
强化学习之父Sutton万字采访:炮轰深度学习只是瞬时学习,持续学习才是智能突破的关键
开放式物理RL环境空间,智能体零样本解决未见过人类设计环境!
控制系统可控性检验理论的变革:从模型驱动到数据驱动
【图灵奖得主Yoshua Bengio】提出强化学习新策略, 解决策略KL正则化漏洞问题。
【NeurlPS2024分享】北航提出“结构信息原理指导的高效智能体探索”(末尾附开源代码)
【Nature重磅】AlphaChip,谷歌用强化学习设计多代TPU芯片速度超越人类,开源预训练代码
【清华北大腾讯等】联合综述OpenAI o1背后的自博弈(Self-Play)方法原理与技术细节
【重磅发布】OpenAI o1模型(草莓)问世,五级AGI再突破!使用「强化学习」再立大功。
【Nature重磅】RL教父Rich. S. Sutton提出持续反向传播算法,Mujoco中效果良好,深度学习还不如浅层网络?
【清华大学】李升波教授团队总结“强化学习和模型预测控制的区别与联系”
【顶会速递】RLC2024—128篇Accept论文汇总
【首届RL领域会议】Barto、Sutton、Sliver师徒3代,7篇杰出论文奖,独有论文评审机制公布。
【重磅头条】Agent Q智能体发布,利用自我对弈和强化学习, 实现自我纠正和自主改进!
【人物观点】RLHF 只是勉强 RL,前OpenAI大牛Andrej Karpathy全面解读与AlphaGo区别
【滴滴实习生招聘】强化学习项目落地(有转正机会)
【重磅快讯】强化学习大牛John Schulman离职OpenAI, 曾开发PPO|TRPO等, 领导OpenAI强化学习团队!
【重磅最新】OpenAI为RL设计出新的奖励机制
【字节招聘】强化学习智能体研究员
【顶会速递】清华大学提出“利用强化学习破解火箭回收过程的控制难题”
【粉丝福利】抽奖赠书《GPT图解:大模型是怎样构建的》
【重磅最新】OpenAI机密五级AGI路线图曝光!GPT-4仍处L1,智能体是核心!
【腾讯招聘】游戏AI强化学习算法研究员
从文字模型到世界模型!Meta新研究让AI Agent理解物理世界
【重磅开源】LeCun新作Puppeteer=基于强化学习+数据驱动+视觉全身人形控制方法
【好书力荐】大规模语言模型与强化学习:从理论到实践(文末抽奖赠送5本)
【最新综述!】「大模型+强化学习」详解四条主流技术路线
【今日头条招聘】机器人强化学习研究员(2024届优先)
【书籍推荐】《ChatGPT原理与应用开发》+代码,B站播放超30万。文末抽奖赠送X(>5)本
重磅 | 南栖仙策发布强化学习工业决策软件REVIVE 1.0
【开放源码】强化学习经典教材《RL for Sequential Decision and Optimal Control》
【腾讯招聘】强化学习岗位汇总
【吴恩达来信】AI智能体的黎明时刻
【LSTM之父Schmidhuber总结博客】利用循环世界模型和人工好奇心进行强化学习和规划
Richard Sutton ||智能决策器通用模型的探索
顶会最新速递@ ICLR2024,强化学习领域约301篇Accept论文汇总整理,附原文与交流群
【Nature重磅】DeepMind数学模型AlphaGeometry,做对25道几何题,GPT-4惨败得0分
【重磅推荐】盘古Agent,华为诺亚让智能体学会结构化推理,解决和适应复杂工作!
2023计算机科学7项重大突破!「P与NP」50年经典难题,大模型密集涌现上榜
论文分享| AAAI 2024 北航开源社交机器人行为对抗仿真计算平台SIASM,高效提升网络行为对抗能力
【真伪鉴别】OpenAI内幕文件惊人曝出,Q*疑能破解加密!是否具有元认知能力?
新书《面向工业控制的强化学习理论与方法》
【书籍推荐】清华大学李升波教授撰写《面向工业控制的强化学习理论与方法》
OpenAI神秘Q*项目解密!诞生30+年「Q学习」算法引全球网友终极猜想
【官方公布】2023中国科学院院士、中国工程院增选当选院士名单公布
【重磅最新】DeepMind发布"AGI 的六个层次及原则:实现 AGI 道路上的最近进展"!
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉