推荐清华大学李升波教授撰写的强化学习英文专著

文摘 2024-11-17 00:00 北京

自2000年以来，人工智能的快速崛起正重塑人类社会的各个角落，有望引导工业文明进入第四次革命浪潮。以道路交通为例，汽车的智能化变革促使整个行业发生了翻天覆地的变化，包括驾驶辅助、自动驾驶、云控协同等一系列新技术如雨后春笋般涌现，它们在提升地面车辆行驶性能的同时，也为解决交通事故、排放污染、城市拥堵等问题提供了一条可行的途径。

近年随着人工智能和自动控制的融合发展，以模仿人类大脑学习机制为原理的强化学习（RL，Reinforcement Learning）方法迅速进入人们的视野，它为大规模复杂动态系统的高性能决策与高实时控制提供了一套极具前景的解决方案。一个引人注目的成功案例是以Alpha Go为代表的围棋智能：它利用深度强化学习算法实现围棋智能的自进化，以超乎想象的速度进化出打败人类专业棋手的能力，引发学术界和工业界的热切关注。

尽管强化学习具有处理复杂任务的潜在优势，但是这一方法的工程应用尚属于起步阶段。一个重要的原因是该方法既具有前瞻理论的复杂度，又具有工程实践的挑战性。该方法隶属于最优控制、统计学习、最优化三者的交叉结合部，涉及的数理知识较深，内容涵盖面较广，学习周期较长，系统性掌握非一日之功。若是不能深入理解算法背后的核心理论，难以对算法和代码进行针对性调整和修改，不能发挥强化学习应有的性能，这极大制约了其工程应用。

为了应对上述挑战，这本参考书的撰写主要面向工程领域的科研工作者和技术人员，按照原理剖析、主流算法、典型示例的架构，介绍用于工业控制问题的强化学习理论及方法。所涉及的知识点包括马尔科夫决策、蒙特卡洛学习、时序差分学习、函数近似法、策略梯度法、近似动态规划、深度强化学习等。希望本书的出版将为领域内的行业同仁，包括本科生、研究生以及技术人员，提供一本体系较为完整、内容较为全面、讲解循序渐进，且适合入门学习和能力进阶的参考书籍。

全书总共包括11章。第1章介绍强化学习（Reinforcement Learning, RL）概况，包括发展历史、知名学者、典型应用以及主要挑战等。

第2章介绍RL的基础知识，包括定义概念、自洽条件、最优性原理与问题架构等。

第3章介绍免模型RL的蒙特卡洛法，包括Monte Carlo估计、On-policy/Off-policy、重要性采样等。

第4章介绍免模型RL的时序差分法，包括它衍生的Sarsa、Q-learning、Expected Sarsa等算法。

第5章介绍带模型RL的动态规划法，包括策略迭代、值迭代、通用迭代架构与收敛性证明等。

第6章介绍间接型RL的函数近似法，包括常用近似函数、值函数近似、策略函数近似以及所衍生的Actor-critic架构等。

第7章介绍直接型RL的策略梯度法，包括On-policy gradient、Off-policy gradient、它们的代价函数与优化算法等。

第8章介绍带模型的近似动态规划（ADP）方法，包括无穷时域的ADP、有限时域的ADP、ADP与MPC的联系与区别等。

第9章探讨了状态约束的处理手段，它与求解可行性、策略安全性之间的关系，以及Actor-Critic-Scenery三要素求解架构等。

第10章介绍深度强化学习（DRL），即以神经网络为载体的RL，包括神经网络的原理与训练，深度化挑战以及DQN、DDPG、TD3、TRPO、PPO、DSAC等典型深度化算法。

第11章介绍RL的各类拾遗，包括鲁棒性、POMDP、多智能体、元学习、逆强化学习、离线强化学习以及训练框架与平台等。

引用：S. Eben Li, Reinforcement Learning for Sequential Decision and Optimal Control. Springer Verlag, Singapore, 2023

电子版下载网址:

https://link.springer.com/book/10.1007/978 -981-19-7784-8

扫描二维码：

专著作者简介：李升波，清华大学车辆与运载学院教授，博士生导师。先后留学工作于斯坦福大学，密歇根大学和加州大学伯克利分校。主要从事自动驾驶汽车、强化学习、最优控制与估计等研究。他的研究提出了周期波动型节能操控、网联车群分布式控制、类脑学习集成式决策等核心理论方法，突破了高级别智能汽车自主学习与数据闭环所面临的一系列关键技术难题。获中国自动化学会自然科学一等奖、中国汽车工业科技进步特等奖、国家科技进步二等奖、国家技术发明二等奖等。他是教育部青年科学奖的入选者，曾获得国家高层次科技创新领军人才、交通运输行业中青年科技创新领军人才、清华大学青年教师学术新人奖、清华大学青年教师教学优秀奖等。担任AI国际评测组织MLPerf自动驾驶咨询委员会委员、IEEE智能交通系统学会的理事会委员、中国汽车工程学会青工委首任主任、IEEE OJ-ITS高级副主编、IEEE TITS/IEEE ITSM/IEEE TIV副主编等。

http://mp.weixin.qq.com/s?__biz=MzU2ODgzMTM5NA==&mid=2247500042&idx=4&sn=ade4c98e888843b8f3fbcf274eb4508a

CAAI认知系统与信息处理专委会

CAAI认知系统与信息处理专委会成立于2014年，胡德文教授担任专委会主任，孙富春教授担任荣誉主任，方斌教授担任秘书长。专委会不断吸纳业界人才，会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。

最新文章

第九届认知系统与信息处理国际会议（ICCSIP 2024）即将在常州召开！

具身触觉社区“新锐论前沿” 第一期活动成功举办

柔性仿人手指全覆盖磁皮肤，具备接触觉和运动觉的双模态感知能力

迄今结构最简洁的双向刚度仿人手指关节，设计灵感源自卷尺

大面积柔性磁触觉感知

超人手功能的软体指尖：磁触觉感知兼具吸附抓取能力

控制系统可控性检验理论的变革：从模型驱动到数据驱动

强化学习和模型预测控制的区别与联系

强化学习经典教材的配套源代码上线了

推荐清华大学李升波教授撰写的强化学习英文专著

Nature Communications 基于触觉手套的深度学习驱动视触觉动态重建方案

Springer英文专著分享：结合穿戴技术的机器人操作与学习

Nature Communications 麻省理工学院计算机科学与人工智能实验室研制“触觉反馈”智能数据手套

ICRA 2024: 使用Masked Visual-Tactile 对机器人操作预训练

Science Robotics 封面论文：视触觉传感器的手内操作

Advanced Functional Materials 人工皮肤—基于视触觉传感的三维重建技术：材料、方法和评估

Advanced Intelligent Systems 综述论文：视触觉传感器的力测量技术

Advanced Intelligent Systems视触觉传感器在矿物/岩石识别中的应用探索

IEEE Sensors 视触觉传感器的硬件技术综述

IEEE JSTSP综述：从信号处理领域分析视触觉传感器的研究

不列颠哥伦比亚大学（The University of British Columbia）刘超助理教授招生公告~

新加坡国立大学机器人方向（AdaComp 研究组）科研实习机会

斯坦福李飞飞吴佳俊团队建立HourVideo，揭示当前模型在长视频理解上与人类水平的差距

具身触觉社区 | “新锐论前沿” 第一期活动预告

清华大学张钹院士发表人民日报最新文章：具身智能—人工智能与机器人发展的重要推力

高教出版社《具身智能导论》正式出版

中文专著《机器人触觉感知原理与方法》正式出版

具身触觉社区 | “新锐论前沿” 第一期活动预告

美国《福布斯》刊登文章：2025年人工智能（AI）的十大趋势

2024 AI年度报告发布，附十大预测：人形机器人热度下降，英伟达维持霸主地位

Science Robotics 综述揭示演化研究新范式，从机器人复活远古生物！

CoRL2024 聚焦「视听触感官」协同配合的具身智能操作

Nature正刊：西湖大学姜汉卿教授与John A. Rogers-黄永刚-解兆谦联合开发新型的多模态触觉反馈智能穿戴装置

Nature正刊：利物浦大学的研究人员开发了人工智能驱动的移动机器人，可以高效地进行化学合成研究

Science Robotic 综述论文：通过机器人技术了解自我意识

Science Robotics 对机器人的意图归因将会影响人机协作感

Science Robotics 专刊总结：借助机器人技术推进科学发现

IEEE TRO综述论文：抓取合成领域的深度学习方法

NeurIPS 2024 | 机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

高教出版社《具身智能导论》正式出版

具身智能综述：鹏城实验室&中大调研近400篇文献，深度解析具身智能

具身智能的视觉-语言-动作模型综合综述论文

谷歌、CMU等研究综述：面向通用机器人的基础模型

机器人神经场的全面盘点：导航/自动驾驶/姿态估计应用一览无余

CMU, UC Berkeley等团队结合神经辐射场的视触觉感知，用于手内操作

Nat. Mach. Intell. | 用化学工具扩充大型语言模型

清华叉院高阳团队首次发现具身智能Scaling Laws

Advanced Functional Materials 人工皮肤—基于视触觉传感的三维重建技术：材料、方法和评估

Advanced Intelligent Systems 综述论文：视触觉传感器的力测量技术

Advanced Intelligent Systems视触觉传感器在矿物/岩石识别中的应用探索

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉