强化学习经典教材的配套源代码上线了

文摘 2024-11-17 00:00 北京

清华大学李升波教授撰写的强化学习经典教材《Reinforcement Learning for Sequential Decision and Optimal Control》，曾于2023年4月首次由Springer出版社出版，近期该书的全套源代码亦由Springer上线，正式与读者见面了！

书籍及源代码下载网站：

https://link.springer.com/book/10.1007/978-981-19-7784-8

图书简介：

该书主要面向工业控制领域的研究者和工程师撰写，按照原理剖析、主流算法、典型示例的架构，系统地介绍了用于动态系统决策与控制的强化学习方法。全书共分为11章，内容涵盖了强化学习的基本概念、蒙特卡洛法、时序差分法、动态规划法、函数近似法、策略梯度法、近似动态规划、状态约束的处理和深度强化学习等知识点。下面简要介绍各章的主要内容：

第1章介绍强化学习（Reinforcement Learning, RL）概况，包括发展历史、知名学者、典型应用以及主要挑战等。

第2章介绍RL的基础知识，包括定义概念、自洽条件、最优性原理与问题架构等。

第3章介绍无模型RL的蒙特卡洛法，包括Monte Carlo估计、On-policy/Off-policy、重要性采样等。

第4章介绍无模型RL的时序差分法，包括它衍生的Sarsa、Q-learning、Expected Sarsa等算法。

第5章介绍带模型RL的动态规划法，包括策略迭代、值迭代、通用迭代架构与收敛性证明等。

第6章介绍间接型RL的函数近似法，包括常用近似函数、值函数近似、策略函数近似以及所衍生的Actor-Critic架构等。

第7章介绍直接型RL的策略梯度法，包括On-policy gradient、Off-policy gradient、它们的代价函数与优化算法等。

第8章介绍带模型的近似动态规划（ADP）方法，包括无穷时域的ADP、有限时域的ADP、ADP与MPC的联系与区别等。

第9章探讨了状态约束的处理手段，它与求解可行性、策略安全性之间的关系，以及Actor-Critic-Scenery三要素求解架构等。

第10章介绍深度强化学习（DRL），即以神经网络为载体的RL，包括神经网络的原理与训练，深度化挑战以及DQN、DDPG、TD3、TRPO、PPO、SAC、DSAC等典型深度化算法。

第11章介绍RL的各类拾遗，包括鲁棒性、POMDP、多智能体、元学习、逆强化学习、离线强化学习以及训练框架与平台等。

课程配套资源介绍：

配套课程PPT——百度、知乎搜索“强化学习与控制”。

微信公众号——微信搜索“智能驾驶课题组”

课程配套代码——为了便于工程人员与广大读者的学习，配套的源代码已经上传至书籍的Springer网站：https://link.springer.com/book/10.1007/978-981-19-7784-8，读者可自行下载辅助学习，下面简要说明代码的下载方式、安装要求以及相关例子。

（1）获取代码库：

点击上述网址的白色选项“Access Source Code”跳转至Github。进入Github后，点击绿色选项code，选择Download ZIP下载压缩文件；或使用Git将存储库克隆到本机。

（2）安装步骤

1. 克隆代码库：

在本机终端或命令行界面中，执行命令以克隆代码库到本地：git clone https://github.com/Apress/Reinforcement-Learning-for-Sequential-Decision-and-Optimal-Control

2. 环境配置：

安装Anaconda或Miniconda

在终端或命令行中输入命令配置环境：conda env create -n rlbook -f environment.yml

在终端或命令行中输入命令激活环境：conda activate rlbook

此后，打开每一个python文件运行main或plot的python脚本即可。

（3）源代码的介绍：

Chap_3_4_CleanRobot:第3章和第4章的清扫机器人示例代码。

Chap_5_AutoCar_GridRoad:第5章的自动驾驶汽车代码示例。

Chap_6_Actor_Critic_Algorithm:第6章的3类Actor-Critic（AC）算法代码。

Chap_7_AC_with_Baseline:第7章有/无baseline的AC算法性能对比。

Chap_8_Veh_Track_Ctrl:第8章的车辆跟踪控制示例代码。

Chap_9_Car_Brake_Control:第9章的紧急制动控制示例代码。

遵循以上步骤，您将成功设置和运行本代码库的示例代码，并开始探索强化学习的精彩世界！如果存在问题，欢迎大家加入GOPS用户交流群进行交流。

GOPS开源网站见: https://gops.readthedocs.io/

http://mp.weixin.qq.com/s?__biz=MzU2ODgzMTM5NA==&mid=2247500042&idx=3&sn=fa0f7b9f1f103b3d05090bd4502615e5

CAAI认知系统与信息处理专委会

CAAI认知系统与信息处理专委会成立于2014年，胡德文教授担任专委会主任，孙富春教授担任荣誉主任，方斌教授担任秘书长。专委会不断吸纳业界人才，会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。

最新文章

第九届认知系统与信息处理国际会议（ICCSIP 2024）即将在常州召开！

具身触觉社区“新锐论前沿” 第一期活动成功举办

柔性仿人手指全覆盖磁皮肤，具备接触觉和运动觉的双模态感知能力

迄今结构最简洁的双向刚度仿人手指关节，设计灵感源自卷尺

大面积柔性磁触觉感知

超人手功能的软体指尖：磁触觉感知兼具吸附抓取能力

控制系统可控性检验理论的变革：从模型驱动到数据驱动

强化学习和模型预测控制的区别与联系

强化学习经典教材的配套源代码上线了

推荐清华大学李升波教授撰写的强化学习英文专著

Nature Communications 基于触觉手套的深度学习驱动视触觉动态重建方案

Springer英文专著分享：结合穿戴技术的机器人操作与学习

Nature Communications 麻省理工学院计算机科学与人工智能实验室研制“触觉反馈”智能数据手套

ICRA 2024: 使用Masked Visual-Tactile 对机器人操作预训练

Science Robotics 封面论文：视触觉传感器的手内操作

Advanced Functional Materials 人工皮肤—基于视触觉传感的三维重建技术：材料、方法和评估

Advanced Intelligent Systems 综述论文：视触觉传感器的力测量技术

Advanced Intelligent Systems视触觉传感器在矿物/岩石识别中的应用探索

IEEE Sensors 视触觉传感器的硬件技术综述

IEEE JSTSP综述：从信号处理领域分析视触觉传感器的研究

不列颠哥伦比亚大学（The University of British Columbia）刘超助理教授招生公告~

新加坡国立大学机器人方向（AdaComp 研究组）科研实习机会

斯坦福李飞飞吴佳俊团队建立HourVideo，揭示当前模型在长视频理解上与人类水平的差距

具身触觉社区 | “新锐论前沿” 第一期活动预告

清华大学张钹院士发表人民日报最新文章：具身智能—人工智能与机器人发展的重要推力

高教出版社《具身智能导论》正式出版

中文专著《机器人触觉感知原理与方法》正式出版

具身触觉社区 | “新锐论前沿” 第一期活动预告

美国《福布斯》刊登文章：2025年人工智能（AI）的十大趋势

2024 AI年度报告发布，附十大预测：人形机器人热度下降，英伟达维持霸主地位

Science Robotics 综述揭示演化研究新范式，从机器人复活远古生物！

CoRL2024 聚焦「视听触感官」协同配合的具身智能操作

Nature正刊：西湖大学姜汉卿教授与John A. Rogers-黄永刚-解兆谦联合开发新型的多模态触觉反馈智能穿戴装置

Nature正刊：利物浦大学的研究人员开发了人工智能驱动的移动机器人，可以高效地进行化学合成研究

Science Robotic 综述论文：通过机器人技术了解自我意识

Science Robotics 对机器人的意图归因将会影响人机协作感

Science Robotics 专刊总结：借助机器人技术推进科学发现

IEEE TRO综述论文：抓取合成领域的深度学习方法

NeurIPS 2024 | 机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

高教出版社《具身智能导论》正式出版

具身智能综述：鹏城实验室&中大调研近400篇文献，深度解析具身智能

具身智能的视觉-语言-动作模型综合综述论文

谷歌、CMU等研究综述：面向通用机器人的基础模型

机器人神经场的全面盘点：导航/自动驾驶/姿态估计应用一览无余

CMU, UC Berkeley等团队结合神经辐射场的视触觉感知，用于手内操作

Nat. Mach. Intell. | 用化学工具扩充大型语言模型

清华叉院高阳团队首次发现具身智能Scaling Laws

Advanced Functional Materials 人工皮肤—基于视触觉传感的三维重建技术：材料、方法和评估

Advanced Intelligent Systems 综述论文：视触觉传感器的力测量技术

Advanced Intelligent Systems视触觉传感器在矿物/岩石识别中的应用探索

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉