首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

【强化学习入门笔记】1.1基本概念

科技 2024-11-05 08:05 上海

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.

课程视频网址：https://space.bilibili.com/2044042934

1.1.1 网格世界示例

首先给出了课程中需要用的模拟场景: 一个有边界的网格世界. 由起点, 终点和禁止网格. 目的是得到一条从起点到终点的最优路径.

1.1.2 State, Action, Policy 状态, 动作, 策略

1.1.2.1 状态和状态空间

在网格世界示例中, 我们将状态定义为栅格的索引. 实际上, 更复杂的建模状态中可以包含:速度, 加速度, 角速度等等信息.

将一系列状态放进一个集合中称之为状态空间

1.1.2.2 动作和动作空间

如上图所示, 我们将动作定义为:向上走, 向右走等等. 将一系列动作放进一个集合中称之为动作空间

每一个状态都有对应的动作空间, 比如对于左上角栅格状态, 它能采取的动作只有向右, 向下和不动. 因此它的动作空间为:

也就是说, 动作空间是一个关于状态空间的函数:

1.1.2.3 状态转移

从执行向右的动作到, 可以写作:

一般的, 采取动作从一个状态转移到另一个状态的过程, 定义为状态转移:

我们列举出了网格世界示例中, 所有的状态转移组合:

如果我们用条件概率来表达状态转移:

1.1.2.4 Policy 策略

策略是指对于每一个状态而言, 为了抵达目的应该采取的动作称之为策略. 比如上图给出了在不同状态下, 绿色箭头就是对应的策略.

我们将策略定义为, 也就是当状态为时采取动作的概率, 上图的策略可以写成:

如上图, 如果策略可以按概率采取不同的动作, 则可以写成:

在程序中, 我们常常使用一个矩阵来表达完整的策略分布:

1.1.3 Reward, Return

1.1.3.1 Reward 奖励

Reward是指采取动作之后, 得到的奖励值, 是一个标量. 奖励值越高, 采取的动作越受鼓励, 因此我们需要设计合适的Reward 函数来鼓励智能体采取我们希望的动作.

我们将处于状态s, 执行动作a, 奖励函数定义为:

以网格世界为例, 我们可以设计如下奖励:

如果智能体越过边界, 或者走到禁止网格, 则奖励值为-1
如果智能体抵达目的, 则奖励值为1
其他情况, 奖励值为0

所以可以写出: , ,

1.1.3.2 Trajectories, returns

我们将一组连续的状态定义为Trajectory, 每一个状态都从上一个状态采取动作转移而来. 每次状态转移都有对应的奖励.

上图的trajectory可以写成:

将trajectory上每一步的奖励加起来, 定义为return:

如果我们在抵达终点之后, 没有中止游戏. 那么奖励值就会不停的+1导致发散:

为了解决这个问题, 可以采取discounted return, 也就是奖励值的加权和:

其中是远期奖励值的权重. 这样可以增加近期动作获得奖励的权重, 减少远期动作获得奖励的权重.

推荐阅读:

🏎️自动驾驶小白说官网：https://www.helloxiaobai.cn

http://mp.weixin.qq.com/s?__biz=MzkzNzc0MzQzMQ==&mid=2247485135&idx=1&sn=a63781caef9278e579b27713ae7dd57c

自动驾驶小白说

输出专业自动驾驶算法教程的开发者社区. 🦈 官网: https://www.helloxiaobai.cn

最新文章

【动手学Apollo】7. 本地开发基础（下）：GDB调试

【动手学运动规划】 4.2 DFS 深度优先遍历

【强化学习入门笔记】1.2 马尔可夫决策过程

【一文看尽最新SOTA轨迹预测网络】2024顶会预测论文和代码汇总

【动手学轨迹预测】1.4 基于Sequential Network的预测模型

【强化学习之父】【Nature】持续学习中的可塑性丧失

【动手学Apollo】6. 本地开发基础：代码安装与编译

【3090就够SOTA】SEPT:高效场景理解的预测网络

【动手学运动规划】 4.1 图搜的基础

【Waymo最新端到端】EMMA:多模态端到端网络

【动手学运动规划】 3.4 确定性采样:基于状态空间采样

【动手学Apollo】5. 本地开发基础（上）：系统安装

【强化学习入门笔记】1.1基本概念

【CVPR 最佳论文】首个感知决策一体化端到端UniAD解读

【动手学轨迹预测】1.3 评价指标

入门端到端第一步!最新综述回顾基于深度学习的规划方法发展历程

某顶流大厂智驾PnC负责人何去何从

【强化学习之父】最新论文:Reward Centering 奖励中心化

【动手学运动规划】 3.3 确定性采样:基于控制空间采样

【动手学Apollo】3. 入门Apollo仿真调试（下）

端到端解读: Imitation Is Not Enough - 在运动规划中克服模仿学习的局限性

【动手学运动规划】 3.2 随机性采样: RRT

【动手学轨迹预测】1.1 轨迹预测概述

【动手学Apollo】3. 入门Apollo仿真调试（下）

某头部车企折腾智驾的这些年

商汤大调整, 百度或将合并L2L4, 某大型车企子供应商也....

【重读经典】轨迹预测迈向工业落地第一文:VectorNet

携手共创，与梦想同行，GEW志愿者招募持续进行ing

【动手学运动规划】3.1 随机性采样: PRM

今年的自动驾驶秋招真难啊, 又被面试官刁难了...

【南开X上海交大】OPUS：效率显著提升的OCC网络

【动手学Apollo】3. 入门Apollo仿真调试（上）

【动手学运动规划】2.6 Reeds Shepp曲线

【端到端】华科X地平线:VAD, 基于矢量场景表征的端到端自动驾驶

某L4 Robotaxi公司被迫转战新加坡和阿联酋

开源 | Science子刊 | GCS轨迹优化方法

【动手学运动规划】2.5 Dubins曲线

某初创Tier 1高阶智驾产品交付状况百出

【ECCV 2024】最新SOTA! SparseOcc纯稀疏占用网络

【动手学Apollo】2. Apollo学习路径

【CVPR 最佳论文】首个感知决策一体化端到端UniAD解读

【动手学Apollo】2. Apollo学习路径

【动手学控制理论】4. 横向LQR控制+前馈控制

重磅!ECCV挑战赛冠军, CVPR挑战赛亚军两位大佬加盟小白说!

CVPR2024 最新开源端到端:DTPP, 自动驾驶中树策略规划的可微联合条件预测和成本评估

地主家也没余粮了!最大汽车集团裁员,关闭考勤.

动手学运动规划: 2.4.c 3次螺旋线代码解析

入门端到端第一步!最新综述回顾基于深度学习的规划方法发展历程

动手学运动规划: 2.4 3次螺旋线(Cubic Spiral Curve)

2024年诺贝尔物理学奖揭晓: 机器学习!

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉