人工智能
强化学习
强化学习是现代科技领域中备受瞩目的前沿学科之一,旨在通过代理程序与环境的交互学习最优决策策略,以最大化累积奖励。本课程主要介绍强化学习所涉及的一些常见算法并进行代码实践,讲述强化学习前沿领域,形成循序递进的过程,让学员逐渐熟悉强化学习相关算法。
课程网址(点击文末“阅读原文”可跳转)
https://www.qingjiaoclass.com/market/detail/65940
本课程采用“原理讲解+编程实战”的学习模式,通过对原理的学习,完成相应实战训练,实现对核心技术与算法的熟悉和掌握。
01
初识强化学习
02
马尔可夫决策过程
03
动态规划算法
04
时序差分算法
05
Dyna-Q算法
06
DQN算法
07
策略梯度算法
08
强化学习前沿领域
算法实践
项目一
马尔可夫决策过程
本项目旨在通过构建基马尔可夫决策过程算法,进行代码实现,加深大家对于强化学习经典算法的理解,考核重点复现经典的马尔可夫决策过程算法、马尔可夫奖励过程,训练模型并测试模型效果。
项目二
动态规划算法
动态规划算法作为强化学习中经典算法之一,用空间换时间,高效地解决了一些经典问题。在讲解动态规划算法的同时,我们也会为大家介绍悬崖漫步环境与冰湖环境,实习策略迭代算法。
悬崖漫步环境
冰湖环境
项目三
时序差分算法
主要讲解了基础原理、Sarsa、多步Sarsa算法原理及复现。在悬崖漫步环境下,训练Sarsa等算法,将训练的结果输出,改变参数,熟悉参数意义。
项目四
Dyna-Q算法
此算法通过联合使用真实经验数据和模拟经验数据,能够在学习的过程中同时规划价值函数和策略函数,使得智能体在实际任务中获得更优的策略。算法的流程如下:
项目五
DQN及其衍生算法
使用神经网络来近似值函、车杆环境、损失函数的设定、经验回放、Double DQN算法和Dueling DQN。本小节将会带领大家学习并掌握上述内容。
项目六
策略梯度算法
本小节探讨了如何直接从状态输出策略,以及如何通过目标函数和梯度优化寻找最优策略。着重讲解了平均状态价值和平均奖励作为目标函数,以及REINFORCE和actor-critic方法的应用。
项目七
策略梯度算法优化算法
在本章节中,我们将学习策略梯度的改进算法,包括通过限制策略更新TRPO算法、通过比较新旧策略进行优化的PPO算法、通过使用特殊的网络机构和训练方式改进效果的DDPG算法和通过引入值函学习的SAC算法等。
项目八
强化学习前沿领域
在本章节中我们将简单探讨关于强化学习比较热门的两个研究方向,包括通过使用收集到专家的示范数据训练的模仿学习和基于模型的策略优化(MBPO)等算法。
关注“新道工科”公众号,“青椒课堂”平台内容全知道!
新道工科聚焦新IT与工业互联网,涵盖信息安全、工业互联网、大数据、人工智能、区块链、智能网联汽车、智能制造、工业智能等多个专业领域,基于用友集团和新道科技子公司红亚科技的产业与技术优势,不断深化和拓展数智化教学产品和内容,形成覆盖范围更广的课程体系及综合解决方案,为本科、高职、中职院校提供优质教学服务。
扫码关注
新道工科
微信号|hongyaa-2012