深谷技术 | 强化学习方法用于解决倒立摆平衡控制问题

文摘 2024-09-30 15:11 安徽

引言

introduction

倒立摆是一种经典的物理模型，也是一种典型的非线性控制系统。它由一个可以绕垂直轴旋转的摆杆和一个可以在水平方向上移动的小车组成。倒立摆的目标是通过控制小车的位置或速度来使摆杆保持在垂直向上的平衡位置。

中科深谷直线一级倒立摆系统

倒立摆系统具有高度的不稳定性、多变量、高阶次、非线性、强耦合等特点，这使得它能够成为验证控制策略有效性的理想平台。倒立摆控制问题的有效解决方案可以为机器人控制、自动驾驶汽车、航空航天等领域的控制系统设计提供理论基础和技术支撑，推动相关技术的发展和应用。

传统的倒立摆控制方法包括PID控制、线性二次型调节器（LQR）、模型预测控制（MPC）等。虽然能取得一定效果，但这些方法在面对非线性、不确定性和复杂环境变化的情况下，其适应性和鲁棒性往往受到限制。

◆ PID控制结构简单，易于实现，但难以处理非线性系统，参数调整困难；LQR是一种最优控制算法，适用于线性系统，但对模型误差敏感，无法处理约束条件；MPC可以处理非线性系统和约束条件，但计算量大，对模型准确性要求高。

强化学习方法用于倒立摆平衡控制

强化学习是一种机器学习方法，通过与环境的交互来学习决策策略，以最大化长期累积奖励。强化学习的特点包括无需模型信息、能够处理高维状态空间、具有自我学习与自我适应能力、适用于复杂和非线性问题等。

中科深谷技术研发团队将强化学习方法引入到倒立摆的平衡控制当中，基于Nvidia开发的物理模拟环境Isaac Gym进行仿真实践。通过仿真训练的结果可以看出，强化学习方法能够在不依赖精确模型的情况下学习最佳控制策略，从而取得良好的控制效果，展现出了其在解决复杂控制问题上的巨大潜力。

Isaac Gym中加载的一级摆和二级摆仿真模型

强化学习用于倒立摆控制具体优势有哪些？

jut

01 能够处理复杂非线性问题

倒立摆系统本身是非常不稳定的，且具有高度的非线性特性。强化学习算法能够处理这种复杂非线性问题，通过智能体与环境的交互，自动学习到有效的控制策略来维持倒立摆的平衡。

02 无需精确模型

强化学习是一种数据驱动的方法，它能够在不依赖精确模型的情况下学习最佳控制策略。这对于像倒立摆这样的复杂非线性系统尤为重要，因为在实际应用中，系统的精确动力学模型往往难以获取或存在不确定性。

03 具有较强的适应性和鲁棒性

强化学习算法能够通过与环境的不断交互，自动调整控制策略以适应环境的变化。这使得基于强化学习的倒立摆控制方法在面对系统扰动、噪声和不确定性时表现出较强的适应性和鲁棒性。

04 自动优化控制策略

强化学习的目标是最大化累积奖励，这促使智能体在学习过程中不断尝试和优化控制策略。通过大量的试错和经验积累，智能体能够找到最优或接近最优的控制策略，从而提高倒立摆控制的性能和稳定性。

程序设计步骤及实现效果

jut

▷ STEP 1

建立并行仿真环境，包括坐标系朝向，基础环境，地面和加载模型资产；其中，加载资产完成仿真环境的创建是创建并行环境的重要步骤，一个环境由一组行为体和传感器组成，Isaac Gym中，并行环境是按2D网格形式排列，需要设定单个环境大小及在网格中的位置，每次设定一行，形成全局并行仿真空间，本次训练并行环境数为256。

▷ STEP 2

强化学习算法采用A2C：

A2C算法将回报（Q）值分解为状态值和优势值，优势函数能够评估在给定状态下与其他行为相比更好的行为。

▷ STEP 3

构建优势函数：根据杆的垂直偏离角度，速度及滑块水平移速构建优势函数。

▷ STEP 4

开始训练，共训练最少500个epoch，训练视频实例如下：

单摆并行仿真训练视频

单摆推理效果视频如下：

单摆推理视频

与单摆类似，根据双摆的两个杆垂直与相对偏离度，速度及滑块水平移速构建优势函数的双摆训练视频如下：

双摆并行仿真训练视频

双摆推理效果视频如下：

双摆推理视频

总结

conclusion

将强化学习方法用于解决倒立摆的平衡控制问题有效提升了倒立摆系统的控制性能，进而可以推广到机器人控制、自动驾驶汽车、航空航天等领域，为这些领域的控制系统设计提供有力的技术支撑，具有重要的实际应用价值。

随着计算技术的不断进步和算法研究的深入，强化学习也将在更多领域展现出其独特的优势。中科深谷将密切关注产业需求和科技动向，探索强化学习等先进人工智能技术在更多领域的应用，持续推出新技术、新产品、新方法，为人工智能及机器人技术的进步和产业发展贡献智慧和力量。

深谷讲坛

专注人工智能与机器人创新人才培养

最新文章

热烈祝贺！中科深谷荣获“2024安徽行业领军企业”称号

双非应届求职，从“被虐惨”到万元月薪，丝滑“上岸”的秘诀有！

校企合作| 安徽建筑大学机电学院学子到访中科深谷开展认知实习活动

如何高薪“上岸”？全网最实战的人工智能与机器人课程体系来了！

40天，让你项目经验拉满，轻松找到好工作！

合肥师范学院计算机科学与技术专业师生到访中科深谷开展认知实习活动

安庆师范大学智能科学与技术卓越班师生到访中科深谷开展见习活动

0 offer选手进！秋招带你突出重围，斩获高薪offer！（内附多重惊喜好礼！）

校企合作 | 中科深谷与巢湖学院举行校企合作签约暨校企合作实习就业基地揭牌仪式

智汇英才，共创未来 | 中科深谷亮相“拥抱AI·智汇未来”2024年安徽省AI专场招聘会

深谷技术 | 强化学习方法用于解决倒立摆平衡控制问题

校企合作，协同育人 | 深谷工程师学院&河南理工大学生产实习活动圆满落幕！

教师节 | “智”敬每一个炳如日星的您！

中科深谷教学科研平台|全开源七轴协作机器人（SRS构型）

中科深谷新品发布：智能线控底盘生态功能车

2024深谷工程师学院人工智能与机器人实战课程“机器人电控系统开发”高级研修班圆满收官！

2024深谷工程师学院|智能制造工程专业建设分享交流会暨智能制造技术综合实践高级研修班，即将开班！

火热报名中！2024深谷工程师学院“机器人电控系统开发”高级研修班即将来袭！

2024深谷工程师学院人工智能与机器人实战课程“智能移动机器人开发与应用”高级研修班圆满落幕！

真技术、真产品、真项目、真场景！中科深谷赋能哈尔滨工业大学高水平课程

2024深谷工程师学院人工智能与机器人实战课程“智能移动机器人开发与应用”高级研修班火热报名中！

关于人工智能与机器人实战课程“智能移动机器人开发与应用”高级研修班延期举办的通知

2024深谷工程师学院|人工智能与机器人实战课程“机器人电控系统开发”高级研修班，即将开班！

重磅！2024深谷工程师学院人工智能与机器人实战课程“智能移动机器人开发与应用”高级研修班，即将开班！

2024深谷工程师学院|人工智能与机器人实战课程“智能移动机器人开发与应用”高级研修班，即将开班！

深谷动态 | 共绘合作新蓝图，中科深谷密集接待省内外多家单位来访交流！

手把手教你无人驾驶自平衡自行车如何设计与控制，确定不围观一下？

谁说毕业即失业？这位深谷学长“逆风翻盘”，月薪过万！

中科深谷支持新型研发 | 长三角新型研发机构高质量发展论坛在浙江嘉兴召开

我酸了，原来在深谷学院这么开心吗？

即将开营 | 机器人公共平台专属夏令营强势来袭，让改变自然发生！

鸿蒙上实现天气语音预报

什么？浮点型数据的存储原来这么简单！

中科深谷助力煤矿行业高质量发展 | 第六届全国煤炭类院校机械工程学院院长/系主任联席会议在淮南成功召开

深谷大师兄：人才缺口下，我们都曾是临渊

深谷学院 |基于模型的机电系统设计与控制实践——2023 MATLAB 和 Simulink技术研讨会在合肥举办

深谷技术 | 双臂协作机器人的技术研究及实现

2022年安徽省高校物联网应用创新大赛在合肥工业大学智能制造技术研究院圆满落下帷幕

七自由度机械臂控制系统设计与研究

深谷技术 | 基于模型设计开发并联机器人

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉