一文读懂强化学习的 Q 学习算法

科技 2024-07-19 18:05 英国


大数据文摘受权转载自数据派THU
作者：陈之炎‍‍‍‍

本文介绍一篇收录在《IEEE TRANSACTIONS ON INFORMATION THEORY》的论文。

强化学习中的价值学习算法是一类重要的强化学习算法，它们通过学习价值函数来指导智能体的行为选择。价值函数表示在特定状态下，智能体采取不同行动所能获得的长期累积回报的期望值。Q学习是一种基于状态-行动值函数（Q函数）的强化学习算法。在每个时间步，Q学习通过更新Q函数来改善策略。该算法通过不断地更新Q函数来估计状态-行动值函数的最优值，并利用该函数来制定最优策略。

Q-Learning算法用于在未知环境中训练一个智能体(agent)做出最优决策。该算法的核心思想是学习一个价值函数Q(s,a)，其中s表示当前状态，a表示智能体在该状态下采取的行动。Q(s,a)表示在当前状态下采取行动a所能获得的期望奖励值。Q值越高，则说明该行动对获得最大奖励的贡献越大。

在训练过程中，智能体不断地探索环境，通过观察每个状态下采取不同行动所获得的奖励来更新Q值。具体来说，智能体采取当前状态下Q值最高的行动，然后观察该行动带来的奖励，根据奖励值更新Q值，以此来不断优化Q值函数，使其逐渐收敛到最优值。更新Q值的公式为：

Q(s,a) = Q(s,a) + α(r + γ max Q(s',a') - Q(s,a))
br

其中，Q(s,a)表示在状态s下采取行动a的Q值，α是学习率（控制每次更新的权重），r是执行行动a后，智能体能够得到的立即奖励，γ是折扣因子（控制未来奖励的权重，表示对未来奖励的重视程度），s'和a'表示执行当前行动后进入的新状态和新的行动，max(Q(s',a'))表示在下一个状态s'中采取所有可能行动中的最大Q值。

通过不断地迭代更新Q值，智能体最终可以学习到在不同状态下采取不同行动的最优策略，从而实现自主决策。

下面通过一个具体的例子详细解读Q-Learning算法。

问题的提出：智能体需要学习一张迷宫地图，其中包含起点和终点，并且智能体只能根据自己的当前位置和周围环境信息，采取一些行动。在每个时间步骤，智能体都需要根据其当前状态（位置）和执行的行动，更新其Q值，Q值表示采取该行动能够带来的长期回报（预期收益）。通过迭代地更新Q值，智能体可以逐渐学习到每个状态下采取每个行动的预期收益，进而找到从起点到终点的最短路径。

下面是求解迷宫问题的源代码：

import numpy as npimport random

# 迷宫环境，0表示可以走的路，1表示墙maze = np.array([[0, 0, 0, 1, 0],                 [1, 1, 0, 1, 0],                 [0, 0, 0, 0, 0],                 [0, 1, 1, 1, 0],                 [0, 0, 0, 1, 0]])               # 定义Q表，初始值为0Q = np.zeros([5, 5, 4])# 定义参数alpha = 0.1   # 学习率gamma = 0.9   # 折扣因子epsilon = 0.1 # 探索率num_episodes = 1000  # 训练次数# 定义行动actions = ['up', 'down', 'left', 'right']# Q-Learning算法主循环for i in range(num_episodes):    # 随机选择起始状态    state = [random.randint(0, 4), random.randint(0, 4)]        # 一直循环，直到到达终点或超过最大步数    while state != [2, 4]:        # 探索或利用策略选择行动        if random.uniform(0, 1) < epsilon:            action = random.choice(actions)        else:            action = actions[np.argmax(Q[state[0], state[1]])]               # 执行行动并观察奖励和新状态            if action == 'up' and state[0] > 0 and maze[state[0]-1, state[1]] == 0:            new_state = [state[0]-1, state[1]]            reward = 0        elif action == 'down' and state[0] < 4 and maze[state[0]+1, state[1]] == 0:            new_state = [state[0]+1, state[1]]            reward = 0        elif action == 'left' and state[1] > 0 and maze[state[0], state[1]-1] == 0:            new_state = [state[0], state[1]-1]            reward = 0        elif action == 'right' and state[1] < 4 and maze[state[0], state[1]+1] == 0:            new_state = [state[0], state[1]+1]            reward = 0        else:            new_state = state            reward = -1              # 更新Q值        Q[state[0], state[1], actions.index(action)] = (1 - alpha) * Q[state[0], state[1], actions.index(action)] + \                                              alpha * (reward + gamma * np.max(Q[new_state[0], new_state[1]]))                # 更新状态        state = new_state        # 打印每100次训练的结果    if i % 100 == 0:        print("Episode {}: Steps = {}".format(i, -Q[0, 0, 0]))``

Q-learning算法可以在迭代的过程中不断更新Q-table，直到Q值收敛为止。在Q值收敛后，智能体可以根据Q-table选择在每个状态下采取的最优行动，从而找到从起点到终点的最短路径。

Q-Learning算法可以应用于多种场景，包括但不限于以下几个示例：

l游戏智能体训练：通过Q-Learning算法训练游戏智能体，使其学会在游戏中采取最优的行动策略，以获得最高的得分。例如，在经典的Atari游戏中，Q-Learning算法可以被用来训练游戏智能体，在不断地尝试中学会如何最优化地操作游戏控制器。

机器人路径规划：Q-Learning算法可以应用于机器人路径规划领域。通过学习机器人在不同状态下采取不同行动的最优策略，可以实现机器人在复杂环境中快速、准确地找到最优路径。
自然语言处理：Q-Learning算法可以应用于自然语言处理领域。例如，可以将自然语言问题转化为状态，将回答问题的语句转化为行动，使用Q-Learning算法来学习最优的回答策略。
股票交易决策：Q-Learning算法可以应用于股票交易决策领域。例如，可以将不同股票价格和市场指数作为状态，将不同的交易行为（例如买进或卖出）作为行动，使用Q-Learning算法来学习最优的交易策略。

结论：Q-learning算法是一种无模型（model-free）强化学习方法，无需提前获取完备的模型，通过不断地迭代更新Q值，智能体最终可以学习到在不同状态下采取不同行动的最优策略，从而实现自主决策。

‍

黑色小圆动图分割线

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦！

http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651734454&idx=2&sn=cafdea42746f8cd1dad5e6f76a7ef719

大数据文摘

普及数据思维，传播数据文化

最新文章

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

著名AI学者、天工智能首席科学家颜水成离开昆仑万维

马斯克和特朗普这对CP组合赢了后，科技界会变天吗？

人工智能专家获诺奖，是希望之光，还是灾难前奏？

贝索斯领投、OpenAI连续跟投，这家机器人公司再融4亿美金

你愿意和AI恋人共度一生吗？

比ChatGPT更牛！苹果新AI模型刷新交互体验！能看懂你的手机屏幕！平板和安卓机也都行

专访"Prompt之神"李继刚 - 我想用20年时间，给世界留一句话。

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

OpenAI放弃自制AI芯片！伦敦场开发者日Hugging Face工程师现场“拷问”Sam Altman

想用AI特效在万圣节“鬼混”，看这一篇就够了。

AI + 影视，学会「避坑」再「吟诗」丨CNCC 2024

做AI捏捏，享赛博解压。

困扰18亿人的“全球干旱”，被AI更准确预测了

开源一夜崩塌：Linux无理由除名俄罗斯开发者。我们该醒了？

帮老外割草、送餐、保洁，中国服务机器人冲向海外

Character AI被起诉！14岁青少年自杀，AI陪伴何去何从

加强版Claude3.5正式上线，一句话操控电脑的时代真的要来了。

Transformer能否推理引争议，DeepMind连夜更新论文开源数据集：Transformer真的很强

Andrej Karpathy预言AI马太效应：差异只会越来越显著

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

台积电股价创历史新高，先进制程比想象中重要？

谷歌计划将 Gemini 并入 Deepmind，下个月开始生效

这个AI插件，想让你体验在浏览器上开挂的感觉。

对统计学“又爱又怕”，到底如何学统计？

科研那些事（万字长文，真诚分享）

创造历史，马斯克成功回收20多层楼高的星舰助推器

从广东看中华文明起源，《穿越磨刀山》以AI技术开拓考古新视野

苹果发文质疑：大语言模型根本无法进行逻辑推理

三星，正在自救

o1诞生对下一轮AI爆发的启示：技术远远没有收敛，仍在演进丨智源Workshop精华观点回顾

马斯克的Cybercab首秀！没有方向盘和踏板，26年量产，特斯拉这次又玩大的了

哈佛大学俩学生开发出一种 AI 眼镜，看你一眼就能扒光所有个人信息

AI 法力无边！物理诺贝尔奖颁给了 HNN 之父和深度学习之父

别笑，你可能也分不清这些视频是不是AI的。

两万字实录：大语言模型、提示学习与未来科技研发的交汇点

破纪录！OpenAI成为史上第一家估值万亿元的AI公司！独家融资协议：“别投对手公司”

是什么，缔造了英伟达神话？

ChatGPT上线全新功能Canvas - 我消灭你，与你无关。

为何马斯克的“盲视”不可能超越肉眼？

当代年轻人，在AI实现婚纱照自由

国庆从你的城市出发，5小时高铁最远能到哪

颠覆认知：大模型不可靠，越大越不可靠？最新研究登上 Nature

科研大佬投稿顶会的经验分享：时间安排、idea灵感、科研习惯

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

2024工博会最新洞察：机器人走向大负载，中国厂商从跟随到并跑

AI击败人类！DeepMind推出AlphaChip，几小时内即可生成“超人”芯片布局

Meta放大招，发布真AR眼镜！但让人“高”攀不起

腾讯 Robotics X 控制负责人郑宇近日离职，已加入优必选

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉