PNAS：极长延迟情况下的一次性强化学习

学术 2024-10-17 19:18 德国

本期推荐一篇2024年6月发表在PNAS上的论文《时间尺度不变的因果关系导致单次强化学习，即使强化延迟极长》。在强化学习的研究领域，关于行为与奖励之间的因果关系如何在大脑中形成，一直是一个备受关注的问题。传统的理论认为，行为与强化之间的时间接近性对于学习至关重要，即行为发生后若奖励能够快速跟随，学习效果将更为显著。然而，针对这一观点的质疑近年来逐渐增多，尤其是随着信息论等新方法的引入，学者们开始探讨时间延迟较长时的学习机制。

本研究探讨在行为与奖励之间存在极长延迟（如16分钟）的情况下，实验对象是否仍然能够通过一次性强化学习。研究者设计了一种信息论框架，认为行为与奖励之间的学习并不依赖于绝对时间接近性，而是取决于两者的相对时间间隔，即通过“互信息”来量化行为与奖励之间的统计关联。在这个理论框架下，即便行为与奖励之间存在很长的时间间隔，只要该间隔内的互信息足够高，学习仍然可以迅速发生。

实验使用了30只雄性大鼠，分成实验组和对照组。实验组大鼠通过按压杠杆获得食物奖励，但食物奖励并非立即送达，而是有2分钟或16分钟的延迟。实验组大鼠的每一次按压都会启动计时器，计时结束后食物自动投放。对照组的大鼠也会在同一时间获得食物奖励，但其按压杠杆与食物投放无关，即对照组的行为无法影响奖励时间。在获取阶段，研究者观察了大鼠在长延迟情况下的行为变化，记录了每只大鼠的按压行为和获得的食物奖励的时间，并通过互信息的计算，分析了行为与奖励之间的统计关联。此外，研究还引入了“前瞻性互信息”和“回溯性互信息”两个概念，分别衡量行为对未来奖励的预测能力以及奖励对之前行为的提示作用。

研究结果显示，即使在长达16分钟的延迟条件下，实验组大鼠依然能够通过一次性强化迅速学会按压杠杆的行为，这表明时间接近性并非学习的必要条件。研究进一步表明，行为与奖励的相对时间信息，即互信息，才是决定学习发生的关键。通过该研究，作者挑战了传统的强化学习理论，提出了基于时间尺度不变的学习模型。这一发现不仅在神经科学、认知科学领域具有重要意义，也为人工智能和机器学习中的强化学习算法提供了新的启示。

论文原文：

PNAS，Vol. 121 No. 30，June 2024

Time-scale invariant contingency yields one-shot reinforcement learning despite extremely long delays to reinforcement

Charles R. Gallistel and Timothy A. Shahan

唧唧堂学院推荐订阅

以下专栏及课程，安卓手机用户可通过下方小程序链接订阅，苹果手机用户请通过文末“阅读原文”链接访问唧唧堂学院H5页面订阅。

论文导读

**心理学**

心理学论文导读会员（年度）

2024心理学论文导读600篇

心理学百篇热门论文导读专栏（2023年第2期）

心理学百篇热门论文导读专栏（2023年第1期）

心理学百篇热门论文导读专栏（2022年第2期）

心理学百篇热门论文导读专栏（2022年第1期）

更多心理学论文导读专栏请访问

方法班课程

更多方法班直播课程请访问

咨询+开票+团购

http://mp.weixin.qq.com/s?__biz=MjM5Mzg0NDkyMA==&mid=2652286427&idx=4&sn=dbbe3a1624c58c36efdd9a3a2b3fe396

唧唧堂

从数据到洞见，全面解读学术研究！

最新文章

SMJ：员工流动性如何影响企业对新技术的采用？以机器学习为例

全新上架，预售特惠！管理学论文数据集数据库

JIBS：跨国企业战略在中国制度变迁中的演变

JIBS 国际商务研究 2024年9月论文摘要7篇

JOM 管理学杂志2024年9月论文摘要18篇

JOM：领导者虐待后员工的自我形象维护

已收录量表320个，管理学最新顶刊论文的量表都在这个数据库！

PNAS：汽车行业在燃料电池和电池技术之间的选择

AER 美国经济评论2024年9月论文摘要10篇

如何提高命中率：国家社科基金项目申报的策略技巧与要素解析

JOB：周末补觉与工作周疲劳

已收录理论220条，管理学最新顶刊论文的理论都在这个数据库！

JOB：双职工家庭如何在家工作

JAP 应用心理学 2024年8月论文摘要6篇

PNAS：极长延迟情况下的一次性强化学习

PNAS: GPT是用于多语言心理文本分析的有效工具

唧唧堂心理学会员，10大专栏，含19-24年论文导读超千篇！

PNAS：相同辅音回避现象的进化动力

2024年诺贝尔经济学奖得主：制度与繁荣的探索者

JFE：当金融市场感染新冠

JFE：场外交易市场中的脆弱流动性

JFE：消费者信贷合同中的债务人收入操纵

一个刚被cssci拒稿的经济学博士碎掉了......

Mgmt S 管理科学 2024年8月论文摘要33篇

JOM：好士兵而非变革推动者

JOM：安全胜于遗憾

JSP：减少长期自我怀疑的负面影响

9月已更250篇！2024年心理学论文导读专栏+数据库，订阅特惠！

JSP：流行病信息和政策信息如何影响抗感染行为

JESP 社会心理学杂志 2024年9月论文摘要6篇

如何提高命中率：国家社科基金项目申报的策略技巧与要素解析

AER：银行挤兑、脆弱性与信贷宽松

RFS：金融网络中的信贷冻结与最优救助

RFS 金融学研究评论 2024年9月论文摘要7篇

JESP：正面情绪过度或不足表达的人际后果

JESP：权力可以增加也可以减少作弊

JESP：承诺如何减少不诚实行为

AER：雾霾污染信息的价值

9月已更275篇！2024年经济学顶刊论文导读数据库+专栏

AER：选民对政治新闻的知情程度

EJ 经济学杂志 2024年8月论文摘要12篇

JM：直播电商中网红组合策略对产品销售的影响

已收录理论200条，管理学最新顶刊论文的理论都在这个数据库！

JMR：消费者自信选择提高销售并减少退货

JMR 市场研究杂志 2024年8月论文摘要10篇

SMJ：引入基于机器学习的多模态数据融合方法：微型企业可信度测量的应用

9月已更484篇！2024管理学顶刊论文导读数据库

SMJ 战略管理杂志 2024年9月论文摘要7篇

JIBS 国际商务研究 2024年8月论文摘要10篇

JPSP：实现自我控制目标，意志力 or 承诺策略？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉