本期推荐一篇2024年6月发表在PNAS上的论文《时间尺度不变的因果关系导致单次强化学习,即使强化延迟极长》。在强化学习的研究领域,关于行为与奖励之间的因果关系如何在大脑中形成,一直是一个备受关注的问题。传统的理论认为,行为与强化之间的时间接近性对于学习至关重要,即行为发生后若奖励能够快速跟随,学习效果将更为显著。然而,针对这一观点的质疑近年来逐渐增多,尤其是随着信息论等新方法的引入,学者们开始探讨时间延迟较长时的学习机制。
本研究探讨在行为与奖励之间存在极长延迟(如16分钟)的情况下,实验对象是否仍然能够通过一次性强化学习。研究者设计了一种信息论框架,认为行为与奖励之间的学习并不依赖于绝对时间接近性,而是取决于两者的相对时间间隔,即通过“互信息”来量化行为与奖励之间的统计关联。在这个理论框架下,即便行为与奖励之间存在很长的时间间隔,只要该间隔内的互信息足够高,学习仍然可以迅速发生。
实验使用了30只雄性大鼠,分成实验组和对照组。实验组大鼠通过按压杠杆获得食物奖励,但食物奖励并非立即送达,而是有2分钟或16分钟的延迟。实验组大鼠的每一次按压都会启动计时器,计时结束后食物自动投放。对照组的大鼠也会在同一时间获得食物奖励,但其按压杠杆与食物投放无关,即对照组的行为无法影响奖励时间。在获取阶段,研究者观察了大鼠在长延迟情况下的行为变化,记录了每只大鼠的按压行为和获得的食物奖励的时间,并通过互信息的计算,分析了行为与奖励之间的统计关联。此外,研究还引入了“前瞻性互信息”和“回溯性互信息”两个概念,分别衡量行为对未来奖励的预测能力以及奖励对之前行为的提示作用。
研究结果显示,即使在长达16分钟的延迟条件下,实验组大鼠依然能够通过一次性强化迅速学会按压杠杆的行为,这表明时间接近性并非学习的必要条件。研究进一步表明,行为与奖励的相对时间信息,即互信息,才是决定学习发生的关键。通过该研究,作者挑战了传统的强化学习理论,提出了基于时间尺度不变的学习模型。这一发现不仅在神经科学、认知科学领域具有重要意义,也为人工智能和机器学习中的强化学习算法提供了新的启示。
唧唧堂学院推荐订阅