不要只是强化学习

文摘   2024-08-13 17:39   四川  
今天,我想和大家分享一个发人深省的观点,提醒我们有时需要跳出本能的强化学习(reinforcement learning)模式,停下来思考整个系统的概率模型和背后的规律。

在之前提到的大鼠实验中,研究者为大鼠选择奖励点之前提供了声音刺激,提示水可能出现的位置。这些提示的前后变化概率遵循马尔可夫模型:即80%的概率重复同一边,20%的概率转换到另一边。研究者希望探究大鼠是否能够掌握这些提示所暗含的时间规律或概率模型。

然而,实验结果出乎意料。与没有提示的情况相比,提供提示并未显著提高大鼠选择正确位置的概率。这表明,大鼠并未充分利用这些提示,而是继续依赖原有的强化学习策略来做出选择。

掌握复杂模型和规律是更高级的认知功能的体现。我们人类同样经常依赖强化学习的本能反应,许多人工智能模型也是基于这一原理。然而,要实现更高水平的智能,我们需要超越这种简单的学习模式,主动探索更复杂的认知功能和深层次的规律。

这就是我今天想与大家分享的一个有趣的思考,希望能引发您对更高级认知的探索兴趣。

ref:Isolating perceptual biases caused by trial history during auditory categorization

邹周聊脑
聊聊脑科学