Reward magnitude determines reinforcement learning efficiency

神经科学与认知科学突破级有讲解视频

收录解读

这篇 Science 论文直接重新检验动物强化学习实验中一个常见默认假设：为了增加试次数，单次奖励通常被设计得很小，但这可能系统性低估了学习效率。

作者在多个行为范式中发现，特别大的奖励可以显著提升初始学习效率，并把这种提升拆分为 session 内学习、跨 session 学习和任务参与度等不同成分。

机制上，腹侧纹状体多巴胺释放的持续时间和幅度随奖励大小缩放；延长多巴胺奖励反应能够复现大额奖励带来的很多学习收益。

它值得收录，因为这给强化学习和 NeuroAI 提供了一个可迁移的生物学习原则：奖励幅度不只是标量反馈大小，还会改变参与度、学习速率和跨时间尺度的信用分配。