神经科学与认知科学
突破级
暂无讲解视频
收录解读
这篇 Nature 论文把认知灵活性中的“停止追逐旧奖励线索”具体化为可建模、可记录、可操控的 contingency degradation 信号。
作者在经典 reward prediction error 模型中加入 meta-learning 参数,构建 meta-RPE 模型,更准确解释小鼠在 cue-reward 关系退化或增强时的舔舐行为。
通过纵向双光子成像和单细胞全息光遗传,论文发现 mPFC 中一部分神经元专门编码 CD 信号并具有因果作用;进一步证明 mPFC→VTA 通路把该信号传回奖励系统,选择性加速旧行为降权。
它值得收录,因为它给强化学习和 agent control 一个强生物原则:适应性不只是更新价值,还要有检测关系失效并主动降权旧策略的 meta-control 回路。