Prefrontal to ventral tegmental area dynamics drive contingency degradation

神经科学与认知科学突破级暂无讲解视频

收录解读

这篇 Nature 论文把认知灵活性中的“停止追逐旧奖励线索”具体化为可建模、可记录、可操控的 contingency degradation 信号。

作者在经典 reward prediction error 模型中加入 meta-learning 参数，构建 meta-RPE 模型，更准确解释小鼠在 cue-reward 关系退化或增强时的舔舐行为。

通过纵向双光子成像和单细胞全息光遗传，论文发现 mPFC 中一部分神经元专门编码 CD 信号并具有因果作用；进一步证明 mPFC→VTA 通路把该信号传回奖励系统，选择性加速旧行为降权。

它值得收录，因为它给强化学习和 agent control 一个强生物原则：适应性不只是更新价值，还要有检测关系失效并主动降权旧策略的 meta-control 回路。