Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback

强化学习突破级有讲解视频

发表时间: 2026-03-04
arXiv: 2603.04029

收录解读

大多数学习式机器人控制器在离线训练后以固定参数部署，真正上线后遇到分布偏移时基本没有持续改进能力。这篇论文把问题前推到 deployment-time adaptation：机器人如何利用自己的世界模型反馈，在运行中自主发现失配并触发持续学习。

具体做法建立在 DreamerV3 上，用 world model prediction residual 作为 OOD 事件检测信号，并在检测到显著偏离时自动触发在线 continual RL finetuning。系统还结合任务表现和内部训练指标评估适配是否收敛，从而减少对外部人工监督和显式 domain knowledge 的依赖。

它符合本仓库对 test-time / deployment-time learning 的高优先级，因为这不是 narrow trick，而是一个可复用的部署期适配回路：世界模型残差用于触发，在线学习用于修正，内部指标用于停机判断。对现实机器人长期运行，这是很实用的模式。

它不更高一级的原因是目前证据仍集中在若干连续控制场景、一个高保真四足模拟和一个真实小车平台。方向明确，但距离形成更普适的 deployment-time robotics adaptation blueprint 还需要更大规模验证。

解读视频

B 站 YouTube

链接

论文链接