Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

强化学习突破级有讲解视频

发表时间: 2026-03-12
arXiv: 2603.11653

收录解读

continual RL for VLA 直觉上应该很难，因为传统 continual learning 经验会预期 sequential fine-tuning 带来明显灾难性遗忘。这篇论文的价值就在于它系统性地检验了这个假设，并给出一个反直觉结果：对大型预训练 VLA 来说，简单的 sequential fine-tuning 加 LoRA 和 on-policy RL 可能已经足够强。

作者在三个 VLA 模型和五个 lifelong RL benchmark 上比较 continual RL 策略，发现 Seq. FT 在高 plasticity、低 forgetting 和 zero-shot generalization 上都表现异常稳健，常常优于更复杂的方法。论文进一步把原因归纳为大预训练模型、参数高效适配和 on-policy RL 三者的协同，实际上重塑了 stability-plasticity trade-off。

这篇工作符合本仓库对 deployment-time / continual adaptation 和 robotics / VLA 的扩展重点，因为它不是单纯涨点，而是在重写“continual VLA learning 需要多复杂”的研究 framing。对于 embodied agents 的持续学习，这个结论比再发一个复杂算法更有长期价值。

它不更高一级，是因为这条结论目前仍建立在特定 benchmark 组合和现有 VLA family 上。它是很强的 empirical clarification，但还没有完全变成跨平台、跨任务的定律。

解读视频

B 站 YouTube

链接

论文链接