强化学习
突破级
有讲解视频
收录解读
continual RL for VLA 直觉上应该很难,因为传统 continual learning 经验会预期 sequential fine-tuning 带来明显灾难性遗忘。这篇论文的价值就在于它系统性地检验了这个假设,并给出一个反直觉结果:对大型预训练 VLA 来说,简单的 sequential fine-tuning 加 LoRA 和 on-policy RL 可能已经足够强。
作者在三个 VLA 模型和五个 lifelong RL benchmark 上比较 continual RL 策略,发现 Seq. FT 在高 plasticity、低 forgetting 和 zero-shot generalization 上都表现异常稳健,常常优于更复杂的方法。论文进一步把原因归纳为大预训练模型、参数高效适配和 on-policy RL 三者的协同,实际上重塑了 stability-plasticity trade-off。
这篇工作符合本仓库对 deployment-time / continual adaptation 和 robotics / VLA 的扩展重点,因为它不是单纯涨点,而是在重写“continual VLA learning 需要多复杂”的研究 framing。对于 embodied agents 的持续学习,这个结论比再发一个复杂算法更有长期价值。
它不更高一级,是因为这条结论目前仍建立在特定 benchmark 组合和现有 VLA family 上。它是很强的 empirical clarification,但还没有完全变成跨平台、跨任务的定律。