强化学习 突破级 暂无讲解视频
发表时间
2026-04-20
arXiv
2604.18107

收录解读

这篇论文解决的是 Vision-Language-Action 模型在真实部署中一个非常实用但常被低估的问题:对微小环境变化极其脆弱。作者把问题归因为 trajectory overfitting,即模型过度记忆动作与实体的伪相关,在轻微物体姿态或场景扰动下就复现错误动作模式。

方法上,论文提出 verifier-free 的 test-time adaptation 框架 PDF,结合基于不确定性的扰动增强、动作投票、延迟反馈驱动的轻量修正模块以及自适应调度器。它避免了对基础 VLA 做昂贵微调,而是在推理时通过受控扰动与回顾式反馈修正动作 logit,从而提高稳健性。

它值得正式收录,是因为这不是一个窄 benchmark trick,而是一个很有复用价值的部署时自适应模式:不需要标签验证器,也不要求重训主模型,却能在 VLA/多模态决策中显式处理 spurious correlation 和 delayed feedback。对于 test-time adaptation、embodied robustness 和 agent deployment 都有外溢意义。

它没有升到更高等级,是因为目前验证仍集中在 LIBERO 和 Atari 这类可控任务,离开放世界机器人部署还有距离;此外它更像强工程方法原型,而不是重新定义 VLA 或 test-time learning 的上位范式。

链接