Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models

强化学习突破级暂无讲解视频

发表时间: 2026-04-20
arXiv: 2604.18107

收录解读

这篇论文解决的是 Vision-Language-Action 模型在真实部署中一个非常实用但常被低估的问题：对微小环境变化极其脆弱。作者把问题归因为 trajectory overfitting，即模型过度记忆动作与实体的伪相关，在轻微物体姿态或场景扰动下就复现错误动作模式。

方法上，论文提出 verifier-free 的 test-time adaptation 框架 PDF，结合基于不确定性的扰动增强、动作投票、延迟反馈驱动的轻量修正模块以及自适应调度器。它避免了对基础 VLA 做昂贵微调，而是在推理时通过受控扰动与回顾式反馈修正动作 logit，从而提高稳健性。

它值得正式收录，是因为这不是一个窄 benchmark trick，而是一个很有复用价值的部署时自适应模式：不需要标签验证器，也不要求重训主模型，却能在 VLA/多模态决策中显式处理 spurious correlation 和 delayed feedback。对于 test-time adaptation、embodied robustness 和 agent deployment 都有外溢意义。

它没有升到更高等级，是因为目前验证仍集中在 LIBERO 和 Atari 这类可控任务，离开放世界机器人部署还有距离；此外它更像强工程方法原型，而不是重新定义 VLA 或 test-time learning 的上位范式。

链接

论文链接