Learning Actionable Manipulation Recovery via Counterfactual Failure Synthesis

强化学习突破级有讲解视频

发表时间: 2026-03-13
arXiv: 2603.13528

收录解读

机器人操作系统已经能完成越来越复杂的抓取与装配任务，但真正难落地的地方往往不是成功执行，而是失败后能否安全、低成本地恢复。现有 failure-learning 路线通常依赖真实失败数据采集或 simulator perturbation，两者分别受制于成本/安全和明显的 sim-to-real gap。

这篇工作的关键新意是 Dream2Fix：它不从模拟器里合成粗糙错误，而是从成功真实演示出发，在 generative world model 中做动作扰动，生成成对的 counterfactual failure-correction rollouts，再通过任务有效性、视觉一致性和运动学安全的结构化验证机制筛掉不可用样本。基于得到的 12 万级高保真 paired dataset，作者再微调 VLM，让模型直接从视觉异常预测失败类型和可执行的恢复轨迹。

它值得正式收录，因为真正可复用的价值不只是 manipulation accuracy 提升，而是提供了一个从成功演示自动构造 recovery training data 的 durable workflow。对具身智能和 long-horizon robot control 来说，这是一条比直接采集真实失败数据更可扩展的 failure-to-recovery learning pattern，也把 generative world model 与 closed-loop recovery 更紧地接到了一起。

它没有升到更高一级，是因为当前证据仍主要集中在 manipulation failure recovery 这一子线，且真实世界验证规模还不足以证明它会改写更广义的 embodied learning default。现阶段更像一条很强的方法和数据生成接口，而不是整个机器人学习范式的重写。

解读视频

B 站 YouTube

链接

论文链接