Generalizable Dense Reward for Long-Horizon Robotic Tasks

强化学习突破级暂无讲解视频

发表时间: 2026-03-31
arXiv: 2604.00055

收录解读

机器人基础策略虽然能靠大规模 imitation learning 获得不错起点，但一到长程任务就容易因 distribution shift 和 error accumulation 崩掉。RL 微调理论上能补，但现实中最大障碍是 diverse tasks 下没有统一、密集、可泛化的 reward，导致还得回到繁琐的手工 reward engineering。

这篇论文提出 VLLR，把 dense reward 分成两部分：外部 reward 由 LLM/VLM 对任务进度和子任务完成情况进行识别，内部 reward 则来自 policy self-certainty。作者用 LLM 拆解 subtasks，再用 VLM 初始化 value function 做短 warm-up，之后主要依靠 self-certainty 作为内在指导，避免全程调用大模型带来的高成本。

这篇工作值得收录，因为它提供的是一种可复用的 long-horizon robotic RL reward pattern，而不是某个任务的定制 reward。把语言/视觉模型当作 progress recognizer，再结合 policy uncertainty/self-certainty 做长期训练指导，这种组合对于 mobile manipulation、navigation 和 foundation-policy finetuning 都有持续参考价值。

它没有升到更高一级，是因为当前仍主要验证在 CHORES 及相近任务族上，尚未证明这条 dense reward 路线会成为跨机器人平台的默认后训练方式。它很强，但更像稳固的方法推进而非路线重写。

链接

论文链接