收录解读
机器人基础策略虽然能靠大规模 imitation learning 获得不错起点,但一到长程任务就容易因 distribution shift 和 error accumulation 崩掉。RL 微调理论上能补,但现实中最大障碍是 diverse tasks 下没有统一、密集、可泛化的 reward,导致还得回到繁琐的手工 reward engineering。
这篇论文提出 VLLR,把 dense reward 分成两部分:外部 reward 由 LLM/VLM 对任务进度和子任务完成情况进行识别,内部 reward 则来自 policy self-certainty。作者用 LLM 拆解 subtasks,再用 VLM 初始化 value function 做短 warm-up,之后主要依靠 self-certainty 作为内在指导,避免全程调用大模型带来的高成本。
这篇工作值得收录,因为它提供的是一种可复用的 long-horizon robotic RL reward pattern,而不是某个任务的定制 reward。把语言/视觉模型当作 progress recognizer,再结合 policy uncertainty/self-certainty 做长期训练指导,这种组合对于 mobile manipulation、navigation 和 foundation-policy finetuning 都有持续参考价值。
它没有升到更高一级,是因为当前仍主要验证在 CHORES 及相近任务族上,尚未证明这条 dense reward 路线会成为跨机器人平台的默认后训练方式。它很强,但更像稳固的方法推进而非路线重写。