GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

强化学习突破级暂无讲解视频

发表时间: 2025-03-11
arXiv: 2503.08525

收录解读

把 outcome-only reinforcement learning 直接搬到 VLM agent 上，并不会自然长出稳定的 chain-of-thought。相反，在视觉环境里的多步 action reasoning 中，模型很容易迅速退化成低多样性、与状态脱节、且不完整的思维轨迹。GTR 这篇工作的价值，就是把这个失败模式明确命名为 thought collapse，并把它作为 RL-based VLM agent training 的核心障碍来处理。

方法上，作者提出 Guided Thought Reinforcement，用一个自动 corrector 在每个 RL step 上评估并修正 agent 的 reasoning process。重点不在人工 dense labeling，而在于用自动化 process guidance 同时训练 reasoning 和 action，让模型在 card-game 与 embodied environment 中避免思维塌缩。这个 framing 比单纯提 reward shaping 更有复用性，因为它把可扩展的过程监督接口直接嵌进 RL 训练回路。

它值得正式收录，因为它对 agentic RL / VLM reasoning training 提供了一个明确、可迁移的失败机制和干预模式。仓库目前在 agent training、deployment-time adaptation 和多步推理控制上是重点扩展方向，而 GTR 把“过程纠偏”从泛泛口号落实成了自动 corrector 驱动的训练基础件，这一点有持续价值。

它目前仍然是 breakthrough，而不是更高一级，因为证据范围还主要集中在较有限的视觉环境和任务族，距离成为更一般的 agent RL 标准训练范式还有距离。更广的模型规模、环境分布和与其他 process-supervision 路线的系统比较，仍然需要补齐。

链接

论文链接