Learning to Hint for Reinforcement Learning

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00698

收录解读

基于可验证奖励的 LLM 强化学习已经成为推理后训练的主线之一，但它有一个非常实际的失败模式：当题目太难、一个 rollout group 全错时，相对优势就是零，训练完全没有更新信号。给模型加 hints 看起来是自然补救，但固定 hints 往往会让模型学会依赖提示，而不是把能力迁移回无提示场景。

HiLL 的关键贡献是把 hinter 和 reasoner 一起放进在线 RL 中共同训练。它不仅让 hinter 根据当前 reasoner 的失败轨迹动态生成提示，还进一步提出 hint reliance 和 transfer-weighted reward：只有那些既能恢复非零学习信号、又不会让正确轨迹过度依赖提示的 hints，才会得到高奖励。

它值得正式收录，因为它把 hinting 从 ad-hoc scaffold 变成了一个有理论约束的 RL 接口。对于 GRPO、RLVR、课程学习以及 reasoning policy 的能力引出，这种“创造信号但不过度喂答案”的框架具有明显可复用性。

它暂时不升到更高一级，原因在于训练成本显著增加，而且当前方法仍依赖参考答案和较结构化的评测场景。它是很强的 reasoning RL 推进，但尚未证明会成为通用后训练默认范式。

链接

论文链接