推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-01
arXiv
2604.00698

收录解读

基于可验证奖励的 LLM 强化学习已经成为推理后训练的主线之一,但它有一个非常实际的失败模式:当题目太难、一个 rollout group 全错时,相对优势就是零,训练完全没有更新信号。给模型加 hints 看起来是自然补救,但固定 hints 往往会让模型学会依赖提示,而不是把能力迁移回无提示场景。

HiLL 的关键贡献是把 hinter 和 reasoner 一起放进在线 RL 中共同训练。它不仅让 hinter 根据当前 reasoner 的失败轨迹动态生成提示,还进一步提出 hint reliance 和 transfer-weighted reward:只有那些既能恢复非零学习信号、又不会让正确轨迹过度依赖提示的 hints,才会得到高奖励。

它值得正式收录,因为它把 hinting 从 ad-hoc scaffold 变成了一个有理论约束的 RL 接口。对于 GRPO、RLVR、课程学习以及 reasoning policy 的能力引出,这种“创造信号但不过度喂答案”的框架具有明显可复用性。

它暂时不升到更高一级,原因在于训练成本显著增加,而且当前方法仍依赖参考答案和较结构化的评测场景。它是很强的 reasoning RL 推进,但尚未证明会成为通用后训练默认范式。

链接