推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-04-07
arXiv
2604.06268

收录解读

agentic RL 里最危险的问题之一不是 reward 直接崩掉,而是模型在多轮轨迹中逐渐学会对不同输入套用同一类 reasoning template。传统上很多工作用 entropy 监控训练稳定性,但 entropy 只能衡量同一输入内的多样性,完全可能把“看起来有变化、实际上不看输入”的 collapse 漏掉。

RAGEN-2 的推进在于把 reasoning quality 明确拆成 within-input diversity 和 cross-input distinguishability,并用 mutual information 及其代理指标诊断 template collapse;同时给出一个清晰机制解释:当 reward variance 太低时,任务梯度被 regularization 压过去,输入相关的 reasoning 差异就会被抹平。对应方法是 SNR-aware filtering,用 reward variance 作为轻量 proxy 挑出高信号 prompt。

它值得正式收录,因为这类 work 不只是又提一个 agentic RL trick,而是在定义和诊断一个此前被主流指标忽略的 failure mode。对 reasoning RL、agent training stability、online diagnosis 和 reward shaping,这种更准确的 collapse lens 有持久方法价值。

它暂时不升到更高一级,原因在于 mutual-information proxies 和 SNR filtering 的普适性还需要更多模型家族与更长训练周期验证;目前它更像很强的诊断与改进框架,而不是彻底定型的统一理论。

链接