RAGEN-2: Reasoning Collapse in Agentic RL

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-07
arXiv: 2604.06268

收录解读

agentic RL 里最危险的问题之一不是 reward 直接崩掉，而是模型在多轮轨迹中逐渐学会对不同输入套用同一类 reasoning template。传统上很多工作用 entropy 监控训练稳定性，但 entropy 只能衡量同一输入内的多样性，完全可能把“看起来有变化、实际上不看输入”的 collapse 漏掉。

RAGEN-2 的推进在于把 reasoning quality 明确拆成 within-input diversity 和 cross-input distinguishability，并用 mutual information 及其代理指标诊断 template collapse；同时给出一个清晰机制解释：当 reward variance 太低时，任务梯度被 regularization 压过去，输入相关的 reasoning 差异就会被抹平。对应方法是 SNR-aware filtering，用 reward variance 作为轻量 proxy 挑出高信号 prompt。

它值得正式收录，因为这类 work 不只是又提一个 agentic RL trick，而是在定义和诊断一个此前被主流指标忽略的 failure mode。对 reasoning RL、agent training stability、online diagnosis 和 reward shaping，这种更准确的 collapse lens 有持久方法价值。

它暂时不升到更高一级，原因在于 mutual-information proxies 和 SNR filtering 的普适性还需要更多模型家族与更长训练周期验证；目前它更像很强的诊断与改进框架，而不是彻底定型的统一理论。

链接

论文链接