推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-05-19
arXiv
2605.19577

收录解读

GoLongRL 处理长上下文 RL 的数据构造和多任务奖励异质性问题,而不是只堆更复杂检索路径。

论文发布 23K RLVR 样本、构造流水线和训练代码,覆盖 9 类长上下文能力,并提出 TMN-Reweight 做跨任务奖励尺度对齐和难度自适应加权。

它值得正式收录,因为它把长上下文能力后训练做成开放 recipe,对 agent memory、长文档推理和代码库理解都有直接系统价值。

它没有更高,是因为当前证据集中在若干长上下文 benchmark,是否稳定提升真实 agent 工作流仍需验证。

链接