推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
GoLongRL 处理长上下文 RL 的数据构造和多任务奖励异质性问题,而不是只堆更复杂检索路径。
论文发布 23K RLVR 样本、构造流水线和训练代码,覆盖 9 类长上下文能力,并提出 TMN-Reweight 做跨任务奖励尺度对齐和难度自适应加权。
它值得正式收录,因为它把长上下文能力后训练做成开放 recipe,对 agent memory、长文档推理和代码库理解都有直接系统价值。
它没有更高,是因为当前证据集中在若干长上下文 benchmark,是否稳定提升真实 agent 工作流仍需验证。