GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

推理、记忆与推理时控制突破级暂无讲解视频

收录解读

GoLongRL 处理长上下文 RL 的数据构造和多任务奖励异质性问题，而不是只堆更复杂检索路径。

论文发布 23K RLVR 样本、构造流水线和训练代码，覆盖 9 类长上下文能力，并提出 TMN-Reweight 做跨任务奖励尺度对齐和难度自适应加权。

它值得正式收录，因为它把长上下文能力后训练做成开放 recipe，对 agent memory、长文档推理和代码库理解都有直接系统价值。

它没有更高，是因为当前证据集中在若干长上下文 benchmark，是否稳定提升真实 agent 工作流仍需验证。