智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-03-30
arXiv
2603.28101

收录解读

Agentic RL 把 LLM 训练分成 rollout data collection 和 policy training 两个阶段,但真正卡住吞吐的往往不是训练本身,而是 rollout 中长尾轨迹的生成。频繁工具调用会导致排队延迟、相互干扰和 per-token time 膨胀,而很多系统仍按 step-centric 方式调度,忽略了整条 trajectory 的上下文与长尾特性。

Heddle 的核心新意是把 rollout orchestration 改写成 trajectory-centric system problem。它结合 trajectory-level scheduling、trajectory-aware placement 和 trajectory-adaptive resource manager 三个层次,分别处理何时排队、放到哪里执行、以及如何动态调整模型并行度,从而有针对性地压制长尾轨迹对端到端吞吐的拖累。

它值得正式收录,因为 agentic RL 正在变成越来越重要的系统层问题,而 Heddle 给出的不是某个 workload 特化优化,而是一套可复用的 rollout orchestration pattern。对需要大规模工具调用、长轨迹交互和分布式收集的 agentic RL 系统都有直接外溢价值。

它现在是 breakthrough 而不是更高一级,因为主要证据仍来自 arXiv 阶段和 rollout throughput 指标,离更广泛的通用 distributed agent runtime 参考架构还有距离;同时不同 agent workload 下的调度收益和工程复杂度仍需更多生产级验证。

链接