Heddle: A Distributed Orchestration System for Agentic RL Rollout

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-30
arXiv: 2603.28101

收录解读

Agentic RL 把 LLM 训练分成 rollout data collection 和 policy training 两个阶段，但真正卡住吞吐的往往不是训练本身，而是 rollout 中长尾轨迹的生成。频繁工具调用会导致排队延迟、相互干扰和 per-token time 膨胀，而很多系统仍按 step-centric 方式调度，忽略了整条 trajectory 的上下文与长尾特性。

Heddle 的核心新意是把 rollout orchestration 改写成 trajectory-centric system problem。它结合 trajectory-level scheduling、trajectory-aware placement 和 trajectory-adaptive resource manager 三个层次，分别处理何时排队、放到哪里执行、以及如何动态调整模型并行度，从而有针对性地压制长尾轨迹对端到端吞吐的拖累。

它值得正式收录，因为 agentic RL 正在变成越来越重要的系统层问题，而 Heddle 给出的不是某个 workload 特化优化，而是一套可复用的 rollout orchestration pattern。对需要大规模工具调用、长轨迹交互和分布式收集的 agentic RL 系统都有直接外溢价值。

它现在是 breakthrough 而不是更高一级，因为主要证据仍来自 arXiv 阶段和 rollout throughput 指标，离更广泛的通用 distributed agent runtime 参考架构还有距离；同时不同 agent workload 下的调度收益和工程复杂度仍需更多生产级验证。

链接

论文链接