智能体与自主科学 突破级 有讲解视频
发表时间
2026-03-13
arXiv
2603.13019

收录解读

agentic RL 和传统 RL 最大的系统差异,不在训练循环本身,而在外部资源依赖:代码执行要占 CPU,reward model 和 verifier 可能跑在独立 GPU 池里,轨迹执行又会因为工具调用和环境交互拉长生命周期。现有框架通常按任务或轨迹做静态过配,这让外部资源长期被锁死,成为 agentic RL 训练扩展的真实瓶颈。

ARL-Tangram 提出的核心不是单点调度优化,而是 action-level orchestration。它把外部资源使用从长生命周期 trajectory 粒度切到更细的 action 粒度,用统一动作抽象和 elastic scheduling algorithm 去最小化 action completion time,并针对异构 CPU/GPU 资源和不同拓扑设计配套 resource managers,使资源能在 heterogeneous workloads 间细粒度共享和弹性回收。

这篇工作的价值在于它把 agentic RL 的系统问题清晰地重新表述了出来:真正需要被调度的不是 trajectory,而是 action graph 上不断变化的外部依赖。这个 framing 对 agent training infra、tool-using RL、以及带 verifier/executor 的后训练系统都有明显复用价值,不是一次性的集群工程 patch。

它目前仍是 breakthrough,而不是更高一级,因为验证和 deployment 证据仍主要围绕 MiMo 系列及一组具体 agentic RL workloads,距离成为更广泛 post-training / agent training 基础设施默认蓝图还有距离。它对非 agentic RL、通用 serving 或更开放企业 agent workflows 的泛化也还需要更多公开证据。

解读视频

链接