ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-13
arXiv: 2603.13019

收录解读

agentic RL 和传统 RL 最大的系统差异，不在训练循环本身，而在外部资源依赖：代码执行要占 CPU，reward model 和 verifier 可能跑在独立 GPU 池里，轨迹执行又会因为工具调用和环境交互拉长生命周期。现有框架通常按任务或轨迹做静态过配，这让外部资源长期被锁死，成为 agentic RL 训练扩展的真实瓶颈。

ARL-Tangram 提出的核心不是单点调度优化，而是 action-level orchestration。它把外部资源使用从长生命周期 trajectory 粒度切到更细的 action 粒度，用统一动作抽象和 elastic scheduling algorithm 去最小化 action completion time，并针对异构 CPU/GPU 资源和不同拓扑设计配套 resource managers，使资源能在 heterogeneous workloads 间细粒度共享和弹性回收。

这篇工作的价值在于它把 agentic RL 的系统问题清晰地重新表述了出来：真正需要被调度的不是 trajectory，而是 action graph 上不断变化的外部依赖。这个 framing 对 agent training infra、tool-using RL、以及带 verifier/executor 的后训练系统都有明显复用价值，不是一次性的集群工程 patch。

它目前仍是 breakthrough，而不是更高一级，因为验证和 deployment 证据仍主要围绕 MiMo 系列及一组具体 agentic RL workloads，距离成为更广泛 post-training / agent training 基础设施默认蓝图还有距离。它对非 agentic RL、通用 serving 或更开放企业 agent workflows 的泛化也还需要更多公开证据。

解读视频

B 站 YouTube

链接

论文链接