Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-05
arXiv: 2603.06713

收录解读

当 agent 进入大 tool ecosystem 时，瓶颈很快不再只是基础模型能力，而是 context budget、tool loading 策略和长链执行结构。很多系统默认把更多工具描述塞进上下文，希望靠更大模型硬扛，但这条路对小模型和低成本部署并不成立。

ATLAS 的核心贡献，是把 large-toolspace agent 的问题拆成两个可学习决策：上下文如何获取，动作如何组织。它结合 iterative tool loading 与 programmatic tool orchestration，把 context growth 控在可管理范围内，同时引入 rubric-based reinforcement finetuning，用结构化 judge criteria 取代单一成败信号，显著改善在 MCP-style 大工具空间里的长链执行表现。

它值得正式收录，因为这不是又一个 agent benchmark 提升，而是给 tool-rich agent 提供了更耐久的 scaling recipe：能力增长未必来自更长上下文，而可以来自更好的 context control 与 execution structure 学习。对本仓库的 tool use、capability acquisition、small-model agents 主线都有直接复用价值。

它没有升到更高一级，是因为当前证据仍主要集中在作者定义的 MCP benchmark 环境和有限模型族上，跨更多真实工具生态和部署框架的默认采用还没有形成。现阶段它是很强的 toolspace RL finetuning 路线，但尚未成为通用标准。

解读视频

B 站 YouTube

链接

论文链接