智能体与自主科学 突破级 有讲解视频
发表时间
2026-03-05
arXiv
2603.06713

收录解读

当 agent 进入大 tool ecosystem 时,瓶颈很快不再只是基础模型能力,而是 context budget、tool loading 策略和长链执行结构。很多系统默认把更多工具描述塞进上下文,希望靠更大模型硬扛,但这条路对小模型和低成本部署并不成立。

ATLAS 的核心贡献,是把 large-toolspace agent 的问题拆成两个可学习决策:上下文如何获取,动作如何组织。它结合 iterative tool loading 与 programmatic tool orchestration,把 context growth 控在可管理范围内,同时引入 rubric-based reinforcement finetuning,用结构化 judge criteria 取代单一成败信号,显著改善在 MCP-style 大工具空间里的长链执行表现。

它值得正式收录,因为这不是又一个 agent benchmark 提升,而是给 tool-rich agent 提供了更耐久的 scaling recipe:能力增长未必来自更长上下文,而可以来自更好的 context control 与 execution structure 学习。对本仓库的 tool use、capability acquisition、small-model agents 主线都有直接复用价值。

它没有升到更高一级,是因为当前证据仍主要集中在作者定义的 MCP benchmark 环境和有限模型族上,跨更多真实工具生态和部署框架的默认采用还没有形成。现阶段它是很强的 toolspace RL finetuning 路线,但尚未成为通用标准。

解读视频

链接