智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-21
arXiv
2605.22177

收录解读

Maestro 关注 autonomous agents 的组合问题:模型和技能越来越多,但多数系统仍依赖固定逻辑或单一大模型,不能动态利用不同专家模型与工具技能的互补性。

论文把异构多模态任务重写为对 hierarchical model-skill registry 的序列决策过程,由轻量 policy 选择是否调用外部专家、选择哪一组 model-skill pair,以及何时终止。

训练采用 outcome-based RL,不需要 step-level supervision;论文报告 4B orchestrator 在多类多模态 benchmark 上获得强结果,并能在加入未见过的模型和技能后继续泛化。

它值得正式收录,因为它把 skill marketplace/model registry 变成可学习的 orchestration policy,是 agent 能力扩展和模块化执行系统的重要工程/研究接口。

链接