智能体与自主科学
突破级
暂无讲解视频
收录解读
Maestro 关注 autonomous agents 的组合问题:模型和技能越来越多,但多数系统仍依赖固定逻辑或单一大模型,不能动态利用不同专家模型与工具技能的互补性。
论文把异构多模态任务重写为对 hierarchical model-skill registry 的序列决策过程,由轻量 policy 选择是否调用外部专家、选择哪一组 model-skill pair,以及何时终止。
训练采用 outcome-based RL,不需要 step-level supervision;论文报告 4B orchestrator 在多类多模态 benchmark 上获得强结果,并能在加入未见过的模型和技能后继续泛化。
它值得正式收录,因为它把 skill marketplace/model registry 变成可学习的 orchestration policy,是 agent 能力扩展和模块化执行系统的重要工程/研究接口。