智能体与自主科学
突破级
暂无讲解视频
收录解读
当前 agent 评测通常把软件工程、研究检索、GUI/视觉自动化分开测试,但真实数字代理经常需要把这些能力组合起来。单项 benchmark 分数高,并不意味着模型能在一个长视距任务中灵活切换搜索、视觉理解、代码执行和文件处理。
CocoaBench 针对这个缺口构建了 unified digital agents benchmark:任务由人设计、长视距、只给自然语言指令和最终输出的自动评估函数,要求 agent 组合 vision、search、coding 等能力。论文还提供 CocoaAgent 作为轻量 scaffold,用于隔离模型 backbone 差异。
它值得收录,因为它把数字代理评估从单能力测试推进到组合能力测试,并保持自动化可扩展评估。对未来统一 agent scaffold、agent benchmark 和多能力系统评估,它提供了更贴近真实应用的任务定义。
局限在于 benchmark 本身会随任务设计和评测函数覆盖而变化;它证明了当前 agent 的能力缺口,但还不是训练方法。因此按 agent evaluation/workflow 的突破性基准收录。