CocoaBench: Evaluating Unified Digital Agents in the Wild

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-13
arXiv: 2604.11201

收录解读

当前 agent 评测通常把软件工程、研究检索、GUI/视觉自动化分开测试，但真实数字代理经常需要把这些能力组合起来。单项 benchmark 分数高，并不意味着模型能在一个长视距任务中灵活切换搜索、视觉理解、代码执行和文件处理。

CocoaBench 针对这个缺口构建了 unified digital agents benchmark：任务由人设计、长视距、只给自然语言指令和最终输出的自动评估函数，要求 agent 组合 vision、search、coding 等能力。论文还提供 CocoaAgent 作为轻量 scaffold，用于隔离模型 backbone 差异。

它值得收录，因为它把数字代理评估从单能力测试推进到组合能力测试，并保持自动化可扩展评估。对未来统一 agent scaffold、agent benchmark 和多能力系统评估，它提供了更贴近真实应用的任务定义。

局限在于 benchmark 本身会随任务设计和评测函数覆盖而变化；它证明了当前 agent 的能力缺口，但还不是训练方法。因此按 agent evaluation/workflow 的突破性基准收录。

链接

论文链接