智能体与自主科学 突破级 暂无讲解视频
发表时间
2025-12-15
arXiv
2512.13168

收录解读

Finch 把金融/会计 agent 评测从静态 QA 推到真实企业工作流:任务来自企业邮件、表格版本历史、PDF、图表和多文件上下文,覆盖数据录入、跨表检索、计算建模、验证、翻译、可视化和报告。

它的关键价值不是金融领域本身,而是 workflow realism。172 个复合工作流、384 个任务、1710 个 spreadsheet、2700 万 cell 和 700+ 小时专家标注,使它成为评估 agent 是否能处理 messy enterprise work 的高质量测试床。

收录价值在于它直接对齐主库新增的 finance / audit / operational workflow 方向,并且用真实工作区揭示当前 frontier agents 的能力缺口。GPT-5.1 Pro 平均每个 workflow 花 16.8 分钟但仅通过 38.4%,说明问题不是简单文档问答,而是长程、跨文件、可验证操作。

主要限制是 benchmark 数据集规模仍只有 172 个 workflow,且金融/会计任务可能受文件格式、工具链和评审标准影响;未来需要更多行业、交互式执行和审计安全维度。

链接