Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows

智能体与自主科学突破级暂无讲解视频

发表时间: 2025-12-15
arXiv: 2512.13168

收录解读

Finch 把金融/会计 agent 评测从静态 QA 推到真实企业工作流：任务来自企业邮件、表格版本历史、PDF、图表和多文件上下文，覆盖数据录入、跨表检索、计算建模、验证、翻译、可视化和报告。

它的关键价值不是金融领域本身，而是 workflow realism。172 个复合工作流、384 个任务、1710 个 spreadsheet、2700 万 cell 和 700+ 小时专家标注，使它成为评估 agent 是否能处理 messy enterprise work 的高质量测试床。

收录价值在于它直接对齐主库新增的 finance / audit / operational workflow 方向，并且用真实工作区揭示当前 frontier agents 的能力缺口。GPT-5.1 Pro 平均每个 workflow 花 16.8 分钟但仅通过 38.4%，说明问题不是简单文档问答，而是长程、跨文件、可验证操作。

主要限制是 benchmark 数据集规模仍只有 172 个 workflow，且金融/会计任务可能受文件格式、工具链和评审标准影响；未来需要更多行业、交互式执行和审计安全维度。

链接

论文链接代码代码