Agents' Last Exam

Yiyou Sun; Xinyang Han; Weichen Zhang; Yuanbo Pang; Tianyu Wang; Yuhan Cao; Yixiao Huang; Chris Duroiu; Haoyun Zhang; Jeffrey Lin; Weishu Zhang; Tyler Zeng; Ying Yan; Bo Liu; Hanson Wen; Mingyang Xu; Xiaoyuan Liu; Zimeng Chen; Weiyan Shi; Amanda Dsouza; Vincent Sunn Chen; Patrick Bryant; Carl Boettiger; Yamini Rangan; Bradley Rothenberg; Kyle Steinfeld; Arvind Rao; Tapio Schneider; Georgios Yannakakis; Laure Zanna; Kaan Ozbay; Ida Sim; Tarek Zohdi; George Em Karniadakis; Jack Gallant; Teresa Head-Gordon; Yushan Li; Wenxi Deng; Tao Sun; Huiqi Wang; Zhun Wang; Justin Xu; Chris Yuhao Liu; Yafei Cheng; Rongwang Hu; Aras Bacho; Shengcao Cao; Zengyi Qin; Yixiong Chen; Hengduan Fan; Hao Liu; Lin Zeng; Shashank Muralidhar Bharadwaj; Litian Gong; Yingxuan Yang; Maojia Song; Ruheng Wang; Zongzheng Zhang; Honglin Bao; Shuo Lu; Jianhong Tu; Zhonghua Wang; Zheng Zhang; Zijiao Chen; Yanqiong Jiang; Zhendong Li; Bohan Lyu; Chang Ma; Peiran Xu; Benran Zhang; Shangding Gu; Haoyue Hua; Haoyang Li; Wanzhe Liao; Chengzhi Liu; Junbo Peng; Haoran Sun; Zechen Xu; Bo Chen; Jiayi Cheng; Yi Jiang; Keying Kuang; Yuan Li; Youbang Pan; Ziyan Rao; Alexander Schubert; Yifan Shen; Vincent Siu; Xiatao Sun; Kangqi Zhang; Xiaopan Zhang; Yuchen Zhu; Ishaan Singh Chandok; Lei Ding; Jingxuan Fan; Andrew Glover; Jiaming Hu; Yiran Hu; Wenbo Huang; Zixin Jiang; Haoran Jin; Lukas Kim; Ming Liu; Yang Liu; Alireza Rafiei; Xuhuan Shen; Kunyang Sun; Sophia Sun; Ting Sun; Eric Wang; Yixin Wang; Hanwen Xing; Sihan Xu; Yuzheng Xu; Zhongxing Xu; Zhiling Yan; Boqin Yuan; Ruiqi Zhang; Yifan Zhang; Zibo Zhao; Liana; Santanu Bosu Antu; Haoyue Bai; Carlo Bosio; Joseph Cavanagh; Patricia Cavazos-Rehg; Tianxing Chen; Xuewen Chen; Yipu Chen; Chenyu Zhu; Chen Dai; Stefano De Castro; Yunfu Deng; Kaustubh Dhole; Jiayuan Ding; Chenchen Du; Zhehang Du; Hao Fan; Run-Ze Fan; Hengyu Fu; Shi Gu; Yifan Gu; Charlie Guo; Baihe Huang; Baixiang Huang; Rimika Jaiswal; Zhihan Jiang; Ran Jin; Erin Kasson; Xin Lan; Joseph Lee; Deren Lei; Chenyu Li; Daofeng Li; Haitao Li; Hongwei Li; Jingyan Li; Xiao Li; Yi Li; Yinsheng Li; Yuangang Li; Zhixu Li; Wenyu Liang; Longtai Liao; Kevin Qinghong Lin; Andy Zeyi Liu; Che Liu; Jiaming Liu; Kaiyuan Liu; Xuan Liu; Pan Lu; Wenbo Lv; Yicheng Lyu; Qiuyang Mang; Kyle Montgomery; Yuzhou Nie; Ruoxi Ning; Jorin Overwiening; Xu Pan; Layna Paraboschi; Core Francisco Park; Justin Purnomo; Swati Rajwal; Scott Rankin; Bixuan Ren; Yiren Rong; HaoYang Shang; Ventus Shaw; Fiona Shen; Jiawei Shen; Minqi Shi; Shi Qiu; Huaxiu Yao; Tianneng Shi; Jonah So; Vladislav Susoy; Hannah Szlyk; Haocheng Wang; Jialu Wang; Wei Wang; Xinyu Wang; Zehao Wang; Dowling Wong; Angela Wu; Dehao Wu; Fangyu Wu; Mengyuan "Millie" Wu; Yu Wu; Yuchen Wu; Yuhao Wu; Qingpo Wuwu; Weihang Xiao; Yongyi Xiong; Fan Xu; Ruiling Xu; Mingxuan Yan; Benjamin Yang; Jirong Yang; Sen Yang; Xiaoli Yang; Yushi Yang; Haoran Ye; Xiaohu Yu; Zhengming Yu; Chenlong Zhang; Chi Zhang; Hanning Zhang; Hanwen Zhang; Junge Zhang; Kunpeng Zhang; Song Zhang; Wenjin Zhang; Wenshuo Zhang; Ying Zhang; Yizhi Zhang; Brian Zhao; Qijian Zhao; Yimin Zhao; Yuhaohua Zheng; Liwei Zhou; Tianyue Zhou; Sichen Zhu; Siqi Zhu; Yan Zhu; Yishu Zhu; Jierui Zuo; Chonghao Cai; Helena Casademunt; Wenjia Chen; Cheng Cheng; Nawen Deng; Rao Fu; Tianfu Fu; Yifan Han; He Ren; Zhenyu He; Qiao Jin; Langlang Li; Yuetai Li; Sylvia Liu; Lu Lu; Luqing Zhou; Subhabrata Mukherjee; Yunqi Ouyang; Yin Ren; Dawei Shi; Haoran Wu; Zhiyue Wu; Hannah Yao; Zhuoran Yi; Jenny Yu; Rhea Zhan; Hang Zhou; Blake Zhu; Junfan Zhu; Alan Yuille; Yang Liu; Russell Alan Poldrack; Jiachen Li; Zhenglu Li; Molei Tao; Jing Huang; Wenqi Shi; Costas Spanos; Lichao Sun; Chenguang Wang; Orson Xu; Zhen Dong; Hector Gomez; Aylin Caliskan; Ali Emami; Haimin Hu; Zhi Li; Lihui Liu; Murphy Niu; Yi Shao; Jianxin Sun; Mikko Tolonen; Ting Wang; Sanjiv Das; Yanjun Gao; Wenbo Guo; Erika J Schneider; Zhiyong Lu; Yian Ma; Mark Mueller; Radha Poovendran; Somayeh Sojoudi; Yinglun Zhu; Dawn Song

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-06-02
arXiv: 2606.05405

核心要点

问题/背景: Agents' Last Exam 面向 real-world economic utility，评估 agent 是否能完成长程、可验证、具有经济价值的实际工作任务。
方法/机制: 它基于 O*NET/SOC 职业分类构建任务 taxonomy，并由大量行业专家参与设计，覆盖多个行业簇和上千任务。
结果/证据: 评价重点是 verifiable outcomes，而不是模型自评或偏好式人类打分，因此更接近真实工作自动化边界。
收录价值: 它值得收录，因为它为‘agent 是否真的 job-ready’提供了可扩展评估接口，是通用 agent 能力、成本和可靠性讨论的重要基准。

完整收录解读

Agents' Last Exam 面向 real-world economic utility，评估 agent 是否能完成长程、可验证、具有经济价值的实际工作任务。

它基于 O*NET/SOC 职业分类构建任务 taxonomy，并由大量行业专家参与设计，覆盖多个行业簇和上千任务。

评价重点是 verifiable outcomes，而不是模型自评或偏好式人类打分，因此更接近真实工作自动化边界。

它值得收录，因为它为‘agent 是否真的 job-ready’提供了可扩展评估接口，是通用 agent 能力、成本和可靠性讨论的重要基准。

原始摘要与中文对照

中文对照翻译

最近的AI系统在广泛的基准测试中取得了显著成果，然而这些进展尚未转化为许多专业领域中具有经济意义的实际部署。我们认为这一差距主要是一个评估问题：广泛使用的基准测试缺乏对真实且具有经济价值的工作流程的持续性能测量。本文介绍了Agents’ Last Exam (ALE)，这是一个旨在评估AI智能体在具有可验证结果的长期、有经济价值的真实世界任务上的基准测试。ALE与250多位行业专家合作开发，涵盖了参照O*NET / SOC 2018（美国联邦职业分类法）定义的非实体行业。它围绕一个任务分类法组织，包含55个子领域，分为13个行业集群，覆盖1000多个任务。当前结果显示，最困难的层级远未饱和：在主流的测试框架和骨干模型配置中，平均完全通过率低于1%。ALE被设计为一个活的基准测试：随着新的工作流程和行业的加入，其任务池持续增长。更广泛地说，ALE不仅旨在成为另一个排行榜，更是一个弥合基准测试成功与GDP相关影响之间差距的工具。硬件验证

原始摘要

Recent AI systems have achieved strong results on a wide range of benchmarks, yet these gains have not translated into economically meaningful deployment across many professional domains. We argue that this gap is largely an evaluation problem: widely used benchmarks lack sustained performance measurement on real and economically valuable workflows. This paper introduces Agents’ Last Exam (ALE), a benchmark designed to evaluate AI agents on long horizon, economically valuable, real world tasks with verifiable outcomes. Developed in collaboration with 250+ industry experts, ALE covers non-physical industries defined with reference to O*NET / SOC 2018 (the U.S. federal occupational taxonomy). It is organized around a task taxonomy with 55 sub fields grouped into 13 industry clusters covering 1K+ tasks. Current results show that the hardest tier remains far from saturated: across mainstream harness and backbone configurations, the average full pass rate is below 1%. ALE is designed as a living benchmark: its task pool grows continuously as new workflows and industries are onboarded. More broadly, ALE is intended not merely as another leaderboard, but as an instrument for closing the gap between benchmark success and GDP relevant impact. Hardware Verification

链接

论文链接论文链接项目项目代码代码代码

核心要点

原始摘要与中文对照

中文对照翻译

原始摘要

相关论文

链接