智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-02
arXiv
2604.02022

收录解读

随着 LLM agents 进入真实工具环境,风险越来越多地在长轨迹中逐步显现,而不是在单轮 prompt 或最终回复上直接暴露。现有 agent safety benchmark 往往要么交互太短,要么故障类型和工具环境过于简化,因此很难支撑真正的 long-horizon safety diagnosis。

ATBench 的核心贡献是把 trajectory-level agent safety 做成更接近真实部署的 benchmark。它用 risk source、failure mode、real-world harm 三个维度组织 taxonomy,构造带 delayed trigger 的长上下文轨迹,并引入异构 tool pools 与全人工审计。最终数据集包含 1000 条轨迹、近两千次 tool invocation 和明显更强的长程风险暴露结构。

它值得正式收录,因为这不是又一个普通安全数据集,而是为 long-horizon agents 提供了更 durable 的 evaluation target。对我们关心的 secure computer-use、governed execution、trajectory diagnosis、agent safety guardrails 等方向来说,它提供了更像现实世界的统一测试面,也更利于后续工作做分层风险分析而不是只报单一安全分数。

它没有升到更高一级,是因为当前贡献仍主要停留在 benchmark、taxonomy 和评测层,而不是提出新的 agent safety training 或 execution architecture。它很可能会成为这条子线的重要参考,但是否足以重塑整个 agent safety 默认标准,还需要生态采用来验证。

链接