ATBench: A Diverse and Realistic Trajectory Benchmark for Long-Horizon Agent Safety

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-02
arXiv: 2604.02022

收录解读

随着 LLM agents 进入真实工具环境，风险越来越多地在长轨迹中逐步显现，而不是在单轮 prompt 或最终回复上直接暴露。现有 agent safety benchmark 往往要么交互太短，要么故障类型和工具环境过于简化，因此很难支撑真正的 long-horizon safety diagnosis。

ATBench 的核心贡献是把 trajectory-level agent safety 做成更接近真实部署的 benchmark。它用 risk source、failure mode、real-world harm 三个维度组织 taxonomy，构造带 delayed trigger 的长上下文轨迹，并引入异构 tool pools 与全人工审计。最终数据集包含 1000 条轨迹、近两千次 tool invocation 和明显更强的长程风险暴露结构。

它值得正式收录，因为这不是又一个普通安全数据集，而是为 long-horizon agents 提供了更 durable 的 evaluation target。对我们关心的 secure computer-use、governed execution、trajectory diagnosis、agent safety guardrails 等方向来说，它提供了更像现实世界的统一测试面，也更利于后续工作做分层风险分析而不是只报单一安全分数。

它没有升到更高一级，是因为当前贡献仍主要停留在 benchmark、taxonomy 和评测层，而不是提出新的 agent safety training 或 execution architecture。它很可能会成为这条子线的重要参考，但是否足以重塑整个 agent safety 默认标准，还需要生态采用来验证。

链接

论文链接