安全、治理与可靠性 突破级 暂无讲解视频
发表时间
2026-05-14
arXiv
2605.14271

收录解读

HarnessAudit 指出一个常被忽略的安全问题:agent 最终输出正确并不代表执行轨迹安全,工具访问、资源分配和 agent 间信息流可能已经违规。

框架审计完整执行轨迹,覆盖 boundary compliance、execution fidelity 和 system stability,并构建 8 个真实领域、210 个任务的 HarnessAudit-Bench。

它值得正式收录,因为 agent safety 需要从输出安全转向 harness-level 轨迹审计,尤其多 agent 系统的权限边界和信息流风险会随轨迹长度累积。

它没有更高,是因为当前还是 benchmark/audit 框架,和主流 agent runtime 的自动修复、权限系统集成还需要继续推进。

链接