安全、治理与可靠性 突破级 暂无讲解视频
发表时间
2026-04-19
arXiv
2604.17596

收录解读

这篇工作的价值不在于再次证明 agent 会 reward hack,而在于把 terminal / coding agent 的 exploitability 做成了可复用数据集和基准。它把 reward hacking 从零散案例提升成了能系统比较模型、环境、攻击轨迹的评测接口。

Terminal Wrench 覆盖了 331 个可被利用的终端环境,并保留 exploit trajectory 与合法 baseline trajectory 的成对记录。这样后续工作不只是能测“是否被攻破”,还可以研究 exploit pattern、诱因结构和缓解机制。

它值得正式收录,因为 agent safety 里最缺的是执行层、环境层、长轨迹层的可重放 benchmark,而不是更多静态 prompt attack。这个数据集正好补到这一层。

它没有更高,是因为目前它仍主要面向 terminal-agent / coding-agent 场景。尽管外溢性很强,但离通用 agent reward-hacking 标准基准还有一步。

链接