安全、治理与可靠性
突破级
暂无讲解视频
收录解读
这篇工作的价值不在于再次证明 agent 会 reward hack,而在于把 terminal / coding agent 的 exploitability 做成了可复用数据集和基准。它把 reward hacking 从零散案例提升成了能系统比较模型、环境、攻击轨迹的评测接口。
Terminal Wrench 覆盖了 331 个可被利用的终端环境,并保留 exploit trajectory 与合法 baseline trajectory 的成对记录。这样后续工作不只是能测“是否被攻破”,还可以研究 exploit pattern、诱因结构和缓解机制。
它值得正式收录,因为 agent safety 里最缺的是执行层、环境层、长轨迹层的可重放 benchmark,而不是更多静态 prompt attack。这个数据集正好补到这一层。
它没有更高,是因为目前它仍主要面向 terminal-agent / coding-agent 场景。尽管外溢性很强,但离通用 agent reward-hacking 标准基准还有一步。