Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories

安全、治理与可靠性突破级暂无讲解视频

收录解读

这篇工作的价值不在于再次证明 agent 会 reward hack，而在于把 terminal / coding agent 的 exploitability 做成了可复用数据集和基准。它把 reward hacking 从零散案例提升成了能系统比较模型、环境、攻击轨迹的评测接口。

Terminal Wrench 覆盖了 331 个可被利用的终端环境，并保留 exploit trajectory 与合法 baseline trajectory 的成对记录。这样后续工作不只是能测“是否被攻破”，还可以研究 exploit pattern、诱因结构和缓解机制。

它值得正式收录，因为 agent safety 里最缺的是执行层、环境层、长轨迹层的可重放 benchmark，而不是更多静态 prompt attack。这个数据集正好补到这一层。

它没有更高，是因为目前它仍主要面向 terminal-agent / coding-agent 场景。尽管外溢性很强，但离通用 agent reward-hacking 标准基准还有一步。