Read the Scene, Not the Script: Outcome-Aware Safety for LLMs

智能体与自主科学突破级暂无讲解视频

发表时间: 2025-10-05
arXiv: 2510.04320

收录解读

很多安全对齐工作把问题看成“识别敏感表面信号并拒答”，但现实里模型的失败往往来自更深一层：它没有真正理解行动与结果之间的关系，因此既可能被语义伪装绕过，也可能对无害请求过度拒绝。

这篇论文把该问题明确命名为 consequence-blindness，并构造 CB-Bench 去区分 semantic risk 与 outcome risk 是否一致的场景，再提出 CS-Chain-4k 作为 consequence-reasoning 对齐数据。它不只是说当前安全做法不够好，而是给出了一套更可操作的 outcome-aware framing。

这种 framing 对仓库很有价值，因为它能外溢到 agent safety、tool use、policy evaluation 和 refusal calibration 等多条线。相比纯 jailbreak 对抗，这篇工作更接近“安全该如何被定义和训练”的问题重述，因此具有更长的参考寿命。

它仍未达到更高等级的原因在于，目前主要证据还是 benchmark 与对齐数据带来的改进，而不是一个已被广泛采纳的新安全蓝图。但作为 breakthrough 收录是合理的。

链接

论文链接