推理、记忆与推理时控制
突破级
有讲解视频
收录解读
评估推理模型能否有意识地操控自己的思维链以规避监控。论文构建 CoT-Control 基准,要求模型在解题同时遵守对推理过程的限制,例如禁用特定词或改变书写风格。核心发现是当前模型对 CoT 的可控性远低于对最终输出的可控性,并且随着 RL 训练、测试时计算和题目难度上升,可控性反而下降。这意味着基于 CoT 的监控在现阶段可能比担心的更可靠。价值在于它把“思维链是否可被战略性伪装”变成了可量化安全指标。