Reasoning Models Struggle to Control their Chains of Thought

推理、记忆与推理时控制突破级有讲解视频

发表时间: 2026-03-05
arXiv: 2603.05706

收录解读

评估推理模型能否有意识地操控自己的思维链以规避监控。论文构建 CoT-Control 基准，要求模型在解题同时遵守对推理过程的限制，例如禁用特定词或改变书写风格。核心发现是当前模型对 CoT 的可控性远低于对最终输出的可控性，并且随着 RL 训练、测试时计算和题目难度上升，可控性反而下降。这意味着基于 CoT 的监控在现阶段可能比担心的更可靠。价值在于它把“思维链是否可被战略性伪装”变成了可量化安全指标。

解读视频

B 站 YouTube

链接

论文链接