The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation

理论、鲁棒性与核心机器学习突破级暂无讲解视频

收录解读

这篇论文关注 reasoning benchmark 的污染问题，尤其是恶意或间接污染：模型发布方可以通过 paraphrasing benchmark 数据规避传统检测，并人为抬高排行榜表现。

作者提出关键现象：生成的 reasoning steps 会掩盖底层记忆捷径，因此 Zero-CoT Probe 故意截断整个 CoT 过程，以暴露原始题目到答案的 latent shortcut mapping。

ZCP 将原 benchmark 的 zero-CoT 表现与同构扰动 reference dataset 比较，并提出 Contamination Confidence 来量化污染可能性和严重度。

它值得正式收录，因为它给 LLM reasoning evaluation 提供了黑箱污染检测工具，尤其适用于 leaderboard 审计、模型发布可信度和 benchmark 治理。