理论、鲁棒性与核心机器学习
突破级
暂无讲解视频
收录解读
这篇论文关注 reasoning benchmark 的污染问题,尤其是恶意或间接污染:模型发布方可以通过 paraphrasing benchmark 数据规避传统检测,并人为抬高排行榜表现。
作者提出关键现象:生成的 reasoning steps 会掩盖底层记忆捷径,因此 Zero-CoT Probe 故意截断整个 CoT 过程,以暴露原始题目到答案的 latent shortcut mapping。
ZCP 将原 benchmark 的 zero-CoT 表现与同构扰动 reference dataset 比较,并提出 Contamination Confidence 来量化污染可能性和严重度。
它值得正式收录,因为它给 LLM reasoning evaluation 提供了黑箱污染检测工具,尤其适用于 leaderboard 审计、模型发布可信度和 benchmark 治理。