理论、鲁棒性与核心机器学习 突破级 暂无讲解视频
发表时间
2026-05-21
arXiv
2605.21856

收录解读

这篇论文关注 reasoning benchmark 的污染问题,尤其是恶意或间接污染:模型发布方可以通过 paraphrasing benchmark 数据规避传统检测,并人为抬高排行榜表现。

作者提出关键现象:生成的 reasoning steps 会掩盖底层记忆捷径,因此 Zero-CoT Probe 故意截断整个 CoT 过程,以暴露原始题目到答案的 latent shortcut mapping。

ZCP 将原 benchmark 的 zero-CoT 表现与同构扰动 reference dataset 比较,并提出 Contamination Confidence 来量化污染可能性和严重度。

它值得正式收录,因为它给 LLM reasoning evaluation 提供了黑箱污染检测工具,尤其适用于 leaderboard 审计、模型发布可信度和 benchmark 治理。

链接