理论、鲁棒性与核心机器学习 突破级 暂无讲解视频
发表时间
2026-05-24
arXiv
2605.25052

收录解读

这篇论文针对 CoT 审计中的核心假设:已有 faithfulness metrics 是否真的测量了推理链是否反映模型计算过程。

作者构造能从输出反推必要中间计算的任务,并建立自动标注流程,得到 step-level 和 CoT-level ground-truth faithfulness labels。

BonaFide benchmark 包含 13 个任务、10 个模型和 3,066 条标注 CoTs;系统评估显示多数现有指标接近随机、有强预测偏差,并在长 CoT 上退化。

它值得正式收录,因为它提供了 CoT faithfulness 度量的 ground-truth meta-evaluation,直接影响 reasoning model interpretability、安全审计和链式思维监控。

链接