理论、鲁棒性与核心机器学习
突破级
暂无讲解视频
收录解读
这篇论文针对 CoT 审计中的核心假设:已有 faithfulness metrics 是否真的测量了推理链是否反映模型计算过程。
作者构造能从输出反推必要中间计算的任务,并建立自动标注流程,得到 step-level 和 CoT-level ground-truth faithfulness labels。
BonaFide benchmark 包含 13 个任务、10 个模型和 3,066 条标注 CoTs;系统评估显示多数现有指标接近随机、有强预测偏差,并在长 CoT 上退化。
它值得正式收录,因为它提供了 CoT faithfulness 度量的 ground-truth meta-evaluation,直接影响 reasoning model interpretability、安全审计和链式思维监控。