Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth

理论、鲁棒性与核心机器学习突破级暂无讲解视频

收录解读

这篇论文针对 CoT 审计中的核心假设：已有 faithfulness metrics 是否真的测量了推理链是否反映模型计算过程。

作者构造能从输出反推必要中间计算的任务，并建立自动标注流程，得到 step-level 和 CoT-level ground-truth faithfulness labels。

BonaFide benchmark 包含 13 个任务、10 个模型和 3,066 条标注 CoTs；系统评估显示多数现有指标接近随机、有强预测偏差，并在长 CoT 上退化。

它值得正式收录，因为它提供了 CoT faithfulness 度量的 ground-truth meta-evaluation，直接影响 reasoning model interpretability、安全审计和链式思维监控。