可解释性与机制分析 突破级 有讲解视频
发表时间
2026-03-18
arXiv
2603.17839

收录解读

这篇论文研究的是一个很基础但此前机制上并不清楚的问题:当大语言模型说出“我有 90% 把握”这类 verbal confidence 时,它内部到底是何时、如何形成这个判断的。围绕这个问题,作者试图区分两种可能:模型是在最后被问到时即时计算置信度,还是在生成答案过程中已经自动形成并缓存下来。

论文综合使用 activation steering、patching、noising、swapping 和 attention blocking 等机制可解释性工具,在 Gemma 3 27B 和 Qwen 2.5 7B 上给出了一致证据,支持 cached retrieval 假说。核心结论是:与置信度相关的表征会在答案生成完成后先出现在答案后的关键位置,再被路由到 verbalization site。更重要的是,这种表征所解释的方差显著超出 token log-probabilities,本质上更接近一种对问答质量的二阶评估,而不是简单的生成流畅度读数。

这篇工作值得正式收录,因为它不是普通 interpretability 可视化,而是对一个广泛使用的模型能力给出了较扎实的因果机制解释。它对 calibration、uncertainty extraction、LLM metacognition 和机制可解释性研究都有明确外溢,属于重要活跃方向上的高价值机制澄清。

它目前适合定为 breakthrough,而不是更高一级。原因是尽管证据很漂亮,但任务主要集中在知识问答和 verbal confidence setting 上,机制是否在更复杂推理、长链条 CoT 和多模态自信度表达中完全成立,还需要更广泛的验证。

解读视频

链接