可解释性与机制分析
突破级
有讲解视频
收录解读
## 问题与背景 问题与背景:mechanistic interpretability 经常在大模型上做逆向解释,但由于结构太复杂,很难回答“一个具体能力最小到底需要什么 circuit”。IOI 是这一方向的经典任务。
## 方法/新意 方法/新意:这篇工作从头训练极小 attention-only transformers,在 IOI 任务上找到最小可行电路,并分析注意力头如何分工形成 additive / contrastive subcircuits。价值在于最小机制而不是更大模型。
## 意义/放在仓库中的位置 意义/放在仓库中的位置:它适合放在 mech interp 主线,与 CODEC、BlockCert、capability localization 等条目互补。一个偏最小可解释电路,一个偏块级抽取,一个偏能力定位。
## 局限/为何不更高 局限/为何不更高:它的解释力很强,但主要作用是提供受控 testbed,而不是直接改变大模型解释工作流,因此归为突破性。