Emergence of Minimal Circuits for Indirect Object Identification in Attention-Only Transformers

可解释性与机制分析突破级有讲解视频

收录解读

## 问题与背景问题与背景：mechanistic interpretability 经常在大模型上做逆向解释，但由于结构太复杂，很难回答“一个具体能力最小到底需要什么 circuit”。IOI 是这一方向的经典任务。

## 方法/新意方法/新意：这篇工作从头训练极小 attention-only transformers，在 IOI 任务上找到最小可行电路，并分析注意力头如何分工形成 additive / contrastive subcircuits。价值在于最小机制而不是更大模型。

## 意义/放在仓库中的位置意义/放在仓库中的位置：它适合放在 mech interp 主线，与 CODEC、BlockCert、capability localization 等条目互补。一个偏最小可解释电路，一个偏块级抽取，一个偏能力定位。

## 局限/为何不更高局限/为何不更高：它的解释力很强，但主要作用是提供受控 testbed，而不是直接改变大模型解释工作流，因此归为突破性。