Causal Interpretation of Neural Network Computations with Contribution Decomposition

可解释性与机制分析突破级有讲解视频

发表时间: 2026-03-06
arXiv: 2603.06557

收录解读

这篇工作把可解释性的分析对象从神经元激活转向神经元对最终输出的因果贡献。作者提出 CODEC，用稀疏自编码器对贡献矩阵做分解，识别可复用的“贡献模式”，并通过消融与保留实验验证这些模式对分类结果具有更强的因果控制力。一个关键发现是深层网络中正向和负向贡献会逐渐去相关，说明网络会把支持证据与反对证据功能分离。它的意义不是多一个可视化技巧，而是为 mechanistic interpretability 提供了更合适的分析单位。

解读视频

B 站 YouTube

链接

论文链接