可解释性与机制分析 突破级 有讲解视频
发表时间
2026-03-06
arXiv
2603.06557

收录解读

这篇工作把可解释性的分析对象从神经元激活转向神经元对最终输出的因果贡献。作者提出 CODEC,用稀疏自编码器对贡献矩阵做分解,识别可复用的“贡献模式”,并通过消融与保留实验验证这些模式对分类结果具有更强的因果控制力。一个关键发现是深层网络中正向和负向贡献会逐渐去相关,说明网络会把支持证据与反对证据功能分离。它的意义不是多一个可视化技巧,而是为 mechanistic interpretability 提供了更合适的分析单位。

解读视频

链接