Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations

可解释性与机制分析突破级暂无讲解视频

发表时间: 2026-05-07

收录解读

这篇工作的核心贡献是把 activation interpretability 从特征列表和人工解释推进到“向量 -> 文本 -> 向量”的可训练 bottleneck。它不是让模型随口解释自己，而是用重构原激活的目标约束解释文本必须携带真实内部状态信息。

方法上，NLA 由 activation verbalizer 和 activation reconstructor 两个模块组成，联合训练以重构 residual stream activation。这个结构让自然语言解释第一次更像一个可优化的接口，而不是纯事后标注。

它值得正式收录，因为它把 interpretability、auditing、evaluation awareness 和 hidden motivation detection 接到同一个可操作机制上。Anthropic 还释放了代码、open-model checkpoints 和 Neuronpedia 前端，工程复用价值也比较明确。

它没有更高，是因为 NLA 解释仍可能 hallucinate，且训练和推理成本高；当前更像一个强的新解释接口，而不是已经被证明可靠的通用读心仪。

链接

论文链接项目项目代码