可解释性与机制分析

Attractor Geometry of Transformer Memory: From Conflict Arbitration to Confident Hallucination

发表：2026-05-07 · 突破级

这篇论文重要的地方是把 transformer memory、冲突仲裁和 confident hallucination 放进同一个几何解释框架。它关注的不是某个 hallucination benchmark，而是模型记忆如何在内部形成吸引子结构。如果这个 framing 成立，它能解释为什么模型在证据冲突...

Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations

发表：2026-05-07 · 突破级

这篇工作的核心贡献是把 activation interpretability 从特征列表和人工解释推进到“向量 -> 文本 -> 向量”的可训练 bottleneck。它不是让模型随口解释自己，而是用重构原激活的目标约束解释文本必须携带真实内部状态信息。方法上，NLA 由 activation verbal...

Physical mechanisms governing generalization and hallucination in deep learning for imaging through scattering media

发表：2026-04-23 · 突破级

这篇论文的价值在于它没有把 hallucination 当成模糊的现象学问题，而是在一个 physics-guided scattering system 里把 generalization 上限和 hallucination 起因同时钉住。通过 transmission matrix 的可控变化，作者把 in...

Competing Biases underlie Overconfidence and Underconfidence in LLMs

发表：2026-04-22 · 突破级

这篇论文试图解释一个在 LLM 可靠性里非常实在但此前表述分散的问题：模型既会过度坚持自己的初始答案，又会对相反意见表现出异常大的波动，表面上看是两种互相冲突的行为。作者把这件事收敛成两个可计算的竞争性偏差：choice-supportive bias 和 hypersensitivity to contrad...

LLM Reasoning as Trajectories: Step-Specific Representation Geometry and Correctness Signals

发表：2026-04-07 · 突破级

虽然思维链推理已经成为 LLM 的核心能力之一，但我们对模型内部究竟如何跨步骤组织和纠偏，仍主要停留在静态表示或单点探针层面。真正缺的不是又一个“某层有什么信号”的观察，而是对整段推理过程作为动态轨迹的描述。这篇工作把多步推理明确刻画成表示空间中的结构化轨迹，发现不同推理步骤会穿过功能有序的子空间，而且正确与...

Do LLMs Know What Is Private Internally? Probing and Steering Contextual Privacy Norms in Large Language Model Representations

发表：2026-03-31 · 突破级

很多 LLM 的 privacy failure 看起来像是模型根本不理解什么信息不该在什么情境里泄露，但这篇论文切换了问题 framing：也许模型内部已经表示了 contextual privacy norms，只是这些表示没有稳定地转化为行为控制。这把问题从“模型不知道”改成了“表示与行为脱节”。论文基...

Weight Tying Biases Token Embeddings Towards the Output Space

发表：2026-03-27 · 突破级

权重绑定长期被当作语言模型里的标准参数节省技巧，但随着模型规模增大，越来越多新模型开始放弃 tying。过去这更多被当作经验工程选择，而不是一个被充分解释的机制问题。这篇工作从结构对齐、tuned lens 和梯度流角度系统分析了权重绑定的代价。作者发现共享嵌入矩阵会明显向输出空间偏移，而根本原因是训练初期输...

How do LLMs Compute Verbal Confidence

发表：2026-03-18 · 突破级

这篇论文研究的是一个很基础但此前机制上并不清楚的问题：当大语言模型说出“我有 90% 把握”这类 verbal confidence 时，它内部到底是何时、如何形成这个判断的。围绕这个问题，作者试图区分两种可能：模型是在最后被问到时即时计算置信度，还是在生成答案过程中已经自动形成并缓存下来。论文综合使用 ac...

Causal Interpretation of Neural Network Computations with Contribution Decomposition

发表：2026-03-06 · 突破级

这篇工作把可解释性的分析对象从神经元激活转向神经元对最终输出的因果贡献。作者提出 CODEC，用稀疏自编码器对贡献矩阵做分解，识别可复用的“贡献模式”，并通过消融与保留实验验证这些模式对分类结果具有更强的因果控制力。一个关键发现是深层网络中正向和负向贡献会逐渐去相关，说明网络会把支持证据与反对证据功能分离。它的...

Observing and Controlling Features in Vision-Language-Action Models

发表：2026-03-05 · 突破级

这篇论文研究 Vision-Language-Action 模型内部特征是否既可观测又可控制。问题很具体：VLA 比普通 LLM 多了视觉输入、动作输出和混合头结构，LLM 里的机制解释结论不能直接搬过来。作者提出 feature-observability 和 feature-controllability...

X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes

发表：2026-03-05 · 突破级

当前大多数 reasoning evaluation 仍把任务正确率当作核心指标，但这类评测往往把 pattern matching、数据污染与真正的结构化推理能力混在一起。结果是模型在标准 benchmark 上看起来接近，却很难解释它们究竟在哪种结构变化下会失效。 X-RAY 的核心贡献，是把 reason...

Cognitive Dark Matter: Measuring What AI Misses

发表：2026-03-03 · 突破级

**问题与背景** 这篇论文针对 `evaluation / cognitive science / ai capability measurement` 方向中的核心问题展开，属于仓库主线内值得正式记录的研究。它关注的不是局部调参，而是该子方向里较基础、较长期的问题，因此即使仍处在论文阶段，也有持续跟踪价值...

MINAR: Mechanistic Interpretability for Neural Algorithmic Reasoning

发表：2026-02-24 · 突破级

**问题与背景** 这篇论文围绕 mechanistic interpretability / neural algorithmic reasoning 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数...

Prompt Injection as Role Confusion

发表：2026-02-22 · 颠覆级

Prompt injection 的已有解释往往停留在接口层：哪些输入来自 system、user、tool 或 external content，以及为什么模型没能遵守这些边界。但大量防御实践已经表明，哪怕接口层角色边界写得很清楚，模型依然会把恶意内容当成高权限指令执行。这篇工作给出一个更底层的解释：rol...

Compressed Sensing for Capability Localization in Large Language Models

发表：2026-02-11 · 突破级

这篇论文研究大语言模型中的高级能力是否局域在少量注意力头上。作者提出基于压缩感知的定位方法，通过对随机头子集做敲除实验并求解稀疏回归，能用远少于贪心搜索的评估次数识别出数学、代码等能力相关的关键头。实验表明敲除少量已识别头就能让目标任务性能大幅下降，而对无关任务影响较小。它的价值在于提供了高效定位功能模块的方法...

Interpreting Transformers Through Attention Head Intervention

发表：2026-01-07 · 突破级

**问题与背景** 这篇论文针对 `mechanistic interpretability / attention heads / transformers` 方向中的核心问题展开，属于仓库主线内值得正式记录的研究。它关注的不是局部调参，而是该子方向里较基础、较长期的问题，因此即使仍处在论文阶段，也有持续跟踪...

Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy

发表：2026-01-06 · 突破级

**问题与背景** 这篇论文针对 `mechanistic interpretability / llm counting / system-2 reasoning` 方向中的核心问题展开，属于仓库主线内值得正式记录的研究。它关注的不是局部调参，而是该子方向里较基础、较长期的问题，因此即使仍处在论文阶段，也有持...

BlockCert: Certified Blockwise Extraction of Transformer Mechanisms

发表：2025-11-20 · 突破级

## 问题与背景问题与背景：mechanistic interpretability 的一个难点，是很多所谓“机制抽取”仍然缺乏可证性和稳定性。尤其 Transformer 的 block-level 机制，很难做到带保证的抽取。 ## 方法/新意方法/新意：BlockCert 主打 certified b...

Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers?

发表：2025-10-28 · 突破级

问题与背景这篇论文问的是一个经典认知科学问题：对象绑定是否会在大规模预训练 ViT 中自然涌现。过去很多工作认为对象级绑定需要显式 object-centric 机制，而纯连接主义的 ViT 可能只能学到局部特征和注意力热区，缺少真正的绑定能力。方法与新意作者提出了一个可操作的表征量 `IsSameObj...

Emergence of Minimal Circuits for Indirect Object Identification in Attention-Only Transformers

发表：2025-10-28 · 突破级

## 问题与背景问题与背景：mechanistic interpretability 经常在大模型上做逆向解释，但由于结构太复杂，很难回答“一个具体能力最小到底需要什么 circuit”。IOI 是这一方向的经典任务。 ## 方法/新意方法/新意：这篇工作从头训练极小 attention-only tran...