Compressed Sensing for Capability Localization in Large Language Models

可解释性与机制分析突破级暂无讲解视频

发表时间: 2026-02-11
arXiv: 2603.03335

收录解读

这篇论文研究大语言模型中的高级能力是否局域在少量注意力头上。作者提出基于压缩感知的定位方法，通过对随机头子集做敲除实验并求解稀疏回归，能用远少于贪心搜索的评估次数识别出数学、代码等能力相关的关键头。实验表明敲除少量已识别头就能让目标任务性能大幅下降，而对无关任务影响较小。它的价值在于提供了高效定位功能模块的方法，也强化了“能力在 Transformer 内部具有模块化组织”的证据。

链接

论文链接