可解释性与机制分析 突破级 暂无讲解视频
发表时间
2026-02-11
arXiv
2603.03335

收录解读

这篇论文研究大语言模型中的高级能力是否局域在少量注意力头上。作者提出基于压缩感知的定位方法,通过对随机头子集做敲除实验并求解稀疏回归,能用远少于贪心搜索的评估次数识别出数学、代码等能力相关的关键头。实验表明敲除少量已识别头就能让目标任务性能大幅下降,而对无关任务影响较小。它的价值在于提供了高效定位功能模块的方法,也强化了“能力在 Transformer 内部具有模块化组织”的证据。

链接