Attention to Mamba: A Recipe for Cross-Architecture Distillation

理论、鲁棒性与核心机器学习突破级暂无讲解视频

发表时间: 2026-04-17
arXiv: 2604.14191

收录解读

本文关注一个有明确系统价值的问题：如何把已有 Transformer 权重和训练经验迁移到更高吞吐、线性时间的 Mamba/SSM 架构，而不是从头重训或保留混合 attention block。它把跨架构蒸馏失败归因于直接从 softmax attention 到 Mamba 的结构鸿沟，并用线性化 attention 作为中间桥梁。

核心机制是两阶段 distillation：第一阶段用 kernel adaptation 将 Transformer teacher 蒸馏成 linearized-attention student；第二阶段再把这个中间模型迁移到纯 Mamba mixer。这个中间初始化让 Mamba 不再从错误的表征几何起步，从而显著缓解 naive distillation 的性能坍塌。

收录价值在于它提供了一个可复用的架构迁移 primitive：如果该路线在更大规模成立，开源 Transformer 生态可以被转化为更低延迟、更低 KV 压力的 SSM 推理模型。对长上下文 agent serving、边缘推理和低成本部署都有明显溢出价值。

限制也很清楚：主要证据仍在 1B 级别和 10B tokens 的蒸馏规模，距离直接迁移主流 7B/30B/100B 模型还有距离；同时下游 benchmark 与真实长上下文服务收益仍需更大规模验证。

链接

论文链接