理论、鲁棒性与核心机器学习
突破级
暂无讲解视频
收录解读
本文关注一个有明确系统价值的问题:如何把已有 Transformer 权重和训练经验迁移到更高吞吐、线性时间的 Mamba/SSM 架构,而不是从头重训或保留混合 attention block。它把跨架构蒸馏失败归因于直接从 softmax attention 到 Mamba 的结构鸿沟,并用线性化 attention 作为中间桥梁。
核心机制是两阶段 distillation:第一阶段用 kernel adaptation 将 Transformer teacher 蒸馏成 linearized-attention student;第二阶段再把这个中间模型迁移到纯 Mamba mixer。这个中间初始化让 Mamba 不再从错误的表征几何起步,从而显著缓解 naive distillation 的性能坍塌。
收录价值在于它提供了一个可复用的架构迁移 primitive:如果该路线在更大规模成立,开源 Transformer 生态可以被转化为更低延迟、更低 KV 压力的 SSM 推理模型。对长上下文 agent serving、边缘推理和低成本部署都有明显溢出价值。
限制也很清楚:主要证据仍在 1B 级别和 10B tokens 的蒸馏规模,距离直接迁移主流 7B/30B/100B 模型还有距离;同时下游 benchmark 与真实长上下文服务收益仍需更大规模验证。