Mamba-3: Improved Sequence Modeling using State Space Principles

理论、鲁棒性与核心机器学习突破级暂无讲解视频

发表时间: 2026-03-16
arXiv: 2603.15569

收录解读

Mamba-3 处理的是当前线性序列模型最核心的矛盾：虽然 sub-quadratic 架构在理论上具备线性时间和常数内存优势，但很多设计为了训练效率过度简化了状态更新，导致模型质量、状态追踪能力以及真实硬件上的推理效率都不够理想。论文因此明确采用 inference-first 视角重新审视 state space model 的设计。

作者围绕三个方向改造 Mamba-2：用更一般的 recurrence 和离散化提升 SSM 的表达力，用 complex-valued state update 增强状态追踪能力，并引入 MIMO SSM 在不增加 decode latency 的前提下提升模型表现和算术强度。配合若干架构细化后，Mamba-3 在 retrieval、state-tracking 和 language modeling 上都优于 Mamba-2 与强线性基线，并在 1.5B 规模上给出更好的 prefill+decode latency。

这篇论文值得正式收录，因为它不是普通 Mamba 系列续作，而是把 state space model 重新拉回到 inference 这一真实部署瓶颈上来，并且给出了从算法到 kernel 设计都相对完整的一体化改进路线。对 AI core 来说，它是线性架构和 SSM 主线里很可能会持续被引用的重要节点。

它当前仍是 breakthrough 而不是更高一级，因为尽管改动扎实、结果明确，但它更像对既有 Mamba 路线的高质量升级与重新定向，而不是彻底开辟全新范式。它能否进一步升格，要看后续社区是否普遍把这些 inference-first 设计吸收到下一代线性或混合架构中。

链接

论文链接