理论、鲁棒性与核心机器学习 突破级 暂无讲解视频
发表时间
2026-03-16
arXiv
2603.15569

收录解读

Mamba-3 处理的是当前线性序列模型最核心的矛盾:虽然 sub-quadratic 架构在理论上具备线性时间和常数内存优势,但很多设计为了训练效率过度简化了状态更新,导致模型质量、状态追踪能力以及真实硬件上的推理效率都不够理想。论文因此明确采用 inference-first 视角重新审视 state space model 的设计。

作者围绕三个方向改造 Mamba-2:用更一般的 recurrence 和离散化提升 SSM 的表达力,用 complex-valued state update 增强状态追踪能力,并引入 MIMO SSM 在不增加 decode latency 的前提下提升模型表现和算术强度。配合若干架构细化后,Mamba-3 在 retrieval、state-tracking 和 language modeling 上都优于 Mamba-2 与强线性基线,并在 1.5B 规模上给出更好的 prefill+decode latency。

这篇论文值得正式收录,因为它不是普通 Mamba 系列续作,而是把 state space model 重新拉回到 inference 这一真实部署瓶颈上来,并且给出了从算法到 kernel 设计都相对完整的一体化改进路线。对 AI core 来说,它是线性架构和 SSM 主线里很可能会持续被引用的重要节点。

它当前仍是 breakthrough 而不是更高一级,因为尽管改动扎实、结果明确,但它更像对既有 Mamba 路线的高质量升级与重新定向,而不是彻底开辟全新范式。它能否进一步升格,要看后续社区是否普遍把这些 inference-first 设计吸收到下一代线性或混合架构中。

链接