M²RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling

理论、鲁棒性与核心机器学习突破级有讲解视频

发表时间: 2026-03-15
arXiv: 2603.14360

收录解读

这篇论文针对一个被默认接受了很多年的判断提出了反驳：非线性 RNN 在语言建模里落后，并不一定是因为非线性本身不适合大规模建模，而更可能是因为传统 RNN 的状态容量太小。作者把问题从“是否使用非线性”转向“是否给非线性递归足够大的矩阵值状态空间”，重新打开了非线性 RNN 作为语言模型主干的一条路线。

论文提出 M²RNN，把隐藏状态从向量扩展为矩阵，并把外积式状态扩展机制引入非线性 RNN。这样既保留了非线性状态转移的表达能力，又让状态容量和 Tensor Core 利用率都显著提升。论文还给出混合架构实验，显示即使只在 hybrid recurrent/attention 模型里替换极少数层，也能获得接近全量 M²RNN 的长上下文与状态追踪收益。

它值得收录，因为这不是单纯的架构变体堆分，而是对高效语言建模里一个核心设计选择做了重新归因：问题可能不在非线性，而在状态表示规模。再加上它把复杂性理论、状态追踪泛化、硬件对齐和 7B 级 hybrid 语言建模实验放在一起，外溢价值明显。对后续线性 RNN、SSM、hybrid LM 主干设计，这都是强信号。

它没有升到更高一级，原因在于当前仍主要证明了一条很强的新路线，而不是已经取代 Transformer/linear-recurrent 主线成为默认答案。它的实证规模已不错，但距离“全行业默认主干”的证据还不够，因此更适合作为高位 breakthrough 收录。

解读视频

B 站 YouTube

链接

论文链接