理论、鲁棒性与核心机器学习 突破级 有讲解视频
发表时间
2026-03-15
arXiv
2603.14360

收录解读

这篇论文针对一个被默认接受了很多年的判断提出了反驳:非线性 RNN 在语言建模里落后,并不一定是因为非线性本身不适合大规模建模,而更可能是因为传统 RNN 的状态容量太小。作者把问题从“是否使用非线性”转向“是否给非线性递归足够大的矩阵值状态空间”,重新打开了非线性 RNN 作为语言模型主干的一条路线。

论文提出 M²RNN,把隐藏状态从向量扩展为矩阵,并把外积式状态扩展机制引入非线性 RNN。这样既保留了非线性状态转移的表达能力,又让状态容量和 Tensor Core 利用率都显著提升。论文还给出混合架构实验,显示即使只在 hybrid recurrent/attention 模型里替换极少数层,也能获得接近全量 M²RNN 的长上下文与状态追踪收益。

它值得收录,因为这不是单纯的架构变体堆分,而是对高效语言建模里一个核心设计选择做了重新归因:问题可能不在非线性,而在状态表示规模。再加上它把复杂性理论、状态追踪泛化、硬件对齐和 7B 级 hybrid 语言建模实验放在一起,外溢价值明显。对后续线性 RNN、SSM、hybrid LM 主干设计,这都是强信号。

它没有升到更高一级,原因在于当前仍主要证明了一条很强的新路线,而不是已经取代 Transformer/linear-recurrent 主线成为默认答案。它的实证规模已不错,但距离“全行业默认主干”的证据还不够,因此更适合作为高位 breakthrough 收录。

解读视频

链接