理论、鲁棒性与核心机器学习
突破级
暂无讲解视频
收录解读
论文从计算复杂性角度解释了为什么线性 RNN 能像 Transformer 一样并行,而传统非线性 RNN 不能。核心论点是线性 RNN 等价于对数深度的算术电路,因此可以高效并行;非线性 RNN 则能解决本质上更串行的 L 完备甚至 P 完备问题,所以其并行化存在理论障碍。价值不在于某个架构技巧,而在于它给当前一批线性循环架构的并行性和表达力权衡提供了统一解释框架。