Stochastic Attention: Connectome-Inspired Randomized Routing for Expressive Linear-Time Attention

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00754

收录解读

高效注意力长期面临一个结构瓶颈：滑动窗口和大多数线性时间方案虽然把复杂度压下来了，但代价通常是全局路由能力显著下降，感受野扩展非常慢。很多工作只能在复杂稀疏模式、额外路由器或自定义 kernel 之间做折中。

这篇工作的核心是 Stochastic Attention。它在窗口注意力前先对 token 做随机重排，计算完局部窗口注意力后再恢复原顺序，从而把固定局部窗口变成随机全局窗口。跨层使用独立随机排列后，感受野会以指数速度扩展；再和标准 SWA 做门控组合，就形成了兼顾局部聚集与全局捷径的小世界式注意力结构。

它值得正式收录，因为这不是又一种复杂稀疏 pattern，而是一个极简、可复用、训练和推理都能接的路由原语。对于长上下文、线性时间注意力和 training-free inference acceleration，这种随机化全局路由接口都有明显方法外溢。

它暂时不升到更高一级，原因在于当前从头训练实验的规模仍有限，而且纯 SA 本身会破坏局部语义，仍需要和 SWA 组合使用。它已经是很强的结构推进，但是否会成为默认注意力路线还要看更大规模验证。

链接

论文链接