推理、记忆与推理时控制
突破级
暂无讲解视频
收录解读
高效注意力长期面临一个结构瓶颈:滑动窗口和大多数线性时间方案虽然把复杂度压下来了,但代价通常是全局路由能力显著下降,感受野扩展非常慢。很多工作只能在复杂稀疏模式、额外路由器或自定义 kernel 之间做折中。
这篇工作的核心是 Stochastic Attention。它在窗口注意力前先对 token 做随机重排,计算完局部窗口注意力后再恢复原顺序,从而把固定局部窗口变成随机全局窗口。跨层使用独立随机排列后,感受野会以指数速度扩展;再和标准 SWA 做门控组合,就形成了兼顾局部聚集与全局捷径的小世界式注意力结构。
它值得正式收录,因为这不是又一种复杂稀疏 pattern,而是一个极简、可复用、训练和推理都能接的路由原语。对于长上下文、线性时间注意力和 training-free inference acceleration,这种随机化全局路由接口都有明显方法外溢。
它暂时不升到更高一级,原因在于当前从头训练实验的规模仍有限,而且纯 SA 本身会破坏局部语义,仍需要和 SWA 组合使用。它已经是很强的结构推进,但是否会成为默认注意力路线还要看更大规模验证。