Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Fangfu Liu; Diankun Wu; Jiawei Chi; Yimo Cai; Yi-Hsin Hung; Xumin Yu; Hao Li; Han Hu; Yongming Rao; Yueqi Duan

多模态基础模型突破级有讲解视频

发表时间: 2026-03-12
arXiv: 2603.12255

收录解读

这篇论文处理的是流式视觉空间智能的核心问题：面对无界视频流，模型如何持续维护、更新并组织 3D 空间证据，而不是只依赖更长上下文窗口。作者把问题从“长上下文视频理解”推进到“持续空间记忆与结构化更新”，这比普通视频问答或短视频理解更接近真实世界中的在线空间认知。

方法上，Spatial-TTT 把 test-time training 引入空间视频建模，通过一套 hybrid architecture 在滑窗注意力之外更新一组 fast weights，用来持续吸收和组织全局 3D 空间信号。论文还引入 spatial-predictive 机制与 3D 时空卷积，鼓励模型在长时程视频中保持几何对应和时间连续性；同时构建带稠密 3D 空间描述的数据集，为 test-time updates 提供结构化监督。

这项工作值得收录，因为它把 TTT 从一般分布自适应扩展到 streaming spatial intelligence，并明确瞄准在线 3D 世界理解这个更强目标。对多模态空间智能、视频世界建模、在线记忆和测试时自适应都有直接外溢价值。相较普通视觉 benchmark 论文，它更像一个问题重述加方法推进的组合。

它还不到 disruptive，原因是当前证据主要建立在所构建的数据与任务设置上，是否能成为更广泛视频-3D 世界建模的通用路线还需要跨任务验证。现阶段更准确的定位是一篇高质量 breakthrough。

解读视频

视频观看页 B 站 YouTube

链接

论文链接

收录解读

解读视频

相关论文

链接