多模态基础模型
突破级
暂无讲解视频
收录解读
这篇论文面向长视频的大规模 3D 重建。现有 feed-forward 3D reconstruction 模型能从 RGB 直接回归几何,但在长序列上受限于上下文窗口和全局记忆,chunk-wise 方案又会丢失跨片段一致性并累积对齐误差。
Scal3R 引入神经全局上下文表示,用一组轻量子网络在测试时通过自监督目标快速适配,将长程场景信息压缩、保留并跨 chunk 共享。它把 test-time training 用作场景级工作记忆更新,而不是简单对每个样本做局部 refinement。
它值得收录,因为它是测试时适应在 3D/视觉几何系统中的高价值用法:用在线适配的全局上下文解决长序列重建的记忆和一致性问题。论文在 ScanNet、ETH3D、7-Scenes、Oxford Spires 等数据上报告领先 pose 和几何精度,并展示公里级场景统一重建,这对机器人感知、SLAM 替代路线和长上下文视觉系统都有可复用启发。
主要限制是方法仍绑定 3D 重建和 VGGT 类 feed-forward 几何模型,测试时适配的稳定性、时间开销和失败模式需要更多实机/闭环验证。它体现了很好的 TTT 系统模式,但不是通用语言模型或 agent 的部署时学习框架。