Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction

多模态基础模型突破级暂无讲解视频

发表时间: 2026-04-09
arXiv: 2604.08542

收录解读

这篇论文面向长视频的大规模 3D 重建。现有 feed-forward 3D reconstruction 模型能从 RGB 直接回归几何，但在长序列上受限于上下文窗口和全局记忆，chunk-wise 方案又会丢失跨片段一致性并累积对齐误差。

Scal3R 引入神经全局上下文表示，用一组轻量子网络在测试时通过自监督目标快速适配，将长程场景信息压缩、保留并跨 chunk 共享。它把 test-time training 用作场景级工作记忆更新，而不是简单对每个样本做局部 refinement。

它值得收录，因为它是测试时适应在 3D/视觉几何系统中的高价值用法：用在线适配的全局上下文解决长序列重建的记忆和一致性问题。论文在 ScanNet、ETH3D、7-Scenes、Oxford Spires 等数据上报告领先 pose 和几何精度，并展示公里级场景统一重建，这对机器人感知、SLAM 替代路线和长上下文视觉系统都有可复用启发。

主要限制是方法仍绑定 3D 重建和 VGGT 类 feed-forward 几何模型，测试时适配的稳定性、时间开销和失败模式需要更多实机/闭环验证。它体现了很好的 TTT 系统模式，但不是通用语言模型或 agent 的部署时学习框架。

链接

论文链接