多模态基础模型
突破级
有讲解视频
收录解读
问题与背景:视觉基础模型往往被切成静态图像语义、离线视频建模和几何重建等不同系统,难以形成统一、实时、可行动的 streaming visual backbone。
方法/新意:OmniStream 引入因果时空注意力、3D-RoPE 和 persistent KV-cache,支持连续视频流的逐帧在线处理,并通过多任务预训练同时覆盖静态表征、几何重建、视频理解和动作相关任务。
意义/放在仓库中的位置:这篇论文属于 streaming perception / unified vision backbone / embodied visual foundation model 主线。它不是单 benchmark 冲分,而是在验证单一 backbone 跨语义、空间、时间推理的可行性。
局限/为何不再升一级:它仍然主要是视觉基础骨干论文,虽然方向重要,但还没有重排更大范围视觉路线图。