OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

多模态基础模型突破级有讲解视频

发表时间: 2026-03-12
arXiv: 2603.12265

收录解读

问题与背景：视觉基础模型往往被切成静态图像语义、离线视频建模和几何重建等不同系统，难以形成统一、实时、可行动的 streaming visual backbone。

方法/新意：OmniStream 引入因果时空注意力、3D-RoPE 和 persistent KV-cache，支持连续视频流的逐帧在线处理，并通过多任务预训练同时覆盖静态表征、几何重建、视频理解和动作相关任务。

意义/放在仓库中的位置：这篇论文属于 streaming perception / unified vision backbone / embodied visual foundation model 主线。它不是单 benchmark 冲分，而是在验证单一 backbone 跨语义、空间、时间推理的可行性。

局限/为何不再升一级：它仍然主要是视觉基础骨干论文，虽然方向重要，但还没有重排更大范围视觉路线图。

解读视频

B 站 YouTube

链接

论文链接