LensWalk: Agentic Video Understanding by Planning How You See in Videos

多模态基础模型突破级暂无讲解视频

发表时间: 2026-03-25
arXiv: 2603.24558

收录解读

长视频理解真正困难的地方，不只是 token 太长，而是 perception 和 reasoning 长期脱节：模型通常先被动接收预处理后的视频表示，再在固定输入上推理，无法随着思考过程主动改变观察策略。LensWalk 的目标，就是把视频理解从一次性看完，改成“边推理边决定下一步怎么看”的 agentic perception loop。

论文提出一个 reason-plan-observe 框架，让 LLM reasoner 在每一步主动指定视频的时间范围和采样密度，再调用参数化的视频工具去做粗扫、局部核查或跨时段拼接验证。重点不是训练新模型，而是在不微调的前提下，把控制“如何看视频”这件事显式变成推理过程的一部分，从而实现按需证据收集。

它值得正式收录，因为它把视频理解里的主动感知接口正式化了：不是简单 video QA，不是静态 feature pooling，而是 agent 根据 evolving chain of thought 动态控制观察带宽。对 long-video reasoning、multimodal agents 和 world-aware video analysis 都有直接方法外溢。

它目前仍是 breakthrough，而不是更高一级，因为它更像一种强框架模式和推理接口，而不是已经成为社区标准的新 benchmark 或 foundation model。它证明了方向有效，但长期地位还要看后续模型和评测是否围绕这种 active perception 范式收敛。

链接

论文链接