多模态基础模型

Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

发表：2026-05-28 · 突破级

这篇论文针对 VLM 的 3D spatial reasoning 薄弱点：只靠 3D VQA 微调容易学到数据集偏差，引入专用 3D encoder 又不够灵活。 GASP 的核心是把几何先验直接注入 LLM transformer layers，用小型 correspondence head 做深层监督，并...

EarlyTom: Early Token Compression Completes Fast Video Understanding

发表：2026-05-28 · 突破级

视频大模型的 token 压缩通常发生在视觉编码之后或 prefill 后期，但视觉 encoder 本身已经消耗大量 TTFT。 EarlyTom 的关键观察是压缩应更早进入 vision encoder 内部，并结合 decoupled spatial token selection，在不训练的情况下减少视...

LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

发表：2026-05-26 · 突破级

许多 VLM grounding/detection 方法把 2D box 序列化成多个坐标 token，既破坏 box 几何耦合，也带来严格串行解码瓶颈。 LocateAnything 提出 Parallel Box Decoding，把 bounding boxes 和 points 作为 atomic g...

SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

发表：2026-05-26 · 突破级

空间基础模型正在快速扩张，但现有评测往往只覆盖单一任务、单一数据域或任意采样设置，难以判断真正的跨场景泛化。 SpatialBench 用 deterministic sampling 组织 19 个数据集、546 个场景、5 个空间域、6 类模型范式和 5 个任务套件，系统评估输入密度、视角、领域和硬件约束变...

VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis

发表：2026-05-21 · 突破级

VGenST-Bench 针对多模态模型的 spatio-temporal reasoning 评测缺口：静态图像或被动收集视频难以精确控制场景变量，也难以拆分低层感知和高层时空推理。论文用 generative models 主动合成受控、多样的视频评测场景，并通过 multi-agent pipeline...

Vision Harnessing Agent for Open Ad-hoc Segmentation

发表：2026-05-20 · 突破级

VASA 面向开放 ad-hoc segmentation：目标概念可能需要由部分、关系、排除条件和集合组合出来，而不是一个已学过的文本 grounding。系统把 VLM agent、segmentation foundation model、persistent working mask 和视觉操作 wo...

ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning

发表：2026-05-19 · 突破级

ParaVT 处理长视频理解中的 agentic tool-use 问题：现有 RL 方法通常顺序调用视频裁剪等工具，单次错误会传播，多轮上下文被污染，推理成本随工具轮数线性增长。论文提出 parallel video tool calling，一轮并行分发多个时间窗裁剪，让多 agent 工具结果互相补偿...

CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models

发表：2026-05-13 · 突破级

这篇论文的关键点是把视频理解和视频生成放进同一个 collaborative reasoning loop。它不是单独做 VLM QA，也不是单独生成视频，而是让两类模型互相补足。这种结构对多模态推理有价值：VLM 可以提出解释和检查点，video generation model 可以模拟或补全可能的时序过...

SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

发表：2026-05-12 · 突破级

SenseNova-U1 针对多模态模型的 understanding/generation 分裂，提出 NEO-unify 架构，把理解和生成作为同一底层过程的协同视图。它不只是视觉问答或图像生成模型，而是试图把文本、视觉理解、图像生成、agentic decision-making、空间智能以及初步 VL...

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

发表：2026-05-12 · 突破级

这篇论文处理的是多模态生成训练中的 reward specification 问题。隐式偏好难以审计、难以复用，也容易把模型推向不可解释的 reward hacking。 Auto-Rubric 的关键点是把偏好转成显式 rubric，并把 rubric 作为 reward。这个接口有利于把多模态生成评价从黑箱...

WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors

发表：2026-05-12 · 突破级

这篇论文的价值在于把视频生成评测从视觉质量推进到“未来世界状态预测”。如果视频模型要成为 world model，只看清晰度和偏好分数不够，必须评估它是否能预测符合人类直觉和物理约束的后续状态。 WorldReasonBench 提供的是一个评测接口，而不是又一个生成模型。它把视频生成和 embodied /...

PhyGround: Benchmarking Physical Reasoning in Generative World Models

发表：2026-05-11 · 突破级

PhyGround: Benchmarking Physical Reasoning in Generative World Models 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。 Benchmark and judge model for physical law violation...

SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning

发表：2026-05-10 · 突破级

SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。 Fine-grained...

Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM

发表：2026-05-08 · 突破级

这篇论文重新定位 Speech LLM 的 modality gap：问题不只在输出端把语音生成变得更像文本生成，剩余瓶颈主要来自输入端给 LLM 的 speech representation 不够 TLM-compatible。作者提出 TextPro-SLM，把 Speech LLM 改造成 proso...

Large Vision-Language Models Get Lost in Attention

发表：2026-05-07 · 突破级

这篇论文关注大视觉语言模型的一个基础可靠性问题：模型表面上能处理图文输入，但注意力机制可能在复杂图像、干扰区域或语言提示下偏离真正相关证据。作者围绕 attention loss 设计系统化诊断，分析 LVLM 在视觉 grounding、跨模态对齐和推理时如何被无关区域、局部显著性或提示结构牵引。论文配套...

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

发表：2026-04-21 · 突破级

OneVL 关注 latent reasoning/planning 在 VLA 场景中的效率和可解释性，试图避免显式长 CoT 在实时决策中的成本和脆弱性。它的重要性在于把 latent planning、vision-language explanation 和 autonomous driving/VL...

MultiWorld: Scalable Multi-Agent Multi-View Video World Models

发表：2026-04-21 · 突破级

MultiWorld 把 video world model 从单 agent/单视角扩展到 multi-agent multi-view 场景，目标是同时控制多个 agent 并保持多视角一致性。这对 embodied AI 和仿真生成很重要。真实世界往往是多主体、多摄像头、多交互的，单视角预测模型很难服务...

MultiWorld: Scalable Multi-Agent Multi-View Video World Modeling

发表：2026-04-21 · 突破级

这篇论文抓住了视频 world model 当前一个真实瓶颈：大多数方法仍停留在单智能体单视角，无法表达现实系统中的多主体交互和多视角一致性。MultiWorld 的目标是把 action-conditioned video world model 扩展到 multi-agent、multi-view 的更一般...

UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards

发表：2026-04-16 · 突破级

问题与背景：visual RAG 往往依赖粗糙检索信号，不能在复杂文档推理中逐步缩小到信息密集区域。方法与新意：UniDoc-RL 将视觉信息获取建模为层级动作序列，从文档检索到图像选择再到区域裁剪，并用 dense multi-reward 和 GRPO 训练 agent 同时优化 retrieval、re...

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

发表：2026-04-15 · 突破级

问题与背景：3D world model 正从单一视角重建走向可导航、可生成、可仿真的统一世界表示。HY-World 2.0 试图把文本、图像、多视图和视频输入统一到 3DGS world construction pipeline 中。方法与新意：系统由 panorama generation、trajec...

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

发表：2026-04-15 · 突破级

问题与背景：3D spatial reasoning 对具身智能很关键，但人工几何标注昂贵；普通 self-evolution 又容易用模型共识制造伪标签，强化自身错误。方法与新意：SpatialEvo 利用 3D 几何的确定性：给定点云和相机位姿，很多空间问题的答案可以由规则精确计算。DGE 把 16 类空...

MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

发表：2026-04-15 · 突破级

问题与背景：真实 web search agent 面对的不是干净文本证据，而是自然语言查询、视频/音频/图像/网页混合证据、冲突来源和多跳检索路径。现有检索增强评测很少同时覆盖这些困难。方法与新意：MERRIN 用人类标注的查询和证据链评估 agent 是否能判断需要哪些模态、检索对应证据，并在噪声网页环境...

Lyra 2.0: Explorable Generative 3D Worlds

发表：2026-04-14 · 突破级

Lyra 2.0 关注生成式 3D 世界构建的新范式：先生成可控相机视频，再通过 feed-forward reconstruction 提升为可渲染 3D。这个方向结合视频模型的创造力和 3D 输出的交互可用性。论文针对长轨迹探索里的 spatial forgetting 和 temporal drifti...

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

发表：2026-04-14 · 突破级

VideoFlexTok 重新审视视频 tokenizer 的表示假设。固定 spatiotemporal grid token 会迫使后续模型逐块预测所有低层细节，即使视频本身的复杂度并不均匀，从而增加学习负担。论文提出 flexible-length coarse-to-fine video tokeni...

Towards Long-horizon Agentic Multimodal Search

发表：2026-04-14 · 突破级

LMM-Searcher 针对 long-horizon multimodal deep search 的核心瓶颈：文本和图像证据混在上下文里会快速膨胀，而直接压缩又会丢掉关键视觉信息。多模态 agent 需要一种可按需取回视觉证据的工作记忆机制。论文提出 file-based visual represen...

WildDet3D: Scaling Promptable 3D Detection in the Wild

发表：2026-04-09 · 突破级

这篇论文面向单图像开放世界 3D 目标检测，目标是从 RGB 图像恢复物体的 3D 尺寸、位置和朝向，同时支持文本、点、框等不同 prompt，并在可用时利用深度线索。现有方法多绑定单一 prompt 类型，数据集也通常限制在少数类别和受控场景。 WildDet3D 的贡献有两部分：一是统一的 geometry...

Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction

发表：2026-04-09 · 突破级

这篇论文面向长视频的大规模 3D 重建。现有 feed-forward 3D reconstruction 模型能从 RGB 直接回归几何，但在长序列上受限于上下文窗口和全局记忆，chunk-wise 方案又会丢失跨片段一致性并累积对齐误差。 Scal3R 引入神经全局上下文表示，用一组轻量子网络在测试时通过自...

Small Vision-Language Models are Smart Compressors for Long Video Understanding

发表：2026-04-09 · 突破级

这篇论文处理长视频理解中的上下文瓶颈。小时级视频会迅速耗尽 MLLM token budget，固定稀疏采样和均匀池化又容易丢掉关键瞬间，导致模型在长程问答中既浪费上下文又错过证据。 Tempo 的核心思路是让小型视觉语言模型充当局部 temporal compressor，把 token reduction...

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

发表：2026-04-08 · 突破级

这篇论文聚焦多模态模型的空间智能数据问题。很多现有空间任务数据集是单点式构造，覆盖特定任务或封闭 pipeline，导致模型很难系统学习距离、相对位置、多视角一致性和场景级空间推理。 OpenSpatial 把 3D bounding box 作为核心原语，构建了一个可扩展数据生成引擎，并围绕 Spatial...

INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

发表：2026-04-08 · 突破级

world simulator 的一个长期难点，是既要保住 spatial consistency，又要支持真实可交互的长时导航。很多视频生成方案能做短片段外观，但一到可导航、可交互、长时一致的动态场景，就会在几何结构和时空持久性上迅速失真。 INSPATIO-WORLD 的推进在于把这一问题做成 real-t...

Boxer: Robust Lifting of Open-World 2D Bounding Boxes to 3D

发表：2026-04-06 · 突破级

这篇论文处理开放世界 3D 目标定位中的一个核心数据鸿沟：2D 开放词汇检测已经能借助大规模网页图文数据识别大量类别，但 3D 边界框标注昂贵、稀缺且受传感器形态限制，导致端到端 3D 检测器难以覆盖真实世界物体。 Boxer 的核心设计是把语义识别和几何提升解耦。系统先用现成 2D open-vocabula...

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

发表：2026-04-03 · 突破级

多模态模型越来越被包装成“agentic”，但现有评测往往要么只看 final answer，要么把 visual tools 和 web search 分开测，导致我们很难知道模型到底有没有正确调用工具、是否真的完成了多步过程，还是只是靠答案投机过关。 Agentic-MME 的核心贡献是 process-v...

TTA-Vid: Generalized Test-Time Adaptation for Video Reasoning

发表：2026-04-01 · 突破级

视频推理模型通常依赖大规模监督数据和多阶段训练管线，迁移到新 domain 或新数据分布时成本高、适配慢。test-time learning 虽然在若干模态里被反复讨论，但真正落到 video reasoning 上，尤其是无标注、样本极少的在线适配场景，仍然缺少足够强的方法。论文提出 TTA-Vid，把...

EgoSim: Egocentric World Simulator for Embodied Interaction Generation

发表：2026-04-01 · 突破级

egocentric world simulation 是 embodied AI 很缺的一块：已有模拟器要么缺显式 3D grounding，导致视角变化后结构漂移；要么把场景视作静态背景，无法持续更新 world state，因此不适合多阶段互动和具身操作。EgoSim 正是在补这一层缺口。论文把 3D...

Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism

发表：2026-03-31 · 突破级

长视频理解一直卡在上下文窗口和计算成本之间：把所有帧一次性塞给 MLLM 既昂贵也容易引入噪声，而简单抽帧又会丢掉关键细节。FlexMem 这篇工作把问题换了一个角度来做：不是直接缩短输入，而是把视频理解改写成视觉记忆的写入、压缩和读取问题。论文提出一个 training-free 的 visual memo...

Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model

发表：2026-03-30 · 突破级

文档理解系统通常把检索和生成拆成两套模型来做，这会同时增加显存占用、服务复杂度和系统维护成本。Hydra 针对这一长期存在的双模型结构问题，尝试把视觉文档检索与文档问答生成统一到同一个视觉语言模型中，让同一底座同时承担文档表示和回答生成两种职责。这篇工作的核心做法是给基座 VLM 增加一个可切换的 retri...

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

发表：2026-03-30 · 突破级

统一多模态模型已经能做出高质量图像，但一遇到 long-tail、知识密集、文化事实性很强的生成任务，就容易被冻结参数中的陈旧或缺失知识卡住。普通 world knowledge prompting 往往不够，因为问题不只是模型记不记得，而是生成流程缺少显式的外部 grounding 与证据整合。Unify-A...

VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

发表：2026-03-27 · 突破级

大规模视频扩散模型已经能生成高质量画面，但几何一致性仍然是明显短板：镜头抖动、跨视角结构漂移和动态场景中的世界不一致会显著削弱其作为 world generation interface 的价值。此前方法要么改动生成器结构，要么在 RGB 空间做 geometry-aware reward，对动态场景支持弱且训...

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

发表：2026-03-26 · 突破级

视频世界模型已经能模拟大量场景，但现有记忆机制大多默认环境近似静态，对动态主体暂时离开视野后再出现的情况处理很差，常见问题是主体冻结、形变或直接消失。这个问题本质上不是普通长视频建模，而是世界模型是否真正学会了对动态对象进行持续记忆。这篇工作把问题明确成 hybrid memory：背景需要像档案一样稳定存储...

LensWalk: Agentic Video Understanding by Planning How You See in Videos

发表：2026-03-25 · 突破级

长视频理解真正困难的地方，不只是 token 太长，而是 perception 和 reasoning 长期脱节：模型通常先被动接收预处理后的视频表示，再在固定输入上推理，无法随着思考过程主动改变观察策略。LensWalk 的目标，就是把视频理解从一次性看完，改成“边推理边决定下一步怎么看”的 agentic...

GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

发表：2026-03-25 · 突破级

面向 3D 虚拟环境与 embodied agent 的视频理解，难点从来不只是“看懂一段视频”，而是要在第一人称视角下处理高决策密度、多主体并发、快速状态变化和跨视频对齐。现有多模态 benchmark 很少真正测这些 agent-centric 感知与推理能力，因此模型即使在通用视频 QA 上表现不错，也未...

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

发表：2026-03-24 · 突破级

agentic multimodal LLM 的核心瓶颈不是单轮模型前向，而是 perception、reasoning、tool-calling 反复串行导致的 agentic depth。只要还依赖昂贵视觉工具链逐步展开，多模态 agent 的延迟和并发吞吐都会被顺序依赖拖死。SpecEyes 针对的是这个...

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

发表：2026-03-24 · 突破级

这篇工作切中的问题很明确：纯视觉的 Video-Action / VLA 路线在长时任务上已经有一定能力，但在接触丰富、力控制敏感的交互里，视觉 token 无法稳定表征关键的接触状态。作者因此把 tactile 视为世界动作模型的基础模态，而不是附属传感器。方法上，VTAM 在预训练视频 transform...

MolmoPoint: Better Pointing for VLMs with Grounding Tokens

发表：2026-03-18 · 突破级

视觉语言模型里的 grounding 已经变成很多系统能力的基础层，但多数模型仍把 pointing 当作文本坐标生成问题来做。这种做法既难学，又会引入高 token 开销和明显的坐标表示误差，在 GUI 操作、视频跟踪和机器人交互里都容易成为瓶颈。 MolmoPoint 的核心改动是把 pointing 从坐...

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

发表：2026-03-17 · 突破级

该文处理的是交互式游戏世界模型里的两个核心难点：动作控制不精确，以及长时程探索中的三维一致性漂移。现有方法通常把用户动作当成抽象条件信号，而没有把动作和世界几何之间通过相机位姿耦合这一事实直接建模。 WorldCam 的关键做法是把 camera pose 提升为统一几何表示。一方面，它把用户输入映射到物理一致...

Feynman: Knowledge-Infused Diagramming Agent for Scalable Visual Designs

发表：2026-03-13 · 突破级

问题与背景：高质量、知识密集且图文严格对齐的视觉设计数据非常稀缺，尤其是面向数学、科学和计算机领域的示意图、结构图和关系图。互联网虽然有大量图像和文本，但真正适合训练视觉推理模型的 diagram-caption 对并不多。Feynman 要解决的是如何用 agent pipeline 低成本、大规模地生成语义...

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

发表：2026-03-13 · 突破级

这篇论文针对统一多模态模型里一个长期存在但很难同时兼顾的问题：视觉理解和视觉生成虽然都想共享同一个多模态主干，但两者对视觉表征和解码方式的要求并不一致。理解更希望得到稳定、紧凑、语义明确的视觉 token，而生成又需要保留足够的局部纹理和高频细节。如果把这两种需求硬压在同一套 patch 表征上，通常会出现理解...

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

发表：2026-03-12 · 突破级

这篇论文处理的是流式视觉空间智能的核心问题：面对无界视频流，模型如何持续维护、更新并组织 3D 空间证据，而不是只依赖更长上下文窗口。作者把问题从“长上下文视频理解”推进到“持续空间记忆与结构化更新”，这比普通视频问答或短视频理解更接近真实世界中的在线空间认知。方法上，Spatial-TTT 把 test-t...

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

发表：2026-03-12 · 突破级

这篇论文关注一个很典型但长期被低估的问题：结构化空间设计任务并不只是图像生成，而是同时涉及几何约束、语义关系和层级组织。以建筑平面图为例，现有扩散模型和语言模型虽然能提升视觉质量，却常常在空间一致性、可控编辑和符号推理上表现不足。作者提出 HouseMind，把房间实例离散化为专门的 token，构造统一词表...

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

发表：2026-03-12 · 突破级

问题与背景：视觉基础模型往往被切成静态图像语义、离线视频建模和几何重建等不同系统，难以形成统一、实时、可行动的 streaming visual backbone。方法/新意：OmniStream 引入因果时空注意力、3D-RoPE 和 persistent KV-cache，支持连续视频流的逐帧在线处理，并...

O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

发表：2026-03-12 · 突破级

这篇论文针对具身智能和自动驾驶场景里的一个核心问题：如何在 360 度、开放词汇、仅视觉输入的条件下，对三维场景进行统一的占据与语义重建。现有 occupancy prediction 方法通常依赖有限视角和封闭类别集合，因此很难支撑开放世界探索所需的全局、安全和语义一致的环境理解。作者提出 O3N，一个端到...

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

发表：2026-03-11 · 突破级

这篇论文关注扩散式规划器在复杂任务里的一个常见问题：纯从数据学出的 diffusion planner 在组合推理和约束满足上往往不稳定。作者试图把语言模型推理和先验知识显式引入规划过程。方法上，KnowDiffuser 用语言模型提供任务相关推理与知识约束，再用 prior-informed traject...

Dynin-Omni: Omnimodal Unified Large Diffusion Language Model

发表：2026-03-09 · 突破级

统一多模态模型通常卡在两个方向之间：要么走 autoregressive serialization，把不同模态都压进同一 token stream；要么走组合式系统，让主模型依赖外部 modality-specific decoders 与 orchestration。真正困难的是在一个共享架构里同时支持 t...

Can Vision-Language Models Solve the Shell Game?

发表：2026-03-09 · 突破级

这篇论文抓住了当前视频 VLM 一个被很多综合 benchmark 掩盖的核心短板：视觉实体跟踪。作者指出，现有视频问答数据里常常存在可利用的静态外观线索，模型即使没有真正跟踪能力，也能通过单帧重识别得到高分。为此，论文把经典的 shell game 重新做成一个严格去除外观捷径的诊断任务，直接检验模型能否仅凭...

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

发表：2026-03-06 · 突破级

当前大多数 multimodal large language models 仍默认依赖 autoregressive backbone，再在其上叠加不同模态编码器和生成头。这种范式虽然有效，但把多模态理解与生成统一到同一 backbone 的能力仍受限，尤其在 any-to-any setting 下更明显...

Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

发表：2026-03-04 · 突破级

这篇论文面向 world models 的一个长期难点：很多视频 world model 在视觉生成上越来越强，但缺少 object-centric、可决策、可泛化到真实多物体场景的状态表示。LPWM 试图把世界模型从“生成像素未来”推进到“发现对象、建模对象随机动力学、再用于决策”。方法上，LPWM 从纯视...

Beyond Language Modeling: An Exploration of Multimodal Pretraining

发表：2026-03-03 · 突破级

这篇论文研究的是“原生统一多模态预训练”如何从语言模型范式继续扩展，而不是把视觉模块后接到现成 LLM 上。作者在 Transfusion 框架下从零开始训练统一模型，用 next-token prediction 处理语言，用 diffusion / flow-style objective 处理视觉，并把文...

LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving

发表：2026-03-02 · 突破级

自动驾驶里的 Vision-Language-Action 模型正在从显式文本 CoT 走向 latent reasoning，但标准 latent CoT 往往缺乏物理约束，容易形成语义与感知脱节的问题。本文关注的正是这个瓶颈：如何让 VLA 的“思考空间”真正带有时空和动力学结构。作者提出 LaST-VL...

Neural Fields as World Models

发表：2026-02-21 · 突破级

这篇论文提出的问题很基础：为什么许多 world model 要先把感知输入压缩成抽象 latent，再在 latent 空间里做状态转移？作者认为这种做法会丢失感觉皮层里重要的空间拓扑，因此提出用 neural fields 构建更“同构”的世界模型。方法上，作者用 neural fields 和 moto...

Seeing to Generalize: How Visual Data Corrects Binding Shortcuts

发表：2026-02-16 · 突破级

这篇论文关注一个非常值得跟的现象：一些 VLM 在纯文本任务上反而能超过其底层 LLM。作者把这个现象具体化为“视觉训练是否帮助模型修正文本里的 binding shortcuts”，并构造了受控检索任务来做机制分析。方法上，论文比较了纯文本训练和图像 token 训练下的 transformer 内部表征...

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

发表：2026-02-10 · 突破级

问题与背景机器人 manipulation 里的世界模型常常只能做单视角视频预测，或者只能处理部分 3D 几何，因此很难稳定支持真实操作所需的完整 4D 场景想象和行动推断。MVISTA-4D 试图把多视角、一致几何和动作反推整合到同一个模型里。方法/新意它从单视角 RGBD 观察出发，生成任意视角的未来...

World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

发表：2026-02-06 · 突破级

**问题与背景** 这篇论文围绕 vision-language-action / world models / robotics 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优...

PerpetualWonder: Long-Horizon Action-Conditioned 4D Scene Generation

发表：2026-02-04 · 突破级

这篇论文想解决的是单图出发的长时程 4D 场景生成问题。现有很多视频生成方法能生成“看起来像运动”的结果，但物理状态和视觉表示是分裂的，导致时间一长就失真，更谈不上真正的 action-conditioned 交互场景。方法上，PerpetualWonder 把物理仿真和视频生成做成闭环：前向依赖物理状态推进...

UniDWM: Towards a Unified Driving World Model via Multifaceted Representation Learning

发表：2026-02-02 · 突破级

这篇论文关注自动驾驶世界模型的统一表示问题。很多驾驶世界模型只在某一层面强，比如几何结构、视觉纹理或未来动力学其中之一，但难以形成一个同时服务感知、预测和规划的共同状态空间。UniDWM 的目标就是把这些维度真正统一起来。方法上，它构建了 structure- and dynamic-aware latent...

UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving

发表：2026-02-02 · 突破级

## 问题与背景问题与背景：自动驾驶 world model 常被拆成多阶段系统，接口多、训练复杂、部署成本高。研究方向在持续往更统一的一体化 driving world model 收敛。 ## 方法/新意方法/新意：UniDriveDreamer 提出 single-stage multimodal w...

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

发表：2026-02-02 · 突破级

## 问题与背景问题与背景：世界模型在机器人和规划任务里往往面临表示复杂、动力学预测重、推理成本高的问题。高效 world model 依然是当前主线难题。 ## 方法/新意方法/新意：DDP-WM 通过 disentangled dynamics prediction 拆开状态表示与动态变化，让模型在保持...

HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

发表：2026-01-21 · 突破级

HERMES 针对多模态大模型从离线视频理解走向 streaming video understanding 的核心矛盾：需要稳定理解、实时响应和低 GPU memory overhead，但常规长视频处理会随着帧数增长导致 TTFT 和显存不可控。论文基于 layer-wise attention pref...

UniVideo: Unified Understanding, Generation, and Editing for Videos

发表：2026-01-07 · 突破级

这篇论文瞄准的是统一多模态模型从图像域走向视频域时最难跨过去的一步：能否在同一套框架里同时做视频理解、视频生成和视频编辑，而不是为每个任务各自训练一条模型链。作者认为，视频场景下时序一致性、复杂指令理解和多任务联合训练的难度，导致现有 unified multimodal model 大多还停留在图像层。 Un...

Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models

发表：2025-12-17 · 突破级

## 问题与背景问题与背景：很多多模态大模型虽然会看图，但视觉表征仍然过度依赖文本对齐或语言监督，导致视觉能力本身并不扎实。 ## 方法/新意方法/新意：这篇工作强调把 self-supervised visual learning 重新放回多模态大模型训练中心，让视觉端学到更强、更独立的表征，而不只是给语...

CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction

发表：2025-12-12 · 突破级

该文处理的是一个对机器人感知、人机交互建模和 4D 场景理解都很关键的问题：如何仅从单目 RGB 视频中，在不知道物体模板、类别有限先验也不可靠的情况下，恢复人与物体在时间和空间上都一致的 4D 交互过程。过去的方法通常依赖真值模板，或者只能在少数封闭类别上工作，因此很难迁移到真实开放场景。 CARI4D 的核...

MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment

发表：2025-12-07 · 突破级

机器人模仿学习长期受限于长时程、高质量操作视频数据不足，而现有生成模型通常只能合成短片段、简单动作，且缺少物理一致性。本文针对的是：如何生成长时程、可控且更符合物理规律的机器人操作视频。作者提出 MIND-V，一个分层视频生成框架，由语义推理中心、行为语义桥接器和运动视频生成器组成，并在测试时加入 stage...

Speech World Model: Causal State-Action Planning with Explicit Reasoning for Speech

发表：2025-12-05 · 突破级

## 问题与背景问题与背景：很多 speech-language systems 仍把语音理解视为黑盒编码到语言模型里，对韵律、意图、状态转移等更复杂因素的显式推理较弱。 ## 方法/新意方法/新意：这篇工作提出 modular speech world model，把语音理解分成通过 causal gra...

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

发表：2025-11-17 · 突破级

这篇论文针对一个关键空白：视频生成模型常被宣传成“世界模拟器”，但现有评测大多只看保真度、对齐性或主观质量，几乎不直接测试它们是否具备逐步视觉推理能力。作者因此提出 Gen-ViRe，专门考察 world simulator 是否真的能在连续视觉状态里完成类似 chain-of-thought 的推理。方法上...

ClimateViz: A Benchmark for Statistical Reasoning and Fact Verification on Scientific Charts

发表：2025-11-01 · 突破级

这篇 EMNLP 2025 论文围绕科学图表上的统计推理和事实核验建立 ClimateViz benchmark。它要求模型不仅识别图像内容，还要从图表中读数、比较趋势、理解统计关系并验证文字声明。它的可复用价值在于把 scientific chart reasoning 做成明确评测接口，尤其适用于气候科学...

Emu3.5: Native Multimodal Models are World Learners

发表：2025-10-30 · 突破级

问题与背景：多模态世界模型需要从离散图文生成走向时空连续经验建模。Emu3.5 明确把长视频交错数据视为 next-state prediction 的训练载体，用统一 NTP 基础设施学习视觉和语言状态演化。方法与新意：模型在超过 10T vision-language interleaved tokens...

Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

发表：2025-07-01 · 突破级

这篇 ACL 2025 论文关注视觉生成模型评估问题：固定指标很难覆盖用户想要的质量、对齐、细节一致性和任务特定要求。Evaluation Agent 把评估做成可 prompt 的 agentic framework。它的复用价值在于评测接口：用户可以指定评价维度，系统通过更结构化的检查流程评估生成结果。这...

StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation

发表：2025-06-01 · 突破级

这篇 CVPR 2025 论文关注可扩展、可控的场景生成，把时空自回归框架与视频扩散模型结合起来。它解决的不是单帧图像美观度，而是连续场景在空间和时间上的可组织生成。它的可复用价值在于为 world generation 和仿真资产生成提供结构化生成接口。自回归负责长期时空展开，扩散负责局部视觉质量和可控性...

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

发表：2025-04-09 · 突破级

多模态大模型开始越来越依赖 reward signal 做训练和推理时扩展，但把语言模型那套 reward modeling 直接搬到多模态场景会遇到三个具体问题：标注成本高、奖励粒度过粗，以及缺少成体系的评测。这使得多模态 CoT reward model 仍停留在零散实验阶段，缺少像样的训练接口和统一比较基...

Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification

发表：2024-11-22 · 突破级

文本生成视频模型正在快速进入机器人、自动驾驶和内容生产等场景，但主流评测仍主要偏向视觉质量与流畅度，对时间一致性和 prompt-to-video 对齐的约束表达能力不足。这在安全敏感场景里尤其成问题，因为真正关键的往往不是画面是否好看，而是视频是否满足跨时间的语义和行为约束。这篇工作的核心贡献是提出 Neu...