Rethinking VLM Representation for VLA Initialization

发表:2026-05-27 · 突破级

VLA 模型普遍用 VLM 作为 backbone,但哪些 VLM 表征真正适合作为 action policy initialization 并不清楚。 这篇论文把 VLA initialization 作为 representation-design problem,系统比较 embodied VQA su...

Imaging hidden objects with consumer LiDAR via motion-induced sampling

发表:2026-05-20 · 突破级

这篇 Nature 论文把非视距隐藏物体成像推进到低成本消费级 LiDAR 场景,不再依赖昂贵、专用的实验室 NLOS 硬件。 核心思路是利用运动诱导采样,把多帧消费级 LiDAR 数据和运动模型融合起来,实现隐藏物体的三维重建、跟踪和定位。 对机器人和具身系统而言,这相当于扩展了感知边界:拐角后、遮挡后和视线...

Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving

发表:2026-05-20 · 突破级

这篇论文提出一个反直觉但重要的 embodied LLM 评估发现:更高保真观察不一定带来更强问题求解。 作者在物理 Lockbox 机械谜题和受控仿真中比较 RGB、RGB-D 和 ground-truth symbolic observations,发现原始 RGB 最好、完美符号观察最差;适度噪声反而能减...

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

发表:2026-05-18 · 突破级

ESI-Bench 重新定义空间智能评测:agent 不应只被动处理给定观察,而要主动行动以揭示被遮挡结构、动态、容器关系和功能信息。 基准基于 OmniGibson,覆盖 10 类任务和 29 个子类,要求 agent 选择感知、移动和操作能力并安排动作序列来累积证据。 它值得正式收录,因为它把 embodi...

PhysBrain 1.0 Technical Report

发表:2026-05-14 · 突破级

PhysBrain 1.0 研究从人类第一视角视频中提取物理常识,再迁移到机器人 VLA 策略,而不是只依赖昂贵机器人轨迹。 数据引擎抽取场景元素、空间动态、动作执行和深度关系,转成问答监督训练 PhysBrain VLM,并通过保能力和语言敏感的适配设计迁移到 VLA policy。 它值得正式收录,因为它为...

FrameSkip: Learning from Fewer but More Informative Frames in VLA Training

发表:2026-05-14 · 突破级

FrameSkip 关注 VLA 训练数据层面的 temporal supervision imbalance:机器人轨迹中许多帧信息量低,但标准训练同等使用所有帧,浪费训练预算并稀释关键动作变化。 它用 action variation、visual-action coherence、task progres...

IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

发表:2026-05-14 · 突破级

IntentVLA 研究 VLA 操作中的 partial observability:相似当前画面可能来自不同任务阶段或短期意图,frame-conditioned chunk policies 会在相邻 replanning steps 重新采样不同 intent,导致执行不稳定。 方法用最近视觉历史编码...

Efficient robot navigation inspired by honeybee learning flights

发表:2026-05-13 · 突破级

这篇 Nature 论文把昆虫学习飞行中的视觉归巢原则转成可部署的机器人导航策略 Bee-Nav。系统用路径积分提供 home vector,再用训练于等价 learning flights 的微型神经网络修正漂移。 关键工程结果是资源约束极强:室内外小型无人机实验中,3.4 kB 与 42 kB 级网络就能支...

RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

发表:2026-05-11 · 突破级

RoboMemArena 把机器人记忆从抽象长上下文问题推进到长程、部分可观察、真实动作序列任务。论文强调任务平均轨迹超过 1000 步,且大部分子任务依赖记忆。 基准包含 VLM 生成的复杂子任务、完整轨迹、关键帧和 memory-related annotations,并配套真实世界 memory task...

CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models

发表:2026-05-11 · 突破级

CapVector 针对 VLA 机器人模型的一个现实瓶颈:标准 SFT 简单但适应慢,带辅助目标的 finetuning 能提升空间感知或长程推理等能力,却会带来额外模块、额外前向和训练开销。 论文把辅助目标带来的通用能力增益与任务动作拟合拆到参数空间中处理:用同一小规模任务集训练标准 SFT 和辅助目标 S...

ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

发表:2026-05-02 · 突破级

ESARBench 提出 Embodied Search and Rescue 任务,把 UAV 从视觉检测/路径规划推进到多模态 agent 搜索、线索整合和救援决策。 基准基于 Unreal Engine 5 与 AirSim,使用真实 GIS 数据构建高保真环境,并引入天气、时间、地形和动态救援变量,使任...

Hierarchical Planning with Latent World Models

发表:2026-04-06 · 突破级

这篇 Meta FAIR、NYU、Mila、Brown 等团队的 arXiv 论文处理 latent world model 控制中的核心瓶颈:单层世界模型在长时程规划中会遇到预测误差累积和搜索空间爆炸,导致非贪心任务很难靠直接 MPC 解决。 方法上,论文学习多个时间尺度的 latent world mode...