DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation
机器人操控依赖 action-relevant perception,但许多 pipeline 使用静态识别或 VLM alignment 预训练的视觉编码器,把运动理解留给下游策略。 DynaFLIP 把 dynamics-aware multimodal pretraining 放到感知阶段,通过 imag...
机器人操控依赖 action-relevant perception,但许多 pipeline 使用静态识别或 VLM alignment 预训练的视觉编码器,把运动理解留给下游策略。 DynaFLIP 把 dynamics-aware multimodal pretraining 放到感知阶段,通过 imag...
这篇论文面向 embodied foundation model 的核心碎片化问题:操控、导航、轨迹预测和不同机器人形态通常各自训练,难以跨任务和跨 embodiment 泛化。 Qwen-VLA 把视觉-语言理解扩展到连续动作和轨迹生成,用 DiT action decoder、统一 action-and-t...
VLA 模型普遍用 VLM 作为 backbone,但哪些 VLM 表征真正适合作为 action policy initialization 并不清楚。 这篇论文把 VLA initialization 作为 representation-design problem,系统比较 embodied VQA su...
机器人视频 world simulator 的关键问题是能否从 action-conditioned video demo 走向闭环 policy interaction。 GE-Sim 2.0 在真实机器人数据上重训,并围绕 action-following fidelity、trajectory cover...
这篇 Nature 论文把非视距隐藏物体成像推进到低成本消费级 LiDAR 场景,不再依赖昂贵、专用的实验室 NLOS 硬件。 核心思路是利用运动诱导采样,把多帧消费级 LiDAR 数据和运动模型融合起来,实现隐藏物体的三维重建、跟踪和定位。 对机器人和具身系统而言,这相当于扩展了感知边界:拐角后、遮挡后和视线...
这篇论文提出一个反直觉但重要的 embodied LLM 评估发现:更高保真观察不一定带来更强问题求解。 作者在物理 Lockbox 机械谜题和受控仿真中比较 RGB、RGB-D 和 ground-truth symbolic observations,发现原始 RGB 最好、完美符号观察最差;适度噪声反而能减...
ESI-Bench 重新定义空间智能评测:agent 不应只被动处理给定观察,而要主动行动以揭示被遮挡结构、动态、容器关系和功能信息。 基准基于 OmniGibson,覆盖 10 类任务和 29 个子类,要求 agent 选择感知、移动和操作能力并安排动作序列来累积证据。 它值得正式收录,因为它把 embodi...
PhysBrain 1.0 研究从人类第一视角视频中提取物理常识,再迁移到机器人 VLA 策略,而不是只依赖昂贵机器人轨迹。 数据引擎抽取场景元素、空间动态、动作执行和深度关系,转成问答监督训练 PhysBrain VLM,并通过保能力和语言敏感的适配设计迁移到 VLA policy。 它值得正式收录,因为它为...
FrameSkip 关注 VLA 训练数据层面的 temporal supervision imbalance:机器人轨迹中许多帧信息量低,但标准训练同等使用所有帧,浪费训练预算并稀释关键动作变化。 它用 action variation、visual-action coherence、task progres...
IntentVLA 研究 VLA 操作中的 partial observability:相似当前画面可能来自不同任务阶段或短期意图,frame-conditioned chunk policies 会在相邻 replanning steps 重新采样不同 intent,导致执行不稳定。 方法用最近视觉历史编码...
这篇 Nature 论文把昆虫学习飞行中的视觉归巢原则转成可部署的机器人导航策略 Bee-Nav。系统用路径积分提供 home vector,再用训练于等价 learning flights 的微型神经网络修正漂移。 关键工程结果是资源约束极强:室内外小型无人机实验中,3.4 kB 与 42 kB 级网络就能支...
RoboMemArena 把机器人记忆从抽象长上下文问题推进到长程、部分可观察、真实动作序列任务。论文强调任务平均轨迹超过 1000 步,且大部分子任务依赖记忆。 基准包含 VLM 生成的复杂子任务、完整轨迹、关键帧和 memory-related annotations,并配套真实世界 memory task...
CapVector 针对 VLA 机器人模型的一个现实瓶颈:标准 SFT 简单但适应慢,带辅助目标的 finetuning 能提升空间感知或长程推理等能力,却会带来额外模块、额外前向和训练开销。 论文把辅助目标带来的通用能力增益与任务动作拟合拆到参数空间中处理:用同一小规模任务集训练标准 SFT 和辅助目标 S...
SimWorld Studio 处理 embodied agents 的一个基础瓶颈:缺少大量、多样、可验证、可交互的 3D 学习环境。它不是生成静态 3D 场景,而是生成可执行环境。 核心组件 SimCoder 是一个工具/技能增强的 coding agent,能写并执行 Unreal Engine 代码,通...
ESARBench 提出 Embodied Search and Rescue 任务,把 UAV 从视觉检测/路径规划推进到多模态 agent 搜索、线索整合和救援决策。 基准基于 Unreal Engine 5 与 AirSim,使用真实 GIS 数据构建高保真环境,并引入天气、时间、地形和动态救援变量,使任...
这篇 Nature Communications 论文面向四足机器人节律运动控制,提出可原位调节 spike 的人工 plateau neuron。 该神经元集成 bistable plateau gate 与 transient threshold-switch,能生成幅度可编程的节律 spike burst...
这篇论文的核心不是又一个医疗机器人模型,而是把长期缺失的 open medical-robotics data infrastructure 补了出来。医疗机器人一直被数据稀缺、平台封闭和单 embodiment 限制卡住,很难像通用 embodied AI 那样进入 foundation-model 时代...
VLA 模型受限于显式动作数据稀缺,而人类动作视频虽然规模巨大,却没有统一 action ontology 或机器人控制标签。latent action representation 被视为可能桥接视频和控制的接口,但此前缺少系统评估:它到底能否同时支持“做什么”的语义动作和“怎么做”的低层控制。 LARY 提...
这篇 Meta FAIR、NYU、Mila、Brown 等团队的 arXiv 论文处理 latent world model 控制中的核心瓶颈:单层世界模型在长时程规划中会遇到预测误差累积和搜索空间爆炸,导致非贪心任务很难靠直接 MPC 解决。 方法上,论文学习多个时间尺度的 latent world mode...
This Science Advances paper turns biological herding of indecisive animal groups into a control problem for stochastic temporal networks. The key contributi...
This Science Robotics paper extracts an embodied control principle from insect flight vision. Instead of treating perception as state-estimation alone, it a...