发表:2026-05-25 · 突破级
DVAO 关注多奖励 RL 后训练的核心问题:真实模型优化常同时包含正确性、格式、偏好、安全或效率等多个奖励,静态权重容易让高方差奖励支配训练。 论文提出 dynamic variance-adaptive advantage optimization,根据不同 reward stream 的方差和训练状态动态...
发表:2026-05-20 · 突破级
DelTA 关注 RLVR 的核心机制问题:sequence-level verifiable reward 如何具体改变 token-level probability。论文把 policy-gradient update 解释为 token-gradient vectors 上的线性判别器。 标准 RLVR...
发表:2026-05-15 · 突破级
NudgeRL 处理 RLVR 的核心瓶颈:模型只能从已经采样到的轨迹中学习,简单增加 rollout 数量成本高且探索方向不可控。 它用 Strategy Nudging 给每次 rollout 加入轻量策略上下文,引导多样化推理轨迹;再用统一目标分解 inter-context 和 intra-contex...
发表:2026-05-12 · 突破级
这篇 Nature Machine Intelligence 论文从章鱼手臂的分布式感知与控制中获得启发,构建面向水下抓取的软体机器人臂。重点在 embodied intelligence 的外围感知和分层行为控制。 系统在吸盘中集成光电子机械传感器,检测接触力和方向,并采用 hierarchical beha...
发表:2026-05-12 · 突破级
这篇论文处理 agentic test-time scaling 中的关键控制问题:agent 不是探索越多越好,而应该在不确定性高时探索,在上下文清楚时执行。 方法提出 exploration-aware policy optimization,用细粒度 reward 估计探索动作对未来决策的价值,并把探索动...
发表:2026-05-11 · 突破级
这篇论文的价值在于把当前热门的 group-based RLVR 从经验 recipe 拉回到更清晰的优化对象。它把问题表述为 response simplex 上的 target projection。 这种解释对 RL post-training 很重要,因为 GRPO/RLVR 类方法正在快速扩散,但社区...
发表:2026-05-08 · 突破级
Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States 关注的是一个可复用的 AI 系统或评测问题,而不是单点 demo。 POISE est...
发表:2026-05-08 · 突破级
这篇论文处理的是 World Action Models 落地时绕不开的问题:模型能想象未来,但什么时候应该相信想象、什么时候应该重新感知和执行,需要一个控制边界。 它把 WAM 从离线预测器推进到执行时决策系统,关注 action chunking、想象可信度和长期执行效率之间的权衡。这对机器人和 embod...
发表:2026-05-06 · 突破级
RLDX-1 面向 VLA generalist robotic policies,重点是把视觉、语言和动作能力放进真实机器人策略学习框架。 它的价值在于 robotics/VLA 系统模式,而不是单一 manipulation trick。报告覆盖模型、数据、训练和评测,对后续机器人 foundation p...
发表:2026-05-04 · 突破级
KinDER is a benchmark for embodied physical reasoning that isolates kinematic and dynamic constraints in procedurally generated robotic environments. The su...
发表:2026-05-01 · 突破级
Odysseus 把 VLM 扩展到 100+ turn 的游戏决策任务,目标是长程交互、视觉状态理解和策略学习,而不是短任务 QA。 游戏环境在这里不是娱乐应用,而是可控、长程、多状态的 embodied/interactive decision benchmark。它能暴露 VLM 在规划、记忆、探索和反馈...
发表:2026-05-01 · 突破级
这篇论文最值钱的不是又把某个机器人任务做到了 95%,而是把 generalist robot policy 的 post-deployment improvement 写成了 fleet-scale 闭环。它关心的是部署之后如何持续吸收真实物理经验,而不是把所有能力都押在离线预训练上。 方法上它把 offli...
发表:2026-04-29 · 突破级
这篇 Science Robotics 论文提出 RAM,用 retrieval-augmented object-centric 3D 表征补足 VLM 在机器人操作中的空间推理缺口。问题在于 VLM 能理解高层语言,但缺少精确放置、朝向、碰撞和物理约束所需的几何智能。 RAM 将抽象概念 grounding...
发表:2026-04-22 · 突破级
这篇论文的价值在于,它把“真实世界高速对抗运动”从长期的机器人 open challenge 推到了一个新的可验证里程碑。和大量离散操作或低速 manipulation 不同,乒乓要求在接近人类反应极限的时间尺度上完成感知、预测、控制和对抗式决策,系统瓶颈是联动的,不是单点模块能刷出来的。 Ace 的关键组合是...
发表:2026-04-20 · 突破级
这篇论文解决的是 Vision-Language-Action 模型在真实部署中一个非常实用但常被低估的问题:对微小环境变化极其脆弱。作者把问题归因为 trajectory overfitting,即模型过度记忆动作与实体的伪相关,在轻微物体姿态或场景扰动下就复现错误动作模式。 方法上,论文提出 verifie...
发表:2026-04-16 · 突破级
问题与背景:静态 reasoning 中,RL 往往被认为只是提升采样效率而不扩展能力边界;但 tool-use agent 有多轮交互,单纯 pass@k 不能区分能力扩展和可靠性提升。 方法与新意:论文提出 PASS@(k,T),同时改变采样预算 k 和交互深度 T,观察 base/RL pass curv...
发表:2026-04-16 · 突破级
问题与背景:自动驾驶高层规划必须同时处理多模态未来和闭环鲁棒性。纯 imitation 的 diffusion planner 能生成多样轨迹,但缺少负反馈和闭环纠错。 方法与新意:RAD-2 将 diffusion generator 与 RL discriminator 解耦:generator 生成候选轨...
发表:2026-04-15 · 突破级
问题与背景:端到端 VLA 微调常牺牲底座 VLM 的语义推理能力,而低层控制又需要高分辨率对象细节和技能条件。 方法与新意:HiVLA 显式分离高层 VLM planner 和低层 DiT action expert。高层生成子任务和目标框,低层用 cascaded cross-attention 融合全局上...
发表:2026-04-15 · 突破级
问题与背景:RLVR 通常优化条件分布 P(y|x),但它受限于 base model 原本能采到的输出空间。论文提出把一部分强化学习搬到 pre-train space,直接调节边缘分布 P(y),用更宽的输出分布先塑造推理能力。 方法与新意:PreRL 论证 log P(y) 与 log P(y|x) 的梯...
发表:2026-04-15 · 突破级
这篇论文的价值首先在问题重构:机器人操作的底层并不是语言或视频预测,而是从视觉到三维几何的映射。动作由位置、旋转和空间关系定义,因此 backbone 应该优先对齐 3D geometry。 作者提出 Vision-Geometry-Action,用预训练 3D world model 替代传统语言/视频 ba...
发表:2026-04-15 · 突破级
这篇论文针对 embodied AI 仿真中的视觉保真度和动态人类建模问题,把 Habitat-Sim 扩展为支持 3D Gaussian Splatting 场景和可导航 Gaussian avatar 的 Habitat-GS。 它的系统价值在于把高保真视觉渲染和导航障碍物语义结合:avatar 既是逼真的...
发表:2026-04-14 · 突破级
这篇论文指出 VLA 模型评估常只看动作执行成功,却忽略同一动作在不同语义上下文中可能变得危险。正确执行动作并不等于安全执行动作。 HazardArena 通过 safe/unsafe twin scenarios 控制变量:物体、布局和动作要求相同,只有语义风险不同。这样可以专门测 VLA 是否把视觉语言语义...
发表:2026-04-14 · 突破级
Habitat-GS 面向 embodied AI simulation 的视觉保真度和动态人类建模问题。传统 mesh-based simulator 在真实感和动态 avatar 表达上受限,会影响导航 agent 向真实人群环境泛化。 论文把 3D Gaussian Splatting 渲染和可驾驶 ga...
发表:2026-04-14 · 突破级
XRZero-G0 解决灵巧操作 foundation policy 的数据瓶颈:高质量、动作对齐的人类示范难规模化,传统 teleoperation 又受硬件和工作流限制。论文把采集设备、VR 交互、闭环质检和策略训练作为一个整体系统设计。 系统用人体工学 VR interface、顶视相机和双专用夹爪提高采...
发表:2026-04-09 · 突破级
这篇论文针对的是 deformable-object robotics 的数据扩展瓶颈。刚体操作中仿真数据可以较容易扩张,但衣物等可变形对象存在形状、接触和拓扑共同演化,普通 sim-to-real 往往因为几何不准、软体动力学失真和动作 primitive 不匹配而只能做弱预训练。 SIM1 提出 physi...
发表:2026-04-09 · 突破级
这篇论文处理的是机器人强化学习中的 value estimation 问题。VLA 模型已经能从大规模预训练获得操作能力,但真实长程任务仍受 partial observability 和 delayed feedback 影响;传统基于静态 VLM 的 value model 很难判断当前状态是否真的朝成功方...
发表:2026-04-07 · 突破级
问题与背景:PPO/GRPO 一类 policy-gradient 方法把“应该提高哪些 completion 的概率”和“参数如何移动”耦合在同一个梯度更新里,容易受学习率、clip 和优化器细节影响,尤其在 sparse reward 下不稳定。 方法与新意:TPO 先由旧策略概率和 reward 构造目标...
发表:2026-04-07 · 突破级
多智能体强化学习长期受困于任务定制化:不同环境往往需要不同网络、不同输入工程和不同训练套路,这使跨领域复用和预训练几乎无从谈起。相比自然语言领域已经形成的 foundation model 路线,MARL 仍高度碎片化。 MARL-GPT 的关键贡献是提出统一的观察编码和离线训练范式,用一个 GPT 风格模型同...
发表:2026-04-01 · 突破级
长时程 humanoid whole-body control 的难点不只是在单个 controller 上再堆一点性能,而是在 agility、stability 与 precision 三者之间始终存在结构性冲突。现有方法通常要么走 coupled whole-body policy,强调全局协调;要么走...
发表:2026-04-01 · 突破级
humanoid navigation 通常依赖大量机器人自身数据、任务特定训练和后续 finetuning,因此跨环境泛化成本很高。EgoNav 提出的核心问题是:能不能直接从人类行走数据里学到足够强的 navigation prior,再零样本迁移到 humanoid 机器人。 论文给出一套完整系统:用 5...
发表:2026-03-31 · 突破级
embodied navigation benchmark 往往只看最终是否到达目标,却很少把人与 agent 之间的协作互动本身作为独立能力来评估。对于 Collaborative Instance Object Navigation 这类任务,这会掩盖一个关键问题:agent 到底是真会问问题、会消解歧义...
发表:2026-03-31 · 突破级
humanoid loco-manipulation 仍然面临一个老问题:单靠 RL 很难稳定学到长程、互动密集的技能,而仅靠 imitation 或 motion prior 又难以兼顾机器人本体约束与真实执行鲁棒性。DreamControl 这一系工作已经证明 human-motion diffusion...
发表:2026-03-31 · 突破级
机器人基础策略虽然能靠大规模 imitation learning 获得不错起点,但一到长程任务就容易因 distribution shift 和 error accumulation 崩掉。RL 微调理论上能补,但现实中最大障碍是 diverse tasks 下没有统一、密集、可泛化的 reward,导致还得...
发表:2026-03-31 · 突破级
当前很多 end-to-end VLA 仍把预训练视觉语言模型当作通用 encoder,再直接映射到低层动作。这种做法虽然简单,但往往把高层语义决策和低层 motor control 混在一起,既浪费了 VLM 的高层推理潜力,也容易在端到端优化时破坏原本的语义表示。DIAL 针对的正是这个结构性问题。 论文提...
发表:2026-03-26 · 突破级
机器人世界模型一个长期痛点是:短期预测看起来可用,但一旦自回归 rollout 到多步,误差就会快速累积,视觉质量和任务可用性同步崩掉。这使大量 action-conditioned video world model 在真实规划链路里停留在“会演示、难部署”的阶段。 这篇论文的核心做法是把 post-trai...
发表:2026-03-25 · 突破级
长程机械臂操作里,真正难的常常不是当前一帧该怎么抓,而是当前观测本身已经不再是 Markov 的:遮挡、状态变化和历史交互会让相同视觉输入对应不同决策。很多 embodied memory 系统用语义压缩摘要和相似度检索来解决,但这样很容易把真正决定动作的细粒度几何线索抹掉。Chameleon 针对的正是这种...
发表:2026-03-22 · 突破级
这篇论文处理的是一个很实在的问题:很多在 MLLM 上加 reasoning supervision 的方法,迁移到 VLA 后并不能稳定提升机器人表现,甚至会伤害动作质量。作者把症结归因于语言推理和低层动作之间的接口没有真正对齐。 RoboAlign 的核心做法是先用零样本自然语言推理产生动作 token,再...
发表:2026-03-19 · 突破级
这篇工作聚焦于机器人操作中最难、也最容易被通用模型忽视的一类问题:关键接触瞬间的亚毫米级精度操作。对于许多真实任务,广义 VLA 模型已经能完成大部分宏观步骤,但最后毫米级的插接、对准和施力阶段仍然是失败瓶颈。作者因此不再追求整任务端到端大规模改进,而是专门面向这些 critical phases 做高效在线强...
发表:2026-03-18 · 突破级
这篇论文针对的是 RLHF 中一个长期悬而未决但非常现实的问题:离线式偏好学习虽然有效,却极度耗标签,导致高质量对齐过程越来越像昂贵的数据工程。作者把重点放在在线 RLHF 上,目标不是在固定偏好数据集上继续挤分,而是在真实交互过程中边收选择反馈、边更新奖励模型和语言模型,让探索和学习同步发生,从而显著降低样本...
发表:2026-03-18 · 突破级
这篇论文处理的是视频生成式 world-action model 在机器人策略学习中的部署瓶颈。已有 WAM 借用视频生成 backbone 同时推理未来视觉动态和动作,但这种联合建模在执行时很慢,而且动作质量会被未来视频预测质量拖累,不适合低延迟真实机器人控制。 GigaWorld-Policy 将 WAM...
发表:2026-03-18 · 突破级
航运路径优化长期依赖启发式方法或高度依赖天气预报的路径搜索,这会在极端条件下带来巨大的燃料浪费和运营风险。真正难的不是把平均指标再抬一点,而是把 catastrophic failures 压下去。 PIER 提出一套 physics-informed offline RL 流程:用历史 AIS 航迹和海洋再分...
发表:2026-03-17 · 突破级
这篇论文关注的是具身智能系统里一个非常实际的问题:大语言模型推理并不是免费午餐,何时调用高成本 reasoning,何时直接执行动作,本身就是一个需要学习的决策问题。作者把这个问题明确表述为资源感知型 orchestration,而不是继续默认“能想就一直想”。 方法上,论文提出 RARRL,让强化学习学习一个...
发表:2026-03-17 · 突破级
这篇论文关注 embodied world model 里一个非常具体但很关键的问题:World Action Models 的收益,到底主要来自测试时显式未来想象,还是来自训练时的视频建模信号。它不是单纯继续堆更慢的 imagine-then-execute,而是在问这条路线里真正有效的因果因素是什么。 作者...
发表:2026-03-13 · 突破级
机器人操作系统已经能完成越来越复杂的抓取与装配任务,但真正难落地的地方往往不是成功执行,而是失败后能否安全、低成本地恢复。现有 failure-learning 路线通常依赖真实失败数据采集或 simulator perturbation,两者分别受制于成本/安全和明显的 sim-to-real gap。 这篇...
发表:2026-03-12 · 突破级
这篇论文针对强化学习基础设施中的一个长期低效环节:把复杂环境从参考实现翻译成高性能可训练后端,往往需要数月专门工程工作。作者直接把这个问题当作可自动化的软件与系统生成任务,目标不是再做一个环境,而是自动生成语义等价且高吞吐的 RL 环境实现。 方法上,论文提出一套可复用 recipe,包括通用 prompt 模...
发表:2026-03-12 · 突破级
continual RL for VLA 直觉上应该很难,因为传统 continual learning 经验会预期 sequential fine-tuning 带来明显灾难性遗忘。这篇论文的价值就在于它系统性地检验了这个假设,并给出一个反直觉结果:对大型预训练 VLA 来说,简单的 sequential f...
发表:2026-03-09 · 突破级
这篇论文关注机器人 world model 训练里的一个关键瓶颈:现有视频世界模型虽然能从大规模机器人数据中学习,但在接触密集、长尾物体交互上仍然很难保持物理一致性,而且训练数据通常偏向人类成功示范。对本仓库来说,它不是单纯的视频生成改进,而是机器人世界模型的数据来源和训练闭环问题。 PlayWorld 的核心...
发表:2026-03-06 · 突破级
论文解释了 PPO 长程训练中常见的平台期为何出现。作者把 PPO 拆成内循环和外循环,指出真正的问题是外循环步长相对采样噪声过大,导致策略在局部最优附近震荡而不是继续改进。基于这个视角,论文提出通过百万级并行环境扩大 rollout 数据量,同时保持内循环设置不变,仅增加优化步数,从而把 PPO 的有效学习范...
发表:2026-03-04 · 突破级
大多数学习式机器人控制器在离线训练后以固定参数部署,真正上线后遇到分布偏移时基本没有持续改进能力。这篇论文把问题前推到 deployment-time adaptation:机器人如何利用自己的世界模型反馈,在运行中自主发现失配并触发持续学习。 具体做法建立在 DreamerV3 上,用 world model...
发表:2026-03-04 · 突破级
机器人 manipulation 研究长期缺的是可复现、可扩展、又足够贴近真实世界的统一 benchmark。ManipulationNet 直接把这个问题作为基础设施问题处理,而不是再新增一个局部任务集:它试图建立一个分布式的真实机器人 manipulation benchmark 网络,让不同实验室在标准化...
发表:2026-02-26 · 突破级
这篇论文处理的是机器人学习长期存在但一直缺少统一解决方案的问题:从低层电机与中间件通信、遥操作采集、数据集存储与流式传输,到训练、评测和真实机器人部署,整条链路通常被切碎在互不兼容的私有工具中。结果是复现困难、系统迁移成本高,而且很多研究成果只能停留在局部算法演示,难以形成可持续扩展的真实世界机器人学习工作流...
发表:2026-02-23 · 突破级
智能体规划要跨出 primitive action 的细粒度控制,往往需要 temporal abstraction,但把预训练策略当作 temporally extended actions 后,长时预测误差会迅速积累。Jumpy world models 这篇工作把问题明确成“如何直接预测策略组合在多时间尺...
发表:2026-02-22 · 突破级
问题与背景:VLA 被视为通用机器人策略路径,但长程结构化任务是否必须依赖端到端基础模型并不清楚。论文用相同任务和能耗指标正面比较 VLA fine-tuning 与 neuro-symbolic planning。 方法与新意:对照系统把 PDDL 符号规划和学习型低层控制组合起来,与微调的开放 VLA 在...
发表:2026-02-20 · 突破级
这篇论文试图改写当前 agent RL 的一个核心训练视角:模型不应只从奖励信号里被动更新,而应显式地把过去轨迹转化为可复用的经验,并在后续决策中继续消费这些经验。作者把这一点 formalize 成 Experiential Reinforcement Learning,强调 experience 本身是学习...
发表:2026-02-17 · 颠覆级
这篇论文提出 World Action Model 路线,把机器人策略从典型 VLA 的观察-语言-动作映射转向同时建模未来世界状态和动作。对本仓库来说,它的关键价值不是单个机器人 benchmark,而是 embodied AI 中 world model 与 action generation 的统一接口...
发表:2026-01-29 · 突破级
问题与背景:在极高速机器人控制场景中,传统数字控制与大模型推理往往受制于延迟和能耗。神经形态硬件提供了低功耗、事件驱动的替代路线,但如何让‘慢硅神经元’有效控制极快系统一直是挑战。 方法/新意:论文将脉冲神经网络、神经形态处理器和强化学习联合设计,通过局部学习和硬件协同,让混合模拟/数字神经元系统直接承担实时控...
发表:2026-01-28 · 突破级
问题与背景:类人多指灵巧操作需要高维动作协调、复杂接触动力学和遮挡下的稳定感知,传统模型控制和纯 RL 都面临样本效率与泛化困难。 方法与机制:论文采用两阶段学习框架,先从人类示范中以自监督方式学习视觉-触觉融合表征,再通过强化学习与在线模仿学习训练统一多任务策略。系统只使用单目图像和简单二值触觉信号。 为什么...
发表:2026-01-09 · 突破级
传统水下机器人通常被固定形态和单一运动模式束缚,这使它们在复杂环境里很难兼顾稳定性、机动性、速度和任务多样性。相比单体系统,可重构群体更接近一种“形态即能力”的路径。 这篇论文提出可自主组装/解组装的 robotic fish swarm,利用 electropermanent magnets 完成物理重构和模...
发表:2026-01-09 · 突破级
软体机器人一直受限于控制器难以跨任务、跨构型和跨扰动泛化。相比固定刚体系统,软体形态带来的高维耦合、负载变化和执行器故障让控制器往往只能围绕单一平台精调。 这篇论文提出一种受神经 structural/plastic synapse 启发的控制框架,把 task-agnostic 的离线结构与在线误差驱动更新拆...
发表:2026-01-06 · 突破级
多指灵巧手的 sim-to-real 一直比常规操作任务更难,因为接触丰富、执行器不理想,而且真实系统通常缺少高质量力觉和扭矩观测。很多方法能在模拟器里学到动作,但无法真正做到零样本落到硬件上。 这篇工作的关键在于把几件真正决定 transfer 的系统组件补全:高频虚拟触觉模拟、无需额外扭矩传感器的 curr...
发表:2025-11-28 · 突破级
这篇论文解决的是模型驱动强化学习里的两个长期痛点:样本效率和可解释性。传统 DRL 在控制问题上可以学出很强策略,但往往需要大量交互数据,而且最终策略和动力学都被埋进黑盒神经网络里,不利于信任、部署和科学理解。作者试图把稀疏动力学发现和强化学习接到一起,让控制系统既学得动,又看得懂。 方法上的核心是把 SIND...
发表:2025-10-23 · 突破级
open-world embodied navigation 的真实难点不只是能否在固定类别集合上学会目标导航,而是环境、对象类别和任务分布都在持续变化。现有 object navigation 方法大多假设训练类别固定、轨迹静态,这与机器人长期部署时不断遇到新类别并同时保留旧能力的需求并不一致。 C-NAV...
发表:2025-10-01 · 突破级
这篇 ICCV 2025 论文把 Diffusion Transformer 扩展到通用 VLA policy,关注视觉、语言和动作之间的统一策略生成。它不是局部控制技巧,而是面向 generalist robot policy 的架构扩展。 方法价值在于把扩散式动作生成和 transformer scalin...
发表:2025-10-01 · 突破级
这篇 ICCV 2025 论文把第一视角视频和具身传感器转化为可持续更新的场景记忆,用于动态场景理解。它针对的是 embodied agent 在真实环境中持续观察、记住和理解变化的能力。 它的系统价值在于 persistent memory:agent 不应把每段视频当孤立输入,而需要维护跨时间的场景状态、物...
发表:2025-10-01 · 突破级
这篇 ICCV 2025 论文关注一个核心具身智能问题:如何把普通视频里的动作经验转化为机器人可学习、可迁移的操作表示。它不是只做视觉识别,而是把视频动作压缩成 latent motion token,作为视频、语言和机器人控制之间的桥接语言。 方法价值在于把动作学习的中间层显式化:motion token 既...
发表:2025-09-19 · 突破级
## 问题与背景 问题与背景:偏好强化学习在机器人里很有潜力,但长期受制于人类反馈成本高、早期轨迹难比较、credit assignment 弱等问题。尤其在复杂操作和 locomotion 任务里,单一模态反馈常常不稳定。 ## 方法/新意 方法/新意:PRIMT 利用 foundation models 生...
发表:2025-08-25 · 突破级
机器人政策训练越来越依赖 learned world model 来降低真实交互成本,但传统 image-based world model 缺少稳定的三维几何表示,很难在机器人操作场景里同时保持空间一致性、物理合理性和可扩展的数据利用效率。这限制了它们作为训练基础设施的上限。 GWM 的核心思路是把机器人未来...
发表:2025-08-19 · 突破级
这篇论文切入的是 RLVR 在推理模型训练中的一个真实瓶颈:模型在固定问题集上很快吃完高价值学习信号,导致继续训练时收益迅速枯竭。作者提出要让 RLVR 超越单次 pass@1 优化,关键不只是继续 rollout,而是通过 self-play 与 variational problem synthesis 持...
发表:2025-06-01 · 突破级
这篇 CVPR 2025 论文提出 manual-based appliance manipulation benchmark:机器人需要阅读说明书、理解设备结构和操作步骤,再完成真实/仿真的家电操作。它把文档理解和具身操作结合到同一任务里。 它的关键价值在于评估 embodied agent 如何使用外部程序...
发表:2025-06-01 · 突破级
这篇 CVPR 2025 论文面向双臂操作这个高价值机器人问题,提出基于 generative digital twins 的 RoboTwin benchmark。它不仅给任务集合,还强调如何用生成式数字孪生扩展场景和评估条件。 它的核心价值是把机器人 benchmark 与生成式仿真基础设施结合起来。双臂任...
发表:2025-03-12 · 突破级
双臂机器人操作常被统一建模成一个同时接收两只手观测和状态、再直接输出联合动作的大模型。但这类 integrated-control 设定默认所有任务都需要强耦合协作,忽略了大量其实只需要弱耦合甚至局部独立决策的子问题,结果既增加模型复杂度,也削弱了对不同协作结构的表达能力。 这篇工作的关键新意是提出 decou...
发表:2025-03-11 · 突破级
把 outcome-only reinforcement learning 直接搬到 VLM agent 上,并不会自然长出稳定的 chain-of-thought。相反,在视觉环境里的多步 action reasoning 中,模型很容易迅速退化成低多样性、与状态脱节、且不完整的思维轨迹。GTR 这篇工作的价...
发表:2024-12-24 · 突破级
通用 embodied agent 和 Vision-Language-Action 模型开始具备处理语言条件操控任务的潜力,但现有 benchmark 对世界知识迁移、隐含意图理解和长时程多步任务覆盖不足,难以系统检验这类模型是否真正接近通用操作能力。VLABench 的目标就是把这类缺口明确成一个可复用的评...
发表:2024-12-09 · 突破级
通用双臂机器人操作一直受制于数据成本:双臂动作空间更高、采集更贵、泛化更难,而这与单臂策略近年依靠更大模型和更大数据实现快速扩展形成了鲜明对比。如果双臂系统每次都要从头收集和训练,就很难跟上机器人基础模型的扩张速度。 AnyBimanual 的核心思路是把预训练单臂 policy 直接当作双臂策略的知识底座,再...
发表:2024-06-20 · 突破级
机器人操作中的 world model 一直受限于一个很具体但关键的问题:动作和视觉结果之间往往对不齐,尤其在精细交互场景里,已有方法难以稳定建模机器人与物体之间的细粒度接触和状态变化。这直接限制了 world model 在策略评估、规划和测试时扩展中的实际价值。 IRASim 的核心做法是训练一个面向机器人...