强化学习 | DAST Papers

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

发表：2026-05-01 · 突破级

这篇论文最值钱的不是又把某个机器人任务做到了 95%，而是把 generalist robot policy 的 post-deployment improvement 写成了 fleet-scale 闭环。它关心的是部署之后如何持续吸收真实物理经验，而不是把所有能力都押在离线预训练上。方法上它把 offli...

HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models

发表：2026-04-14 · 突破级

这篇论文指出 VLA 模型评估常只看动作执行成功，却忽略同一动作在不同语义上下文中可能变得危险。正确执行动作并不等于安全执行动作。 HazardArena 通过 safe/unsafe twin scenarios 控制变量：物体、布局和动作要求相同，只有语义风险不同。这样可以专门测 VLA 是否把视觉语言语义...

Learning Humanoid Navigation from Human Data

发表：2026-04-01 · 突破级

humanoid navigation 通常依赖大量机器人自身数据、任务特定训练和后续 finetuning，因此跨环境泛化成本很高。EgoNav 提出的核心问题是：能不能直接从人类行走数据里学到足够强的 navigation prior，再零样本迁移到 humanoid 机器人。论文给出一套完整系统：用 5...

GigaWorld-Policy: An Efficient Action-Centered World--Action Model

发表：2026-03-18 · 突破级

这篇论文处理的是视频生成式 world-action model 在机器人策略学习中的部署瓶颈。已有 WAM 借用视频生成 backbone 同时推理未来视觉动态和动作，但这种联合建模在执行时很慢，而且动作质量会被未来视频预测质量拖累，不适合低延迟真实机器人控制。 GigaWorld-Policy 将 WAM...

Fast-WAM: Do World Action Models Need Test-time Future Imagination?

发表：2026-03-17 · 突破级

这篇论文关注 embodied world model 里一个非常具体但很关键的问题：World Action Models 的收益，到底主要来自测试时显式未来想象，还是来自训练时的视频建模信号。它不是单纯继续堆更慢的 imagine-then-execute，而是在问这条路线里真正有效的因果因素是什么。作者...

World Action Models are Zero-shot Policies

发表：2026-02-17 · 颠覆级

这篇论文提出 World Action Model 路线，把机器人策略从典型 VLA 的观察-语言-动作映射转向同时建模未来世界状态和动作。对本仓库来说，它的关键价值不是单个机器人 benchmark，而是 embodied AI 中 world model 与 action generation 的统一接口...