强化学习
突破级
暂无讲解视频
收录解读
这篇 ICCV 2025 论文把 Diffusion Transformer 扩展到通用 VLA policy,关注视觉、语言和动作之间的统一策略生成。它不是局部控制技巧,而是面向 generalist robot policy 的架构扩展。
方法价值在于把扩散式动作生成和 transformer scaling 结合起来,用于处理多任务、多模态条件下的动作序列。对 VLA pipeline、机器人策略预训练和泛化操作都有直接参考意义。
按本库标准,它属于机器人基础模型方向的正式收录项,因为贡献形态是可复用 policy architecture,而不是单个机器人任务胜率。
局限是 diffusion policy 在实时控制、长程规划和真实世界鲁棒性上仍有成本与稳定性问题;generalist 规模化效果也需继续观察。