Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

强化学习突破级暂无讲解视频

收录解读

这篇 ICCV 2025 论文把 Diffusion Transformer 扩展到通用 VLA policy，关注视觉、语言和动作之间的统一策略生成。它不是局部控制技巧，而是面向 generalist robot policy 的架构扩展。

方法价值在于把扩散式动作生成和 transformer scaling 结合起来，用于处理多任务、多模态条件下的动作序列。对 VLA pipeline、机器人策略预训练和泛化操作都有直接参考意义。

按本库标准，它属于机器人基础模型方向的正式收录项，因为贡献形态是可复用 policy architecture，而不是单个机器人任务胜率。

局限是 diffusion policy 在实时控制、长程规划和真实世界鲁棒性上仍有成本与稳定性问题；generalist 规模化效果也需继续观察。