机器人与具身智能 突破级 暂无讲解视频
发表时间
2026-05-29
arXiv
2605.30350

收录解读

机器人操控依赖 action-relevant perception,但许多 pipeline 使用静态识别或 VLM alignment 预训练的视觉编码器,把运动理解留给下游策略。

DynaFLIP 把 dynamics-aware multimodal pretraining 放到感知阶段,通过 image-language-3D flow triplets 学习更贴近机器人操作的表征。

这改变了机器人 perception 的分工:不是让 policy 从静态特征中自己学 dynamics,而是让 encoder 本身携带运动和三维变化信息。

它值得收录,因为它为 VLA/robot learning 提供了感知预训练方向的可复用方法,和动态世界理解高度相关。

链接