DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

机器人与具身智能突破级暂无讲解视频

收录解读

机器人操控依赖 action-relevant perception，但许多 pipeline 使用静态识别或 VLM alignment 预训练的视觉编码器，把运动理解留给下游策略。

DynaFLIP 把 dynamics-aware multimodal pretraining 放到感知阶段，通过 image-language-3D flow triplets 学习更贴近机器人操作的表征。

这改变了机器人 perception 的分工：不是让 policy 从静态特征中自己学 dynamics，而是让 encoder 本身携带运动和三维变化信息。

它值得收录，因为它为 VLA/robot learning 提供了感知预训练方向的可复用方法，和动态世界理解高度相关。