Rethinking VLM Representation for VLA Initialization

机器人与具身智能突破级暂无讲解视频

收录解读

VLA 模型普遍用 VLM 作为 backbone，但哪些 VLM 表征真正适合作为 action policy initialization 并不清楚。

这篇论文把 VLA initialization 作为 representation-design problem，系统比较 embodied VQA supervision、参数更新策略和 robot-data pretraining 等因素。

它的贡献不是又提出一个 VLA 模型，而是澄清 VLM 表征如何影响 VLA 初始化和机器人策略学习。

它值得收录，因为 VLA 领域需要从模型堆叠转向表征机制理解，这篇对后续 VLA backbone 选择和预训练设计有指导价值。