FrameSkip: Learning from Fewer but More Informative Frames in VLA Training

机器人与具身智能突破级暂无讲解视频

收录解读

FrameSkip 关注 VLA 训练数据层面的 temporal supervision imbalance：机器人轨迹中许多帧信息量低，但标准训练同等使用所有帧，浪费训练预算并稀释关键动作变化。

它用 action variation、visual-action coherence、task progress 和 gripper-transition preservation 估计帧重要性，并按比例保留更有监督价值的帧，是 architecture-agnostic 的数据层方法。

它值得正式收录，因为它提供了 VLA 训练效率和数据选择的可复用 primitive，不依赖特定模型结构，适合大规模机器人数据清洗和训练。

它没有更高，是因为它更像强工程 primitive，而不是完整新 VLA 范式；效果边界仍受任务分布和重要性指标质量影响。