机器人与具身智能 突破级 暂无讲解视频
发表时间
2026-05-14
arXiv
2605.13757

收录解读

FrameSkip 关注 VLA 训练数据层面的 temporal supervision imbalance:机器人轨迹中许多帧信息量低,但标准训练同等使用所有帧,浪费训练预算并稀释关键动作变化。

它用 action variation、visual-action coherence、task progress 和 gripper-transition preservation 估计帧重要性,并按比例保留更有监督价值的帧,是 architecture-agnostic 的数据层方法。

它值得正式收录,因为它提供了 VLA 训练效率和数据选择的可复用 primitive,不依赖特定模型结构,适合大规模机器人数据清洗和训练。

它没有更高,是因为它更像强工程 primitive,而不是完整新 VLA 范式;效果边界仍受任务分布和重要性指标质量影响。

链接