CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models

机器人与具身智能突破级暂无讲解视频

发表时间: 2026-05-11
arXiv: 2605.10903

收录解读

CapVector 针对 VLA 机器人模型的一个现实瓶颈：标准 SFT 简单但适应慢，带辅助目标的 finetuning 能提升空间感知或长程推理等能力，却会带来额外模块、额外前向和训练开销。

论文把辅助目标带来的通用能力增益与任务动作拟合拆到参数空间中处理：用同一小规模任务集训练标准 SFT 和辅助目标 SFT 两个模型，将二者参数差解释为 capability vector，再合并回预训练 VLA 得到 capability-enhanced meta model，并用轻量 orthogonal regularization 在下游 SFT 中减少能力遗忘。

它值得正式收录，因为它给机器人 foundation policy 提供了可复用的能力注入接口：把复杂辅助训练的收益压缩成可迁移参数向量，让新任务可以用接近标准 SFT 的成本继承空间/推理能力。对 VLA、PEFT、模型合并和机器人快速适配都有外溢价值。

它没有更高，是因为方法仍依赖作者选择的 capability extraction 任务和 VLA 家族；跨更大模型、更多真实机器人平台和非作者辅助目标的稳定性还需要独立验证。

链接

论文链接项目代码代码