强化学习 突破级 暂无讲解视频
发表时间
2026-04-15
arXiv
2604.14125

收录解读

问题与背景:端到端 VLA 微调常牺牲底座 VLM 的语义推理能力,而低层控制又需要高分辨率对象细节和技能条件。

方法与新意:HiVLA 显式分离高层 VLM planner 和低层 DiT action expert。高层生成子任务和目标框,低层用 cascaded cross-attention 融合全局上下文、对象 crop 与技能语义执行动作。

收录意义:这篇对机器人/VLA 主线有价值,因为它把 VLA 设计从单一端到端策略推进到语义规划、视觉 grounding 和动作生成可独立优化的层级结构。

局限:虽然含真实实验,但框架的通用性还需要更多任务、更多机器人形态和更长 horizon 验证。

链接