强化学习
突破级
暂无讲解视频
收录解读
问题与背景:端到端 VLA 微调常牺牲底座 VLM 的语义推理能力,而低层控制又需要高分辨率对象细节和技能条件。
方法与新意:HiVLA 显式分离高层 VLM planner 和低层 DiT action expert。高层生成子任务和目标框,低层用 cascaded cross-attention 融合全局上下文、对象 crop 与技能语义执行动作。
收录意义:这篇对机器人/VLA 主线有价值,因为它把 VLA 设计从单一端到端策略推进到语义规划、视觉 grounding 和动作生成可独立优化的层级结构。
局限:虽然含真实实验,但框架的通用性还需要更多任务、更多机器人形态和更长 horizon 验证。