HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

强化学习突破级暂无讲解视频

收录解读

问题与背景：端到端 VLA 微调常牺牲底座 VLM 的语义推理能力，而低层控制又需要高分辨率对象细节和技能条件。

方法与新意：HiVLA 显式分离高层 VLM planner 和低层 DiT action expert。高层生成子任务和目标框，低层用 cascaded cross-attention 融合全局上下文、对象 crop 与技能语义执行动作。

收录意义：这篇对机器人/VLA 主线有价值，因为它把 VLA 设计从单一端到端策略推进到语义规划、视觉 grounding 和动作生成可独立优化的层级结构。

局限：虽然含真实实验，但框架的通用性还需要更多任务、更多机器人形态和更长 horizon 验证。