机器人与具身智能
突破级
暂无讲解视频
核心要点
- 问题/背景
- 这篇论文针对 VLA 模型的结构性问题:预训练 VLM 的语义空间和机器人控制策略之间存在错配,直接从语言/图像到动作会削弱精确的 perception-action mapping。
- 方法/机制
- AffordanceVLA 把 affordance forecasting 做成任务导向的中间表示,拆成 Which2Act、Where2Act 和 How2Act 三个层次:先做对象级 grounding,再预测 2D interaction affordance map,最后引入 3D 几何推理指导操作策略。
- 结果/证据
- 系统把这些线索接入 Mixture-of-Transformer 架构,并用三阶段训练和渐进式数据课程处理密集 affordance 标注稀缺问题。
- 收录价值
- 收录价值在于它和刚入库的 Affordance2Action 形成互补:一个偏 benchmark/data pipeline,一个偏 VLA policy architecture,共同说明 affordance-aware intermediate representation 正在成为机器人操作的新接口。
原始摘要与中文对照
中文对照翻译
AffordanceVLA: 一个通过可供性感知理解赋能动作生成的视觉-语言-动作模型 Qize Yu1,† , Jiadi You2,† , Yuran Wang1 , Jiaqi Liang1 , Bowen Ping1 , Yang Tian1 , Yue Chen1 , Minghong Cai3 , Zeying Gong2 , Ruihai Wu1 , Yinchuan Li4 , Junwei Liang2,∗ , Yingcong Chen2,∗
原始摘要
AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding Qize Yu1,† , Jiadi You2,† , Yuran Wang1 , Jiaqi Liang1 , Bowen Ping1 , Yang Tian1 , Yue Chen1 , Minghong Cai3 , Zeying Gong2 , Ruihai Wu1 , Yinchuan Li4 , Junwei Liang2,∗ , Yingcong Chen2,∗