机器人与具身智能 突破级 暂无讲解视频
发表时间
2026-06-04
arXiv
2606.06155

核心要点

问题/背景
这篇论文针对 VLA 模型的结构性问题:预训练 VLM 的语义空间和机器人控制策略之间存在错配,直接从语言/图像到动作会削弱精确的 perception-action mapping。
方法/机制
AffordanceVLA 把 affordance forecasting 做成任务导向的中间表示,拆成 Which2Act、Where2Act 和 How2Act 三个层次:先做对象级 grounding,再预测 2D interaction affordance map,最后引入 3D 几何推理指导操作策略。
结果/证据
系统把这些线索接入 Mixture-of-Transformer 架构,并用三阶段训练和渐进式数据课程处理密集 affordance 标注稀缺问题。
收录价值
收录价值在于它和刚入库的 Affordance2Action 形成互补:一个偏 benchmark/data pipeline,一个偏 VLA policy architecture,共同说明 affordance-aware intermediate representation 正在成为机器人操作的新接口。
完整收录解读

这篇论文针对 VLA 模型的结构性问题:预训练 VLM 的语义空间和机器人控制策略之间存在错配,直接从语言/图像到动作会削弱精确的 perception-action mapping。

AffordanceVLA 把 affordance forecasting 做成任务导向的中间表示,拆成 Which2Act、Where2Act 和 How2Act 三个层次:先做对象级 grounding,再预测 2D interaction affordance map,最后引入 3D 几何推理指导操作策略。

系统把这些线索接入 Mixture-of-Transformer 架构,并用三阶段训练和渐进式数据课程处理密集 affordance 标注稀缺问题。

收录价值在于它和刚入库的 Affordance2Action 形成互补:一个偏 benchmark/data pipeline,一个偏 VLA policy architecture,共同说明 affordance-aware intermediate representation 正在成为机器人操作的新接口。

原始摘要与中文对照

中文对照翻译

AffordanceVLA: 一个通过可供性感知理解赋能动作生成的视觉-语言-动作模型 Qize Yu1,† , Jiadi You2,† , Yuran Wang1 , Jiaqi Liang1 , Bowen Ping1 , Yang Tian1 , Yue Chen1 , Minghong Cai3 , Zeying Gong2 , Ruihai Wu1 , Yinchuan Li4 , Junwei Liang2,∗ , Yingcong Chen2,∗

原始摘要

AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding Qize Yu1,† , Jiadi You2,† , Yuran Wang1 , Jiaqi Liang1 , Bowen Ping1 , Yang Tian1 , Yue Chen1 , Minghong Cai3 , Zeying Gong2 , Ruihai Wu1 , Yinchuan Li4 , Junwei Liang2,∗ , Yingcong Chen2,∗

相关论文

链接