AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

Qize Yu; Jiadi You; Yuran Wang; Jiaqi Liang; Bowen Ping; Yang Tian; Yue Chen; Minghong Cai; Zeying Gong; Ruihai Wu; Yinchuan Li; Junwei Liang; Yingcong Chen

机器人与具身智能突破级暂无讲解视频

发表时间: 2026-06-04
arXiv: 2606.06155

核心要点

问题/背景: 这篇论文针对 VLA 模型的结构性问题：预训练 VLM 的语义空间和机器人控制策略之间存在错配，直接从语言/图像到动作会削弱精确的 perception-action mapping。
方法/机制: AffordanceVLA 把 affordance forecasting 做成任务导向的中间表示，拆成 Which2Act、Where2Act 和 How2Act 三个层次：先做对象级 grounding，再预测 2D interaction affordance map，最后引入 3D 几何推理指导操作策略。
结果/证据: 系统把这些线索接入 Mixture-of-Transformer 架构，并用三阶段训练和渐进式数据课程处理密集 affordance 标注稀缺问题。
收录价值: 收录价值在于它和刚入库的 Affordance2Action 形成互补：一个偏 benchmark/data pipeline，一个偏 VLA policy architecture，共同说明 affordance-aware intermediate representation 正在成为机器人操作的新接口。

完整收录解读

这篇论文针对 VLA 模型的结构性问题：预训练 VLM 的语义空间和机器人控制策略之间存在错配，直接从语言/图像到动作会削弱精确的 perception-action mapping。

AffordanceVLA 把 affordance forecasting 做成任务导向的中间表示，拆成 Which2Act、Where2Act 和 How2Act 三个层次：先做对象级 grounding，再预测 2D interaction affordance map，最后引入 3D 几何推理指导操作策略。

系统把这些线索接入 Mixture-of-Transformer 架构，并用三阶段训练和渐进式数据课程处理密集 affordance 标注稀缺问题。

收录价值在于它和刚入库的 Affordance2Action 形成互补：一个偏 benchmark/data pipeline，一个偏 VLA policy architecture，共同说明 affordance-aware intermediate representation 正在成为机器人操作的新接口。

原始摘要与中文对照

中文对照翻译

AffordanceVLA: 一个通过可供性感知理解赋能动作生成的视觉-语言-动作模型 Qize Yu1,† , Jiadi You2,† , Yuran Wang1 , Jiaqi Liang1 , Bowen Ping1 , Yang Tian1 , Yue Chen1 , Minghong Cai3 , Zeying Gong2 , Ruihai Wu1 , Yinchuan Li4 , Junwei Liang2,∗ , Yingcong Chen2,∗

原始摘要

AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding Qize Yu1,† , Jiadi You2,† , Yuran Wang1 , Jiaqi Liang1 , Bowen Ping1 , Yang Tian1 , Yue Chen1 , Minghong Cai3 , Zeying Gong2 , Ruihai Wu1 , Yinchuan Li4 , Junwei Liang2,∗ , Yingcong Chen2,∗

链接

论文链接论文链接

核心要点

原始摘要与中文对照

中文对照翻译

原始摘要

相关论文

链接