强化学习
突破级
暂无讲解视频
收录解读
这篇论文指出 VLA 模型评估常只看动作执行成功,却忽略同一动作在不同语义上下文中可能变得危险。正确执行动作并不等于安全执行动作。
HazardArena 通过 safe/unsafe twin scenarios 控制变量:物体、布局和动作要求相同,只有语义风险不同。这样可以专门测 VLA 是否把视觉语言语义和动作安全绑定起来。
按本库标准,它是具身安全/VLA 评估的高价值 benchmark,提供了可复用风险分类、资产集和训练-free safety option layer。
局限是 benchmark 风险仍是受控场景,真实机器人安全还涉及物理不确定性、长期后果和人类交互。