智能体与自主科学
突破级
暂无讲解视频
收录解读
随着多模态 agents 开始在网页、移动端和具身环境中执行真实任务,安全评测不能再停留在低保真 API sandbox 或单一攻击脚本上。当前一个核心缺口是:缺少能够跨环境、跨交互形态衡量 situated agents 行为风险的 benchmark。
BeSafe-Bench 的主要贡献是把 situated-agent safety 做成了更接近真实部署的评测对象。它覆盖 Web、Mobile、Embodied VLM 和 Embodied VLA 四类 functional environments,并把九类 safety-critical risk 注入任务指令空间,再结合规则检查和 LLM-as-a-judge 去评估真实环境后果。
这使它具备了比单栈 red-teaming 更强的外溢性。对本仓库来说,它不是普通 benchmark 叠加,而是 agent safety 从单轮内容安全转向跨环境行为安全的一块更耐久的评测基座,能够和 computer-use、robotics、mobile agents 以及多代理系统的后续工作形成稳定接口。
它目前仍是 benchmark 主导而非完整防御框架,而且生态影响还需要更多复用与复现来验证。因此给到 breakthrough 合理,但暂不升到更高等级。