Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents

智能体与自主科学突破级暂无讲解视频

收录解读

这篇 ACL 2025 论文面向 agent reward modeling 的关键缺口：现实 agent 的好坏不只取决于文本答案，还涉及感知、规划、安全边界和动作过程。Agent-RewardBench 把这些维度放进统一评估框架。

它的可复用价值在于定义了 multimodal agent reward model 的评测接口，能用于检验奖励模型是否真的理解任务过程、环境反馈与风险，而不只是偏好一段流畅回答。

按本库标准，它属于 agent 系统评估与安全基础设施方向。随着 RL、process supervision、agent judge、computer-use agent 的发展，跨感知/规划/安全的 reward benchmark 会成为可复用参考。

局限是 benchmark 本身不能保证覆盖全部真实部署风险，且 reward model 的外推能力仍取决于任务采样和标注质量。