安全、治理与可靠性
突破级
暂无讲解视频
收录解读
Agent-ValueBench 指出 agent 的价值表现不能直接等同于底层 LLM 的价值表现,因为 harness、工具、环境和动作轨迹会改变行为。
基准提供 394 个可执行环境、16 个领域、4335 个价值冲突任务和 28 个价值系统,并为任务提供 pole-aligned golden trajectories 与轨迹级 judge。
它值得正式收录,因为 agent safety 正在从文本偏好转向执行轨迹评估;这篇论文把 value evaluation 迁移到 agentic modality。
它没有更高,是因为价值体系覆盖、心理学标注一致性和 judge 可靠性仍然会影响结论。