多模态基础模型
突破级
暂无讲解视频
收录解读
这篇 ACL 2025 论文关注视觉生成模型评估问题:固定指标很难覆盖用户想要的质量、对齐、细节一致性和任务特定要求。Evaluation Agent 把评估做成可 prompt 的 agentic framework。
它的复用价值在于评测接口:用户可以指定评价维度,系统通过更结构化的检查流程评估生成结果。这比单一 CLIPScore、FID 或一次性 VLM judge 更接近可操作评估工作流。
按本库标准,它属于 multimodal generation 的 durable evaluation workflow。生成模型竞争越来越依赖评估可靠性,这类 promptable evaluation agent 有明显基础设施价值。
局限是 agent judge 仍会继承底座 VLM 偏差,评估一致性、抗提示操纵和与人类偏好的校准需要持续验证。