Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

多模态基础模型突破级暂无讲解视频

收录解读

这篇 ACL 2025 论文关注视觉生成模型评估问题：固定指标很难覆盖用户想要的质量、对齐、细节一致性和任务特定要求。Evaluation Agent 把评估做成可 prompt 的 agentic framework。

它的复用价值在于评测接口：用户可以指定评价维度，系统通过更结构化的检查流程评估生成结果。这比单一 CLIPScore、FID 或一次性 VLM judge 更接近可操作评估工作流。

按本库标准，它属于 multimodal generation 的 durable evaluation workflow。生成模型竞争越来越依赖评估可靠性，这类 promptable evaluation agent 有明显基础设施价值。

局限是 agent judge 仍会继承底座 VLM 偏差，评估一致性、抗提示操纵和与人类偏好的校准需要持续验证。