Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification

多模态基础模型突破级暂无讲解视频

发表时间: 2024-11-22

收录解读

文本生成视频模型正在快速进入机器人、自动驾驶和内容生产等场景，但主流评测仍主要偏向视觉质量与流畅度，对时间一致性和 prompt-to-video 对齐的约束表达能力不足。这在安全敏感场景里尤其成问题，因为真正关键的往往不是画面是否好看，而是视频是否满足跨时间的语义和行为约束。

这篇工作的核心贡献是提出 NeuS-V：把 prompt 转成形式化的时序逻辑规范，再把生成视频转成可验证的自动机表示，用神经-符号形式验证去检查视频是否满足这些时序约束。论文还配套构建了面向 temporally extended prompts 的评测数据集，并报告该指标与人工评估的相关性相对现有指标提升明显。

它值得正式收录，因为它不是又一个视频生成打分器，而是把 text-to-video evaluation 明确推进到可表达、可组合、可检验的时序约束层。这个接口对视频世界模型、多模态生成评测以及安全敏感生成系统都有持续方法价值。

它暂时不升到更高一级，原因在于它首先仍是评测方法而不是生成范式本身；其长期地位还取决于后续是否被更广泛的视频生成、世界模型和安全评测工作采纳为默认对齐指标。

链接

论文链接