YoCausal: How Far is Video Generation from World Model? A Causality Perspective

多模态生成与世界模型突破级暂无讲解视频

收录解读

随着视频生成被包装成 world model，一个核心问题是模型是否真的理解因果，还是只学习了时间统计相关性。

YoCausal 借鉴认知科学 violation-of-expectation 范式，用真实视频的时间反转作为低成本自然 counterfactual，提出 RSI 评估 arrow-of-time perception，CCI 区分真实因果认知和时间偏置。

对 13 个 SOTA video diffusion models 的结果显示，感知时间箭头并不等于理解因果，现有视频模型与人类因果认知仍有明显差距。

它值得收录，因为 world model 评测不能只看画质和多步一致性，必须区分 temporal plausibility 与 causal understanding；YoCausal 给出了可扩展评测接口。