多模态生成与世界模型
突破级
暂无讲解视频
收录解读
随着视频生成被包装成 world model,一个核心问题是模型是否真的理解因果,还是只学习了时间统计相关性。
YoCausal 借鉴认知科学 violation-of-expectation 范式,用真实视频的时间反转作为低成本自然 counterfactual,提出 RSI 评估 arrow-of-time perception,CCI 区分真实因果认知和时间偏置。
对 13 个 SOTA video diffusion models 的结果显示,感知时间箭头并不等于理解因果,现有视频模型与人类因果认知仍有明显差距。
它值得收录,因为 world model 评测不能只看画质和多步一致性,必须区分 temporal plausibility 与 causal understanding;YoCausal 给出了可扩展评测接口。