多模态基础模型 突破级 暂无讲解视频
发表时间
2026-04-14
arXiv
2604.12887

收录解读

VideoFlexTok 重新审视视频 tokenizer 的表示假设。固定 spatiotemporal grid token 会迫使后续模型逐块预测所有低层细节,即使视频本身的复杂度并不均匀,从而增加学习负担。

论文提出 flexible-length coarse-to-fine video tokenization,先用少量 token 捕获语义和运动等抽象信息,再逐步添加细节 token。token 序列长度随视频复杂度变化,让表示从均匀网格转向复杂度自适应层级。

它值得收录,是因为视频 tokenizer 是视频生成、理解和世界模型的底层接口;可变长度、粗到细的 tokenizer 会改变下游模型如何学习视频结构。这个 primitive 对长视频生成和多模态模型都有溢出价值。

局限在于 tokenizer 改进需要在更大生成模型和不同下游任务中验证,尤其是是否真正降低训练成本和提升长时一致性。

链接