VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

多模态基础模型突破级暂无讲解视频

收录解读

VideoFlexTok 重新审视视频 tokenizer 的表示假设。固定 spatiotemporal grid token 会迫使后续模型逐块预测所有低层细节，即使视频本身的复杂度并不均匀，从而增加学习负担。

论文提出 flexible-length coarse-to-fine video tokenization，先用少量 token 捕获语义和运动等抽象信息，再逐步添加细节 token。token 序列长度随视频复杂度变化，让表示从均匀网格转向复杂度自适应层级。

它值得收录，是因为视频 tokenizer 是视频生成、理解和世界模型的底层接口；可变长度、粗到细的 tokenizer 会改变下游模型如何学习视频结构。这个 primitive 对长视频生成和多模态模型都有溢出价值。

局限在于 tokenizer 改进需要在更大生成模型和不同下游任务中验证，尤其是是否真正降低训练成本和提升长时一致性。