Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-04-29
arXiv: 2604.26951

收录解读

dLLM 方向一直有一个结构性问题：就算 teacher 很强，现有 distillation 也大多局限在同构 student 上，真正到了 teacher 和 student 架构、attention 机制、tokenizer 都不一致的场景，知识迁移接口就会迅速失灵。TIDE 直接把这个空白补成了一个明确问题定义。

它的价值不只是做出一个更小的 diffusion LLM，而是提出 cross-architecture distillation 这条更耐用的接口。论文把 teacher 在不同 diffusion timestep 下的可靠性、互补遮罩示范、以及跨 tokenizer 对齐一起组织成模块化框架，这使它看起来更像方法原语，而不是单次工程拼装。

从仓库视角看，这种接口对 dLLM 主线很重要：只要 diffusion LLM 继续往小模型、异构 student、不同 tokenizer 生态扩张，TIDE 这种跨架构迁移方法就有明确复用价值。它的外溢不一定覆盖全部生成模型，但在 dLLM 这条线上已经是足够耐用的设计。

它没有升到更高等级，因为当前证据仍主要集中在 diffusion language model 体系内部；是否会外溢成更广的 generative-model compression 标准，还需要更多后续工作验证。

链接

论文链接