DUET: Disaggregated Hybrid Mamba-Transformer LLMs with Prefill and Decode-Specific Packages

AI 硬件与加速器突破级暂无讲解视频

发表时间: 2026-03-16
arXiv: 2603.15530

收录解读

这篇论文针对 hybrid Mamba-Transformer 模型提出了一个硬件层面的关键观察：prefill 和 decode 不只是负载不同，而是对架构与封装的需求都不同，因此单一同构加速器很难同时做好两者。对本仓库来说，这正是 AI 硬件设计里最值得关注的“结构性设计结论”。

DUET 的做法是把 prefill 和 decode 分别放到不同 package：prefill 用偏矩阵乘法友好的 systolic-array chiplets，decode 用带高带宽封装内存的 vector-unit arrays。它不只是调度层区分阶段，而是把阶段不对称性直接落实到 package-level disaggregation 与 runtime-configurable hybrid support 上。

它值得正式收录，是因为这提供了一个非常清晰的硬件设计原则：对于混合型大模型，prefill/decode asymmetry 应该成为加速器与封装拆分的一级设计变量。这个结论对 hybrid LLM、芯粒化设计和未来大模型硬件分层都有直接参考价值。

它没有升到更高等级，是因为虽然 insight 很强，但适用范围目前仍主要围绕 hybrid Mamba-Transformer LLM 及其推理阶段拆分，尚未上升到更广泛 AI accelerator 标准。

链接

论文链接