Expert Streaming: Accelerating Low-Batch MoE Inference via Multi-chiplet Architecture and Dynamic Expert Trajectory Scheduling

AI 硬件与加速器突破级暂无讲解视频

发表时间: 2026-03-29
arXiv: 2603.27624

收录解读

MoE 在 edge / low-batch inference 场景里很有吸引力，但真实部署时会同时撞上 expert sparsity、on-chip memory 限制、off-chip access 开销和 workload imbalance。随着 chiplet interconnect 带宽提升，低粒度分布式调度的机会也出现了。

这篇工作的核心新意是提出 Fully Sharded Expert Data Parallelism 及其对应的 dynamic expert trajectory scheduling，把 fine-grained expert streams 沿高带宽 chiplet 链路调度和重叠执行。论文不只是给一个 scheduling trick，而是明确提出一套面向 low-batch MoE inference 的 parallelization paradigm，并配套轻量 virtualization rules 让数据流复杂度可硬件化实现。

它值得正式收录，因为这类工作真正影响的是 AI hardware design space：MoE 推理不再只是把现有大模型搬到 chiplet 上，而是需要新的 sharding、通信和 runtime scheduling 组织方式。对仓库来说，这属于有耐久价值的 architecture/workflow paper，而不是单一 kernel 优化。

它没有升到更高一级，是因为当前范围仍主要集中在 low-batch MoE inference 和 multi-chiplet 这条明确子线，通用性还没有外推到更广的 accelerator family。它是强而清楚的设计模式，但暂时还不到更高一级。

链接

论文链接