AI 硬件与加速器 突破级 暂无讲解视频
发表时间
2026-03-29
arXiv
2603.27624

收录解读

MoE 在 edge / low-batch inference 场景里很有吸引力,但真实部署时会同时撞上 expert sparsity、on-chip memory 限制、off-chip access 开销和 workload imbalance。随着 chiplet interconnect 带宽提升,低粒度分布式调度的机会也出现了。

这篇工作的核心新意是提出 Fully Sharded Expert Data Parallelism 及其对应的 dynamic expert trajectory scheduling,把 fine-grained expert streams 沿高带宽 chiplet 链路调度和重叠执行。论文不只是给一个 scheduling trick,而是明确提出一套面向 low-batch MoE inference 的 parallelization paradigm,并配套轻量 virtualization rules 让数据流复杂度可硬件化实现。

它值得正式收录,因为这类工作真正影响的是 AI hardware design space:MoE 推理不再只是把现有大模型搬到 chiplet 上,而是需要新的 sharding、通信和 runtime scheduling 组织方式。对仓库来说,这属于有耐久价值的 architecture/workflow paper,而不是单一 kernel 优化。

它没有升到更高一级,是因为当前范围仍主要集中在 low-batch MoE inference 和 multi-chiplet 这条明确子线,通用性还没有外推到更广的 accelerator family。它是强而清楚的设计模式,但暂时还不到更高一级。

链接