DeepStack: Scalable and Accurate Design Space Exploration for Distributed 3D-Stacked AI Accelerators

Zhiwen Mo; Guoyu Li; Hao Mark Chen; Yu Cheng; Zhengju Tang; Qianzhou Wang; Lei Wang; Shuang Liang; Lingxiao Ma; Xianqi Zhou; Yuxiao Guo; Wayne Luk; Jilong Xue; Hongxiang Fan

AI 硬件与加速器突破级有讲解视频

发表时间: 2026-04-06
arXiv: 2604.04750

收录解读

这篇论文瞄准的是 AI hardware 里一个越来越关键的结构性问题：随着大模型推理走向跨 chiplet、跨 stack 的 3D memory-rich 系统，设计瓶颈不再只是单个 accelerator kernel，而是 3D memory semantics、interconnect、parallelism strategy 和 serving schedule 的联动搜索。传统模拟器很难在足够准确的同时支撑这种规模的 design space exploration，结果是很多所谓 co-design 实际上只能在非常局部的空间里试探。

作者提出 DeepStack，一个面向 distributed 3D-stacked AI systems 的性能建模和设计探索工具。它在硬件层捕捉 transaction-aware bandwidth、bank activation、buffering 和 thermal-power 行为，在系统层建模 distributed LLM inference 的 parallelization 与 scheduling，并通过 dual-stage network abstraction 与 tile-level compute-communication overlap 等技术把模拟速度做到了比现有模拟器快几个数量级，同时保持与内部 3D 设计、NS-3 和 vLLM serving 的交叉验证精度。

这篇值得正式收录，因为它不只是多一个 accelerator simulator，而是在给 `3D memory + distributed serving + schedule search` 这条 AI compute 主线建立可操作的 co-design interface。论文最有价值的地方在于它暴露出一些 durable design insight，比如 batch size 比 prefill/decode 区分更能主导架构分化，以及并行策略与硬件结构之间存在强耦合，软件后调无法弥补前期不完整的设计搜索。

它目前仍然不是更高一级，因为这是强工具与强 insight 的结合，但证据主要还在 arXiv 与作者自有验证链上，且影响会首先集中在特定一类 3D-stacked/distributed accelerator 设计场景。它已经足够成为 AI hardware 主线里的高质量正式条目，但还没到更高层级。

解读视频

视频观看页 B 站 YouTube

链接

论文链接

收录解读

解读视频

相关论文

链接