Hardware-Software Co-design for 3D-DRAM-based LLM Serving Accelerator

AI 硬件与加速器突破级暂无讲解视频

发表时间: 2026-03-05
arXiv: 2603.04797

收录解读

这篇论文解决的是 LLM 在线服务里一个非常现实的硬件问题：现有近存计算/NMP 方案通常假设比较规整的执行流，但真实 serving 工作负载会不断变化，KV cache 管理和 attention 执行流都高度动态。对本仓库来说，它属于 AI accelerator 设计里最值得收的一类，即直接面向 LLM serving 这一主战场的硬件软件协同设计。

作者提出 Helios，一套基于 3D-DRAM/NMP 的 LLM serving accelerator，不只改了算子实现，还同时设计了 PE 内执行流、PE 间通信原语以及面向动态 workload 的空间感知 KV cache 分配机制。它的贡献不是单点提速，而是把 serving workload 的动态性纳入硬件抽象与资源分配本身。

它值得正式收录，是因为这代表了硬件扩展范围里最有价值的类型：不是普通器件或电路结果，而是会改变 AI 系统该如何组织内存、通信和执行流的架构论文。对 LLM serving、near-memory acceleration 和实际在线推理系统都有明显外溢。

它没有升到更高等级，是因为虽然系统价值很强，但还主要是一条具体的 serving accelerator 路线，尚未证明会成为更广泛 AI 硬件设计的通用蓝图。

链接

论文链接