AI 硬件与加速器 突破级 暂无讲解视频
发表时间
2026-03-05
arXiv
2603.04797

收录解读

这篇论文解决的是 LLM 在线服务里一个非常现实的硬件问题:现有近存计算/NMP 方案通常假设比较规整的执行流,但真实 serving 工作负载会不断变化,KV cache 管理和 attention 执行流都高度动态。对本仓库来说,它属于 AI accelerator 设计里最值得收的一类,即直接面向 LLM serving 这一主战场的硬件软件协同设计。

作者提出 Helios,一套基于 3D-DRAM/NMP 的 LLM serving accelerator,不只改了算子实现,还同时设计了 PE 内执行流、PE 间通信原语以及面向动态 workload 的空间感知 KV cache 分配机制。它的贡献不是单点提速,而是把 serving workload 的动态性纳入硬件抽象与资源分配本身。

它值得正式收录,是因为这代表了硬件扩展范围里最有价值的类型:不是普通器件或电路结果,而是会改变 AI 系统该如何组织内存、通信和执行流的架构论文。对 LLM serving、near-memory acceleration 和实际在线推理系统都有明显外溢。

它没有升到更高等级,是因为虽然系统价值很强,但还主要是一条具体的 serving accelerator 路线,尚未证明会成为更广泛 AI 硬件设计的通用蓝图。

链接