TOM: A Ternary Read-only Memory Accelerator for LLM-powered Edge Intelligence

AI 硬件与加速器突破级有讲解视频

收录解读

这篇工作针对边缘侧部署大语言模型时最硬的瓶颈之一：片上存储容量与带宽不足导致模型装不下、跑不快，也难以做轻量适配。作者把问题收敛到内存墙，而不是只做局部算子优化，因此切入点对端侧 AI 硬件是成立的。

方法上，TOM 不是单纯做 ternary 量化，也不是单纯做 ROM 存储，而是把 ternary 权重、ROM-SRAM 混合存储、分布式计算单元以及 QLoRA 式可调部分联合起来设计。核心价值在于它把高密度只读权重与少量可训练/可调部分拆开，形成了适合边缘 LLM 的结构化硬件接口。

对这个仓库而言，这篇论文的价值在于它提供了一种清晰的 AI 硬件设计模式：高密度固定参数承载主模型，灵活 SRAM 区承载低成本适配能力。这比普通 edge accelerator 更贴近当前大模型部署现实，也和 LoRA/QLoRA 一类参数高效适配形成了明确的软硬件共设计关系。

它暂时还不适合更高分级，因为验证仍集中在 edge LLM serving 场景，离真正改变通用 AI 加速器设计范式还有距离。当前证据更像是一个很强的架构型突破，而不是已经被广泛证明的长期蓝图。