MobileLLM-Flash: Latency-Guided On-Device LLM Design for Industry Scale

科学发现旗舰工作突破级有讲解视频

发表时间: 2026-03-16
arXiv: 2603.15954

收录解读

这篇论文关注的是端侧大语言模型设计里一个经常被理论代理指标误导的问题：参数量和 FLOPs 并不能可靠代表真实移动端延迟。作者把问题直接放回工业部署语境中，要求模型不仅要快，还要兼容标准移动端运行时和标准软件栈，避免依赖不可移植的定制算子。

方法上的核心是 hardware-in-the-loop 架构搜索。作者先在真实移动硬件上建立延迟模型，再联合搜索层数、宽度以及注意力模式。论文给出的结论很有操作性：在当前移动 CPU 条件下，浅而宽的模型优于深而窄的模型；标准 runtime 里 skip attention 比 sliding window attention 更实用；并且对预训练模型做结构化剪枝和极少量继续训练，就能高精度预测候选架构在大规模训练后的排序。

这篇工作值得正式收录，因为它不是单纯的 mobile benchmark 论文，而是给出了面向工业级端侧 LLM 的设计原则和搜索方法。对系统设计、边缘部署、runtime-aware architecture search 以及小模型工程路线都有明显外溢，也符合仓库对高价值系统与基础设施论文的收录标准。

它目前适合定为 breakthrough，而不是更高一级。原因是它主要还是集中在移动端 LLM 这一具体部署场景中，虽然工程洞见很强，但影响范围尚未扩展到更广泛的通用模型架构范式替换。

解读视频

B 站 YouTube

链接

论文链接