如何极低成本部署百万个专属AI？新研究用Rank16黄金甜点区破除显存瓶颈 | DAST Papers

对应论文

On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

视频简介

这篇论文把 PEFT 从便宜微调手段提升为一种持久本地状态接口：共享大模型负责通用能力，小型 adapter 承载个人偏好、技能、工具习惯和记忆式更新。论文围绕 Scale Up、Scale Down、Scale Out 三个轴研究 adapter 如何随着基础模型变强、adapter 变小、实例数量变多而工作，并提出 MinT 作为 adapter 身份、版本、来源、评估和服务驻留的基础设施示例。它值得收录，因为它把 LoRA/adapter 与个人模型、agent memory、能力注入和模型服务基础设施连接起来，具有明显系统复用价值。按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

外部视频链接

论文链接

论文详情页