系统、硬件与协同设计
突破级
暂无讲解视频
收录解读
MinT 针对后训练和在线服务里的新基础设施问题:当一个组织围绕少数昂贵 base models 产生大量 LoRA/RL policy revisions 时,不能再把每个 policy 都当成完整 checkpoint 管理。
系统把 base model 常驻,把 LoRA adapter revisions 作为可调度、可回滚、可服务的轻量策略单元,在 rollout、update、export、evaluation、serving 和 rollback 之间移动。它同时覆盖 scale up、scale down 和 scale out:支持超过 1T 参数模型训练/服务,adapter-only handoff 显著降低传输成本,并支持百万级 addressable policy catalogs。
它值得正式收录,因为它把 LoRA/adapter 从微调技巧提升成训练-服务一体化的系统对象。对于多策略 RL、agent policy catalogs、持续后训练和大模型 serving 运营,这种 base-resident + adapter revision 管理模式有明确复用价值。
它没有更高,是因为论文来自单一系统报告,外部复现、真实多租户隔离、故障恢复、安全边界和与现有 serving 栈的集成还需要更多证据。