推理、记忆与推理时控制 突破级 暂无讲解视频
发表时间
2026-03-31
arXiv
2604.00136

收录解读

真实 LLM serving 往往不是固定模型单点部署,而是跨成本区间巨大的多模型组合。问题在于,这个质量-成本 trade-off 不是静态的:模型价格会变、质量会漂移、新模型会热插拔上线,而很多现有 router 仍假定环境近似静止。

论文提出 ParetoBandit,把 open-ended serving stream 下的 budget control、online adaptation 和 runtime hot-swap 合到一个 cost-aware contextual bandit 框架里。核心包括 online primal-dual budget pacer、对 sufficient statistics 做 geometric forgetting 以适应价格和质量漂移,以及支持新模型上线后短暂强制探索再进入 UCB 选择的 hot-swap registry。实验表明,它能在严格预算约束下快速适应价格变化、静默质量回归和新模型冷启动。

这篇工作值得收录,因为它把 LLM router 从静态离线选择器推进成了真正面向 production drift 的在线控制层。对于企业级 multi-model serving、cost-quality governance 和不停机演化,这种 budget-paced adaptive routing 明显比只比平均精度的 router 更有系统价值。

它没有升到更高一级,是因为方法仍主要建立在 bandit/online control 框架上,更多是把 serving 路线做稳、做实用,而不是重写整个 LLM serving 栈的范式。它是很好的系统方法,但不宜拔得过高。

链接