ParetoBandit: Budget-Paced Adaptive Routing for Non-Stationary LLM Serving

推理、记忆与推理时控制突破级暂无讲解视频

发表时间: 2026-03-31
arXiv: 2604.00136

收录解读

真实 LLM serving 往往不是固定模型单点部署，而是跨成本区间巨大的多模型组合。问题在于，这个质量-成本 trade-off 不是静态的：模型价格会变、质量会漂移、新模型会热插拔上线，而很多现有 router 仍假定环境近似静止。

论文提出 ParetoBandit，把 open-ended serving stream 下的 budget control、online adaptation 和 runtime hot-swap 合到一个 cost-aware contextual bandit 框架里。核心包括 online primal-dual budget pacer、对 sufficient statistics 做 geometric forgetting 以适应价格和质量漂移，以及支持新模型上线后短暂强制探索再进入 UCB 选择的 hot-swap registry。实验表明，它能在严格预算约束下快速适应价格变化、静默质量回归和新模型冷启动。

这篇工作值得收录，因为它把 LLM router 从静态离线选择器推进成了真正面向 production drift 的在线控制层。对于企业级 multi-model serving、cost-quality governance 和不停机演化，这种 budget-paced adaptive routing 明显比只比平均精度的 router 更有系统价值。

它没有升到更高一级，是因为方法仍主要建立在 bandit/online control 框架上，更多是把 serving 路线做稳、做实用，而不是重写整个 LLM serving 栈的范式。它是很好的系统方法，但不宜拔得过高。

链接

论文链接