How to Train Your Advisor: Steering Black-Box LLMs with Advisor Models

智能体与自主科学突破级暂无讲解视频

发表时间: 2025-10-02
arXiv: 2510.02453

收录解读

越来越多前沿模型以 black-box service 形式部署，调用方既拿不到权重，也很难做真正的参数级定制，最后往往只能在 system prompt 或 prompt optimization 上反复试错。这样的问题不只是可控性差，更在于一旦任务需要细粒度、按实例变化的辅助策略，静态提示很快就会失效。

这篇工作提出 Advisor Models：训练一个小型开源模型，专门针对当前输入生成 per-instance 的自然语言 advice，再把 advice 注入冻结的黑盒前沿模型。关键点不在于普通 prompt engineering，而在于把“如何给黑盒模型提建议”本身做成可训练对象，并证明这种 advisor 可以低成本训练、跨模型迁移，还能在税务规则问答、SWE agent 轨迹效率和个性化偏好场景里稳定带来提升。

它值得正式收录，因为这条路线把 black-box frontier model 的能力定制推进成了一个可复用接口：不改大模型本体，用小模型做动态 steering。对 agent 系统、黑盒模型后训练、部署侧 customization 和模型协作结构，这都有明确的外溢价值，不是一次性的 benchmark trick。

它暂时不升到更高一级，原因在于当前主要还是围绕 advice-based steering 这一条很强的新接口展开，虽然结果漂亮、迁移性也不错，但是否会成为更广泛 frontier-model orchestration 的默认层，还需要更多任务族和产品级采用来验证。

链接

论文链接