POLCA: Stochastic Generative Optimization with LLM

智能体与自主科学突破级有讲解视频

发表时间: 2026-03-16
arXiv: 2603.14769

收录解读

这篇论文关注的是一个越来越重要的问题：把大语言模型本身当作优化器，用自然语言提案去优化 prompt、agent 配置、代码或系统策略。但这类优化天然存在两个难点，一是评估通常带噪声，二是 LLM 会不断生成语义相近的冗余候选，导致搜索成本膨胀而收敛变慢。

POLCA 给出的核心框架是用优先级队列管理候选解和评估历史，再用 ε-Net 机制维持参数多样性，并加入一个 LLM Summarizer 在全局历史上做元学习式总结。这样，搜索不再是线性地提出-替换-遗忘，而是变成显式维护探索/利用平衡的随机生成式优化过程。论文还给出理论保证，说明在噪声环境下该框架能够收敛到近似最优候选。

它值得收录，因为它不是单点 prompt optimization，而是在更一般的 stochastic generative optimization 框架下统一处理多类 LLM 优化问题。再加上它横跨 agent optimization、代码转换、CUDA kernel generation 等任务验证，说明这套方法有明显的系统外溢性。对后续自动研究、agent 自优化和程序搜索，这是一条值得保留的高质量路线。

它没有升到更高一级，主要因为它仍是一个方法框架，而不是已经成为行业默认的优化基础设施。理论和实验都很强，但离范式级主导还差一步，因此定为 breakthrough 更稳。

解读视频

B 站 YouTube

链接

论文链接