智能体与自主科学 突破级 有讲解视频
发表时间
2026-03-16
arXiv
2603.14769

收录解读

这篇论文关注的是一个越来越重要的问题:把大语言模型本身当作优化器,用自然语言提案去优化 prompt、agent 配置、代码或系统策略。但这类优化天然存在两个难点,一是评估通常带噪声,二是 LLM 会不断生成语义相近的冗余候选,导致搜索成本膨胀而收敛变慢。

POLCA 给出的核心框架是用优先级队列管理候选解和评估历史,再用 ε-Net 机制维持参数多样性,并加入一个 LLM Summarizer 在全局历史上做元学习式总结。这样,搜索不再是线性地提出-替换-遗忘,而是变成显式维护探索/利用平衡的随机生成式优化过程。论文还给出理论保证,说明在噪声环境下该框架能够收敛到近似最优候选。

它值得收录,因为它不是单点 prompt optimization,而是在更一般的 stochastic generative optimization 框架下统一处理多类 LLM 优化问题。再加上它横跨 agent optimization、代码转换、CUDA kernel generation 等任务验证,说明这套方法有明显的系统外溢性。对后续自动研究、agent 自优化和程序搜索,这是一条值得保留的高质量路线。

它没有升到更高一级,主要因为它仍是一个方法框架,而不是已经成为行业默认的优化基础设施。理论和实验都很强,但离范式级主导还差一步,因此定为 breakthrough 更稳。

解读视频

链接