Self-Improving Language Models with Bidirectional Evolutionary Search

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-05-27
arXiv: 2605.28814

收录解读

这篇论文关注 self-improving language models 中 search 的两个瓶颈：验证信号稀疏，以及 autoregressive expansion 只在模型高概率区域附近探索。

Bidirectional Evolutionary Search 同时做 forward candidate evolution 和 backward goal decomposition：前者用 recombination 等 evolution operators 生成单次 rollout 难到达的候选，后者把目标分解为可检查子目标以提供更密集反馈。

论文给出理论动机，说明 expansion-only search 会受限在较窄 entropy shell，而 evolutionary operators 和 backward decomposition 能扩大有效探索并降低采样需求。

它值得收录，因为它把 inference-time search、post-training data generation 和 self-improving agents 连接到一个可复用搜索框架，对自演化模型和 agentic reasoning 都有直接价值。

链接

论文链接代码