科学发现旗舰工作 突破级 暂无讲解视频
发表时间
2026-06-04
arXiv
2606.06473

核心要点

问题/背景
这篇论文把自动机器学习算法发现建模为长程 self-evolving agent search,而不是一次性代码生成或单分支试错。
方法/机制
MLEvolve 的核心是 Progressive MCGS:用图式 reference edges 打通不同搜索分支的信息流,并用渐进式调度从广探索切向聚焦 exploitation。
结果/证据
为了让搜索积累经验,系统引入 Retrospective Memory,把 cold-start domain knowledge base 和动态 global memory 结合起来;同时把战略规划和代码生成解耦,用 adaptive coding modes 提高长程迭代稳定性。
收录价值
收录价值在于它把 agent memory、tree/graph search、自动代码迭代和 ML algorithm discovery 合成一个可复用科研/工程发现框架,并声称在 MLE-Bench 和数学算法优化上超过专门方法。
完整收录解读

这篇论文把自动机器学习算法发现建模为长程 self-evolving agent search,而不是一次性代码生成或单分支试错。

MLEvolve 的核心是 Progressive MCGS:用图式 reference edges 打通不同搜索分支的信息流,并用渐进式调度从广探索切向聚焦 exploitation。

为了让搜索积累经验,系统引入 Retrospective Memory,把 cold-start domain knowledge base 和动态 global memory 结合起来;同时把战略规划和代码生成解耦,用 adaptive coding modes 提高长程迭代稳定性。

收录价值在于它把 agent memory、tree/graph search、自动代码迭代和 ML algorithm discovery 合成一个可复用科研/工程发现框架,并声称在 MLE-Bench 和数学算法优化上超过专门方法。

原始摘要与中文对照

中文对照翻译

大型语言模型(LLM)智能体正越来越多地应用于科学发现和机器学习工程(MLE)等长周期任务,其中持续的自演进成为一项关键能力。然而,现有的MLE智能体存在分支间信息隔离、无记忆搜索和缺乏分层控制的问题,这些共同阻碍了长周期优化。我们提出了MLEvolve,一个基于LLM的自演进多智能体框架,用于端到端机器学习算法发现。通过将树搜索扩展到渐进式MCGS,MLEvolve通过基于图的引用边实现了跨分支信息流,并利用熵启发式渐进调度,逐步将搜索从广泛探索转向集中利用。为了让智能体能够随着累积经验而演进,我们引入了回顾性记忆,它将冷启动领域知识库与动态全局记忆相结合,用于任务特定经验的检索和重用。为了实现稳定的长周期迭代,我们通过自适应编码模式进一步将战略规划与代码生成解耦。在MLE-Bench上的评估表明,MLEvolve在12小时预算(标准运行时间的一半)下,在包括平均奖牌率和有效提交率在内的多个维度上实现了最先进的性能。此外,MLEvolve在数学算法优化任务上也超越了包括AlphaEvolve在内的专门算法发现方法,展示了强大的跨领域泛化能力。我们的代码可在https://github.com/InternScience/MLEvolve获取。

原始摘要

Large language model (LLM) agents are increasingly applied to long-horizon tasks such as scientific discovery and machine learning engineering (MLE), where sustained self-evolution becomes a key capability. However, existing MLE agents suffer from inter-branch information isolation, memoryless search, and lack of hierarchical control, which together hinder long-horizon optimization. We present MLEvolve, an LLM-based self-evolving multi-agent framework for end-to-end machine learning algorithm discovery. By extending tree search to Progressive MCGS, MLEvolve enables cross-branch information flow through graph-based reference edges and gradually shifts the search from broad exploration to focused exploitation with an entropy-inspired progressive schedule. To allow the agent to evolve with accumulated experience, we introduce Retrospective Memory, which combines a cold-start domain knowledge base with a dynamic global memory for task-specific experience retrieval and reuse. For stable long-horizon iteration, we further decouple strategic planning from code generation with adaptive coding modes. Evaluation on MLE-Bench shows that MLEvolve achieves state-of-the-art performance across multiple dimensions including average medal rate and valid submission rate under a 12-hour budget (half the standard runtime). Moreover, MLEvolve also outperforms specialized algorithm discovery methods including AlphaEvolve on mathematical algorithm optimization tasks, demonstrating strong cross-domain generalization. Our code is available at https://github.com/InternScience/MLEvolve.

相关论文

链接