From AI Assistant to AI Scientist: Autonomous Discovery of LLM-RL Algorithms with LLM Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-25
arXiv: 2603.23951

收录解读

改进语言模型的 policy optimization 算法一直高度依赖研究者手工试错，因为它不只是调参数，而是要围绕训练动力学、机制改写和评测证据持续迭代。POISE 处理的正是这个层面的问题：能不能让 LLM agents 不只是帮人跑实验，而是自己形成提案、实现、验证和反思闭环，从而发现新的 LLM-RL 算法机制。

论文提出一个闭环算法发现框架，维护带 genealogy 的 archive，把 proposal、可执行实现、标准化评测和自然语言反思全部串起来，支持 evidence-driven iteration。以 GRPO 为起点，系统在 64 个候选里发现了 analytic-variance scaling 和 validity masking 等更优机制，并在数学推理训练里显著提升了 weighted Overall 和 AIME25 pass@32。

它值得正式收录，因为它给出了“LLM agents 发现 RL algorithm mechanism”的硬证据，而不是泛泛的 AI scientist 叙事。对 autoresearch、自我改进 agent、post-training algorithm discovery 以及 agent-driven ML systems research 都有明确外溢，也和仓库已收录的 autoresearch 主线形成闭环。

它目前仍是 breakthrough，而不是更高一级，因为当前验证仍集中在一条 LLM-RL 算法族和数学推理评测上。它已经说明 agent 可以参与机制级算法发现，但距离广泛迁移到更多研究领域和更开放的发现任务，还有一段距离。

链接

论文链接