收录解读
改进语言模型的 policy optimization 算法一直高度依赖研究者手工试错,因为它不只是调参数,而是要围绕训练动力学、机制改写和评测证据持续迭代。POISE 处理的正是这个层面的问题:能不能让 LLM agents 不只是帮人跑实验,而是自己形成提案、实现、验证和反思闭环,从而发现新的 LLM-RL 算法机制。
论文提出一个闭环算法发现框架,维护带 genealogy 的 archive,把 proposal、可执行实现、标准化评测和自然语言反思全部串起来,支持 evidence-driven iteration。以 GRPO 为起点,系统在 64 个候选里发现了 analytic-variance scaling 和 validity masking 等更优机制,并在数学推理训练里显著提升了 weighted Overall 和 AIME25 pass@32。
它值得正式收录,因为它给出了“LLM agents 发现 RL algorithm mechanism”的硬证据,而不是泛泛的 AI scientist 叙事。对 autoresearch、自我改进 agent、post-training algorithm discovery 以及 agent-driven ML systems research 都有明确外溢,也和仓库已收录的 autoresearch 主线形成闭环。
它目前仍是 breakthrough,而不是更高一级,因为当前验证仍集中在一条 LLM-RL 算法族和数学推理评测上。它已经说明 agent 可以参与机制级算法发现,但距离广泛迁移到更多研究领域和更开放的发现任务,还有一段距离。