科学发现旗舰工作 突破级 暂无讲解视频
发表时间
2026-06-11
arXiv
2606.13662

核心要点

问题/背景
这篇论文把自主科学发现的核心问题从‘写一个更复杂 agent workflow’转向‘设计 agent environment’,即通过环境约束和接口塑造智能体行为。
方法/机制
EurekAgent 的环境工程包括权限工程、artifact/filesystem/Git 协作、预算工程和 human-in-the-loop 监督,用来放大开放探索、系统化记录和协作,同时压制 reward hacking。
结果/证据
论文在数学、kernel engineering 和机器学习任务上报告 SOTA,并给出低成本发现新 26-circle packing 结果的案例。
收录价值
它值得收录,因为它提出了 autonomous research agent 的可复用操作系统式设计方向:环境、权限、artifact、预算和人类监督共同构成发现能力边界。
完整收录解读

这篇论文把自主科学发现的核心问题从‘写一个更复杂 agent workflow’转向‘设计 agent environment’,即通过环境约束和接口塑造智能体行为。

EurekAgent 的环境工程包括权限工程、artifact/filesystem/Git 协作、预算工程和 human-in-the-loop 监督,用来放大开放探索、系统化记录和协作,同时压制 reward hacking。

论文在数学、kernel engineering 和机器学习任务上报告 SOTA,并给出低成本发现新 26-circle packing 结果的案例。

它值得收录,因为它提出了 autonomous research agent 的可复用操作系统式设计方向:环境、权限、artifact、预算和人类监督共同构成发现能力边界。

原始摘要与中文对照

中文对照翻译

EurekAgent认为,自主科学发现的瓶颈正在从规定智能体工作流程转向工程化智能体运行的环境。该系统构建了权限、工件、预算和人机协作控制,以支持开放式探索,同时减少奖励作弊和监督摩擦。它在数学、内核工程和机器学习任务上报告了最先进的结果,包括以非常低的API成本发现的新的圆堆积结果。

原始摘要

EurekAgent argues that the bottleneck in autonomous scientific discovery is shifting from prescribing agent workflows to engineering the environment in which agents operate. The system structures permissions, artifacts, budgets, and human-in-the-loop controls to support open-ended exploration while reducing reward hacking and supervision friction. It reports state-of-the-art results across mathematics, kernel engineering, and machine learning tasks, including new circle-packing results found with very low API cost.

相关论文

链接