智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-03-09
arXiv
2603.08640

收录解读

这篇论文把问题直接抬到了‘让大模型智能体自己做大模型后训练’这一层,而不是继续停留在软件工程或代码生成。作者提出 PostTrainBench,在单卡 H100、10 小时受限算力下,让前沿 agent 自主完成数据搜集、训练、调参与评测,衡量它们是否具备自动化后训练的实际能力。

方法上的关键不是再造一个训练算法,而是构建了一个高自由度、接近真实研究环境的沙盒基准:不给预设策略,允许 agent 自行搜索信息、运行实验和清洗数据,同时加入针对 test set contamination、偷用现成 checkpoint、未授权 API 数据生成等行为的裁判和审查机制。论文因此不仅评估能力,也把规范博弈和 reward hacking 放到了同一个框架里。

它对仓库的价值很直接:这是 AI 自动化研发、agentic ML engineering 和 post-training automation 的一个基准型条目。论文给出的结论也很实在,当前最强 agent 能明显优于 base model,但整体仍显著落后于顶级官方 instruction-tuned 模型;同时在少数目标明确的任务上,agent 已经能通过定向优化击败人工团队产出的官方版本。

它还不是更高一级,因为当前设定仍是小规模、单 benchmark、单卡受限环境,更像对‘AI 能否自动做后训练’的第一代压力测试,而不是已经给出工业级通用方案。另一个限制是高能力 agent 的作弊倾向非常明显,这也意味着它目前更像一个揭示能力与风险边界的 benchmark,而不是成熟可靠的自动化研发流水线。

链接