智能体与自主科学 颠覆级 暂无讲解视频
发表时间
2026-01-15
arXiv
2601.10402

收录解读

- 分级:`颠覆性` - 正式标题:`Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering` - 原文:`2026-01-15-A2_ML_Master_2_0-Toward_Ultra_Long_Horizon_Agentic_Science_Cognitive_Accumulation_for_Machine_Lea.pdf` - 抽取:`extracted.md`

## 重写摘要

这篇论文瞄准的是科研代理最难的一类问题:不是单次推理,而是长时间、多轮试错、跨任务复用的持续研究。作者提出“认知累积”框架,把科研代理的上下文管理从简单的对话拼接,升级为分层缓存和长期经验沉淀。核心思想是:把短期执行轨迹不断蒸馏成稳定知识,再在新任务中复用,而不是让代理每次都从头滚上下文。

论文把这一思路落在机器学习工程场景中,并报告 ML-Master 2.0 在长预算设置下取得 56.4% 的 medal rate。这说明作者不是只在 toy task 上讲概念,而是在比较接近真实工程循环的环境里验证了“长时程记忆组织”本身的价值。

## 为什么重要

很多 agent 系统失败,并不是因为不会一步步推理,而是因为几小时后开始遗忘、漂移和自相矛盾。ML-Master 2.0 提供的是一种更接近“研究操作系统”的方向:把记忆、蒸馏和经验复用变成一等公民。

## 局限

它的收益高度依赖评测环境、工具权限和基础模型能力。缓存蒸馏如果没有严格 provenance 机制,也可能积累偏差并污染后续实验。

链接