Toward Autonomous Long-Horizon Engineering for ML Research

智能体与自主科学突破级暂无讲解视频

收录解读

这篇论文关注 AI research agent 的关键瓶颈：长程 ML 工程不是一次回答，而是要跨任务理解、环境配置、实现、实验、调试和证据归档持续推进。

AiScientist 的核心是 hierarchical orchestration 加 File-as-Bus：控制层保持薄摘要和阶段管理，厚状态则沉淀在文件工作区、代码、实验记录和分析文档中，减少纯对话 handoff 的上下文丢失。

按本库标准，它是 agentic ML research workflow 的正式收录项，因为它提出了长程研究工程的状态连续性模式，并在 PaperBench/MLE-Bench Lite 上做了系统验证。

局限是名称容易与既有 AI Scientist 系列混淆，且结果仍依赖具体 benchmark 与 frontier model stack；真实科研自主性还需更严验证。