智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文关注 AI scientist 研究中一个长期被忽视但非常关键的问题:模型不仅要会执行科研任务,还要具备对研究方向、研究问题和潜在影响力的判断力,也就是作者所说的 scientific taste。相比现有工作主要优化检索、实验执行或论文生成,这篇论文把科研品味本身提升为可学习、可评估、可对齐的对象。
方法上,论文提出 Reinforcement Learning from Community Feedback (RLCF) 框架,把大规模社区反馈转成偏好监督。作者先用 70 万组按时间和领域匹配的高引/低引论文对训练 Scientific Judge,再把它作为 reward model 去对齐 Scientific Thinker,使模型能够提出更有潜在影响力的研究想法。这个 framing 的重点不是再造一个执行 agent,而是把“选题判断”正式写成 preference modeling 和 alignment 问题。
这篇论文值得收录,因为它把 AI scientist 的研究重点从“能不能做”前移到了“该不该做、值不值得做”。这种前移会外溢到研究 agent、科学发现工作流、社区反馈对齐和长期自主科研系统,是一个可复用的问题定义和训练范式,而不是某个窄 benchmark 上的提分技巧。
它目前还不是更高一级,因为 scientific taste 仍然主要通过 citation 和社区偏好做代理信号,离真正的科研价值判断还有距离;同时论文验证的是“研究想法质量”而不是完整的端到端科学发现闭环。它已经足够新、足够硬,但还没有彻底改写 AI scientist 主线。