AI Can Learn Scientific Taste

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-15
arXiv: 2603.14473

收录解读

这篇论文关注 AI scientist 研究中一个长期被忽视但非常关键的问题：模型不仅要会执行科研任务，还要具备对研究方向、研究问题和潜在影响力的判断力，也就是作者所说的 scientific taste。相比现有工作主要优化检索、实验执行或论文生成，这篇论文把科研品味本身提升为可学习、可评估、可对齐的对象。

方法上，论文提出 Reinforcement Learning from Community Feedback (RLCF) 框架，把大规模社区反馈转成偏好监督。作者先用 70 万组按时间和领域匹配的高引/低引论文对训练 Scientific Judge，再把它作为 reward model 去对齐 Scientific Thinker，使模型能够提出更有潜在影响力的研究想法。这个 framing 的重点不是再造一个执行 agent，而是把“选题判断”正式写成 preference modeling 和 alignment 问题。

这篇论文值得收录，因为它把 AI scientist 的研究重点从“能不能做”前移到了“该不该做、值不值得做”。这种前移会外溢到研究 agent、科学发现工作流、社区反馈对齐和长期自主科研系统，是一个可复用的问题定义和训练范式，而不是某个窄 benchmark 上的提分技巧。

它目前还不是更高一级，因为 scientific taste 仍然主要通过 citation 和社区偏好做代理信号，离真正的科研价值判断还有距离；同时论文验证的是“研究想法质量”而不是完整的端到端科学发现闭环。它已经足够新、足够硬，但还没有彻底改写 AI scientist 主线。

链接

论文链接