智能体与自主科学
颠覆级
暂无讲解视频
收录解读
这篇论文把 test-time scaling 从 frozen-model prompting/search 推进到 test-time reinforcement learning:模型在单个待解问题上继续训练,以发现更优解。它对本仓库的价值在于重新定义了 inference-time adaptation 的目标:不是泛化到很多问题,而是为当前问题找到一个最优结果。
TTT-Discover 将在线 RL 与搜索子程序结合,面向连续可验证 reward 的科学和工程问题运行,包括数学构造、GPU kernel 优化、AtCoder heuristic competition 以及 single-cell RNA-seq denoising。项目还公开代码和可核验结果,降低了与 AlphaEvolve 类封闭系统相比的复现实验门槛。
它值得正式收录,是因为它提供了 AI scientist / test-time learning 的关键操作模式:冻结参数之外,还可以在推理期为具体任务进行局部训练。这对科学发现、算法工程、kernel search 和可验证优化问题都有明显可复用价值。
它没有升到 paradigm,是因为该方法目前强依赖可计算 reward、较小任务成本、可接受的在线训练预算和特定任务选择。开放式理论发现、长程实验设计和高噪声现实科学问题是否同样适用仍需验证。