LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

智能体与自主科学突破级暂无讲解视频

收录解读

这篇论文的核心是让 LLM 帮助发现提升 LLM 测试时计算效率的方法。它把 test-time scaling 从人工设计策略，推进到 agentic discovery。

它的重要性在于把模型优化本身变成一个 agent 搜索任务：coding agent 可以提出、测试和筛选推理策略，从而用相对低成本发现节省 token 或提升性能的方法。

它值得正式收录，因为这符合 self-improving AI systems 的主线：不是只让模型解任务，而是让模型改进模型使用方式。它和自动后训练、agentic ML engineering 形成互补。

它没有更高，是因为当前发现的策略是否能跨模型、任务和真实系统稳定迁移，还需要更多验证。