Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

发表:2026-04-13 · 突破级

这篇论文针对科学推理训练数据稀缺问题:数学和代码有大量可验证题目,但物理等科学领域缺少大规模 QA 数据。作者提出用物理模拟器生成随机场景、交互和问答,把 simulator 变成可验证监督源,用 RL 训练模型进行物理推理。 方法上,系统在 physics engines 中生成合成交互,构造问题和答案,再用...