Execution-Verified Reinforcement Learning for Optimization Modeling

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00442

收录解读

用 LLM 自动完成 optimization modeling 一直很有吸引力，但现实里常见方案要么依赖闭源 agent pipeline，推理成本高、延迟大；要么靠过程监督微调较小模型，却容易把能力绑定到单一 solver API 上，难以泛化到不同求解后端。EVOM 直接对这个核心瓶颈下手。

论文把 solver execution 当成确定性的交互式 verifier，提出 Execution-Verified Optimization Modeling。给定自然语言问题和目标 solver，模型生成 solver-specific 代码，放到沙箱中执行，再把 execution outcome 映射成 scalar reward，用 GRPO 和 DAPO 在 generate-execute-feedback-update 闭环里优化。这样做的关键好处是，不再需要昂贵的 process supervision，而且跨 solver 泛化可以通过切换 verification environment 实现，而不用重建整套 solver-specific 训练数据。

这篇工作值得收录，因为它提供了一个很干净的 execution-verified RL pattern：把外部 deterministic executor 当作 verifier，直接训练模型学习可执行、可验证的优化建模代码。这不仅对 optimization modeling 有意义，也对更广的 program synthesis、tool-verified learning 和 decision-intelligence workflow 有明显外溢。

它没有升到更高一级，是因为当前证据仍主要集中在 optimization modeling 和少数 solver 生态，离更广泛的 execution-verified agent learning 默认范式还有距离。它很强，但现在仍更像一条重要方法推进。

链接

论文链接