收录解读
用 LLM 自动完成 optimization modeling 一直很有吸引力,但现实里常见方案要么依赖闭源 agent pipeline,推理成本高、延迟大;要么靠过程监督微调较小模型,却容易把能力绑定到单一 solver API 上,难以泛化到不同求解后端。EVOM 直接对这个核心瓶颈下手。
论文把 solver execution 当成确定性的交互式 verifier,提出 Execution-Verified Optimization Modeling。给定自然语言问题和目标 solver,模型生成 solver-specific 代码,放到沙箱中执行,再把 execution outcome 映射成 scalar reward,用 GRPO 和 DAPO 在 generate-execute-feedback-update 闭环里优化。这样做的关键好处是,不再需要昂贵的 process supervision,而且跨 solver 泛化可以通过切换 verification environment 实现,而不用重建整套 solver-specific 训练数据。
这篇工作值得收录,因为它提供了一个很干净的 execution-verified RL pattern:把外部 deterministic executor 当作 verifier,直接训练模型学习可执行、可验证的优化建模代码。这不仅对 optimization modeling 有意义,也对更广的 program synthesis、tool-verified learning 和 decision-intelligence workflow 有明显外溢。
它没有升到更高一级,是因为当前证据仍主要集中在 optimization modeling 和少数 solver 生态,离更广泛的 execution-verified agent learning 默认范式还有距离。它很强,但现在仍更像一条重要方法推进。