Executing as You Generate: Hiding Execution Latency in LLM Code Generation

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00491

收录解读

当前 LLM coding agent 的默认执行范式几乎都是串行的：先把完整代码吐完，再把代码交给解释器执行。这样生成阶段 executor 闲置，执行阶段 generator 闲置，导致端到端时延被无谓拉长。真正的问题不只是模型快不快，而是 code generation 与 execution pipeline 根本没有重叠。

这篇工作把这一问题形式化为 generation、detection、execution 三阶段并行流水线，并提出 Eager 作为具体实现。Eager 结合 AST-based chunking、带门控的动态批处理以及 early error interruption，让代码在生成过程中就能被切分、检测并尽早执行，从而把一部分 execution latency 藏到 generation 过程中。作者还给出闭式时延界，明确不同 operating regime 下的理论收益空间。

这篇工作值得收录，因为它把 coding agent 的执行模型从串行后处理推进到可重叠的 pipeline 设计，这是一种清晰可复用的系统模式，而不是单纯对某个 benchmark 做 prompt 优化。对本地 coding agent、IDE assistant、tool-using program synthesis 和 code-interpreter runtime，这种并行执行视角都有直接参考价值。

它没有升到更高一级，是因为当前主要价值仍集中在 code generation 与 interpreter execution 这一场景，尚未证明这一 pipeline 会普遍外溢到更广的 agent runtime 设计。它是很强的 coding-agent systems 工作，但还不宜拔得过高。

链接

论文链接