FlowCompile: An Optimizing Compiler for Structured LLM Workflows

发表:2026-05-13 · 突破级

FlowCompile 把结构化 LLM workflows 的优化从运行时路由问题改写为编译问题:部署前全局探索 workflow 设计空间,形成可复用的配置集合。 它关注的不是单个 prompt,而是由多个 sub-agents 组成的图结构工作流,在模型选择、reasoning budget 和结构组合之...

SWE-chat: Coding Agent Interactions From Real Users in the Wild

发表:2026-04-24 · 突破级

这篇论文补的是 coding agent 研究里一个非常实际的缺口:我们有很多 benchmark,但几乎没有真实世界里人到底怎么用 coding agent、agent 产出的代码到底有多少被真正采用、失败模式在自然环境里长什么样的系统证据。 SWE-chat 的价值在于它不是合成任务集,而是来自开源开发者真...

Synthesizing Multi-Agent Harnesses for Vulnerability Discovery

发表:2026-04-22 · 突破级

这篇工作的切入点是对的:真正决定多 agent 漏洞发现效果的,往往不是单个模型更聪明,而是 harness 如何定义角色、信息流、工具权限和重试逻辑。它把这个被低估的系统层变量正式化了。 如果 harness synthesis 能被系统搜索和优化,那漏洞发现就从“堆 agent”变成“设计 agentic...