软件工程与编程智能体

LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

发表：2026-05-29 · 突破级

终端 agent 需要多步规划、执行反馈和状态适应，但现有训练环境高度依赖外部仓库抓取，难以控制能力覆盖和 verifier 质量。 LiteCoder-Terminal-Gen 提供 zero-dependency synthesis pipeline，用来生成可执行、可验证的长程 terminal envi...

TopoEvo: A Topology-Aware Self-Evolving Multi-Agent Framework for Root Cause Analysis in Microservices

发表：2026-05-18 · 突破级

TopoEvo 处理 LLM RCA agents 的另一类失效：忽略服务拓扑会把根因误归到下游受害节点，产生 symptom-amplification bias。系统把 metrics、logs、traces 对齐成拓扑增强表示，用向量量化形成可审计 symptom tokens，再通过多 agent H...

STAR: A Stage-attributed Triage and Repair framework for RCA Agents in Microservices

发表：2026-05-18 · 突破级

STAR 针对微服务 RCA agents 的关键可靠性问题：早期证据收集、假设构造或因果分析错误会沿 reasoning trace 传播，最终破坏诊断。它把 RCA workflow 拆成 Evidence Package、Hypothesis Set、Analysis Structure 和 Decis...

FlowCompile: An Optimizing Compiler for Structured LLM Workflows

发表：2026-05-13 · 突破级

FlowCompile 把结构化 LLM workflows 的优化从运行时路由问题改写为编译问题：部署前全局探索 workflow 设计空间，形成可复用的配置集合。它关注的不是单个 prompt，而是由多个 sub-agents 组成的图结构工作流，在模型选择、reasoning budget 和结构组合之...

Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

发表：2026-05-05 · 突破级

很多 desktop 或 coding agent benchmark 的问题是文件世界太干净、依赖关系太薄。Workspace-Bench 把评测对象换成了更接近真实工作空间的 file graph environment，而不是几份预摆好的小文件。它的耐用点在于规模和结构同时成立：5 个 worker p...

CUJBench: Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend

发表：2026-04-25 · 突破级

这篇工作的价值在于它抓住了一个真实但一直缺 benchmark 的问题：很多故障诊断不是纯 backend observability，也不是纯 browser automation，而是要把用户可见症状和后端信号拼起来做归因。CUJBench 正是在测这个 cross-modal diagnosis gap...

SWE-chat: Coding Agent Interactions From Real Users in the Wild

发表：2026-04-24 · 突破级

这篇论文补的是 coding agent 研究里一个非常实际的缺口：我们有很多 benchmark，但几乎没有真实世界里人到底怎么用 coding agent、agent 产出的代码到底有多少被真正采用、失败模式在自然环境里长什么样的系统证据。 SWE-chat 的价值在于它不是合成任务集，而是来自开源开发者真...

Synthesizing Multi-Agent Harnesses for Vulnerability Discovery

发表：2026-04-22 · 突破级

这篇工作的切入点是对的：真正决定多 agent 漏洞发现效果的，往往不是单个模型更聪明，而是 harness 如何定义角色、信息流、工具权限和重试逻辑。它把这个被低估的系统层变量正式化了。如果 harness synthesis 能被系统搜索和优化，那漏洞发现就从“堆 agent”变成“设计 agentic...