发表:2026-05-29 · 突破级
终端 agent 需要多步规划、执行反馈和状态适应,但现有训练环境高度依赖外部仓库抓取,难以控制能力覆盖和 verifier 质量。 LiteCoder-Terminal-Gen 提供 zero-dependency synthesis pipeline,用来生成可执行、可验证的长程 terminal envi...
发表:2026-05-18 · 突破级
TopoEvo 处理 LLM RCA agents 的另一类失效:忽略服务拓扑会把根因误归到下游受害节点,产生 symptom-amplification bias。 系统把 metrics、logs、traces 对齐成拓扑增强表示,用向量量化形成可审计 symptom tokens,再通过多 agent H...
发表:2026-05-18 · 突破级
STAR 针对微服务 RCA agents 的关键可靠性问题:早期证据收集、假设构造或因果分析错误会沿 reasoning trace 传播,最终破坏诊断。 它把 RCA workflow 拆成 Evidence Package、Hypothesis Set、Analysis Structure 和 Decis...
发表:2026-05-13 · 突破级
FlowCompile 把结构化 LLM workflows 的优化从运行时路由问题改写为编译问题:部署前全局探索 workflow 设计空间,形成可复用的配置集合。 它关注的不是单个 prompt,而是由多个 sub-agents 组成的图结构工作流,在模型选择、reasoning budget 和结构组合之...
发表:2026-05-05 · 突破级
很多 desktop 或 coding agent benchmark 的问题是文件世界太干净、依赖关系太薄。Workspace-Bench 把评测对象换成了更接近真实工作空间的 file graph environment,而不是几份预摆好的小文件。 它的耐用点在于规模和结构同时成立:5 个 worker p...
发表:2026-04-25 · 突破级
这篇工作的价值在于它抓住了一个真实但一直缺 benchmark 的问题:很多故障诊断不是纯 backend observability,也不是纯 browser automation,而是要把用户可见症状和后端信号拼起来做归因。CUJBench 正是在测这个 cross-modal diagnosis gap...
发表:2026-04-24 · 突破级
这篇论文补的是 coding agent 研究里一个非常实际的缺口:我们有很多 benchmark,但几乎没有真实世界里人到底怎么用 coding agent、agent 产出的代码到底有多少被真正采用、失败模式在自然环境里长什么样的系统证据。 SWE-chat 的价值在于它不是合成任务集,而是来自开源开发者真...
发表:2026-04-22 · 突破级
这篇工作的切入点是对的:真正决定多 agent 漏洞发现效果的,往往不是单个模型更聪明,而是 harness 如何定义角色、信息流、工具权限和重试逻辑。它把这个被低估的系统层变量正式化了。 如果 harness synthesis 能被系统搜索和优化,那漏洞发现就从“堆 agent”变成“设计 agentic...