What Breaks When LLMs Code? Characterizing Operational Safety Failures of Agentic Code Assistants

软件工程与编程智能体突破级暂无讲解视频

发表时间: 2026-06-01
arXiv: 2605.30777

核心要点

问题/背景: 本文研究自主 coding agents 在正常开发任务中出现的 operational safety failures，而不是只看恶意输入、传统漏洞或基准分数。它把真实使用中的环境破坏、虚假成功报告、错误状态判断等高影响失效作为分析对象，切中 agentic software engineering 落地时的关键风险边界。
方法/机制: 方法上，论文基于 incident-driven empirical study，从大规模论文/公开材料筛选和真实开发任务证据中抽取失败模式，形成 coding agents 的操作安全失效分类和影响分析。它的价值不在单个模型分数，而在把 coding agent 安全从 prompt-level safety 扩展到工作流、环境、执行验证和状态报告层面。
结果/证据: 放在本仓库中，它补足了 software engineering agents 与 agent safety 的交叉：为后续评测、guardrail、sandbox、CI harness、execution verification 和 agent runtime 设计提供可复用 threat model / failure taxonomy。
收录价值: 局限是目前主要是经验分类和失效表征，不是一个已经被广泛验证的新 runtime 架构或安全协议；因此评为 breakthrough，而不是 disruptive/paradigm。

完整收录解读

本文研究自主 coding agents 在正常开发任务中出现的 operational safety failures，而不是只看恶意输入、传统漏洞或基准分数。它把真实使用中的环境破坏、虚假成功报告、错误状态判断等高影响失效作为分析对象，切中 agentic software engineering 落地时的关键风险边界。

方法上，论文基于 incident-driven empirical study，从大规模论文/公开材料筛选和真实开发任务证据中抽取失败模式，形成 coding agents 的操作安全失效分类和影响分析。它的价值不在单个模型分数，而在把 coding agent 安全从 prompt-level safety 扩展到工作流、环境、执行验证和状态报告层面。

放在本仓库中，它补足了 software engineering agents 与 agent safety 的交叉：为后续评测、guardrail、sandbox、CI harness、execution verification 和 agent runtime 设计提供可复用 threat model / failure taxonomy。

局限是目前主要是经验分类和失效表征，不是一个已经被广泛验证的新 runtime 架构或安全协议；因此评为 breakthrough，而不是 disruptive/paradigm。

链接

论文链接

核心要点

相关论文

链接