Agent Systems And Execution

Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents

发表：2026-06-02 · 突破级

这篇论文处理长运行 agent 的系统边界问题：chat loop + tool registry 不足以表达身份、权限、暂停恢复、子进程、人类审批和审计。 Agent libOS 把 agent 建模为 AgentProcess，提供 process identity、parent-child lineage...

MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?

发表：2026-06-01 · 突破级

这篇论文把网页上的人类操作指南转化为 agent-executable skills，定义为 guide-to-skill learning 问题，目标是让 agent 从真实世界多模态知识中持续扩展能力。 MMG2Skill 先把 in-the-wild guides 编译成可编辑 skill，再让固定 VL...

Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories

发表：2026-06-01 · 突破级

这篇论文针对 deep-research agent 的关键评估盲区：只看最终答案无法知道长轨迹中哪一段搜索、证据检查或 synthesis 导致了不可靠结论。作者把真实 agent logs 转成语义 spans，构建 TELBench，并提出 DRIFT 这种 claim-centric auditing...