发表:2026-06-02 · 突破级
这篇论文处理长运行 agent 的系统边界问题:chat loop + tool registry 不足以表达身份、权限、暂停恢复、子进程、人类审批和审计。 Agent libOS 把 agent 建模为 AgentProcess,提供 process identity、parent-child lineage...
发表:2026-06-01 · 突破级
这篇论文把网页上的人类操作指南转化为 agent-executable skills,定义为 guide-to-skill learning 问题,目标是让 agent 从真实世界多模态知识中持续扩展能力。 MMG2Skill 先把 in-the-wild guides 编译成可编辑 skill,再让固定 VL...
发表:2026-06-01 · 突破级
这篇论文针对 deep-research agent 的关键评估盲区:只看最终答案无法知道长轨迹中哪一段搜索、证据检查或 synthesis 导致了不可靠结论。 作者把真实 agent logs 转成语义 spans,构建 TELBench,并提出 DRIFT 这种 claim-centric auditing...