PhoneWorld: Scaling Phone-Use Agent Environments

发表:2026-05-29 · 突破级

手机使用 agent 的瓶颈不是缺少单个 benchmark,而是缺少可规模化构造、可复现、可验证的 phone-use environments。 PhoneWorld 把真实 GUI trajectories 和 screenshots 转换为可控环境、可执行任务和自动 verifier,目标是让 phon...

WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

发表:2026-05-29 · 突破级

这篇论文针对 agent memory 评测的一个关键缺口:真实长程 agent 不只是回忆静态对话,而是要在行动中跟踪世界变化、更新过期记忆,并在决策时调出证据。 WorldMemArena 把记忆写入、维护、检索和使用拆开,通过 action-world interaction 暴露多模态 agent me...

CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

发表:2026-05-28 · 突破级

CoHyDE 处理 tool-use agents 的一个基础瓶颈:用户请求通常是口语化、欠规格的,而大规模 API catalog 使用技术词汇,单靠固定 dense encoder 或零样本 HyDE 都会在不同查询类型上失败。 方法上,论文把 LLM rewriter 和 dense encoder 作为...

MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems

发表:2026-05-27 · 突破级

长期 agent memory 的难点不只是记住更多信息,而是当记忆错了时,很难定位错误来自写入、压缩、融合、检索还是使用阶段。 MemTrace 把 memory pipeline 表达为可执行的 memory evolution graph,让研究者可以追踪信息如何在时间中被合成、传播或污染,并把最终错误归...

AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

发表:2026-05-27 · 突破级

现实 agent 工具调用并不是同步、单任务、即时返回;API 延迟、多任务并发和等待期间的调度会显著影响效率。 AsyncTool 把 delayed tool feedback 和多异构任务并发放入同一交互环境,评估 agent 是否能在等待工具返回时切换任务、维护依赖、追踪状态并提升总完成效率。 论文提出...

Personalize-then-Store: Benchmarking and Learning Personalized Memory for Long-horizon Agents

发表:2026-05-25 · 突破级

这篇论文处理个人 agent 的长期记忆难题:并非所有对话内容都应直接存储,真正有用的是能支持后续个性化决策的稳定偏好、事实和习惯。 Personalize-then-Store 将记忆写入前的个性化判断作为核心环节,强调先识别对用户长期有价值的信息,再进入 memory store。 PerMemBench...

Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents

发表:2026-05-25 · 突破级

这篇论文把 agent 从被动响应推进到 proactive assistance:真实个人助理有大量空闲时间,可以提前维护上下文、预测需求并准备可验证的中间产物。 方法围绕 idle-time compute 设计,让 agent 在用户未明确发出下一步请求时进行预测、检索、计划或预执行,并在后续任务中复用这...

CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

发表:2026-05-25 · 突破级

CUA-Gym 面向 computer-use agents 的训练瓶颈:agent 需要在真实或仿真的软件环境中学习,但可验证、可扩展、可自动生成的训练任务仍然稀缺。 论文把 CUA 训练环境组织成可执行、可判定的任务集合,使模型可以通过 outcome verification 获得 RLVR 式训练信号...

SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking

发表:2026-05-24 · 突破级

SimuWoB 处理移动 GUI agent 评测中的可复现问题:真实 app 状态易变、账号和网络依赖复杂,导致 benchmark 难以稳定扩展。 论文用模拟真实移动应用的方式构建快速、可控且较忠实的任务环境,使 agent 可以在统一状态空间中执行多步 UI 操作。 这种设计降低了 live-app be...

Macaron-A2UI: A Model for Generative UI in Personal Agents

发表:2026-05-24 · 突破级

Macaron-A2UI 关注 personal agent 的交互瓶颈:纯文本聊天难以承载信息收集、偏好细化、确认、多目标组织和复杂状态展示。 论文提出 Generative UI 模型,让 agent 同时生成自然语言和轻量可执行 UI actions,并构建大规模 Generative UI corpus...

ECHO: Terminal Agents Learn World Models for Free

发表:2026-05-23 · 突破级

ECHO 把 terminal agents 的环境交互视为可学习世界模型问题:命令执行后的文件系统、stdout、stderr 和状态变化可以作为自监督信号。 论文通过辅助预测环境后继状态,让 agent 在完成任务的同时学习 CLI world model,不需要额外人工标注即可改善后续规划。 这对 cod...

SEAL: Synergistic Co-Evolution of Agents and Learning Environments

发表:2026-05-23 · 突破级

SEAL 提出 Agent-Environment Misalignment:agent 能力边界在训练中变化,但训练环境和监督信号常是静态或弱耦合的,导致 self-evolution 无法持续对准真实失败。 系统收集 executable verification 下的 on-policy trajecto...

Polar: Agentic RL on Any Harness at Scale

发表:2026-05-22 · 突破级

这篇 arXiv 论文提出 Polar,目标是解决 agent RL 训练中最实际的系统问题:真实 agent harness 往往包含长上下文、多轮工具使用、多 agent 编排和复杂运行时,难以直接移植成标准 RL environment。 Polar 把 agent harness 当作黑盒,通过代理 L...

From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

发表:2026-05-22 · 突破级

这篇论文系统研究 model-generated agent skills 的生命周期:从 raw experience 中抽取技能、组织技能库、选择技能,再到执行时消费技能。 它把 skill system 中常被混在一起的问题拆开,包括经验压缩、技能粒度、描述质量、调用条件、冲突和复用效果。 这种分析对 s...

QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

发表:2026-05-22 · 突破级

QUEST 面向 deep research agents 的训练问题:前沿系统多为闭源,开放系统在不同搜索、事实核查、引用和报告任务间泛化不足。 论文发布 2B 到 35B 的 open deep research agents,并提出结合 mid-training、supervised fine-tunin...

Foundation Protocol: A Coordination Layer for Agentic Society

发表:2026-05-22 · 突破级

Foundation Protocol 关注 agent scale-up 后的系统瓶颈:当 agent 能浏览、购买、部署软件、管理系统并互相协作时,问题从单模型能力转向身份、关系、价值交换、责任和治理。 论文提出 graph-first coordination layer,把 agents、tools、r...

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

发表:2026-05-22 · 突破级

SkillOpt 针对 agent skill 的核心短板:当前 skill 往往是人工写、一次性生成或松散自修补,缺少像模型权重优化那样可控、可复现、可验证的训练流程。 论文把 skill 文档视为冻结 agent 的外部状态,由单独 optimizer model 根据 scored rollouts 生成...

Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

发表:2026-05-21 · 突破级

Maestro 关注 autonomous agents 的组合问题:模型和技能越来越多,但多数系统仍依赖固定逻辑或单一大模型,不能动态利用不同专家模型与工具技能的互补性。 论文把异构多模态任务重写为对 hierarchical model-skill registry 的序列决策过程,由轻量 policy 选...

ACC: Compiling Agent Trajectories for Long-Context Training

发表:2026-05-21 · 突破级

ACC 把 agent 执行过程中天然产生的长轨迹转成 long-context 训练数据,核心观察是工具调用、环境反馈和中间状态本身包含大量跨轮证据,但传统 agent SFT 通常遮蔽工具响应,浪费了这些监督信号。 方法将搜索、软件工程、数据库查询等 agent 轨迹编译为 QA pairs,把原始问题、工...

AgentCo-op: Retrieval-Based Synthesis of Interoperable Multi-Agent Workflows

发表:2026-05-21 · 突破级

AgentCo-op 处理开放科学任务里 multi-agent workflow 难以设计、接口不统一、缺少可靠指标的问题,而不是只做固定 benchmark 上的 agent graph 搜索。 方法把可复用 skills、tools 和外部 agents 检索出来,通过 typed artifact ha...

Mem-π: Adaptive Memory through Learning When and What to Generate

发表:2026-05-20 · 突破级

这篇论文把 agent memory 从相似度检索式 episodic memory / skill library 推进一步:记忆不再只是拿回静态条目,而是由独立模型按当前上下文生成可执行 guidance。 核心机制是 Mem-π 模型同时学习 when 和 what:什么时候不该干预、什么时候生成简洁有效...

CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing

发表:2026-05-20 · 突破级

CutVerse 把 GUI agents 评测从网页导航和基础 OS 操作扩展到专业创作软件工作流,例如 Premiere Pro 和 Photoshop。 基准包含 7 个专业应用、186 个长程任务和专家演示,并提供把屏幕录制与低层交互日志解析为 compositional GUI action traj...

EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design

发表:2026-05-20 · 突破级

EngiAI 把 LLM agents 放进真实工程设计流程,而不是只做文本问答:任务覆盖拓扑优化、参数检索、HPC 作业编排和 3D 打印控制。 论文同时给出 benchmark suite 和 LangGraph 多 agent 参考实现,评估 direct tool use、语义消歧、条件分支、工作记忆、...

PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents

发表:2026-05-19 · 突破级

PEEK 区分了 agent memory 中容易混淆的对象:不是保存轨迹或原始材料,而是保存关于复用上下文的 orientation knowledge。 系统维护一个固定预算 context map,记录外部上下文包含什么、如何组织、哪些实体/常量/schema 曾经有用,并通过 Distiller、Car...

OpenComputer: Verifiable Software Worlds for Computer-Use Agents

发表:2026-05-19 · 突破级

OpenComputer 针对 computer-use agents 的核心评估难点:最终截图或 LLM-as-judge 往往看不见真实应用状态,也不能稳定给出部分信用。 框架提供应用状态 verifier、自演化验证层、可机器检查的任务生成流水线和轨迹级评估 harness,覆盖 33 个桌面应用与 10...

HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

发表:2026-05-18 · 突破级

HINT-SD 解决 long-horizon LLM agents 的训练稀疏性问题:最终奖励只告诉任务是否成功,却不说明哪些中间动作导致失败,以及应如何修正。 相比每一轮都生成反馈或固定位置蒸馏,HINT-SD 用完整轨迹 hindsight 选择 failure-relevant actions,只在相关...

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

发表:2026-05-18 · 突破级

EnvFactory 解决 agentic RL 的核心瓶颈:缺少可扩展、真实、可执行且鲁棒的工具环境,以及能反映隐式人类意图的训练轨迹。 系统从真实资源自动探索和验证 stateful executable tool environments,再通过拓扑采样和校准细化生成自然多轮轨迹,用于 SFT/RL。 它...

Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design

发表:2026-05-18 · 突破级

AIRA 把 agentic AI 用到模型架构发现本身:AIRA-Compose 让多个 agent 在固定预算内探索基础计算原语和架构组合,AIRA-Design 则让 agent 设计低层 attention 机制和训练脚本。 论文报告 agent 发现的 AIRAformer 与 AIRAhybrid...

MemForest: An Efficient Agent Memory System with Hierarchical Temporal Indexing

发表:2026-05-16 · 突破级

MemForest 关注 agent memory 的工程瓶颈:长程 agent 需要持续 serve-and-update memory,但许多系统把更新和 LLM 推理紧耦合,并依赖全局摘要重写,导致延迟和维护成本随记忆增长恶化。 论文把 agent memory 重写为 write-efficient t...

MMSkills: Towards Multimodal Skills for General Visual Agents

发表:2026-05-14 · 突破级

MMSkills 指出 visual agents 的技能不能只是文本 prompt 或代码片段;视觉操作依赖状态识别、视觉证据、进度/失败判断和下一步决策。 论文把这种能力形式化为 multimodal procedural knowledge,并提出包含 textual procedure、runtime...

FutureSim: Replaying World Events to Evaluate Adaptive Agents

发表:2026-05-14 · 突破级

FutureSim 把 agent 评测从静态任务推进到真实时间序列世界:系统按真实新闻出现顺序重放世界事件,让 agent 在知识截止后持续接收新信息并预测未来结果。 这个设置直接压测 long-horizon adaptation、搜索、记忆和不确定性推理,而不是只看一次性问答或封闭环境成功率。论文显示当前...

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

发表:2026-05-14 · 突破级

MemEye 针对 multimodal agent memory 的评价缺口:很多视觉记忆问题可以被 caption 或文字轨迹 shortcut 解答,无法验证 agent 是否保留了真正必要的视觉证据。 论文提出两个评价轴:decisive visual evidence granularity 从 sc...

Self-Distilled Agentic Reinforcement Learning

发表:2026-05-14 · 突破级

SDAR 处理 agentic post-training 的核心痛点:RL 只有轨迹级稀疏反馈,而 on-policy self-distillation 能提供 token-level dense guidance,但直接用于多轮 agent 会因轨迹漂移和 teacher-student mismatch...

The DAWN of World-Action Interactive Models

发表:2026-05-13 · 突破级

DAWN 提出 World-Action Interactive Models,认为现有 WAM 往往把 world prediction 和 action generation 并行或串行分离,忽略动作与未来世界之间的 reciprocity。 它在自动驾驶中实现一个 latent generative ba...

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

发表:2026-05-13 · 突破级

EvolveMem 指出当前 agent memory 系统通常只更新存储内容,而检索评分、融合策略和回答策略在部署后固定,导致长期记忆增长时 retrieval infrastructure 不适配。 它把完整 retrieval configuration 暴露为结构化 action space,由 LLM...

Preping: Building Agent Memory without Tasks

发表:2026-05-13 · 突破级

Preping 研究 pre-task memory construction:agent 在看到目标任务之前,仅凭环境文档和可执行工具,通过自生成练习构建 procedural memory。 系统引入 proposer memory 作为控制状态,由 Proposer 生成 synthetic tasks...

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

发表:2026-05-13 · 突破级

这篇论文的核心是让 LLM 帮助发现提升 LLM 测试时计算效率的方法。它把 test-time scaling 从人工设计策略,推进到 agentic discovery。 它的重要性在于把模型优化本身变成一个 agent 搜索任务:coding agent 可以提出、测试和筛选推理策略,从而用相对低成本发现...

TMAS: Scaling Test-Time Compute via Multi-Agent Synergy

发表:2026-05-13 · 突破级

这篇论文把 test-time scaling 和 multi-agent orchestration 连接起来。它不是简单多采样,而是通过多个专门 agent 的协同来扩大推理时计算。 TMAS 的价值在于把测试时计算预算组织成 agent collaboration problem,包括分工、记忆共享和探索...

Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning

发表:2026-05-12 · 突破级

这篇论文延续 self-evolving agents 的关键问题:技能不是一次性 prompt,也不是静态工具库,而是需要生命周期管理的能力对象。 Dynamic Skill Lifecycle Management 的价值在于把 skill acquisition 从“学会一个技能”推进到“管理一组会变化的...

Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

发表:2026-05-11 · 突破级

这篇论文抓住 multimodal deep search agent 的两个核心问题:工具返回的图像通常只是一次性观察,不能作为后续工具调用的可寻址工作状态;训练数据也常由固定配方生成,不能跟随目标 policy 的能力边界演化。 方法上,论文提出 visual-native agent harness,把搜...

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

发表:2026-05-11 · 突破级

RubricEM 针对 deep research agent 的难点:长报告、证据搜索和综合任务通常没有可验证答案,因此标准 RLVR 很难直接给密集、可靠奖励。 它把 rubric 从最终评分工具提升为执行接口:规划、证据收集、审阅和综合各阶段都由 rubric 组织,并用 stage-structured...

MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents

发表:2026-05-10 · 突破级

MemPrivacy 关注长期个性化 agent 的核心部署问题:记忆有用性和隐私保护之间的冲突。它把敏感 span 在边缘侧识别并替换为结构化占位符,云侧处理语义化记忆,本地再恢复敏感值。 这不是普通脱敏技巧,因为它明确面向 agent memory pipeline:记忆形成、检索和个性化都要保留可用语义...

RewardHarness: Self-Evolving Agentic Post-Training

发表:2026-05-09 · 突破级

RewardHarness 的关键思想是把 reward modeling 从训练新权重转成 agentic context evolution:系统维护并迭代一组工具和技能,用它们构造偏好判断链。 它用少量偏好 demonstrations 让 Orchestrator 选择工具、分析成功失败并改进工具/技能...

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

发表:2026-05-08 · 突破级

这篇论文的价值在于挑战 agentic search 里默认的 dense retrieval 习惯:复杂搜索任务不只是找语义相似片段,而是要主动和语料互动,逐步验证、排除和重构问题。 这个 framing 对搜索 agent 很关键。长期研究、审计、法律、代码和科学文献任务都要求 agent 直接操作证据集合...

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

发表:2026-05-07 · 突破级

CreativityBench 把 agent 创造性具体化为 affordance-based tool repurposing:能否识别工具的潜在可供性,并在非标准目标中重新组合使用。 这个问题比普通工具调用更接近真实 agent 能力。真实任务经常需要把已有工具、API、文件和环境约束重新解释为可用操作...

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

发表:2026-05-07 · 突破级

这篇论文延续了 self-evolving agents 的关键路线:技能不只是 prompt library,而是需要被选择、使用、评估和蒸馏进 agent 行为。Skill1 把这些步骤放进统一 RL 框架。 它的复用价值在于把 skill-augmented agent 的几个断裂环节合并为一个训练问题...

STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

发表:2026-05-07 · 突破级

这篇论文抓住了 agent memory 里经常被忽略的核心问题:记住不难,知道什么时候记忆过期才难。长期 agent 如果不能识别 stale memory,会把历史状态当成现实,从而系统性犯错。 STALE 的价值在于把 memory validity 变成可测试问题,而不是泛泛讨论长期记忆。它对个人 ag...

More Is Not Always Better: Cross-Component Interference in LLM Agent Scaffolding

发表:2026-05-07 · 突破级

这篇论文切中 agent 工程里的一个真实问题:更多 memory、tools、reflection、planner、verifier 不一定叠加成更强系统,组件之间可能互相干扰。这个结论比单个新 scaffold 更有长期价值。 它把 agent scaffolding 从“堆模块”拉回到系统交互问题,强调组...

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

发表:2026-05-06 · 突破级

ARIS 的价值不在于“AI scientist again”,而在于它把 autonomous research 的 failure boundary 讲得非常清楚:真正危险的不是模型明显崩掉,而是它写出看似像真的结论,但证据链并不完整。 它因此给出的不是单个 workflow,而是一套 harness pa...

From Context to Skills: Can Language Models Learn from Context Skillfully?

发表:2026-05-05 · 突破级

这篇论文把长上下文使用重新表述为 context-to-skill:模型不只是检索上下文片段,而是从上下文中抽取规则、程序和可复用技能。 它对 agent 能力扩展很相关。很多真实任务的关键不是参数知识,而是能否临时学习文档、流程、API 或业务规则,并把这些信息转化成后续执行策略。 它值得正式收录,因为它把...

MolmoAct2: Action Reasoning Models for Real-world Deployment

发表:2026-05-04 · 突破级

MolmoAct2 过线,不是因为它又把 open VLA 分数推高了一点,而是因为它几乎把真实部署最关键的几块一起补齐了:open backbone、open data、open action tokenizer、以及可控延迟的 reasoning interface。 这篇工作最耐用的地方,是它没有把 re...

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

发表:2026-04-30 · 突破级

这篇论文命中的问题很准:很多 agent benchmark 一旦发布就被冻结,任务集合和真实 workflow demand 很快脱节,而且评分常常只看 final response。Claw-Eval-Live 把这两个缺口一起补上。 它的核心设计是把外部变化的需求信号层和可复现的 release snap...

ClawGym: A Scalable Framework for Building Effective Claw Agents

发表:2026-04-29 · 突破级

这篇论文的价值不只是又补一个 personal-agent benchmark,而是把 Claw-style agent 的开发链条补完整了:合成可验证任务、构造真实 workspace、基于 rollout 训练,再到 benchmark 和诊断评估。 和单点 benchmark 或单点数据集相比,ClawG...

OCR-Memory: Optical Context Retrieval for Long-Horizon Agent Memory

发表:2026-04-29 · 突破级

这篇工作的关键不是再做一个更聪明的 textual memory retriever,而是直接换了 memory substrate:把长历史轨迹编码成带视觉锚点的图像,用 locate-and-transcribe 的方式取回原文证据。 这种设计针对的是 agent memory 里一个很硬的系统约束:原始轨...

Toward Scalable Terminal Task Synthesis via Skill Graphs

发表:2026-04-28 · 突破级

这篇工作的价值不只是再造一个 terminal benchmark,而是把 terminal-agent training data generation 做成了一个可控的 workflow synthesis 问题。核心不是多造任务,而是通过 scenario-mediated skill graph 先定义...

Closed-Loop Agentic AI for Executable and Reproducible Neuroimaging Research

发表:2026-04-27 · 突破级

这篇工作的核心价值不只是把 agent 用到神经影像,而是把可执行性、环境管理和可复现性一起做成了 neuroscience workflow 的一等公民。NeuroClaw 直接接 raw neuroimaging data 和 BIDS metadata,不要求用户先把数据整理成某个模型专用格式。 真正值得...

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

发表:2026-04-26 · 突破级

ClawMark 真正补的是 persistent coworker agent 这条评测缺口。它不再假设 agent 在一个静态 session 里做完事,而是把任务拉长到多天、多轮、带外部环境变化的状态空间里去测,这比普通 web / tool benchmark 更接近真实办公协作。 它值得收的另一个原因...

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

发表:2026-04-24 · 突破级

这篇论文抓的是 mobile agent 研究里的一个现实问题:闭源系统已经把成功率推得很高,但关键训练数据和任务/轨迹合成流程都不透明,开源侧很难追。OpenMobile 不是单纯开个模型,而是把任务指令生成和 agent trajectory synthesis 这条数据管线公开化。 方法上,它有两个关键部...

Stateless Decision Memory for Enterprise AI Agents

发表:2026-04-22 · 突破级

这篇论文有价值的地方,不是再造一个更复杂的 agent memory,而是直接反过来问:为什么企业在受监管决策场景里,明明需要长程上下文,却依然偏好看起来更弱的 retrieval pipeline?作者给出的答案很明确:真正 load-bearing 的不是‘记得更多’,而是 deterministic re...

WebCompass: Towards Multimodal Web Coding Evaluation for Autonomous Coding Agents

发表:2026-04-21 · 突破级

这篇论文针对当前 coding-agent 评测的一个明显盲点:现有 benchmark 多半只测文本条件下的代码生成和静态正确性,几乎不覆盖真实 web engineering 中的视觉保真、交互行为、编辑修复流程以及代码库级推理。WebCompass 的目标就是把这整条生命周期拉进统一评测。 数据设计上,W...

SkillFlow: Benchmarking Lifelong Skill Discovery and Evolution in Agents

发表:2026-04-21 · 突破级

这篇论文瞄准的是 agent systems 一个非常核心但此前 benchmark 覆盖不足的问题:智能体不是只要会调用已有技能,还应当能从经验中发现技能、失败后修补技能,并长期维护一个可演化的技能库。它把问题从静态 tool-use 测试推进到 lifelong skill evolution。 Skill...

A Control Architecture for Training-Free Memory Use

发表:2026-04-20 · 突破级

很多 memory paper 关注“怎么存”,这篇真正抓住的是“什么时候该用、该不该信、用完怎么管”。它把 prompt-injected memory 的收益问题改写成 training-free applicability control,而不是再增加一个 memory bank。 方法上最有复用价值的是...

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

发表:2026-04-20 · 突破级

这篇论文的重要性在于它不再把 agent 训练理解为固定 benchmark 上的 policy optimization,而是把重点转向“真实环境如何被系统化合成出来并持续扩张”。在 MCP 和工具生态开始标准化之后,真正的瓶颈不只是模型本身,而是训练环境和任务分布过于贫乏。 Agent-World 的两部分...

AgentSPEX: An Agent SPecification and EXecution Language

发表:2026-04-16 · 突破级

AgentSPEX 把 agent 系统从隐式 prompt orchestration 推向显式 specification and execution language。它关注的是如何描述 agent 的控制流、中间状态和工具执行,而不是只给一个更长的提示词。 这类语言化接口有长期价值,因为复杂 agent...

Autogenesis: A Self-Evolving Agent Protocol

发表:2026-04-16 · 突破级

Autogenesis 把 self-evolving agents 从一次性系统技巧提升为协议问题:agent、tool、prompt、memory、environment 等都被建模为有状态、有生命周期、有版本接口的资源,而 evolution 本身通过独立协议层管理。 核心分层是 RSPL 与 SEPL...

DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation

发表:2026-04-16 · 突破级

问题与背景:deep research agents 需要规划、检索、多模态理解和报告生成,但开放 web 环境动态变化,任务定义也常含糊,导致评测很难复现。 方法与新意:DR3-Eval 用真实用户材料构造任务,并为每个任务配套静态 research sandbox corpus,包含支持文档、干扰项和噪声...

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

发表:2026-04-15 · 突破级

这篇论文聚焦长程 agent 失败诊断,而不是只给一个新成功率榜单。它的问题定义很重要:短中程任务表现好,并不能说明 agent 能稳定处理长串互相依赖的行动。 HORIZON 收集 3,100+ 条跨领域 agent 轨迹,用 trajectory-grounded judge 做失败归因,并用人工标注验证一...

Long-Horizon Plan Execution in Large Tool Spaces through Entropy-Guided Branching

发表:2026-04-15 · 突破级

这篇论文面向大工具空间里的长程计划执行,指出当前 tool agents 缺少 plan-level 评估,也缺少在巨大 API 决策空间中高效搜索的机制。 它提出 SLATE 作为大规模上下文感知 API benchmark,并提出 Entropy-Guided Branching,在预测熵高的位置动态展开分...

From Plan to Action: How Well Do Agents Follow the Plan?

发表:2026-04-15 · 突破级

这篇论文把 agent 评估从“有没有完成任务”推进到“是否按计划完成任务”。在软件修复 agent 中,如果模型绕过计划或依赖 benchmark 记忆,单纯成功率无法说明战略推理是否可靠。 作者分析 16,991 条 SWE-agent 轨迹,比较不同模型和计划变体,研究无计划、标准计划、差计划和周期提醒对...

ORBIT: Guided Agentic Orchestration for Autonomous C-to-Rust Transpilation

发表:2026-04-15 · 突破级

这篇论文把 C 到 Rust 迁移从函数级翻译提升到项目级 agentic orchestration。实际遗留代码迁移的难点在跨模块依赖、接口一致性、构建系统和测试验证,而不是单个函数语法转换。 ORBIT 构建依赖感知翻译图,动态收集上下文,协调专门 agent 生成接口、映射函数并迭代验证。这个流程直接回...

WebXSkill: Skill Learning for Autonomous Web Agents

发表:2026-04-14 · 突破级

WebXSkill 解决 Web agent 的长期痛点:已经完成过的流程不能稳定复用。它指出现有 skill 表示存在 grounding gap,纯文本技能无法执行,纯代码技能又不利于 agent 理解、恢复和泛化。 方法把一个 skill 表示成参数化 action program 加逐步自然语言说明,兼...

Toward Autonomous Long-Horizon Engineering for ML Research

发表:2026-04-14 · 突破级

这篇论文关注 AI research agent 的关键瓶颈:长程 ML 工程不是一次回答,而是要跨任务理解、环境配置、实现、实验、调试和证据归档持续推进。 AiScientist 的核心是 hierarchical orchestration 加 File-as-Bus:控制层保持薄摘要和阶段管理,厚状态则沉...

Toward Autonomous Long-Horizon Engineering for ML Research

发表:2026-04-14 · 突破级

这篇论文聚焦自主 AI 研究中最难落地的一段:长时程 ML research engineering。相比一次性代码生成,真实研究工程需要理解任务、配置环境、实现、实验、debug,并在数小时到数天内保持状态连续。 AiScientist 使用层级 orchestration 和 File-as-Bus 工作区...

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

发表:2026-04-13 · 突破级

问题与背景:agent 评测长期被少数可公开复现的环境限制,难覆盖真实职业任务。OccuBench 把评测对象扩展到急诊分诊、核电安全监控、海关进口处理等 65 个专业域,并把任务完成和环境鲁棒性放在同一套协议里。 方法与新意:论文用 Language World Models 生成领域工具响应与环境反馈,并通...

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

发表:2026-04-13 · 突破级

这篇论文把 GUI agent 的问题从单纯模型能力推进到完整工程栈:训练、评测和部署必须在同一个可复现实验框架里闭环,否则 GUI agent 的进展会被环境不稳定、评测漂移和部署断层拖住。 ClawGUI 的核心贡献是提供 ClawGUI-RL、ClawGUI-Eval 和 ClawGUI-Agent 三层...

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

发表:2026-04-13 · 突破级

AggAgent 研究长时程 agentic tasks 的 parallel test-time scaling。多条 agent rollout 并行生成后,简单投票或只看最终答案会丢掉轨迹里的工具调用和中间证据;直接拼接全部轨迹又会超过上下文窗口。 论文把聚合器本身设计成一个 agent,把并行轨迹当作可...

$λ_A$: A Typed Lambda Calculus for LLM Agent Composition

发表:2026-04-13 · 突破级

λ_A 直面 LLM agent 框架缺少形式语义的问题:多数 agent 配置能不能终止、工具循环是否有界、环境 mutation 是否合规,往往靠框架约定和运行时试错。论文把 agent composition 提升到 typed lambda calculus 层面。 它扩展简单类型 λ 演算,加入 or...

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

发表:2026-04-13 · 突破级

GUI agents 的瓶颈不只是模型能力,而是缺少完整开放基础设施:训练环境不稳定,评估协议难复现,在线 RL 和真实设备部署经常断裂,导致不同论文结果难比较,也难把 agent 真正放到真实手机或应用上。 ClawGUI 提供训练、评估、部署一体化框架。ClawGUI-RL 支持并行虚拟环境和真实物理设备...

CocoaBench: Evaluating Unified Digital Agents in the Wild

发表:2026-04-13 · 突破级

当前 agent 评测通常把软件工程、研究检索、GUI/视觉自动化分开测试,但真实数字代理经常需要把这些能力组合起来。单项 benchmark 分数高,并不意味着模型能在一个长视距任务中灵活切换搜索、视觉理解、代码执行和文件处理。 CocoaBench 针对这个缺口构建了 unified digital age...

The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents

发表:2026-04-12 · 突破级

问题与背景:computer-use agents 的安全评测通常盯显式恶意请求和 prompt injection,但真实部署里更危险的是用户指令本身看似良性,风险埋在环境状态、执行后果或被拆分后的子任务里。 方法与新意:论文提出 OS-BLIND,包含 300 个跨 12 类、8 个应用的人写任务,覆盖环境...

Many-Tier Instruction Hierarchy in LLM Agents

发表:2026-04-10 · 突破级

这篇论文针对 agent 系统中越来越常见的多来源指令冲突问题,指出传统 instruction hierarchy 通常只假设少数固定权限层级,难以覆盖真实 agent 中系统消息、用户消息、工具输出、组织角色、API 信任边界等更细粒度的权限关系。作者把问题扩展为可有任意多权限层级的 Many-Tier I...

ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

发表:2026-04-09 · 突破级

这篇论文指出当前 agent memory 评测过度聚焦显式事实回忆,例如多轮问答、状态跟踪或检索命中,而忽略了更接近长期助理需求的隐式记忆:经验是否会自动转化为程序化行为、偏好性反应或条件化规避,而不是在测试时被明确要求回忆。 ImplicitMemBench 将隐式记忆拆成三类认知构件:procedural...

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

发表:2026-04-09 · 突破级

这篇论文抓住了 agentic multimodal models 中一个越来越实际的问题:模型会盲目调用裁剪、搜索、代码或图像工具,即使问题可以直接从视觉上下文解决。工具滥用不仅增加延迟和成本,还会把无关噪声引入推理链;但简单给 tool penalty 又容易压制必要工具调用。 作者提出 HDPO,把正确性...

KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

发表:2026-04-09 · 突破级

这篇论文处理的是 mobile agent 从明确指令执行走向个人助理时的评测断层。现有 Android/GUI benchmark 多测试 agent 能否按清楚指令点击和跨 app 完成任务,但真实个人助理还必须从行为历史推断偏好、在信息不足时主动澄清、判断何时介入、何时征求同意、何时保持沉默。 KnowU...

ClawBench: Can AI Agents Complete Everyday Online Tasks?

发表:2026-04-09 · 突破级

这篇论文关注 web/computer-use agent 评测的真实性问题。很多已有 benchmark 使用离线沙箱、静态页面或固定 DOM,虽然可复现性强,但远离真实网页里的登录、cookie、弹窗、动态内容、多表单填写、写操作和平台变化。ClawBench 把问题直接放到生产网站中的日常任务上。 Cla...

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

发表:2026-04-09 · 突破级

这篇论文处理的是 web agent 研究中的开放性缺口:强 web agent 多依赖闭源模型、不可见训练数据和不透明 recipes,导致社区很难复现、分析和改进。对于会在开放网页上行动的 agent,仅有性能分数不够,训练数据、动作接口和评测 harness 的开放性本身就是研究基础设施。 MolmoWe...

Structured Distillation of Web Agent Capabilities Enables Generalization

发表:2026-04-09 · 突破级

这篇论文瞄准 web agent 的部署落差:前沿闭源模型可以操作复杂网站,但成本、隐私和第三方 API 依赖让本地部署困难;小型开源模型又缺少足够的 web interaction 能力。问题不只是生成更多轨迹,而是如何把 web agent 的任务设计、执行和监督过程结构化为可复用的蒸馏流水线。 作者提出...

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

发表:2026-04-09 · 突破级

这篇论文处理的是 skill-enabled agent 系统的一个真实瓶颈:OpenClaw 这类 agent 可以安装和调用大量可复用 skill,但部署后的 skill 往往是静态资产。不同用户会在相似工具链、相似工作流和相似失败模式上反复踩坑,单次会话中发现的修复很少能沉淀成共享能力,导致系统层面的经验...

TRACE: Capability-Targeted Agentic Training

发表:2026-04-07 · 突破级

TRACE 关注 agent 训练中的一个核心低效:失败并不直接告诉我们缺什么能力,而普通 synthetic data 也不一定针对目标环境的真实缺口。论文把 recurrent failures 转换为 capability-targeted training environments。 系统对比成功与失败...

Neural Computers

发表:2026-04-07 · 颠覆级

这篇论文重新定义了 agent、world model 和传统计算机之间的边界。它提出 Neural Computer(NC):让神经网络的潜在运行时状态同时承载计算、工作内存和 I/O,而不是让模型只作为外部操作系统、GUI 或工具链上的 agent。长期目标是 Completely Neural Compu...

Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

发表:2026-04-07 · 突破级

这篇论文处理的是 agent skill 生态扩张后的检索瓶颈:当本地 skill library 从几十个增长到数百、数千个时,把所有 skill 塞进上下文会造成 token 成本、幻觉和延迟,而普通向量检索又容易只找语义相似项,漏掉真正执行所需的解析器、前置转换器、认证步骤或底层工具 skill。 Gra...

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

发表:2026-04-07 · 突破级

随着 LLM agents 逐渐进入真实软件环境,benchmark 的核心问题已经不只是任务会不会做,而是评测能不能真实反映 agent 的全过程行为。现有很多 agent benchmark 只看 final output,忽略中间轨迹、跳过安全与鲁棒性、并且模态覆盖狭窄,导致模型看起来完成了任务,但其实中...

Gym-Anything: Turn any Software into an Agent Environment

发表:2026-04-07 · 突破级

这篇论文处理的是 computer-use agents 一个长期被低估但越来越关键的问题:现有评测和训练环境覆盖的软件种类太少、任务链太短,而且大量环境仍停留在电商、系统设置或少数桌面操作 demo 上,离真正有经济价值的软件工作流很远。作者把瓶颈明确定位在 environment creation 本身太昂...

FileGram: Grounding Agent Personalization in File-System Behavioral Traces

发表:2026-04-06 · 突破级

这篇论文针对个性化智能体长期记忆的一个具体缺口:现有记忆系统多依赖用户画像、对话摘要或叙事式 profile,但真实个人工作流往往沉淀在文件系统的操作痕迹、内容差异、目录结构、跨应用上下文和时间序列中。作者将这些低层行为轨迹视为可被智能体记忆系统利用的原始证据,提出用文件系统行为来支撑更稳健的个性化、意图恢复和...

Scaling Coding Agents via Atomic Skills

发表:2026-04-06 · 突破级

当前 coding agents 的主流训练仍然高度依赖 composite tasks,比如 bug fixing 或 issue resolution。这种做法虽然能直接刷 benchmark,但往往让模型在特定任务分布上过拟合,反而不利于形成可迁移的通用软件工程能力。 这篇工作把 coding agent...

ShieldNet: Network-Level Guardrails against Emerging Supply-Chain Injections in Agentic Systems

发表:2026-04-06 · 突破级

这篇论文处理的是 agent safety 里一个近几个月快速抬头、但现有防线覆盖很差的问题:随着 agent 越来越依赖第三方工具和 MCP server,攻击者已经不必只在 prompt 或输入输出层做注入,而可以把恶意行为埋进看似正常的工具、插件或服务依赖里,形成 supply-chain injecti...

The Art of Building Verifiers for Computer Use Agents

发表:2026-04-05 · 突破级

computer-use agents 近来的一个根本问题是:如果 verifier 不可靠,那 benchmark 分数和训练信号都会一起变脏。很多现有 web-task verifier 的 false positive 很高,导致“agent 成功了没有”这件事本身就不再可信。 这篇工作的重点不在于提出一...

ByteRover: Agent-Native Memory Through LLM-Curated Hierarchical Context

发表:2026-04-02 · 突破级

现有 memory-augmented generation 系统大多把记忆外包给向量数据库、嵌入服务或图数据库,导致“负责存”的流水线并不真正理解“负责用”的知识。结果是语义漂移、多智能体上下文丢失和故障恢复脆弱,记忆层和推理层之间长期割裂。 ByteRover 的核心贡献是把记忆变成 agent-nativ...

CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery

发表:2026-04-02 · 突破级

这篇论文处理的是 open-ended discovery 中一个很具体但长期没被解决好的问题:让基于大模型的演化式研究系统在长时搜索里真正积累知识,而不是依赖固定 heuristics、手写 exploration rules 和一次性 search loop。作者指出,现有 evolutionary age...

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

发表:2026-04-02 · 突破级

这篇论文关注一个很实际的 agent capability 问题:当前大量 agent skill 机制依赖推理时动态检索和注入 skill 文件,但这样会引入检索噪声、额外 token 开销,也意味着模型并没有真正学会技能,只是在运行时照着外部说明执行。作者因此把目标改成 skill internalizat...

EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification

发表:2026-04-02 · 突破级

随着 agent 从简单 tool call 走向长链任务执行,单一函数式工具已经不够,越来越多能力需要以 skill 的形式被组织成多文件、多步骤、带约束的能力包。现实问题在于,这类 skill 仍高度依赖人工 authoring,成本高,而且容易出现人类预期与模型实际使用方式不一致。 EvoSkills 的...

ATBench: A Diverse and Realistic Trajectory Benchmark for Long-Horizon Agent Safety

发表:2026-04-02 · 突破级

随着 LLM agents 进入真实工具环境,风险越来越多地在长轨迹中逐步显现,而不是在单轮 prompt 或最终回复上直接暴露。现有 agent safety benchmark 往往要么交互太短,要么故障类型和工具环境过于简化,因此很难支撑真正的 long-horizon safety diagnosis...

Executing as You Generate: Hiding Execution Latency in LLM Code Generation

发表:2026-04-01 · 突破级

当前 LLM coding agent 的默认执行范式几乎都是串行的:先把完整代码吐完,再把代码交给解释器执行。这样生成阶段 executor 闲置,执行阶段 generator 闲置,导致端到端时延被无谓拉长。真正的问题不只是模型快不快,而是 code generation 与 execution pipel...

Decision-Centric Design for LLM Systems

发表:2026-04-01 · 突破级

很多 LLM systems 真正失败的地方并不是语言生成本身,而是控制决策被偷偷塞进了同一个 model call:什么时候直接回答、什么时候澄清、什么时候检索、什么时候调工具、什么时候 repair 或 escalate,都常常混在生成过程里,导致系统难以诊断、约束和逐层改进。 论文提出 decision-...

EvolveTool-Bench: Evaluating the Quality of LLM-Generated Tool Libraries as Software Artifacts

发表:2026-04-01 · 突破级

越来越多的 LLM agents 会在运行时自己生成工具,从 Python functions 到 API clients 都开始被动态创建和迭代。但主流评测几乎仍然只看下游任务是否完成,这会掩盖一个关键事实:即使任务成功率接近,生成出来的工具库也可能在复用性、冗余、回归稳定性和安全性上相差很大。 论文提出 E...

Yet Even Less Is Even Better For Agentic, Reasoning, and Coding LLMs

发表:2026-04-01 · 突破级

agentic 和 coding LLM 的后训练越来越依赖大规模 task-specific trajectories,但构造、筛选和回放这些轨迹成本极高。很多工作默认更多轨迹就更好,而这篇论文延续了 less-is-more 的判断,直接追问:对于 agentic data,真正重要的是数量,还是高价值决策...

Signals: Trajectory Sampling and Triage for Agentic Interactions

发表:2026-04-01 · 突破级

LLM agent 已经进入多步交互、工具调用和持续部署阶段,但真正阻碍后续优化的一个现实问题是:系统每天会产生成海量 trajectory,而人工或辅助模型逐条复核成本过高,导致很多后训练、偏好构造和 failure analysis 根本拿不到高质量样本。问题不只是缺少数据,而是缺少便宜、稳定、可在线运行的...

Do Phone-Use Agents Respect Your Privacy?

发表:2026-04-01 · 突破级

mobile phone-use agents 的任务成功率越来越高,但它们是否尊重用户隐私一直很难严格回答。问题不只是模型会不会偷看隐私,而是缺少可操作的 privacy contract 和可验证的观测接口,普通 app 也不会直接告诉你 agent 在哪些表单里多填了什么、何时过度申请权限。MyPhone...

Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

发表:2026-04-01 · 突破级

proactive assistants 要真正有用,关键不只是能回应用户请求,而是能在合适时机主动介入、推断目标并执行任务。但这个方向长期缺少像样的评测环境,因为很多现有框架把 app 抽象成平面化的 tool-calling API,根本无法模拟真实用户与状态化数字环境之间的序列交互。Pare 正是在补这一...

Execution-Verified Reinforcement Learning for Optimization Modeling

发表:2026-04-01 · 突破级

用 LLM 自动完成 optimization modeling 一直很有吸引力,但现实里常见方案要么依赖闭源 agent pipeline,推理成本高、延迟大;要么靠过程监督微调较小模型,却容易把能力绑定到单一 solver API 上,难以泛化到不同求解后端。EVOM 直接对这个核心瓶颈下手。 论文把 so...

Detecting Multi-Agent Collusion Through Multi-Agent Interpretability

发表:2026-04-01 · 突破级

随着 LLM agents 开始真正以多智能体方式协作,风险也从单体 deception 扩展到 covert coordination,也就是多个 agent 之间通过隐蔽协作共同规避人类监管。已有 interpretability 工作已经证明单体模型激活里能暴露一定欺骗信号,但 multi-agent c...

Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

发表:2026-04-01 · 突破级

Test-time learning 在语言 agent 上越来越重要,但现有做法大多把 adaptation policy 视作人工设计的固定规则,比如如何根据前几轮轨迹更新策略、保留什么反馈、怎样进行下一轮修正。这样做能工作,但它默认人类已经知道最优 adaptation rule 是什么。 Meta-TT...

OmniMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

发表:2026-04-01 · 突破级

长程、多模态、可持续更新的 agent memory 仍然是现实智能体最难补齐的短板之一。问题不只是设计一个 memory store,而是同时要在架构、检索、prompt、数据流水线和评测之间做联动优化。OmniMem 针对的正是这个高度耦合、靠人工很难系统搜索的 memory design space。 论...

HippoCamp: Benchmarking Contextual Agents on Personal Computers

发表:2026-04-01 · 突破级

当前 agent benchmark 大多围绕网页操作、工具调用或通用软件自动化展开,但真实个人电脑环境中的 agent 还要处理完全不同的问题:理解用户背景、在海量个人文件中跨模态检索证据、并据此完成上下文化推理。HippoCamp 针对的正是这类更接近真实个人计算场景的 contextual agent 能...

General scales unlock AI evaluation with explanatory and predictive power

发表:2026-04-01 · 颠覆级

这篇 Nature 论文针对当前大模型评测体系的根本缺陷发力:常见 benchmark 能给出分数,却难以解释模型到底具备什么能力,也难以可靠预测模型在新任务、新实例上的表现。作者把问题从‘比较模型在固定题集上的平均表现’改写为‘用通用量尺刻画任务需求与模型能力,并据此解释和预测表现’。 论文提出一套面向 AI...

SkillReducer: Optimizing LLM Agent Skills for Token Efficiency

发表:2026-03-31 · 突破级

基于 LLM 的 coding agent 和工具型 agent 越来越依赖 skill 机制来注入能力,但 skill 本身正在变成新的上下文负担:描述冗长、正文臃肿、参考文件过大,直接吞掉上下文预算并稀释模型注意力。SkillReducer 正面处理的不是单个 agent 性能,而是 skill 作为能力扩...

Near-Miss: Latent Policy Failure Detection in Agentic Workflows

发表:2026-03-31 · 突破级

agentic workflow 的合规评测常默认只看最终系统状态是否与 ground truth 一致,但这会漏掉一类更危险的错误:agent 实际上绕过了必要的 policy checks,只是恰好在这次轨迹里得到了正确结果。问题不只是 policy violation 有没有发生,而是当前评测常看不到“决...

APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay

发表:2026-03-30 · 突破级

很多 LLM autonomous agents 虽然看起来能规划、执行和反思,但一旦面对结构相似却表面不同的任务,仍然会从头再做一遍,缺乏真正可积累的 procedural memory。现有 memory 方法常常只存简短摘要或纯语义向量,难以支撑跨任务的结构复用。APEX-EM 正是围绕这个问题设计。 论...

Mimosa Framework: Toward Evolving Multi-Agent Systems for Scientific Research

发表:2026-03-30 · 突破级

当前 autonomous scientific research 系统虽然越来越多,但大多仍依赖固定的 agent workflow 和预设工具栈,导致一旦任务结构变化或环境变复杂,系统很难自适应调整。Mimosa 瞄准的不是单一任务性能,而是‘科研 agent workflow 能否像程序一样被自动合成、执...

Heddle: A Distributed Orchestration System for Agentic RL Rollout

发表:2026-03-30 · 突破级

Agentic RL 把 LLM 训练分成 rollout data collection 和 policy training 两个阶段,但真正卡住吞吐的往往不是训练本身,而是 rollout 中长尾轨迹的生成。频繁工具调用会导致排队延迟、相互干扰和 per-token time 膨胀,而很多系统仍按 step...

Meta-Harness: End-to-End Optimization of Model Harnesses

发表:2026-03-30 · 颠覆级

大语言模型系统的表现不仅由模型权重决定,也深受 harness 影响,也就是决定哪些信息被存储、检索和呈现给模型的那层代码逻辑。现实里这部分仍主要靠人工设计,而现有文本优化器又往往把反馈压缩得过度,难以真正搜索代码级 harness 设计空间。 Meta-Harness 的核心贡献是把 harness opti...

AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents

发表:2026-03-29 · 突破级

这篇论文面向长视距 Web agent 的上下文容量瓶颈。现有 context management 往往在整个轨迹中固定使用某一种压缩、裁剪或保留策略,但信息检索任务的状态会动态变化:早期更需要探索效率,后期更需要终局精度,单一静态策略很难同时满足。 AgentSwing 先用概率框架把长视距成功拆成 sea...

PRBench: End-to-end Paper Reproduction in Physics Research

发表:2026-03-29 · 突破级

这篇论文针对一个此前没有被严格回答的问题:现有大模型 agent 虽然在代码、推理和局部科研任务上表现不错,但它们是否真的能从真实科学论文出发,独立完成端到端的复现实验流程。作者将这个问题具体化为 physics reproduction,并构建了一个由真实已发表论文反推而来的 benchmark,以避免科研...

AIRA_2: Overcoming Bottlenecks in AI Research Agents

发表:2026-03-27 · 突破级

这篇论文聚焦 research-agent 这一条已经开始拥挤但仍缺少结构性解释的主线。作者不是简单把更强模型堆到 MLE-bench 上,而是先明确指出 AI research agents 存在三个持续限制性能的瓶颈:单 GPU 同步执行导致 search 吞吐受限,validation-based sel...

Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

发表:2026-03-26 · 突破级

给 LLM agent 配技能一直有明显瓶颈:人工写技能不扩展,自动生成技能又容易只记住局部轨迹里的偶然经验,最后得到的是脆弱、碎片化、难迁移的 skill。对于想把 agent 做成长期能力系统的人,这个问题比单次任务得分更关键。 Trace2Skill 的核心做法不是按单条轨迹顺序修补,而是并行调度多个子代...

Natural-Language Agent Harnesses

发表:2026-03-26 · 突破级

这篇论文抓住了一个经常被低估但越来越关键的问题:agent 表现高度依赖 harness engineering,但 harness 往往埋在控制器代码、运行时约定和框架细节里,难以迁移、比较和系统研究。结果是很多 agent 进步其实发生在 harness 层,却没有形成稳定的可复用对象。 作者提出 Natu...

SEVerA: Verified Synthesis of Self-Evolving Agents

发表:2026-03-26 · 突破级

self-evolving agents 这条线越来越强,但大多数框架只关心 planner 能否自动生成和改写 agent program,几乎不对 autonomy 带来的安全性、约束遵守和 correctness 给出形式保证。一旦这些程序在未见输入上自动执行,这个缺口就会直接变成 reliability...

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

发表:2026-03-25 · 突破级

现有 coding agent benchmark 大多看单次提交能否过测试,但真实软件开发是不断迭代扩展的。代码可能今天能过测试,明天就因为结构变形、冗余堆积而难以继续维护,因此 pass rate 对 agent 的长期开发能力测量严重不足。 SlopCodeBench 针对这一缺口,设计了 20 个问题、...

From AI Assistant to AI Scientist: Autonomous Discovery of LLM-RL Algorithms with LLM Agents

发表:2026-03-25 · 突破级

改进语言模型的 policy optimization 算法一直高度依赖研究者手工试错,因为它不只是调参数,而是要围绕训练动力学、机制改写和评测证据持续迭代。POISE 处理的正是这个层面的问题:能不能让 LLM agents 不只是帮人跑实验,而是自己形成提案、实现、验证和反思闭环,从而发现新的 LLM-RL...

Environment-Grounded Multi-Agent Workflow for Autonomous Penetration Testing

发表:2026-03-25 · 突破级

随着机器人和工业 OT 系统日益网络化,渗透测试已经不只是传统 IT 环境的问题,而是直接关联到真实 cyber-physical system 的安全评估。现有 LLM-based pentest agent 大多停留在一般网络攻防环境,缺少对机器人环境状态、通信拓扑和 exploit traceabilit...

Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

发表:2026-03-25 · 突破级

autoresearch 现在最有价值的地方,不在于能不能帮人写一篇研究报告,而在于它是否能在一个有强反馈信号的具体研究问题上持续迭代并超过人工手工搜索。Claudini 选择了一个很合适的目标:白盒 adversarial attack algorithm discovery。这个问题既有现成实现可以作为起点...

VehicleMemBench: An Executable Benchmark for Multi-User Long-Term Memory in In-Vehicle Agents

发表:2026-03-25 · 突破级

车载 agent 如果要从助手变成长时陪伴系统,真正难的不是回答单轮问题,而是持续建模多用户偏好、处理家庭成员间的冲突,并在习惯变化后做可靠决策。现有 long-term memory benchmark 大多还是单用户、静态 QA 或弱交互环境,因此很难覆盖真实 in-vehicle agents 面临的 p...

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

发表:2026-03-25 · 突破级

mobile GUI agent 的关键难题不是单步 grounding,而是长程任务里的失败经验怎么转化成可持续的训练信号。现有方法常见两个问题:要么只是离线堆 demonstration,无法形成持续演化闭环;要么只看最终 sparse reward,导致 credit assignment 太弱,学不到中...

CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

发表:2026-03-25 · 突破级

computer-use agent 现在最缺的不是又一个 benchmark 分数,而是连续、高质量、带动作与推理痕迹的人类演示数据。现有公开资源大多停留在稀疏截图、短时交互或极少量视频,导致 agent 很难真正学到长程桌面工作流里的时序线索、光标运动细节和局部失败恢复。CUA-Suite 正面处理的就是这...

MemCollab: Cross-Agent Memory Collaboration via Contrastive Trajectory Distillation

发表:2026-03-24 · 突破级

现有 agent memory 大多是 per-agent 设计:memory 既绑定任务,也绑定某个模型自己的推理风格。这在异构 agent 联合部署里会立刻变成问题,因为同一份 memory 迁移给不同 agent 时,往往会把模型私有偏好和任务不变量混在一起,反而伤害效果。MemCollab 处理的正是这...

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

发表:2026-03-24 · 颠覆级

当前很多所谓 frontier agent benchmark 仍严重依赖语言知识、互联网经验或任务模板匹配,因此很难真正区分“会调用很多工具”与“具备流体式新任务适应能力”之间的差别。ARC-AGI-3 直接把问题重新拉回 agentic intelligence 的核心:在没有明确指令、没有外部知识补偿的陌...

SkillRouter: Retrieve-and-Rerank Skill Selection for LLM Agents at Scale

发表:2026-03-23 · 突破级

随着 agent skill 生态从几十个工具扩展到上万条 skills、plugins 和 prompts,真正的瓶颈已经不只是“agent 会不会调用工具”,而是“在巨大且高度同质的 skill 池里,系统怎样先找对 skill”。这篇论文把 skill routing 提升成一个独立问题来研究,而不是继续...

Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

发表:2026-03-23 · 突破级

问题与背景:当前 web-agent benchmark 基本都把智能体限制在浏览器内部,默认视觉输入也只来自网页本身,因此无法评估一类更真实的助理任务:智能体先通过第一人称视觉理解用户身边的物体、场景或上下文,再去网页上完成检索、购买、预约或信息填写。Ego2Web 要解决的正是这个物理世界到网页执行之间的断...

The Library Theorem: How External Organization Governs Agentic Reasoning Capacity

发表:2026-03-22 · 突破级

这篇论文讨论的不是普通 RAG 效果,而是一个更底层的问题:随着 agent 推理链变长,外部记忆到底该如何组织,才能避免 reasoning cost 被顺序扫描拖垮。作者把 context window 形式化成 I/O page,并把 indexed external memory 作为独立能力对象来分析...

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

发表:2026-03-21 · 突破级

这篇论文针对一个已经变得现实但仍缺少系统方法的问题:传统 LLM 红队主要诱导有害文本输出,却难以覆盖多步工具执行中的 agent 漏洞,尤其是在 MCP 这类快速扩张的工具生态里。仅看单轮文本对齐已经不足以刻画代理系统的真实风险,攻击是否真的通过工具链被执行,才是更关键的安全边界。 论文提出 T-MAP,把红...

AC4A: Access Control for Agents

发表:2026-03-21 · 突破级

多数 LLM agent 现在仍然工作在全有或全无的权限模型里:要么拿到完整 API 权限和整页网页内容,要么完全拿不到。随着 agent 更能执行真实任务,这种粗粒度授权会把用户暴露在不必要的能力过度授予之下,也使很多安全控制只能停留在 prompt 约束层。 AC4A 提出面向 agent 的访问控制框架...

Agentproof: Static Verification of Agent Workflow Graphs

发表:2026-03-20 · 突破级

越来越多 agent framework 会把 tool-using behavior 编码成显式 workflow graphs,但多数安全控制仍发生在 runtime,意味着很多图结构层面的错误只有在坏路径真的被走到时才会暴露。对生产系统而言,这种事后发现成本很高。 Agentproof 的贡献是把主流 f...

Beyond detection: cooperative multi-agent reasoning for rapid onboard EO crisis response

发表:2026-03-20 · 突破级

地面中心的 Earth Observation 危机响应流程长期受制于下行链路、跨模态融合延迟和全场景穷举分析的算力开销,这让真正需要分钟级反应的灾害监测很难做到快速闭环。单一模型直接扫完整场景也不适合卫星边缘计算平台的带宽与功耗约束。 这篇工作提出分层的 cooperative multi-agent 架构:...

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

发表:2026-03-19 · 突破级

多轮 LLM agent 的 RL 训练正在从单轮问答转向长轨迹、强环境交互的任务,但真正拖慢系统的常常不是 PPO 或 GRPO 本身,而是 rollout 这一侧:要管理沙箱环境、工具调用、异步反馈和不同任务的执行时延。现有框架往往把 rollout 生命周期直接嵌在 trainer 里,结果是训练侧和执行...

Hyperagents

发表:2026-03-19 · 突破级

这篇论文针对 self-improving AI systems 的一个根本限制:现有方法虽然强调自我改进,但元层机制往往仍是人工写死的,系统只能在固定的自改进框架里搜索更好的策略。Darwin Gödel Machine 已经展示了 coding 领域中的开放式自改进,但它依赖一个特殊前提,即“做任务”和“改...

Multi-User Large Language Model Agents

发表:2026-03-19 · 突破级

这篇论文指出当前 LLM agent 默认服务单一用户或单一 principal,但真实组织和团队工具中,一个 agent 经常同时服务多个用户,且这些用户具有不同角色、偏好、权限和隐私边界。多用户场景天然带来目标冲突、信息不对称和协调成本,是单用户 instruction following 无法覆盖的系统问...

Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures

发表:2026-03-18 · 突破级

这篇论文解决的是 agent memory 领域一个长期存在的问题:很多系统会堆外部记忆组件,但缺乏清晰的版本语义、信念更新原则和稳定的长期知识结构。它符合仓库新扩展的 agent memory 范围,而且相比一般 memory system 论文更重视形式化与架构一致性。 作者提出 Kumiho,把图原生版本...

Guardrails as Infrastructure: Policy-First Control for Tool-Orchestrated Workflows

发表:2026-03-18 · 突破级

从脚本、CI bot 到 tool-using agents,很多真实失败并不是模型回答错了一句,而是在执行层产生了不安全副作用、无效参数、失控重试或敏感信息泄漏。仅靠 prompt patch 或模型内安全策略,既脆弱,又无法覆盖非 LLM caller。 这篇工作的关键转向,是把 guardrails 从...

SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems

发表:2026-03-18 · 突破级

AI tutor 正在快速进入真实教学场景,但现有评测通常把‘做题是否正确’和‘模型是否安全’分开看,忽略了教学场景里更隐蔽的失败:过度泄题、强化误解、放弃 scaffolding,最终悄悄破坏学习过程。论文的出发点很明确:tutoring safety 不是一般意义上的 toxicity/safety,而是一...

Online Experiential Learning for Language Models

发表:2026-03-17 · 突破级

这篇论文针对的是部署后语言模型如何持续学习的问题。当前大模型能力的提升几乎全部发生在离线阶段,依赖人工标注的 SFT 或模拟环境里的 RL,而真实部署中积累的大量交互经验往往只被当作日志保存,无法转化为稳定的能力改进。作者因此把重点放在一个更现实的 setting 上:只有文本反馈、没有显式标量奖励、也不要求训...

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

发表:2026-03-17 · 突破级

这篇论文针对的是一个很现实但长期被弱化的问题:部署后的 LLM agent 往往是静态的,用户需求和任务分布在变,系统却只能靠人工整理记忆、重启训练或停机更新来追赶。作者把这个问题放到 OpenClaw 这类多渠道、持续在线的 agent 平台上来讨论,强调核心矛盾不是单次任务求解,而是如何在不中断服务的前提下...

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

发表:2026-03-17 · 突破级

这篇论文要解决的问题不是一般的视频生成,而是更接近机器人训练需求的 embodied simulation:既要保留机器人控制轨迹的精确性,又要让环境反应具备真实的时空生成能力。作者明确指出,传统模拟器在视觉与交互上过于刚性,而已有生成式模拟方法又大多停留在 2D 或静态环境条件,无法真正覆盖机器人与世界相互作...

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

发表:2026-03-17 · 突破级

这篇论文处理的是 deep research agent 训练数据的可复现性瓶颈。高质量研究型 agent 需要长时程轨迹,轨迹里包含搜索、打开网页、定位证据、综合推理和多轮工具调用;但现有数据合成流程通常依赖商业搜索 API 和在线网页环境,成本高、状态不稳定,也难以复现和分析。 OpenResearcher...

Chronos: Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory

发表:2026-03-17 · 突破级

长期会话记忆里最难的部分往往不是“能否检索到相关片段”,而是如何在多月跨度的对话中正确处理时间变化、事件先后关系和跨轮次多跳查询。很多 memory 系统仍然主要依赖语义相似度,因此一旦用户事实随时间变化,或者问题本身要求 temporal filtering,就很容易把语义相关但时间错误的证据混在一起。 Ch...

SmartSearch: How Ranking Beats Structure for Conversational Memory Retrieval

发表:2026-03-16 · 突破级

这篇论文直指当前对话长期记忆系统的主流路线:很多系统在注入阶段就用 LLM 做摘要、结构化或图谱化,再在查询阶段叠加复杂的语义路由。但作者认为这些环节大多在做昂贵而脆弱的过度加工,真正的瓶颈并不在“如何把记忆整理得更复杂”,而在“检索到的大量候选里,什么证据能在 token 截断之前被排到前面”。 论文提出 S...

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

发表:2026-03-16 · 突破级

研究 agent 这条线里,一个持续存在的问题是:系统可以做很多步骤,但每一步的可靠性和整条推理链的一致性都很脆弱。MiroThinker-1.7 与 H1 把这个问题具体化为 verification at local and global levels,而不是继续单纯堆长上下文或多工具调用。 MiroThi...

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

发表:2026-03-16 · 突破级

高性能 search agent 一直被少数工业实验室垄断,一个关键瓶颈不是模型结构,而是高质量训练数据不透明。这篇论文直接对准这个问题,试图把 frontier-level search agent 的训练入口从闭源系统手里拆出来。 作者提出 OpenSeeker,并把核心放在两块:一是 fact-groun...

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

发表:2026-03-16 · 突破级

这篇论文处理的是 embodied AI 里一个关键但长期没有被真正打通的问题:从稀疏视角图片或单目视频重建 human-scene interaction 时,视觉上看着合理的结果往往并不满足物理约束,放进 simulator 就会失稳,从而无法直接用于机器人、仿真或 real-to-sim 工作流。 HSI...

Kimodo: Scaling Controllable Human Motion Generation

发表:2026-03-16 · 突破级

Kimodo 处理的是 humanoid robotics、simulation 和 animation 都共同缺少的一块基础设施:高质量、可控、可大规模生成的 3D human motion 数据。过去的文本到动作或约束到动作模型通常受限于小规模公开 mocap 数据,因此在运动质量、控制精度和泛化上都很难真...

POLCA: Stochastic Generative Optimization with LLM

发表:2026-03-16 · 突破级

这篇论文关注的是一个越来越重要的问题:把大语言模型本身当作优化器,用自然语言提案去优化 prompt、agent 配置、代码或系统策略。但这类优化天然存在两个难点,一是评估通常带噪声,二是 LLM 会不断生成语义相近的冗余候选,导致搜索成本膨胀而收敛变慢。 POLCA 给出的核心框架是用优先级队列管理候选解和评...

AI Can Learn Scientific Taste

发表:2026-03-15 · 突破级

这篇论文关注 AI scientist 研究中一个长期被忽视但非常关键的问题:模型不仅要会执行科研任务,还要具备对研究方向、研究问题和潜在影响力的判断力,也就是作者所说的 scientific taste。相比现有工作主要优化检索、实验执行或论文生成,这篇论文把科研品味本身提升为可学习、可评估、可对齐的对象...

Autonomous Agents Coordinating Distributed Discovery Through Emergent Artifact Exchange

发表:2026-03-15 · 突破级

这篇论文把 AI scientist 的一个关键瓶颈说得很清楚:现有很多系统仍是静态、中心化、手工编排的 pipeline,多 agent 之间很少真正通过共享产物与可追溯 lineage 形成开放式协作。它试图把问题从“如何做一个更强的单体 AI scientist”改成“如何让独立 agent 在共享科学生...

D-MEM: Dopamine-Gated Agentic Memory via Reward Prediction Error Routing

发表:2026-03-15 · 突破级

长程 LLM agent memory 的一个现实瓶颈,是很多 append-and-evolve 体系在写入和结构更新时很快走向高 token 开销和平方级延迟。随着记忆规模增长,真正需要解决的已不是‘能不能存’,而是哪些输入值得触发代价高昂的认知重组。 D-MEM 的核心贡献,是用 reward predi...

ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning

发表:2026-03-13 · 突破级

agentic RL 和传统 RL 最大的系统差异,不在训练循环本身,而在外部资源依赖:代码执行要占 CPU,reward model 和 verifier 可能跑在独立 GPU 池里,轨迹执行又会因为工具调用和环境交互拉长生命周期。现有框架通常按任务或轨迹做静态过配,这让外部资源长期被锁死,成为 agenti...

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

发表:2026-03-12 · 突破级

科学文档推理一直存在一个老问题:如果只做小而精的人工 benchmark,真实性和可解释性强,但规模不够;如果做大规模合成数据,规模上来了,又很容易失真,尤其在跨图表、公式、正文、多页上下文联合推理时,模型学到的往往不是科学文档理解本身,而是数据构造偏差。SciMDR 试图直接解决这个数据构建层面的张力。 作者...

LABSHIELD: A Multimodal Benchmark for Safety-Critical Reasoning and Planning in Scientific Laboratories

发表:2026-03-12 · 突破级

随着多模态大模型和具身代理开始进入实验室自动化,真正的瓶颈已经不只是任务完成率,而是高风险环境中的安全推理能力。科学实验室里存在脆弱器皿、危险化学品和高精度设备,一次错误规划就可能带来不可逆损失。现有通用 benchmark 很难覆盖这种安全约束,因此实验室场景中的 agent safety 仍缺少专门、结构化...

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

发表:2026-03-12 · 突破级

问题与背景:长时程机器人任务的一个核心瓶颈是数据采集、策略学习和部署流程割裂,导致需要大量人工重置、策略组合脆弱且执行阶段与采集阶段语义不一致。 方法/新意:RoboClaw 用一个 VLM-driven controller 统一数据采集、策略学习和任务执行,并引入 entangled action pair...

LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation

发表:2026-03-12 · 突破级

LifeSim 关注长期个性化助手的评测缺口:真实用户需求受时间、地点、天气、偏好、认知状态和生活轨迹共同影响,而现有 benchmark 多是短程静态任务。 它用 BDI 认知模型生成用户 belief、desire、intention,并结合物理环境产生连贯 life trajectories,再据此构造...

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

发表:2026-03-11 · 突破级

LLM agent 一个长期没有解决好的问题,是任务虽然能完成,但执行过程中的失败模式、低效步骤和恢复策略并不会自动沉淀成后续可复用的能力。现有 memory 系统往往只存对话事实或零散经验,而不真正理解 agent 执行轨迹里的决策结构,因此很难持续提升未来任务表现。 这篇工作把执行轨迹转成可检索的结构化学习...

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

发表:2026-03-10 · 突破级

这篇论文正面回应了一个越来越重要的问题:端到端 VLA 是否真的是机器人操作的默认答案。作者提出 TiPToP,把预训练视觉基础模型、开放词汇语义理解和现有任务与运动规划器组合起来,直接从 RGB 图像和自然语言指令求解多步操作任务,而且不需要任何特定机器人的训练数据。 技术上,TiPToP 采取的是高度模块化...

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

发表:2026-03-10 · 突破级

这篇论文要解决的是多智能体强化学习里一个长期存在的问题:最优应对策略通常由黑盒神经网络给出,难以解释、难以调试,也很难信任。作者把这一问题重写为“让大语言模型直接生成可执行策略代码”,从而把策略学习从参数优化变成程序合成。 核心方法是 Code-Space Response Oracles(CSRO)。它在 P...

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

发表:2026-03-09 · 突破级

这篇论文抓住了 embodied AI 一个非常实际的瓶颈:高质量交互数据难扩、纯大模型自举容易塌缩、而少量人工示范又远远不够支撑通用能力增长。作者把问题重写成“如何做一个能自我扩展的数据引擎”,而不是只讨论某个 VLA 模型结构本身。 Seed2Scale 的核心是异构角色分工:小模型负责并行采集和探索,大模...

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

发表:2026-03-09 · 突破级

这篇工作针对 computer-use agents 在复杂专业软件环境里的核心短板:虽然通用桌面代理已经能完成一些基础 GUI 操作,但在专业任务上仍然明显弱于人类专家,表现为探索低效、对未见界面迁移差、以及对细粒度动作序列掌握不足。论文先提出 OSExpert-Eval,用来把这类“专业技能差距”显式化,而...

Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA

发表:2026-03-09 · 突破级

这篇论文解决的是一个很硬的具身智能问题:如何把 VLA 从低自由度、视觉主导的抓取,推进到真正依赖接触、力觉和手内操作的双臂灵巧操控。作者指出,直接把力觉和触觉拼接进预训练 VLA 往往会破坏已有视觉能力,而复杂手内操作的数据又很难靠人类纯遥操作高质量采集。 为此论文提出了两部分组合方案。第一部分是 IMCop...

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

发表:2026-03-09 · 突破级

这篇论文把问题直接抬到了‘让大模型智能体自己做大模型后训练’这一层,而不是继续停留在软件工程或代码生成。作者提出 PostTrainBench,在单卡 H100、10 小时受限算力下,让前沿 agent 自主完成数据搜集、训练、调参与评测,衡量它们是否具备自动化后训练的实际能力。 方法上的关键不是再造一个训练算...

How Emotion Shapes the Behavior of LLMs and Agents: A Mechanistic Study

发表:2026-03-09 · 突破级

问题与背景:多数 emotion-aware LLM 研究把情绪当作表层风格或识别目标,而不是内部计算变量。E-STEER 关注的问题是:情绪式表示是否会以机制方式改变 LLM 与 agent 的推理、安全和多步行为。 方法与新意:论文把情绪编码为可控的 hidden-state 变量,并进行 represen...

Learning Next Action Predictors from Human-Computer Interaction

发表:2026-03-06 · 突破级

问题与背景:当前大多数 AI 系统仍然是被动响应式的,只有在用户显式发出请求后才开始工作。论文关注的核心问题是:AI 能否从长期、多模态的人机交互历史中学习,在用户行动发生之前预测其下一步操作,从而把人机协作从“响应”推进到“预判”。 方法/新意:作者首先形式化了 next action prediction(...

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

发表:2026-03-05 · 突破级

自演化 agent 的一个关键能力,不只是会不会调用已有工具,而是能否从抽象任务需求中构造、修正并维护新的工具。现有评测大多仍把这件事压扁成最终任务分数,导致失败究竟来自接口设计、工具逻辑还是下游集成,经常无法拆解。 Tool-Genesis 的核心贡献,是把 tool creation 评测改造成诊断型 be...

KARL: Knowledge Agents via Reinforcement Learning

发表:2026-03-05 · 突破级

这篇论文讨论的是知识型智能体在“难验证任务”上的训练问题。很多 agentic RL 工作依赖代码执行、数学答案或规则评测,但企业搜索、知识检索、复杂问答等任务往往没有这么干净的 reward。KARL 要解决的就是:如何在这类知识工作流中,把强化学习真正用起来。 方法上,KARL 把知识型智能体训练分解成可操...

AutoHarness: improving LLM agents by automatically synthesizing a code harness

发表:2026-03-04 · 突破级

这篇论文解决的是 LLM agent 在交互环境中经常出现的非法动作、格式错误和环境约束违反问题。很多 agent 不是不会推理,而是输出无法被环境执行,导致整轮任务失败。作者把问题聚焦在一个很工程化但又普遍存在的瓶颈:如何在不人工手写环境约束规则的前提下,让模型自动获得可靠的动作执行边界。 论文提出 Auto...

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

发表:2026-03-04 · 突破级

现有软件工程 agent benchmark 大多停留在静态 bug fixing 或一次性 patch correctness 上,但真实软件开发更接近持续演化过程:需求不断变化,功能在几十轮提交与回归中被维护、修改和延展。只看单次修复是否通过,无法衡量 agent 是否真的具备维护代码库的能力。 SWE-C...

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

发表:2026-03-03 · 突破级

这篇论文关注多步工具使用智能体的安全,不再把安全视为单轮拒答问题,而是视为“何时继续执行、何时中止”的序贯决策问题。作者提出 MOSAIC 框架,把推理过程组织成 plan-check-act/refuse 循环,并把显式安全推理和拒绝动作纳入偏好强化学习。实验显示该框架能明显降低恶意任务执行、提示注入和隐私泄...

What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty

发表:2026-03-03 · 突破级

这篇理论工作试图证明:在不确定环境里表现足够好的智能体,不仅可以拥有世界模型和信念状态,而且在许多条件下必须拥有它们。作者把复杂的动作条件预测约化成一系列二元赌注任务,并证明低平均遗憾会强迫智能体内部表征做出正确的预测性区分。在部分可观测场景下,这进一步推出了类信念记忆的必要性。它的价值在于把“高能力智能体为何...

Expanding LLM Agent Boundaries with Strategy-Guided Exploration

发表:2026-03-02 · 突破级

问题与背景:大语言模型智能体在长程任务上的强化学习训练,往往被探索效率所限制。尤其在语言动作空间、复杂观察和稀疏回报下,单纯在低层动作空间试错既昂贵又容易陷入局部策略。论文要解决的是:如何让 LLM agent 在 RL 过程中学会更有结构的探索,而不是盲目增加 rollout 或温度。 方法/新意:作者提出...

Silo-Bench: A Scalable Environment for Evaluating Distributed Coordination in Multi-Agent LLM Systems

发表:2026-03-01 · 突破级

SILO-BENCH 评估的是多 agent LLM 系统能否真正对分布式信息做计算,而不是只会互相转述。论文指出,随着 agent 数量增加,系统可能形成看似合理的通信拓扑,但仍无法把分散状态合成为正确答案。 benchmark 覆盖 30 个算法任务和三种通信复杂度,对 54 种配置做系统评估。核心发现是...

MemPO: Self-Memory Policy Optimization for Long-Horizon Agents

发表:2026-02-28 · 突破级

长时程 agent 的一个核心瓶颈,是上下文会随着交互持续膨胀,令性能、稳定性和成本一起恶化。许多方法通过外挂 memory module 来检索历史信息,但这会把“记忆管理”放在外部组件里,模型自身并没有学会如何根据任务目标主动保留、压缩和遗忘信息。 MemPO 把这件事改成 agent 自身的策略优化问题...

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

发表:2026-02-26 · 突破级

这篇论文解决的是 agent memory 评测里的一个真实缺口:现有基准过度围绕人机对话,无法覆盖真实 agent 在环境交互中产生的大量机器生成轨迹。作者把问题重新定义为长时程 agent-environment memory,而不是聊天历史检索,这个 framing 是有价值的。 AMA-Bench 由两...

On Sample-Efficient Generalized Planning via Learned Transition Models

发表:2026-02-26 · 突破级

**问题与背景** 这篇论文围绕 planning / transition models / generalized planning 展开,目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准,它属于值得正式收录的新作,因为问题本身有持续研究价值,且不是单纯的数据集刷分或局部工...

Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace

发表:2026-02-25 · 突破级

随着 agent 系统越来越多地自动打开 URL、读取网页预览、调用外部工具,安全风险不再只发生在最终可见回答里。系统可能在用户看不到的中间步骤里发出外联请求,把敏感上下文悄悄带出运行环境,而现有输出级 safety checks 往往根本察觉不到。 Silent Egress 针对这一点提出 implicit...

Discovering Multiagent Learning Algorithms with Large Language Models

发表:2026-02-24 · 突破级

这篇论文关注的是一个比‘让 LLM 帮忙写策略代码’更进一步的问题:能不能让大模型直接发现新的多智能体学习算法,而不是只在既有算法框架里调参。作者将问题放在不完全信息博弈和多智能体学习场景中,目标不是生成单个策略,而是发明能系统性改进学习过程本身的算法。 方法上,这篇工作沿用了大模型驱动的算法搜索思路,让 LL...

DoAtlas-1: A Causal Compilation Paradigm for Clinical AI

发表:2026-02-22 · 突破级

问题与背景 当前医学基础模型很擅长生成解释性文本,但很难真正回答“如果干预会怎样”这类可审计、可执行的问题。叙事式输出无法量化 intervention effect,也很难识别证据冲突或支持真正的因果查询。 方法/新意 DoAtlas-1 的核心是 causal compilation:把医学研究中的异构证据...

An agentic system for rare disease diagnosis with traceable reasoning

发表:2026-02-18 · 突破级

这篇论文针对罕见病诊断长期存在的“诊断漂流”问题,目标不是做一个普通的单模型问答器,而是建立一个能够处理异构临床输入、调用外部工具并输出可追溯证据链的诊断支持系统。对于本仓库,它首先属于 agent systems 与 AI x biomedicine 的交叉条目,重点不在医学分数本身,而在可复用的 agent...

Aligning Language Models from User Interactions

发表:2026-02-18 · 突破级

这篇论文关注的是部署后语言模型最真实、也最容易被浪费的一类数据:多轮用户交互。大量真实对话里都包含了隐式反馈,例如用户继续追问、纠错、表达不满或改写要求,但现有对齐方法通常依赖显式偏好标注、奖励模型或专门构造的数据集,无法直接把这些自然交互转化为学习信号。 作者提出的核心方法是利用同一个模型的 hindsigh...

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

发表:2026-02-18 · 突破级

这篇论文处理的是 agent 系统里一个长期被忽视但实际很关键的问题:技能被抽取、封装和复用之后,究竟能否稳定泛化到不同任务,而不是只在演示案例里看起来可用。作者没有再做一个 agent,而是把问题显式转成 benchmark:如何系统评估 agent skills 在多域、多任务、多环境中的可靠性、迁移性和组...

GUI-GENESIS: Automated Synthesis of Efficient Environments with Verifiable Rewards for GUI Agent Post-Training

发表:2026-02-15 · 突破级

这篇论文关注 GUI agent 后训练里的一个根本瓶颈:真实应用环境训练既慢又贵,而且奖励通常依赖脆弱的视觉代理,难以验证。对本仓库来说,它属于 agent post-training 与自动化环境构造的交叉条目,重点不是单个 GUI 任务分数,而是环境生成与可验证奖励这套工作流。 GUI-GENESIS 的...

WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL

发表:2026-02-15 · 突破级

这篇论文解决的是 VLA 后训练里一个非常现实的问题:真实机器人上的 RL 太贵,而 learned world model 又常常在闭环 rollout 中积累误差,导致策略学会利用模拟器漏洞而不是真正完成任务。 WoVR 的核心是把 world model 当作“可靠模拟器”来设计和筛选,用它支持 VLA...

UniManip: General-Purpose Zero-Shot Robotic Manipulation with Agentic Operational Graph

发表:2026-02-13 · 突破级

问题与背景:零样本机器人操作长期面临两难:端到端 VLA 模型语义强但精度不足,传统分层规划精度高但语义僵硬,难以处理开放世界变化。 方法/新意:UniManip 用 agentic operational graph 把高层语义理解与低层物理操作连接起来,构建一个更灵活的通用操作框架。重点是通过显式图结构承接...

LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion

发表:2026-02-12 · 突破级

问题与背景:机器人 foundation model 往往依赖行为克隆,只模仿动作而难以吸收异构 embodied 数据中的动力学知识,导致在长时程和接触丰富任务上泛化受限。 方法/新意:LDA-1B 通过统一 embodied 数据 ingestion,把 dynamics、policy 和 visual f...

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

发表:2026-02-12 · 突破级

问题与背景:Vision-Language-Action 模型在当前观测上直接预测动作,往往缺乏对未来状态的显式建模,导致长程规划和泛化能力不足。视频世界模型则天然具备时空推演能力,但如何稳定迁移到 VLA 学习仍是开放问题。 方法/新意:GigaBrain-0.5M* 把 world model-based...

Neuro-Symbolic Synergy for Interactive World Modeling

发表:2026-02-11 · 突破级

这篇论文瞄准的是用 LLM 充当世界模型时最棘手的短板:在需要严格遵守环境规则的交互场景里,纯神经世界模型很容易 hallucinate,而纯符号系统又缺乏语义灵活性。作者试图做的不是二选一,而是让两种范式协同工作。 方法上,NeSyS 把 LLM world model 与可执行符号规则模型交替训练:对符号规...

H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

发表:2026-02-11 · 突破级

问题与背景 现有机器人世界模型很多偏视频生成或自然语言预测,虽然直观,但难以稳健支撑长时程 task and motion planning。传统符号 TAMP 又缺少和视觉世界的同步更新。H-WM 要解决的是这两类方法之间的断裂。 方法/新意 H-WM 把高层逻辑世界模型和低层视觉世界模型放进同一层级框架中...

On Emergent Social World Models -- Evidence for Functional Integration of Theory of Mind and Pragmatic Reasoning in Language Models

发表:2026-02-10 · 突破级

**问题与背景** 这篇论文针对 `social cognition / world models / language models` 方向中的核心问题展开,属于仓库主线内值得正式记录的研究。它关注的不是局部调参,而是该子方向里较基础、较长期的问题,因此即使仍处在论文阶段,也有持续跟踪价值。 **方法/新意*...

AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

发表:2026-02-07 · 颠覆级

很多 agent orchestration 系统仍然依赖人工预先设计的多 agent 拆分、工具路由和角色分工。随着任务复杂度上升,这种手工 workflow 很快变成 brittle pipeline:要么 agent 数量不足以覆盖任务结构,要么过度拆分造成高昂 coordination 成本。 AOrc...

AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management

发表:2026-02-07 · 颠覆级

间接 prompt injection 的核心问题,不只是模型会不会识别恶意内容,而是传统 agent 会把工具输出、网页内容和中间痕迹一股脑塞进同一上下文,导致恶意指令在整个工作流里持续驻留并反复影响决策。现有防御大多默认这种 bloated memory 是既定条件,再在其上做过滤、检测或鲁棒 prompt...

LongHorizonUI: A Unified Framework for Robust long-horizon Task Automation of GUI Agent

发表:2026-02-06 · 突破级

GUI agent 这条线已经证明了短程 computer use 可以做得越来越像样,但一旦任务跨到十几步以上,视觉状态漂移、界面元素误识别、执行偏差累计和回退失败就会迅速让系统失稳。LongHorizonUI 处理的正是这类长程 GUI 自动化里最实际的鲁棒性问题。 论文从三个层面给出方案。第一,提出 Lo...

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

发表:2026-02-06 · 突破级

长期运行的 LLM agent 需要 memory,但现有方案通常在两个极端之间摇摆:要么针对单一任务做重工程化设计,迁移性差;要么直接检索原始轨迹,导致上下文膨胀、任务相关性不足、真正决策时噪声过高。PlugMem 针对的就是这个通用 memory module 缺口。 它把 memory 单元从原始 exp...

Large reasoning models are autonomous jailbreak agents

发表:2026-02-05 · 突破级

这篇论文不是提出一个新的 agent,而是重新定义了 reasoning model 在安全场景中的风险位置:它们不再只是被攻击的对象,而可能本身就成为自动化 jailbreak agent。对仓库来说,这属于 agent evaluation 与安全威胁模型重构类条目。 作者让多个大推理模型在没有进一步人工监...

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

发表:2026-02-02 · 突破级

随着 AI agents 开始执行长链条、多工具、甚至多代理协作任务,一个越来越突出的痛点是失败定位。很多系统只能给出最终成败,却很难指出轨迹中第一个不可恢复的错误发生在哪里,也难以稳定判断它属于工具异常、策略偏移还是策略与环境交互中的更深层失配。 AgentRx 的核心贡献是把 agent debugging...

MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents

发表:2026-02-02 · 突破级

许多 LLM agent memory 系统只提供一小组手工设计的固定操作,例如提取摘要、写入条目、简单更新或覆盖。这些操作默认了人类预设的记忆结构,面对长时程、多轮、任务形态不断变化的交互时,往往既不够灵活,也难以持续改进。 MemSkill 把记忆操作本身改写成可学习、可进化的 memory skills...

ScholarPeer: A Context-Aware Multi-Agent Framework for Automated Peer Review

发表:2026-01-30 · 突破级

自动化 peer review 这些年已经从简单打分和摘要生成,推进到生成 structured feedback,但主流系统依然有一个根本缺陷:它们大多只看论文本身,不主动补齐领域背景、已有 baseline、相邻工作和 claim 的外部验证,因此很容易停留在 surface-level critique...

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

发表:2026-01-29 · 突破级

这篇论文针对 VLA 在一个真实短板上的失效展开:静态操控上已经能做得不错,但一旦对象本身在运动,模型就需要更低时延的感知、更强的时间推理以及连续闭环控制能力,原有静态范式往往会失效。DynamicVLA 直接把目标放在 dynamic object manipulation,而不是继续在静态场景里刷泛化。 论...

Should I Have Expressed a Different Intent? Counterfactual Generation for LLM-Based Autonomous Control

发表:2026-01-27 · 突破级

这篇论文要解决的是 LLM 智能体控制中的反事实解释问题。传统 agent 往往只能给出一次规划与执行结果,但用户在看到执行后,常常真正关心的是:如果当时表达的目标略有不同,系统会不会做出完全不同的决策。这篇论文把这个问题提升到可计算、可校准的层面。 方法上,作者把用户、LLM 代理和环境的闭环交互建模为结构因...

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

发表:2026-01-26 · 突破级

随着 AI agents 获得更强的工具调用和环境交互能力,安全失败不再只是单轮输出失误,而是会沿着完整轨迹累积并最终转化为真实行动风险。现有 guardrail 往往只给出二元拦截判断,缺少对 agentic 风险的细粒度刻画,也缺少对失败根因的诊断能力。 AgentDoG 的核心贡献是把 agent saf...

Learning to Discover at Test Time

发表:2026-01-22 · 颠覆级

这篇论文把 test-time scaling 从 frozen-model prompting/search 推进到 test-time reinforcement learning:模型在单个待解问题上继续训练,以发现更优解。它对本仓库的价值在于重新定义了 inference-time adaptation...

Generating Literature-Driven Scientific Theories at Scale

发表:2026-01-22 · 颠覆级

这篇论文把 AI for science 的目标从自动实验推进到自动理论生成:系统不是只总结论文,而是从大规模文献中抽取证据并合成带有 law、scope、evidence 的可测试理论。对于本仓库,它的重要性在于提出了一个可复用的 literature-to-theory workflow,而不只是一个文献综...

MirrorGuard: Toward Secure Computer-Use Agents via Simulation-to-Real Reasoning Correction

发表:2026-01-19 · 突破级

Computer-use agents 把视觉理解、界面操作和系统权限直接连在一起,风险比普通聊天模型高得多。单纯依赖检测后拒绝的防御虽然能阻断部分攻击,但会明显牺牲任务完成率,也无法真正提升 agent 在高风险 GUI 场景中的决策能力。 MirrorGuard 提出的关键思路是用 simulation-t...

SYNAPSE: Empowering LLM Agents with Episodic-Semantic Memory via Spreading Activation

发表:2026-01-06 · 突破级

长期 agent memory 的一个根本问题是,标准 retrieval-augmented 方案通常把记忆视为彼此独立的检索单元,再靠 embedding similarity 去召回。这样做很容易丢掉记忆之间的关联结构,导致复杂问题需要跨事件、多跳和隐式关系时,系统只能召回碎片而无法沿着关联自然扩散。 S...

MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents

发表:2026-01-06 · 突破级

很多 agent memory 系统虽然名义上支持长期记忆,但底层仍把不同类型的关系都压进单一 memory store,再依赖语义相似度或统一索引来检索。这会把时间、因果、实体和语义线索纠缠在一起,导致查询意图和被召回证据之间经常错位,尤其在长程多跳问题上会出现看似相关、实则结构不匹配的检索结果。 MAGMA...

ETOM: A Five-Level Benchmark for Evaluating Tool Orchestration within the MCP Ecosystem

发表:2026-01-01 · 突破级

这篇 Findings EACL 2026 论文针对 MCP 生态中的工具编排能力提出五级评测。它不只测一次工具调用,而是分层评估 agent 发现工具、选择工具、组合工具、处理依赖和协调复杂流程的能力。 它的重要性在于 MCP 正在成为实际 agent 工具接入接口,围绕这个接口建立 benchmark 能直...

Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows

发表:2025-12-15 · 突破级

Finch 把金融/会计 agent 评测从静态 QA 推到真实企业工作流:任务来自企业邮件、表格版本历史、PDF、图表和多文件上下文,覆盖数据录入、跨表检索、计算建模、验证、翻译、可视化和报告。 它的关键价值不是金融领域本身,而是 workflow realism。172 个复合工作流、384 个任务、171...

Latent Collaboration in Multi-Agent Systems

发表:2025-11-25 · 突破级

问题与背景:当前多智能体系统几乎都依赖自然语言文本进行中介式协作,这带来三个老问题:通信成本高、离散化造成信息丢失、协作延迟随着 agent 数量快速膨胀。LatentMAS 直接把问题改写为:智能体之间是否可以绕过文本,在连续 latent space 里进行信息交换,从而获得更高表达力和更低系统成本。 方法...

SkillWrapper: Generative Predicate Invention for Task-level Planning

发表:2025-11-22 · 突破级

这篇论文处理的是长期智能体里非常核心但常被低估的问题:低层技能很多,但如果没有好的高层符号抽象,这些技能很难被组合成真正可规划的长程行为。作者试图让模型自动发明适合任务级规划的 predicates。 方法上,SkillWrapper 用生成式 predicate invention 把对象中心技能包装成更适合...

Computer-Use Agents as Judges for Generative User Interface

发表:2025-11-19 · 突破级

问题与背景:现有 GUI 基本都为人类设计,强调视觉美观和传统可用性,而 computer-use agents 被迫沿用这些人类优先界面完成任务,效率和稳定性都受限。与此同时,代码模型已经足够强,能够自动生成和修改网站。这篇论文讨论的核心问题因此不是“agent 如何更好地使用人类 GUI”,而是“能否让 a...

Constructing the Umwelt: Cognitive Planning through Belief-Intent Co-Evolution

发表:2025-11-08 · 突破级

端到端自动驾驶常默认认为,高性能规划必须建立在高保真世界重建之上。本文挑战的是这个前提:规划是否可以更多建立在“对行动相关世界的认知一致性”上,而不是像素级重建保真。 作者提出 Mental Bayesian Causal World Model,并将其实现为 Tokenized Intent World Mo...

CollEX – A Multimodal Agentic RAG System Enabling Interactive Exploration of Scientific Collections

发表:2025-11-01 · 突破级

这篇 ACL workshop 论文提出 CollEX,一个面向科学馆藏/科学集合交互探索的多模态 agentic RAG 系统。它把检索、多模态证据和交互式 agent 组织到同一科学探索流程中。 它的实用价值在于 workflow:研究者或用户可以围绕科学集合提出问题、追踪证据、浏览多模态资料,而不是在静态...

Cosmos-Surg-dVRK: World Foundation Model-based Automated Online Evaluation of Surgical Robot Policy Learning

发表:2025-10-17 · 突破级

## 问题与背景 问题与背景:手术机器人策略评估一直受成本、风险和重现实验难度限制。真实 dVRK 平台上的在线评测不可能像模拟环境那样高频、廉价,这直接限制了策略训练和迭代。 ## 方法/新意 方法/新意:这篇工作把 world foundation model 引入手术机器人评估,构建 Cosmos-Sur...

Deterministic Legal Agents: A Canonical Primitive API for Auditable Reasoning over Temporal Knowledge Graphs

发表:2025-10-07 · 突破级

高风险法律场景要求智能体的推理过程具备可审计性、可复现性和严格的时间一致性,而常规 RAG 在版本切换、因果追踪和层级法条关系上通常过于黑箱。论文把问题定义为:在持续演化的法律知识图谱上,如何让 autonomous legal agents 的检索与推理过程变成可验证执行,而不是不可追责的语义近似。 这篇工作...

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

发表:2025-10-06 · 突破级

这篇论文针对一个越来越重要但经常被低估的问题:很多 agent 和知识密集型 LLM 系统的真实能力并不主要取决于权重更新,而取决于 context adaptation,也就是系统 prompt、外部记忆、策略说明和证据组织方式如何随着运行逐步演化。作者指出现有方法在这条路线上常见两个问题:一是 brevit...

Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits

发表:2025-10-06 · 突破级

算法交易系统真正困难的部分,不只是执行质量,而是如何在复杂多市场环境中同时满足监管约束、避免自成交、控制参与率,并在事后能够向审计方证明整个执行过程确实守规。很多方法能优化交易结果,却没有把合规和可证明审计做成同等优先级的系统原语。 这篇工作把问题建模为带硬约束的 CMDP,用 PPO 训练执行 agent,并...

Read the Scene, Not the Script: Outcome-Aware Safety for LLMs

发表:2025-10-05 · 突破级

很多安全对齐工作把问题看成“识别敏感表面信号并拒答”,但现实里模型的失败往往来自更深一层:它没有真正理解行动与结果之间的关系,因此既可能被语义伪装绕过,也可能对无害请求过度拒绝。 这篇论文把该问题明确命名为 consequence-blindness,并构造 CB-Bench 去区分 semantic risk...

How to Train Your Advisor: Steering Black-Box LLMs with Advisor Models

发表:2025-10-02 · 突破级

越来越多前沿模型以 black-box service 形式部署,调用方既拿不到权重,也很难做真正的参数级定制,最后往往只能在 system prompt 或 prompt optimization 上反复试错。这样的问题不只是可控性差,更在于一旦任务需要细粒度、按实例变化的辅助策略,静态提示很快就会失效。 这...

ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory

发表:2025-09-29 · 突破级

ReasoningBank 解决长期运行 agent 的核心缺陷:完成任务后丢弃交互历史,导致无法从成功和失败中积累可迁移策略。 系统把经验压缩成 generalizable reasoning memories,在测试时检索相关记忆指导行动,并在任务结束后写回新经验;MaTTS 进一步用更多交互生成更丰富对比...

Memento: Fine-tuning LLM Agents without Fine-tuning LLMs

发表:2025-08-21 · 突破级

这篇论文处理的是 agent 适应性的一个实际瓶颈:当任务变化很快、环境很开放时,仅靠微调大模型本身既昂贵又慢,而单纯提示词又难以持续积累经验。作者提出一个替代方向:不去 fine-tune LLM 参数,而是通过记忆与上下文机制让 agent 在交互中持续改善。 Memento 的核心不是更强的模型,而是一个...

UTBoost: Rigorous Evaluation of Coding Agents on SWE-Bench

发表:2025-07-01 · 突破级

这篇 ACL 2025 论文聚焦 SWE-Bench 上 coding agent 的严格评估问题。随着自动修复分数被大量引用,如何确认 agent 真正修好仓库而不是利用评测漏洞,已经成为软件 agent 方向的基础问题。 UTBoost 的价值在于强化 unit-test 和评估严谨性,逼近真实 CI-lo...

ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems

发表:2025-06-01 · 突破级

这篇 CVPR 2025 论文把 agent 评估放到 ComfyUI 这类真实节点式 AI 工作流环境中,要求 LLM agent 自主设计协作式 AI 系统。它比普通文本任务更接近真实多工具、多节点生成工作流。 它的价值在于评测 agent 是否能理解节点图、连接工具、配置参数、调试流程并达成设计目标。这是...

The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search

发表:2025-04-10 · 突破级

这篇工作真正重要的地方,不是单纯证明 LLM 能写论文,而是把 scientific workflow 的核心环节串成了一个可运行的端到端系统:提出假设、设计实验、写代码、运行实验、分析结果、作图和撰写论文都放进同一条 agentic loop。与早期依赖手工模板的系统相比,v2 的关键提升是 progress...

ORCA: An Open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning

发表:2025-04-05 · 突破级

这篇论文抓的是具身操作里一个经常被软件论文掩盖的现实瓶颈:很多 dexterous manipulation 研究并不是卡在算法想法,而是卡在手本体太贵、太脆、太难维护,导致长期 teleoperation、模仿学习和 sim-to-real 强化学习实验根本跑不起来。作者把问题直接收敛到研究基础设施层面,目标...

AFlow: Automating Agentic Workflow Generation

发表:2024-10-14 · 突破级

AFlow tackles a practical bottleneck in agent systems: building strong workflows still takes substantial human effort, and existing automatic approaches oft...

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

发表:2024-10-14 · 颠覆级

面向长期交互的 chat assistant,真正关键的能力不是单轮问答,而是跨很多 session 持续记住用户事实、更新旧知识、处理时间变化并在无证据时拒答。LongMemEval 针对的正是这个现实缺口:此前很多记忆评测要么上下文过短,要么缺少知识更新与多 session 结构,导致系统很难被逼近真实长期...

Automated Design of Agentic Systems

发表:2024-08-15 · 颠覆级

Automated Design of Agentic Systems reframes a large part of agent engineering as a search problem rather than a hand-designed craft. Instead of manually in...

GPTSwarm: Language Agents as Optimizable Graphs

发表:2024-07-08 · 颠覆级

GPTSwarm proposes a clean abstraction for language-agent systems: treat them as computational graphs whose nodes are LM calls or multimodal operations and w...

TextGrad: Automatic "Differentiation" via Text

发表:2024-06-11 · 突破级

TextGrad takes a useful systems idea and makes it explicit: if many LLM pipelines are made of textual intermediate states, then optimization can also happen...

Evaluating Very Long-Term Conversational Memory of LLM Agents

发表:2024-02-27 · 突破级

在 LongMemEval 之前,超长对话记忆的评测长期缺少高质量、长跨度、可检验时间与因果一致性的会话数据。LoCoMo 试图填补的就是这个空白:它不是简单拉长上下文,而是围绕 persona、时间事件图和跨 session 互动去构建真正需要长期记忆和时间线理解的会话基准。 这篇工作的核心新意在于其 mac...