智能体与自主科学

EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions

发表：2026-06-25 · 颠覆级

EnterpriseClawBench是首个从真实企业工作会话中构建的智能体基准，包含852个可复现任务，每个任务配有恢复的工作环境夹具、重写提示、角色类别、技能子类、强制规则和语义评分标准，覆盖文件处理、工具调用和业务工件交付等真实企业场景。在人工审核的120任务精简子集上，32种harness-模型组合中...

Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

发表：2026-05-29 · 突破级

deep research agent 正从短答案检索转向长报告综合，但多模态证据、开放式 synthesis 和可验证性仍然是弱点。 Ptah 把 interleaved report generation 做成 multi-agent harness，围绕证据收集、文本论证、视觉证据和验证流程进行编排。它...

WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

发表：2026-05-29 · 突破级

这篇论文针对 agent memory 评测的一个关键缺口：真实长程 agent 不只是回忆静态对话，而是要在行动中跟踪世界变化、更新过期记忆，并在决策时调出证据。 WorldMemArena 把记忆写入、维护、检索和使用拆开，通过 action-world interaction 暴露多模态 agent me...

ECHO: Terminal Agents Learn World Models for Free

发表：2026-05-23 · 突破级

ECHO 把 terminal agents 的环境交互视为可学习世界模型问题：命令执行后的文件系统、stdout、stderr 和状态变化可以作为自监督信号。论文通过辅助预测环境后继状态，让 agent 在完成任务的同时学习 CLI world model，不需要额外人工标注即可改善后续规划。这对 cod...

Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

发表：2026-05-21 · 突破级

Maestro 关注 autonomous agents 的组合问题：模型和技能越来越多，但多数系统仍依赖固定逻辑或单一大模型，不能动态利用不同专家模型与工具技能的互补性。论文把异构多模态任务重写为对 hierarchical model-skill registry 的序列决策过程，由轻量 policy 选...

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

发表：2026-05-13 · 突破级

这篇论文切中 multimodal search agent 的瓶颈：搜索质量和计算效率必须同时优化，尤其在并行多模态检索/观察场景中。 HyperEyes 的贡献在于用 dual-grained efficiency-aware RL 训练 parallel multimodal search agents...

Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning

发表：2026-05-12 · 突破级

这篇论文延续 self-evolving agents 的关键问题：技能不是一次性 prompt，也不是静态工具库，而是需要生命周期管理的能力对象。 Dynamic Skill Lifecycle Management 的价值在于把 skill acquisition 从“学会一个技能”推进到“管理一组会变化的...

LITMUS: Benchmarking Behavioral Jailbreaks of LLM Agents in Real OS Environments

发表：2026-05-11 · 突破级

LITMUS: Benchmarking Behavioral Jailbreaks of LLM Agents in Real OS Environments 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。 OS-level benchmark for behavior jailbreak...

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

发表：2026-05-11 · 突破级

RubricEM 针对 deep research agent 的难点：长报告、证据搜索和综合任务通常没有可验证答案，因此标准 RLVR 很难直接给密集、可靠奖励。它把 rubric 从最终评分工具提升为执行接口：规划、证据收集、审阅和综合各阶段都由 rubric 组织，并用 stage-structured...

TacoMAS: Test-Time Co-Evolution of Topology and Capability in LLM-based Multi-Agent Systems

发表：2026-05-10 · 突破级

TacoMAS: Test-Time Co-Evolution of Topology and Capability in LLM-based Multi-Agent Systems 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。 Test-time co-evolution of mult...

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

发表：2026-04-26 · 突破级

ClawMark 真正补的是 persistent coworker agent 这条评测缺口。它不再假设 agent 在一个静态 session 里做完事，而是把任务拉长到多天、多轮、带外部环境变化的状态空间里去测，这比普通 web / tool benchmark 更接近真实办公协作。它值得收的另一个原因...

Autogenesis: A Self-Evolving Agent Protocol

发表：2026-04-16 · 突破级

Autogenesis 把 self-evolving agents 从一次性系统技巧提升为协议问题：agent、tool、prompt、memory、environment 等都被建模为有状态、有生命周期、有版本接口的资源，而 evolution 本身通过独立协议层管理。核心分层是 RSPL 与 SEPL...

WebXSkill: Skill Learning for Autonomous Web Agents

发表：2026-04-14 · 突破级

WebXSkill 解决 Web agent 的长期痛点：已经完成过的流程不能稳定复用。它指出现有 skill 表示存在 grounding gap，纯文本技能无法执行，纯代码技能又不利于 agent 理解、恢复和泛化。方法把一个 skill 表示成参数化 action program 加逐步自然语言说明，兼...

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

发表：2026-04-10 · 颠覆级

大型语言模型（LLM）经过对齐训练后仍然脆弱：越狱攻击可以轻易绕过安全护栏，而在特定领域进行微调会引发广泛的"涌现性错误对齐"。这一现象是否源于模型内部对有害内容缺乏连贯的组织结构，此前一直不清楚。本文通过权重剪枝这一因果干预手段，系统性地探究LLM内部有害性的组织方式。研究发现，有害内容的生成依赖于极为紧凑...

Neural Computers

发表：2026-04-07 · 颠覆级

这篇论文重新定义了 agent、world model 和传统计算机之间的边界。它提出 Neural Computer（NC）：让神经网络的潜在运行时状态同时承载计算、工作内存和 I/O，而不是让模型只作为外部操作系统、GUI 或工具链上的 agent。长期目标是 Completely Neural Compu...

Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

发表：2026-04-07 · 突破级

这篇论文处理的是 agent skill 生态扩张后的检索瓶颈：当本地 skill library 从几十个增长到数百、数千个时，把所有 skill 塞进上下文会造成 token 成本、幻觉和延迟，而普通向量检索又容易只找语义相似项，漏掉真正执行所需的解析器、前置转换器、认证步骤或底层工具 skill。 Gra...

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

发表：2026-04-07 · 突破级

随着 LLM agents 逐渐进入真实软件环境，benchmark 的核心问题已经不只是任务会不会做，而是评测能不能真实反映 agent 的全过程行为。现有很多 agent benchmark 只看 final output，忽略中间轨迹、跳过安全与鲁棒性、并且模态覆盖狭窄，导致模型看起来完成了任务，但其实中...

Yet Even Less Is Even Better For Agentic, Reasoning, and Coding LLMs

发表：2026-04-01 · 突破级

agentic 和 coding LLM 的后训练越来越依赖大规模 task-specific trajectories，但构造、筛选和回放这些轨迹成本极高。很多工作默认更多轨迹就更好，而这篇论文延续了 less-is-more 的判断，直接追问：对于 agentic data，真正重要的是数量，还是高价值决策...

General scales unlock AI evaluation with explanatory and predictive power

发表：2026-04-01 · 颠覆级

这篇 Nature 论文针对当前大模型评测体系的根本缺陷发力：常见 benchmark 能给出分数，却难以解释模型到底具备什么能力，也难以可靠预测模型在新任务、新实例上的表现。作者把问题从‘比较模型在固定题集上的平均表现’改写为‘用通用量尺刻画任务需求与模型能力，并据此解释和预测表现’。论文提出一套面向 AI...

Meta-Harness: End-to-End Optimization of Model Harnesses

发表：2026-03-30 · 颠覆级

大语言模型系统的表现不仅由模型权重决定，也深受 harness 影响，也就是决定哪些信息被存储、检索和呈现给模型的那层代码逻辑。现实里这部分仍主要靠人工设计，而现有文本优化器又往往把反馈压缩得过度，难以真正搜索代码级 harness 设计空间。 Meta-Harness 的核心贡献是把 harness opti...

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

发表：2026-03-24 · 颠覆级

当前很多所谓 frontier agent benchmark 仍严重依赖语言知识、互联网经验或任务模板匹配，因此很难真正区分“会调用很多工具”与“具备流体式新任务适应能力”之间的差别。ARC-AGI-3 直接把问题重新拉回 agentic intelligence 的核心：在没有明确指令、没有外部知识补偿的陌...

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

发表：2026-03-12 · 突破级

问题与背景：长时程机器人任务的一个核心瓶颈是数据采集、策略学习和部署流程割裂，导致需要大量人工重置、策略组合脆弱且执行阶段与采集阶段语义不一致。方法/新意：RoboClaw 用一个 VLM-driven controller 统一数据采集、策略学习和任务执行，并引入 entangled action pair...

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

发表：2026-03-11 · 突破级

LLM agent 一个长期没有解决好的问题，是任务虽然能完成，但执行过程中的失败模式、低效步骤和恢复策略并不会自动沉淀成后续可复用的能力。现有 memory 系统往往只存对话事实或零散经验，而不真正理解 agent 执行轨迹里的决策结构，因此很难持续提升未来任务表现。这篇工作把执行轨迹转成可检索的结构化学习...

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

发表：2026-03-09 · 突破级

这篇论文抓住了 embodied AI 一个非常实际的瓶颈：高质量交互数据难扩、纯大模型自举容易塌缩、而少量人工示范又远远不够支撑通用能力增长。作者把问题重写成“如何做一个能自我扩展的数据引擎”，而不是只讨论某个 VLA 模型结构本身。 Seed2Scale 的核心是异构角色分工：小模型负责并行采集和探索，大模...

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

发表：2026-03-09 · 突破级

这篇论文把问题直接抬到了‘让大模型智能体自己做大模型后训练’这一层，而不是继续停留在软件工程或代码生成。作者提出 PostTrainBench，在单卡 H100、10 小时受限算力下，让前沿 agent 自主完成数据搜集、训练、调参与评测，衡量它们是否具备自动化后训练的实际能力。方法上的关键不是再造一个训练算...

Aletheia tackles FirstProof autonomously

发表：2026-02-24 · 颠覆级

数学研究历来被认为是人类智识的核心领域之一，形式化证明的构造需要深刻的直觉与推理能力。FirstProof 挑战于2026年2月发布，包含10道来自职业数学家真实研究的问题，要求AI在8天内自主生成达到发表标准的证明，没有任何人类数学输入的辅助。这是目前已知的首批针对"研究级别"数学问题的自主AI评测之一。 A...

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

发表：2026-02-19 · 突破级

问题与背景：VLA 模型被认为需要 world modeling 才能获得更好的长程推理与泛化，但直接预测未来像素容易把训练目标拖向低层视觉重建，并在推理时积累误差。方法/新意：FRAPPE 用 multiple future representation alignment 替代未来像素重建，在 mid-t...

Discovering Multiagent Learning Algorithms with Large Language Models

发表：2026-02-18 · 颠覆级

多智能体博弈算法（如CFR和PSRO）长期依赖人工设计与启发式调优，新算法的发现需要大量领域专业知识。本文将算法设计重新定性为符号代码空间上的搜索问题，希望借助LLM的推理能力自动化这一发现过程，从而摆脱对人工直觉的依赖。论文采用AlphaEvolve框架，将算法源代码视为可演化的"基因组"，由LLM驱动的进...

AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

发表：2026-02-07 · 颠覆级

很多 agent orchestration 系统仍然依赖人工预先设计的多 agent 拆分、工具路由和角色分工。随着任务复杂度上升，这种手工 workflow 很快变成 brittle pipeline：要么 agent 数量不足以覆盖任务结构，要么过度拆分造成高昂 coordination 成本。 AOrc...

AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management

发表：2026-02-07 · 颠覆级

间接 prompt injection 的核心问题，不只是模型会不会识别恶意内容，而是传统 agent 会把工具输出、网页内容和中间痕迹一股脑塞进同一上下文，导致恶意指令在整个工作流里持续驻留并反复影响决策。现有防御大多默认这种 bloated memory 是既定条件，再在其上做过滤、检测或鲁棒 prompt...

Learning to Discover at Test Time

发表：2026-01-22 · 颠覆级

这篇论文把 test-time scaling 从 frozen-model prompting/search 推进到 test-time reinforcement learning：模型在单个待解问题上继续训练，以发现更优解。它对本仓库的价值在于重新定义了 inference-time adaptation...

Generating Literature-Driven Scientific Theories at Scale

发表：2026-01-22 · 颠覆级

这篇论文把 AI for science 的目标从自动实验推进到自动理论生成：系统不是只总结论文，而是从大规模文献中抽取证据并合成带有 law、scope、evidence 的可测试理论。对于本仓库，它的重要性在于提出了一个可复用的 literature-to-theory workflow，而不只是一个文献综...

Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

发表：2026-01-15 · 颠覆级

- 分级：`颠覆性` - 正式标题：`Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering` - 原文：`2026-01-15-A2_ML_Master_2_0-Tow...

ETOM: A Five-Level Benchmark for Evaluating Tool Orchestration within the MCP Ecosystem

发表：2026-01-01 · 突破级

这篇 Findings EACL 2026 论文针对 MCP 生态中的工具编排能力提出五级评测。它不只测一次工具调用，而是分层评估 agent 发现工具、选择工具、组合工具、处理依赖和协调复杂流程的能力。它的重要性在于 MCP 正在成为实际 agent 工具接入接口，围绕这个接口建立 benchmark 能直...

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

发表：2025-04-18 · 颠覆级

当前学界普遍认为，基于可验证奖励的强化学习（RLVR）能够使大语言模型超越基础模型的能力边界，在数学、编程等推理任务上持续自我提升、涌现出全新的推理能力。然而，这一假设从未在系统层面得到严格验证。本文以"RLVR是否真正激发了超越基础模型的推理容量"为核心问题，对多个模型家族、多种RL算法及多类推理基准展开全面...

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

发表：2024-10-14 · 颠覆级

面向长期交互的 chat assistant，真正关键的能力不是单轮问答，而是跨很多 session 持续记住用户事实、更新旧知识、处理时间变化并在无证据时拒答。LongMemEval 针对的正是这个现实缺口：此前很多记忆评测要么上下文过短，要么缺少知识更新与多 session 结构，导致系统很难被逼近真实长期...

ToolGen: Unified Tool Retrieval and Calling via Generation

发表：2024-10-04 · 突破级

ToolGen addresses a core inefficiency in tool-using LLM systems: retrieval and calling are usually split into separate stages, with tool descriptions inject...

Automated Design of Agentic Systems

发表：2024-08-15 · 颠覆级

Automated Design of Agentic Systems reframes a large part of agent engineering as a search problem rather than a hand-designed craft. Instead of manually in...

GPTSwarm: Language Agents as Optimizable Graphs

发表：2024-07-08 · 颠覆级

GPTSwarm proposes a clean abstraction for language-agent systems: treat them as computational graphs whose nodes are LM calls or multimodal operations and w...

DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines

发表：2023-10-05 · 颠覆级

DSPy reframes prompt engineering as program compilation. Rather than hand-writing brittle prompts end to end, it lets developers specify declarative languag...

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

发表：2023-07-31 · 颠覆级

ToolLLM is one of the earliest serious attempts to turn open-source LLMs into broad tool-using agents at realistic API scale. Rather than treating tool use...

Reflexion: Language Agents with Verbal Reinforcement Learning

发表：2023-03-20 · 颠覆级

Reflexion addresses a simple but foundational weakness in early language agents: they can act, but they do not reliably turn failure into reusable internal...