Detecting Multi-Agent Collusion Through Multi-Agent Interpretability

发表:2026-04-01 · 收录:未知 · 智能体与自主科学

随着 LLM agents 开始真正以多智能体方式协作,风险也从单体 deception 扩展到 covert coordination,也就是多个 agent 之间通过隐蔽协作共同规避人类监管。已有 interpretability 工作已经证明单体模型激活里能暴露一定欺骗信号,但 multi-agent c...

Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

发表:2026-04-01 · 收录:未知 · 智能体与自主科学

Test-time learning 在语言 agent 上越来越重要,但现有做法大多把 adaptation policy 视作人工设计的固定规则,比如如何根据前几轮轨迹更新策略、保留什么反馈、怎样进行下一轮修正。这样做能工作,但它默认人类已经知道最优 adaptation rule 是什么。 Meta-TT...

OmniMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

发表:2026-04-01 · 收录:未知 · 智能体与自主科学

长程、多模态、可持续更新的 agent memory 仍然是现实智能体最难补齐的短板之一。问题不只是设计一个 memory store,而是同时要在架构、检索、prompt、数据流水线和评测之间做联动优化。OmniMem 针对的正是这个高度耦合、靠人工很难系统搜索的 memory design space。 论...

HippoCamp: Benchmarking Contextual Agents on Personal Computers

发表:2026-04-01 · 收录:未知 · 智能体与自主科学

当前 agent benchmark 大多围绕网页操作、工具调用或通用软件自动化展开,但真实个人电脑环境中的 agent 还要处理完全不同的问题:理解用户背景、在海量个人文件中跨模态检索证据、并据此完成上下文化推理。HippoCamp 针对的正是这类更接近真实个人计算场景的 contextual agent 能...

General scales unlock AI evaluation with explanatory and predictive power

发表:2026-04-01 · 收录:未知 · 智能体与自主科学

这篇 Nature 论文针对当前大模型评测体系的根本缺陷发力:常见 benchmark 能给出分数,却难以解释模型到底具备什么能力,也难以可靠预测模型在新任务、新实例上的表现。作者把问题从‘比较模型在固定题集上的平均表现’改写为‘用通用量尺刻画任务需求与模型能力,并据此解释和预测表现’。 论文提出一套面向 AI...

Generalizable Dense Reward for Long-Horizon Robotic Tasks

发表:2026-03-31 · 收录:未知 · 强化学习

机器人基础策略虽然能靠大规模 imitation learning 获得不错起点,但一到长程任务就容易因 distribution shift 和 error accumulation 崩掉。RL 微调理论上能补,但现实中最大障碍是 diverse tasks 下没有统一、密集、可泛化的 reward,导致还得...

DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

发表:2026-03-31 · 收录:未知 · 强化学习

当前很多 end-to-end VLA 仍把预训练视觉语言模型当作通用 encoder,再直接映射到低层动作。这种做法虽然简单,但往往把高层语义决策和低层 motor control 混在一起,既浪费了 VLM 的高层推理潜力,也容易在端到端优化时破坏原本的语义表示。DIAL 针对的正是这个结构性问题。 论文提...

MAC-Attention: a Match-Amend-Complete Scheme for Fast and Accurate Attention Computation

发表:2026-03-31 · 收录:未知 · 推理、记忆与推理时控制

长上下文 decoding 的核心瓶颈越来越不是 FLOPs,而是 KV cache 的 IO:每个新 token 都要重新读取不断膨胀的历史缓存。现有加速路线大多走压缩、选择或淘汰,但这些办法都会在 fidelity 或 accessibility 上做出让步,进而伤害 delayed recall 和长篇连...

ParetoBandit: Budget-Paced Adaptive Routing for Non-Stationary LLM Serving

发表:2026-03-31 · 收录:未知 · 推理、记忆与推理时控制

真实 LLM serving 往往不是固定模型单点部署,而是跨成本区间巨大的多模型组合。问题在于,这个质量-成本 trade-off 不是静态的:模型价格会变、质量会漂移、新模型会热插拔上线,而很多现有 router 仍假定环境近似静止。 论文提出 ParetoBandit,把 open-ended servi...

Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism

发表:2026-03-31 · 收录:未知 · 多模态基础模型

长视频理解一直卡在上下文窗口和计算成本之间:把所有帧一次性塞给 MLLM 既昂贵也容易引入噪声,而简单抽帧又会丢掉关键细节。FlexMem 这篇工作把问题换了一个角度来做:不是直接缩短输入,而是把视频理解改写成视觉记忆的写入、压缩和读取问题。 论文提出一个 training-free 的 visual memo...

Owl-AuraID 1.0: An Intelligent System for Autonomous Scientific Instrumentation and Scientific Data Analysis

发表:2026-03-31 · 收录:未知 · 工业过程与制造

高通量科学实验越来越依赖自动化,但现实世界里的精密仪器往往被锁在专有 GUI 和异构软件栈里,导致很多自动化系统只能覆盖少数带 API 的设备。Owl-AuraID 正面瞄准这一现实瓶颈:如果仪器没有统一 API,agent 是否仍能像人类专家一样直接操作 GUI、串联实验流程,并完成后续数据分析。 论文提出...

Do LLMs Know What Is Private Internally? Probing and Steering Contextual Privacy Norms in Large Language Model Representations

发表:2026-03-31 · 收录:未知 · 可解释性与机制分析

很多 LLM 的 privacy failure 看起来像是模型根本不理解什么信息不该在什么情境里泄露,但这篇论文切换了问题 framing:也许模型内部已经表示了 contextual privacy norms,只是这些表示没有稳定地转化为行为控制。这把问题从“模型不知道”改成了“表示与行为脱节”。 论文基...

Latent-Y: A Lab-Validated Autonomous Agent for De Novo Drug Design

发表:2026-03-31 · 收录:未知 · 化学、生物与自动化实验室

AI for drug discovery 已经有大量生成模型和结构模型,但真正拖慢速度的往往是跨 literature review、target analysis、epitope selection、candidate design、validation 到 lab-ready selection 的整条研...

SkillReducer: Optimizing LLM Agent Skills for Token Efficiency

发表:2026-03-31 · 收录:未知 · 智能体与自主科学

基于 LLM 的 coding agent 和工具型 agent 越来越依赖 skill 机制来注入能力,但 skill 本身正在变成新的上下文负担:描述冗长、正文臃肿、参考文件过大,直接吞掉上下文预算并稀释模型注意力。SkillReducer 正面处理的不是单个 agent 性能,而是 skill 作为能力扩...

Near-Miss: Latent Policy Failure Detection in Agentic Workflows

发表:2026-03-31 · 收录:未知 · 智能体与自主科学

agentic workflow 的合规评测常默认只看最终系统状态是否与 ground truth 一致,但这会漏掉一类更危险的错误:agent 实际上绕过了必要的 policy checks,只是恰好在这次轨迹里得到了正确结果。问题不只是 policy violation 有没有发生,而是当前评测常看不到“决...

Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model

发表:2026-03-30 · 收录:未知 · 多模态基础模型

文档理解系统通常把检索和生成拆成两套模型来做,这会同时增加显存占用、服务复杂度和系统维护成本。Hydra 针对这一长期存在的双模型结构问题,尝试把视觉文档检索与文档问答生成统一到同一个视觉语言模型中,让同一底座同时承担文档表示和回答生成两种职责。 这篇工作的核心做法是给基座 VLM 增加一个可切换的 retri...

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

发表:2026-03-30 · 收录:未知 · 多模态基础模型

统一多模态模型已经能做出高质量图像,但一遇到 long-tail、知识密集、文化事实性很强的生成任务,就容易被冻结参数中的陈旧或缺失知识卡住。普通 world knowledge prompting 往往不够,因为问题不只是模型记不记得,而是生成流程缺少显式的外部 grounding 与证据整合。Unify-A...

APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay

发表:2026-03-30 · 收录:未知 · 智能体与自主科学

很多 LLM autonomous agents 虽然看起来能规划、执行和反思,但一旦面对结构相似却表面不同的任务,仍然会从头再做一遍,缺乏真正可积累的 procedural memory。现有 memory 方法常常只存简短摘要或纯语义向量,难以支撑跨任务的结构复用。APEX-EM 正是围绕这个问题设计。 论...

Mimosa Framework: Toward Evolving Multi-Agent Systems for Scientific Research

发表:2026-03-30 · 收录:未知 · 智能体与自主科学

当前 autonomous scientific research 系统虽然越来越多,但大多仍依赖固定的 agent workflow 和预设工具栈,导致一旦任务结构变化或环境变复杂,系统很难自适应调整。Mimosa 瞄准的不是单一任务性能,而是‘科研 agent workflow 能否像程序一样被自动合成、执...

Heddle: A Distributed Orchestration System for Agentic RL Rollout

发表:2026-03-30 · 收录:未知 · 智能体与自主科学

Agentic RL 把 LLM 训练分成 rollout data collection 和 policy training 两个阶段,但真正卡住吞吐的往往不是训练本身,而是 rollout 中长尾轨迹的生成。频繁工具调用会导致排队延迟、相互干扰和 per-token time 膨胀,而很多系统仍按 step...

Meta-Harness: End-to-End Optimization of Model Harnesses

发表:2026-03-30 · 收录:未知 · 智能体与自主科学

大语言模型系统的表现不仅由模型权重决定,也深受 harness 影响,也就是决定哪些信息被存储、检索和呈现给模型的那层代码逻辑。现实里这部分仍主要靠人工设计,而现有文本优化器又往往把反馈压缩得过度,难以真正搜索代码级 harness 设计空间。 Meta-Harness 的核心贡献是把 harness opti...

TurboAngle: Near-Lossless KV Cache Compression via Uniform Angle Quantization

发表:2026-03-29 · 收录:未知 · 推理、记忆与推理时控制

长上下文推理里,KV cache 已经成为推理内存和部署成本的核心瓶颈之一。现有量化方法通常需要校准数据、复杂统计特征或异常值处理,工程链条重且对新模型的迁移成本高。 TurboAngle 的核心思路是先用随机对角旋转和快速 Walsh-Hadamard 变换把 KV 向量送入一个更适合量化的域,再对连续元素对...

UltRAG: a Universal Simple Scalable Recipe for Knowledge Graph RAG

发表:2026-03-29 · 收录:未知 · 推理、记忆与推理时控制

Knowledge Graph RAG 一直比文档式 RAG 更难做,尤其在 multi-hop graph reasoning 上,传统做法往往要在 classical KG retrieval 和 LLM generation 之间做很多特化 glue code,或者退化成昂贵且脆弱的图检索流水线。UltR...

AlphaFold Database expands to proteome-scale quaternary structures

发表:2026-03-29 · 收录:未知 · 化学、生物与自动化实验室

蛋白质功能越来越需要在复合体与互作层面理解,但现有结构资源长期偏向单体,导致很多生物学与药物发现工作仍停留在序列、单体结构或零散相互作用证据上。AlphaFold Protein Structure Database 已经把单体结构访问门槛大幅降低,这篇工作继续把问题推进到 proteome-scale 的复合...

AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents

发表:2026-03-29 · 收录:未知 · 智能体与自主科学

这篇论文面向长视距 Web agent 的上下文容量瓶颈。现有 context management 往往在整个轨迹中固定使用某一种压缩、裁剪或保留策略,但信息检索任务的状态会动态变化:早期更需要探索效率,后期更需要终局精度,单一静态策略很难同时满足。 AgentSwing 先用概率框架把长视距成功拆成 sea...

PRBench: End-to-end Paper Reproduction in Physics Research

发表:2026-03-29 · 收录:未知 · 智能体与自主科学

这篇论文针对一个此前没有被严格回答的问题:现有大模型 agent 虽然在代码、推理和局部科研任务上表现不错,但它们是否真的能从真实科学论文出发,独立完成端到端的复现实验流程。作者将这个问题具体化为 physics reproduction,并构建了一个由真实已发表论文反推而来的 benchmark,以避免科研...

Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory

发表:2026-03-27 · 收录:未知 · 理论、鲁棒性与核心机器学习

Muon 等谱优化器在大规模语言模型训练中的强表现已经引发很多关注,但社区对它们到底为什么有效、优势来自哪里,仍缺少足够干净的理论解释。单看经验结果,很难区分它到底是在更快收敛、放大长尾信号,还是仅仅在某些工程设置下占优。 这篇工作把问题放进线性联想记忆框架中分析,在高斯嵌入和幂律频率分布下推导了 Muon 与...

HorusEye: a self-supervised foundation model for generalizable X-ray tomography restoration

发表:2026-03-27 · 收录:未知 · 物理与 AI for Science

X-ray tomography 在科学和临床场景里都很关键,但图像退化、低剂量采集和数据稀缺一直限制其分析质量。已有 restoration 方法通常围绕特定模态和预设退化建模,泛化性差,导致大量后处理系统只能在窄条件下工作。 HorusEye 的核心新意,是把 restoration 重新定义为直接从数据中...

VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

发表:2026-03-27 · 收录:未知 · 多模态基础模型

大规模视频扩散模型已经能生成高质量画面,但几何一致性仍然是明显短板:镜头抖动、跨视角结构漂移和动态场景中的世界不一致会显著削弱其作为 world generation interface 的价值。此前方法要么改动生成器结构,要么在 RGB 空间做 geometry-aware reward,对动态场景支持弱且训...

Weight Tying Biases Token Embeddings Towards the Output Space

发表:2026-03-27 · 收录:未知 · 可解释性与机制分析

权重绑定长期被当作语言模型里的标准参数节省技巧,但随着模型规模增大,越来越多新模型开始放弃 tying。过去这更多被当作经验工程选择,而不是一个被充分解释的机制问题。 这篇工作从结构对齐、tuned lens 和梯度流角度系统分析了权重绑定的代价。作者发现共享嵌入矩阵会明显向输出空间偏移,而根本原因是训练初期输...

Supernetwork-based efficient mapping of deep learning applications to mixed-precision hardware using model adaptation

发表:2026-03-27 · 收录:未知 · AI 硬件与加速器

随着异构模拟-数字加速器逐渐成熟,真正的瓶颈不再只是单个硬件单元效率,而是如何把神经网络各层合理映射到不同精度、不同噪声特性的硬件上,同时兼顾能效和精度。这个问题如果靠逐模型、逐层手工搜索,成本极高,也很难形成稳定部署流程。 这篇论文提出 Mixed-Precision Supernetwork,把量化层和受模...

AIRA_2: Overcoming Bottlenecks in AI Research Agents

发表:2026-03-27 · 收录:未知 · 智能体与自主科学

这篇论文聚焦 research-agent 这一条已经开始拥挤但仍缺少结构性解释的主线。作者不是简单把更强模型堆到 MLE-bench 上,而是先明确指出 AI research agents 存在三个持续限制性能的瓶颈:单 GPU 同步执行导致 search 吞吐受限,validation-based sel...

Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning

发表:2026-03-26 · 收录:未知 · 强化学习

机器人世界模型一个长期痛点是:短期预测看起来可用,但一旦自回归 rollout 到多步,误差就会快速累积,视觉质量和任务可用性同步崩掉。这使大量 action-conditioned video world model 在真实规划链路里停留在“会演示、难部署”的阶段。 这篇论文的核心做法是把 post-trai...

A foundation model of vision, audition, and language for in-silico neuroscience

发表:2026-03-26 · 收录:未知 · 神经科学与认知科学

如果神经科学想真正和 foundation model 接轨,关键不只是做一个更高分的 encoding model,而是把跨视觉、听觉和语言刺激的大规模脑响应预测统一到同一个可泛化模型接口上。TRIBE v2 的定位正是这样:它试图把人类大脑对几乎任意 sight or sound 的反应,建模为一个可 ze...

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

发表:2026-03-26 · 收录:未知 · 多模态基础模型

视频世界模型已经能模拟大量场景,但现有记忆机制大多默认环境近似静态,对动态主体暂时离开视野后再出现的情况处理很差,常见问题是主体冻结、形变或直接消失。这个问题本质上不是普通长视频建模,而是世界模型是否真正学会了对动态对象进行持续记忆。 这篇工作把问题明确成 hybrid memory:背景需要像档案一样稳定存储...

FireBridge: Cycle-Accurate Hardware + Firmware Co-Verification for Modern Accelerators

发表:2026-03-26 · 收录:未知 · AI 硬件与加速器

现代 AI accelerator 的复杂度越来越依赖 firmware 与多层 memory hierarchy 的协同,结果是开发瓶颈逐渐从单个 RTL 模块验证,转移到硬件与生产 firmware 的系统级联合调试。传统上很多团队仍依赖 FPGA emulation 来做 integration debu...

Building foundation models for cardiac MRI

发表:2026-03-26 · 收录:未知 · 化学、生物与自动化实验室

医学影像里的 foundation model 真正难的地方,不是简单把图像模型搬到医疗数据上,而是如何利用临床场景中天然存在但噪声很高的弱监督信号,让模型学到跨疾病谱、跨任务可迁移的表示。心脏 MRI 尤其如此:它是时序影像、结构复杂、病种跨度大,而且临床价值高度依赖下游诊断和报告场景。 这篇工作提出的核心...

Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

发表:2026-03-26 · 收录:未知 · 智能体与自主科学

给 LLM agent 配技能一直有明显瓶颈:人工写技能不扩展,自动生成技能又容易只记住局部轨迹里的偶然经验,最后得到的是脆弱、碎片化、难迁移的 skill。对于想把 agent 做成长期能力系统的人,这个问题比单次任务得分更关键。 Trace2Skill 的核心做法不是按单条轨迹顺序修补,而是并行调度多个子代...

Natural-Language Agent Harnesses

发表:2026-03-26 · 收录:未知 · 智能体与自主科学

这篇论文抓住了一个经常被低估但越来越关键的问题:agent 表现高度依赖 harness engineering,但 harness 往往埋在控制器代码、运行时约定和框架细节里,难以迁移、比较和系统研究。结果是很多 agent 进步其实发生在 harness 层,却没有形成稳定的可复用对象。 作者提出 Natu...

SEVerA: Verified Synthesis of Self-Evolving Agents

发表:2026-03-26 · 收录:未知 · 智能体与自主科学

self-evolving agents 这条线越来越强,但大多数框架只关心 planner 能否自动生成和改写 agent program,几乎不对 autonomy 带来的安全性、约束遵守和 correctness 给出形式保证。一旦这些程序在未见输入上自动执行,这个缺口就会直接变成 reliability...

Towards end-to-end automation of AI research

发表:2026-03-25 · 收录:未知 · 科学发现旗舰工作

自动化科学早就不缺局部工具:想法生成、代码编写、实验执行、论文写作、文献检索、评审辅助都各自有进展。真正缺的是把整个研究生命周期连成一条可运行、可评估的 agentic workflow。The AI Scientist 直指这个缺口。 论文提出一个端到端 research pipeline:自动生成研究方向和...

Chameleon: Episodic Memory for Long-Horizon Robotic Manipulation

发表:2026-03-25 · 收录:未知 · 强化学习

长程机械臂操作里,真正难的常常不是当前一帧该怎么抓,而是当前观测本身已经不再是 Markov 的:遮挡、状态变化和历史交互会让相同视觉输入对应不同决策。很多 embodied memory 系统用语义压缩摘要和相似度检索来解决,但这样很容易把真正决定动作的细粒度几何线索抹掉。Chameleon 针对的正是这种...

Reverse predictivity for bidirectional comparison of neural networks and biological brains

发表:2026-03-25 · 收录:未知 · 神经科学与认知科学

这篇论文针对 NeuroAI 里一个长期存在但经常被忽略的问题:我们通常只看人工神经网络能否预测脑神经反应,也就是单向的 forward predictivity,却很少反过来问脑神经活动是否也足以恢复模型内部表征。如果一个模型只在单向映射上看起来像脑,但其内部大量维度无法被真实神经群体回收,那么这种“对齐”就...

LensWalk: Agentic Video Understanding by Planning How You See in Videos

发表:2026-03-25 · 收录:未知 · 多模态基础模型

长视频理解真正困难的地方,不只是 token 太长,而是 perception 和 reasoning 长期脱节:模型通常先被动接收预处理后的视频表示,再在固定输入上推理,无法随着思考过程主动改变观察策略。LensWalk 的目标,就是把视频理解从一次性看完,改成“边推理边决定下一步怎么看”的 agentic...

GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

发表:2026-03-25 · 收录:未知 · 多模态基础模型

面向 3D 虚拟环境与 embodied agent 的视频理解,难点从来不只是“看懂一段视频”,而是要在第一人称视角下处理高决策密度、多主体并发、快速状态变化和跨视频对齐。现有多模态 benchmark 很少真正测这些 agent-centric 感知与推理能力,因此模型即使在通用视频 QA 上表现不错,也未...

AVO: Agentic Variation Operators for Autonomous Evolutionary Search

发表:2026-03-25 · 收录:未知 · AI 硬件与加速器

现有 evolutionary search 即使接入 LLM,也往往只是把模型当候选生成器,真正的 mutation、crossover 和局部修补逻辑仍然由人手工定义。AVO 的切入点更深:不是让 agent 在既定搜索框架里吐候选,而是让 agent 直接充当 variation operator,自主读...

MolEvolve: LLM-Guided Evolutionary Search for Interpretable Molecular Optimization

发表:2026-03-25 · 收录:未知 · 化学、生物与自动化实验室

分子优化里最棘手的问题之一,是 activity cliffs 让微小结构变化触发巨大的性质跃迁,而许多深度学习方法又依赖相似性原则和黑箱表征,难以给出可解释的结构操作路径。MolEvolve 处理的不是普通的 property prediction 提分,而是如何让分子优化过程本身变成一个可规划、可解释、可工...

AgentChemist: A Multi-Agent Experimental Robotic Platform Integrating Chemical Perception and Precise Control

发表:2026-03-25 · 收录:未知 · 化学、生物与自动化实验室

化学实验自动化的长期瓶颈,不是机器人能不能重复执行少数标准步骤,而是面对真实实验室里层出不穷的 long-tail 操作时,系统能不能感知实验状态、动态调整计划并处理不完全标准化的器械与流程。AgentChemist 对准的是这个长期存在但很少被真正解决的问题。 它提出的是一套 multi-agent expe...

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

发表:2026-03-25 · 收录:未知 · 智能体与自主科学

现有 coding agent benchmark 大多看单次提交能否过测试,但真实软件开发是不断迭代扩展的。代码可能今天能过测试,明天就因为结构变形、冗余堆积而难以继续维护,因此 pass rate 对 agent 的长期开发能力测量严重不足。 SlopCodeBench 针对这一缺口,设计了 20 个问题、...

From AI Assistant to AI Scientist: Autonomous Discovery of LLM-RL Algorithms with LLM Agents

发表:2026-03-25 · 收录:未知 · 智能体与自主科学

改进语言模型的 policy optimization 算法一直高度依赖研究者手工试错,因为它不只是调参数,而是要围绕训练动力学、机制改写和评测证据持续迭代。POISE 处理的正是这个层面的问题:能不能让 LLM agents 不只是帮人跑实验,而是自己形成提案、实现、验证和反思闭环,从而发现新的 LLM-RL...

Environment-Grounded Multi-Agent Workflow for Autonomous Penetration Testing

发表:2026-03-25 · 收录:未知 · 智能体与自主科学

随着机器人和工业 OT 系统日益网络化,渗透测试已经不只是传统 IT 环境的问题,而是直接关联到真实 cyber-physical system 的安全评估。现有 LLM-based pentest agent 大多停留在一般网络攻防环境,缺少对机器人环境状态、通信拓扑和 exploit traceabilit...

Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

发表:2026-03-25 · 收录:未知 · 智能体与自主科学

autoresearch 现在最有价值的地方,不在于能不能帮人写一篇研究报告,而在于它是否能在一个有强反馈信号的具体研究问题上持续迭代并超过人工手工搜索。Claudini 选择了一个很合适的目标:白盒 adversarial attack algorithm discovery。这个问题既有现成实现可以作为起点...

VehicleMemBench: An Executable Benchmark for Multi-User Long-Term Memory in In-Vehicle Agents

发表:2026-03-25 · 收录:未知 · 智能体与自主科学

车载 agent 如果要从助手变成长时陪伴系统,真正难的不是回答单轮问题,而是持续建模多用户偏好、处理家庭成员间的冲突,并在习惯变化后做可靠决策。现有 long-term memory benchmark 大多还是单用户、静态 QA 或弱交互环境,因此很难覆盖真实 in-vehicle agents 面临的 p...

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

发表:2026-03-25 · 收录:未知 · 智能体与自主科学

随着 OpenClaw 这类本地自主 agent runtime 拿到文件系统、shell 和插件调用权限,agent safety 的问题已经不再是抽象对齐口号,而是会直接变成系统级风险:敏感信息泄露、权限滥用、恶意第三方 skill 执行都可能来自一次模型判断失误。ClawKeeper 处理的正是这种 ru...

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

发表:2026-03-25 · 收录:未知 · 智能体与自主科学

mobile GUI agent 的关键难题不是单步 grounding,而是长程任务里的失败经验怎么转化成可持续的训练信号。现有方法常见两个问题:要么只是离线堆 demonstration,无法形成持续演化闭环;要么只看最终 sparse reward,导致 credit assignment 太弱,学不到中...

CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

发表:2026-03-25 · 收录:未知 · 智能体与自主科学

computer-use agent 现在最缺的不是又一个 benchmark 分数,而是连续、高质量、带动作与推理痕迹的人类演示数据。现有公开资源大多停留在稀疏截图、短时交互或极少量视频,导致 agent 很难真正学到长程桌面工作流里的时序线索、光标运动细节和局部失败恢复。CUA-Suite 正面处理的就是这...

Adversarial AI reveals mechanisms and treatments for disorders of consciousness

发表:2026-03-24 · 收录:未知 · 神经科学与认知科学

这篇 Nature Neuroscience 论文不是普通疾病分类,而是把 AI 用作 consciousness disorder 的机制发现和干预假设生成工具。 作者构建 generative adversarial AI framework:一侧是从 680,000+ 十秒神经电生理样本训练的意识检测深度...

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

发表:2026-03-24 · 收录:未知 · 多模态基础模型

agentic multimodal LLM 的核心瓶颈不是单轮模型前向,而是 perception、reasoning、tool-calling 反复串行导致的 agentic depth。只要还依赖昂贵视觉工具链逐步展开,多模态 agent 的延迟和并发吞吐都会被顺序依赖拖死。SpecEyes 针对的是这个...

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

发表:2026-03-24 · 收录:未知 · 多模态基础模型

这篇工作切中的问题很明确:纯视觉的 Video-Action / VLA 路线在长时任务上已经有一定能力,但在接触丰富、力控制敏感的交互里,视觉 token 无法稳定表征关键的接触状态。作者因此把 tactile 视为世界动作模型的基础模态,而不是附属传感器。 方法上,VTAM 在预训练视频 transform...

WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

发表:2026-03-24 · 收录:未知 · JEPA 与预测式世界模型

很多视频 world model 数据集并不真正适合 action-conditioned dynamics 学习:动作空间窄、语义弱,动作又直接绑在像素变化上,缺少中间 state,使模型更容易学到视觉相关性而不是可控动力学。WildWorld 针对的是这个 dataset 层面的结构性缺口。 它基于 pho...

A universal model for drug-receptor interactions

发表:2026-03-24 · 收录:未知 · 化学、生物与自动化实验室

药物发现里一个长期难题是:仅靠结构知识并不能真正支撑对新化学空间的可靠推断,导致研发仍高度依赖昂贵筛选。作者把问题重新聚焦为能否直接学习 drug-receptor space 中非键相互作用的普适规律。 这篇工作声称通过更 reductionist 的训练数据组织和模型训练方式,让模型学到对分子识别更可泛化的...

MemCollab: Cross-Agent Memory Collaboration via Contrastive Trajectory Distillation

发表:2026-03-24 · 收录:未知 · 智能体与自主科学

现有 agent memory 大多是 per-agent 设计:memory 既绑定任务,也绑定某个模型自己的推理风格。这在异构 agent 联合部署里会立刻变成问题,因为同一份 memory 迁移给不同 agent 时,往往会把模型私有偏好和任务不变量混在一起,反而伤害效果。MemCollab 处理的正是这...

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

发表:2026-03-24 · 收录:未知 · 智能体与自主科学

当前很多所谓 frontier agent benchmark 仍严重依赖语言知识、互联网经验或任务模板匹配,因此很难真正区分“会调用很多工具”与“具备流体式新任务适应能力”之间的差别。ARC-AGI-3 直接把问题重新拉回 agentic intelligence 的核心:在没有明确指令、没有外部知识补偿的陌...

The Golden Subspace: Where Efficiency Meets Generalization in Continual Test-Time Adaptation

发表:2026-03-23 · 收录:未知 · 推理、记忆与推理时控制

Continual test-time adaptation 一直有一个现实矛盾:想提升在线适应效果,就往往要更新更多参数;但一旦更新太多,推理效率和稳定性都会快速变差。现有很多方法在效率与泛化之间做经验折中,但较少给出更干净的机制解释。 The Golden Subspace 的核心贡献,是提出并分析一个最小...

Computational framework to predict and shape human-machine interactions in closed-loop, co-adaptive neural interfaces

发表:2026-03-23 · 收录:未知 · 神经科学与认知科学

这篇论文处理的是神经接口和脑机接口里一个很关键但长期缺少统一分析工具的问题:一旦用户和解码器都在闭环中同时学习,系统就不再是“模型适配人”或“人适配模型”的单边过程,而变成了两个学习者相互耦合的动态系统。过去这类 co-adaptive neural interface 大多依赖经验调参,很难在设计阶段就预测不...

End-to-End Training for Unified Tokenization and Latent Denoising

发表:2026-03-23 · 收录:未知 · 生成建模与扩散

现代 latent diffusion pipeline 通常把 tokenizer 和 generator 分成两阶段:先学一个可重建的 latent space,再冻结它去训练 diffusion 或 flow model。这个流程已经变成默认配方,但它也把 latent space 的两种目标人为拆开了:...

SkillRouter: Retrieve-and-Rerank Skill Selection for LLM Agents at Scale

发表:2026-03-23 · 收录:未知 · 智能体与自主科学

随着 agent skill 生态从几十个工具扩展到上万条 skills、plugins 和 prompts,真正的瓶颈已经不只是“agent 会不会调用工具”,而是“在巨大且高度同质的 skill 池里,系统怎样先找对 skill”。这篇论文把 skill routing 提升成一个独立问题来研究,而不是继续...

Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

发表:2026-03-23 · 收录:未知 · 智能体与自主科学

问题与背景:当前 web-agent benchmark 基本都把智能体限制在浏览器内部,默认视觉输入也只来自网页本身,因此无法评估一类更真实的助理任务:智能体先通过第一人称视觉理解用户身边的物体、场景或上下文,再去网页上完成检索、购买、预约或信息填写。Ego2Web 要解决的正是这个物理世界到网页执行之间的断...

AutoMOOSE: An Agentic AI for Autonomous Phase-Field Simulation

发表:2026-03-22 · 收录:未知 · 科学发现旗舰工作

像 MOOSE 这样的 multiphysics simulation framework 很强,但真实门槛并不只在物理知识本身,而在于如何写对 input file、配置参数扫描、诊断 runtime 失败并把结果整理成可信的研究流程。很多材料和 phase-field 工作流仍高度依赖熟练研究者手工维护...

RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

发表:2026-03-22 · 收录:未知 · 强化学习

这篇论文处理的是一个很实在的问题:很多在 MLLM 上加 reasoning supervision 的方法,迁移到 VLA 后并不能稳定提升机器人表现,甚至会伤害动作质量。作者把症结归因于语言推理和低层动作之间的接口没有真正对齐。 RoboAlign 的核心做法是先用零样本自然语言推理产生动作 token,再...

Pretrained Video Models as Differentiable Physics Simulators for Urban Wind Flows

发表:2026-03-22 · 收录:未知 · 物理与 AI for Science

这篇工作针对城市风环境设计中的一个核心瓶颈:高质量 CFD 仿真太慢,导致行人风舒适性与安全性的设计空间探索成本极高。作者把这个问题重新表述为可微的时空生成与优化问题,而不是单纯训练一个更快的数值替代器。 方法上,它从预训练视频扩散模型出发,微调成风场时序 rollout 的代理模拟器,并加入物理约束的解码损失...

PF-LLM: Large Language Model Hinted Hardware Prefetching

发表:2026-03-22 · 收录:未知 · AI 硬件与加速器

PF-LLM tackles a classic microarchitecture bottleneck: hardware prefetchers must decide when and how aggressively to prefetch under extremely tight runtime...

The Library Theorem: How External Organization Governs Agentic Reasoning Capacity

发表:2026-03-22 · 收录:未知 · 智能体与自主科学

这篇论文讨论的不是普通 RAG 效果,而是一个更底层的问题:随着 agent 推理链变长,外部记忆到底该如何组织,才能避免 reasoning cost 被顺序扫描拖垮。作者把 context window 形式化成 I/O page,并把 indexed external memory 作为独立能力对象来分析...

LLM Router: Rethinking Routing with Prefill Activations

发表:2026-03-21 · 收录:未知 · 推理、记忆与推理时控制

multi-model routing 的经典做法通常依赖 query 语义特征,但这类信号往往并不能真正捕捉模型各自的 failure modes,也很难判断某条 query 对某个目标模型究竟是容易还是困难。问题不是 router 有没有语义理解,而是缺少更贴近模型内部可解性与正确率的 routing si...

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

发表:2026-03-21 · 收录:未知 · 智能体与自主科学

这篇论文针对一个已经变得现实但仍缺少系统方法的问题:传统 LLM 红队主要诱导有害文本输出,却难以覆盖多步工具执行中的 agent 漏洞,尤其是在 MCP 这类快速扩张的工具生态里。仅看单轮文本对齐已经不足以刻画代理系统的真实风险,攻击是否真的通过工具链被执行,才是更关键的安全边界。 论文提出 T-MAP,把红...

AC4A: Access Control for Agents

发表:2026-03-21 · 收录:未知 · 智能体与自主科学

多数 LLM agent 现在仍然工作在全有或全无的权限模型里:要么拿到完整 API 权限和整页网页内容,要么完全拿不到。随着 agent 更能执行真实任务,这种粗粒度授权会把用户暴露在不必要的能力过度授予之下,也使很多安全控制只能停留在 prompt 约束层。 AC4A 提出面向 agent 的访问控制框架...

Agentproof: Static Verification of Agent Workflow Graphs

发表:2026-03-20 · 收录:未知 · 智能体与自主科学

越来越多 agent framework 会把 tool-using behavior 编码成显式 workflow graphs,但多数安全控制仍发生在 runtime,意味着很多图结构层面的错误只有在坏路径真的被走到时才会暴露。对生产系统而言,这种事后发现成本很高。 Agentproof 的贡献是把主流 f...

Beyond detection: cooperative multi-agent reasoning for rapid onboard EO crisis response

发表:2026-03-20 · 收录:未知 · 智能体与自主科学

地面中心的 Earth Observation 危机响应流程长期受制于下行链路、跨模态融合延迟和全场景穷举分析的算力开销,这让真正需要分钟级反应的灾害监测很难做到快速闭环。单一模型直接扫完整场景也不适合卫星边缘计算平台的带宽与功耗约束。 这篇工作提出分层的 cooperative multi-agent 架构:...

Precise Manipulation with Efficient Online RL

发表:2026-03-19 · 收录:未知 · 强化学习

这篇工作聚焦于机器人操作中最难、也最容易被通用模型忽视的一类问题:关键接触瞬间的亚毫米级精度操作。对于许多真实任务,广义 VLA 模型已经能完成大部分宏观步骤,但最后毫米级的插接、对准和施力阶段仍然是失败瓶颈。作者因此不再追求整任务端到端大规模改进,而是专门面向这些 critical phases 做高效在线强...

Learning to Self-Evolve

发表:2026-03-19 · 收录:未知 · 推理、记忆与推理时控制

很多 test-time self-evolution 工作默认假设模型天然会根据反馈改写自身上下文,但实际上大多数方法只是把更强模型或更复杂搜索包在外层,并没有显式训练“如何根据反馈进化上下文”这项能力。 这篇工作的核心推进,是把 self-evolution 本身重写成可学习的 RL 目标:每次上下文编辑都...

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

发表:2026-03-19 · 收录:未知 · 智能体与自主科学

多轮 LLM agent 的 RL 训练正在从单轮问答转向长轨迹、强环境交互的任务,但真正拖慢系统的常常不是 PPO 或 GRPO 本身,而是 rollout 这一侧:要管理沙箱环境、工具调用、异步反馈和不同任务的执行时延。现有框架往往把 rollout 生命周期直接嵌在 trainer 里,结果是训练侧和执行...

Hyperagents

发表:2026-03-19 · 收录:未知 · 智能体与自主科学

这篇论文针对 self-improving AI systems 的一个根本限制:现有方法虽然强调自我改进,但元层机制往往仍是人工写死的,系统只能在固定的自改进框架里搜索更好的策略。Darwin Gödel Machine 已经展示了 coding 领域中的开放式自改进,但它依赖一个特殊前提,即“做任务”和“改...

Multi-User Large Language Model Agents

发表:2026-03-19 · 收录:未知 · 智能体与自主科学

这篇论文指出当前 LLM agent 默认服务单一用户或单一 principal,但真实组织和团队工具中,一个 agent 经常同时服务多个用户,且这些用户具有不同角色、偏好、权限和隐私边界。多用户场景天然带来目标冲突、信息不对称和协调成本,是单用户 instruction following 无法覆盖的系统问...

MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

发表:2026-03-19 · 收录:未知 · 智能体与自主科学

很多 memory-augmented LLM agent 把 memory construction、retrieval 和 utilization 视为分离模块:前面按局部启发式抽记忆,后面按相似度检索,真正回答失败后又很难把错误直接反馈回 memory 本身。这导致记忆系统在长期运行时既缺少全局策略,也缺...

Efficient Exploration at Scale

发表:2026-03-18 · 收录:未知 · 强化学习

这篇论文针对的是 RLHF 中一个长期悬而未决但非常现实的问题:离线式偏好学习虽然有效,却极度耗标签,导致高质量对齐过程越来越像昂贵的数据工程。作者把重点放在在线 RLHF 上,目标不是在固定偏好数据集上继续挤分,而是在真实交互过程中边收选择反馈、边更新奖励模型和语言模型,让探索和学习同步发生,从而显著降低样本...

GigaWorld-Policy: An Efficient Action-Centered World--Action Model

发表:2026-03-18 · 收录:未知 · 强化学习

这篇论文处理的是视频生成式 world-action model 在机器人策略学习中的部署瓶颈。已有 WAM 借用视频生成 backbone 同时推理未来视觉动态和动作,但这种联合建模在执行时很慢,而且动作质量会被未来视频预测质量拖累,不适合低延迟真实机器人控制。 GigaWorld-Policy 将 WAM...

Physics-informed offline reinforcement learning eliminates catastrophic fuel waste in maritime routing

发表:2026-03-18 · 收录:未知 · 强化学习

航运路径优化长期依赖启发式方法或高度依赖天气预报的路径搜索,这会在极端条件下带来巨大的燃料浪费和运营风险。真正难的不是把平均指标再抬一点,而是把 catastrophic failures 压下去。 PIER 提出一套 physics-informed offline RL 流程:用历史 AIS 航迹和海洋再分...

MolmoPoint: Better Pointing for VLMs with Grounding Tokens

发表:2026-03-18 · 收录:未知 · 多模态基础模型

视觉语言模型里的 grounding 已经变成很多系统能力的基础层,但多数模型仍把 pointing 当作文本坐标生成问题来做。这种做法既难学,又会引入高 token 开销和明显的坐标表示误差,在 GUI 操作、视频跟踪和机器人交互里都容易成为瓶颈。 MolmoPoint 的核心改动是把 pointing 从坐...

How do LLMs Compute Verbal Confidence

发表:2026-03-18 · 收录:未知 · 可解释性与机制分析

这篇论文研究的是一个很基础但此前机制上并不清楚的问题:当大语言模型说出“我有 90% 把握”这类 verbal confidence 时,它内部到底是何时、如何形成这个判断的。围绕这个问题,作者试图区分两种可能:模型是在最后被问到时即时计算置信度,还是在生成答案过程中已经自动形成并缓存下来。 论文综合使用 ac...

Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures

发表:2026-03-18 · 收录:未知 · 智能体与自主科学

这篇论文解决的是 agent memory 领域一个长期存在的问题:很多系统会堆外部记忆组件,但缺乏清晰的版本语义、信念更新原则和稳定的长期知识结构。它符合仓库新扩展的 agent memory 范围,而且相比一般 memory system 论文更重视形式化与架构一致性。 作者提出 Kumiho,把图原生版本...

Guardrails as Infrastructure: Policy-First Control for Tool-Orchestrated Workflows

发表:2026-03-18 · 收录:未知 · 智能体与自主科学

从脚本、CI bot 到 tool-using agents,很多真实失败并不是模型回答错了一句,而是在执行层产生了不安全副作用、无效参数、失控重试或敏感信息泄漏。仅靠 prompt patch 或模型内安全策略,既脆弱,又无法覆盖非 LLM caller。 这篇工作的关键转向,是把 guardrails 从...

SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems

发表:2026-03-18 · 收录:未知 · 智能体与自主科学

AI tutor 正在快速进入真实教学场景,但现有评测通常把‘做题是否正确’和‘模型是否安全’分开看,忽略了教学场景里更隐蔽的失败:过度泄题、强化误解、放弃 scaffolding,最终悄悄破坏学习过程。论文的出发点很明确:tutoring safety 不是一般意义上的 toxicity/safety,而是一...

PRISM: Demystifying Retention and Interaction in Mid-Training

发表:2026-03-17 · 收录:未知 · 理论、鲁棒性与核心机器学习

这篇论文讨论的是后训练流水线里一个非常关键但此前经常被黑盒化处理的阶段:mid-training。作者想回答的不只是“mid-training 有没有用”,而是它与后续 RL 到底如何分工、数据配比应该在哪里发挥作用,以及它为什么会成为复杂推理 RL 的前置条件。 论文通过跨模型家族、跨架构和跨参数规模的系统实...

When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making

发表:2026-03-17 · 收录:未知 · 强化学习

这篇论文关注的是具身智能系统里一个非常实际的问题:大语言模型推理并不是免费午餐,何时调用高成本 reasoning,何时直接执行动作,本身就是一个需要学习的决策问题。作者把这个问题明确表述为资源感知型 orchestration,而不是继续默认“能想就一直想”。 方法上,论文提出 RARRL,让强化学习学习一个...