全部论文索引，第 7 页

Detecting Multi-Agent Collusion Through Multi-Agent Interpretability

发表：2026-04-01 · 收录：未知 · 智能体与自主科学

随着 LLM agents 开始真正以多智能体方式协作，风险也从单体 deception 扩展到 covert coordination，也就是多个 agent 之间通过隐蔽协作共同规避人类监管。已有 interpretability 工作已经证明单体模型激活里能暴露一定欺骗信号，但 multi-agent c...

Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

发表：2026-04-01 · 收录：未知 · 智能体与自主科学

Test-time learning 在语言 agent 上越来越重要，但现有做法大多把 adaptation policy 视作人工设计的固定规则，比如如何根据前几轮轨迹更新策略、保留什么反馈、怎样进行下一轮修正。这样做能工作，但它默认人类已经知道最优 adaptation rule 是什么。 Meta-TT...

OmniMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

发表：2026-04-01 · 收录：未知 · 智能体与自主科学

长程、多模态、可持续更新的 agent memory 仍然是现实智能体最难补齐的短板之一。问题不只是设计一个 memory store，而是同时要在架构、检索、prompt、数据流水线和评测之间做联动优化。OmniMem 针对的正是这个高度耦合、靠人工很难系统搜索的 memory design space。论...

HippoCamp: Benchmarking Contextual Agents on Personal Computers

发表：2026-04-01 · 收录：未知 · 智能体与自主科学

当前 agent benchmark 大多围绕网页操作、工具调用或通用软件自动化展开，但真实个人电脑环境中的 agent 还要处理完全不同的问题：理解用户背景、在海量个人文件中跨模态检索证据、并据此完成上下文化推理。HippoCamp 针对的正是这类更接近真实个人计算场景的 contextual agent 能...

General scales unlock AI evaluation with explanatory and predictive power

发表：2026-04-01 · 收录：未知 · 智能体与自主科学

这篇 Nature 论文针对当前大模型评测体系的根本缺陷发力：常见 benchmark 能给出分数，却难以解释模型到底具备什么能力，也难以可靠预测模型在新任务、新实例上的表现。作者把问题从‘比较模型在固定题集上的平均表现’改写为‘用通用量尺刻画任务需求与模型能力，并据此解释和预测表现’。论文提出一套面向 AI...

Benchmarking Interaction, Beyond Policy: a Reproducible Benchmark for Collaborative Instance Object Navigation

发表：2026-03-31 · 收录：未知 · 强化学习

embodied navigation benchmark 往往只看最终是否到达目标，却很少把人与 agent 之间的协作互动本身作为独立能力来评估。对于 Collaborative Instance Object Navigation 这类任务，这会掩盖一个关键问题：agent 到底是真会问问题、会消解歧义...

DreamControl-v2: Simpler and Scalable Autonomous Humanoid Skills via Trainable Guided Diffusion Priors

发表：2026-03-31 · 收录：未知 · 强化学习

humanoid loco-manipulation 仍然面临一个老问题：单靠 RL 很难稳定学到长程、互动密集的技能，而仅靠 imitation 或 motion prior 又难以兼顾机器人本体约束与真实执行鲁棒性。DreamControl 这一系工作已经证明 human-motion diffusion...

Generalizable Dense Reward for Long-Horizon Robotic Tasks

发表：2026-03-31 · 收录：未知 · 强化学习

机器人基础策略虽然能靠大规模 imitation learning 获得不错起点，但一到长程任务就容易因 distribution shift 和 error accumulation 崩掉。RL 微调理论上能补，但现实中最大障碍是 diverse tasks 下没有统一、密集、可泛化的 reward，导致还得...

DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

发表：2026-03-31 · 收录：未知 · 强化学习

当前很多 end-to-end VLA 仍把预训练视觉语言模型当作通用 encoder，再直接映射到低层动作。这种做法虽然简单，但往往把高层语义决策和低层 motor control 混在一起，既浪费了 VLM 的高层推理潜力，也容易在端到端优化时破坏原本的语义表示。DIAL 针对的正是这个结构性问题。论文提...

MAC-Attention: a Match-Amend-Complete Scheme for Fast and Accurate Attention Computation

发表：2026-03-31 · 收录：未知 · 推理、记忆与推理时控制

长上下文 decoding 的核心瓶颈越来越不是 FLOPs，而是 KV cache 的 IO：每个新 token 都要重新读取不断膨胀的历史缓存。现有加速路线大多走压缩、选择或淘汰，但这些办法都会在 fidelity 或 accessibility 上做出让步，进而伤害 delayed recall 和长篇连...

ParetoBandit: Budget-Paced Adaptive Routing for Non-Stationary LLM Serving

发表：2026-03-31 · 收录：未知 · 推理、记忆与推理时控制

真实 LLM serving 往往不是固定模型单点部署，而是跨成本区间巨大的多模型组合。问题在于，这个质量-成本 trade-off 不是静态的：模型价格会变、质量会漂移、新模型会热插拔上线，而很多现有 router 仍假定环境近似静止。论文提出 ParetoBandit，把 open-ended servi...

Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism

发表：2026-03-31 · 收录：未知 · 多模态基础模型

长视频理解一直卡在上下文窗口和计算成本之间：把所有帧一次性塞给 MLLM 既昂贵也容易引入噪声，而简单抽帧又会丢掉关键细节。FlexMem 这篇工作把问题换了一个角度来做：不是直接缩短输入，而是把视频理解改写成视觉记忆的写入、压缩和读取问题。论文提出一个 training-free 的 visual memo...

Owl-AuraID 1.0: An Intelligent System for Autonomous Scientific Instrumentation and Scientific Data Analysis

发表：2026-03-31 · 收录：未知 · 工业过程与制造

高通量科学实验越来越依赖自动化，但现实世界里的精密仪器往往被锁在专有 GUI 和异构软件栈里，导致很多自动化系统只能覆盖少数带 API 的设备。Owl-AuraID 正面瞄准这一现实瓶颈：如果仪器没有统一 API，agent 是否仍能像人类专家一样直接操作 GUI、串联实验流程，并完成后续数据分析。论文提出...

Do LLMs Know What Is Private Internally? Probing and Steering Contextual Privacy Norms in Large Language Model Representations

发表：2026-03-31 · 收录：未知 · 可解释性与机制分析

很多 LLM 的 privacy failure 看起来像是模型根本不理解什么信息不该在什么情境里泄露，但这篇论文切换了问题 framing：也许模型内部已经表示了 contextual privacy norms，只是这些表示没有稳定地转化为行为控制。这把问题从“模型不知道”改成了“表示与行为脱节”。论文基...

Latent-Y: A Lab-Validated Autonomous Agent for De Novo Drug Design

发表：2026-03-31 · 收录：未知 · 化学、生物与自动化实验室

AI for drug discovery 已经有大量生成模型和结构模型，但真正拖慢速度的往往是跨 literature review、target analysis、epitope selection、candidate design、validation 到 lab-ready selection 的整条研...

SkillReducer: Optimizing LLM Agent Skills for Token Efficiency

发表：2026-03-31 · 收录：未知 · 智能体与自主科学

基于 LLM 的 coding agent 和工具型 agent 越来越依赖 skill 机制来注入能力，但 skill 本身正在变成新的上下文负担：描述冗长、正文臃肿、参考文件过大，直接吞掉上下文预算并稀释模型注意力。SkillReducer 正面处理的不是单个 agent 性能，而是 skill 作为能力扩...

Near-Miss: Latent Policy Failure Detection in Agentic Workflows

发表：2026-03-31 · 收录：未知 · 智能体与自主科学

agentic workflow 的合规评测常默认只看最终系统状态是否与 ground truth 一致，但这会漏掉一类更危险的错误：agent 实际上绕过了必要的 policy checks，只是恰好在这次轨迹里得到了正确结果。问题不只是 policy violation 有没有发生，而是当前评测常看不到“决...

Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model

发表：2026-03-30 · 收录：未知 · 多模态基础模型

文档理解系统通常把检索和生成拆成两套模型来做，这会同时增加显存占用、服务复杂度和系统维护成本。Hydra 针对这一长期存在的双模型结构问题，尝试把视觉文档检索与文档问答生成统一到同一个视觉语言模型中，让同一底座同时承担文档表示和回答生成两种职责。这篇工作的核心做法是给基座 VLM 增加一个可切换的 retri...

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

发表：2026-03-30 · 收录：未知 · 多模态基础模型

统一多模态模型已经能做出高质量图像，但一遇到 long-tail、知识密集、文化事实性很强的生成任务，就容易被冻结参数中的陈旧或缺失知识卡住。普通 world knowledge prompting 往往不够，因为问题不只是模型记不记得，而是生成流程缺少显式的外部 grounding 与证据整合。Unify-A...

APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay

发表：2026-03-30 · 收录：未知 · 智能体与自主科学

很多 LLM autonomous agents 虽然看起来能规划、执行和反思，但一旦面对结构相似却表面不同的任务，仍然会从头再做一遍，缺乏真正可积累的 procedural memory。现有 memory 方法常常只存简短摘要或纯语义向量，难以支撑跨任务的结构复用。APEX-EM 正是围绕这个问题设计。论...

Mimosa Framework: Toward Evolving Multi-Agent Systems for Scientific Research

发表：2026-03-30 · 收录：未知 · 智能体与自主科学

当前 autonomous scientific research 系统虽然越来越多，但大多仍依赖固定的 agent workflow 和预设工具栈，导致一旦任务结构变化或环境变复杂，系统很难自适应调整。Mimosa 瞄准的不是单一任务性能，而是‘科研 agent workflow 能否像程序一样被自动合成、执...

Heddle: A Distributed Orchestration System for Agentic RL Rollout

发表：2026-03-30 · 收录：未知 · 智能体与自主科学

Agentic RL 把 LLM 训练分成 rollout data collection 和 policy training 两个阶段，但真正卡住吞吐的往往不是训练本身，而是 rollout 中长尾轨迹的生成。频繁工具调用会导致排队延迟、相互干扰和 per-token time 膨胀，而很多系统仍按 step...

Meta-Harness: End-to-End Optimization of Model Harnesses

发表：2026-03-30 · 收录：未知 · 智能体与自主科学

大语言模型系统的表现不仅由模型权重决定，也深受 harness 影响，也就是决定哪些信息被存储、检索和呈现给模型的那层代码逻辑。现实里这部分仍主要靠人工设计，而现有文本优化器又往往把反馈压缩得过度，难以真正搜索代码级 harness 设计空间。 Meta-Harness 的核心贡献是把 harness opti...

TurboAngle: Near-Lossless KV Cache Compression via Uniform Angle Quantization

发表：2026-03-29 · 收录：未知 · 推理、记忆与推理时控制

长上下文推理里，KV cache 已经成为推理内存和部署成本的核心瓶颈之一。现有量化方法通常需要校准数据、复杂统计特征或异常值处理，工程链条重且对新模型的迁移成本高。 TurboAngle 的核心思路是先用随机对角旋转和快速 Walsh-Hadamard 变换把 KV 向量送入一个更适合量化的域，再对连续元素对...

UltRAG: a Universal Simple Scalable Recipe for Knowledge Graph RAG

发表：2026-03-29 · 收录：未知 · 推理、记忆与推理时控制

Knowledge Graph RAG 一直比文档式 RAG 更难做，尤其在 multi-hop graph reasoning 上，传统做法往往要在 classical KG retrieval 和 LLM generation 之间做很多特化 glue code，或者退化成昂贵且脆弱的图检索流水线。UltR...

Expert Streaming: Accelerating Low-Batch MoE Inference via Multi-chiplet Architecture and Dynamic Expert Trajectory Scheduling

发表：2026-03-29 · 收录：未知 · AI 硬件与加速器

MoE 在 edge / low-batch inference 场景里很有吸引力，但真实部署时会同时撞上 expert sparsity、on-chip memory 限制、off-chip access 开销和 workload imbalance。随着 chiplet interconnect 带宽提升...

AlphaFold Database expands to proteome-scale quaternary structures

发表：2026-03-29 · 收录：未知 · 化学、生物与自动化实验室

蛋白质功能越来越需要在复合体与互作层面理解，但现有结构资源长期偏向单体，导致很多生物学与药物发现工作仍停留在序列、单体结构或零散相互作用证据上。AlphaFold Protein Structure Database 已经把单体结构访问门槛大幅降低，这篇工作继续把问题推进到 proteome-scale 的复合...

AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents

发表：2026-03-29 · 收录：未知 · 智能体与自主科学

这篇论文面向长视距 Web agent 的上下文容量瓶颈。现有 context management 往往在整个轨迹中固定使用某一种压缩、裁剪或保留策略，但信息检索任务的状态会动态变化：早期更需要探索效率，后期更需要终局精度，单一静态策略很难同时满足。 AgentSwing 先用概率框架把长视距成功拆成 sea...

PRBench: End-to-end Paper Reproduction in Physics Research

发表：2026-03-29 · 收录：未知 · 智能体与自主科学

这篇论文针对一个此前没有被严格回答的问题：现有大模型 agent 虽然在代码、推理和局部科研任务上表现不错，但它们是否真的能从真实科学论文出发，独立完成端到端的复现实验流程。作者将这个问题具体化为 physics reproduction，并构建了一个由真实已发表论文反推而来的 benchmark，以避免科研...

Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory

发表：2026-03-27 · 收录：未知 · 理论、鲁棒性与核心机器学习

Muon 等谱优化器在大规模语言模型训练中的强表现已经引发很多关注，但社区对它们到底为什么有效、优势来自哪里，仍缺少足够干净的理论解释。单看经验结果，很难区分它到底是在更快收敛、放大长尾信号，还是仅仅在某些工程设置下占优。这篇工作把问题放进线性联想记忆框架中分析，在高斯嵌入和幂律频率分布下推导了 Muon 与...

HorusEye: a self-supervised foundation model for generalizable X-ray tomography restoration

发表：2026-03-27 · 收录：未知 · 物理与 AI for Science

X-ray tomography 在科学和临床场景里都很关键，但图像退化、低剂量采集和数据稀缺一直限制其分析质量。已有 restoration 方法通常围绕特定模态和预设退化建模，泛化性差，导致大量后处理系统只能在窄条件下工作。 HorusEye 的核心新意，是把 restoration 重新定义为直接从数据中...

VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

发表：2026-03-27 · 收录：未知 · 多模态基础模型

大规模视频扩散模型已经能生成高质量画面，但几何一致性仍然是明显短板：镜头抖动、跨视角结构漂移和动态场景中的世界不一致会显著削弱其作为 world generation interface 的价值。此前方法要么改动生成器结构，要么在 RGB 空间做 geometry-aware reward，对动态场景支持弱且训...

Weight Tying Biases Token Embeddings Towards the Output Space

发表：2026-03-27 · 收录：未知 · 可解释性与机制分析

权重绑定长期被当作语言模型里的标准参数节省技巧，但随着模型规模增大，越来越多新模型开始放弃 tying。过去这更多被当作经验工程选择，而不是一个被充分解释的机制问题。这篇工作从结构对齐、tuned lens 和梯度流角度系统分析了权重绑定的代价。作者发现共享嵌入矩阵会明显向输出空间偏移，而根本原因是训练初期输...

Supernetwork-based efficient mapping of deep learning applications to mixed-precision hardware using model adaptation

发表：2026-03-27 · 收录：未知 · AI 硬件与加速器

随着异构模拟-数字加速器逐渐成熟，真正的瓶颈不再只是单个硬件单元效率，而是如何把神经网络各层合理映射到不同精度、不同噪声特性的硬件上，同时兼顾能效和精度。这个问题如果靠逐模型、逐层手工搜索，成本极高，也很难形成稳定部署流程。这篇论文提出 Mixed-Precision Supernetwork，把量化层和受模...

AIRA_2: Overcoming Bottlenecks in AI Research Agents

发表：2026-03-27 · 收录：未知 · 智能体与自主科学

这篇论文聚焦 research-agent 这一条已经开始拥挤但仍缺少结构性解释的主线。作者不是简单把更强模型堆到 MLE-bench 上，而是先明确指出 AI research agents 存在三个持续限制性能的瓶颈：单 GPU 同步执行导致 search 吞吐受限，validation-based sel...

Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning

发表：2026-03-26 · 收录：未知 · 强化学习

机器人世界模型一个长期痛点是：短期预测看起来可用，但一旦自回归 rollout 到多步，误差就会快速累积，视觉质量和任务可用性同步崩掉。这使大量 action-conditioned video world model 在真实规划链路里停留在“会演示、难部署”的阶段。这篇论文的核心做法是把 post-trai...

A foundation model of vision, audition, and language for in-silico neuroscience

发表：2026-03-26 · 收录：未知 · 神经科学与认知科学

如果神经科学想真正和 foundation model 接轨，关键不只是做一个更高分的 encoding model，而是把跨视觉、听觉和语言刺激的大规模脑响应预测统一到同一个可泛化模型接口上。TRIBE v2 的定位正是这样：它试图把人类大脑对几乎任意 sight or sound 的反应，建模为一个可 ze...

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

发表：2026-03-26 · 收录：未知 · 多模态基础模型

视频世界模型已经能模拟大量场景，但现有记忆机制大多默认环境近似静态，对动态主体暂时离开视野后再出现的情况处理很差，常见问题是主体冻结、形变或直接消失。这个问题本质上不是普通长视频建模，而是世界模型是否真正学会了对动态对象进行持续记忆。这篇工作把问题明确成 hybrid memory：背景需要像档案一样稳定存储...

FireBridge: Cycle-Accurate Hardware + Firmware Co-Verification for Modern Accelerators

发表：2026-03-26 · 收录：未知 · AI 硬件与加速器

现代 AI accelerator 的复杂度越来越依赖 firmware 与多层 memory hierarchy 的协同，结果是开发瓶颈逐渐从单个 RTL 模块验证，转移到硬件与生产 firmware 的系统级联合调试。传统上很多团队仍依赖 FPGA emulation 来做 integration debu...

Building foundation models for cardiac MRI

发表：2026-03-26 · 收录：未知 · 化学、生物与自动化实验室

医学影像里的 foundation model 真正难的地方，不是简单把图像模型搬到医疗数据上，而是如何利用临床场景中天然存在但噪声很高的弱监督信号，让模型学到跨疾病谱、跨任务可迁移的表示。心脏 MRI 尤其如此：它是时序影像、结构复杂、病种跨度大，而且临床价值高度依赖下游诊断和报告场景。这篇工作提出的核心...

Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

发表：2026-03-26 · 收录：未知 · 智能体与自主科学

给 LLM agent 配技能一直有明显瓶颈：人工写技能不扩展，自动生成技能又容易只记住局部轨迹里的偶然经验，最后得到的是脆弱、碎片化、难迁移的 skill。对于想把 agent 做成长期能力系统的人，这个问题比单次任务得分更关键。 Trace2Skill 的核心做法不是按单条轨迹顺序修补，而是并行调度多个子代...

Natural-Language Agent Harnesses

发表：2026-03-26 · 收录：未知 · 智能体与自主科学

这篇论文抓住了一个经常被低估但越来越关键的问题：agent 表现高度依赖 harness engineering，但 harness 往往埋在控制器代码、运行时约定和框架细节里，难以迁移、比较和系统研究。结果是很多 agent 进步其实发生在 harness 层，却没有形成稳定的可复用对象。作者提出 Natu...

SEVerA: Verified Synthesis of Self-Evolving Agents

发表：2026-03-26 · 收录：未知 · 智能体与自主科学

self-evolving agents 这条线越来越强，但大多数框架只关心 planner 能否自动生成和改写 agent program，几乎不对 autonomy 带来的安全性、约束遵守和 correctness 给出形式保证。一旦这些程序在未见输入上自动执行，这个缺口就会直接变成 reliability...

Towards end-to-end automation of AI research

发表：2026-03-25 · 收录：未知 · 科学发现旗舰工作

自动化科学早就不缺局部工具：想法生成、代码编写、实验执行、论文写作、文献检索、评审辅助都各自有进展。真正缺的是把整个研究生命周期连成一条可运行、可评估的 agentic workflow。The AI Scientist 直指这个缺口。论文提出一个端到端 research pipeline：自动生成研究方向和...

Chameleon: Episodic Memory for Long-Horizon Robotic Manipulation

发表：2026-03-25 · 收录：未知 · 强化学习

长程机械臂操作里，真正难的常常不是当前一帧该怎么抓，而是当前观测本身已经不再是 Markov 的：遮挡、状态变化和历史交互会让相同视觉输入对应不同决策。很多 embodied memory 系统用语义压缩摘要和相似度检索来解决，但这样很容易把真正决定动作的细粒度几何线索抹掉。Chameleon 针对的正是这种...

Reverse predictivity for bidirectional comparison of neural networks and biological brains

发表：2026-03-25 · 收录：未知 · 神经科学与认知科学

这篇论文针对 NeuroAI 里一个长期存在但经常被忽略的问题：我们通常只看人工神经网络能否预测脑神经反应，也就是单向的 forward predictivity，却很少反过来问脑神经活动是否也足以恢复模型内部表征。如果一个模型只在单向映射上看起来像脑，但其内部大量维度无法被真实神经群体回收，那么这种“对齐”就...

LensWalk: Agentic Video Understanding by Planning How You See in Videos

发表：2026-03-25 · 收录：未知 · 多模态基础模型

长视频理解真正困难的地方，不只是 token 太长，而是 perception 和 reasoning 长期脱节：模型通常先被动接收预处理后的视频表示，再在固定输入上推理，无法随着思考过程主动改变观察策略。LensWalk 的目标，就是把视频理解从一次性看完，改成“边推理边决定下一步怎么看”的 agentic...

GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

发表：2026-03-25 · 收录：未知 · 多模态基础模型

面向 3D 虚拟环境与 embodied agent 的视频理解，难点从来不只是“看懂一段视频”，而是要在第一人称视角下处理高决策密度、多主体并发、快速状态变化和跨视频对齐。现有多模态 benchmark 很少真正测这些 agent-centric 感知与推理能力，因此模型即使在通用视频 QA 上表现不错，也未...

AVO: Agentic Variation Operators for Autonomous Evolutionary Search

发表：2026-03-25 · 收录：未知 · AI 硬件与加速器

现有 evolutionary search 即使接入 LLM，也往往只是把模型当候选生成器，真正的 mutation、crossover 和局部修补逻辑仍然由人手工定义。AVO 的切入点更深：不是让 agent 在既定搜索框架里吐候选，而是让 agent 直接充当 variation operator，自主读...

MolEvolve: LLM-Guided Evolutionary Search for Interpretable Molecular Optimization

发表：2026-03-25 · 收录：未知 · 化学、生物与自动化实验室

分子优化里最棘手的问题之一，是 activity cliffs 让微小结构变化触发巨大的性质跃迁，而许多深度学习方法又依赖相似性原则和黑箱表征，难以给出可解释的结构操作路径。MolEvolve 处理的不是普通的 property prediction 提分，而是如何让分子优化过程本身变成一个可规划、可解释、可工...

AgentChemist: A Multi-Agent Experimental Robotic Platform Integrating Chemical Perception and Precise Control

发表：2026-03-25 · 收录：未知 · 化学、生物与自动化实验室

化学实验自动化的长期瓶颈，不是机器人能不能重复执行少数标准步骤，而是面对真实实验室里层出不穷的 long-tail 操作时，系统能不能感知实验状态、动态调整计划并处理不完全标准化的器械与流程。AgentChemist 对准的是这个长期存在但很少被真正解决的问题。它提出的是一套 multi-agent expe...