A scalable and generic framework for city-wide traffic prediction with large language model

发表:2026-05-26 · 收录:未知 · 能源、水与基础设施

这篇 Nature Communications 论文提出 LLM-UTP,把城市级交通预测从单一模式、单一场景和固定时间粒度的任务模型,推进到可跨城市、跨交通方式、跨场景复用的大模型式预测框架。 系统由趋势数据增强、时空特征编码和 LLM 模块组成,目标是同时捕捉不同交通模式中的通用趋势和特定波动,形成面向城...

VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions

发表:2026-05-26 · 收录:未知 · 智能体与自主科学

这篇论文补齐现有 agent benchmark 的盲区:多数 benchmark 测 reasoning/tool use,但很少测长期用户交互中的个性化建模和主动补全信息。 VitaBench 2.0 把任务组织成个人用户的时间序列,偏好分散在碎片化互动中,agent 必须持续抽取、更新和使用这些偏好。 它...

D^2-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing

发表:2026-05-25 · 收录:未知 · 安全、治理与可靠性

这篇论文处理 diffusion LLM 的新安全问题:D-LLM 通过多步 denoising 生成文本,暴露出 autoregressive LLM 没有的中间轨迹信号。 作者发现最有用的失败预测信号是 safety hesitation,即中间隐藏状态反复落在轻量安全 probe 的决策边界附近。 D^2...

ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

发表:2026-05-25 · 收录:未知 · 科学发现旗舰工作

这篇论文抓住 autonomous research agents 的核心短板:自动生成论文表面完整,但引用、分数、代码实现和方法描述可能不可验证。 Chain-of-Evidence 要求每个 claim 绑定证据来源,ScientistOne 在文献综述、方案发现和写作过程中持续维护证据链。 CoE Aud...

DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

发表:2026-05-25 · 收录:未知 · 强化学习

DVAO 关注多奖励 RL 后训练的核心问题:真实模型优化常同时包含正确性、格式、偏好、安全或效率等多个奖励,静态权重容易让高方差奖励支配训练。 论文提出 dynamic variance-adaptive advantage optimization,根据不同 reward stream 的方差和训练状态动态...

Language Models Need Sleep

发表:2026-05-25 · 收录:未知 · 推理、记忆与推理时控制

这篇论文把长上下文处理重新表述为 sleep-like consolidation:模型不必无限增长 KV cache,而是周期性把近期上下文压入可持续状态。 方法在 sleep 阶段对累积上下文做离线 recurrent passes,并通过 learned local rule 更新 SSM blocks...

SOFisher: reinforcement learning-guided experiment designs for spatial omics

发表:2026-05-25 · 收录:未知 · 化学、生物与自动化实验室

SOFisher 针对空间组学实验设计的现实瓶颈:研究者需要决定测什么 target 和在哪里放置 FOV,密集采样再拼接成本高、耗时长,有时甚至不可行。 论文提出 reinforcement learning framework,根据已经采样的 FOV 序列选择下一个 FOV 位置,以更少采样捕获更多 reg...

De novo design of DNA origami with a generative diffusion model

发表:2026-05-25 · 收录:未知 · 化学、生物与自动化实验室

这篇论文把蛋白工程中已成熟的 generative inverse design 思路扩展到 DNA origami,用于探索更复杂几何和功能的 DNA 纳米结构设计空间。 作者为缺少大规模标准结构数据的问题设计了基于 multiscale computational model 的模拟平衡构象训练数据,并用...

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

发表:2026-05-25 · 收录:未知 · 智能体与自主科学

这篇论文提出 agent lifespan engineering:部署中的 agent 即使权重冻结,其记忆库、压缩历史、事实修订和维护操作都会让系统状态持续变化。 AgingBench 把退化机制分成 compression aging、interference aging、revision aging 和...

Personalize-then-Store: Benchmarking and Learning Personalized Memory for Long-horizon Agents

发表:2026-05-25 · 收录:未知 · 智能体与自主科学

这篇论文处理个人 agent 的长期记忆难题:并非所有对话内容都应直接存储,真正有用的是能支持后续个性化决策的稳定偏好、事实和习惯。 Personalize-then-Store 将记忆写入前的个性化判断作为核心环节,强调先识别对用户长期有价值的信息,再进入 memory store。 PerMemBench...

Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents

发表:2026-05-25 · 收录:未知 · 智能体与自主科学

这篇论文把 agent 从被动响应推进到 proactive assistance:真实个人助理有大量空闲时间,可以提前维护上下文、预测需求并准备可验证的中间产物。 方法围绕 idle-time compute 设计,让 agent 在用户未明确发出下一步请求时进行预测、检索、计划或预执行,并在后续任务中复用这...

CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

发表:2026-05-25 · 收录:未知 · 智能体与自主科学

CUA-Gym 面向 computer-use agents 的训练瓶颈:agent 需要在真实或仿真的软件环境中学习,但可验证、可扩展、可自动生成的训练任务仍然稀缺。 论文把 CUA 训练环境组织成可执行、可判定的任务集合,使模型可以通过 outcome verification 获得 RLVR 式训练信号...

Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth

发表:2026-05-24 · 收录:未知 · 理论、鲁棒性与核心机器学习

这篇论文针对 CoT 审计中的核心假设:已有 faithfulness metrics 是否真的测量了推理链是否反映模型计算过程。 作者构造能从输出反推必要中间计算的任务,并建立自动标注流程,得到 step-level 和 CoT-level ground-truth faithfulness labels...

SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking

发表:2026-05-24 · 收录:未知 · 智能体与自主科学

SimuWoB 处理移动 GUI agent 评测中的可复现问题:真实 app 状态易变、账号和网络依赖复杂,导致 benchmark 难以稳定扩展。 论文用模拟真实移动应用的方式构建快速、可控且较忠实的任务环境,使 agent 可以在统一状态空间中执行多步 UI 操作。 这种设计降低了 live-app be...

Macaron-A2UI: A Model for Generative UI in Personal Agents

发表:2026-05-24 · 收录:未知 · 智能体与自主科学

Macaron-A2UI 关注 personal agent 的交互瓶颈:纯文本聊天难以承载信息收集、偏好细化、确认、多目标组织和复杂状态展示。 论文提出 Generative UI 模型,让 agent 同时生成自然语言和轻量可执行 UI actions,并构建大规模 Generative UI corpus...

Trainable neuromorphic spintronic hardware Via analog finite-difference gradient methods

发表:2026-05-23 · 收录:未知 · AI 硬件与加速器

这篇 Nature Communications 论文解决 analog/spintronic neuromorphic hardware 的关键训练瓶颈:设备行为复杂且有变异性,依赖过度简化软件模型会导致训练和真实硬件脱节。 作者证明 magnetic tunnel junctions 可以生成可调且复杂的非...

ECHO: Terminal Agents Learn World Models for Free

发表:2026-05-23 · 收录:未知 · 智能体与自主科学

ECHO 把 terminal agents 的环境交互视为可学习世界模型问题:命令执行后的文件系统、stdout、stderr 和状态变化可以作为自监督信号。 论文通过辅助预测环境后继状态,让 agent 在完成任务的同时学习 CLI world model,不需要额外人工标注即可改善后续规划。 这对 cod...

SEAL: Synergistic Co-Evolution of Agents and Learning Environments

发表:2026-05-23 · 收录:未知 · 智能体与自主科学

SEAL 提出 Agent-Environment Misalignment:agent 能力边界在训练中变化,但训练环境和监督信号常是静态或弱耦合的,导致 self-evolution 无法持续对准真实失败。 系统收集 executable verification 下的 on-policy trajecto...

CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test

发表:2026-05-22 · 收录:未知 · 软件工程

CoSPlay 针对 coding agents 的一个现实瓶颈:许多场景没有隐藏测试或人工 verifier,模型必须自己构造测试来发现代码缺陷。 方法在测试时让代码生成和单元测试生成进行 cooperative self-play,通过自生成代码和自生成 unit tests 互相暴露错误并迭代修正。 这种...

From Activation to Causality: Discovery of Causal Visual Representations in the Human Brain

发表:2026-05-22 · 收录:未知 · 神经科学与认知科学

这篇论文指出传统 activation maximization 只能说明某区域对概念强响应,不能证明该区域真正表征概念本身,因为相关视觉/语义线索会造成大量假阳性。 BrainCause 组合生成模型和 image-to-fMRI encoding model,自动构造目标概念图、去除目标概念的 counte...

Computational neural dynamics of goal-directed visual attention in macaques

发表:2026-05-22 · 收录:未知 · 神经科学与认知科学

这篇 Science Advances 论文研究真实视觉搜索中,目标、记忆、眼动和多脑区表征如何共同支持 goal-directed visual attention。 作者在猕猴自由注视搜索任务中记录 V4、IT、OFC 和 LPFC,发现群体活动能在 cue、delay 和 search 阶段动态表征类别、...

Adaptive tunneling photodiodes enable visual recognition in high-contrast scenes

发表:2026-05-22 · 收录:未知 · AI 硬件与加速器

这篇 Science Advances 论文面向自动驾驶、机器人和智能监控中的高反差视觉识别问题,提出把 HDR 能力直接前移到光电探测器层,而不是依赖多曝光融合或复杂后处理。 器件通过 engineered tunneling mechanism 实现 bias-controllable、连续可调的动态范围...

SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models

发表:2026-05-22 · 收录:未知 · 生成建模与扩散

SCOPE 处理 FPS playable world models 的控制难题:高频、重叠的控制信号会同时影响局部武器区域和全局相机/移动,普通全局 action injection 容易干扰无关区域。 论文观察到 FPS actions 具有空间选择性,离散动作如开火和换弹主要影响 weapon scope...

Polar: Agentic RL on Any Harness at Scale

发表:2026-05-22 · 收录:未知 · 智能体与自主科学

这篇 arXiv 论文提出 Polar,目标是解决 agent RL 训练中最实际的系统问题:真实 agent harness 往往包含长上下文、多轮工具使用、多 agent 编排和复杂运行时,难以直接移植成标准 RL environment。 Polar 把 agent harness 当作黑盒,通过代理 L...

From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

发表:2026-05-22 · 收录:未知 · 智能体与自主科学

这篇论文系统研究 model-generated agent skills 的生命周期:从 raw experience 中抽取技能、组织技能库、选择技能,再到执行时消费技能。 它把 skill system 中常被混在一起的问题拆开,包括经验压缩、技能粒度、描述质量、调用条件、冲突和复用效果。 这种分析对 s...

QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

发表:2026-05-22 · 收录:未知 · 智能体与自主科学

QUEST 面向 deep research agents 的训练问题:前沿系统多为闭源,开放系统在不同搜索、事实核查、引用和报告任务间泛化不足。 论文发布 2B 到 35B 的 open deep research agents,并提出结合 mid-training、supervised fine-tunin...

Foundation Protocol: A Coordination Layer for Agentic Society

发表:2026-05-22 · 收录:未知 · 智能体与自主科学

Foundation Protocol 关注 agent scale-up 后的系统瓶颈:当 agent 能浏览、购买、部署软件、管理系统并互相协作时,问题从单模型能力转向身份、关系、价值交换、责任和治理。 论文提出 graph-first coordination layer,把 agents、tools、r...

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

发表:2026-05-22 · 收录:未知 · 智能体与自主科学

SkillOpt 针对 agent skill 的核心短板:当前 skill 往往是人工写、一次性生成或松散自修补,缺少像模型权重优化那样可控、可复现、可验证的训练流程。 论文把 skill 文档视为冻结 agent 的外部状态,由单独 optimizer model 根据 scored rollouts 生成...

The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation

发表:2026-05-21 · 收录:未知 · 理论、鲁棒性与核心机器学习

这篇论文关注 reasoning benchmark 的污染问题,尤其是恶意或间接污染:模型发布方可以通过 paraphrasing benchmark 数据规避传统检测,并人为抬高排行榜表现。 作者提出关键现象:生成的 reasoning steps 会掩盖底层记忆捷径,因此 Zero-CoT Probe 故...

Forecasting Scientific Progress with Artificial Intelligence

发表:2026-05-21 · 收录:未知 · 科学发现旗舰工作

这篇论文把 AI for Science 的一个关键问题形式化:模型不仅能总结已有科学,还能否在受控知识截止条件下预测未来科学进展。 作者提出 CUSP(Cutoff-conditioned Unseen Scientific Progress),覆盖 4,760 个科学事件,并从 feasibility as...

ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

发表:2026-05-21 · 收录:未知 · 推理、记忆与推理时控制

ThriftAttention 处理长上下文推理中的注意力成本问题:全 FP16/FP8 计算昂贵,而统一低精度又会破坏关键 token 或关键头的精度。 论文提出 selective mixed precision,让 attention 中不同位置、头或计算路径按重要性使用 FP4 与更高精度混合,从而降低...

Reward magnitude determines reinforcement learning efficiency

发表:2026-05-21 · 收录:未知 · 神经科学与认知科学

这篇 Science 论文直接重新检验动物强化学习实验中一个常见默认假设:为了增加试次数,单次奖励通常被设计得很小,但这可能系统性低估了学习效率。 作者在多个行为范式中发现,特别大的奖励可以显著提升初始学习效率,并把这种提升拆分为 session 内学习、跨 session 学习和任务参与度等不同成分。 机制上...

VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis

发表:2026-05-21 · 收录:未知 · 多模态基础模型

VGenST-Bench 针对多模态模型的 spatio-temporal reasoning 评测缺口:静态图像或被动收集视频难以精确控制场景变量,也难以拆分低层感知和高层时空推理。 论文用 generative models 主动合成受控、多样的视频评测场景,并通过 multi-agent pipeline...

Therm-FM: Foundation Model is ALL YOU NEED for 3D-ICs Thermal Simulation

发表:2026-05-21 · 收录:未知 · 系统、硬件与协同设计

Therm-FM 面向 3D-IC 设计中的热仿真成本问题:传统数据驱动预测器通常要为每个芯片设计重新生成大量高保真有限元仿真数据,跨设计复用差。 论文把芯片热传导与扩散型 PDE 的共享算子结构联系起来,将 pretrained PDE foundation model 迁移到 steady-state 和...

WorldKV: Efficient World Memory with World Retrieval and Compression

发表:2026-05-21 · 收录:未知 · 生成建模与扩散

WorldKV 针对 action-conditioned video/world generation 的核心瓶颈:完整 KV cache 能保持场景一致性,但 rollout 变长后内存和注意力成本线性增长;滑窗推理则会丢失长期世界一致性。 方法包含 World Retrieval 和 World Comp...

Rethinking Cross-Layer Information Routing in Diffusion Transformers

发表:2026-05-21 · 收录:未知 · 生成建模与扩散

这篇论文聚焦 Diffusion Transformers 中长期被默认继承的 residual stream,指出跨层信息流在深度和 denoising timestep 上存在幅值膨胀、梯度衰减和 block redundancy。 作者提出 Diffusion-Adaptive Routing (DAR)...

Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

发表:2026-05-21 · 收录:未知 · 智能体与自主科学

Maestro 关注 autonomous agents 的组合问题:模型和技能越来越多,但多数系统仍依赖固定逻辑或单一大模型,不能动态利用不同专家模型与工具技能的互补性。 论文把异构多模态任务重写为对 hierarchical model-skill registry 的序列决策过程,由轻量 policy 选...

ACC: Compiling Agent Trajectories for Long-Context Training

发表:2026-05-21 · 收录:未知 · 智能体与自主科学

ACC 把 agent 执行过程中天然产生的长轨迹转成 long-context 训练数据,核心观察是工具调用、环境反馈和中间状态本身包含大量跨轮证据,但传统 agent SFT 通常遮蔽工具响应,浪费了这些监督信号。 方法将搜索、软件工程、数据库查询等 agent 轨迹编译为 QA pairs,把原始问题、工...

AgentCo-op: Retrieval-Based Synthesis of Interoperable Multi-Agent Workflows

发表:2026-05-21 · 收录:未知 · 智能体与自主科学

AgentCo-op 处理开放科学任务里 multi-agent workflow 难以设计、接口不统一、缺少可靠指标的问题,而不是只做固定 benchmark 上的 agent graph 搜索。 方法把可复用 skills、tools 和外部 agents 检索出来,通过 typed artifact ha...

Surviving the Unseen: Predictive Defense for Novel Multi-Turn Multimodal Attacks

发表:2026-05-20 · 收录:未知 · 安全、治理与可靠性

TRIAD 针对多轮多模态攻击的非平稳性:恶意意图可以分散在长程对话和跨模态扰动中,单 turn guardrail 容易漏检。 论文把安全验证建模为 trajectory-level survival prediction,结合结构异常、正则化 Mahalanobis 距离、拓扑轨迹加速度和 Cox/HMM...

RoboJailBench: Benchmarking Adversarial Attacks and Defenses in Embodied Robotic Agents

发表:2026-05-20 · 收录:未知 · 安全、治理与可靠性

RoboJailBench 填补 embodied AI jailbreak 评估缺口:传统聊天模型安全基准无法覆盖机器人和自动驾驶等具身系统中的物理后果。 它基于 ISO 标准、监管规则和事故记录建立 18 类安全违规后果,并构建 adversarial/benign intent contrast 数据管线...

Robotics-Inspired Guardrails for Foundation Models in Socially Sensitive Domains

发表:2026-05-20 · 收录:未知 · 安全、治理与可靠性

这篇论文把 foundation model guardrails 从单次输出过滤,重新表述为不确定闭环系统中的 runtime behavioral control。 它借鉴机器人控制中的约束执行思想,提出 Grounded Observer 框架,并在闲聊、家庭自闭症治疗和学校行为降级三个真实部署场景中讨论...

SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research

发表:2026-05-20 · 收录:未知 · 科学发现旗舰工作

SciAtlas 面向自动科研中的信息组织问题:向量检索和关键词检索难以表达跨学科、跨实体、跨证据链的拓扑关系,deep research agent 又容易产生逻辑幻觉和高推理成本。 系统构建跨 26 个学科、4300 万论文、1.57 亿实体和 30 亿 triplets 的异构科学知识图谱,将科学文献组织...

Imaging hidden objects with consumer LiDAR via motion-induced sampling

发表:2026-05-20 · 收录:未知 · 机器人与具身智能

这篇 Nature 论文把非视距隐藏物体成像推进到低成本消费级 LiDAR 场景,不再依赖昂贵、专用的实验室 NLOS 硬件。 核心思路是利用运动诱导采样,把多帧消费级 LiDAR 数据和运动模型融合起来,实现隐藏物体的三维重建、跟踪和定位。 对机器人和具身系统而言,这相当于扩展了感知边界:拐角后、遮挡后和视线...

Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving

发表:2026-05-20 · 收录:未知 · 机器人与具身智能

这篇论文提出一个反直觉但重要的 embodied LLM 评估发现:更高保真观察不一定带来更强问题求解。 作者在物理 Lockbox 机械谜题和受控仿真中比较 RGB、RGB-D 和 ground-truth symbolic observations,发现原始 RGB 最好、完美符号观察最差;适度噪声反而能减...

Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning

发表:2026-05-20 · 收录:未知 · 推理、记忆与推理时控制

Equilibrium Reasoners 提出一种不同于 CoT 采样和 verifier reranking 的 reasoning scaling 思路:把推理看成向 latent attractor 收敛。 模型学习可迭代更新的吸引子动力学,在测试时通过更多迭代接近稳定解,而不必依赖外部 verifie...

Neural representation of action symbols in primate frontal cortex

发表:2026-05-20 · 收录:未知 · 神经科学与认知科学

这篇 Nature 论文处理智能和泛化的核心机制问题:大脑是否真的存在可重组的离散 action symbols,而不只是连续分布式运动表征。 猕猴在 drawing-like task 中表现出 stroke-level action elements 的三个符号特征:对低层运动参数不变、具有离散类别结构、并...

A critical initialization for biological neural networks

发表:2026-05-20 · 收录:未知 · 神经科学与认知科学

这篇 Nature 论文直接连接生物神经网络和人工网络初始化问题:脑内自发大尺度活动为何能在单神经元快速时间常数之外形成持久协调模式。 作者发现小鼠大规模神经记录的 eigenvalue spectrum 和动力学性质,可由 critically normalized random symmetric matr...

Feature-specific threat coding in lateral septum guides defensive action

发表:2026-05-20 · 收录:未知 · 神经科学与认知科学

这篇 Nature 论文研究大脑如何把威胁线索、过去经验和内部状态整合成具体防御行动,聚焦 limbic forebrain 中 lateral septum 的 CRHR2-expressing neuron population。 作者结合单细胞钙成像、分子测序和回路解析,刻画 LSCrhr2 神经元的空间...

Vision Harnessing Agent for Open Ad-hoc Segmentation

发表:2026-05-20 · 收录:未知 · 多模态基础模型

VASA 面向开放 ad-hoc segmentation:目标概念可能需要由部分、关系、排除条件和集合组合出来,而不是一个已学过的文本 grounding。 系统把 VLM agent、segmentation foundation model、persistent working mask 和视觉操作 wo...

Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

发表:2026-05-20 · 收录:未知 · 生成建模与扩散

Lens 关注 foundational text-to-image models 的训练效率,而不是单一 benchmark 或局部模块改进。 论文系统重构训练 recipe,涉及高质量 dense captions、多分辨率训练、语义 VAE、强化学习优化和蒸馏等环节。 这种工作对生成模型基础设施有价值,因...

Mem-π: Adaptive Memory through Learning When and What to Generate

发表:2026-05-20 · 收录:未知 · 智能体与自主科学

这篇论文把 agent memory 从相似度检索式 episodic memory / skill library 推进一步:记忆不再只是拿回静态条目,而是由独立模型按当前上下文生成可执行 guidance。 核心机制是 Mem-π 模型同时学习 when 和 what:什么时候不该干预、什么时候生成简洁有效...

CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing

发表:2026-05-20 · 收录:未知 · 智能体与自主科学

CutVerse 把 GUI agents 评测从网页导航和基础 OS 操作扩展到专业创作软件工作流,例如 Premiere Pro 和 Photoshop。 基准包含 7 个专业应用、186 个长程任务和专家演示,并提供把屏幕录制与低层交互日志解析为 compositional GUI action traj...

Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints

发表:2026-05-20 · 收录:未知 · 智能体与自主科学

这篇论文研究多 agent LLM pipeline 中的 handoff 学习:不同专用 agent 通过共享 artifact 交接,但没有中心 learner 能访问完整联合轨迹。 作者把该设置形式化为 interface-constrained SMDP,并提出 IC-Q;每次交接只传一个标量,却给出神...

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

发表:2026-05-20 · 收录:未知 · 智能体与自主科学

DecisionBench 针对 agent orchestration 的关键问题:一个 agent 何时应该把子任务交给另一个模型,以及如何评估这种 delegation 是否真的有效。 基准固定任务套件、11 个 peer models、call_model/read_profile 接口和多轴指标,覆盖...

EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design

发表:2026-05-20 · 收录:未知 · 智能体与自主科学

EngiAI 把 LLM agents 放进真实工程设计流程,而不是只做文本问答:任务覆盖拓扑优化、参数检索、HPC 作业编排和 3D 打印控制。 论文同时给出 benchmark suite 和 LangGraph 多 agent 参考实现,评估 direct tool use、语义消歧、条件分支、工作记忆、...

Accelerating scientific discovery with Co-Scientist

发表:2026-05-19 · 收录:未知 · 科学发现旗舰工作

Co-Scientist 把科学假设生成做成多 agent 系统:多个 agent 持续生成、批判、排序和改进假设,并通过 test-time compute scaling 提升假设质量。 系统面向研究目标和既有证据生成可实验验证的新假设;论文在药物重定位、新靶点发现和抗微生物耐药机制解释中验证,特别是 AM...

AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration

发表:2026-05-19 · 收录:未知 · 科学发现旗舰工作

AutoResearchClaw 针对自动科研系统的线性管线缺陷:失败后停止、缺少跨轮经验、缺少多视角质询和结果可验证性。 系统包含多 agent debate、Pivot/Refine 自修复执行器、可验证结果报告、人机协作的七种介入模式,以及把历史错误转化为未来 safeguards 的 cross-run...

An AI system to help scientists write expert-level empirical software

发表:2026-05-19 · 收录:未知 · 科学发现旗舰工作

ERA 针对科学研究中的一个真实瓶颈:研究软件和实验脚本往往需要专家长期手写,限制了计算实验迭代速度。 系统把 LLM 与 tree search 结合,以质量指标为目标反复生成、测试和改进代码;论文报告它在单细胞分析、COVID-19 住院预测、地理空间分析、斑马鱼神经活动预测和数值积分等任务中达到或超过专家...

A multi-agent system for automating scientific discovery

发表:2026-05-19 · 收录:未知 · 科学发现旗舰工作

Robin 把文献检索 agent、假设生成、实验建议、数据分析和结果解释连接成 lab-in-the-loop 的科学发现系统,而不是只做单点文献问答或代码生成。 论文在干性年龄相关性黄斑变性场景中验证了系统:Robin 提出增强 RPE 吞噬作用的治疗策略,识别并体外确认 ripasudil 与 KL001...

GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

发表:2026-05-19 · 收录:未知 · 推理、记忆与推理时控制

GoLongRL 处理长上下文 RL 的数据构造和多任务奖励异质性问题,而不是只堆更复杂检索路径。 论文发布 23K RLVR 样本、构造流水线和训练代码,覆盖 9 类长上下文能力,并提出 TMN-Reweight 做跨任务奖励尺度对齐和难度自适应加权。 它值得正式收录,因为它把长上下文能力后训练做成开放 re...

ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning

发表:2026-05-19 · 收录:未知 · 多模态基础模型

ParaVT 处理长视频理解中的 agentic tool-use 问题:现有 RL 方法通常顺序调用视频裁剪等工具,单次错误会传播,多轮上下文被污染,推理成本随工具轮数线性增长。 论文提出 parallel video tool calling,一轮并行分发多个时间窗裁剪,让多 agent 工具结果互相补偿...

PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents

发表:2026-05-19 · 收录:未知 · 智能体与自主科学

PEEK 区分了 agent memory 中容易混淆的对象:不是保存轨迹或原始材料,而是保存关于复用上下文的 orientation knowledge。 系统维护一个固定预算 context map,记录外部上下文包含什么、如何组织、哪些实体/常量/schema 曾经有用,并通过 Distiller、Car...

OpenComputer: Verifiable Software Worlds for Computer-Use Agents

发表:2026-05-19 · 收录:未知 · 智能体与自主科学

OpenComputer 针对 computer-use agents 的核心评估难点:最终截图或 LLM-as-judge 往往看不见真实应用状态,也不能稳定给出部分信用。 框架提供应用状态 verifier、自演化验证层、可机器检查的任务生成流水线和轨迹级评估 harness,覆盖 33 个桌面应用与 10...

Agent Security is a Systems Problem

发表:2026-05-18 · 收录:未知 · 理论、鲁棒性与核心机器学习

This position paper reframes agent security away from model robustness alone and toward system-level security invariants around tools, identity, authority...

Deterministic Event-Graph Substrates as World Models for Counterfactual Reasoning

发表:2026-05-18 · 收录:未知 · 理论、鲁棒性与核心机器学习

这篇论文提出一种非参数、可审计的 world model:把 agent state 表示成 append-only typed RDF triples,并通过 fork event log 回答结构化干预下的 counterfactual queries。 它的价值不是追求更强神经预测,而是提供 exact...

AgentStop: Terminating Local AI Agents Early to Save Energy in Consumer Devices

发表:2026-05-18 · 收录:未知 · 系统、硬件与协同设计

AgentStop 研究本地部署 AI agents 的系统成本:多步推理、工具调用和失败重试会让本地 GPU 功耗、温度和电池消耗显著上升。 论文提出轻量级 efficiency supervisor,用 token log probabilities 等低成本执行信号预测轨迹是否大概率失败,并提前终止无望执...

STAR: A Stage-attributed Triage and Repair framework for RCA Agents in Microservices

发表:2026-05-18 · 收录:未知 · 软件工程与编程智能体

STAR 针对微服务 RCA agents 的关键可靠性问题:早期证据收集、假设构造或因果分析错误会沿 reasoning trace 传播,最终破坏诊断。 它把 RCA workflow 拆成 Evidence Package、Hypothesis Set、Analysis Structure 和 Decis...

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

发表:2026-05-18 · 收录:未知 · 机器人与具身智能

ESI-Bench 重新定义空间智能评测:agent 不应只被动处理给定观察,而要主动行动以揭示被遮挡结构、动态、容器关系和功能信息。 基准基于 OmniGibson,覆盖 10 类任务和 29 个子类,要求 agent 选择感知、移动和操作能力并安排动作序列来累积证据。 它值得正式收录,因为它把 embodi...

Bridging the interpretability gap for medical artificial intelligence models using class-association manifold learning

发表:2026-05-18 · 收录:未知 · 公共卫生与医疗运营

CAML 处理医疗 AI 的解释性缺口:局部解释难以揭示黑箱模型的全局决策逻辑,尤其难以区分个体背景和真正与诊断类别相关的模式。 方法用 class-association manifold learning 把全局类别知识映射到低维空间,并生成对比样本和 topology map,让人可以沿地图理解模型决策规...

Hybrid reasoning for perception, explanation, and autonomous action in manufacturing

发表:2026-05-18 · 收录:未知 · 工业过程与制造

CIPHER 面向制造现场的核心问题:纯数据驱动控制系统在数据稀缺和分布外状态下容易失效,而通用 foundation models 又缺少工程量化精度。 系统把过程专家、视觉/文本输入、检索增强推理和物理知识结合,让 agent 能解释状态、生成精确机器指令,并在多个制造系统中执行自主控制。 它值得正式收录...

Immunotherapy drug target identification using machine learning and patient-derived tumour explant validation

发表:2026-05-18 · 收录:未知 · 化学、生物与自动化实验室

MIDAS 面向免疫治疗新靶点发现,把基因互作、多组学患者数据、免疫细胞知识、抗原处理、疾病关联和扰动表型整合进多模态图神经网络。 论文报告 MIDAS 能在时间切片数据上泛化,优于 OpenTargets 等基线,并在未见患者中恢复免疫治疗响应相关基因;后续用患者来源肿瘤 explant 验证 OSM-OSM...

Controllable Molecular Generative Foundation Models

发表:2026-05-18 · 收录:未知 · 生物医药与药物发现

CoMole 针对分子图生成的关键短板:虽然 foundation model 在语言和视觉中成熟,但分子生成缺少统一、可控、跨任务的生成框架。 它用 motif-aware graph diffusion 把预训练结构先验迁移到可控生成中,并用 RL 优化化学上有意义的 reverse-policy 决策,避...

HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

发表:2026-05-18 · 收录:未知 · 智能体与自主科学

HINT-SD 解决 long-horizon LLM agents 的训练稀疏性问题:最终奖励只告诉任务是否成功,却不说明哪些中间动作导致失败,以及应如何修正。 相比每一轮都生成反馈或固定位置蒸馏,HINT-SD 用完整轨迹 hindsight 选择 failure-relevant actions,只在相关...

LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

发表:2026-05-18 · 收录:未知 · 智能体与自主科学

LongMINT 面向真实 agent 长期运行中的核心问题:记忆不是静态事实检索,而是长期上下文中不断更新、互相干扰、需要多目标聚合推理的动态系统。 Benchmark 覆盖 state tracking、多轮对话、Wikipedia revisions 和 GitHub commits 等场景,包含 15....

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

发表:2026-05-18 · 收录:未知 · 智能体与自主科学

EnvFactory 解决 agentic RL 的核心瓶颈:缺少可扩展、真实、可执行且鲁棒的工具环境,以及能反映隐式人类意图的训练轨迹。 系统从真实资源自动探索和验证 stateful executable tool environments,再通过拓扑采样和校准细化生成自然多轮轨迹,用于 SFT/RL。 它...

Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design

发表:2026-05-18 · 收录:未知 · 智能体与自主科学

AIRA 把 agentic AI 用到模型架构发现本身:AIRA-Compose 让多个 agent 在固定预算内探索基础计算原语和架构组合,AIRA-Design 则让 agent 设计低层 attention 机制和训练脚本。 论文报告 agent 发现的 AIRAformer 与 AIRAhybrid...

Self-Improving CAD Generation Agents with Finite Element Analysis as Feedback

发表:2026-05-17 · 收录:未知 · 工业过程与制造

这篇论文把 CAD generation 从外观几何生成推进到更接近工程实践的任务:从 free-form engineering brief 生成完整 assembled multi-part STEP file,并接受 finite element analysis 检验。 作者指出现有 learned C...

CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

发表:2026-05-16 · 收录:未知 · 系统、硬件与协同设计

CompactAttention 针对长上下文 LLM serving 里的真实瓶颈:chunked prefill 已经常用,但很多稀疏注意力方法仍假设 one-shot prefill,到了小 query chunk + 长 KV cache 的实际场景会失去 kernel 效率或反复承担 pattern...