发表:2026-05-26 · 收录:未知 · 能源、水与基础设施
这篇 Nature Communications 论文提出 LLM-UTP,把城市级交通预测从单一模式、单一场景和固定时间粒度的任务模型,推进到可跨城市、跨交通方式、跨场景复用的大模型式预测框架。 系统由趋势数据增强、时空特征编码和 LLM 模块组成,目标是同时捕捉不同交通模式中的通用趋势和特定波动,形成面向城...
发表:2026-05-26 · 收录:未知 · 智能体与自主科学
这篇论文补齐现有 agent benchmark 的盲区:多数 benchmark 测 reasoning/tool use,但很少测长期用户交互中的个性化建模和主动补全信息。 VitaBench 2.0 把任务组织成个人用户的时间序列,偏好分散在碎片化互动中,agent 必须持续抽取、更新和使用这些偏好。 它...
发表:2026-05-25 · 收录:未知 · 安全、治理与可靠性
这篇论文处理 diffusion LLM 的新安全问题:D-LLM 通过多步 denoising 生成文本,暴露出 autoregressive LLM 没有的中间轨迹信号。 作者发现最有用的失败预测信号是 safety hesitation,即中间隐藏状态反复落在轻量安全 probe 的决策边界附近。 D^2...
发表:2026-05-25 · 收录:未知 · 科学发现旗舰工作
这篇论文抓住 autonomous research agents 的核心短板:自动生成论文表面完整,但引用、分数、代码实现和方法描述可能不可验证。 Chain-of-Evidence 要求每个 claim 绑定证据来源,ScientistOne 在文献综述、方案发现和写作过程中持续维护证据链。 CoE Aud...
发表:2026-05-25 · 收录:未知 · 强化学习
DVAO 关注多奖励 RL 后训练的核心问题:真实模型优化常同时包含正确性、格式、偏好、安全或效率等多个奖励,静态权重容易让高方差奖励支配训练。 论文提出 dynamic variance-adaptive advantage optimization,根据不同 reward stream 的方差和训练状态动态...
发表:2026-05-25 · 收录:未知 · 推理、记忆与推理时控制
这篇论文把长上下文处理重新表述为 sleep-like consolidation:模型不必无限增长 KV cache,而是周期性把近期上下文压入可持续状态。 方法在 sleep 阶段对累积上下文做离线 recurrent passes,并通过 learned local rule 更新 SSM blocks...
发表:2026-05-25 · 收录:未知 · 生成建模与扩散
WBench 针对 interactive video/world models 的评估缺口:现有 benchmark 往往只覆盖静态视频质量、单轮生成或局部交互能力,缺少系统化多轮世界评测。 它构建 289 个 test cases 和 1,058 个 interaction turns,每个样例包含世界设定...
发表:2026-05-25 · 收录:未知 · 化学、生物与自动化实验室
这篇 npj Computational Materials 论文把 LLM agents 用到异相催化发现,而不是只做文献问答或自动脚本执行。 MASTER 将自然语言推理、multi-agent collaboration 和 density functional theory workflows 连接起来...
发表:2026-05-25 · 收录:未知 · 化学、生物与自动化实验室
SOFisher 针对空间组学实验设计的现实瓶颈:研究者需要决定测什么 target 和在哪里放置 FOV,密集采样再拼接成本高、耗时长,有时甚至不可行。 论文提出 reinforcement learning framework,根据已经采样的 FOV 序列选择下一个 FOV 位置,以更少采样捕获更多 reg...
发表:2026-05-25 · 收录:未知 · 化学、生物与自动化实验室
这篇 Nature Machine Intelligence 论文把质谱蛋白质组解析从多个分散工具推进到统一的 multimodal foundational model。 pUniFind 在超过 100 million open search-derived spectra 上训练,通过 spectral...
发表:2026-05-25 · 收录:未知 · 化学、生物与自动化实验室
这篇论文把蛋白工程中已成熟的 generative inverse design 思路扩展到 DNA origami,用于探索更复杂几何和功能的 DNA 纳米结构设计空间。 作者为缺少大规模标准结构数据的问题设计了基于 multiscale computational model 的模拟平衡构象训练数据,并用...
发表:2026-05-25 · 收录:未知 · 智能体与自主科学
这篇论文提出 agent lifespan engineering:部署中的 agent 即使权重冻结,其记忆库、压缩历史、事实修订和维护操作都会让系统状态持续变化。 AgingBench 把退化机制分成 compression aging、interference aging、revision aging 和...
发表:2026-05-25 · 收录:未知 · 智能体与自主科学
GUI agent 研究的瓶颈之一是环境难并行、结果难验证、真实移动应用后端不可控,导致在线 RL 和可重复评测都很困难。 MobileGym 用 browser-hosted lightweight mobile environment 表达 everyday apps,通过结构化 JSON 状态支持配置、f...
发表:2026-05-25 · 收录:未知 · 智能体与自主科学
这篇论文处理个人 agent 的长期记忆难题:并非所有对话内容都应直接存储,真正有用的是能支持后续个性化决策的稳定偏好、事实和习惯。 Personalize-then-Store 将记忆写入前的个性化判断作为核心环节,强调先识别对用户长期有价值的信息,再进入 memory store。 PerMemBench...
发表:2026-05-25 · 收录:未知 · 智能体与自主科学
这篇论文把 agent 从被动响应推进到 proactive assistance:真实个人助理有大量空闲时间,可以提前维护上下文、预测需求并准备可验证的中间产物。 方法围绕 idle-time compute 设计,让 agent 在用户未明确发出下一步请求时进行预测、检索、计划或预执行,并在后续任务中复用这...
发表:2026-05-25 · 收录:未知 · 智能体与自主科学
CUA-Gym 面向 computer-use agents 的训练瓶颈:agent 需要在真实或仿真的软件环境中学习,但可验证、可扩展、可自动生成的训练任务仍然稀缺。 论文把 CUA 训练环境组织成可执行、可判定的任务集合,使模型可以通过 outcome verification 获得 RLVR 式训练信号...
发表:2026-05-25 · 收录:未知 · 智能体与自主科学
Claw-Anything 扩展了 personal assistant agent 的评测边界:真实助理需要访问用户长期数字世界,而现有 benchmark 往往只给出局部网页、局部软件或短期任务状态。 它沿三个维度扩大上下文:long-horizon activity histories、interdepe...
发表:2026-05-24 · 收录:未知 · 理论、鲁棒性与核心机器学习
这篇论文针对 CoT 审计中的核心假设:已有 faithfulness metrics 是否真的测量了推理链是否反映模型计算过程。 作者构造能从输出反推必要中间计算的任务,并建立自动标注流程,得到 step-level 和 CoT-level ground-truth faithfulness labels...
发表:2026-05-24 · 收录:未知 · 智能体与自主科学
SimuWoB 处理移动 GUI agent 评测中的可复现问题:真实 app 状态易变、账号和网络依赖复杂,导致 benchmark 难以稳定扩展。 论文用模拟真实移动应用的方式构建快速、可控且较忠实的任务环境,使 agent 可以在统一状态空间中执行多步 UI 操作。 这种设计降低了 live-app be...
发表:2026-05-24 · 收录:未知 · 智能体与自主科学
Macaron-A2UI 关注 personal agent 的交互瓶颈:纯文本聊天难以承载信息收集、偏好细化、确认、多目标组织和复杂状态展示。 论文提出 Generative UI 模型,让 agent 同时生成自然语言和轻量可执行 UI actions,并构建大规模 Generative UI corpus...
发表:2026-05-23 · 收录:未知 · AI 硬件与加速器
这篇 Nature Communications 论文解决 analog/spintronic neuromorphic hardware 的关键训练瓶颈:设备行为复杂且有变异性,依赖过度简化软件模型会导致训练和真实硬件脱节。 作者证明 magnetic tunnel junctions 可以生成可调且复杂的非...
发表:2026-05-23 · 收录:未知 · 智能体与自主科学
ECHO 把 terminal agents 的环境交互视为可学习世界模型问题:命令执行后的文件系统、stdout、stderr 和状态变化可以作为自监督信号。 论文通过辅助预测环境后继状态,让 agent 在完成任务的同时学习 CLI world model,不需要额外人工标注即可改善后续规划。 这对 cod...
发表:2026-05-23 · 收录:未知 · 智能体与自主科学
SEAL 提出 Agent-Environment Misalignment:agent 能力边界在训练中变化,但训练环境和监督信号常是静态或弱耦合的,导致 self-evolution 无法持续对准真实失败。 系统收集 executable verification 下的 on-policy trajecto...
发表:2026-05-22 · 收录:未知 · 软件工程
CoSPlay 针对 coding agents 的一个现实瓶颈:许多场景没有隐藏测试或人工 verifier,模型必须自己构造测试来发现代码缺陷。 方法在测试时让代码生成和单元测试生成进行 cooperative self-play,通过自生成代码和自生成 unit tests 互相暴露错误并迭代修正。 这种...
发表:2026-05-22 · 收录:未知 · 神经科学与认知科学
这篇论文指出传统 activation maximization 只能说明某区域对概念强响应,不能证明该区域真正表征概念本身,因为相关视觉/语义线索会造成大量假阳性。 BrainCause 组合生成模型和 image-to-fMRI encoding model,自动构造目标概念图、去除目标概念的 counte...
发表:2026-05-22 · 收录:未知 · 神经科学与认知科学
这篇 Science Advances 论文研究真实视觉搜索中,目标、记忆、眼动和多脑区表征如何共同支持 goal-directed visual attention。 作者在猕猴自由注视搜索任务中记录 V4、IT、OFC 和 LPFC,发现群体活动能在 cue、delay 和 search 阶段动态表征类别、...
发表:2026-05-22 · 收录:未知 · AI 硬件与加速器
这篇 Science Advances 论文面向自动驾驶、机器人和智能监控中的高反差视觉识别问题,提出把 HDR 能力直接前移到光电探测器层,而不是依赖多曝光融合或复杂后处理。 器件通过 engineered tunneling mechanism 实现 bias-controllable、连续可调的动态范围...
发表:2026-05-22 · 收录:未知 · 生成建模与扩散
SCOPE 处理 FPS playable world models 的控制难题:高频、重叠的控制信号会同时影响局部武器区域和全局相机/移动,普通全局 action injection 容易干扰无关区域。 论文观察到 FPS actions 具有空间选择性,离散动作如开火和换弹主要影响 weapon scope...
发表:2026-05-22 · 收录:未知 · 智能体与自主科学
这篇 arXiv 论文提出 Polar,目标是解决 agent RL 训练中最实际的系统问题:真实 agent harness 往往包含长上下文、多轮工具使用、多 agent 编排和复杂运行时,难以直接移植成标准 RL environment。 Polar 把 agent harness 当作黑盒,通过代理 L...
发表:2026-05-22 · 收录:未知 · 智能体与自主科学
这篇论文系统研究 model-generated agent skills 的生命周期:从 raw experience 中抽取技能、组织技能库、选择技能,再到执行时消费技能。 它把 skill system 中常被混在一起的问题拆开,包括经验压缩、技能粒度、描述质量、调用条件、冲突和复用效果。 这种分析对 s...
发表:2026-05-22 · 收录:未知 · 智能体与自主科学
SkillEvolBench 聚焦 agent memory 的关键问题:长期经验如果只以 episodic traces 存储,agent 仍然很难把一次次失败和成功压缩成可复用技能。 benchmark 明确评估从 episodic experience 到 procedural skills 的演化过程...
发表:2026-05-22 · 收录:未知 · 智能体与自主科学
QUEST 面向 deep research agents 的训练问题:前沿系统多为闭源,开放系统在不同搜索、事实核查、引用和报告任务间泛化不足。 论文发布 2B 到 35B 的 open deep research agents,并提出结合 mid-training、supervised fine-tunin...
发表:2026-05-22 · 收录:未知 · 智能体与自主科学
Foundation Protocol 关注 agent scale-up 后的系统瓶颈:当 agent 能浏览、购买、部署软件、管理系统并互相协作时,问题从单模型能力转向身份、关系、价值交换、责任和治理。 论文提出 graph-first coordination layer,把 agents、tools、r...
发表:2026-05-22 · 收录:未知 · 智能体与自主科学
SkillOpt 针对 agent skill 的核心短板:当前 skill 往往是人工写、一次性生成或松散自修补,缺少像模型权重优化那样可控、可复现、可验证的训练流程。 论文把 skill 文档视为冻结 agent 的外部状态,由单独 optimizer model 根据 scored rollouts 生成...
发表:2026-05-21 · 收录:未知 · 理论、鲁棒性与核心机器学习
这篇论文关注 reasoning benchmark 的污染问题,尤其是恶意或间接污染:模型发布方可以通过 paraphrasing benchmark 数据规避传统检测,并人为抬高排行榜表现。 作者提出关键现象:生成的 reasoning steps 会掩盖底层记忆捷径,因此 Zero-CoT Probe 故...
发表:2026-05-21 · 收录:未知 · 科学发现旗舰工作
这篇论文把 AI for Science 的一个关键问题形式化:模型不仅能总结已有科学,还能否在受控知识截止条件下预测未来科学进展。 作者提出 CUSP(Cutoff-conditioned Unseen Scientific Progress),覆盖 4,760 个科学事件,并从 feasibility as...
发表:2026-05-21 · 收录:未知 · 推理、记忆与推理时控制
ThriftAttention 处理长上下文推理中的注意力成本问题:全 FP16/FP8 计算昂贵,而统一低精度又会破坏关键 token 或关键头的精度。 论文提出 selective mixed precision,让 attention 中不同位置、头或计算路径按重要性使用 FP4 与更高精度混合,从而降低...
发表:2026-05-21 · 收录:未知 · 推理、记忆与推理时控制
Gated DeltaNet-2 improves linear attention by decoupling the erase and write operations that update the recurrent memory state. The method generalizes earli...
发表:2026-05-21 · 收录:未知 · 物理与 AI for Science
REPA-P 指出 physics-informed diffusion 常只约束最终输出,隐藏层仍可能学 shortcut,导致边界条件变化时 OOD 鲁棒性差。 方法在选定中间层接轻量 projection heads,把 hidden activations 解码成物理量并施加 PDE residual...
发表:2026-05-21 · 收录:未知 · 神经科学与认知科学
这篇 Science 论文直接重新检验动物强化学习实验中一个常见默认假设:为了增加试次数,单次奖励通常被设计得很小,但这可能系统性低估了学习效率。 作者在多个行为范式中发现,特别大的奖励可以显著提升初始学习效率,并把这种提升拆分为 session 内学习、跨 session 学习和任务参与度等不同成分。 机制上...
发表:2026-05-21 · 收录:未知 · 多模态基础模型
VGenST-Bench 针对多模态模型的 spatio-temporal reasoning 评测缺口:静态图像或被动收集视频难以精确控制场景变量,也难以拆分低层感知和高层时空推理。 论文用 generative models 主动合成受控、多样的视频评测场景,并通过 multi-agent pipeline...
发表:2026-05-21 · 收录:未知 · 数学与形式推理
This paper evaluates LLM-driven formal proof search on open mathematical problems, using Lean-style formal verification as the reliability layer for generat...
发表:2026-05-21 · 收录:未知 · 系统、硬件与协同设计
Therm-FM 面向 3D-IC 设计中的热仿真成本问题:传统数据驱动预测器通常要为每个芯片设计重新生成大量高保真有限元仿真数据,跨设计复用差。 论文把芯片热传导与扩散型 PDE 的共享算子结构联系起来,将 pretrained PDE foundation model 迁移到 steady-state 和...
发表:2026-05-21 · 收录:未知 · 地理空间、遥感与灾害系统
SpectralEarth-FM 针对 Earth observation foundation models 的一个关键缺口:现有多传感器预训练很少把 hyperspectral imagery 纳入统一表示学习。 方法使用 spectral tokenization、sensor-specific enco...
发表:2026-05-21 · 收录:未知 · 生成建模与扩散
WorldKV 针对 action-conditioned video/world generation 的核心瓶颈:完整 KV cache 能保持场景一致性,但 rollout 变长后内存和注意力成本线性增长;滑窗推理则会丢失长期世界一致性。 方法包含 World Retrieval 和 World Comp...
发表:2026-05-21 · 收录:未知 · 生成建模与扩散
这篇论文聚焦 Diffusion Transformers 中长期被默认继承的 residual stream,指出跨层信息流在深度和 denoising timestep 上存在幅值膨胀、梯度衰减和 block redundancy。 作者提出 Diffusion-Adaptive Routing (DAR)...
发表:2026-05-21 · 收录:未知 · 化学、生物与自动化实验室
SciCore-Mol 针对科学 LLM 处理分子数据时的结构性问题:把拓扑分子和连续反应信息压成离散文本会造成信息损失和语义噪声。 框架把 topology-aware perception、latent diffusion-based molecular generation 和 reaction-awar...
发表:2026-05-21 · 收录:未知 · 智能体与自主科学
Maestro 关注 autonomous agents 的组合问题:模型和技能越来越多,但多数系统仍依赖固定逻辑或单一大模型,不能动态利用不同专家模型与工具技能的互补性。 论文把异构多模态任务重写为对 hierarchical model-skill registry 的序列决策过程,由轻量 policy 选...
发表:2026-05-21 · 收录:未知 · 智能体与自主科学
Spreadsheet-RL 把 spreadsheet agent 从 prompt-only 操作推进到真实 Excel 环境中的多轮 RL 训练,目标是处理复杂、多步骤、接近日常工作流的数据任务。 系统包含自动收集 start-goal spreadsheets 的 pipeline、Domain-Spr...
发表:2026-05-21 · 收录:未知 · 智能体与自主科学
ACC 把 agent 执行过程中天然产生的长轨迹转成 long-context 训练数据,核心观察是工具调用、环境反馈和中间状态本身包含大量跨轮证据,但传统 agent SFT 通常遮蔽工具响应,浪费了这些监督信号。 方法将搜索、软件工程、数据库查询等 agent 轨迹编译为 QA pairs,把原始问题、工...
发表:2026-05-21 · 收录:未知 · 智能体与自主科学
AgentCo-op 处理开放科学任务里 multi-agent workflow 难以设计、接口不统一、缺少可靠指标的问题,而不是只做固定 benchmark 上的 agent graph 搜索。 方法把可复用 skills、tools 和外部 agents 检索出来,通过 typed artifact ha...
发表:2026-05-20 · 收录:未知 · 安全、治理与可靠性
TRIAD 针对多轮多模态攻击的非平稳性:恶意意图可以分散在长程对话和跨模态扰动中,单 turn guardrail 容易漏检。 论文把安全验证建模为 trajectory-level survival prediction,结合结构异常、正则化 Mahalanobis 距离、拓扑轨迹加速度和 Cox/HMM...
发表:2026-05-20 · 收录:未知 · 安全、治理与可靠性
RoboJailBench 填补 embodied AI jailbreak 评估缺口:传统聊天模型安全基准无法覆盖机器人和自动驾驶等具身系统中的物理后果。 它基于 ISO 标准、监管规则和事故记录建立 18 类安全违规后果,并构建 adversarial/benign intent contrast 数据管线...
发表:2026-05-20 · 收录:未知 · 安全、治理与可靠性
这篇论文把 foundation model guardrails 从单次输出过滤,重新表述为不确定闭环系统中的 runtime behavioral control。 它借鉴机器人控制中的约束执行思想,提出 Grounded Observer 框架,并在闲聊、家庭自闭症治疗和学校行为降级三个真实部署场景中讨论...
发表:2026-05-20 · 收录:未知 · 科学发现旗舰工作
SciAtlas 面向自动科研中的信息组织问题:向量检索和关键词检索难以表达跨学科、跨实体、跨证据链的拓扑关系,deep research agent 又容易产生逻辑幻觉和高推理成本。 系统构建跨 26 个学科、4300 万论文、1.57 亿实体和 30 亿 triplets 的异构科学知识图谱,将科学文献组织...
发表:2026-05-20 · 收录:未知 · 机器人与具身智能
这篇 Nature 论文把非视距隐藏物体成像推进到低成本消费级 LiDAR 场景,不再依赖昂贵、专用的实验室 NLOS 硬件。 核心思路是利用运动诱导采样,把多帧消费级 LiDAR 数据和运动模型融合起来,实现隐藏物体的三维重建、跟踪和定位。 对机器人和具身系统而言,这相当于扩展了感知边界:拐角后、遮挡后和视线...
发表:2026-05-20 · 收录:未知 · 强化学习
DelTA 关注 RLVR 的核心机制问题:sequence-level verifiable reward 如何具体改变 token-level probability。论文把 policy-gradient update 解释为 token-gradient vectors 上的线性判别器。 标准 RLVR...
发表:2026-05-20 · 收录:未知 · 机器人与具身智能
这篇论文提出一个反直觉但重要的 embodied LLM 评估发现:更高保真观察不一定带来更强问题求解。 作者在物理 Lockbox 机械谜题和受控仿真中比较 RGB、RGB-D 和 ground-truth symbolic observations,发现原始 RGB 最好、完美符号观察最差;适度噪声反而能减...
发表:2026-05-20 · 收录:未知 · 推理、记忆与推理时控制
Equilibrium Reasoners 提出一种不同于 CoT 采样和 verifier reranking 的 reasoning scaling 思路:把推理看成向 latent attractor 收敛。 模型学习可迭代更新的吸引子动力学,在测试时通过更多迭代接近稳定解,而不必依赖外部 verifie...
发表:2026-05-20 · 收录:未知 · 神经科学与认知科学
这篇 Nature 论文处理智能和泛化的核心机制问题:大脑是否真的存在可重组的离散 action symbols,而不只是连续分布式运动表征。 猕猴在 drawing-like task 中表现出 stroke-level action elements 的三个符号特征:对低层运动参数不变、具有离散类别结构、并...
发表:2026-05-20 · 收录:未知 · 神经科学与认知科学
这篇 Nature 论文直接连接生物神经网络和人工网络初始化问题:脑内自发大尺度活动为何能在单神经元快速时间常数之外形成持久协调模式。 作者发现小鼠大规模神经记录的 eigenvalue spectrum 和动力学性质,可由 critically normalized random symmetric matr...
发表:2026-05-20 · 收录:未知 · 神经科学与认知科学
这篇 Nature 论文研究大脑如何把威胁线索、过去经验和内部状态整合成具体防御行动,聚焦 limbic forebrain 中 lateral septum 的 CRHR2-expressing neuron population。 作者结合单细胞钙成像、分子测序和回路解析,刻画 LSCrhr2 神经元的空间...
发表:2026-05-20 · 收录:未知 · 多模态基础模型
VASA 面向开放 ad-hoc segmentation:目标概念可能需要由部分、关系、排除条件和集合组合出来,而不是一个已学过的文本 grounding。 系统把 VLM agent、segmentation foundation model、persistent working mask 和视觉操作 wo...
发表:2026-05-20 · 收录:未知 · 生成建模与扩散
RankE 针对 discrete text-to-image generation 的后训练问题:如果只优化离散 token 生成器,decoder 的表达边界会限制最终图像质量和偏好对齐。 论文提出 decoder co-evolution,让后训练同时影响离散生成和解码路径,形成更端到端的偏好优化流程...
发表:2026-05-20 · 收录:未知 · 生成建模与扩散
Lens 关注 foundational text-to-image models 的训练效率,而不是单一 benchmark 或局部模块改进。 论文系统重构训练 recipe,涉及高质量 dense captions、多分辨率训练、语义 VAE、强化学习优化和蒸馏等环节。 这种工作对生成模型基础设施有价值,因...
发表:2026-05-20 · 收录:未知 · 生成建模与扩散
PhysX-Omni 面向 embodied AI 和物理仿真的关键缺口:现有 3D 生成往往只生成外观几何,缺少可直接进入仿真的物理属性,且常局限于刚体、可变形物体或关节物体中的单一类别。 论文提出统一的 simulation-ready physical 3D generation 框架,并设计适配 VLM...
发表:2026-05-20 · 收录:未知 · 智能体与自主科学
这篇论文把 agent memory 从相似度检索式 episodic memory / skill library 推进一步:记忆不再只是拿回静态条目,而是由独立模型按当前上下文生成可执行 guidance。 核心机制是 Mem-π 模型同时学习 when 和 what:什么时候不该干预、什么时候生成简洁有效...
发表:2026-05-20 · 收录:未知 · 智能体与自主科学
CutVerse 把 GUI agents 评测从网页导航和基础 OS 操作扩展到专业创作软件工作流,例如 Premiere Pro 和 Photoshop。 基准包含 7 个专业应用、186 个长程任务和专家演示,并提供把屏幕录制与低层交互日志解析为 compositional GUI action traj...
发表:2026-05-20 · 收录:未知 · 智能体与自主科学
这篇论文研究多 agent LLM pipeline 中的 handoff 学习:不同专用 agent 通过共享 artifact 交接,但没有中心 learner 能访问完整联合轨迹。 作者把该设置形式化为 interface-constrained SMDP,并提出 IC-Q;每次交接只传一个标量,却给出神...
发表:2026-05-20 · 收录:未知 · 智能体与自主科学
DecisionBench 针对 agent orchestration 的关键问题:一个 agent 何时应该把子任务交给另一个模型,以及如何评估这种 delegation 是否真的有效。 基准固定任务套件、11 个 peer models、call_model/read_profile 接口和多轴指标,覆盖...
发表:2026-05-20 · 收录:未知 · 智能体与自主科学
EngiAI 把 LLM agents 放进真实工程设计流程,而不是只做文本问答:任务覆盖拓扑优化、参数检索、HPC 作业编排和 3D 打印控制。 论文同时给出 benchmark suite 和 LangGraph 多 agent 参考实现,评估 direct tool use、语义消歧、条件分支、工作记忆、...
发表:2026-05-19 · 收录:未知 · 科学发现旗舰工作
Co-Scientist 把科学假设生成做成多 agent 系统:多个 agent 持续生成、批判、排序和改进假设,并通过 test-time compute scaling 提升假设质量。 系统面向研究目标和既有证据生成可实验验证的新假设;论文在药物重定位、新靶点发现和抗微生物耐药机制解释中验证,特别是 AM...
发表:2026-05-19 · 收录:未知 · 科学发现旗舰工作
AutoResearchClaw 针对自动科研系统的线性管线缺陷:失败后停止、缺少跨轮经验、缺少多视角质询和结果可验证性。 系统包含多 agent debate、Pivot/Refine 自修复执行器、可验证结果报告、人机协作的七种介入模式,以及把历史错误转化为未来 safeguards 的 cross-run...
发表:2026-05-19 · 收录:未知 · 科学发现旗舰工作
ERA 针对科学研究中的一个真实瓶颈:研究软件和实验脚本往往需要专家长期手写,限制了计算实验迭代速度。 系统把 LLM 与 tree search 结合,以质量指标为目标反复生成、测试和改进代码;论文报告它在单细胞分析、COVID-19 住院预测、地理空间分析、斑马鱼神经活动预测和数值积分等任务中达到或超过专家...
发表:2026-05-19 · 收录:未知 · 科学发现旗舰工作
Robin 把文献检索 agent、假设生成、实验建议、数据分析和结果解释连接成 lab-in-the-loop 的科学发现系统,而不是只做单点文献问答或代码生成。 论文在干性年龄相关性黄斑变性场景中验证了系统:Robin 提出增强 RPE 吞噬作用的治疗策略,识别并体外确认 ripasudil 与 KL001...
发表:2026-05-19 · 收录:未知 · 推理、记忆与推理时控制
GoLongRL 处理长上下文 RL 的数据构造和多任务奖励异质性问题,而不是只堆更复杂检索路径。 论文发布 23K RLVR 样本、构造流水线和训练代码,覆盖 9 类长上下文能力,并提出 TMN-Reweight 做跨任务奖励尺度对齐和难度自适应加权。 它值得正式收录,因为它把长上下文能力后训练做成开放 re...
发表:2026-05-19 · 收录:未知 · 神经科学与认知科学
FPED introduces a functional-network-prior mixture-of-experts framework for fMRI visual decoding, avoiding the common practice of flattening brain signals i...
发表:2026-05-19 · 收录:未知 · 多模态基础模型
ParaVT 处理长视频理解中的 agentic tool-use 问题:现有 RL 方法通常顺序调用视频裁剪等工具,单次错误会传播,多轮上下文被污染,推理成本随工具轮数线性增长。 论文提出 parallel video tool calling,一轮并行分发多个时间窗裁剪,让多 agent 工具结果互相补偿...
发表:2026-05-19 · 收录:未知 · AI 硬件与加速器
这篇 PNAS 论文处理 AI 训练硬件的根问题:现代深度学习训练几乎完全依赖电子加速器和 backpropagation,能耗与规模扩展压力越来越大。 作者在 hybrid electronic-photonic platform 上实验实现 direct feedback alignment,用 optic...
发表:2026-05-19 · 收录:未知 · 智能体与自主科学
PEEK 区分了 agent memory 中容易混淆的对象:不是保存轨迹或原始材料,而是保存关于复用上下文的 orientation knowledge。 系统维护一个固定预算 context map,记录外部上下文包含什么、如何组织、哪些实体/常量/schema 曾经有用,并通过 Distiller、Car...
发表:2026-05-19 · 收录:未知 · 智能体与自主科学
OpenComputer 针对 computer-use agents 的核心评估难点:最终截图或 LLM-as-judge 往往看不见真实应用状态,也不能稳定给出部分信用。 框架提供应用状态 verifier、自演化验证层、可机器检查的任务生成流水线和轨迹级评估 harness,覆盖 33 个桌面应用与 10...
发表:2026-05-18 · 收录:未知 · 理论、鲁棒性与核心机器学习
This position paper reframes agent security away from model robustness alone and toward system-level security invariants around tools, identity, authority...
发表:2026-05-18 · 收录:未知 · 理论、鲁棒性与核心机器学习
这篇论文提出一种非参数、可审计的 world model:把 agent state 表示成 append-only typed RDF triples,并通过 fork event log 回答结构化干预下的 counterfactual queries。 它的价值不是追求更强神经预测,而是提供 exact...
发表:2026-05-18 · 收录:未知 · 系统、硬件与协同设计
AgentStop 研究本地部署 AI agents 的系统成本:多步推理、工具调用和失败重试会让本地 GPU 功耗、温度和电池消耗显著上升。 论文提出轻量级 efficiency supervisor,用 token log probabilities 等低成本执行信号预测轨迹是否大概率失败,并提前终止无望执...
发表:2026-05-18 · 收录:未知 · 软件工程与编程智能体
TopoEvo 处理 LLM RCA agents 的另一类失效:忽略服务拓扑会把根因误归到下游受害节点,产生 symptom-amplification bias。 系统把 metrics、logs、traces 对齐成拓扑增强表示,用向量量化形成可审计 symptom tokens,再通过多 agent H...
发表:2026-05-18 · 收录:未知 · 软件工程与编程智能体
STAR 针对微服务 RCA agents 的关键可靠性问题:早期证据收集、假设构造或因果分析错误会沿 reasoning trace 传播,最终破坏诊断。 它把 RCA workflow 拆成 Evidence Package、Hypothesis Set、Analysis Structure 和 Decis...
发表:2026-05-18 · 收录:未知 · 机器人与具身智能
ESI-Bench 重新定义空间智能评测:agent 不应只被动处理给定观察,而要主动行动以揭示被遮挡结构、动态、容器关系和功能信息。 基准基于 OmniGibson,覆盖 10 类任务和 29 个子类,要求 agent 选择感知、移动和操作能力并安排动作序列来累积证据。 它值得正式收录,因为它把 embodi...
发表:2026-05-18 · 收录:未知 · 公共卫生与医疗运营
CAML 处理医疗 AI 的解释性缺口:局部解释难以揭示黑箱模型的全局决策逻辑,尤其难以区分个体背景和真正与诊断类别相关的模式。 方法用 class-association manifold learning 把全局类别知识映射到低维空间,并生成对比样本和 topology map,让人可以沿地图理解模型决策规...
发表:2026-05-18 · 收录:未知 · 神经科学与认知科学
This Nature Human Behaviour paper investigates the evolutionary and neural origins of prospective metacognition by comparing humans and macaques across beha...
发表:2026-05-18 · 收录:未知 · 神经科学与认知科学
This Nature Communications paper reopens the question of unsupervised visual perceptual learning by showing that task-irrelevant natural scenes can produce...
发表:2026-05-18 · 收录:未知 · 工业过程与制造
CIPHER 面向制造现场的核心问题:纯数据驱动控制系统在数据稀缺和分布外状态下容易失效,而通用 foundation models 又缺少工程量化精度。 系统把过程专家、视觉/文本输入、检索增强推理和物理知识结合,让 agent 能解释状态、生成精确机器指令,并在多个制造系统中执行自主控制。 它值得正式收录...
发表:2026-05-18 · 收录:未知 · 化学、生物与自动化实验室
MIDAS 面向免疫治疗新靶点发现,把基因互作、多组学患者数据、免疫细胞知识、抗原处理、疾病关联和扰动表型整合进多模态图神经网络。 论文报告 MIDAS 能在时间切片数据上泛化,优于 OpenTargets 等基线,并在未见患者中恢复免疫治疗响应相关基因;后续用患者来源肿瘤 explant 验证 OSM-OSM...
发表:2026-05-18 · 收录:未知 · 生物医药与药物发现
CoMole 针对分子图生成的关键短板:虽然 foundation model 在语言和视觉中成熟,但分子生成缺少统一、可控、跨任务的生成框架。 它用 motif-aware graph diffusion 把预训练结构先验迁移到可控生成中,并用 RL 优化化学上有意义的 reverse-policy 决策,避...
发表:2026-05-18 · 收录:未知 · 智能体与自主科学
HINT-SD 解决 long-horizon LLM agents 的训练稀疏性问题:最终奖励只告诉任务是否成功,却不说明哪些中间动作导致失败,以及应如何修正。 相比每一轮都生成反馈或固定位置蒸馏,HINT-SD 用完整轨迹 hindsight 选择 failure-relevant actions,只在相关...
发表:2026-05-18 · 收录:未知 · 智能体与自主科学
LongMINT 面向真实 agent 长期运行中的核心问题:记忆不是静态事实检索,而是长期上下文中不断更新、互相干扰、需要多目标聚合推理的动态系统。 Benchmark 覆盖 state tracking、多轮对话、Wikipedia revisions 和 GitHub commits 等场景,包含 15....
发表:2026-05-18 · 收录:未知 · 智能体与自主科学
EnvFactory 解决 agentic RL 的核心瓶颈:缺少可扩展、真实、可执行且鲁棒的工具环境,以及能反映隐式人类意图的训练轨迹。 系统从真实资源自动探索和验证 stateful executable tool environments,再通过拓扑采样和校准细化生成自然多轮轨迹,用于 SFT/RL。 它...
发表:2026-05-18 · 收录:未知 · 智能体与自主科学
SDOF 关注多 agent orchestration 的实际部署问题:LangChain/LangGraph/CrewAI 类图工作流通常能路由任务,但不强制真实业务流程中的 stage constraints。 系统把多 agent 执行建模为受限状态机,结合 intent router、GoalStag...
发表:2026-05-18 · 收录:未知 · 智能体与自主科学
AIRA 把 agentic AI 用到模型架构发现本身:AIRA-Compose 让多个 agent 在固定预算内探索基础计算原语和架构组合,AIRA-Design 则让 agent 设计低层 attention 机制和训练脚本。 论文报告 agent 发现的 AIRAformer 与 AIRAhybrid...
发表:2026-05-17 · 收录:未知 · 工业过程与制造
这篇论文把 CAD generation 从外观几何生成推进到更接近工程实践的任务:从 free-form engineering brief 生成完整 assembled multi-part STEP file,并接受 finite element analysis 检验。 作者指出现有 learned C...
发表:2026-05-16 · 收录:未知 · 系统、硬件与协同设计
CompactAttention 针对长上下文 LLM serving 里的真实瓶颈:chunked prefill 已经常用,但很多稀疏注意力方法仍假设 one-shot prefill,到了小 query chunk + 长 KV cache 的实际场景会失去 kernel 效率或反复承担 pattern...