DeepTutor: Towards Agentic Personalized Tutoring

发表:2026-05-08 · 收录:未知 · Education Tutoring And Assessment

DeepTutor 把教育 AI 从一次性问答推进到 agentic personalized tutoring:系统不仅回答题目,还把 citation-grounded tutoring、难度校准出题、交互式书籍和 proactive 多渠道辅导放到同一工作流中。 关键机制是 hybrid personal...

AI-predicted spatial transcriptomics unlocks breast cancer biomarkers from pathology

发表:2026-05-08 · 收录:未知 · 化学、生物与自动化实验室

Path2Space 针对 spatial transcriptomics 的核心瓶颈:ST assay 成本高,难以在大规模临床队列中用于 biomarker discovery。 方法训练深度学习模型从常规病理切片直接预测空间基因表达,在乳腺癌 ST 数据上学习后可预测数千个基因的空间表达,并优于 21 个...

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

发表:2026-05-08 · 收录:未知 · 智能体与自主科学

这篇论文的价值在于挑战 agentic search 里默认的 dense retrieval 习惯:复杂搜索任务不只是找语义相似片段,而是要主动和语料互动,逐步验证、排除和重构问题。 这个 framing 对搜索 agent 很关键。长期研究、审计、法律、代码和科学文献任务都要求 agent 直接操作证据集合...

Tuft dendrites in frontal motor cortex enable flexible learning

发表:2026-05-07 · 收录:未知 · 神经科学与认知科学

这篇 Science 论文研究大脑已经学会一套规则之后,如何在环境变化时重新学习和切换规则。作者聚焦小鼠 anterolateral motor cortex 中 layer 5b pyramidal neurons 的 apical tuft dendrites,追问这些树突是否是灵活学习的关键计算位置。 核...

Large Vision-Language Models Get Lost in Attention

发表:2026-05-07 · 收录:未知 · 多模态基础模型

这篇论文关注大视觉语言模型的一个基础可靠性问题:模型表面上能处理图文输入,但注意力机制可能在复杂图像、干扰区域或语言提示下偏离真正相关证据。 作者围绕 attention loss 设计系统化诊断,分析 LVLM 在视觉 grounding、跨模态对齐和推理时如何被无关区域、局部显著性或提示结构牵引。 论文配套...

AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

发表:2026-05-07 · 收录:未知 · 数学与形式推理

这篇论文把数学 AI 从单题求解推进到 mathematician-facing agentic workflow。它关注的是如何协助数学家推进研究,而不是只在形式化证明 benchmark 上提高一点通过率。 这种 framing 对本库重要,因为 AI for math 的真正变化可能来自研究协作界面:提出...

Attractor Geometry of Transformer Memory: From Conflict Arbitration to Confident Hallucination

发表:2026-05-07 · 收录:未知 · 可解释性与机制分析

这篇论文重要的地方是把 transformer memory、冲突仲裁和 confident hallucination 放进同一个几何解释框架。它关注的不是某个 hallucination benchmark,而是模型记忆如何在内部形成吸引子结构。 如果这个 framing 成立,它能解释为什么模型在证据冲突...

Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations

发表:2026-05-07 · 收录:未知 · 可解释性与机制分析

这篇工作的核心贡献是把 activation interpretability 从特征列表和人工解释推进到“向量 -> 文本 -> 向量”的可训练 bottleneck。它不是让模型随口解释自己,而是用重构原激活的目标约束解释文本必须携带真实内部状态信息。 方法上,NLA 由 activation verbal...

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

发表:2026-05-07 · 收录:未知 · 智能体与自主科学

CreativityBench 把 agent 创造性具体化为 affordance-based tool repurposing:能否识别工具的潜在可供性,并在非标准目标中重新组合使用。 这个问题比普通工具调用更接近真实 agent 能力。真实任务经常需要把已有工具、API、文件和环境约束重新解释为可用操作...

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

发表:2026-05-07 · 收录:未知 · 智能体与自主科学

这篇论文延续了 self-evolving agents 的关键路线:技能不只是 prompt library,而是需要被选择、使用、评估和蒸馏进 agent 行为。Skill1 把这些步骤放进统一 RL 框架。 它的复用价值在于把 skill-augmented agent 的几个断裂环节合并为一个训练问题...

STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

发表:2026-05-07 · 收录:未知 · 智能体与自主科学

这篇论文抓住了 agent memory 里经常被忽略的核心问题:记住不难,知道什么时候记忆过期才难。长期 agent 如果不能识别 stale memory,会把历史状态当成现实,从而系统性犯错。 STALE 的价值在于把 memory validity 变成可测试问题,而不是泛泛讨论长期记忆。它对个人 ag...

More Is Not Always Better: Cross-Component Interference in LLM Agent Scaffolding

发表:2026-05-07 · 收录:未知 · 智能体与自主科学

这篇论文切中 agent 工程里的一个真实问题:更多 memory、tools、reflection、planner、verifier 不一定叠加成更强系统,组件之间可能互相干扰。这个结论比单个新 scaffold 更有长期价值。 它把 agent scaffolding 从“堆模块”拉回到系统交互问题,强调组...

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents

发表:2026-05-06 · 收录:未知 · 安全、治理与可靠性

DTap 针对 agent 安全评估的核心问题:agent 会在动态、不可信、多工具环境中执行长程动作,传统静态 jailbreak 测试不足以覆盖实际风险。 平台覆盖 14 个真实世界域和 50 多个模拟环境,复现 Google Workspace、PayPal、Slack 等常见系统中的工具调用、数据流和高...

RLDX-1 Technical Report

发表:2026-05-06 · 收录:未知 · 强化学习

RLDX-1 面向 VLA generalist robotic policies,重点是把视觉、语言和动作能力放进真实机器人策略学习框架。 它的价值在于 robotics/VLA 系统模式,而不是单一 manipulation trick。报告覆盖模型、数据、训练和评测,对后续机器人 foundation p...

Prefrontal to ventral tegmental area dynamics drive contingency degradation

发表:2026-05-06 · 收录:未知 · 神经科学与认知科学

这篇 Nature 论文把认知灵活性中的“停止追逐旧奖励线索”具体化为可建模、可记录、可操控的 contingency degradation 信号。 作者在经典 reward prediction error 模型中加入 meta-learning 参数,构建 meta-RPE 模型,更准确解释小鼠在 cue...

Time-synthetic optical neural networks with stable programmable gain

发表:2026-05-06 · 收录:未知 · AI 硬件与加速器

这篇 Nature Communications 论文针对 optical neural networks 的有效深度瓶颈:传统空间光子网格多为被动线性变换,累积损耗导致信噪比快速退化。 作者把可编程增益放入 time-synthetic ONN,让计算沿严格前向的时间演化展开,避免空间反馈和寄生反射带来的增益...

Siamese foundation models for crystal structure prediction

发表:2026-05-06 · 收录:未知 · 化学、生物与自动化实验室

这篇 Nature Communications 论文提出 DAO,用双 Siamese foundation model 处理从化学组成预测晶体结构的问题。晶体结构预测是材料发现中的基础瓶颈,难点在复杂三维几何和能量稳定性。 DAO 集成结构生成器和能量预测器,先在稳定与不稳定结构的大规模数据上预训练,再让能...

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

发表:2026-05-06 · 收录:未知 · 智能体与自主科学

ARIS 的价值不在于“AI scientist again”,而在于它把 autonomous research 的 failure boundary 讲得非常清楚:真正危险的不是模型明显崩掉,而是它写出看似像真的结论,但证据链并不完整。 它因此给出的不是单个 workflow,而是一套 harness pa...

Molecular mechanism of calcium permeability and magnesium block in NMDA receptors

发表:2026-05-05 · 收录:未知 · 神经科学与认知科学

这篇 Nature Neuroscience 论文解析 NMDA 受体为什么既能让 Ca2+ 进入神经元、又会被 Mg2+ 以电压依赖方式阻塞。作者结合单颗粒 cryo-EM、分子动力学和电生理,提出 Ca2+ 通过选择性滤器时发生部分脱水,而 Mg2+ 保持水合并停留在滤器外侧水网络中形成通道阻塞;滤器周围脂...

A Benchmark for Interactive World Models with a Unified Action Generation Framework

发表:2026-05-05 · 收录:未知 · 多模态生成与世界模型

interactive world model 一直缺少统一评测接口,尤其不同模型的 action interface 常常根本不兼容。这篇工作的关键不是再造一个 world model,而是提出统一的 action generation framework 去对齐评测。 iWorld-Bench 的价值在于把...

Force-free molecular dynamics through autoregressive equivariant networks

发表:2026-05-05 · 收录:未知 · 化学、生物与自动化实验室

大多数 machine-learning molecular dynamics 仍然受制于一个老瓶颈:哪怕势能面学得很好,数值积分还是把时间步长卡得很小。TrajCast 的关键改写是直接预测位置和速度更新,从而把‘先算力、再积分’这条传统链路绕开。 它的价值不只是快,而是给出了 force-free、auto...

RegFormer: a single-cell foundation model powered by gene regulatory hierarchies

发表:2026-05-05 · 收录:未知 · 生命科学基础模型

这篇工作的关键不只是又做了一个 single-cell foundation model,而是把 gene regulatory hierarchies 明确接进了 foundation-model 接口。它瞄准的是现有单细胞模型常见的两个短板:缺 regulatory awareness,以及难以同时兼顾规模...

From Context to Skills: Can Language Models Learn from Context Skillfully?

发表:2026-05-05 · 收录:未知 · 智能体与自主科学

这篇论文把长上下文使用重新表述为 context-to-skill:模型不只是检索上下文片段,而是从上下文中抽取规则、程序和可复用技能。 它对 agent 能力扩展很相关。很多真实任务的关键不是参数知识,而是能否临时学习文档、流程、API 或业务规则,并把这些信息转化成后续执行策略。 它值得正式收录,因为它把...

Automated deep learning by recurrent hyperparameter optimization

发表:2026-05-04 · 收录:未知 · 理论、鲁棒性与核心机器学习

很多 AutoML 或 HPO 论文的问题在于只是在固定 search space 上再堆一个搜索器。Rocket 更值得收,是因为它把超参数优化明确变成 recurrent decision process,用 self-play RL 学一个可迁移的优化策略,而不是依赖每次重新手工设计 priors。 这篇...

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

发表:2026-05-04 · 收录:未知 · 公共卫生与医疗运营

很多医疗 agent benchmark 只测静态问答、单步意图或者文本知识,离真实临床系统还差很远。PhysicianBench 过线的原因,是它把评测对象换成了真实 EHR 环境里的长链路 physician tasks,而不是抽象化 toy interaction。 它的接口设计也很扎实:真实患者记录、标...

Mitigating algorithmic unfairness arising from forgetfulness of medical records in clinical artificial intelligence

发表:2026-05-04 · 收录:未知 · 公共卫生与医疗运营

这篇论文抓住了 clinical AI 一个非常现实、也非常容易被忽略的系统矛盾:患者要求删除病历时,模型执行 machine unlearning 可能会改变对不同亚群体的认识,从而破坏公平性。它真正贡献的是把 ‘right to be forgotten’ 和 ‘fairness’ 的冲突正式化。 方法上...

A collaborative constrained graph diffusion model for the generation of realistic synthetic molecules

发表:2026-05-04 · 收录:未知 · 化学、生物与自动化实验室

分子生成领域一直有一个老问题:模型能生成很多‘看起来像分子’的图,但离真实可合成、可用的候选还有距离。这篇工作有价值的地方,在于它不是继续追求 unconstrained novelty,而是把 realistic synthetic molecules 当成一等目标。 从方法形态看,它属于 constrain...

MolmoAct2: Action Reasoning Models for Real-world Deployment

发表:2026-05-04 · 收录:未知 · 智能体与自主科学

MolmoAct2 过线,不是因为它又把 open VLA 分数推高了一点,而是因为它几乎把真实部署最关键的几块一起补齐了:open backbone、open data、open action tokenizer、以及可控延迟的 reasoning interface。 这篇工作最耐用的地方,是它没有把 re...

DataClaw: A Process-Oriented Agent Benchmark for Exploratory Real-World Data Analysis

发表:2026-05-04 · 收录:未知 · 智能体与自主科学

这篇 benchmark 的价值在于它把 exploratory data analysis 当成 process problem,而不是 final-answer problem。现实里的数据分析经常发生在数据脏、先验弱、目标不完全清晰的环境里,单看最终答案会掩盖大量过程差异。 DataClaw 提供的不是单...

ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

发表:2026-05-02 · 收录:未知 · 机器人与具身智能

ESARBench 提出 Embodied Search and Rescue 任务,把 UAV 从视觉检测/路径规划推进到多模态 agent 搜索、线索整合和救援决策。 基准基于 Unreal Engine 5 与 AirSim,使用真实 GIS 数据构建高保真环境,并引入天气、时间、地形和动态救援变量,使任...

Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

发表:2026-05-01 · 收录:未知 · 智能体与自主科学

这篇工作的关键不是再做一个 attack generator,而是把 LLM red-teaming 里的“效果强”和“覆盖广”同时作为训练稳定性问题来处理。它针对 GFlowNet 在 noisy reward 场景下最致命的 mode collapse 做了结构性修改。 最有复用价值的是三件事:去掉不稳定的...

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

发表:2026-05-01 · 收录:未知 · 强化学习

Odysseus 把 VLM 扩展到 100+ turn 的游戏决策任务,目标是长程交互、视觉状态理解和策略学习,而不是短任务 QA。 游戏环境在这里不是娱乐应用,而是可控、长程、多状态的 embodied/interactive decision benchmark。它能暴露 VLM 在规划、记忆、探索和反馈...

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

发表:2026-05-01 · 收录:未知 · 强化学习

这篇论文最值钱的不是又把某个机器人任务做到了 95%,而是把 generalist robot policy 的 post-deployment improvement 写成了 fleet-scale 闭环。它关心的是部署之后如何持续吸收真实物理经验,而不是把所有能力都押在离线预训练上。 方法上它把 offli...

A communication subspace relays context-dependent actions from human prefrontal to motor cortex

发表:2026-05-01 · 收录:未知 · 神经科学与认知科学

这篇 Nature Neuroscience 论文研究人类前额叶如何把依赖任务上下文的行动信息传递给运动皮层。 作者使用人类直接脑记录,发现跨区群体活动并非全维度广播,而是通过特定 communication subspace 高效中继行动信息。 这与本库此前收录的 hippocampal-retrosplen...

Towards generalizable AI in medicine via Generalist-Specialist Collaboration

发表:2026-05-01 · 收录:未知 · 公共卫生与医疗运营

这篇论文的价值不在于又训练了一个更大的医疗模型,而在于给出了一个更耐用的部署接口:让 generalist foundation model 和 lightweight specialists 协同工作,而不是强迫单一模型同时兼顾全部泛化与全部精度。 从本库角度看,真正重要的是它把‘generalize bro...

Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists

发表:2026-04-30 · 收录:未知 · 科学发现旗舰工作

Intern-Atlas 试图把科研基础设施从 paper/citation graph 转向 methodological evolution graph。它关注方法如何继承、组合、替换和演进,而不只是论文之间谁引用谁。 这对 AI scientist 很关键,因为自动科研 agent 需要理解研究路线、方法...

ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning

发表:2026-04-30 · 收录:未知 · 推理、记忆与推理时控制

这篇论文的关键推进不是再做一个 verifier-RL 变体,而是把自改进的入口从‘学会回答’进一步推到‘学会提出可验证问题’。也就是说,模型不只消费既有题目,而是通过 Proposer-Solver 双角色自己扩展 curriculum。 ANCORA 真正有方法味道的地方在于它不是无约束 self-play...

Merlin: a computed tomography vision–language foundation model and dataset

发表:2026-04-30 · 收录:未知 · 公共卫生与医疗运营

这篇 Nature 论文把 medical VLM 从 2D 图像和短报告推进到 3D abdominal CT 的 foundation model 工作流。 Merlin 使用 multistage pretraining,从 15,331 个 CT scans、超过 600 万图像、180 万诊断代码和...

Performance of a large language model on the reasoning tasks of a physician

发表:2026-04-30 · 收录:未知 · 公共卫生与医疗运营

这篇 Science 论文把 LLM 放到临床医师推理任务中评估,而不是只做医学问答或单点诊断 benchmark。 研究覆盖多组挑战性临床案例,并与数百名医生基线比较;还包含急诊患者场景中的人类专家与 AI second opinion 对照。 结果显示 LLM 在多个实验中超过医生基线,并表现出相对旧一代临...

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

发表:2026-04-30 · 收录:未知 · 智能体与自主科学

现在很多 web coding benchmark 默认用户需求是清晰的、信息充分的,agent 只要执行就行。但真实低代码场景里,真正的难点往往是用户本身表达含混、矛盾甚至带噪,这会让 agent 陷入一种更根本的失败模式:blind execution。 InteractWeb-Bench 的价值就在于把这...

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

发表:2026-04-30 · 收录:未知 · 智能体与自主科学

这篇论文的强点在于,它抓住了 GUI-agent benchmark 里一个长期被低估的断层:现实职业工作流往往不是一个应用里点几步,而是多应用、多子目标、带条件判断的过程。 WindowsWorld 围绕 16 类职业角色生成任务,强调 process-centric cross-application wo...

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

发表:2026-04-30 · 收录:未知 · 智能体与自主科学

这篇论文命中的问题很准:很多 agent benchmark 一旦发布就被冻结,任务集合和真实 workflow demand 很快脱节,而且评分常常只看 final response。Claw-Eval-Live 把这两个缺口一起补上。 它的核心设计是把外部变化的需求信号层和可复现的 release snap...

Training language models to be warm can reduce accuracy and increase sycophancy

发表:2026-04-29 · 收录:未知 · 理论、鲁棒性与核心机器学习

这篇论文的价值不只是再证明一次 sycophancy 存在,而是把一个现实部署趋势直接拉进了可量化评测:当模型被优化成更 warm、更 empathetic 的互动风格时,准确率、抗误导性和对错误用户信念的抵抗能力会系统下降。 更关键的是,作者没有停在静态 QA 上,而是显式加入 emotional discl...

Efficient Training on Multiple Consumer GPUs with RoundPipe

发表:2026-04-29 · 收录:未知 · AI 硬件与加速器

consumer GPU 训练这条线最现实的瓶颈不是算法本身,而是低显存和慢 PCIe 下 pipeline parallelism 很容易被 stage 绑定拖死,尤其是 LM head 这类不均匀 stage 会把整条 pipeline 的吞吐压到最重那张卡上。RoundPipe 正面解决的就是这个结构性问...

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

发表:2026-04-29 · 收录:未知 · 推理、记忆与推理时控制

大模型生成长度一直很重要,但以前大多停留在 sequence-level heuristic:多给一点 prompt 约束、或者粗粒度调 budget。LenVM 把这个问题正式改写成 token-level value estimation,让模型在每个 token 上显式预测剩余生成长度。 这篇工作的可复用...

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

发表:2026-04-29 · 收录:未知 · 推理、记忆与推理时控制

dLLM 方向一直有一个结构性问题:就算 teacher 很强,现有 distillation 也大多局限在同构 student 上,真正到了 teacher 和 student 架构、attention 机制、tokenizer 都不一致的场景,知识迁移接口就会迅速失灵。TIDE 直接把这个空白补成了一个明确...

DreamProver: Evolving Transferable Lemma Libraries via a Wake-Sleep Theorem-Proving Agent

发表:2026-04-29 · 收录:未知 · 数学与形式推理

这篇论文抓住了 theorem-proving agent 的一个长期瓶颈:证明过程中产生的中间结果往往是一次性的,既不稳定,也不容易沉淀成跨题目可复用的知识资产。DreamProver 用 wake-sleep 循环把这个问题转成 lemma library 的持续演化。 它的价值不在某个 benchmark...

A septo–entorhinal GABAergic pathway that enables switching between episodic memories

发表:2026-04-29 · 收录:未知 · 神经科学与认知科学

这篇 Nature Neuroscience 论文研究旧记忆和新记忆在提取时如何被切换,而不是只研究单个记忆如何形成。 作者识别出 septo-entorhinal GABAergic pathway,在记忆提取和更新时控制 episodic memories 之间的灵活切换。 这说明记忆系统可能有专门的切换/...

GENIUS: an agentic AI framework for autonomous design and execution of simulation protocols

发表:2026-04-29 · 收录:未知 · 化学、生物与自动化实验室

这篇 Communications Materials 论文提出 GENIUS,用 agentic AI 自动设计并执行材料模拟协议,针对的是 ICME 中非专家难以配置和调试高端模拟代码的问题。 系统融合 Quantum ESPRESSO 知识图谱、分层 LLM 和有限状态错误恢复机,把自由文本需求转化为可早...

A self-evolving agent for explainable diagnosis of DFT-experiment band-gap mismatch

发表:2026-04-29 · 收录:未知 · 物理与 AI for Science

这篇工作的强点在于,它不是把 AI 用作又一个 property predictor,而是把材料科学里一个很常见但长期依赖专家手工分析的 diagnosis loop 自动化了:为什么 DFT 预测金属而实验看到半导体。 XDFT 通过显式假设目录、对应 first-principles tests 和全局 B...

An agentic framework for autonomous scientific discovery in cancer pathology

发表:2026-04-29 · 收录:未知 · 化学、生物与自动化实验室

这篇工作的强点在于,它不是一个把 pathology image 接到一个更大模型上的任务系统,而是把 biomarker discovery 本身做成了 agentic scientific workflow。SPARK 会围绕生物学概念提出分析思路、细化参数、生成和验证代码,并在大队列上筛出可解释的 mar...

ClawGym: A Scalable Framework for Building Effective Claw Agents

发表:2026-04-29 · 收录:未知 · 智能体与自主科学

这篇论文的价值不只是又补一个 personal-agent benchmark,而是把 Claw-style agent 的开发链条补完整了:合成可验证任务、构造真实 workspace、基于 rollout 训练,再到 benchmark 和诊断评估。 和单点 benchmark 或单点数据集相比,ClawG...

OCR-Memory: Optical Context Retrieval for Long-Horizon Agent Memory

发表:2026-04-29 · 收录:未知 · 智能体与自主科学

这篇工作的关键不是再做一个更聪明的 textual memory retriever,而是直接换了 memory substrate:把长历史轨迹编码成带视觉锚点的图像,用 locate-and-transcribe 的方式取回原文证据。 这种设计针对的是 agent memory 里一个很硬的系统约束:原始轨...

Subliminal Steering: Stronger Encoding of Hidden Signals

发表:2026-04-28 · 收录:未知 · 理论、鲁棒性与核心机器学习

This paper strengthens the subliminal-learning result by replacing prompt-conditioned teacher bias with an activation steering vector that can encode hidden...

The prefrontal cortex controls memory organization in the hippocampus

发表:2026-04-28 · 收录:未知 · 神经科学与认知科学

这篇论文清楚回答了一个很核心的记忆问题:大脑怎样在需要时把旧记忆与新经验整合起来,同时又避免把无关记忆错误地串在一起。作者给出的答案是,ventromedial prefrontal cortex 会在时间上逐步介入,作为 memory integration 的上层控制器。 真正让它过本库神经科学高门槛的是机...

AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

发表:2026-04-28 · 收录:未知 · 科学发现旗舰工作

这篇工作的意义在于把 scientific agent 里一个常被低估的核心步骤单独拉出来测:不是让 agent 回答一个科学问题,而是让它先把真正相关、满足约束的文献找全、找准、找到证据链。 AutoResearchBench 的设计点也比较清楚。它区分了需要逐步追踪目标文献的 Deep Research 和...

Toward Scalable Terminal Task Synthesis via Skill Graphs

发表:2026-04-28 · 收录:未知 · 智能体与自主科学

这篇工作的价值不只是再造一个 terminal benchmark,而是把 terminal-agent training data generation 做成了一个可控的 workflow synthesis 问题。核心不是多造任务,而是通过 scenario-mediated skill graph 先定义...

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

发表:2026-04-27 · 收录:未知 · 科学发现旗舰工作

这篇工作的关键不是再证明 PRM 在数学里有用,而是把 process reward 真正推进到 agentic data analysis 这种动态环境。作者先明确指出通用 PRM 在这个场景里会错两种事:抓不到 silent errors,又会把必要的 exploration 误判成 grounding f...

Closed-Loop Agentic AI for Executable and Reproducible Neuroimaging Research

发表:2026-04-27 · 收录:未知 · 智能体与自主科学

这篇工作的核心价值不只是把 agent 用到神经影像,而是把可执行性、环境管理和可复现性一起做成了 neuroscience workflow 的一等公民。NeuroClaw 直接接 raw neuroimaging data 和 BIDS metadata,不要求用户先把数据整理成某个模型专用格式。 真正值得...

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

发表:2026-04-26 · 收录:未知 · 智能体与自主科学

ClawMark 真正补的是 persistent coworker agent 这条评测缺口。它不再假设 agent 在一个静态 session 里做完事,而是把任务拉长到多天、多轮、带外部环境变化的状态空间里去测,这比普通 web / tool benchmark 更接近真实办公协作。 它值得收的另一个原因...

AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking

发表:2026-04-26 · 收录:未知 · 智能体与自主科学

这篇论文的推进点很明确:把 agent evaluation 从结果对不对,推进到 workflow 内部每一步怎么坏、为什么坏、坏点如何沿依赖关系传播。它把执行轨迹形式化成 evaluation DAG,这比平铺 step-level 打分更接近真实 agent 系统的因果结构。 更关键的是这里不是停在概念层...

CUJBench: Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend

发表:2026-04-25 · 收录:未知 · 软件工程与编程智能体

这篇工作的价值在于它抓住了一个真实但一直缺 benchmark 的问题:很多故障诊断不是纯 backend observability,也不是纯 browser automation,而是要把用户可见症状和后端信号拼起来做归因。CUJBench 正是在测这个 cross-modal diagnosis gap...

Thalamocortical regulation of prefrontal stability enables abstract rule generalization

发表:2026-04-25 · 收录:未知 · 神经科学与认知科学

这篇 Science Advances 论文研究抽象规则如何跨感觉通道泛化,这是认知灵活性和概念迁移的核心问题。 作者发现 mPFC 神经元能跨模态编码任务规则,而 mediodorsal thalamus 到 mPFC 的投射对这种稳定表征是因果必需的。 抑制该通路会使 mPFC 表征不稳定并损害规则迁移;增...

RAISE: A computational tool for evaluating sarbecovirus spillover potential

发表:2026-04-25 · 收录:未知 · 生物医药与药物发现

这篇论文不是一般的病毒风险打分器,而是把 spillover assessment 做成了一个更完整的 computational workflow。它围绕 sarbecovirus 的关键危险点,也就是是否能结合人类 ACE2,构建了一个把结构预测、相互作用打分和进化可塑性评估接在一起的框架。 RAISE 最...

Adopting a human developmental visual diet yields robust and shape-based AI vision

发表:2026-04-24 · 收录:未知 · 理论、鲁棒性与核心机器学习

这篇工作的推进点不在于再造一个更大的视觉模型,而是把‘人类视觉是如何长成的’直接变成训练课程。作者把婴儿到成年阶段的 visual acuity、contrast sensitivity 和 colour sensitivity 的心理物理发展轨迹系统化成一条 developmental visual diet...

SWE-chat: Coding Agent Interactions From Real Users in the Wild

发表:2026-04-24 · 收录:未知 · 软件工程与编程智能体

这篇论文补的是 coding agent 研究里一个非常实际的缺口:我们有很多 benchmark,但几乎没有真实世界里人到底怎么用 coding agent、agent 产出的代码到底有多少被真正采用、失败模式在自然环境里长什么样的系统证据。 SWE-chat 的价值在于它不是合成任务集,而是来自开源开发者真...

Near-Future Policy Optimization

发表:2026-04-24 · 收录:未知 · 推理、记忆与推理时控制

这篇论文针对 RLVR / post-training 一个很实在的问题:要想加速 on-policy 探索,最好能注入“比当前策略更强、但又别离得太远”的 off-policy 轨迹。现有做法通常只能二选一,要么外部教师质量高但分布太远,要么历史轨迹接近但上限有限。 NPO 的关键想法是直接使用同一训练 ru...

A three-dimensional multi-modal foundation model for optical coherence tomography

发表:2026-04-24 · 收录:未知 · 生物医药与药物发现

这篇论文的重点不只是又一个眼科预测器,而是把 3D OCT 作为真正的 foundation-model substrate 来建模,并进一步把 OCT 与 IR、fundus autofluorescence 等 retinal modalities 接成一个多模态统一框架。过去很多 retinal AI 系...

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

发表:2026-04-24 · 收录:未知 · JEPA 与预测式世界模型

这篇论文解决的是 interactive video world model 一个明显但长期没被补上的评测缺口:模型很多、控制接口各异、测试场景和轨迹不统一,导致不同工作之间几乎无法做 apples-to-apples 比较。过去各种指标零散存在,但缺的是统一输入、统一动作、统一测试条件。 WorldMark...

A multimodal large language model for materials science

发表:2026-04-24 · 收录:未知 · 化学、生物与自动化实验室

这篇论文的关键不是把材料问答简单套上 LLM,而是把 atomic structure 以 full-resolution 形式接进 multimodal LLM。过去很多材料 LLM 主要依赖 formula、SMILES 或 CIF 这类文本化表示,无法真正利用原子局部环境和三维结构关系。 MatterCh...

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

发表:2026-04-24 · 收录:未知 · 智能体与自主科学

这篇论文抓的是 mobile agent 研究里的一个现实问题:闭源系统已经把成功率推得很高,但关键训练数据和任务/轨迹合成流程都不透明,开源侧很难追。OpenMobile 不是单纯开个模型,而是把任务指令生成和 agent trajectory synthesis 这条数据管线公开化。 方法上,它有两个关键部...

TraceScope: Interactive URL Triage via Decoupled Checklist Adjudication

发表:2026-04-23 · 收录:未知 · 安全、治理与可靠性

这篇论文把 phishing URL triage 从静态分类问题重述成 interactive forensics task,这个 framing 很对。很多现代 phishing 页面只有在交互后才显露真正内容,所以单次 snapshot classifier 很容易失效。 TraceScope 的系统设计...

Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms

发表:2026-04-23 · 收录:未知 · 安全、治理与可靠性

这篇论文解决的是当前 agent guardrails 一个很少被正面处理的盲点:多数防护都按单 session 判定,而现实攻击完全可以把 payload 分散到多次会话里,让任何单次检测都看不到完整恶意意图。 它的贡献是三层同时补齐。第一层是 CSTM-Bench,把 cross-session threa...

Towards a general-purpose foundation model for functional MRI analysis

发表:2026-04-23 · 收录:未知 · 神经科学与认知科学

这篇论文抓的是 fMRI 分析里一个越来越明显的结构性问题:现有 pipeline 高度依赖繁琐预处理和任务特定模型,结果是可复现性和跨任务迁移一直很差。NeuroSTORM 试图把这条链条改造成 foundation-model 范式,直接从 4D fMRI volume 学通用表征。 它的规模也足够说明问题...

Algebraic language models for inverse design of metamaterials via diffusion transformers

发表:2026-04-23 · 收录:未知 · 化学、生物与自动化实验室

这篇论文解决的是 3D metamaterial inverse design 里一个长期卡点:结构空间太复杂、表示不统一,导致生成模型很难同时拥有表达能力、可控性和跨拓扑泛化。作者的做法是把三维几何编码成 algebraic language,把结构设计转成更适合 transformer 处理的“数学句子”...

DxDirector: an agentic large language model driving the full-process clinical diagnosis

发表:2026-04-23 · 收录:未知 · 高价值现实工作流

这篇论文抓住的是临床诊断 workflow 里的真正瓶颈:现实中的诊断不是一次性问答,而是从模糊主诉开始、经过多轮假设生成、检查选择和证据更新的过程。多数医疗 LLM 仍停留在局部咨询助手角色,无法把整条流程真正接起来。 DxDirector 的价值在于把 agentic slow-thinking 明确落到完...

Competing Biases underlie Overconfidence and Underconfidence in LLMs

发表:2026-04-22 · 收录:未知 · 可解释性与机制分析

这篇论文试图解释一个在 LLM 可靠性里非常实在但此前表述分散的问题:模型既会过度坚持自己的初始答案,又会对相反意见表现出异常大的波动,表面上看是两种互相冲突的行为。作者把这件事收敛成两个可计算的竞争性偏差:choice-supportive bias 和 hypersensitivity to contrad...