全部论文索引，第 4 页

Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM

发表：2026-05-08 · 收录：未知 · 多模态基础模型

这篇论文重新定位 Speech LLM 的 modality gap：问题不只在输出端把语音生成变得更像文本生成，剩余瓶颈主要来自输入端给 LLM 的 speech representation 不够 TLM-compatible。作者提出 TextPro-SLM，把 Speech LLM 改造成 proso...

DeepTutor: Towards Agentic Personalized Tutoring

发表：2026-05-08 · 收录：未知 · Education Tutoring And Assessment

DeepTutor 把教育 AI 从一次性问答推进到 agentic personalized tutoring：系统不仅回答题目，还把 citation-grounded tutoring、难度校准出题、交互式书籍和 proactive 多渠道辅导放到同一工作流中。关键机制是 hybrid personal...

AI-predicted spatial transcriptomics unlocks breast cancer biomarkers from pathology

发表：2026-05-08 · 收录：未知 · 化学、生物与自动化实验室

Path2Space 针对 spatial transcriptomics 的核心瓶颈：ST assay 成本高，难以在大规模临床队列中用于 biomarker discovery。方法训练深度学习模型从常规病理切片直接预测空间基因表达，在乳腺癌 ST 数据上学习后可预测数千个基因的空间表达，并优于 21 个...

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

发表：2026-05-08 · 收录：未知 · 智能体与自主科学

这篇论文的价值在于挑战 agentic search 里默认的 dense retrieval 习惯：复杂搜索任务不只是找语义相似片段，而是要主动和语料互动，逐步验证、排除和重构问题。这个 framing 对搜索 agent 很关键。长期研究、审计、法律、代码和科学文献任务都要求 agent 直接操作证据集合...

AI CFD Scientist: Toward Open-Ended Computational Fluid Dynamics Discovery with Physics-Aware AI Agents

发表：2026-05-07 · 收录：未知 · 物理与 AI for Science

这篇论文的价值在于把 CFD 研究从单次 solver 调用或 surrogate modeling，推进到带物理约束的 agentic discovery loop。它把问题设定为开放式科学发现，而不是固定 benchmark 上的窄预测。方法上，它围绕 CFD 的物理约束、仿真工具和研究假设迭代来组织 a...

Tuft dendrites in frontal motor cortex enable flexible learning

发表：2026-05-07 · 收录：未知 · 神经科学与认知科学

这篇 Science 论文研究大脑已经学会一套规则之后，如何在环境变化时重新学习和切换规则。作者聚焦小鼠 anterolateral motor cortex 中 layer 5b pyramidal neurons 的 apical tuft dendrites，追问这些树突是否是灵活学习的关键计算位置。核...

Decoding Alignment without Encoding Alignment: A critique of similarity analysis in neuroscience

发表：2026-05-07 · 收录：未知 · 神经科学与认知科学

这篇论文值得收录不是因为它给出新模型，而是因为它直接挑战 neuroscience / NeuroAI 里常用的 similarity analysis 解释方式。它强调 decoding alignment 不能推出 encoding alignment。这个 critique 对 AI 有明确外溢价值。当...

Large Vision-Language Models Get Lost in Attention

发表：2026-05-07 · 收录：未知 · 多模态基础模型

这篇论文关注大视觉语言模型的一个基础可靠性问题：模型表面上能处理图文输入，但注意力机制可能在复杂图像、干扰区域或语言提示下偏离真正相关证据。作者围绕 attention loss 设计系统化诊断，分析 LVLM 在视觉 grounding、跨模态对齐和推理时如何被无关区域、局部显著性或提示结构牵引。论文配套...

AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

发表：2026-05-07 · 收录：未知 · 数学与形式推理

这篇论文把数学 AI 从单题求解推进到 mathematician-facing agentic workflow。它关注的是如何协助数学家推进研究，而不是只在形式化证明 benchmark 上提高一点通过率。这种 framing 对本库重要，因为 AI for math 的真正变化可能来自研究协作界面：提出...

Attractor Geometry of Transformer Memory: From Conflict Arbitration to Confident Hallucination

发表：2026-05-07 · 收录：未知 · 可解释性与机制分析

这篇论文重要的地方是把 transformer memory、冲突仲裁和 confident hallucination 放进同一个几何解释框架。它关注的不是某个 hallucination benchmark，而是模型记忆如何在内部形成吸引子结构。如果这个 framing 成立，它能解释为什么模型在证据冲突...

Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations

发表：2026-05-07 · 收录：未知 · 可解释性与机制分析

这篇工作的核心贡献是把 activation interpretability 从特征列表和人工解释推进到“向量 -> 文本 -> 向量”的可训练 bottleneck。它不是让模型随口解释自己，而是用重构原激活的目标约束解释文本必须携带真实内部状态信息。方法上，NLA 由 activation verbal...

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

发表：2026-05-07 · 收录：未知 · 智能体与自主科学

CreativityBench 把 agent 创造性具体化为 affordance-based tool repurposing：能否识别工具的潜在可供性，并在非标准目标中重新组合使用。这个问题比普通工具调用更接近真实 agent 能力。真实任务经常需要把已有工具、API、文件和环境约束重新解释为可用操作...

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

发表：2026-05-07 · 收录：未知 · 智能体与自主科学

这篇论文延续了 self-evolving agents 的关键路线：技能不只是 prompt library，而是需要被选择、使用、评估和蒸馏进 agent 行为。Skill1 把这些步骤放进统一 RL 框架。它的复用价值在于把 skill-augmented agent 的几个断裂环节合并为一个训练问题...

STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

发表：2026-05-07 · 收录：未知 · 智能体与自主科学

这篇论文抓住了 agent memory 里经常被忽略的核心问题：记住不难，知道什么时候记忆过期才难。长期 agent 如果不能识别 stale memory，会把历史状态当成现实，从而系统性犯错。 STALE 的价值在于把 memory validity 变成可测试问题，而不是泛泛讨论长期记忆。它对个人 ag...

More Is Not Always Better: Cross-Component Interference in LLM Agent Scaffolding

发表：2026-05-07 · 收录：未知 · 智能体与自主科学

这篇论文切中 agent 工程里的一个真实问题：更多 memory、tools、reflection、planner、verifier 不一定叠加成更强系统，组件之间可能互相干扰。这个结论比单个新 scaffold 更有长期价值。它把 agent scaffolding 从“堆模块”拉回到系统交互问题，强调组...

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents

发表：2026-05-06 · 收录：未知 · 安全、治理与可靠性

DTap 针对 agent 安全评估的核心问题：agent 会在动态、不可信、多工具环境中执行长程动作，传统静态 jailbreak 测试不足以覆盖实际风险。平台覆盖 14 个真实世界域和 50 多个模拟环境，复现 Google Workspace、PayPal、Slack 等常见系统中的工具调用、数据流和高...

RLDX-1 Technical Report

发表：2026-05-06 · 收录：未知 · 强化学习

RLDX-1 面向 VLA generalist robotic policies，重点是把视觉、语言和动作能力放进真实机器人策略学习框架。它的价值在于 robotics/VLA 系统模式，而不是单一 manipulation trick。报告覆盖模型、数据、训练和评测，对后续机器人 foundation p...

Human hippocampal ripples coordinate planning sequences and compositional representations in neocortex

发表：2026-05-06 · 收录：未知 · 神经科学与认知科学

这篇 Nature Neuroscience 论文研究人脑如何在新问题中重组熟悉元素，核心是 hippocampus 与 mPFC 如何通过 ripples/replay 支持 planning 与 compositional inference。作者在 28 名癫痫患者中同时记录 hippocampus 和...

Prefrontal to ventral tegmental area dynamics drive contingency degradation

发表：2026-05-06 · 收录：未知 · 神经科学与认知科学

这篇 Nature 论文把认知灵活性中的“停止追逐旧奖励线索”具体化为可建模、可记录、可操控的 contingency degradation 信号。作者在经典 reward prediction error 模型中加入 meta-learning 参数，构建 meta-RPE 模型，更准确解释小鼠在 cue...

Time-synthetic optical neural networks with stable programmable gain

发表：2026-05-06 · 收录：未知 · AI 硬件与加速器

这篇 Nature Communications 论文针对 optical neural networks 的有效深度瓶颈：传统空间光子网格多为被动线性变换，累积损耗导致信噪比快速退化。作者把可编程增益放入 time-synthetic ONN，让计算沿严格前向的时间演化展开，避免空间反馈和寄生反射带来的增益...

Siamese foundation models for crystal structure prediction

发表：2026-05-06 · 收录：未知 · 化学、生物与自动化实验室

这篇 Nature Communications 论文提出 DAO，用双 Siamese foundation model 处理从化学组成预测晶体结构的问题。晶体结构预测是材料发现中的基础瓶颈，难点在复杂三维几何和能量稳定性。 DAO 集成结构生成器和能量预测器，先在稳定与不稳定结构的大规模数据上预训练，再让能...

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

发表：2026-05-06 · 收录：未知 · 智能体与自主科学

ARIS 的价值不在于“AI scientist again”，而在于它把 autonomous research 的 failure boundary 讲得非常清楚：真正危险的不是模型明显崩掉，而是它写出看似像真的结论，但证据链并不完整。它因此给出的不是单个 workflow，而是一套 harness pa...

Modeling attention and binding in the brain through bidirectional recurrent gating

发表：2026-05-05 · 收录：未知 · 神经科学与认知科学

这篇 Nature Communications 论文直接面向 attention 与 binding 的统一计算模型，而不是只做行为现象解释。作者提出 bidirectional recurrent gating：feedforward pathway 抽取视觉特征，top-down 和 lateral c...

Molecular mechanism of calcium permeability and magnesium block in NMDA receptors

发表：2026-05-05 · 收录：未知 · 神经科学与认知科学

这篇 Nature Neuroscience 论文解析 NMDA 受体为什么既能让 Ca2+ 进入神经元、又会被 Mg2+ 以电压依赖方式阻塞。作者结合单颗粒 cryo-EM、分子动力学和电生理，提出 Ca2+ 通过选择性滤器时发生部分脱水，而 Mg2+ 保持水合并停留在滤器外侧水网络中形成通道阻塞；滤器周围脂...

A Benchmark for Interactive World Models with a Unified Action Generation Framework

发表：2026-05-05 · 收录：未知 · 多模态生成与世界模型

interactive world model 一直缺少统一评测接口，尤其不同模型的 action interface 常常根本不兼容。这篇工作的关键不是再造一个 world model，而是提出统一的 action generation framework 去对齐评测。 iWorld-Bench 的价值在于把...

Force-free molecular dynamics through autoregressive equivariant networks

发表：2026-05-05 · 收录：未知 · 化学、生物与自动化实验室

大多数 machine-learning molecular dynamics 仍然受制于一个老瓶颈：哪怕势能面学得很好，数值积分还是把时间步长卡得很小。TrajCast 的关键改写是直接预测位置和速度更新，从而把‘先算力、再积分’这条传统链路绕开。它的价值不只是快，而是给出了 force-free、auto...

RegFormer: a single-cell foundation model powered by gene regulatory hierarchies

发表：2026-05-05 · 收录：未知 · 生命科学基础模型

这篇工作的关键不只是又做了一个 single-cell foundation model，而是把 gene regulatory hierarchies 明确接进了 foundation-model 接口。它瞄准的是现有单细胞模型常见的两个短板：缺 regulatory awareness，以及难以同时兼顾规模...

From Context to Skills: Can Language Models Learn from Context Skillfully?

发表：2026-05-05 · 收录：未知 · 智能体与自主科学

这篇论文把长上下文使用重新表述为 context-to-skill：模型不只是检索上下文片段，而是从上下文中抽取规则、程序和可复用技能。它对 agent 能力扩展很相关。很多真实任务的关键不是参数知识，而是能否临时学习文档、流程、API 或业务规则，并把这些信息转化成后续执行策略。它值得正式收录，因为它把...

Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

发表：2026-05-05 · 收录：未知 · 软件工程与编程智能体

很多 desktop 或 coding agent benchmark 的问题是文件世界太干净、依赖关系太薄。Workspace-Bench 把评测对象换成了更接近真实工作空间的 file graph environment，而不是几份预摆好的小文件。它的耐用点在于规模和结构同时成立：5 个 worker p...

Automated deep learning by recurrent hyperparameter optimization

发表：2026-05-04 · 收录：未知 · 理论、鲁棒性与核心机器学习

很多 AutoML 或 HPO 论文的问题在于只是在固定 search space 上再堆一个搜索器。Rocket 更值得收，是因为它把超参数优化明确变成 recurrent decision process，用 self-play RL 学一个可迁移的优化策略，而不是依赖每次重新手工设计 priors。这篇...

KinDER: A Physical Reasoning Benchmark for Robot Learning and Planning

发表：2026-05-04 · 收录：未知 · 强化学习

KinDER is a benchmark for embodied physical reasoning that isolates kinematic and dynamic constraints in procedurally generated robotic environments. The su...

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

发表：2026-05-04 · 收录：未知 · 公共卫生与医疗运营

很多医疗 agent benchmark 只测静态问答、单步意图或者文本知识，离真实临床系统还差很远。PhysicianBench 过线的原因，是它把评测对象换成了真实 EHR 环境里的长链路 physician tasks，而不是抽象化 toy interaction。它的接口设计也很扎实：真实患者记录、标...

Mitigating algorithmic unfairness arising from forgetfulness of medical records in clinical artificial intelligence

发表：2026-05-04 · 收录：未知 · 公共卫生与医疗运营

这篇论文抓住了 clinical AI 一个非常现实、也非常容易被忽略的系统矛盾：患者要求删除病历时，模型执行 machine unlearning 可能会改变对不同亚群体的认识，从而破坏公平性。它真正贡献的是把 ‘right to be forgotten’ 和 ‘fairness’ 的冲突正式化。方法上...

A collaborative constrained graph diffusion model for the generation of realistic synthetic molecules

发表：2026-05-04 · 收录：未知 · 化学、生物与自动化实验室

分子生成领域一直有一个老问题：模型能生成很多‘看起来像分子’的图，但离真实可合成、可用的候选还有距离。这篇工作有价值的地方，在于它不是继续追求 unconstrained novelty，而是把 realistic synthetic molecules 当成一等目标。从方法形态看，它属于 constrain...

MolmoAct2: Action Reasoning Models for Real-world Deployment

发表：2026-05-04 · 收录：未知 · 智能体与自主科学

MolmoAct2 过线，不是因为它又把 open VLA 分数推高了一点，而是因为它几乎把真实部署最关键的几块一起补齐了：open backbone、open data、open action tokenizer、以及可控延迟的 reasoning interface。这篇工作最耐用的地方，是它没有把 re...

DataClaw: A Process-Oriented Agent Benchmark for Exploratory Real-World Data Analysis

发表：2026-05-04 · 收录：未知 · 智能体与自主科学

这篇 benchmark 的价值在于它把 exploratory data analysis 当成 process problem，而不是 final-answer problem。现实里的数据分析经常发生在数据脏、先验弱、目标不完全清晰的环境里，单看最终答案会掩盖大量过程差异。 DataClaw 提供的不是单...

ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

发表：2026-05-02 · 收录：未知 · 机器人与具身智能

ESARBench 提出 Embodied Search and Rescue 任务，把 UAV 从视觉检测/路径规划推进到多模态 agent 搜索、线索整合和救援决策。基准基于 Unreal Engine 5 与 AirSim，使用真实 GIS 数据构建高保真环境，并引入天气、时间、地形和动态救援变量，使任...

SCMBench: benchmarking domain-specific and foundation models for single-cell multi-omics data integration

发表：2026-05-02 · 收录：未知 · 生命科学基础模型

single-cell multi-omics integration 这条线已经不缺模型，但一直缺一套能把 domain-specific models 和 foundation models 放到同一张可操作坐标系里的评测接口。SCMBench 的贡献就在这里：它不是只比 integration accur...

Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

发表：2026-05-01 · 收录：未知 · 智能体与自主科学

这篇工作的关键不是再做一个 attack generator，而是把 LLM red-teaming 里的“效果强”和“覆盖广”同时作为训练稳定性问题来处理。它针对 GFlowNet 在 noisy reward 场景下最致命的 mode collapse 做了结构性修改。最有复用价值的是三件事：去掉不稳定的...

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

发表：2026-05-01 · 收录：未知 · 强化学习

Odysseus 把 VLM 扩展到 100+ turn 的游戏决策任务，目标是长程交互、视觉状态理解和策略学习，而不是短任务 QA。游戏环境在这里不是娱乐应用，而是可控、长程、多状态的 embodied/interactive decision benchmark。它能暴露 VLM 在规划、记忆、探索和反馈...

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

发表：2026-05-01 · 收录：未知 · 强化学习

这篇论文最值钱的不是又把某个机器人任务做到了 95%，而是把 generalist robot policy 的 post-deployment improvement 写成了 fleet-scale 闭环。它关心的是部署之后如何持续吸收真实物理经验，而不是把所有能力都押在离线预训练上。方法上它把 offli...

A communication subspace relays context-dependent actions from human prefrontal to motor cortex

发表：2026-05-01 · 收录：未知 · 神经科学与认知科学

这篇 Nature Neuroscience 论文研究人类前额叶如何把依赖任务上下文的行动信息传递给运动皮层。作者使用人类直接脑记录，发现跨区群体活动并非全维度广播，而是通过特定 communication subspace 高效中继行动信息。这与本库此前收录的 hippocampal-retrosplen...

Towards generalizable AI in medicine via Generalist-Specialist Collaboration

发表：2026-05-01 · 收录：未知 · 公共卫生与医疗运营

这篇论文的价值不在于又训练了一个更大的医疗模型，而在于给出了一个更耐用的部署接口：让 generalist foundation model 和 lightweight specialists 协同工作，而不是强迫单一模型同时兼顾全部泛化与全部精度。从本库角度看，真正重要的是它把‘generalize bro...

Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists

发表：2026-04-30 · 收录：未知 · 科学发现旗舰工作

Intern-Atlas 试图把科研基础设施从 paper/citation graph 转向 methodological evolution graph。它关注方法如何继承、组合、替换和演进，而不只是论文之间谁引用谁。这对 AI scientist 很关键，因为自动科研 agent 需要理解研究路线、方法...

ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning

发表：2026-04-30 · 收录：未知 · 推理、记忆与推理时控制

这篇论文的关键推进不是再做一个 verifier-RL 变体，而是把自改进的入口从‘学会回答’进一步推到‘学会提出可验证问题’。也就是说，模型不只消费既有题目，而是通过 Proposer-Solver 双角色自己扩展 curriculum。 ANCORA 真正有方法味道的地方在于它不是无约束 self-play...

Merlin: a computed tomography vision–language foundation model and dataset

发表：2026-04-30 · 收录：未知 · 公共卫生与医疗运营

这篇 Nature 论文把 medical VLM 从 2D 图像和短报告推进到 3D abdominal CT 的 foundation model 工作流。 Merlin 使用 multistage pretraining，从 15,331 个 CT scans、超过 600 万图像、180 万诊断代码和...

Performance of a large language model on the reasoning tasks of a physician

发表：2026-04-30 · 收录：未知 · 公共卫生与医疗运营

这篇 Science 论文把 LLM 放到临床医师推理任务中评估，而不是只做医学问答或单点诊断 benchmark。研究覆盖多组挑战性临床案例，并与数百名医生基线比较；还包含急诊患者场景中的人类专家与 AI second opinion 对照。结果显示 LLM 在多个实验中超过医生基线，并表现出相对旧一代临...

Spurious alignment between large language models and brains can emerge from non-robust methods and overlooked confounds

发表：2026-04-30 · 收录：未知 · 神经科学与认知科学

这篇 Nature Communications 论文直接质疑 LLM-brain alignment 研究中的方法学稳健性。作者跨多个模型、方法和三个常用神经数据集分析 neural predictivity，发现 shuffled train-test splits 曾导致有影响力但虚假的结论。他们还显...