发表:2026-03-06 · 收录:未知 · 智能体与自主科学
AI-assisted coding 把安全审计问题从人工 code review 推向 agent-assisted audit,但现实里的痛点不是模型会不会指出漏洞,而是审计过程是否可复现、覆盖是否均匀、证据链是否稳定。自由对话式安全 review 很难提供可验证的审计轨迹。 ESAA-Security 的...
发表:2026-03-05 · 收录:未知 · 理论、鲁棒性与核心机器学习
**问题与背景** 这篇论文针对 `theory / grokking / inductive bias` 方向中的核心问题展开,属于仓库主线内值得正式记录的研究。它关注的不是局部调参,而是该子方向里较基础、较长期的问题,因此即使仍处在论文阶段,也有持续跟踪价值。 **方法/新意** 论文提出了相对清晰的新方法...
发表:2026-03-05 · 收录:未知 · 科学发现旗舰工作
大语言模型预训练仍受制于优化器的显存和稳定性开销。原始 POET 通过正交等价变换保持频谱结构,理论上有稳定性优势,但实现代价高,难以在真正的大模型预训练里扩展。POET-X 处理的就是这个落地缺口:如何把谱保持式训练从概念方法变成可扩展的预训练算法。 这篇工作的核心新意不在于再提出一个全新训练目标,而在于把...
发表:2026-03-05 · 收录:未知 · 科学发现旗舰工作
这篇论文面向的是最新 GPU 代际中 attention kernel 的瓶颈问题。随着 Blackwell 一代硬件的 tensor core 吞吐远快于 shared memory、SFU 和 ALU,旧的注意力实现不再能靠简单调参逼近硬件上限。作者要解决的就是这种“硬件非对称扩展”下的 attention...
发表:2026-03-05 · 收录:未知 · 推理、记忆与推理时控制
这篇论文研究 Transformer 中两个经常一起出现、但此前缺少统一解释的现象:`massive activations` 和 `attention sinks`。前者指少数 token 在某些通道上出现极端异常激活,后者指某些 token 会在许多注意力头中持续吸走注意力质量。作者的重点不是再次报告现象...
发表:2026-03-05 · 收录:未知 · 推理、记忆与推理时控制
评估推理模型能否有意识地操控自己的思维链以规避监控。论文构建 CoT-Control 基准,要求模型在解题同时遵守对推理过程的限制,例如禁用特定词或改变书写风格。核心发现是当前模型对 CoT 的可控性远低于对最终输出的可控性,并且随着 RL 训练、测试时计算和题目难度上升,可控性反而下降。这意味着基于 CoT...
发表:2026-03-05 · 收录:未知 · 神经科学与认知科学
问题与背景:预测加工研究通常把“何时出现”与“会出现什么”分开讨论,但真实感知中二者几乎总是同时存在。这篇论文针对的就是 temporal prediction 与 content prediction 如何在脑内耦合的问题。 方法/新意:作者结合 MEG、相位耦合分析和内容解码,提出 temporal pre...
发表:2026-03-05 · 收录:未知 · 神经科学与认知科学
问题与背景:任务学习如何改变感觉皮层的编码结构,是认知神经科学中的基本问题。经典观点往往强调学习降低冗余、提高效率,但这与贝叶斯式分布式编码直觉并不总一致。 方法/新意:这篇 Science 工作跟踪猕猴 V4 在学习视觉判别任务过程中的群体响应,直接比较‘学习降低冗余’和‘学习提高冗余’两种理论预测。结果支持...
发表:2026-03-05 · 收录:未知 · 可解释性与机制分析
这篇论文研究 Vision-Language-Action 模型内部特征是否既可观测又可控制。问题很具体:VLA 比普通 LLM 多了视觉输入、动作输出和混合头结构,LLM 里的机制解释结论不能直接搬过来。 作者提出 feature-observability 和 feature-controllability...
发表:2026-03-05 · 收录:未知 · 可解释性与机制分析
当前大多数 reasoning evaluation 仍把任务正确率当作核心指标,但这类评测往往把 pattern matching、数据污染与真正的结构化推理能力混在一起。结果是模型在标准 benchmark 上看起来接近,却很难解释它们究竟在哪种结构变化下会失效。 X-RAY 的核心贡献,是把 reason...
发表:2026-03-05 · 收录:未知 · AI 硬件与加速器
这篇论文解决的是 LLM 在线服务里一个非常现实的硬件问题:现有近存计算/NMP 方案通常假设比较规整的执行流,但真实 serving 工作负载会不断变化,KV cache 管理和 attention 执行流都高度动态。对本仓库来说,它属于 AI accelerator 设计里最值得收的一类,即直接面向 LLM...
发表:2026-03-05 · 收录:未知 · 化学、生物与自动化实验室
这篇论文处理的是一个很强的 AI for biology 目标:能否构建一个可泛化的 virtual cell world model,用来预测细胞在扰动下的动态响应。现实问题很明确,真实实验筛选受到组合空间和成本的强限制,而现有计算模型又往往只在高变基因、局部表达重建或特定细胞背景里有效,难以把学到的扰动动力...
发表:2026-03-05 · 收录:未知 · 智能体与自主科学
自演化 agent 的一个关键能力,不只是会不会调用已有工具,而是能否从抽象任务需求中构造、修正并维护新的工具。现有评测大多仍把这件事压扁成最终任务分数,导致失败究竟来自接口设计、工具逻辑还是下游集成,经常无法拆解。 Tool-Genesis 的核心贡献,是把 tool creation 评测改造成诊断型 be...
发表:2026-03-05 · 收录:未知 · 智能体与自主科学
当 agent 进入大 tool ecosystem 时,瓶颈很快不再只是基础模型能力,而是 context budget、tool loading 策略和长链执行结构。很多系统默认把更多工具描述塞进上下文,希望靠更大模型硬扛,但这条路对小模型和低成本部署并不成立。 ATLAS 的核心贡献,是把 large-t...
发表:2026-03-05 · 收录:未知 · 智能体与自主科学
这篇论文讨论的是知识型智能体在“难验证任务”上的训练问题。很多 agentic RL 工作依赖代码执行、数学答案或规则评测,但企业搜索、知识检索、复杂问答等任务往往没有这么干净的 reward。KARL 要解决的就是:如何在这类知识工作流中,把强化学习真正用起来。 方法上,KARL 把知识型智能体训练分解成可操...
发表:2026-03-04 · 收录:未知 · 理论、鲁棒性与核心机器学习
论文从计算复杂性角度解释了为什么线性 RNN 能像 Transformer 一样并行,而传统非线性 RNN 不能。核心论点是线性 RNN 等价于对数深度的算术电路,因此可以高效并行;非线性 RNN 则能解决本质上更串行的 L 完备甚至 P 完备问题,所以其并行化存在理论障碍。价值不在于某个架构技巧,而在于它给当...
发表:2026-03-04 · 收录:未知 · 理论、鲁棒性与核心机器学习
这是一篇扩散模型理论论文,核心结论是分数匹配扩散模型的泛化速率由数据的内在维度而不是环境维度决定。作者引入 (p,q)-Wasserstein 维度,证明在仅要求有限矩的宽松假设下,学习到的生成分布在 Wasserstein-p 距离下能达到接近极小极大的最优收敛速率。它的重要性在于给“扩散模型为什么能在高维数...
发表:2026-03-04 · 收录:未知 · 强化学习
大多数学习式机器人控制器在离线训练后以固定参数部署,真正上线后遇到分布偏移时基本没有持续改进能力。这篇论文把问题前推到 deployment-time adaptation:机器人如何利用自己的世界模型反馈,在运行中自主发现失配并触发持续学习。 具体做法建立在 DreamerV3 上,用 world model...
发表:2026-03-04 · 收录:未知 · 强化学习
机器人 manipulation 研究长期缺的是可复现、可扩展、又足够贴近真实世界的统一 benchmark。ManipulationNet 直接把这个问题作为基础设施问题处理,而不是再新增一个局部任务集:它试图建立一个分布式的真实机器人 manipulation benchmark 网络,让不同实验室在标准化...
发表:2026-03-04 · 收录:未知 · 推理、记忆与推理时控制
这篇论文关注 test-time scaling 中一个核心问题:生成很多候选答案之后,模型应该如何更可靠地挑出最好的答案。作者认为传统的 pointwise 打分方式能力有限,因此提出把“生成”和“自验证”统一到一个 pairwise 框架中。 方法上,论文提出 `V1-Infer` 和 `V1-PairRL...
发表:2026-03-04 · 收录:未知 · 多模态基础模型
这篇论文面向 world models 的一个长期难点:很多视频 world model 在视觉生成上越来越强,但缺少 object-centric、可决策、可泛化到真实多物体场景的状态表示。LPWM 试图把世界模型从“生成像素未来”推进到“发现对象、建模对象随机动力学、再用于决策”。 方法上,LPWM 从纯视...
发表:2026-03-04 · 收录:未知 · 能源、水与基础设施
这篇论文抓的是城市水系统里一个长期存在但经常被碎片化处理的问题:漏损、流量重构、异常响应和稀疏感知环境下的实时调度,通常分别落在 hydraulic simulation、rule-based control 和 isolated analytics 工具里,难以形成真正统一的实时管理闭环。作者把问题提升为 w...
发表:2026-03-04 · 收录:未知 · 智能体与自主科学
这篇论文解决的是 LLM agent 在交互环境中经常出现的非法动作、格式错误和环境约束违反问题。很多 agent 不是不会推理,而是输出无法被环境执行,导致整轮任务失败。作者把问题聚焦在一个很工程化但又普遍存在的瓶颈:如何在不人工手写环境约束规则的前提下,让模型自动获得可靠的动作执行边界。 论文提出 Auto...
发表:2026-03-04 · 收录:未知 · 智能体与自主科学
现有软件工程 agent benchmark 大多停留在静态 bug fixing 或一次性 patch correctness 上,但真实软件开发更接近持续演化过程:需求不断变化,功能在几十轮提交与回归中被维护、修改和延展。只看单次修复是否通过,无法衡量 agent 是否真的具备维护代码库的能力。 SWE-C...
发表:2026-03-03 · 收录:未知 · 理论、鲁棒性与核心机器学习
这篇论文把对抗样本问题重新定义为机器感知流形与人类概念流形之间的“指数级错位”。作者定义感知流形为模型高置信度归入某类别的全部输入集合,并估计其维度,发现标准网络的流形维度远高于自然概念流形维度,因此在高维空间中任何输入都离任意类别流形很近,对抗扰动便成为几何必然。价值在于它把鲁棒性问题从“错误特征”讨论推进到...
发表:2026-03-03 · 收录:未知 · 公共卫生与医疗运营
急诊科运营长期受拥堵、床位分配和人力调度约束影响。传统离散事件模拟或普通 agent-based simulation 能对齐宏观等待时间和吞吐量,但很难表达患者与医护之间的微观交互、临场沟通和状态依赖决策,而这些恰恰会改变瓶颈位置和流程效率。 EDSim 提出的是一种 agentic operations s...
发表:2026-03-03 · 收录:未知 · 多模态基础模型
这篇论文研究的是“原生统一多模态预训练”如何从语言模型范式继续扩展,而不是把视觉模块后接到现成 LLM 上。作者在 Transfusion 框架下从零开始训练统一模型,用 next-token prediction 处理语言,用 diffusion / flow-style objective 处理视觉,并把文...
发表:2026-03-03 · 收录:未知 · JEPA 与预测式世界模型
**问题与背景** 这篇论文围绕 world models / latent prediction / representation learning 展开,目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准,它属于值得正式收录的新作,因为问题本身有持续研究价值,且不是单纯的数据...
发表:2026-03-03 · 收录:未知 · 可解释性与机制分析
**问题与背景** 这篇论文针对 `evaluation / cognitive science / ai capability measurement` 方向中的核心问题展开,属于仓库主线内值得正式记录的研究。它关注的不是局部调参,而是该子方向里较基础、较长期的问题,因此即使仍处在论文阶段,也有持续跟踪价值...
发表:2026-03-03 · 收录:未知 · 化学、生物与自动化实验室
这篇论文针对生成式分子设计里一个长期存在的落地问题:模型可以生成看起来新颖、目标性质优异的分子,但往往在可合成性上出问题,导致候选很难真正走到实验端。作者把问题从‘先生成再筛选’推进到‘在生成过程中直接优化受约束的可合成性’,试图把可合成性从后处理指标变成生成目标的一部分。 方法上的关键是 TANGO 把 co...
发表:2026-03-03 · 收录:未知 · 智能体与自主科学
这篇论文关注多步工具使用智能体的安全,不再把安全视为单轮拒答问题,而是视为“何时继续执行、何时中止”的序贯决策问题。作者提出 MOSAIC 框架,把推理过程组织成 plan-check-act/refuse 循环,并把显式安全推理和拒绝动作纳入偏好强化学习。实验显示该框架能明显降低恶意任务执行、提示注入和隐私泄...
发表:2026-03-03 · 收录:未知 · 智能体与自主科学
这篇理论工作试图证明:在不确定环境里表现足够好的智能体,不仅可以拥有世界模型和信念状态,而且在许多条件下必须拥有它们。作者把复杂的动作条件预测约化成一系列二元赌注任务,并证明低平均遗憾会强迫智能体内部表征做出正确的预测性区分。在部分可观测场景下,这进一步推出了类信念记忆的必要性。它的价值在于把“高能力智能体为何...
发表:2026-03-03 · 收录:未知 · 智能体与自主科学
EvoSkill addresses a real limitation in coding and tool-using agents: general-purpose LLM flexibility does not automatically produce durable domain expertis...
发表:2026-03-02 · 收录:未知 · 科学发现旗舰工作
云端 LLM 推理把能力交给了大模型服务,但也把用户输入与输出暴露给远端系统,这使真正可用的 privacy-preserving inference 一直卡在一个很现实的工程约束上:不能只讲安全,还要同时保证大模型精度、工业级吞吐,以及和现有 serving 基础设施的兼容性。很多已有方案在这三个条件里最多满...
发表:2026-03-02 · 收录:未知 · 神经科学与认知科学
这篇论文针对 fMRI foundation model 的一个核心错位提出了修正:现有很多方法仍围绕 masked reconstruction 或局部区域重建来训练,因此更容易学到对噪声和时间波动敏感的低层表示,而不是适合认知与疾病表型预测的稳定脑动态表征。作者把目标从‘重建信号’改成了‘提取抽象而稳定的脑...
发表:2026-03-02 · 收录:未知 · 神经科学与认知科学
问题与背景:双语加工长期围绕一个核心争论展开:两种语言在大脑中是否依赖共享语义表征,还是分别调用彼此独立的神经机制。这个问题不只是双语研究内部的经典议题,也关系到语义表示是否具有跨语言的统一组织原则。 方法/新意:作者结合脑成像和计算语言表示,考察双语理解过程中共享语义空间与语言特异调制如何同时存在。论文的关键...
发表:2026-03-02 · 收录:未知 · 多模态基础模型
自动驾驶里的 Vision-Language-Action 模型正在从显式文本 CoT 走向 latent reasoning,但标准 latent CoT 往往缺乏物理约束,容易形成语义与感知脱节的问题。本文关注的正是这个瓶颈:如何让 VLA 的“思考空间”真正带有时空和动力学结构。 作者提出 LaST-VL...
发表:2026-03-02 · 收录:未知 · 智能体与自主科学
问题与背景:大语言模型智能体在长程任务上的强化学习训练,往往被探索效率所限制。尤其在语言动作空间、复杂观察和稀疏回报下,单纯在低层动作空间试错既昂贵又容易陷入局部策略。论文要解决的是:如何让 LLM agent 在 RL 过程中学会更有结构的探索,而不是盲目增加 rollout 或温度。 方法/新意:作者提出...
发表:2026-03-01 · 收录:未知 · 物理与 AI for Science
问题与背景:材料缺陷会决定半导体、量子材料、电池和能源材料性能,但传统表征方法往往破坏样品、化学选择性不足,或无法同时定量多个共存点缺陷。 方法与新意:DefectNet 从 phonon density-of-states 等振动谱直接预测缺陷元素和浓度,在 2000 种半导体、16000 多条模拟谱上训练...
发表:2026-03-01 · 收录:未知 · 神经科学与认知科学
This paper presents a neural foundation model approach for decoding attempted or imagined speech directly from neural activity into text, moving beyond casc...
发表:2026-03-01 · 收录:未知 · 智能体与自主科学
问题与背景:精准肿瘤学长期受制于 small-N, large-P 困境:基因组特征维度高,但高质量药物反应样本稀缺。传统深度学习虽然能做预测,却难以给出可用于临床决策的因果解释。 方法/新意:这篇工作提出 contextual invertible world models,并把定量世界模型与 LLM age...
发表:2026-03-01 · 收录:未知 · 智能体与自主科学
SILO-BENCH 评估的是多 agent LLM 系统能否真正对分布式信息做计算,而不是只会互相转述。论文指出,随着 agent 数量增加,系统可能形成看似合理的通信拓扑,但仍无法把分散状态合成为正确答案。 benchmark 覆盖 30 个算法任务和三种通信复杂度,对 54 种配置做系统评估。核心发现是...
发表:2026-02-28 · 收录:未知 · 智能体与自主科学
长时程 agent 的一个核心瓶颈,是上下文会随着交互持续膨胀,令性能、稳定性和成本一起恶化。许多方法通过外挂 memory module 来检索历史信息,但这会把“记忆管理”放在外部组件里,模型自身并没有学会如何根据任务目标主动保留、压缩和遗忘信息。 MemPO 把这件事改成 agent 自身的策略优化问题...
发表:2026-02-27 · 收录:未知 · 数学与形式推理
- 分级:`突破性` - 正式标题:`LemmaBench: A Live, Research-Level Benchmark to Evaluate LLM Capabilities in Mathematics` - 原文:`2026-02-27-M2_LemmaBench-LemmaBench_A_Liv...
发表:2026-02-27 · 收录:未知 · 化学、生物与自动化实验室
这篇论文处理的是 AI for science 里一个已经很现实的问题:通用大语言模型是否真的适合被改造成高质量的材料研究 copilot,还是需要更深层次的领域化预训练。作者围绕这一问题构建了 LLaMat,一组面向材料科学的专用大语言模型,并把性能评估扩展到从自然语言处理、信息抽取到晶体生成在内的 42 个...
发表:2026-02-27 · 收录:未知 · 智能体与自主科学
tool-using agent 的一个顽固问题是:单层 planning 往往在长链工具调用里迅速偏航,而完全依赖反思又容易把延迟和成本推高。许多系统在 robustness 和 execution efficiency 之间做的是粗糙折中,并没有形成清晰的运行时结构。 这篇工作提出 layered exec...
发表:2026-02-26 · 收录:未知 · 科学发现旗舰工作
问题与背景:高性能并行文件系统调优长期依赖专家经验,参数空间复杂、人工成本高,对大多数科研用户不友好。把 LLM 直接用于系统调优,是 agentic AI 进入 HPC 基础设施的一条实用路线。 方法/新意:STELLAR 构建了一个自治调优器,用 LLM 推理系统状态、选择参数配置,并在少数尝试内逼近近最优...
发表:2026-02-26 · 收录:未知 · 强化学习
这篇论文处理的是机器人学习长期存在但一直缺少统一解决方案的问题:从低层电机与中间件通信、遥操作采集、数据集存储与流式传输,到训练、评测和真实机器人部署,整条链路通常被切碎在互不兼容的私有工具中。结果是复现困难、系统迁移成本高,而且很多研究成果只能停留在局部算法演示,难以形成可持续扩展的真实世界机器人学习工作流...
发表:2026-02-26 · 收录:未知 · 神经科学与认知科学
**问题与背景** 这篇论文围绕 brain foundation model / fmri / eeg / meg 展开,目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准,它属于值得正式收录的新作,因为问题本身有持续研究价值,且不是单纯的数据集刷分或局部工程调优。 **方法/...
发表:2026-02-26 · 收录:未知 · 神经科学与认知科学
这篇论文讨论一般智力 g 是否来自单一区域,还是来自全脑网络拓扑的分布式组织。作者基于大样本人类 connectome 数据,分析了智力与网络结构之间的关系。 论文的新意在于它把一般智力与全脑分布式网络特征联系起来,强调长程弱连接、small-world 结构和跨模态控制网络的重要性,而不是把智力简化为某一个局...
发表:2026-02-26 · 收录:未知 · JEPA 与预测式世界模型
**问题与背景** 这篇论文围绕 world models / transformers / representation analysis 展开,目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准,它属于值得正式收录的新作,因为问题本身有持续研究价值,且不是单纯的数据集刷分或局...
发表:2026-02-26 · 收录:未知 · AI 硬件与加速器
AI 加速器设计里,数值格式往往被当作局部实现细节,但它实际上直接决定 MAC 面积、功耗、时序和 block scaling 复杂度。AetherFloat 的切入点就在这里:它不是再做一个小变体,而是从 AI accelerator co-design 角度重新设计 floating-point famil...
发表:2026-02-26 · 收录:未知 · 化学、生物与自动化实验室
很多 self-driving lab 系统虽然能自动优化工艺参数,但本质上仍然是黑盒 optimizer,难以沉淀成可迁移的科学知识。这篇论文的关键价值,在于把自动实验平台从“找到最优点”推进到“提炼可供人类使用的增长规则”。 作者在 sputter epitaxy 场景下,把 Bayesian optimi...
发表:2026-02-26 · 收录:未知 · 农业与食物系统
问题与背景:强化学习在养殖调控、投喂和能耗优化中的潜力早已被证明,但这些结果大多停留在实验室或小规模系统里,真正卡住行业落地的是多水池、多设备、弱网络、边缘部署和运维可靠性。本文要解决的不是单个控制器是否有效,而是如何把 RL 从研究环境推进到商业化 Recirculating Aquaculture Syst...
发表:2026-02-26 · 收录:未知 · 智能体与自主科学
这篇论文解决的是 agent memory 评测里的一个真实缺口:现有基准过度围绕人机对话,无法覆盖真实 agent 在环境交互中产生的大量机器生成轨迹。作者把问题重新定义为长时程 agent-environment memory,而不是聊天历史检索,这个 framing 是有价值的。 AMA-Bench 由两...
发表:2026-02-26 · 收录:未知 · 智能体与自主科学
**问题与背景** 这篇论文围绕 planning / transition models / generalized planning 展开,目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准,它属于值得正式收录的新作,因为问题本身有持续研究价值,且不是单纯的数据集刷分或局部工...
发表:2026-02-25 · 收录:未知 · 理论、鲁棒性与核心机器学习
问题与背景 多数世界模型直接用无结构神经网络近似状态转移,导致可解释性、样本效率和组合泛化能力不足。作者想解决的问题是:能否通过更强的几何与代数先验,让世界模型对未见状态-动作组合更稳健。 方法/新意 论文把 Vector Symbolic Architecture 引入世界模型,用可学习的 FHRR 编码器把...
发表:2026-02-25 · 收录:未知 · 神经科学与认知科学
这篇论文切入的是人类海马成年后是否仍存在神经发生、以及这种过程如何随老化和阿尔茨海默病改变这一长期争议问题。作者使用大规模单细胞和染色质层面的数据,试图把正常老化、认知韧性和疾病状态放在同一框架内比较。 真正的新意在于,它不只讨论“有没有成年神经发生”,而是进一步给出在正常老化、SuperAgers、临床前 A...
发表:2026-02-25 · 收录:未知 · 神经科学与认知科学
这篇论文关注一个直接关系到神经科学建模和类脑 AI 的问题:要想逼近灵长类视觉皮层反应,是否必须依赖越来越大、越来越黑箱的深度网络。作者先用闭环实验和猕猴视觉数据训练大模型,再系统压缩模型规模,检验哪些计算成分是真正必需的。 论文的核心新意在于证明视觉皮层预测并不必然要求庞大网络。作者把一个约六千万参数的深层模...
发表:2026-02-25 · 收录:未知 · 神经科学与认知科学
问题与背景:现实决策中,人们经常不是只为自己做决定,而是要为他人承担后果。论文关注的是这种“为他人决策”的场景如何改变元认知与责任规避倾向,这是社会决策与 metacognition 交叉中的关键问题。 方法/新意:作者通过行为实验和计算建模比较为自己与为他人决策时的信心、反应时和责任判断,揭示责任情境会系统性...
发表:2026-02-25 · 收录:未知 · 神经科学与认知科学
- 分级:`颠覆性` - 正式标题:`Vectorized instructive signals in cortical dendrites` - 原文:`2026-02-25-N1_Vectorized_Teaching_Signals-Vectorized_instructive_signals_in_c...
发表:2026-02-25 · 收录:未知 · JEPA 与预测式世界模型
这篇论文针对当前视频世界模型的一个明显缺口:大多数模型只处理单智能体视角,难以稳定模拟真实环境中的多智能体交互与多视角一致性。作者把问题直接推进到更困难也更现实的场景,在 Minecraft 中构建一个支持多玩家同步视频与动作采集的数据系统,并据此训练 multiplayer video world model...
发表:2026-02-25 · 收录:未知 · AI 硬件与加速器
LLM 用于 RTL 生成已经不少,但真正卡住工业可用性的仍然是 formal correctness。尤其在 datapath-centric、规格模糊且复杂度高的设计里,单靠 simulation-driven debug 很难建立可靠的设计闭环。 FormalRTL 的关键做法是把 software re...
发表:2026-02-25 · 收录:未知 · 智能体与自主科学
随着 agent 系统越来越多地自动打开 URL、读取网页预览、调用外部工具,安全风险不再只发生在最终可见回答里。系统可能在用户看不到的中间步骤里发出外联请求,把敏感上下文悄悄带出运行环境,而现有输出级 safety checks 往往根本察觉不到。 Silent Egress 针对这一点提出 implicit...
发表:2026-02-24 · 收录:未知 · 公共卫生与医疗运营
问题与背景:心脏监测数据横跨医院 12-lead ECG、单导联 ECG、PPG 和消费级可穿戴设备,传统 one-modal-one-task 模型很难在不同设备、场景和输入组合之间稳定迁移。 方法与新意:CSFM 使用 transformer 与 generative masked pretraining...
发表:2026-02-24 · 收录:未知 · 神经科学与认知科学
问题与背景:语义脑研究过去主要集中在概念本身如何被表征,而较少系统区分“概念表示”和“关系表示”。这篇工作试图进一步问:大脑如何从单个概念过渡到对象间的关系语义。 方法/新意:作者用大语言模型生成 concept-level 和 relation-level embeddings,并将其用于 fMRI repr...
发表:2026-02-24 · 收录:未知 · 神经科学与认知科学
## 这篇讲什么 这篇研究关注一个很基础的神经科学问题:大脑为什么能逐渐对重复、可预测的刺激“习惯化”,从而不过度响应熟悉信息。作者把这个问题放到 `predictive processing` 框架里,研究长期习惯化究竟来自感觉系统自身疲劳,还是来自更高脑区的自上而下预测调控。 ## 方法 作者在小鼠听觉系统...
发表:2026-02-24 · 收录:未知 · 可解释性与机制分析
**问题与背景** 这篇论文围绕 mechanistic interpretability / neural algorithmic reasoning 展开,目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准,它属于值得正式收录的新作,因为问题本身有持续研究价值,且不是单纯的数...
发表:2026-02-24 · 收录:未知 · AI 硬件与加速器
这篇工作针对边缘侧部署大语言模型时最硬的瓶颈之一:片上存储容量与带宽不足导致模型装不下、跑不快,也难以做轻量适配。作者把问题收敛到内存墙,而不是只做局部算子优化,因此切入点对端侧 AI 硬件是成立的。 方法上,TOM 不是单纯做 ternary 量化,也不是单纯做 ROM 存储,而是把 ternary 权重、R...
发表:2026-02-24 · 收录:未知 · 化学、生物与自动化实验室
这篇论文属于 AI for science / self-driving lab 方向里比较扎实的一类工作:不是泛泛谈 autonomous lab,而是在原子层外延薄膜合成中做实时闭环决策。核心问题是多维工艺参数空间搜索成本高,而材料制备过程中的反馈又是连续且高时效的。 作者把实时计算机视觉分析的 RHEED...
发表:2026-02-24 · 收录:未知 · 智能体与自主科学
这篇论文关注的是一个比‘让 LLM 帮忙写策略代码’更进一步的问题:能不能让大模型直接发现新的多智能体学习算法,而不是只在既有算法框架里调参。作者将问题放在不完全信息博弈和多智能体学习场景中,目标不是生成单个策略,而是发明能系统性改进学习过程本身的算法。 方法上,这篇工作沿用了大模型驱动的算法搜索思路,让 LL...
发表:2026-02-23 · 收录:未知 · 强化学习
智能体规划要跨出 primitive action 的细粒度控制,往往需要 temporal abstraction,但把预训练策略当作 temporally extended actions 后,长时预测误差会迅速积累。Jumpy world models 这篇工作把问题明确成“如何直接预测策略组合在多时间尺...
发表:2026-02-23 · 收录:未知 · 神经科学与认知科学
这篇 Nature Neuroscience 论文处理深度神经网络作为脑编码模型的关键弱点:预测强但难解释。 作者训练 CNN 预测 ferret auditory cortex 单神经元对自然声音的反应,然后通过 CNN output 对 input 的梯度做降维,得到每个神经元的 linear tuning...
发表:2026-02-23 · 收录:未知 · 神经科学与认知科学
问题与背景:注意节律理论认为注意力并非连续稳定,而是在采样和转移状态之间波动,但这些节律性机制如何具体调制干扰刺激对任务表现的影响,仍缺少直接证据。作者关注的是不同频段的注意机制,是否会以相位依赖的方式改变 distractor 的干扰效应。 方法/新意:论文通过带有空间可预测 target 与 distrac...
发表:2026-02-23 · 收录:未知 · 智能体与自主科学
问题与背景:机器人操作策略在真实环境里常受视觉和力学分布漂移影响,离线训练好的 diffusion policy 难以在动态条件下稳健适应。 方法/新意:AdaWorldPolicy 把 world model、action expert 和 force predictor 都实现成 flow-matching...
发表:2026-02-22 · 收录:未知 · 强化学习
问题与背景:VLA 被视为通用机器人策略路径,但长程结构化任务是否必须依赖端到端基础模型并不清楚。论文用相同任务和能耗指标正面比较 VLA fine-tuning 与 neuro-symbolic planning。 方法与新意:对照系统把 PDDL 符号规划和学习型低层控制组合起来,与微调的开放 VLA 在...
发表:2026-02-22 · 收录:未知 · JEPA 与预测式世界模型
这篇论文把 JEPA 应用到了超声医学影像。这个方向是匹配的,因为超声本身噪声大、伪影多、像素重建目标不稳定,传统 masked image modeling 在这种场景里天然吃亏,而 JEPA 这类 masked latent prediction 更适合学到稳健语义表示。 方法上,作者提出 `US-JEPA...
发表:2026-02-22 · 收录:未知 · 可解释性与机制分析
Prompt injection 的已有解释往往停留在接口层:哪些输入来自 system、user、tool 或 external content,以及为什么模型没能遵守这些边界。但大量防御实践已经表明,哪怕接口层角色边界写得很清楚,模型依然会把恶意内容当成高权限指令执行。 这篇工作给出一个更底层的解释:rol...
发表:2026-02-22 · 收录:未知 · AI 硬件与加速器
这篇论文处理的是 photonic AI accelerator 里最容易停留在器件层演示的问题:很多工作有单点器件亮点,但缺乏足够清晰的 AI compute architecture 设计。SKYLIGHT 的贡献在于把拓扑、波长路由、累加、编程方式和 3D stack 统一设计成面向实时 AI infer...
发表:2026-02-22 · 收录:未知 · 智能体与自主科学
问题与背景 当前医学基础模型很擅长生成解释性文本,但很难真正回答“如果干预会怎样”这类可审计、可执行的问题。叙事式输出无法量化 intervention effect,也很难识别证据冲突或支持真正的因果查询。 方法/新意 DoAtlas-1 的核心是 causal compilation:把医学研究中的异构证据...
发表:2026-02-21 · 收录:未知 · 多模态基础模型
这篇论文提出的问题很基础:为什么许多 world model 要先把感知输入压缩成抽象 latent,再在 latent 空间里做状态转移?作者认为这种做法会丢失感觉皮层里重要的空间拓扑,因此提出用 neural fields 构建更“同构”的世界模型。 方法上,作者用 neural fields 和 moto...
发表:2026-02-20 · 收录:未知 · 强化学习
这篇论文试图改写当前 agent RL 的一个核心训练视角:模型不应只从奖励信号里被动更新,而应显式地把过去轨迹转化为可复用的经验,并在后续决策中继续消费这些经验。作者把这一点 formalize 成 Experiential Reinforcement Learning,强调 experience 本身是学习...
发表:2026-02-20 · 收录:未知 · 物理与 AI for Science
这篇论文讨论的不是常见的光子芯片通信或线性传输问题,而是一个更强的交叉命题:多光子量子干涉能否在物理层面实现类似联想记忆网络的有效动力学。作者把问题锚定到广义霍普菲尔德模型,试图回答光学量子系统是否能天然承载经典神经记忆模型中的高阶相互作用、记忆检索与黑障相变。 论文的核心贡献是给出了一条明确映射:由不可分辨光...
发表:2026-02-20 · 收录:未知 · 神经科学与认知科学
问题与背景 VBM 是结构脑影像研究里最常用的分析流程之一,但经典预处理工具链非常慢,在大规模 MRI 数据时代已经成为瓶颈。deepmriprep 试图解决的就是“如何用神经网络把结构 MRI 的标准预处理提速到真正可扩展”。 方法/新意 论文用深度学习分别替代 VBM 预处理中的关键步骤,包括 tissue...
发表:2026-02-20 · 收录:未知 · AI 硬件与加速器
This Science Advances paper proposes a neuromorphic hardware route for multitask learning using electroluminescent perovskite quantum-dot synaptic devices....
发表:2026-02-20 · 收录:未知 · 智能体与自主科学
这篇论文处理的是一个很少被真正做实的问题:完整果蝇脑 connectome 能不能直接作为 embodied reinforcement learning 的控制骨架,而不是只作为生物学可视化对象。作者把成年果蝇全脑 connectome 直接转成 whole-body locomotion controlle...
发表:2026-02-19 · 收录:未知 · 物理与 AI for Science
问题与背景:AI 可以搜索量子实验方案,但很多结果只是孤立解,缺乏可读的物理原则和可外推的设计规则。论文把问题推进到 meta-design:让模型生成可解释、可扩展的实验族。 方法与机制:研究训练 transformer language model 生成 Python 代码,代码描述量子态和实验蓝图之间的构...
发表:2026-02-19 · 收录:未知 · 物理与 AI for Science
问题与背景:用扩散模型生成物理可行流场时,常见问题是物理约束只是软惩罚,难以保证不可压缩性、边界条件和复杂几何上的一致性。 方法/新意:这篇工作把 diffusion 生成和 manifold/projection 约束结合起来,通过 projection-constrained 机制让生成过程更接近严格物理可...
发表:2026-02-19 · 收录:未知 · 物理与 AI for Science
偏微分方程是科学计算和工程建模的基础,但设计稳定、准确且高效的数值求解器通常需要较强的数学背景和大量人工调参。本文关注的问题不是再训练一个黑盒神经求解器,而是让 AI 从自然语言描述出发,自动完成数值方法设计、实现、调试和验证,从而降低科学计算的门槛。 作者提出 AutoNumerics,一个面向 PDE 的多...
发表:2026-02-19 · 收录:未知 · 神经科学与认知科学
这篇论文试图解释人类如何从感觉运动经验中形成抽象概念,并把概念用于理解、迁移和交流。它不是一般的行为拟合模型,而是在概念形成与语义控制之间提出了一个明确的计算框架,因此同时落在认知建模和 NeuroAI 之间。 作者提出双模块的 CATS Net:一个模块负责把经验压缩成低维概念表征,另一个模块在概念门控下完成...
发表:2026-02-19 · 收录:未知 · 工业过程与制造
这篇论文处理的是工业过程数字化里的基础问题:如何把化工装置、传感器数据、机理模型、数据驱动模型和数字孪生真正接成一个可持续维护的知识与执行底座,而不是只做一个局部预测模型或可视化面板。对化工和连续制造场景而言,真正的瓶颈通常不是再加一个 anomaly detector,而是物理装置、模型、通信和版本演化之间长...
发表:2026-02-19 · 收录:未知 · 生成建模与扩散
这篇论文关注生成式模型中的 latent representation 学习问题。作者试图统一 latent encoder、diffusion prior 与 diffusion decoder 的训练目标,避免 latent 空间先验与下游生成器彼此脱节,从而提升图像和视频生成中的压缩效率、重建质量与采样质...
发表:2026-02-19 · 收录:未知 · 化学、生物与自动化实验室
这篇论文处理的是电解液设计里一个典型但很难系统解决的问题:盐–溶剂化学空间极大、配方分布长尾、结构与电导率之间高度非线性,导致传统经验筛选和常规监督模型都难以在真实化学空间里稳定泛化。作者把问题集中到非水电解液的离子电导率预测与候选发现上,目标不只是做一个更准的回归器,而是建立一个能兼顾长尾数据、全空间覆盖和可...
发表:2026-02-19 · 收录:未知 · 化学、生物与自动化实验室
问题与背景:这篇论文试图把基因组建模从局部任务模型提升为跨生命全域的统一基础模型。传统基因组模型通常只覆盖特定物种、特定长度或特定任务,而 Evo 2 的目标是同时覆盖细菌、古菌和真核生物序列,并把预测与设计放进同一框架。 方法/新意:论文提出 Evo 2 这一大规模基因组 foundation model,使...
发表:2026-02-19 · 收录:未知 · 智能体与自主科学
问题与背景:VLA 模型被认为需要 world modeling 才能获得更好的长程推理与泛化,但直接预测未来像素容易把训练目标拖向低层视觉重建,并在推理时积累误差。 方法/新意:FRAPPE 用 multiple future representation alignment 替代未来像素重建,在 mid-t...
发表:2026-02-18 · 收录:未知 · Projects And Appendices
- 分级:`项目附录` - 正式标题:`Benchmarking, Evaluation, and Assessment Consortium for Science` - 原文:`2026-02-18-X2_BEACON_Consortium-Benchmarking_Evaluation_and_Asses...
发表:2026-02-18 · 收录:未知 · 公共卫生与医疗运营
This npj Digital Medicine paper evaluates agentic LLM systems in clinical decision workflows rather than treating medical AI as isolated question answering....
发表:2026-02-18 · 收录:未知 · 物理与 AI for Science
这篇论文讨论图神经网络在长程相互作用建模中的一个基础限制:标准消息传递机制本质上是局部的,容易在大图或大分子体系中出现信息流瓶颈、oversquashing 和长程作用建模失真。这个问题在分子动力学和机器学习力场中特别突出,因为色散力、电场变化和界面效应往往跨越远大于局部 cutoff 的尺度。 作者提出 RA...
发表:2026-02-18 · 收录:未知 · 化学、生物与自动化实验室
问题与背景:药物发现中的 pocket-conditioned 分子生成、连接、优化和肽设计往往由不同模型分别处理,任务接口割裂,难以形成统一原子级生成框架。 方法与机制:PocketXMol 使用 atomic prompts 作为任务规格,把与蛋白 pocket 相互作用相关的多类 3D molecular...
发表:2026-02-18 · 收录:未知 · 化学、生物与自动化实验室
无序蛋白及无序区域并不是少数例外,而是细胞功能和分子识别中的核心组成部分。难点在于它们不对应单一稳定结构,而是跨越大范围构象 ensemble。传统计算方法往往要么精度不够,要么成本过高,很难支持大规模序列搜索、条件分析和快速设计。 STARLING 把 physics-based force fields 与...