An agentic system for rare disease diagnosis with traceable reasoning
这篇论文针对罕见病诊断长期存在的“诊断漂流”问题,目标不是做一个普通的单模型问答器,而是建立一个能够处理异构临床输入、调用外部工具并输出可追溯证据链的诊断支持系统。对于本仓库,它首先属于 agent systems 与 AI x biomedicine 的交叉条目,重点不在医学分数本身,而在可复用的 agent...
这篇论文针对罕见病诊断长期存在的“诊断漂流”问题,目标不是做一个普通的单模型问答器,而是建立一个能够处理异构临床输入、调用外部工具并输出可追溯证据链的诊断支持系统。对于本仓库,它首先属于 agent systems 与 AI x biomedicine 的交叉条目,重点不在医学分数本身,而在可复用的 agent...
这篇论文关注的是部署后语言模型最真实、也最容易被浪费的一类数据:多轮用户交互。大量真实对话里都包含了隐式反馈,例如用户继续追问、纠错、表达不满或改写要求,但现有对齐方法通常依赖显式偏好标注、奖励模型或专门构造的数据集,无法直接把这些自然交互转化为学习信号。 作者提出的核心方法是利用同一个模型的 hindsigh...
这篇论文处理的是 agent 系统里一个长期被忽视但实际很关键的问题:技能被抽取、封装和复用之后,究竟能否稳定泛化到不同任务,而不是只在演示案例里看起来可用。作者没有再做一个 agent,而是把问题显式转成 benchmark:如何系统评估 agent skills 在多域、多任务、多环境中的可靠性、迁移性和组...
这篇论文提出 World Action Model 路线,把机器人策略从典型 VLA 的观察-语言-动作映射转向同时建模未来世界状态和动作。对本仓库来说,它的关键价值不是单个机器人 benchmark,而是 embodied AI 中 world model 与 action generation 的统一接口...
这篇 Nature Computational Science 论文处理的是分子动力学和稀有事件模拟里的一个基础难题:如何学习 committor,即系统到达目标态概率的最优反应进程刻画,而不先人为指定 collective variables。传统方法通常强依赖人工设计的低维反应坐标,这既限制了泛化,也容易把...
- 分级:`颠覆性` - 正式标题:`BEACONS: Bounded-Error, Algebraically-Composable Neural Solvers for Partial Differential Equations` - 原文:`2026-02-16-P6_BEACONS-BEACONS_B...
这篇论文关注一个非常值得跟的现象:一些 VLM 在纯文本任务上反而能超过其底层 LLM。作者把这个现象具体化为“视觉训练是否帮助模型修正文本里的 binding shortcuts”,并构造了受控检索任务来做机制分析。 方法上,论文比较了纯文本训练和图像 token 训练下的 transformer 内部表征...
这篇论文关注 GUI agent 后训练里的一个根本瓶颈:真实应用环境训练既慢又贵,而且奖励通常依赖脆弱的视觉代理,难以验证。对本仓库来说,它属于 agent post-training 与自动化环境构造的交叉条目,重点不是单个 GUI 任务分数,而是环境生成与可验证奖励这套工作流。 GUI-GENESIS 的...
这篇论文解决的是 VLA 后训练里一个非常现实的问题:真实机器人上的 RL 太贵,而 learned world model 又常常在闭环 rollout 中积累误差,导致策略学会利用模拟器漏洞而不是真正完成任务。 WoVR 的核心是把 world model 当作“可靠模拟器”来设计和筛选,用它支持 VLA...
库存控制是一个经典但仍然现实的问题:传统 OR 方法有强理论基础,但通常依赖较硬的分布与结构假设;而大语言模型看似更灵活,却很难证明其在真实决策问题里的角色到底是什么。简单地把 LLM 当作 OR 替代品并不成立。 这篇论文真正有价值的地方,是把问题改写成 complementarity study。作者构建了...
这篇论文研究的是更接近真实世界的脑机接口问题:能否在受试者离开实验室、回到居家环境后,依然稳定地从全植入式神经接口中识别运动状态。相比实验室条件,这种场景更接近临床神经调控和长期闭环应用的真实需求。 论文的新意在于把皮层—基底节全植入式接口、设备端分类器和居家环境数据结合起来,验证 walking 等运动状态能...
这篇论文解决的是多动物社会行为实时检测在神经科学实验里一直很难落地的问题。传统 pose estimation 方法在遮挡、接近接触和复杂互动场景下容易失效,尤其不适合需要毫秒级触发外部反馈的 closed-loop 实验。 方法上,作者提出 YORU,把行为本身当作“behavior object”来检测,而...
Doc-to-LoRA 把长上下文信息从 token-level context 转成 transient LoRA adapter,提供了一种参数记忆接口:文档不再每次都作为 KV/context 被反复读入,而是由 hypernetwork 在一次前向中编译成目标 LLM 的 LoRA 权重。 它瞄准的是...
问题与背景:零样本机器人操作长期面临两难:端到端 VLA 模型语义强但精度不足,传统分层规划精度高但语义僵硬,难以处理开放世界变化。 方法/新意:UniManip 用 agentic operational graph 把高层语义理解与低层物理操作连接起来,构建一个更灵活的通用操作框架。重点是通过显式图结构承接...
这篇论文直接挑战了“联想学习主要依赖大量重复试错”的直觉。作者研究奖励之间的时间间隔如何调节行为学习速度以及多巴胺信号的变化,从而把学习效率与事件稀疏性联系起来。 核心新意在于证明学习信号并不只是由奖励本身决定,还受到奖励出现时机和稀有程度的强烈调制。换句话说,罕见事件可以触发更强的学习增益,这给传统 tria...
RF 电路自动化长期受限于一个现实问题:很多方法能做拓扑选择和参数优化,但到 manufacturable layout 就断掉了。组件模型过于简化、routing 能力不足,使得 AI 结果很难真正落到 GDSII。 这篇论文提出一个 ML-driven RF physical synthesis frame...
问题与背景:AI 已经能加速材料发现,但从实验室配方走向工业制造仍受制于私有工业数据稀缺、应用指标缺位和实验系统难以闭环。AP-Lab 把这个断点作为核心对象,而不是只做一个材料预测模型。 方法与机制:论文构建 AI-driven autonomous pilot-scale laboratory,以磁性纳米颗...
问题与背景:机器人 foundation model 往往依赖行为克隆,只模仿动作而难以吸收异构 embodied 数据中的动力学知识,导致在长时程和接触丰富任务上泛化受限。 方法/新意:LDA-1B 通过统一 embodied 数据 ingestion,把 dynamics、policy 和 visual f...
问题与背景:Vision-Language-Action 模型在当前观测上直接预测动作,往往缺乏对未来状态的显式建模,导致长程规划和泛化能力不足。视频世界模型则天然具备时空推演能力,但如何稳定迁移到 VLA 学习仍是开放问题。 方法/新意:GigaBrain-0.5M* 把 world model-based...
这篇论文关注 3D diffusion transformer 在稀疏点云条件下的一个灾难性失败模式:输入只做极小的表面扰动,生成结果就会突然碎裂成多个不连通部分。作者把这个现象称为 Meltdown,并把它当成机制解释与稳定控制的联合问题来研究。 方法上,论文用 activation patching 把故障...
## 这篇讲什么 这篇研究讨论一个很基础但很关键的问题:为什么有些经历会被记住,而另一些很快消失。作者提出,记忆编码并不是连续稳定发生的,而是会以每秒数次的节律性窗口起伏;如果信息刚好落在“有利窗口”里,就更容易进入情景记忆。 ## 方法 作者在一个预注册实验中,对 `125` 名参与者采用高时间分辨率的密集采...
这篇论文是 JEPA 路线里少数真正往 object-centric world model 推进的工作。它不是继续做 patch-level 的 latent prediction,而是把预测单位提升到对象级别,并通过 object-level masking 让模型必须利用其他对象的状态去推断被遮蔽对象的未...
这篇论文研究大语言模型中的高级能力是否局域在少量注意力头上。作者提出基于压缩感知的定位方法,通过对随机头子集做敲除实验并求解稀疏回归,能用远少于贪心搜索的评估次数识别出数学、代码等能力相关的关键头。实验表明敲除少量已识别头就能让目标任务性能大幅下降,而对无关任务影响较小。它的价值在于提供了高效定位功能模块的方法...
这篇论文瞄准的是用 LLM 充当世界模型时最棘手的短板:在需要严格遵守环境规则的交互场景里,纯神经世界模型很容易 hallucinate,而纯符号系统又缺乏语义灵活性。作者试图做的不是二选一,而是让两种范式协同工作。 方法上,NeSyS 把 LLM world model 与可执行符号规则模型交替训练:对符号规...
问题与背景 现有机器人世界模型很多偏视频生成或自然语言预测,虽然直观,但难以稳健支撑长时程 task and motion planning。传统符号 TAMP 又缺少和视觉世界的同步更新。H-WM 要解决的是这两类方法之间的断裂。 方法/新意 H-WM 把高层逻辑世界模型和低层视觉世界模型放进同一层级框架中...
问题与背景 机器人 manipulation 里的世界模型常常只能做单视角视频预测,或者只能处理部分 3D 几何,因此很难稳定支持真实操作所需的完整 4D 场景想象和行动推断。MVISTA-4D 试图把多视角、一致几何和动作反推整合到同一个模型里。 方法/新意 它从单视角 RGBD 观察出发,生成任意视角的未来...
药物设计里最难被真正规模化的一层,不是再做一个更快的 docking surrogate,而是在 novel chemical space、novel pockets 和复杂 biomolecular interfaces 上,同时做到结构、口袋和亲和力预测的稳定泛化。IsoDDE 这份技术报告的意义,在于它把...
**问题与背景** 这篇论文针对 `social cognition / world models / language models` 方向中的核心问题展开,属于仓库主线内值得正式记录的研究。它关注的不是局部调参,而是该子方向里较基础、较长期的问题,因此即使仍处在论文阶段,也有持续跟踪价值。 **方法/新意*...
野火灾害管理真正困难的地方,不是单独做感知、预测或资源调度,而是如何把多源感知、仿真推演、决策建议和现场执行接成实时闭环。传统灾害管理框架通常停留在静态模拟和被动数据获取上,无法跟随火情演化做持续更新。 这篇论文提出的 Intelligent Virtual Situation Room 把 bidirecti...
问题与背景:音高上升和下降的知觉通常被当作听觉系统中的基础能力,但其底层计算机制并不清楚。作者关注的是人类是否能利用正负 spectrotemporal correlations 来判断 pitch motion direction。 方法/新意:论文结合行为实验和神经成像,显示人类不仅能利用正相关,还能利用负...
医疗时间序列建模,尤其是 EEG、ECG 这类多通道生物信号,通常不是由完全对等的 token 彼此自由交互而成,而更接近由少数中心性信号源驱动并向全局传播。本文把问题直接指向标准 Transformer 的结构失配:去中心化的全注意力机制并不适合这种“中心化源、全局观测”的医学时序数据,因此在长序列、多通道和...
This Nature Communications paper extends brain-model evaluation beyond natural-image in-distribution settings by releasing fMRI responses to synthetic image...
- 分级:`颠覆性` - 正式标题:`Towards Real-World Industrial-Scale Verification: LLM-Driven Theorem Proving on seL4` - 原文:`2026-02-09-M3_AutoReal_seL4-Towards_Real_Worl...
computer-use agents 的一类核心失败不是传统意义上的 jailbreak,而是 action 与用户真实意图逐步偏离。这样的 misaligned actions 既可能来自外部注入,也可能来自内部 reasoning 错误,最终直接造成错误操作、效率下降和安全事故。 这篇工作的价值在于同时定...
**问题与背景** 这篇论文围绕 brain alignment / representational geometry / language models 展开,目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准,它属于值得正式收录的新作,因为问题本身有持续研究价值,且不是单纯...
很多 agent orchestration 系统仍然依赖人工预先设计的多 agent 拆分、工具路由和角色分工。随着任务复杂度上升,这种手工 workflow 很快变成 brittle pipeline:要么 agent 数量不足以覆盖任务结构,要么过度拆分造成高昂 coordination 成本。 AOrc...
间接 prompt injection 的核心问题,不只是模型会不会识别恶意内容,而是传统 agent 会把工具输出、网页内容和中间痕迹一股脑塞进同一上下文,导致恶意指令在整个工作流里持续驻留并反复影响决策。现有防御大多默认这种 bloated memory 是既定条件,再在其上做过滤、检测或鲁棒 prompt...
这篇论文讨论 Transformer 世界模型为什么常常学到表面相关性,却学不到真正可迁移的动力学规律。作者把问题放在“从开普勒式经验拟合,到牛顿式结构规律”的差异上,核心关注点是:世界模型要想外推、组合和泛化,必须依赖更强的归纳偏置。 方法上,论文研究了不同 inductive bias 如何影响 Trans...
这篇论文针对 LLM scientific agents 的一个核心低效来源:很多系统在固定初始理论/先验下搜索假设,一旦 baseline theory 失败,就会在错误假设空间里浪费大量计算。 PiEvo 的关键转向是从 hypothesis search 变成 principle evolution。系统...
这篇论文针对的是脑神经临床影像中的一个核心现实问题:如何利用健康系统规模的 MRI 数据训练可迁移、可部署的基础模型,让模型在多任务、多疾病和低标注条件下都可用。 论文的新意在于提出并训练了一个大规模神经影像基础模型路线,利用真实临床规模的数据而不是单一研究队列,证明统一预训练表征可以支持多病种诊断、报告辅助和...
**问题与背景** 这篇论文围绕 vision-language-action / world models / robotics 展开,目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准,它属于值得正式收录的新作,因为问题本身有持续研究价值,且不是单纯的数据集刷分或局部工程调优...
GUI agent 这条线已经证明了短程 computer use 可以做得越来越像样,但一旦任务跨到十几步以上,视觉状态漂移、界面元素误识别、执行偏差累计和回退失败就会迅速让系统失稳。LongHorizonUI 处理的正是这类长程 GUI 自动化里最实际的鲁棒性问题。 论文从三个层面给出方案。第一,提出 Lo...
长期运行的 LLM agent 需要 memory,但现有方案通常在两个极端之间摇摆:要么针对单一任务做重工程化设计,迁移性差;要么直接检索原始轨迹,导致上下文膨胀、任务相关性不足、真正决策时噪声过高。PlugMem 针对的就是这个通用 memory module 缺口。 它把 memory 单元从原始 exp...
这篇 Nature Neuroscience 论文处理脑 MRI AI 的核心瓶颈:标注数据少、任务特异模型泛化弱、不同疾病和任务之间难复用。 作者提出 Brain Imaging Adaptive Core (BrainIAC),用 self-supervised pretraining 学习 unlabel...
这篇论文重新审视了人类奖励学习能否被传统强化学习模型充分解释。作者把神经网络组件嵌入可解释的认知模型中,检验记忆机制在奖励学习中的作用是否比标准逐步更新的价值函数更关键。 新意在于提出并验证了一类混合神经—认知模型:成功解释行为数据的模型需要更灵活、更独立的记忆变量,而不仅仅是一个标量的 reward pred...
- 分级:`突破性` - 原文:`2026-02-05-M1_TheoremSearch_9_2M-Semantic_Search_over_9_Million_Mathematical_Theorems.pdf` - 抽取:`extracted.md` ## 重写摘要 这篇工作试图解决数学研究和自动证明里的一...
这篇论文不是提出一个新的 agent,而是重新定义了 reasoning model 在安全场景中的风险位置:它们不再只是被攻击的对象,而可能本身就成为自动化 jailbreak agent。对仓库来说,这属于 agent evaluation 与安全威胁模型重构类条目。 作者让多个大推理模型在没有进一步人工监...
OpenScholar 针对科研文献综合的核心瓶颈:普通 LLM 在科学引用、覆盖率和最新文献上容易幻觉,而传统检索工具又难以生成可审查的长文献综述。论文把科学文献综合明确做成 retrieval-augmented scientific LM,而不是通用聊天模型的附加功能。 方法上,它构建了开放的 OpenS...
这篇论文针对 PEFT/LoRA 研究里一个非常少被真正推到极限的问题:为了让大模型学会更强推理,到底需要多大规模的参数更新?传统 LoRA 已经把微调从全量权重降到低秩矩阵,但仍然至少要受制于模型维度;LoRA-XS 进一步压缩后,通常也还在成千上万参数量级。作者直接反问:如果目标是让模型更会推理,rank=...
问题与背景:价值驱动的经济选择是认知科学与神经经济学中的核心问题,但从神经电路角度把价值计算、比较和多任务组合统一起来一直较难。已有实验发现很多现象,但缺少一个兼顾生物合理性、行为泛化和神经表征解释的统一框架。 方法/新意:作者用满足 Dale 定律的生物合理 RNN,通过强化学习在一组经济选择任务上训练模型...
这篇论文想解决的是单图出发的长时程 4D 场景生成问题。现有很多视频生成方法能生成“看起来像运动”的结果,但物理状态和视觉表示是分裂的,导致时间一长就失真,更谈不上真正的 action-conditioned 交互场景。 方法上,PerpetualWonder 把物理仿真和视频生成做成闭环:前向依赖物理状态推进...
**问题与背景** 这篇论文针对 `predictive sequence models / path integration / world modeling` 方向中的核心问题展开,属于仓库主线内值得正式记录的研究。它关注的不是局部调参,而是该子方向里较基础、较长期的问题,因此即使仍处在论文阶段,也有持续跟...
问题与背景 A longstanding question in cognitive development is how early rich visual categories emerge in the human brain and whether they depend mainly on postn...
这篇论文关注自动驾驶世界模型的统一表示问题。很多驾驶世界模型只在某一层面强,比如几何结构、视觉纹理或未来动力学其中之一,但难以形成一个同时服务感知、预测和规划的共同状态空间。UniDWM 的目标就是把这些维度真正统一起来。 方法上,它构建了 structure- and dynamic-aware latent...
## 问题与背景 问题与背景:自动驾驶 world model 常被拆成多阶段系统,接口多、训练复杂、部署成本高。研究方向在持续往更统一的一体化 driving world model 收敛。 ## 方法/新意 方法/新意:UniDriveDreamer 提出 single-stage multimodal w...
## 问题与背景 问题与背景:世界模型在机器人和规划任务里往往面临表示复杂、动力学预测重、推理成本高的问题。高效 world model 依然是当前主线难题。 ## 方法/新意 方法/新意:DDP-WM 通过 disentangled dynamics prediction 拆开状态表示与动态变化,让模型在保持...
这篇论文把 JEPA 路线正式推到了 vision-language 模型。核心思路是:与其像传统 VLM 那样在 token 空间里自回归生成文本,不如直接预测文本的连续 embedding。这样模型学习的是更抽象的语义空间,而不是被表面词形和解码过程牵着走。 方法上,`VL-JEPA` 在视觉到语言的映射中...
这篇论文针对文本生成图像里一个越来越重要但常被粗糙处理的问题:模型能否在生成过程中进行动态推敲和自我修正,而不是一次性把提示词映射成像素。作者指出,现有 reasoning-augmented 图像生成方法大多依赖显式思维链,把中间推理反复解码成文本再重新喂回模型,这会带来信息压缩、延迟增加和明显的认知流程错配...
随着 AI agents 开始执行长链条、多工具、甚至多代理协作任务,一个越来越突出的痛点是失败定位。很多系统只能给出最终成败,却很难指出轨迹中第一个不可恢复的错误发生在哪里,也难以稳定判断它属于工具异常、策略偏移还是策略与环境交互中的更深层失配。 AgentRx 的核心贡献是把 agent debugging...
许多 LLM agent memory 系统只提供一小组手工设计的固定操作,例如提取摘要、写入条目、简单更新或覆盖。这些操作默认了人类预设的记忆结构,面对长时程、多轮、任务形态不断变化的交互时,往往既不够灵活,也难以持续改进。 MemSkill 把记忆操作本身改写成可学习、可进化的 memory skills...
This Nature Communications paper gives a mechanistic account of human visual object coding across ventral temporal cortex and medial temporal lobe. It combi...
问题与背景:离子化脂质是 mRNA 递送系统的核心部件,但其设计空间极大,传统依赖人工经验和低通量筛选,导致发现速度慢、成本高。LUMI-lab 试图把 foundation model、实验自动化与闭环优化结合起来,解决脂质设计中的组合爆炸问题。 方法/新意:这项工作构建了一个由基础模型驱动的自主实验平台,将...
这篇论文处理的是世界模型落地时很实际的一层问题:闭环视频和轨迹预测往往太慢,尤其在自动驾驶这种长时 rollout 场景下,扩散式世界模型的推理成本会迅速变成瓶颈。作者试图在不重新训练模型的前提下,做出真正可用的推理加速。 方法上,DISK 是一个 training-free 的动态跳步推理方法,用两个耦合的控...
问题与背景:EEG 语言解码长期受限于信号弱、噪声大、脑区功能异质性强等问题。传统统一编码器往往难以同时兼顾不同脑区和不同认知过程的特征结构。论文关注的是:能否让模型结构更贴近大脑功能组织,用脑区分工来指导 EEG 语言解码。 方法/新意:作者提出 BrainStack,把 mixture-of-experts...
这篇论文研究的是视觉皮层跨层级信息处理的动力学组织方式。作者使用小鼠视觉皮层的 Neuropixels 记录,想回答低频 theta 波、高频 gamma 活动和神经元放电如何在跨层、跨区的层级处理中相互耦合。 核心新意在于它提出并实证支持了一种嵌套的时空结构:广域传播的 theta traveling wav...
这篇论文问的是:传统人格测量是否必须依赖长问卷,还是可以直接从简短自由文本中稳定提取人格特征。作者评估了生成式 AI 在零样本条件下对开放文本做人格评分的能力。 论文的新意在于把自然语言理解能力直接转化为心理测量工具,验证大模型在不经专门监督训练的情况下,是否已经能够从短文本中恢复大五人格等稳定特征。重点是“零...
- 分级:`颠覆性` - 正式标题:`QUASAR: A Universal Autonomous System for Atomistic Simulation and a Benchmark of Its Capabilities` - 原文:`2026-01-30-C2_QUASAR-QUASAR_A_U...
自动化 peer review 这些年已经从简单打分和摘要生成,推进到生成 structured feedback,但主流系统依然有一个根本缺陷:它们大多只看论文本身,不主动补齐领域背景、已有 baseline、相邻工作和 claim 的外部验证,因此很容易停留在 surface-level critique...
随着多模态 agents 开始在网页、移动端和具身环境中执行真实任务,安全评测不能再停留在低保真 API sandbox 或单一攻击脚本上。当前一个核心缺口是:缺少能够跨环境、跨交互形态衡量 situated agents 行为风险的 benchmark。 BeSafe-Bench 的主要贡献是把 situat...
问题与背景:在极高速机器人控制场景中,传统数字控制与大模型推理往往受制于延迟和能耗。神经形态硬件提供了低功耗、事件驱动的替代路线,但如何让‘慢硅神经元’有效控制极快系统一直是挑战。 方法/新意:论文将脉冲神经网络、神经形态处理器和强化学习联合设计,通过局部学习和硬件协同,让混合模拟/数字神经元系统直接承担实时控...
**问题与背景** 这篇论文围绕 autonomous driving / jepa / video world models 展开,目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准,它属于值得正式收录的新作,因为问题本身有持续研究价值,且不是单纯的数据集刷分或局部工程调优...
问题与背景:金属水解酶能够催化生物体系中最困难的一类水解反应,但从头设计高活性金属酶一直非常困难,过去往往活性偏低、需要大量定向进化补救。论文聚焦的核心问题是:能否直接从计算设计出具有真实高催化效率的 metallohydrolases,而不是停留在概念验证层面。 方法/新意:作者引入 RFdiffusion2...
问题与背景:现有 genomic foundation models 主要依赖单核苷酸输入上的大规模神经计算去隐式学习生物 motif,但这种做法在效率和显式结构利用上都有明显限制。 方法/新意:Gengram 提出 retrieval-augmented genomic foundation model 思路...
这篇论文针对 VLA 在一个真实短板上的失效展开:静态操控上已经能做得不错,但一旦对象本身在运动,模型就需要更低时延的感知、更强的时间推理以及连续闭环控制能力,原有静态范式往往会失效。DynamicVLA 直接把目标放在 dynamic object manipulation,而不是继续在静态场景里刷泛化。 论...
- 分级:`突破性` - 正式标题:`FRONTIERSCIENCE: Evaluating AI's Ability to Perform Scientific Research Tasks` - 原文:`2026-01-29-A1_FrontierScience-FRONTIERSCIENCE_Evalua...
问题与背景:类人多指灵巧操作需要高维动作协调、复杂接触动力学和遮挡下的稳定感知,传统模型控制和纯 RL 都面临样本效率与泛化困难。 方法与机制:论文采用两阶段学习框架,先从人类示范中以自监督方式学习视觉-触觉融合表征,再通过强化学习与在线模仿学习训练统一多任务策略。系统只使用单目图像和简单二值触觉信号。 为什么...
- 分级:`颠覆性` - 正式标题:`Advancing regulatory variant effect prediction with AlphaGenome` - 原文:`2026-01-28-LS1_AlphaGenome-Advancing_regulatory_variant_effect_pre...
这篇论文针对 LLM 生成 RTL/Verilog 代码时最关键的可靠性缺口:仅靠语法检查或有限 testbench 仿真,很难保证时序语义、协议边界和局部修复后的不回归。作者把 RTL 代码生成重构为一个带共享设计契约、时序追踪、局部补丁和形式化验证的多代理闭环,而不是普通的单次生成或反复全文件重写。 方法上...
这篇论文针对 building operations 里长期存在的一个瓶颈:楼宇节能、热舒适、HVAC 控制、分布式能源和需求响应虽然都能用数字孪生与优化工具建模,但实际 workflow 仍高度依赖人工工程师逐步拼接模型、脚本和分析流程,难以规模化部署。作者明确把问题从单点预测或单次控制器设计,提升为一个可持...
这篇论文要解决的是 LLM 智能体控制中的反事实解释问题。传统 agent 往往只能给出一次规划与执行结果,但用户在看到执行后,常常真正关心的是:如果当时表达的目标略有不同,系统会不会做出完全不同的决策。这篇论文把这个问题提升到可计算、可校准的层面。 方法上,作者把用户、LLM 代理和环境的闭环交互建模为结构因...
围绕 RLVR 是否真的提升推理能力,很多讨论只看性能曲线或更新幅度,却很少真正分析更新里什么成分在起作用。这篇工作把注意力从 update magnitude 转向 update direction,试图解释 RLVR 到底向模型里注入了什么有效结构。 论文的核心判断是:更新方向比更新大小更能揭示 RLVR...
这篇 ICLR 2026 论文把 NeuroAI 的 model-brain alignment 从静态图像和 fMRI 扩展到动态视频 EEG,并系统比较 100+ 个视频/视觉模型。 方法上,作者提出 Cross-Temporal RSA,用时间展开的模型特征去匹配不断演化的 EEG 响应,形成大规模动态对...
城市交通信号控制一直是强化学习的重要应用方向,但真实工程侧常用的高保真仿真器 Vissim 因接口复杂、训练环境不统一,长期没有形成可复用的 RL 工作流。这导致学术侧大量结果停留在 SUMO 或 CityFlow,而很难往更接近实际部署的环境迁移。 VissimRL 的核心贡献是把 Vissim 的 COM...
这篇论文处理的是城市交通基础设施在长期气候风险下如何做顺序式适应决策。传统做法通常把气候适应视为静态情景分析或一次性优化,但真正的投资、维护与防灾策略是跨几十年的连续决策问题,而且要同时面对降雨强化、洪涝传播、服务中断和社会成本的不确定性。 作者提出一个通用决策支持框架,把综合评估模型与强化学习耦合起来。系统先...
随着 AI agents 获得更强的工具调用和环境交互能力,安全失败不再只是单轮输出失误,而是会沿着完整轨迹累积并最终转化为真实行动风险。现有 guardrail 往往只给出二元拦截判断,缺少对 agentic 风险的细粒度刻画,也缺少对失败根因的诊断能力。 AgentDoG 的核心贡献是把 agent saf...
问题与背景:语言网络通常主要被定位在大脑皮层,尤其是左半球额颞区域,而小脑在语言处理中的角色长期存在争议。作者要解决的问题是:小脑里是否存在可被系统识别的语言网络成分,以及这些成分与经典皮层语言网络之间究竟是什么关系。 方法/新意:论文结合多项功能成像与功能连接分析,在个体层面刻画小脑语言响应区域,并将其与新皮...
这篇论文把 test-time scaling 从 frozen-model prompting/search 推进到 test-time reinforcement learning:模型在单个待解问题上继续训练,以发现更优解。它对本仓库的价值在于重新定义了 inference-time adaptation...
这篇论文把 AI for science 的目标从自动实验推进到自动理论生成:系统不是只总结论文,而是从大规模文献中抽取证据并合成带有 law、scope、evidence 的可测试理论。对于本仓库,它的重要性在于提出了一个可复用的 literature-to-theory workflow,而不只是一个文献综...
问题与背景:视觉系统并不是被动编码物体本身,而会结合场景上下文持续更新对象表征。作者关注的核心问题是:当场景结构和视角动态变化时,视觉皮层中的对象表征是否会被上下文实时重写,以及这种更新能否跨视角保持一致。 方法/新意:论文通过行为与脑成像实验,考察由场景上下文驱动的对象取向预期如何改变视觉皮层中的对象表征。关...
**问题与背景** 这篇论文围绕 fmri decoding / image reconstruction / brain-computer interfaces 展开,目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准,它属于值得正式收录的新作,因为问题本身有持续研究价值,且不...
HERMES 针对多模态大模型从离线视频理解走向 streaming video understanding 的核心矛盾:需要稳定理解、实时响应和低 GPU memory overhead,但常规长视频处理会随着帧数增长导致 TTFT 和显存不可控。 论文基于 layer-wise attention pref...
问题与背景:脑 MRI 纵向进展建模对神经退行性疾病理解和个体化预测很重要,但现有方法往往结构复杂,条件注入不足,且难以保证生成结果的解剖一致性。 方法/新意:这篇工作用 anatomically guided latent diffusion 建模脑 MRI 进展,在 latent 生成过程中显式引入解剖先验...
这篇论文针对的是 AI for science 里一个很硬的未闭合问题:现有系统通常只能自动化科研流程中的一个局部环节,但还做不到在单一架构下贯通课题设定、文献分析、原子级模拟、机器学习建模、机理发现和论文成稿。作者把场景收敛到 computational catalysis,直接测试 agent 是否能在一个...
问题与背景:生物医学知识图谱的链路预测直接关系到药物重定位、基因功能注释和合成致死发现,但传统基于节点嵌入的方法对多跳关系和路径语义建模不足,可解释性也有限。 方法/新意:BioPathNet 以 neural Bellman-Ford network 为基础,用路径级推理替代单点嵌入匹配,并引入背景调控图和严...
- 分级:`颠覆性` - 正式标题:`Collective intelligence for AI-assisted chemical synthesis` - 原文:`2026-01-19-C1_MOSAIC-Collective_intelligence_for_AI_assisted_chemical_s...
Computer-use agents 把视觉理解、界面操作和系统权限直接连在一起,风险比普通聊天模型高得多。单纯依赖检测后拒绝的防御虽然能阻断部分攻击,但会明显牺牲任务完成率,也无法真正提升 agent 在高风险 GUI 场景中的决策能力。 MirrorGuard 提出的关键思路是用 simulation-t...
这篇论文讨论的是 continual adaptation 中一个常见但经常被混淆的问题:模型通过 SFT 学到新知识,并不等于它具备了有效使用这些知识的能力。对本仓库来说,它切中的不是普通微调,而是测试后更新、技能注入和 parameter-efficient adaptation 之间的接口问题。 作者提出...
这篇论文讨论如何让图神经网络在学习多体动力系统时不仅预测得准,而且在物理上自洽。很多 learned simulator 在短期误差上能做得不错,但一旦长时间 rollout 或遇到分布外情况,常常会违反守恒律,导致轨迹漂移。作者针对这个问题提出了一个同时守恒线动量和角动量的 physics-informed...
- 分级:`颠覆性` - 正式标题:`Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering` - 原文:`2026-01-15-A2_ML_Master_2_0-Tow...
传统水下机器人通常被固定形态和单一运动模式束缚,这使它们在复杂环境里很难兼顾稳定性、机动性、速度和任务多样性。相比单体系统,可重构群体更接近一种“形态即能力”的路径。 这篇论文提出可自主组装/解组装的 robotic fish swarm,利用 electropermanent magnets 完成物理重构和模...