Annotating the genome at single-nucleotide resolution with DNA foundation models

发表:2025-10-29 · 收录:未知 · 化学、生物与自动化实验室

问题与背景:基因组注释工具常针对单一元素类别训练,监督数据有限,难以统一检测基因、剪接位点和调控元素。论文将问题重构为单核苷酸分辨率的 multilabel semantic segmentation。 方法与机制:SegmentNT 基于预训练 DNA foundation model Nucleotide...

Origins of chromosome instability unveiled by coupled imaging and genomics

发表:2025-10-29 · 收录:未知 · 化学、生物与自动化实验室

问题与背景:这篇 Nature 原始研究聚焦染色体不稳定性(chromosome instability, CIN)的起源,这是癌症演化与耐药研究中的核心问题。传统方法要么侧重显微成像,要么侧重基因组学,很难在同一实验链路里同时追踪细胞形态变化与基因组异常的形成过程。 方法/新意:论文把自动显微成像、机器学习筛...

A synergistic generative-ranking framework for tailored design of therapeutic single-domain antibodies

发表:2025-10-29 · 收录:未知 · 化学、生物与自动化实验室

单域抗体在组织穿透和稳定性上有优势,但它们缺失 Fc 相关性质,很多工业化和功能扩展能力因此受限。这篇论文抓的不是一般 antibody generation,而是“能否面向特定可制造性与功能性目标去定制 sdAb”。 论文提出 generative + ranking 的双阶段框架:先用结构感知 diffus...

Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers?

发表:2025-10-28 · 收录:未知 · 可解释性与机制分析

问题与背景 这篇论文问的是一个经典认知科学问题:对象绑定是否会在大规模预训练 ViT 中自然涌现。过去很多工作认为对象级绑定需要显式 object-centric 机制,而纯连接主义的 ViT 可能只能学到局部特征和注意力热区,缺少真正的绑定能力。 方法与新意 作者提出了一个可操作的表征量 `IsSameObj...

Emergence of Minimal Circuits for Indirect Object Identification in Attention-Only Transformers

发表:2025-10-28 · 收录:未知 · 可解释性与机制分析

## 问题与背景 问题与背景:mechanistic interpretability 经常在大模型上做逆向解释,但由于结构太复杂,很难回答“一个具体能力最小到底需要什么 circuit”。IOI 是这一方向的经典任务。 ## 方法/新意 方法/新意:这篇工作从头训练极小 attention-only tran...

Towards Generalisable Foundation Models for Brain MRI

发表:2025-10-27 · 收录:未知 · 神经科学与认知科学

问题与背景 Brain MRI foundation models are becoming central to medical imaging AI, but many methods remain either slice-based, weakly multimodal, or overly speci...

Deep-learning-based virtual screening of antibacterial compounds

发表:2025-10-24 · 收录:未知 · 化学、生物与自动化实验室

这篇论文处理的是 AI drug discovery 里最硬的一类问题:如何把高成本、高噪声的湿实验筛选,扩展为真正可在超大化学空间上运行的深度学习虚拟筛选流程。抗菌药物发现尤其困难,因为活性分子稀缺、化学空间巨大、而且命中率通常极低,导致传统高通量筛选既昂贵又扩展性差。 论文用约两百万分子的高通量筛选数据训练...

C-NAV: Towards Self-Evolving Continual Object Navigation in Open World

发表:2025-10-23 · 收录:未知 · 强化学习

open-world embodied navigation 的真实难点不只是能否在固定类别集合上学会目标导航,而是环境、对象类别和任务分布都在持续变化。现有 object navigation 方法大多假设训练类别固定、轨迹静态,这与机器人长期部署时不断遇到新类别并同时保留旧能力的需求并不一致。 C-NAV...

Cortical and subcortical mapping of the human allostatic-interoceptive system using 7 Tesla fMRI

发表:2025-10-23 · 收录:未知 · 神经科学与认知科学

这篇论文试图系统描绘人脑中支持 allostasis 与 interoception 的网络架构。相比只盯住岛叶或前扣带等局部区域,它把问题提高到整个人脑系统层面,问负责内部身体状态调节与感知的网络到底如何在皮层和皮下共同组织。 方法上,作者利用 7T fMRI 在高空间分辨率下同时覆盖皮层和深部结构,系统映射...

Integration of hunger and hormonal state gates infant-directed aggression

发表:2025-10-22 · 收录:未知 · 神经科学与认知科学

这篇论文研究内在生理状态如何共同决定社会行为。作者关注雌鼠对幼崽的照料和攻击之间的切换,想解释为何饥饿状态与激素状态会共同塑造这一行为开关,而不是简单地由单一动机系统决定。 论文把 ArcAgRP 饥饿回路、MPOA 激素相关调节和细胞水平记录结合起来,指出 hunger 与 oestrous/hormonal...

Tailored structured peptide design with a key-cutting machine approach

发表:2025-10-21 · 收录:未知 · 化学、生物与自动化实验室

问题与背景:结构化肽设计通常依赖生成模型,但生成模型训练昂贵、目标函数难改,限制了实验室按需设计可测属性的效率。论文关注的是能否用更轻量、可控的优化框架完成 tailored peptide design。 方法与机制:Key-Cutting Machine 使用结构预测作为内循环,以 estimation-o...

Foundation Models for Discovery and Exploration in Chemical Space

发表:2025-10-20 · 收录:未知 · 物理与 AI for Science

这篇论文瞄准的是化学空间探索中的核心瓶颈:现有分子表示和性质预测体系覆盖面窄、任务割裂,很难支撑真正跨化学领域的发现与筛选。作者试图建立一个面向广泛分子结构和性质的统一基础模型,而不只是某个单项 benchmark 的最优器。 方法上,论文提出 MIST 系列分子基础模型,在参数量和训练数据规模上都显著超过既有...

Single-unit activations confer inductive biases for emergent circuit solutions to cognitive tasks

发表:2025-10-20 · 收录:未知 · 神经科学与认知科学

问题与背景 这篇论文问的是一个很基础但常被忽略的问题:RNN 里单元的激活函数只是实现细节,还是会真正改变学出来的“认知电路”?在脑网络建模里,人们往往默认不同非线性激活不会改变高层任务解法,但这篇论文直接挑战了这种看法。 方法与新意 作者比较了不同单元激活函数下训练出来的 RNN,并结合模型蒸馏和动力学分析...

CrystalFlow: a flow-based generative model for crystalline materials

发表:2025-10-20 · 收录:未知 · 化学、生物与自动化实验室

问题与背景:晶体材料生成需要同时处理晶格参数、原子坐标、元素类型和对称性,普通生成模型很难在物理约束和条件生成之间取得平衡。 方法与机制:CrystalFlow 将 Continuous Normalizing Flows、Conditional Flow Matching、图等变神经网络和 symmetry-...

Cosmos-Surg-dVRK: World Foundation Model-based Automated Online Evaluation of Surgical Robot Policy Learning

发表:2025-10-17 · 收录:未知 · 智能体与自主科学

## 问题与背景 问题与背景:手术机器人策略评估一直受成本、风险和重现实验难度限制。真实 dVRK 平台上的在线评测不可能像模拟环境那样高频、廉价,这直接限制了策略训练和迭代。 ## 方法/新意 方法/新意:这篇工作把 world foundation model 引入手术机器人评估,构建 Cosmos-Sur...

Head-direction cells as a neural compass in bats navigating outdoors on a remote oceanic island

发表:2025-10-16 · 收录:未知 · 神经科学与认知科学

这篇论文把经典的 head-direction cells 研究真正推进到自然世界尺度。过去很多头方向细胞研究依赖实验室受控环境,而这篇工作直接在偏远海岛上的野外导航中记录蝙蝠大脑活动,问这种神经“罗盘”在开放真实环境中是否依然稳定存在。 核心结果表明,头方向细胞在大尺度野外环境中仍形成稳定可靠的方向编码,并不...

Contextual Stochastic Optimization for Omnichannel Multicourier Order Fulfillment Under Delivery Time Uncertainty

发表:2025-10-14 · 收录:未知 · 供应链、物流与运营

问题与背景:全渠道零售中的订单履约长期依赖启发式规则,例如简单挑选最便宜的履约中心和承运商,但这种做法很难处理 delivery-time uncertainty、订单合单机会以及现实环境里只有 observational data 的约束。本文要解决的是:在大规模真实履约网络中,如何把预测与优化耦合成一个能直...

Evaluating large language model agents for automation of atomic force microscopy

发表:2025-10-14 · 收录:未知 · 工业过程与制造

这篇论文抓住了 self-driving laboratories 真正难的一层:很多实验自动化系统依赖刚性 protocol 和手工流程设计,很难体现专家在动态实验环境中的判断与适应能力。作者把 atomic force microscopy(AFM)作为一个高精度实验工作流,专门测试 LLM agents...

DeviceAgent: An autonomous multimodal AI agent for flexible bioelectronics

发表:2025-10-13 · 收录:未知 · AI 硬件与加速器

柔性生物电子设备开发天然是一个跨学科、长链条流程:从高层设计目标、器件布局,到工艺流程、缺陷检查和信号分析,通常都需要大量专家介入,扩展性和可复用性都很差。 DeviceAgent 把 LLM、VLM 和领域专用计算工具整合成一个自主多模态 agent,并用 context memory 串起整个设备开发链条...

Reac-Discovery: an artificial intelligence-driven platform for continuous-flow catalytic reactor discovery and optimization

发表:2025-10-13 · 收录:未知 · 化学、生物与自动化实验室

这篇论文针对连续流催化反应器设计中的长期瓶颈:几何结构设计、可打印性约束、制造实现和实验评估通常被拆散在多个环节里,导致设计空间探索依赖人工经验,迭代慢且难以系统比较。 论文提出 Reac-Discovery 平台,把参数化 periodic open-cell reactor design、printabil...

Explore brain-inspired machine intelligence for connecting dots on graphs through holographic blueprint of oscillatory synchronization

发表:2025-10-10 · 收录:未知 · 理论、鲁棒性与核心机器学习

这篇论文针对图神经网络一个很经典的限制切入:标准图消息传递往往建立在扩散或平滑范式上,因此容易出现 over-smoothing,且难以表达更具动态性和选择性的全局关系传播。作者试图把这个问题改写成一个更强的脑启发问题:如果大脑里的神经耦合是通过振荡同步来形成概念和关系,那么图上信息传播是否也可以从扩散范式改到...

Efficient Autoregressive Inference for Transformer Probabilistic Models

发表:2025-10-10 · 收录:未知 · 科学发现旗舰工作

## 问题与背景 问题与背景:很多 transformer-based probabilistic models 在单次边际预测上很强,但一旦要做 coherent joint prediction,往往需要反复重编码上下文,推理开销很大。这个问题在表格、小样本和神经信号建模里都很实际。 ## 方法/新意 方法...

InstaGeo: Compute-Efficient Geospatial Machine Learning from Data to Deployment

发表:2025-10-07 · 收录:未知 · 地理空间、遥感与灾害系统

geospatial foundation models 在研究中已经很强,但部署一直被两个问题卡住:一是从 raw satellite imagery 到 model-ready dataset 的自动数据管道缺失,二是 fine-tuned models 往往太大,难以在真实业务或 humanitarian...

Deterministic Legal Agents: A Canonical Primitive API for Auditable Reasoning over Temporal Knowledge Graphs

发表:2025-10-07 · 收录:未知 · 智能体与自主科学

高风险法律场景要求智能体的推理过程具备可审计性、可复现性和严格的时间一致性,而常规 RAG 在版本切换、因果追踪和层级法条关系上通常过于黑箱。论文把问题定义为:在持续演化的法律知识图谱上,如何让 autonomous legal agents 的检索与推理过程变成可验证执行,而不是不可追责的语义近似。 这篇工作...

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

发表:2025-10-06 · 收录:未知 · 智能体与自主科学

这篇论文针对一个越来越重要但经常被低估的问题:很多 agent 和知识密集型 LLM 系统的真实能力并不主要取决于权重更新,而取决于 context adaptation,也就是系统 prompt、外部记忆、策略说明和证据组织方式如何随着运行逐步演化。作者指出现有方法在这条路线上常见两个问题:一是 brevit...

Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits

发表:2025-10-06 · 收录:未知 · 智能体与自主科学

算法交易系统真正困难的部分,不只是执行质量,而是如何在复杂多市场环境中同时满足监管约束、避免自成交、控制参与率,并在事后能够向审计方证明整个执行过程确实守规。很多方法能优化交易结果,却没有把合规和可证明审计做成同等优先级的系统原语。 这篇工作把问题建模为带硬约束的 CMDP,用 PPO 训练执行 agent,并...

Zephyrus: An Agentic Framework for Weather Science

发表:2025-10-05 · 收录:未知 · 天气、气候与地球系统

## 问题与背景 问题与背景:天气与气候研究已经不只是单一预测模型的问题,还涉及资料同化、诊断分析、实验设计和多工具链协作。Zephyrus 试图把这些环节提升为可由智能体编排的天气科学工作流,而不是仅提供一个更强的预报网络。 ## 方法/新意 方法/新意:论文提出面向天气科学的 agentic framewo...

Read the Scene, Not the Script: Outcome-Aware Safety for LLMs

发表:2025-10-05 · 收录:未知 · 智能体与自主科学

很多安全对齐工作把问题看成“识别敏感表面信号并拒答”,但现实里模型的失败往往来自更深一层:它没有真正理解行动与结果之间的关系,因此既可能被语义伪装绕过,也可能对无害请求过度拒绝。 这篇论文把该问题明确命名为 consequence-blindness,并构造 CB-Bench 去区分 semantic risk...

AI-embodied multi-modal flexible electronic robots with programmable sensing, actuating and self-learning

发表:2025-10-03 · 收录:未知 · AI 硬件与加速器

这篇论文针对小尺度软体机器人在复杂环境中长期受限的问题:结构柔顺性带来适应性,但一旦需要同时具备多模态感知、局部计算、闭环决策和稳定运动,传统软体机器人平台往往会在集成度、实时性和鲁棒性上失效。论文因此不把机器人仅仅当作一个控制对象,而是把可编程柔性电子部件本身视为形态、感知、执行和计算一体化的构件。 作者提出...

Strengthening nucleic acid biosecurity screening against generative protein design tools

发表:2025-10-02 · 收录:未知 · 化学、生物与自动化实验室

问题与背景:AI-assisted protein design 工具正在降低蛋白工程门槛,也可能生成能绕过现有核酸合成订单筛查的危险蛋白变体。核酸合成筛查是生物安全链条中的关键 choke point。 方法与机制:论文评估开源 AI 蛋白设计软件能否重设计 proteins of concern 并逃避现有...

Connecting chemical and protein sequence space to predict biocatalytic reactions

发表:2025-10-02 · 收录:未知 · 化学、生物与自动化实验室

生物催化要真正进入合成路线设计,难点并不只是找到“会做这类反应的酶”,而是化学底物空间和蛋白序列空间之间长期缺乏高质量连接。这导致很多 biocatalysis 项目要靠漫长的筛酶和蛋白工程试错。 这篇论文通过高通量实验先大规模补全底物-酶配对数据,再构建 CATNIP 这样能够在 chemical space...

How to Train Your Advisor: Steering Black-Box LLMs with Advisor Models

发表:2025-10-02 · 收录:未知 · 智能体与自主科学

越来越多前沿模型以 black-box service 形式部署,调用方既拿不到权重,也很难做真正的参数级定制,最后往往只能在 system prompt 或 prompt optimization 上反复试错。这样的问题不只是可控性差,更在于一旦任务需要细粒度、按实例变化的辅助策略,静态提示很快就会失效。 这...

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

发表:2025-10-01 · 收录:未知 · 强化学习

这篇 ICCV 2025 论文把 Diffusion Transformer 扩展到通用 VLA policy,关注视觉、语言和动作之间的统一策略生成。它不是局部控制技巧,而是面向 generalist robot policy 的架构扩展。 方法价值在于把扩散式动作生成和 transformer scalin...

Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding

发表:2025-10-01 · 收录:未知 · 强化学习

这篇 ICCV 2025 论文把第一视角视频和具身传感器转化为可持续更新的场景记忆,用于动态场景理解。它针对的是 embodied agent 在真实环境中持续观察、记住和理解变化的能力。 它的系统价值在于 persistent memory:agent 不应把每段视频当孤立输入,而需要维护跨时间的场景状态、物...

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

发表:2025-10-01 · 收录:未知 · 强化学习

这篇 ICCV 2025 论文关注一个核心具身智能问题:如何把普通视频里的动作经验转化为机器人可学习、可迁移的操作表示。它不是只做视觉识别,而是把视频动作压缩成 latent motion token,作为视频、语言和机器人控制之间的桥接语言。 方法价值在于把动作学习的中间层显式化:motion token 既...

ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

发表:2025-09-30 · 收录:未知 · 理论、鲁棒性与核心机器学习

问题与背景:安全对齐模型会因简单语言变化暴露拒绝泛化缺陷,例如 harmful request 改成过去时后绕过拒绝。 方法与新意:ASGuard 先用 circuit analysis 定位与 targeted jailbreak 相关的 attention heads,再学习 channel-wise sc...

Newton Physics Engine

发表:2025-09-29 · 收录:未知 · Projects And Appendices

Newton 不是普通产品新闻,而是一个面向 generalist robotics 的底层仿真基础设施项目。它由 NVIDIA、Google DeepMind 和 Disney Research 共同开发,并由 Linux Foundation 托管,目标不是做单一求解器,而是提供一个统一、开放、可扩展的机器...

SoC-DT: Standard-of-Care Aligned Digital Twins for Patient-Specific Tumor Dynamics

发表:2025-09-29 · 收录:未知 · 数学与形式推理

这篇论文面向肿瘤动力学预测,关注在真实标准治疗流程下如何构建患者特异性的数字孪生。相比只做自然生长模拟的反应扩散模型,它把手术、放疗、化疗等标准治疗干预和基因组、人口统计学信息统一纳入一个可微分框架,用于预测治疗后的肿瘤结构演化。 方法上,论文提出 SoC-DT,把连续的肿瘤生长动力学与离散的标准治疗事件统一到...

ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory

发表:2025-09-29 · 收录:未知 · 智能体与自主科学

ReasoningBank 解决长期运行 agent 的核心缺陷:完成任务后丢弃交互历史,导致无法从成功和失败中积累可迁移策略。 系统把经验压缩成 generalizable reasoning memories,在测试时检索相关记忆指导行动,并在任务结束后写回新经验;MaTTS 进一步用更多交互生成更丰富对比...

Photonics-Aware Planning-Guided Automated Electrical Routing for Large-Scale Active Photonic Integrated Circuits

发表:2025-09-28 · 收录:未知 · AI 硬件与加速器

随着 AI 训练、推理和高性能科学计算对带宽、能耗与延迟的要求同时提高,主动光子集成电路正在从单点器件走向大规模系统。但一旦器件数量和异构程度上来,依赖人工脚本和局部修补的物理实现流程就会迅速失效,电子-光子联合设计自动化因此成为真实瓶颈。 这篇论文提出了一个面向 large-scale active PIC...

A Sentinel-3 foundation model for ocean colour

发表:2025-09-25 · 收录:未知 · 海洋、渔业与海岸系统

海洋与近岸环境监测一直受限于高质量标注稀缺、传感器异质和场景变化大。相比陆地遥感,ocean colour 这类任务更难建立通用 backbone,因此很多模型仍停留在特定下游任务或小数据集拟合层面。作者直接把问题提升为 marine earth observation foundation model,试图为...

PRIMT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Synthesis from Foundation Models

发表:2025-09-19 · 收录:未知 · 强化学习

## 问题与背景 问题与背景:偏好强化学习在机器人里很有潜力,但长期受制于人类反馈成本高、早期轨迹难比较、credit assignment 弱等问题。尤其在复杂操作和 locomotion 任务里,单一模态反馈常常不稳定。 ## 方法/新意 方法/新意:PRIMT 利用 foundation models 生...

MultiMAE for Brain MRIs: Robustness to Missing Inputs Using Multi-Modal Masked Autoencoder

发表:2025-09-14 · 收录:未知 · 神经科学与认知科学

这篇论文处理的是脑 MRI 中最实际也最顽固的问题之一:不同中心、不同病人、不同临床流程下,输入序列经常缺失,导致依赖完整多序列输入的模型在真实环境中迅速退化。作者把问题从“给定完整输入如何做得更好”转成“在缺失输入是常态时如何预训练出稳健表征”。 方法上,论文把 MultiMAE 思路改造成 3D 脑 MRI...

Accelerating protein engineering with fitness landscape modelling and reinforcement learning

发表:2025-09-08 · 收录:未知 · 化学、生物与自动化实验室

蛋白工程的核心瓶颈一直是实验搜索空间过大:单点突变还能穷举,多位点组合一旦展开,湿实验成本和迭代速度都会迅速失控。这篇论文正面解决的是“如何把实验蛋白工程变成可持续、可加速的主动探索过程”,而不是只再做一个更准的序列打分器。 论文把 fitness landscape modelling 和 reinforce...

GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

发表:2025-08-25 · 收录:未知 · 强化学习

机器人政策训练越来越依赖 learned world model 来降低真实交互成本,但传统 image-based world model 缺少稳定的三维几何表示,很难在机器人操作场景里同时保持空间一致性、物理合理性和可扩展的数据利用效率。这限制了它们作为训练基础设施的上限。 GWM 的核心思路是把机器人未来...

Memento: Fine-tuning LLM Agents without Fine-tuning LLMs

发表:2025-08-21 · 收录:未知 · 智能体与自主科学

这篇论文处理的是 agent 适应性的一个实际瓶颈:当任务变化很快、环境很开放时,仅靠微调大模型本身既昂贵又慢,而单纯提示词又难以持续积累经验。作者提出一个替代方向:不去 fine-tune LLM 参数,而是通过记忆与上下文机制让 agent 在交互中持续改善。 Memento 的核心不是更强的模型,而是一个...

Beyond Pass@1: Self-play with variational problem synthesis sustains RLVR

发表:2025-08-19 · 收录:未知 · 强化学习

这篇论文切入的是 RLVR 在推理模型训练中的一个真实瓶颈:模型在固定问题集上很快吃完高价值学习信号,导致继续训练时收益迅速枯竭。作者提出要让 RLVR 超越单次 pass@1 优化,关键不只是继续 rollout,而是通过 self-play 与 variational problem synthesis 持...

Scalable emulation of protein equilibrium ensembles with generative deep learning

发表:2025-08-14 · 收录:未知 · 化学、生物与自动化实验室

这篇 Science 论文处理的是蛋白质建模里一个比单结构预测更困难的问题:如何高效近似蛋白质的平衡构象分布,也就是 protein equilibrium ensembles。传统分子动力学虽然能给出动态分布,但成本极高,难以大规模覆盖;而只预测单一静态结构又不足以刻画真实功能相关的构象变化。 论文提出用生成...

Molecular and neural control of social hierarchy by a forebrain-thalamocortical circuit

发表:2025-08-11 · 收录:未知 · 神经科学与认知科学

这篇论文研究社会等级如何在大脑回路层面被形成和维持。作者在陌生雄鼠竞争范式中,追踪了前脑—丘脑—皮层多节点回路如何塑造赢家与输家的行为状态,试图把社会等级这种复杂社会现象落到具体的分子、突触和回路机制上。 核心发现是 mediodorsal thalamus 作为一个枢纽,整合 orbitofrontal co...

The Virtual Lab of AI agents designs new SARS-CoV-2 nanobodies

发表:2025-07-29 · 收录:未知 · 科学发现旗舰工作

这篇论文把多智能体科研系统从“写写方案、做做文献总结”的阶段推进到了真正的实验科学闭环。作者提出 Virtual Lab:由 LLM Principal Investigator 代理统筹、一组不同角色的 LLM scientist 代理协作,再由人类研究者提供高层反馈,共同完成复杂、跨学科的科研任务。目标不是...

Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

发表:2025-07-01 · 收录:未知 · 多模态基础模型

这篇 ACL 2025 论文关注视觉生成模型评估问题:固定指标很难覆盖用户想要的质量、对齐、细节一致性和任务特定要求。Evaluation Agent 把评估做成可 prompt 的 agentic framework。 它的复用价值在于评测接口:用户可以指定评价维度,系统通过更结构化的检查流程评估生成结果。这...

UTBoost: Rigorous Evaluation of Coding Agents on SWE-Bench

发表:2025-07-01 · 收录:未知 · 智能体与自主科学

这篇 ACL 2025 论文聚焦 SWE-Bench 上 coding agent 的严格评估问题。随着自动修复分数被大量引用,如何确认 agent 真正修好仓库而不是利用评测漏洞,已经成为软件 agent 方向的基础问题。 UTBoost 的价值在于强化 unit-test 和评估严谨性,逼近真实 CI-lo...

Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents

发表:2025-07-01 · 收录:未知 · 智能体与自主科学

这篇 ACL 2025 论文面向 agent reward modeling 的关键缺口:现实 agent 的好坏不只取决于文本答案,还涉及感知、规划、安全边界和动作过程。Agent-RewardBench 把这些维度放进统一评估框架。 它的可复用价值在于定义了 multimodal agent reward...

Skillful joint probabilistic weather forecasting from marginals

发表:2025-06-12 · 收录:未知 · 天气、气候与地球系统

- 分级:`突破性` - 正式标题:`Skillful joint probabilistic weather forecasting from marginals` - 原文:`2025-06-12-W2_WeatherNext2_FGN-Skillful_joint_probabilistic_weathe...

CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation

发表:2025-06-01 · 收录:未知 · 强化学习

这篇 CVPR 2025 论文提出 manual-based appliance manipulation benchmark:机器人需要阅读说明书、理解设备结构和操作步骤,再完成真实/仿真的家电操作。它把文档理解和具身操作结合到同一任务里。 它的关键价值在于评估 embodied agent 如何使用外部程序...

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins

发表:2025-06-01 · 收录:未知 · 强化学习

这篇 CVPR 2025 论文面向双臂操作这个高价值机器人问题,提出基于 generative digital twins 的 RoboTwin benchmark。它不仅给任务集合,还强调如何用生成式数字孪生扩展场景和评估条件。 它的核心价值是把机器人 benchmark 与生成式仿真基础设施结合起来。双臂任...

StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation

发表:2025-06-01 · 收录:未知 · 多模态基础模型

这篇 CVPR 2025 论文关注可扩展、可控的场景生成,把时空自回归框架与视频扩散模型结合起来。它解决的不是单帧图像美观度,而是连续场景在空间和时间上的可组织生成。 它的可复用价值在于为 world generation 和仿真资产生成提供结构化生成接口。自回归负责长期时空展开,扩散负责局部视觉质量和可控性...

Towards Precise Scaling Laws for Video Diffusion Transformers

发表:2025-06-01 · 收录:未知 · 生成建模与扩散

这篇 CVPR 2025 论文不是只提出一个视频生成模型,而是系统研究 Video Diffusion Transformer 的 scaling law。对于视频生成这种高计算成本方向,模型、数据和算力怎么配比本身就是关键研究问题。 它的价值在于给视频 DiT 训练提供定量指导:哪些因素更影响质量、不同规模下...

ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems

发表:2025-06-01 · 收录:未知 · 智能体与自主科学

这篇 CVPR 2025 论文把 agent 评估放到 ComfyUI 这类真实节点式 AI 工作流环境中,要求 LLM agent 自主设计协作式 AI 系统。它比普通文本任务更接近真实多工具、多节点生成工作流。 它的价值在于评测 agent 是否能理解节点图、连接工具、配置参数、调试流程并达成设计目标。这是...

TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

发表:2025-04-28 · 收录:未知 · 理论、鲁棒性与核心机器学习

向量量化一直是 KV cache 压缩和向量检索中的核心问题,但许多方法虽然降低了位宽,却仍要为每个 block 额外保存 scale、zero point 等高精度量化常数,导致真实内存收益被明显侵蚀。TurboQuant 处理的是这个长期被低估的系统瓶颈。 它提出一套 data-oblivious、适合 o...

The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search

发表:2025-04-10 · 收录:未知 · 智能体与自主科学

这篇工作真正重要的地方,不是单纯证明 LLM 能写论文,而是把 scientific workflow 的核心环节串成了一个可运行的端到端系统:提出假设、设计实验、写代码、运行实验、分析结果、作图和撰写论文都放进同一条 agentic loop。与早期依赖手工模板的系统相比,v2 的关键提升是 progress...

An unsupervised map of excitatory neuron dendritic morphology in the mouse visual cortex

发表:2025-04-09 · 收录:未知 · 神经科学与认知科学

这篇论文用 graph-based machine learning 分析 MICrONS 视觉皮层电镜体积中 30,000+ 个兴奋性神经元,把树突形态压缩成低维 morphology barcode,并比较 V1、AL、RL 三个视觉区的结构组织。 核心结论是:小鼠视觉皮层兴奋性神经元的树突形态大多不是离散...

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

发表:2025-04-09 · 收录:未知 · 多模态基础模型

多模态大模型开始越来越依赖 reward signal 做训练和推理时扩展,但把语言模型那套 reward modeling 直接搬到多模态场景会遇到三个具体问题:标注成本高、奖励粒度过粗,以及缺少成体系的评测。这使得多模态 CoT reward model 仍停留在零散实验阶段,缺少像样的训练接口和统一比较基...

ORCA: An Open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning

发表:2025-04-05 · 收录:未知 · 智能体与自主科学

这篇论文抓的是具身操作里一个经常被软件论文掩盖的现实瓶颈:很多 dexterous manipulation 研究并不是卡在算法想法,而是卡在手本体太贵、太脆、太难维护,导致长期 teleoperation、模仿学习和 sim-to-real 强化学习实验根本跑不起来。作者把问题直接收敛到研究基础设施层面,目标...

A streaming brain-to-voice neuroprosthesis to restore naturalistic communication

发表:2025-03-31 · 收录:未知 · 神经科学与认知科学

这篇 Nature Neuroscience 论文聚焦一个比脑机打字更困难也更接近真实交流的问题:如何把大脑中的言语意图直接、连续地转成声音,而不是等整句话想完后再一次性输出文字。对于严重瘫痪或失语患者来说,逐字显示虽然有用,但仍然打断了自然对话的节奏,因此研究目标转向更接近正常说话流程的 streaming...

End-to-end data-driven weather prediction

发表:2025-03-20 · 收录:未知 · 天气、气候与地球系统

- 分级:`突破性` - 正式标题:`End-to-end data-driven weather prediction` - 原文:`2025-03-20-W1_Aardvark_Weather-End_to_end_data_driven_weather_prediction.html` - 抽取:`ext...

Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework

发表:2025-03-12 · 收录:未知 · 强化学习

双臂机器人操作常被统一建模成一个同时接收两只手观测和状态、再直接输出联合动作的大模型。但这类 integrated-control 设定默认所有任务都需要强耦合协作,忽略了大量其实只需要弱耦合甚至局部独立决策的子问题,结果既增加模型复杂度,也削弱了对不同协作结构的表达能力。 这篇工作的关键新意是提出 decou...

Sampling representational plasticity of simple imagined movements across days enables long-term neuroprosthetic control

发表:2025-03-01 · 收录:未知 · 神经科学与认知科学

问题与背景:脑机接口长期稳定性的核心难题在于神经表征会随时间漂移,尤其是想象运动这类内部状态的神经编码很难在跨天尺度上保持稳定。论文关注的正是这一问题:能否利用表征可塑性本身,而不是把它当成纯噪声,来支持长期神经假肢控制。 方法/新意:作者围绕简单 imagined movement 的跨日表征变化,提出通过对...

Rapid and accurate prediction of protein homo-oligomer symmetry using Seq2Symm

发表:2025-02-27 · 收录:未知 · 化学、生物与自动化实验室

这篇论文解决的是蛋白结构预测工作流里一个很实用但长期缺口明显的问题:如何快速、准确地从单条氨基酸序列预测蛋白 homo-oligomer 的对称性。很多蛋白必须组装成同链多聚体才能发挥功能,但过去这一步往往依赖模板搜索或成本更高的结构建模流程,速度和覆盖率都受限。 作者的做法是对多类 protein found...

A foundation model to predict and capture human cognition

发表:2025-02-26 · 收录:未知 · 神经科学与认知科学

这篇论文之所以过本库更严格的 cognition / neuroscience 门槛,不是因为它又做了一个像人的行为预测器,而是因为它把‘统一认知模型’这个老问题推进到了 foundation-model 时代。Centaur 试图用一个自然语言可表达实验上的统一模型来覆盖决策、执行控制、记忆等多类任务。 真正...

Developmental variations in recurrent spatiotemporal brain propagations from childhood to adulthood

发表:2025-02-05 · 收录:未知 · 神经科学与认知科学

这篇论文研究儿童到成年早期的大脑内在时空传播模式如何成熟。作者关注的不是静态功能连接,而是脑活动在不同网络之间按时间滞后传播的动态轨迹,试图回答发育过程中哪些传播方向更稳定、哪些逐渐减弱,以及这些变化和认知能力之间的关系。 方法上,论文利用时间滞后动态传播分析,提取了三类主要传播轴:感觉到联合区、任务正网络到默...

Automating alloy design and discovery with physics-aware multimodal multiagent AI

发表:2025-01-20 · 收录:未知 · 化学、生物与自动化实验室

这篇论文要解决的是合金设计中一个非常现实的瓶颈:真正有价值的材料发现往往需要同时完成知识检索、物理模拟、图像和数值结果分析以及多目标设计权衡,这类流程长期依赖人类专家手工串联,效率低且难以扩展。 AtomAgents 的核心是一个 physics-aware multimodal multi-agent 框架...

Accurate predictions on small data with a tabular foundation model

发表:2025-01-08 · 收录:未知 · 理论、鲁棒性与核心机器学习

这篇论文针对的是机器学习里一个长期稳定却又相对保守的领域:小样本表格数据预测。传统上,这类任务通常由梯度提升树和随机森林主导,而大模型路线往往被认为样本效率不足。 论文的新意在于把 foundation model / in-context learning 思路真正带进了 tabular 预测。作者通过大规模...

Titans: Learning to Memorize at Test Time

发表:2024-12-31 · 收录:未知 · 推理、记忆与推理时控制

- 分级:`颠覆性` - 正式标题:`Titans: Learning to Memorize at Test Time` - 原文:`2024-12-31-R2_Titans-Titans_Learning_to_Memorize_at_Test_Time.pdf` - 抽取:`extracted.md` #...

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

发表:2024-12-24 · 收录:未知 · 强化学习

通用 embodied agent 和 Vision-Language-Action 模型开始具备处理语言条件操控任务的潜力,但现有 benchmark 对世界知识迁移、隐含意图理解和长时程多步任务覆盖不足,难以系统检验这类模型是否真正接近通用操作能力。VLABench 的目标就是把这类缺口明确成一个可复用的评...

AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation

发表:2024-12-09 · 收录:未知 · 强化学习

通用双臂机器人操作一直受制于数据成本:双臂动作空间更高、采集更贵、泛化更难,而这与单臂策略近年依靠更大模型和更大数据实现快速扩展形成了鲜明对比。如果双臂系统每次都要从头收集和训练,就很难跟上机器人基础模型的扩张速度。 AnyBimanual 的核心思路是把预训练单臂 policy 直接当作双臂策略的知识底座,再...

Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification

发表:2024-11-22 · 收录:未知 · 多模态基础模型

文本生成视频模型正在快速进入机器人、自动驾驶和内容生产等场景,但主流评测仍主要偏向视觉质量与流畅度,对时间一致性和 prompt-to-video 对齐的约束表达能力不足。这在安全敏感场景里尤其成问题,因为真正关键的往往不是画面是否好看,而是视频是否满足跨时间的语义和行为约束。 这篇工作的核心贡献是提出 Neu...

Blending neural operators and relaxation methods in PDE numerical solvers

发表:2024-10-17 · 收录:未知 · 物理与 AI for Science

这篇论文处理的是科学计算里一个很经典但一直没有被 AI 真正解决干净的问题:传统 relaxation / multigrid / Krylov 一类数值方法在高频误差与低频误差上的收敛特性并不均衡,而纯 neural operator 又有明显的 spectral bias,很难稳健覆盖高频部分。作者没有把神...

AFlow: Automating Agentic Workflow Generation

发表:2024-10-14 · 收录:未知 · 智能体与自主科学

AFlow tackles a practical bottleneck in agent systems: building strong workflows still takes substantial human effort, and existing automatic approaches oft...

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

发表:2024-10-14 · 收录:未知 · 智能体与自主科学

面向长期交互的 chat assistant,真正关键的能力不是单轮问答,而是跨很多 session 持续记住用户事实、更新旧知识、处理时间变化并在无证据时拒答。LongMemEval 针对的正是这个现实缺口:此前很多记忆评测要么上下文过短,要么缺少知识更新与多 session 结构,导致系统很难被逼近真实长期...

GenCAD: Image-Conditioned Computer-Aided Design Generation with Transformer-Based Contrastive Representation and Diffusion Priors

发表:2024-09-08 · 收录:未知 · AI 硬件与加速器

从图像或草图生成真正可编辑、可制造的 CAD 模型,是 AI 进入产品与机械设计流程的关键一步。很多 3D 生成工作可以输出 mesh、voxel 或 point cloud,但这些表示并不能直接进入工程设计与制造流程,因此和真实 CAD 工作流之间一直有明显断层。 GenCAD 把这个问题建成 image-c...

NeuroLM: A Universal Multi-task Foundation Model for Bridging the Gap between Language and EEG Signals

发表:2024-08-27 · 收录:未知 · 神经科学与认知科学

这篇工作针对 EEG 预训练领域一个长期存在的瓶颈:已有基础模型虽然能通过大规模预训练学到通用表征,但下游任务往往仍需要分别全量微调,导致任务割裂、资源浪费,也难以形成真正统一的 EEG 基础模型。论文提出 NeuroLM,把 EEG 信号视为一种可被语言模型处理的“外语”,试图把 LLM 式多任务推理能力引入...

Automated Design of Agentic Systems

发表:2024-08-15 · 收录:未知 · 智能体与自主科学

Automated Design of Agentic Systems reframes a large part of agent engineering as a search problem rather than a hand-designed craft. Instead of manually in...

GPTSwarm: Language Agents as Optimizable Graphs

发表:2024-07-08 · 收录:未知 · 智能体与自主科学

GPTSwarm proposes a clean abstraction for language-agent systems: treat them as computational graphs whose nodes are LM calls or multimodal operations and w...

IRASim: A Fine-Grained World Model for Robot Manipulation

发表:2024-06-20 · 收录:未知 · 强化学习

机器人操作中的 world model 一直受限于一个很具体但关键的问题:动作和视觉结果之间往往对不齐,尤其在精细交互场景里,已有方法难以稳定建模机器人与物体之间的细粒度接触和状态变化。这直接限制了 world model 在策略评估、规划和测试时扩展中的实际价值。 IRASim 的核心做法是训练一个面向机器人...