Fast-WAM: Do World Action Models Need Test-time Future Imagination?

发表:2026-03-17 · 收录:未知 · 强化学习

这篇论文关注 embodied world model 里一个非常具体但很关键的问题:World Action Models 的收益,到底主要来自测试时显式未来想象,还是来自训练时的视频建模信号。它不是单纯继续堆更慢的 imagine-then-execute,而是在问这条路线里真正有效的因果因素是什么。 作者...

VQKV: High-Fidelity and High-Ratio Cache Compression via Vector-Quantization

发表:2026-03-17 · 收录:未知 · 推理、记忆与推理时控制

这篇论文针对长上下文 LLM 的核心部署瓶颈:KV cache 随上下文长度线性增长,直接限制显存、吞吐和可生成长度。与 token eviction、低秩投影或 scalar quantization 相比,作者把问题转成 vector-level quantization,希望同时获得高压缩率和高重构保真度...

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

发表:2026-03-17 · 收录:未知 · 多模态基础模型

该文处理的是交互式游戏世界模型里的两个核心难点:动作控制不精确,以及长时程探索中的三维一致性漂移。现有方法通常把用户动作当成抽象条件信号,而没有把动作和世界几何之间通过相机位姿耦合这一事实直接建模。 WorldCam 的关键做法是把 camera pose 提升为统一几何表示。一方面,它把用户输入映射到物理一致...

CLOUD: A Scalable and Physics-Informed Foundation Model for Crystal Representation Learning

发表:2026-03-17 · 收录:未知 · 化学、生物与自动化实验室

该文关注晶体性质预测在材料发现中的基础瓶颈:实验测量和第一性原理计算成本高,现有机器学习模型又往往依赖带标签数据、结构表示不充分,且缺少可组合的物理约束。论文把问题提升为一个更一般的材料 foundation model 问题,希望在统一表示上同时覆盖多类晶体性质任务。 论文提出 CLOUD,一个基于 tran...

Dual-encoder contrastive learning accelerates enzyme discovery

发表:2026-03-17 · 收录:未知 · 化学、生物与自动化实验室

酶工程里的核心瓶颈往往不在后续定向进化本身,而在于能否先从巨大蛋白空间里找到值得起步的候选酶。很多机器学习工作能做局部打分,但真正把反应需求映射到可实验验证的 enzyme recommendation,并在大规模数据和真实实验里证明有效,门槛一直很高。 这篇论文提出 Horizyn-1,用 dual-enco...

Online Experiential Learning for Language Models

发表:2026-03-17 · 收录:未知 · 智能体与自主科学

这篇论文针对的是部署后语言模型如何持续学习的问题。当前大模型能力的提升几乎全部发生在离线阶段,依赖人工标注的 SFT 或模拟环境里的 RL,而真实部署中积累的大量交互经验往往只被当作日志保存,无法转化为稳定的能力改进。作者因此把重点放在一个更现实的 setting 上:只有文本反馈、没有显式标量奖励、也不要求训...

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

发表:2026-03-17 · 收录:未知 · 智能体与自主科学

这篇论文针对的是一个很现实但长期被弱化的问题:部署后的 LLM agent 往往是静态的,用户需求和任务分布在变,系统却只能靠人工整理记忆、重启训练或停机更新来追赶。作者把这个问题放到 OpenClaw 这类多渠道、持续在线的 agent 平台上来讨论,强调核心矛盾不是单次任务求解,而是如何在不中断服务的前提下...

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

发表:2026-03-17 · 收录:未知 · 智能体与自主科学

这篇论文要解决的问题不是一般的视频生成,而是更接近机器人训练需求的 embodied simulation:既要保留机器人控制轨迹的精确性,又要让环境反应具备真实的时空生成能力。作者明确指出,传统模拟器在视觉与交互上过于刚性,而已有生成式模拟方法又大多停留在 2D 或静态环境条件,无法真正覆盖机器人与世界相互作...

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

发表:2026-03-17 · 收录:未知 · 智能体与自主科学

这篇论文处理的是 deep research agent 训练数据的可复现性瓶颈。高质量研究型 agent 需要长时程轨迹,轨迹里包含搜索、打开网页、定位证据、综合推理和多轮工具调用;但现有数据合成流程通常依赖商业搜索 API 和在线网页环境,成本高、状态不稳定,也难以复现和分析。 OpenResearcher...

Chronos: Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory

发表:2026-03-17 · 收录:未知 · 智能体与自主科学

长期会话记忆里最难的部分往往不是“能否检索到相关片段”,而是如何在多月跨度的对话中正确处理时间变化、事件先后关系和跨轮次多跳查询。很多 memory 系统仍然主要依赖语义相似度,因此一旦用户事实随时间变化,或者问题本身要求 temporal filtering,就很容易把语义相关但时间错误的证据混在一起。 Ch...

Mamba-3: Improved Sequence Modeling using State Space Principles

发表:2026-03-16 · 收录:未知 · 理论、鲁棒性与核心机器学习

Mamba-3 处理的是当前线性序列模型最核心的矛盾:虽然 sub-quadratic 架构在理论上具备线性时间和常数内存优势,但很多设计为了训练效率过度简化了状态更新,导致模型质量、状态追踪能力以及真实硬件上的推理效率都不够理想。论文因此明确采用 inference-first 视角重新审视 state sp...

MobileLLM-Flash: Latency-Guided On-Device LLM Design for Industry Scale

发表:2026-03-16 · 收录:未知 · 科学发现旗舰工作

这篇论文关注的是端侧大语言模型设计里一个经常被理论代理指标误导的问题:参数量和 FLOPs 并不能可靠代表真实移动端延迟。作者把问题直接放回工业部署语境中,要求模型不仅要快,还要兼容标准移动端运行时和标准软件栈,避免依赖不可移植的定制算子。 方法上的核心是 hardware-in-the-loop 架构搜索。作...

FlashSampling: Fast and Memory-Efficient Exact Sampling

发表:2026-03-16 · 收录:未知 · 科学发现旗舰工作

这篇论文处理的是大词表解码里一个看似简单、但在系统上长期低效的步骤:从语言模型输出分布中采样下一个 token。传统实现通常在 LM head matmul 之后把完整 logits 张量写回 HBM,再单独做 softmax / sampling 或 Gumbel 采样,这会引入额外的显存流量和 kernel...

Attention Residuals

发表:2026-03-16 · 收录:未知 · 推理、记忆与推理时控制

这份技术报告针对现代大模型里一个长期被默认接受但很少被单独重构的组件:残差连接。标准 PreNorm Transformer 会把所有前层输出用固定权重累加到当前层,随着深度增长,这会带来隐藏状态幅度膨胀、层贡献被稀释以及梯度分布不均的问题。Moonshot 团队把这个问题明确提出,并把它从训练稳定性的附属细节...

Mixture-of-Depths Attention

发表:2026-03-16 · 收录:未知 · 推理、记忆与推理时控制

这篇论文处理的是深层 Transformer 一个很核心但长期被残差连接掩盖的问题:随着深度增加,浅层形成的有用信息会在反复残差更新中逐步被冲淡。标准做法默认每一层只通过当前层序列注意力和固定残差继续传播,而无法显式、动态地从更早的层里把有价值的表示重新读出来。作者试图把“跨层信息访问”从静态残差,升级成真正的...

Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty

发表:2026-03-16 · 收录:未知 · 推理、记忆与推理时控制

这篇论文试图解释推理模型里一个常被表面化理解的现象:所谓的 Aha moment 或自我纠错,到底是不是由某些特殊 token 直接触发。作者给出的答案是否定的。他们把推理分解成两类信息活动:程序性信息,也就是按步骤执行;以及 epistemic verbalization,也就是把内部不确定性显式外化成文本...

CORAL: COntextual Reasoning And Local Planning in A Hierarchical VLM Framework for Underwater Monitoring

发表:2026-03-16 · 收录:未知 · 海洋、渔业与海岸系统

牡蛎礁监测是典型的高风险、高成本海洋生态任务。人工潜水效率低、危险高,而传统 AUV 又主要依赖几何导航,无法理解场景语义。把 VLM 直接做成端到端导航器虽然看起来先进,但会带来推理频繁、动力学失配和误差累积等问题。 CORAL 的方法很干净:高层 VLM 只负责语义层面的 waypoint 选择,底层由 d...

Grounding World Simulation Models in a Real-World Metropolis

发表:2026-03-16 · 收录:未知 · JEPA 与预测式世界模型

这篇论文处理的是 world model 方向里一个很关键但很少被真正解决的问题:如何让世界模拟不再停留在“看起来像真的”虚构环境,而是锚定到现实中真实存在的城市空间。以往视频世界模型大多生成视觉上合理但不对应真实地理结构的场景,而这篇工作把目标直接改成真实城市级别的 long-horizon simulati...

DUET: Disaggregated Hybrid Mamba-Transformer LLMs with Prefill and Decode-Specific Packages

发表:2026-03-16 · 收录:未知 · AI 硬件与加速器

这篇论文针对 hybrid Mamba-Transformer 模型提出了一个硬件层面的关键观察:prefill 和 decode 不只是负载不同,而是对架构与封装的需求都不同,因此单一同构加速器很难同时做好两者。对本仓库来说,这正是 AI 硬件设计里最值得关注的“结构性设计结论”。 DUET 的做法是把 pr...

SmartSearch: How Ranking Beats Structure for Conversational Memory Retrieval

发表:2026-03-16 · 收录:未知 · 智能体与自主科学

这篇论文直指当前对话长期记忆系统的主流路线:很多系统在注入阶段就用 LLM 做摘要、结构化或图谱化,再在查询阶段叠加复杂的语义路由。但作者认为这些环节大多在做昂贵而脆弱的过度加工,真正的瓶颈并不在“如何把记忆整理得更复杂”,而在“检索到的大量候选里,什么证据能在 token 截断之前被排到前面”。 论文提出 S...

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

发表:2026-03-16 · 收录:未知 · 智能体与自主科学

研究 agent 这条线里,一个持续存在的问题是:系统可以做很多步骤,但每一步的可靠性和整条推理链的一致性都很脆弱。MiroThinker-1.7 与 H1 把这个问题具体化为 verification at local and global levels,而不是继续单纯堆长上下文或多工具调用。 MiroThi...

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

发表:2026-03-16 · 收录:未知 · 智能体与自主科学

高性能 search agent 一直被少数工业实验室垄断,一个关键瓶颈不是模型结构,而是高质量训练数据不透明。这篇论文直接对准这个问题,试图把 frontier-level search agent 的训练入口从闭源系统手里拆出来。 作者提出 OpenSeeker,并把核心放在两块:一是 fact-groun...

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

发表:2026-03-16 · 收录:未知 · 智能体与自主科学

这篇论文处理的是 embodied AI 里一个关键但长期没有被真正打通的问题:从稀疏视角图片或单目视频重建 human-scene interaction 时,视觉上看着合理的结果往往并不满足物理约束,放进 simulator 就会失稳,从而无法直接用于机器人、仿真或 real-to-sim 工作流。 HSI...

Kimodo: Scaling Controllable Human Motion Generation

发表:2026-03-16 · 收录:未知 · 智能体与自主科学

Kimodo 处理的是 humanoid robotics、simulation 和 animation 都共同缺少的一块基础设施:高质量、可控、可大规模生成的 3D human motion 数据。过去的文本到动作或约束到动作模型通常受限于小规模公开 mocap 数据,因此在运动质量、控制精度和泛化上都很难真...

POLCA: Stochastic Generative Optimization with LLM

发表:2026-03-16 · 收录:未知 · 智能体与自主科学

这篇论文关注的是一个越来越重要的问题:把大语言模型本身当作优化器,用自然语言提案去优化 prompt、agent 配置、代码或系统策略。但这类优化天然存在两个难点,一是评估通常带噪声,二是 LLM 会不断生成语义相近的冗余候选,导致搜索成本膨胀而收敛变慢。 POLCA 给出的核心框架是用优先级队列管理候选解和评...

M²RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling

发表:2026-03-15 · 收录:未知 · 理论、鲁棒性与核心机器学习

这篇论文针对一个被默认接受了很多年的判断提出了反驳:非线性 RNN 在语言建模里落后,并不一定是因为非线性本身不适合大规模建模,而更可能是因为传统 RNN 的状态容量太小。作者把问题从“是否使用非线性”转向“是否给非线性递归足够大的矩阵值状态空间”,重新打开了非线性 RNN 作为语言模型主干的一条路线。 论文提...

V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

发表:2026-03-15 · 收录:未知 · JEPA 与预测式世界模型

这篇论文针对视频自监督学习里一个很实际的结构性问题:JEPA 类方法在全局语义和时序理解上很强,但只对被遮挡区域施加预测损失时,可见 token 会逐渐失去局部空间结构,退化成服务于全局聚合的载体,导致模型在分割、深度估计和机器人操作这类密集任务上明显吃亏。作者的目标不是再做一个更大的视频表征模型,而是把“全局...

AI Can Learn Scientific Taste

发表:2026-03-15 · 收录:未知 · 智能体与自主科学

这篇论文关注 AI scientist 研究中一个长期被忽视但非常关键的问题:模型不仅要会执行科研任务,还要具备对研究方向、研究问题和潜在影响力的判断力,也就是作者所说的 scientific taste。相比现有工作主要优化检索、实验执行或论文生成,这篇论文把科研品味本身提升为可学习、可评估、可对齐的对象...

Autonomous Agents Coordinating Distributed Discovery Through Emergent Artifact Exchange

发表:2026-03-15 · 收录:未知 · 智能体与自主科学

这篇论文把 AI scientist 的一个关键瓶颈说得很清楚:现有很多系统仍是静态、中心化、手工编排的 pipeline,多 agent 之间很少真正通过共享产物与可追溯 lineage 形成开放式协作。它试图把问题从“如何做一个更强的单体 AI scientist”改成“如何让独立 agent 在共享科学生...

D-MEM: Dopamine-Gated Agentic Memory via Reward Prediction Error Routing

发表:2026-03-15 · 收录:未知 · 智能体与自主科学

长程 LLM agent memory 的一个现实瓶颈,是很多 append-and-evolve 体系在写入和结构更新时很快走向高 token 开销和平方级延迟。随着记忆规模增长,真正需要解决的已不是‘能不能存’,而是哪些输入值得触发代价高昂的认知重组。 D-MEM 的核心贡献,是用 reward predi...

SAGE: Synthetic Aging for a Grid Environment

发表:2026-03-14 · 收录:未知 · 能源、水与基础设施

电网级储能系统的老化问题具有多年尺度、强耦合电热反馈和显著资产异质性,但现实世界中很少有可开放获取、长期连续、物理一致的数据可以支持算法开发。这使很多 degradation-aware optimization、digital twin 和 machine learning 工作缺乏稳定 benchmark...

Learning Actionable Manipulation Recovery via Counterfactual Failure Synthesis

发表:2026-03-13 · 收录:未知 · 强化学习

机器人操作系统已经能完成越来越复杂的抓取与装配任务,但真正难落地的地方往往不是成功执行,而是失败后能否安全、低成本地恢复。现有 failure-learning 路线通常依赖真实失败数据采集或 simulator perturbation,两者分别受制于成本/安全和明显的 sim-to-real gap。 这篇...

Feynman: Knowledge-Infused Diagramming Agent for Scalable Visual Designs

发表:2026-03-13 · 收录:未知 · 多模态基础模型

问题与背景:高质量、知识密集且图文严格对齐的视觉设计数据非常稀缺,尤其是面向数学、科学和计算机领域的示意图、结构图和关系图。互联网虽然有大量图像和文本,但真正适合训练视觉推理模型的 diagram-caption 对并不多。Feynman 要解决的是如何用 agent pipeline 低成本、大规模地生成语义...

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

发表:2026-03-13 · 收录:未知 · 多模态基础模型

这篇论文针对统一多模态模型里一个长期存在但很难同时兼顾的问题:视觉理解和视觉生成虽然都想共享同一个多模态主干,但两者对视觉表征和解码方式的要求并不一致。理解更希望得到稳定、紧凑、语义明确的视觉 token,而生成又需要保留足够的局部纹理和高频细节。如果把这两种需求硬压在同一套 patch 表征上,通常会出现理解...

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

发表:2026-03-13 · 收录:未知 · JEPA 与预测式世界模型

这篇论文针对 JEPA 系世界模型长期存在的一个核心问题:一旦直接从像素端到端训练 encoder 和 dynamics predictor,模型很容易发生 representation collapse,因此现有方法往往依赖多项损失、EMA、冻结预训练编码器或额外监督信号来维持稳定性。这样虽然能工作,但训练配...

BenDFM: A taxonomy and synthetic CAD dataset for manufacturability assessment in sheet metal bending

发表:2026-03-13 · 收录:未知 · AI 硬件与加速器

这篇论文聚焦产品级机械设计里最实际也最缺数据支撑的问题之一:在 CAD 阶段尽早判断零件在具体制造工艺下是否可制造、制造难度有多高。现有学习式 DFM 工作要么 manufacturability 定义混乱,要么数据只覆盖可制造样本,导致模型难以学习真正有用的边界。 论文的核心贡献有两部分。第一,它把 manu...

Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models

发表:2026-03-13 · 收录:未知 · 生成建模与扩散

这篇论文处理的是文本到图像模型后训练里一个已经很重要、但代价很高的问题:如何用强化学习直接优化图像质量和文本对齐。现有做法通常把扩散或流匹配采样过程拆成多步策略决策,把每一步都当作动作来估计策略梯度,但这样会带来很高的更新方差,训练既慢又容易出现 reward hacking 伪影。 论文提出 Finite D...

ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning

发表:2026-03-13 · 收录:未知 · 智能体与自主科学

agentic RL 和传统 RL 最大的系统差异,不在训练循环本身,而在外部资源依赖:代码执行要占 CPU,reward model 和 verifier 可能跑在独立 GPU 池里,轨迹执行又会因为工具调用和环境交互拉长生命周期。现有框架通常按任务或轨迹做静态过配,这让外部资源长期被锁死,成为 agenti...

EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings

发表:2026-03-13 · 收录:未知 · 智能体与自主科学

企业环境里的 agent 评测长期偏弱,一个根本问题是现有 benchmark 很少真正覆盖持久状态、权限约束、多工具调用和长程计划这些现实企业场景最难的部分。EnterpriseOps-Gym 正面把这个缺口做成了环境级 benchmark。 论文构建了一个带有 164 张数据库表、512 个工具和 1150...

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

发表:2026-03-12 · 收录:未知 · 理论、鲁棒性与核心机器学习

这篇论文挑战了一个默认前提:后训练是否真的在学习全新能力,还是更多在预训练权重附近选择已经潜伏存在的任务专家。作者提出 large pretrained models 并不只对应一个单点解,而是位于一个局部高密度的“专家丛林”之中;当预训练足够强时,对权重做小幅随机扰动,就可能落到不同任务的可用专家上。 方法上...

Automatic Generation of High-Performance RL Environments

发表:2026-03-12 · 收录:未知 · 强化学习

这篇论文针对强化学习基础设施中的一个长期低效环节:把复杂环境从参考实现翻译成高性能可训练后端,往往需要数月专门工程工作。作者直接把这个问题当作可自动化的软件与系统生成任务,目标不是再做一个环境,而是自动生成语义等价且高吞吐的 RL 环境实现。 方法上,论文提出一套可复用 recipe,包括通用 prompt 模...

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

发表:2026-03-12 · 收录:未知 · 多模态基础模型

这篇论文处理的是流式视觉空间智能的核心问题:面对无界视频流,模型如何持续维护、更新并组织 3D 空间证据,而不是只依赖更长上下文窗口。作者把问题从“长上下文视频理解”推进到“持续空间记忆与结构化更新”,这比普通视频问答或短视频理解更接近真实世界中的在线空间认知。 方法上,Spatial-TTT 把 test-t...

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

发表:2026-03-12 · 收录:未知 · 多模态基础模型

这篇论文关注一个很典型但长期被低估的问题:结构化空间设计任务并不只是图像生成,而是同时涉及几何约束、语义关系和层级组织。以建筑平面图为例,现有扩散模型和语言模型虽然能提升视觉质量,却常常在空间一致性、可控编辑和符号推理上表现不足。 作者提出 HouseMind,把房间实例离散化为专门的 token,构造统一词表...

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

发表:2026-03-12 · 收录:未知 · 多模态基础模型

问题与背景:视觉基础模型往往被切成静态图像语义、离线视频建模和几何重建等不同系统,难以形成统一、实时、可行动的 streaming visual backbone。 方法/新意:OmniStream 引入因果时空注意力、3D-RoPE 和 persistent KV-cache,支持连续视频流的逐帧在线处理,并...

O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

发表:2026-03-12 · 收录:未知 · 多模态基础模型

这篇论文针对具身智能和自动驾驶场景里的一个核心问题:如何在 360 度、开放词汇、仅视觉输入的条件下,对三维场景进行统一的占据与语义重建。现有 occupancy prediction 方法通常依赖有限视角和封闭类别集合,因此很难支撑开放世界探索所需的全局、安全和语义一致的环境理解。 作者提出 O3N,一个端到...

Temporal Straightening for Latent Planning

发表:2026-03-12 · 收录:未知 · JEPA 与预测式世界模型

这篇论文处理的是 latent world model planning 的一个底层但关键的问题:即便感知编码器足够强,学出来的 latent space 也未必适合规划。预训练视觉表示往往包含大量与规划无关的信息,导致 latent trajectory 高度弯曲,Euclidean 距离不能可靠近似可达路径...

Computational design of conformation-biasing mutations to alter protein functions

发表:2026-03-12 · 收录:未知 · 化学、生物与自动化实验室

这篇论文聚焦蛋白工程里一个很核心但长期代价高的问题:如何系统地偏置蛋白的构象状态,从而改变其功能输出。很多蛋白功能并不只由静态结构决定,而取决于开放态、闭合态或中间态之间的构象分布。传统做法往往需要高成本的结构分析、分子动力学或大量实验筛选。 作者提出 conformation biasing(CB)方法,利用...

ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics

发表:2026-03-12 · 收录:未知 · 化学、生物与自动化实验室

问题与背景:单细胞 RNA 测序数据极其丰富,但从表达矩阵到机制性生物学假设之间仍有明显鸿沟。现有 agent 往往缺少对真实表达表示的访问,而表达基础模型又难以直接和自然语言推理对接。 方法/新意:ELISA 将 scGPT 表达嵌入、BioBERT 语义检索和 LLM 解释器组合起来,形成一个可交互、可解释...

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

发表:2026-03-12 · 收录:未知 · 智能体与自主科学

科学文档推理一直存在一个老问题:如果只做小而精的人工 benchmark,真实性和可解释性强,但规模不够;如果做大规模合成数据,规模上来了,又很容易失真,尤其在跨图表、公式、正文、多页上下文联合推理时,模型学到的往往不是科学文档理解本身,而是数据构造偏差。SciMDR 试图直接解决这个数据构建层面的张力。 作者...

LABSHIELD: A Multimodal Benchmark for Safety-Critical Reasoning and Planning in Scientific Laboratories

发表:2026-03-12 · 收录:未知 · 智能体与自主科学

随着多模态大模型和具身代理开始进入实验室自动化,真正的瓶颈已经不只是任务完成率,而是高风险环境中的安全推理能力。科学实验室里存在脆弱器皿、危险化学品和高精度设备,一次错误规划就可能带来不可逆损失。现有通用 benchmark 很难覆盖这种安全约束,因此实验室场景中的 agent safety 仍缺少专门、结构化...

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

发表:2026-03-12 · 收录:未知 · 智能体与自主科学

问题与背景:长时程机器人任务的一个核心瓶颈是数据采集、策略学习和部署流程割裂,导致需要大量人工重置、策略组合脆弱且执行阶段与采集阶段语义不一致。 方法/新意:RoboClaw 用一个 VLM-driven controller 统一数据采集、策略学习和任务执行,并引入 entangled action pair...

LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation

发表:2026-03-12 · 收录:未知 · 智能体与自主科学

LifeSim 关注长期个性化助手的评测缺口:真实用户需求受时间、地点、天气、偏好、认知状态和生活轨迹共同影响,而现有 benchmark 多是短程静态任务。 它用 BDI 认知模型生成用户 belief、desire、intention,并结合物理环境产生连贯 life trajectories,再据此构造...

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

发表:2026-03-11 · 收录:未知 · 科学发现旗舰工作

这篇论文解决的是长上下文推理里一个非常具体但越来越关键的系统瓶颈:KV cache 会随着输入长度线性增长,而现有 eviction 方法要么不够准,要么需要额外生成草稿 future tokens,成本高且不稳定。作者的目标不是重新设计 attention,而是在不引入生成开销的前提下,更准确地判断哪些 KV...

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

发表:2026-03-11 · 收录:未知 · 多模态基础模型

这篇论文关注扩散式规划器在复杂任务里的一个常见问题:纯从数据学出的 diffusion planner 在组合推理和约束满足上往往不稳定。作者试图把语言模型推理和先验知识显式引入规划过程。 方法上,KnowDiffuser 用语言模型提供任务相关推理与知识约束,再用 prior-informed traject...

De novo design of functional nucleic acids of aptamers

发表:2026-03-11 · 收录:未知 · 化学、生物与自动化实验室

问题与背景:功能核酸和适配体设计空间巨大,传统 HT-SELEX 实验筛选效率有限,而核酸语言模型的生成能力仍缺乏系统验证。论文把问题定位为如何让 NA-LLM 真正进入 de novo functional nucleic acid design。 方法与机制:InstructNA 将核酸大语言模型与 HT-...

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

发表:2026-03-11 · 收录:未知 · 智能体与自主科学

LLM agent 一个长期没有解决好的问题,是任务虽然能完成,但执行过程中的失败模式、低效步骤和恢复策略并不会自动沉淀成后续可复用的能力。现有 memory 系统往往只存对话事实或零散经验,而不真正理解 agent 执行轨迹里的决策结构,因此很难持续提升未来任务表现。 这篇工作把执行轨迹转成可检索的结构化学习...

How the Eon Team Produced a Virtual Embodied Fly

发表:2026-03-10 · 收录:未知 · Projects And Appendices

这不是正式论文,而是 EON Systems 发布的技术更新,说明他们如何把成年果蝇 connectome、既有脑模型和 embodied fly 身体仿真拼成一个可运行的“virtual embodied fly”。它的价值不在于提出新算法,而在于把已有果蝇脑模型和身体控制组件做了系统级集成,并公开了技术叙事...

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

发表:2026-03-10 · 收录:未知 · 天气、气候与地球系统

遥感 VLM 已经能处理越来越多感知任务,但一旦进入 step-by-step reasoning,问题就变成:中间推理过程到底有没有持续对齐视觉证据。远程感知场景里,这种 visual faithfulness 的缺失会比普通 VQA 更严重,因为几何、尺度和局部纹理都更容易误导中间步骤。 GeoSolver...

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

发表:2026-03-10 · 收录:未知 · 科学发现旗舰工作

这篇论文重新审视了一个看似经典但在现代 AI 系统里仍然被低估的原语:k-means。作者指出,k-means 长期被当成离线预处理工具,例如数据组织、embedding 聚类或索引构建,而不是在线系统的一等组件。但在现代检索、缓存组织、向量服务和训练系统里,若能把 exact k-means 做到足够快和省内...

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

发表:2026-03-10 · 收录:未知 · 推理、记忆与推理时控制

这篇论文讨论长上下文模型里非常著名的“迷失在中间”现象。作者的核心主张是:这并不是训练出来的偶然坏习惯,也不主要是位置编码造成的,而是因果解码器在初始化阶段就已经带有的结构性位置偏差。 方法上,论文把多层因果注意力建模为 Cesàro 矩阵的迭代幂,推导出连续极限下的闭式影响密度。结论是,因果掩码天然造成首因偏...

Routing without Forgetting

发表:2026-03-10 · 收录:未知 · 推理、记忆与推理时控制

Continual learning 在 transformer 里通常通过 prompts、adapters 或 LoRA 这类参数高效适配来做,但这些方法往往默认可以多轮重复训练,在严格 online setting 下就会遇到明显限制。真正困难的地方,是样本流非平稳、可能只看一次,而且模型无法依赖显式 t...

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

发表:2026-03-10 · 收录:未知 · 物理与 AI for Science

**问题与背景** 这篇论文围绕 ai for science / scientific computing / mechanism completion 展开,目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准,它属于值得正式收录的新作,因为问题本身有持续研究价值,且不是单纯的...

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

发表:2026-03-10 · 收录:未知 · AI 硬件与加速器

这篇论文处理的是产品开发实践里一个很硬的问题:工程分析自动化通常依赖脆弱的脚本接口、固定数据格式和文档化流程,一旦设计迭代引起命名、单位、输入格式或局部方法变化,原有自动化支持就会失效。与其继续把问题理解成‘写更复杂的脚本’,论文把它重构成 agentic orchestration 问题。 DUCTILE 的...

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

发表:2026-03-10 · 收录:未知 · 智能体与自主科学

这篇论文正面回应了一个越来越重要的问题:端到端 VLA 是否真的是机器人操作的默认答案。作者提出 TiPToP,把预训练视觉基础模型、开放词汇语义理解和现有任务与运动规划器组合起来,直接从 RGB 图像和自然语言指令求解多步操作任务,而且不需要任何特定机器人的训练数据。 技术上,TiPToP 采取的是高度模块化...

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

发表:2026-03-10 · 收录:未知 · 智能体与自主科学

这篇论文要解决的是多智能体强化学习里一个长期存在的问题:最优应对策略通常由黑盒神经网络给出,难以解释、难以调试,也很难信任。作者把这一问题重写为“让大语言模型直接生成可执行策略代码”,从而把策略学习从参数优化变成程序合成。 核心方法是 Code-Space Response Oracles(CSRO)。它在 P...

Training Language Models via Neural Cellular Automata

发表:2026-03-09 · 收录:未知 · 理论、鲁棒性与核心机器学习

这篇论文要回答一个非常根本的问题:训练语言模型获得推理和上下文学习能力,是否真的必须依赖自然语言语料?作者提出先用神经元胞自动机(NCA)生成的非语言序列做“预-预训练”,再进入常规自然语言训练,从而把结构性计算能力先注入模型。 方法上,作者用 NCA 生成具有丰富时空结构和可控复杂度的合成 token 序列...

PlayWorld: Learning Robot World Models from Autonomous Play

发表:2026-03-09 · 收录:未知 · 强化学习

这篇论文关注机器人 world model 训练里的一个关键瓶颈:现有视频世界模型虽然能从大规模机器人数据中学习,但在接触密集、长尾物体交互上仍然很难保持物理一致性,而且训练数据通常偏向人类成功示范。对本仓库来说,它不是单纯的视频生成改进,而是机器人世界模型的数据来源和训练闭环问题。 PlayWorld 的核心...

FALCON: Fast-Weight Attention for Continual Learning

发表:2026-03-09 · 收录:未知 · 推理、记忆与推理时控制

这篇论文关注的是长上下文建模里一个很核心但长期处理得不够清楚的问题:当线性注意力、fast-weight memory 和 state space model 用固定状态压缩历史时,内部到底应该在时间上学习什么配对关系。作者指出,很多现有写法沿用了 Transformer 风格的当前 key 与当前 value...

LinearARD: Linear-Memory Attention Distillation for RoPE Restoration

发表:2026-03-09 · 收录:未知 · 推理、记忆与推理时控制

长上下文扩展通常靠缩放 positional encoding 再做 continual pretraining,但这套流程常常以短文本能力受损为代价。真正困难的不只是把 context 拉长,而是在不破坏原生 attention dynamics 的前提下,把模型从 native RoPE 平稳迁移到 lon...

Protonic nickelate device networks for spatiotemporal neuromorphic computing

发表:2026-03-09 · 收录:未知 · 物理与 AI for Science

大多数神经形态硬件仍然只是分别模拟神经元样瞬态或突触样记忆,很难在同一材料系统里同时实现非线性时空处理、可编程记忆和网络级相互作用。这篇工作针对的正是这个硬件层面的缺口:如何把更接近生物神经回路的时空动力学与权重存储统一到一个可工作的器件平台中。 作者在同一片 NdNiO3 钙钛矿镍酸盐材料系统上构建了对称和非...

A neural signature of adaptive mentalization

发表:2026-03-09 · 收录:未知 · 神经科学与认知科学

这篇论文讨论人类在动态社会互动中如何根据对手的复杂程度调整“心智化”策略。作者把互动博弈、计算建模和 fMRI 结合起来,追踪人在博弈过程中如何更新对他人心智的估计。 核心新意在于它不仅报告某些脑区与心智化有关,而是给出了一个可操作的神经签名,用来刻画个体对社会复杂度变化的适应幅度,并展示这种神经模式对现实中的...

Dynin-Omni: Omnimodal Unified Large Diffusion Language Model

发表:2026-03-09 · 收录:未知 · 多模态基础模型

统一多模态模型通常卡在两个方向之间:要么走 autoregressive serialization,把不同模态都压进同一 token stream;要么走组合式系统,让主模型依赖外部 modality-specific decoders 与 orchestration。真正困难的是在一个共享架构里同时支持 t...

Can Vision-Language Models Solve the Shell Game?

发表:2026-03-09 · 收录:未知 · 多模态基础模型

这篇论文抓住了当前视频 VLM 一个被很多综合 benchmark 掩盖的核心短板:视觉实体跟踪。作者指出,现有视频问答数据里常常存在可利用的静态外观线索,模型即使没有真正跟踪能力,也能通过单帧重识别得到高分。为此,论文把经典的 shell game 重新做成一个严格去除外观捷径的诊断任务,直接检验模型能否仅凭...

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

发表:2026-03-09 · 收录:未知 · 数学与形式推理

问题与背景:面向患者的对话式诊断 AI 在模拟环境中已有不少结果,但真正的临床转化难点在于:在真实就诊流程中,它是否安全、是否被患者和医生接受、以及它给出的诊断与管理建议是否具有实际价值。论文要回答的是这类系统能否跨出“模拟 benchmark”,进入真实门诊。 方法/新意:作者报告了一项前瞻性、单臂、真实世界...

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

发表:2026-03-09 · 收录:未知 · 智能体与自主科学

这篇论文抓住了 embodied AI 一个非常实际的瓶颈:高质量交互数据难扩、纯大模型自举容易塌缩、而少量人工示范又远远不够支撑通用能力增长。作者把问题重写成“如何做一个能自我扩展的数据引擎”,而不是只讨论某个 VLA 模型结构本身。 Seed2Scale 的核心是异构角色分工:小模型负责并行采集和探索,大模...

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

发表:2026-03-09 · 收录:未知 · 智能体与自主科学

这篇工作针对 computer-use agents 在复杂专业软件环境里的核心短板:虽然通用桌面代理已经能完成一些基础 GUI 操作,但在专业任务上仍然明显弱于人类专家,表现为探索低效、对未见界面迁移差、以及对细粒度动作序列掌握不足。论文先提出 OSExpert-Eval,用来把这类“专业技能差距”显式化,而...

Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA

发表:2026-03-09 · 收录:未知 · 智能体与自主科学

这篇论文解决的是一个很硬的具身智能问题:如何把 VLA 从低自由度、视觉主导的抓取,推进到真正依赖接触、力觉和手内操作的双臂灵巧操控。作者指出,直接把力觉和触觉拼接进预训练 VLA 往往会破坏已有视觉能力,而复杂手内操作的数据又很难靠人类纯遥操作高质量采集。 为此论文提出了两部分组合方案。第一部分是 IMCop...

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

发表:2026-03-09 · 收录:未知 · 智能体与自主科学

这篇论文把问题直接抬到了‘让大模型智能体自己做大模型后训练’这一层,而不是继续停留在软件工程或代码生成。作者提出 PostTrainBench,在单卡 H100、10 小时受限算力下,让前沿 agent 自主完成数据搜集、训练、调参与评测,衡量它们是否具备自动化后训练的实际能力。 方法上的关键不是再造一个训练算...

How Emotion Shapes the Behavior of LLMs and Agents: A Mechanistic Study

发表:2026-03-09 · 收录:未知 · 智能体与自主科学

问题与背景:多数 emotion-aware LLM 研究把情绪当作表层风格或识别目标,而不是内部计算变量。E-STEER 关注的问题是:情绪式表示是否会以机制方式改变 LLM 与 agent 的推理、安全和多步行为。 方法与新意:论文把情绪编码为可控的 hidden-state 变量,并进行 represen...

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

发表:2026-03-07 · 收录:未知 · 推理、记忆与推理时控制

这篇论文讨论的是长上下文推理里的一个核心难点:即使模型窗口变长,真正稳定地抽取、组织并使用远距离信息依然很难。此前 Recursive Language Models 这类方法试图通过递归式子调用和程序化上下文交互来处理长文档,但这条路线的成功到底来自递归结构本身,还是来自更一般的推理程序搜索,一直没有被讲清...

Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments

发表:2026-03-06 · 收录:未知 · 强化学习

论文解释了 PPO 长程训练中常见的平台期为何出现。作者把 PPO 拆成内循环和外循环,指出真正的问题是外循环步长相对采样噪声过大,导致策略在局部最优附近震荡而不是继续改进。基于这个视角,论文提出通过百万级并行环境扩大 rollout 数据量,同时保持内循环设置不变,仅增加优化步数,从而把 PPO 的有效学习范...

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

发表:2026-03-06 · 收录:未知 · 推理、记忆与推理时控制

长程记忆一直是通用模型能力扩展的硬瓶颈。传统 full attention 路线在上下文长度升到百万级后,计算与 KV cache 成本都会迅速失控;而 RAG、外部 memory agent 或固定状态模型虽然能绕开部分长度限制,却往往带来精度下降、延迟膨胀、记忆不可编辑,或缺乏端到端优化的问题。MSA 正面...

NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches

发表:2026-03-06 · 收录:未知 · 推理、记忆与推理时控制

Transformer 预训练里,许多难拟合的细节往往要靠更多训练步数和更大模型硬吃下来,而低秩方法大多只被当作 finetuning 的 PEFT 接口。NOBLE 讨论的是另一件事:能不能把低秩分支变成预训练阶段的永久架构部件,直接提高拟合效率。 它在每个 Transformer 线性层旁边加入一个永久性的...

Regional specialization in prefrontal cortex manifests in the reliability of task progression codes

发表:2026-03-06 · 收录:未知 · 神经科学与认知科学

这篇论文研究的是前额叶皮层不同区域如何编码“任务正在推进到哪一步”。核心发现不是简单地说前额叶有分工,而是指出这种分工体现在 `task progression code` 的可靠性上:不同前额叶子区对任务阶段、行为序列和上下文进展的表征稳定性不同,因此在执行复杂任务时承担了不同的功能角色。 从认知科学角度看...

Linking neural manifolds to circuit structure in recurrent networks

发表:2026-03-06 · 收录:未知 · 神经科学与认知科学

问题与背景:神经科学里常用两种描述神经活动的语言:一是单神经元的功能选择性,二是群体活动的低维神经流形。但二者如何共同受底层回路结构约束,一直缺乏统一解释。 方法/新意:作者在一族递归网络模型中,把 circuit structure、single-neuron properties 和 low-dimensi...

Causal Interpretation of Neural Network Computations with Contribution Decomposition

发表:2026-03-06 · 收录:未知 · 可解释性与机制分析

这篇工作把可解释性的分析对象从神经元激活转向神经元对最终输出的因果贡献。作者提出 CODEC,用稀疏自编码器对贡献矩阵做分解,识别可复用的“贡献模式”,并通过消融与保留实验验证这些模式对分类结果具有更强的因果控制力。一个关键发现是深层网络中正向和负向贡献会逐渐去相关,说明网络会把支持证据与反对证据功能分离。它的...

Integrated photonic 3D tensor processing engine

发表:2026-03-06 · 收录:未知 · AI 硬件与加速器

这篇论文处理的是当前光计算加速器里一个很实际的问题:现有 photonic accelerator 大多围绕 2D matrix-vector multiplication 设计,而 3D 卷积网络在真实系统里需要额外做高阶张量重排与同步,导致内存与时延开销回落到电子域。 作者提出的 3D-TPE 通过时间、波...

Learning Next Action Predictors from Human-Computer Interaction

发表:2026-03-06 · 收录:未知 · 智能体与自主科学

问题与背景:当前大多数 AI 系统仍然是被动响应式的,只有在用户显式发出请求后才开始工作。论文关注的核心问题是:AI 能否从长期、多模态的人机交互历史中学习,在用户行动发生之前预测其下一步操作,从而把人机协作从“响应”推进到“预判”。 方法/新意:作者首先形式化了 next action prediction(...