Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

发表:2026-05-16 · 收录:未知 · 推理、记忆与推理时控制

这篇论文重新审视长上下文推理的 sparse attention 路径:不从头训练原生稀疏模型,也不只做启发式 token eviction,而是利用 full-attention 模型已经存在的内在稀疏性。 方法识别少量真正需要完整长上下文处理的 retrieval heads,并用低维 token inde...

MemForest: An Efficient Agent Memory System with Hierarchical Temporal Indexing

发表:2026-05-16 · 收录:未知 · 智能体与自主科学

MemForest 关注 agent memory 的工程瓶颈:长程 agent 需要持续 serve-and-update memory,但许多系统把更新和 LLM 推理紧耦合,并依赖全局摘要重写,导致延迟和维护成本随记忆增长恶化。 论文把 agent memory 重写为 write-efficient t...

Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

发表:2026-05-15 · 收录:未知 · 强化学习

NudgeRL 处理 RLVR 的核心瓶颈:模型只能从已经采样到的轨迹中学习,简单增加 rollout 数量成本高且探索方向不可控。 它用 Strategy Nudging 给每次 rollout 加入轻量策略上下文,引导多样化推理轨迹;再用统一目标分解 inter-context 和 intra-contex...

Distributed neural codes of the 3D position in the marmoset frontal cortex and hippocampus

发表:2026-05-15 · 收录:未知 · 神经科学与认知科学

这篇 Nature Communications 论文研究灵长类大脑如何编码三维空间位置。作者结合狨猴无线多通道记录与 3D 自由觅食任务,在更接近自然行为的三维空间中同时观察 frontal cortex 和 hippocampus 的位置编码。 核心发现是,额叶皮层和海马都存在大量 3D place cel...

Auditing Agent Harness Safety

发表:2026-05-14 · 收录:未知 · 安全、治理与可靠性

HarnessAudit 指出一个常被忽略的安全问题:agent 最终输出正确并不代表执行轨迹安全,工具访问、资源分配和 agent 间信息流可能已经违规。 框架审计完整执行轨迹,覆盖 boundary compliance、execution fidelity 和 system stability,并构建 8...

LiSA: Lifelong Safety Adaptation via Conservative Policy Induction

发表:2026-05-14 · 收录:未知 · 安全、治理与可靠性

LiSA 针对 agent guardrails 的部署难题:工具调用、私有数据读取和多步工作流中的安全规则高度依赖本地政策、组织规范和用户期待。 它不反复微调 base guardrail,而是把稀疏失败报告归纳成可复用 policy abstractions,用 conflict-aware local r...

PhysBrain 1.0 Technical Report

发表:2026-05-14 · 收录:未知 · 机器人与具身智能

PhysBrain 1.0 研究从人类第一视角视频中提取物理常识,再迁移到机器人 VLA 策略,而不是只依赖昂贵机器人轨迹。 数据引擎抽取场景元素、空间动态、动作执行和深度关系,转成问答监督训练 PhysBrain VLM,并通过保能力和语言敏感的适配设计迁移到 VLA policy。 它值得正式收录,因为它为...

FrameSkip: Learning from Fewer but More Informative Frames in VLA Training

发表:2026-05-14 · 收录:未知 · 机器人与具身智能

FrameSkip 关注 VLA 训练数据层面的 temporal supervision imbalance:机器人轨迹中许多帧信息量低,但标准训练同等使用所有帧,浪费训练预算并稀释关键动作变化。 它用 action variation、visual-action coherence、task progres...

IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

发表:2026-05-14 · 收录:未知 · 机器人与具身智能

IntentVLA 研究 VLA 操作中的 partial observability:相似当前画面可能来自不同任务阶段或短期意图,frame-conditioned chunk policies 会在相邻 replanning steps 重新采样不同 intent,导致执行不稳定。 方法用最近视觉历史编码...

Advancing conversational diagnostic AI with multimodal reasoning

发表:2026-05-14 · 收录:未知 · 高价值现实工作流

这篇 Nature Medicine 论文来自 Google/DeepMind 医疗 AI 路线,提出 multimodal AMIE:在诊断对话中主动获取、解释并推理患者历史、皮肤照片、心电图和临床文档等多模态信息。 方法重点是 state-aware dialogue framework:系统根据诊断不确定...

Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

发表:2026-05-14 · 收录:未知 · 生成建模与扩散

这篇论文把复杂视觉生成从单步 prompt-to-image 推向闭环、可验证的多步推理生成。CLVR 将视觉语言规划、像素级扩散生成和 step-level verification 串成一个闭环。 方法上,它用自动数据引擎生成带验证的推理轨迹,用 Proxy Prompt RL 解决长上下文优化与因果归因问...

Asymmetric Flow Models

发表:2026-05-14 · 收录:未知 · 生成建模与扩散

AsymFlow 处理的是高维 flow / diffusion 生成里的结构性瓶颈:在 pixel space 预测 full-dimensional velocity 时,模型必须处理高维噪声,plain transformer 的内部表示容易被噪声维度压垮。 论文提出 rank-asymmetric ve...

MMSkills: Towards Multimodal Skills for General Visual Agents

发表:2026-05-14 · 收录:未知 · 智能体与自主科学

MMSkills 指出 visual agents 的技能不能只是文本 prompt 或代码片段;视觉操作依赖状态识别、视觉证据、进度/失败判断和下一步决策。 论文把这种能力形式化为 multimodal procedural knowledge,并提出包含 textual procedure、runtime...

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

发表:2026-05-14 · 收录:未知 · 推理、记忆与推理时控制

MemLens 针对多模态长期记忆提出系统评测:问题来自多轮、多 session 对话,并明确要求模型利用图像证据、时间顺序、知识更新和拒答能力。 论文关键价值在于把 long-context LVLM 和 memory-augmented agents 放在同一评测接口下比较。结果显示长上下文模型短上下文表现...

FutureSim: Replaying World Events to Evaluate Adaptive Agents

发表:2026-05-14 · 收录:未知 · 智能体与自主科学

FutureSim 把 agent 评测从静态任务推进到真实时间序列世界:系统按真实新闻出现顺序重放世界事件,让 agent 在知识截止后持续接收新信息并预测未来结果。 这个设置直接压测 long-horizon adaptation、搜索、记忆和不确定性推理,而不是只看一次性问答或封闭环境成功率。论文显示当前...

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

发表:2026-05-14 · 收录:未知 · 智能体与自主科学

MemEye 针对 multimodal agent memory 的评价缺口:很多视觉记忆问题可以被 caption 或文字轨迹 shortcut 解答,无法验证 agent 是否保留了真正必要的视觉证据。 论文提出两个评价轴:decisive visual evidence granularity 从 sc...

Self-Distilled Agentic Reinforcement Learning

发表:2026-05-14 · 收录:未知 · 智能体与自主科学

SDAR 处理 agentic post-training 的核心痛点:RL 只有轨迹级稀疏反馈,而 on-policy self-distillation 能提供 token-level dense guidance,但直接用于多轮 agent 会因轨迹漂移和 teacher-student mismatch...

State media control influences large language models

发表:2026-05-13 · 收录:未知 · 安全、治理与可靠性

这篇 Nature 论文研究训练数据中的国家媒体控制如何影响 LLM 输出。它从跨国审计、训练数据溯源、开放权重模型额外预训练和商业模型语言审计等多个角度验证机制。 核心发现是:低媒体自由国家语言中的 LLM 输出更偏向亲政府表述;中国国家协调媒体出现在训练数据中;额外用这类媒体预训练会使模型对相关政治机构和人...

MinT: Managed Infrastructure for Training and Serving Millions of LLMs

发表:2026-05-13 · 收录:未知 · 系统、硬件与协同设计

MinT 针对后训练和在线服务里的新基础设施问题:当一个组织围绕少数昂贵 base models 产生大量 LoRA/RL policy revisions 时,不能再把每个 policy 都当成完整 checkpoint 管理。 系统把 base model 常驻,把 LoRA adapter revisio...

FlowCompile: An Optimizing Compiler for Structured LLM Workflows

发表:2026-05-13 · 收录:未知 · 软件工程与编程智能体

FlowCompile 把结构化 LLM workflows 的优化从运行时路由问题改写为编译问题:部署前全局探索 workflow 设计空间,形成可复用的配置集合。 它关注的不是单个 prompt,而是由多个 sub-agents 组成的图结构工作流,在模型选择、reasoning budget 和结构组合之...

Efficient robot navigation inspired by honeybee learning flights

发表:2026-05-13 · 收录:未知 · 机器人与具身智能

这篇 Nature 论文把昆虫学习飞行中的视觉归巢原则转成可部署的机器人导航策略 Bee-Nav。系统用路径积分提供 home vector,再用训练于等价 learning flights 的微型神经网络修正漂移。 关键工程结果是资源约束极强:室内外小型无人机实验中,3.4 kB 与 42 kB 级网络就能支...

Memory-Efficient Looped Transformer: Decoupling Compute from Memory in Looped Language Models

发表:2026-05-13 · 收录:未知 · 推理、记忆与推理时控制

这篇论文关注 looped language models 中计算和记忆的解耦。Looped transformer 的吸引力在于重复使用计算结构来扩展推理深度,但内存管理会成为瓶颈。 Memory-Efficient Looped Transformer 的价值是把这一瓶颈作为架构问题处理。对 inferen...

Cortical knowledge structures guide word concept learning

发表:2026-05-13 · 收录:未知 · 神经科学与认知科学

This Nature Communications paper studies how prior cortical knowledge structures guide new word-concept learning and generalization from limited examples. T...

Subspace communication in the hippocampal–retrosplenial axis

发表:2026-05-13 · 收录:未知 · 神经科学与认知科学

这篇 Nature 论文研究 hippocampus 和 retrosplenial cortex 之间如何在记忆与导航中进行灵活通信,而不是只描述单一区域编码。 作者在小鼠行为任务中进行最高 1,024 channel 的大规模记录,同时覆盖 DG、CA3、CA2、CA1 和 RSC,并用 partial c...

Fluctuating internal states mediate neural–behavioral covariations in V1

发表:2026-05-13 · 收录:未知 · 神经科学与认知科学

这篇论文关注一个对主动感知和 NeuroAI 都很关键的问题:行为表现与早期视觉皮层活动之间的协变,是否只是读出噪声,还是由内部状态对感觉处理的调制产生。 作者在执行反应时视觉检测任务的猕猴中记录单个 V1 神经元膜电位,发现多数 V1 神经元在目标出现前会逐渐去极化,并且这种 buildup 的波动与反应时相...

CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models

发表:2026-05-13 · 收录:未知 · 多模态基础模型

这篇论文的关键点是把视频理解和视频生成放进同一个 collaborative reasoning loop。它不是单独做 VLM QA,也不是单独生成视频,而是让两类模型互相补足。 这种结构对多模态推理有价值:VLM 可以提出解释和检查点,video generation model 可以模拟或补全可能的时序过...

Autonomous seeking and mapping coral reef biodiversity hotspots with a multimodal AUV

发表:2026-05-13 · 收录:未知 · 海洋、渔业与海岸系统

这篇 Science Robotics 论文把多模态 AUV 用于自主寻找和绘制珊瑚礁生物多样性热点,解决人工海洋生态监测在高空间分辨率、移动生物和多传感需求上的瓶颈。 方法上,作者提出 reef observations 的生成模型,并结合被动声学与视觉感知,让 AUV 能主动寻找和定位生物热点,而不是只按固...

Flow-OPD: On-Policy Distillation for Flow Matching Models

发表:2026-05-13 · 收录:未知 · 生成建模与扩散

这篇论文把 on-policy distillation 引入 flow matching models。它的价值在于把生成模型 distillation 从离线 teacher imitation 推向更接近当前模型采样分布的训练。 Flow matching 已经是扩散/生成建模的重要替代路线,蒸馏效率直接...

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

发表:2026-05-13 · 收录:未知 · 生成建模与扩散

AnyFlow 针对 few-step video diffusion 的一个关键缺陷:consistency distillation 在少步采样时有效,但随着测试时步数增加反而可能退化,因为它替换了原始 probability-flow ODE trajectory,破坏了 ODE sampling 的 t...

Learning, Fast and Slow: Towards LLMs That Adapt Continually

发表:2026-05-13 · 收录:未知 · 推理、记忆与推理时控制

这篇论文提出 Fast-Slow Training,把 LLM 适应拆成两个时间尺度:prompt/context/agent layer 作为 fast weights,模型参数作为 slow weights,并在训练中交替优化。 核心问题是 parameter-only RL 容易把任务细节硬写进权重,造成...

The DAWN of World-Action Interactive Models

发表:2026-05-13 · 收录:未知 · 智能体与自主科学

DAWN 提出 World-Action Interactive Models,认为现有 WAM 往往把 world prediction 和 action generation 并行或串行分离,忽略动作与未来世界之间的 reciprocity。 它在自动驾驶中实现一个 latent generative ba...

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

发表:2026-05-13 · 收录:未知 · 智能体与自主科学

EvolveMem 指出当前 agent memory 系统通常只更新存储内容,而检索评分、融合策略和回答策略在部署后固定,导致长期记忆增长时 retrieval infrastructure 不适配。 它把完整 retrieval configuration 暴露为结构化 action space,由 LLM...

Preping: Building Agent Memory without Tasks

发表:2026-05-13 · 收录:未知 · 智能体与自主科学

Preping 研究 pre-task memory construction:agent 在看到目标任务之前,仅凭环境文档和可执行工具,通过自生成练习构建 procedural memory。 系统引入 proposer memory 作为控制状态,由 Proposer 生成 synthetic tasks...

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

发表:2026-05-13 · 收录:未知 · 智能体与自主科学

这篇论文的核心是让 LLM 帮助发现提升 LLM 测试时计算效率的方法。它把 test-time scaling 从人工设计策略,推进到 agentic discovery。 它的重要性在于把模型优化本身变成一个 agent 搜索任务:coding agent 可以提出、测试和筛选推理策略,从而用相对低成本发现...

TMAS: Scaling Test-Time Compute via Multi-Agent Synergy

发表:2026-05-13 · 收录:未知 · 智能体与自主科学

这篇论文把 test-time scaling 和 multi-agent orchestration 连接起来。它不是简单多采样,而是通过多个专门 agent 的协同来扩大推理时计算。 TMAS 的价值在于把测试时计算预算组织成 agent collaboration problem,包括分工、记忆共享和探索...

Peripheral control enabled by distributed sensing in an octopus-inspired soft robotic arm for autonomous underwater grasping

发表:2026-05-12 · 收录:未知 · 强化学习

这篇 Nature Machine Intelligence 论文从章鱼手臂的分布式感知与控制中获得启发,构建面向水下抓取的软体机器人臂。重点在 embodied intelligence 的外围感知和分层行为控制。 系统在吸盘中集成光电子机械传感器,检测接触力和方向,并采用 hierarchical beha...

Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization

发表:2026-05-12 · 收录:未知 · 强化学习

这篇论文处理 agentic test-time scaling 中的关键控制问题:agent 不是探索越多越好,而应该在不确定性高时探索,在上下文清楚时执行。 方法提出 exploration-aware policy optimization,用细粒度 reward 估计探索动作对未来决策的价值,并把探索动...

delta-mem: Efficient Online Memory for Large Language Models

发表:2026-05-12 · 收录:未知 · 推理、记忆与推理时控制

delta-mem: Efficient Online Memory for Large Language Models 关注的是一个可复用的 AI 系统或评测问题,而不是单点 demo。 Compact online associative memory state coupled to frozen att...

Geometry Conflict: Explaining and Controlling Forgetting in LLM Continual Post-Training

发表:2026-05-12 · 收录:未知 · 推理、记忆与推理时控制

这篇论文处理的是持续后训练里的核心风险:模型学习新能力时会破坏旧能力,而这个问题不是简单调小学习率就能解决。它把 forgetting 解释为几何冲突。 几何视角有复用价值,因为它给 LoRA、continual post-training、domain adaptation 和 capability inje...

Human gloss perception reproduced by tiny neural networks

发表:2026-05-12 · 收录:未知 · 神经科学与认知科学

这篇 Nature Human Behaviour 论文把人类 gloss perception 用小型神经网络复现,价值在于说明某些视觉材料知觉可能不需要庞大黑箱模型。 它对 AI 的启发是模型规模和认知机制之间的关系:如果 tiny neural networks 能复现人类光泽感知,说明该知觉可能依赖相对...

SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

发表:2026-05-12 · 收录:未知 · 多模态基础模型

SenseNova-U1 针对多模态模型的 understanding/generation 分裂,提出 NEO-unify 架构,把理解和生成作为同一底层过程的协同视图。 它不只是视觉问答或图像生成模型,而是试图把文本、视觉理解、图像生成、agentic decision-making、空间智能以及初步 VL...

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

发表:2026-05-12 · 收录:未知 · 多模态基础模型

这篇论文处理的是多模态生成训练中的 reward specification 问题。隐式偏好难以审计、难以复用,也容易把模型推向不可解释的 reward hacking。 Auto-Rubric 的关键点是把偏好转成显式 rubric,并把 rubric 作为 reward。这个接口有利于把多模态生成评价从黑箱...

WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors

发表:2026-05-12 · 收录:未知 · 多模态基础模型

这篇论文的价值在于把视频生成评测从视觉质量推进到“未来世界状态预测”。如果视频模型要成为 world model,只看清晰度和偏好分数不够,必须评估它是否能预测符合人类直觉和物理约束的后续状态。 WorldReasonBench 提供的是一个评测接口,而不是又一个生成模型。它把视频生成和 embodied /...

Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

发表:2026-05-12 · 收录:未知 · 数学与形式推理

这篇论文补的是 AI for math 评测中的关键缺口:很多数学 benchmark 更像竞赛题或形式化题库,而不是研究数学家实际会遇到的问题结构。Soohak 强调 mathematician-curated 和 research-level。 它的重要性在于让模型能力评估更接近真实数学研究:理解问题背景、...

G-Zero: Self-Play for Open-Ended Generation from Zero Data

发表:2026-05-12 · 收录:未知 · 生成建模与扩散

这篇论文的核心吸引力是把 self-play 引入开放式生成,并强调 zero-data bootstrapping。它不是普通数据增强,而是试图让生成系统通过自博弈产生可扩展训练信号。 如果这个方向成立,生成模型可以减少对静态数据集和人工偏好标注的依赖,转向更开放的任务生成、评估和改进循环。 它值得正式收录...

Critical evaluation of drug response prediction models with DrEval

发表:2026-05-12 · 收录:未知 · 化学、生物与自动化实验室

这篇 Nature Communications 论文重要在于评估基础设施,而不是又提出一个 drug response predictor。Drug response prediction 长期受数据泄漏、拆分策略和外推能力问题影响。 DrEval 的价值是把模型可靠性、评估协议和可比性推到前台。对 AI d...

SAGE: A Self-Evolving Agentic Graph-Memory Engine for Structure-Aware Associative Memory

发表:2026-05-12 · 收录:未知 · 智能体与自主科学

SAGE 把 agent long-term memory 从静态 RAG/GraphRAG 检索层推进到动态、自演化的 graph-memory substrate。核心问题不是单次召回,而是如何从局部线索恢复完整 evidence chain,并让记忆结构在使用反馈中持续变好。 关键机制是 writer-r...

LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues

发表:2026-05-12 · 收录:未知 · 推理、记忆与推理时控制

LongMemEval-V2 把 agent memory 评测从用户偏好历史推进到“像有经验同事一样理解工作环境”。它关注环境 affordances、状态动态、工作流和反复出现的失败模式。 基准包含 451 个手工问题,覆盖 static state recall、dynamic state trackin...

Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning

发表:2026-05-12 · 收录:未知 · 智能体与自主科学

这篇论文延续 self-evolving agents 的关键问题:技能不是一次性 prompt,也不是静态工具库,而是需要生命周期管理的能力对象。 Dynamic Skill Lifecycle Management 的价值在于把 skill acquisition 从“学会一个技能”推进到“管理一组会变化的...

Mela: Test-Time Memory Consolidation based on Transformation Hypothesis

发表:2026-05-12 · 收录:未知 · 推理、记忆与推理时控制

这篇论文落在 test-time memory 和 inference-time adaptation 的交叉点。它关注的不是把更多上下文塞进模型,而是在测试时形成、转化和巩固可用记忆。 Mela 的价值在于把 memory consolidation 明确变成推理期机制。对长期 agent 来说,记忆系统不能...

StereoPolicy: Improving Robotic Manipulation Policies via Stereo Perception

发表:2026-05-11 · 收录:未知 · 机器人与具身智能

这篇论文针对机器人 imitation learning 中单目视觉的结构性短板:RGB policy 可以学到语义和外观,但在杂乱、透明、几何复杂场景里缺少稳定深度和空间对应线索。 StereoPolicy 直接使用同步 stereo image pairs,不显式重建 3D、也不依赖相机标定;左右图分别进入...

RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

发表:2026-05-11 · 收录:未知 · 机器人与具身智能

RoboMemArena 把机器人记忆从抽象长上下文问题推进到长程、部分可观察、真实动作序列任务。论文强调任务平均轨迹超过 1000 步,且大部分子任务依赖记忆。 基准包含 VLM 生成的复杂子任务、完整轨迹、关键帧和 memory-related annotations,并配套真实世界 memory task...

CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models

发表:2026-05-11 · 收录:未知 · 机器人与具身智能

CapVector 针对 VLA 机器人模型的一个现实瓶颈:标准 SFT 简单但适应慢,带辅助目标的 finetuning 能提升空间感知或长程推理等能力,却会带来额外模块、额外前向和训练开销。 论文把辅助目标带来的通用能力增益与任务动作拟合拆到参数空间中处理:用同一小规模任务集训练标准 SFT 和辅助目标 S...

Sensorimotor transformation of number in the primate parietal cortex

发表:2026-05-11 · 收录:未知 · 神经科学与认知科学

这篇 Nature Communications 论文研究灵长类大脑如何把感知到的数字转换成对应数量的自主动作。作者让恒河猴执行 manual counting task,并记录 ventral intraparietal area (VIP) 单神经元活动,发现 VIP 在 motor planning 阶段...

Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

发表:2026-05-11 · 收录:未知 · 生成建模与扩散

这篇论文关注生成模型 scaling 中很硬的稳定性问题:Diffusion Transformer 继续加深时会出现均值主导的 collapse。它把这个失效模式命名并给出结构性处理。 Mean-Variance Split Residuals 的意义在于把超深 DiT 的训练稳定性变成架构问题,而不是只靠调...

ELF: Embedded Language Flows

发表:2026-05-11 · 收录:未知 · 生成建模与扩散

ELF proposes Embedded Language Flows, a diffusion/flow language-modeling approach that operates primarily in continuous embedding space rather than over dis...

SmileyLlama: modifying large language models for directed chemical space exploration

发表:2026-05-11 · 收录:未知 · 化学、生物与自动化实验室

这篇 Nature Computational Science 论文把 LLM 直接改造为面向化学空间探索的生成和搜索工具。它的重点不是普通 QSAR 预测,而是让模型参与 directed chemical space exploration。 SmileyLlama 的价值在于把语言模型的序列生成能力接到分...

SkillEvolver: Skill Learning as a Meta-Skill

发表:2026-05-11 · 收录:未知 · 智能体与自主科学

这篇论文把 skill learning 本身抽象成一个 meta-skill:不是训练模型权重,而是让一个可加载的技能负责生成、部署和改进其他领域技能。 SkillEvolver 优化的是 skill 的 prose 和 code artifact,因此产物可以放进任意 protocol-compliant...

EmbodiSkill: Skill-Aware Reflection for Self-Evolving Embodied Agents

发表:2026-05-11 · 收录:未知 · 智能体与自主科学

这篇论文把 self-evolving skills 从数字环境推进到 embodied agents。具身环境的失败并不总是技能内容错了,也可能是 agent 没有执行好本来正确的指导。 EmbodiSkill 的核心是 skill-aware reflection:每条轨迹都相对于当前 skill 解释,区...

MemReread: Enhancing Agentic Long-Context Reasoning via Memory-Guided Rereading

发表:2026-05-11 · 收录:未知 · 推理、记忆与推理时控制

MemReread 针对 agent memory 的一个具体失败模式:线性读文档时动态记忆会覆盖掉潜在证据,而后续检索又可能被无效 query 干扰。 它保留 streaming reading 的效率,但在最终记忆不足时触发问题分解和 rereading,从而恢复早期丢失的间接事实,并用 RL 学习何时、读...

Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

发表:2026-05-11 · 收录:未知 · 安全、治理与可靠性

Agent-ValueBench 指出 agent 的价值表现不能直接等同于底层 LLM 的价值表现,因为 harness、工具、环境和动作轨迹会改变行为。 基准提供 394 个可执行环境、16 个领域、4335 个价值冲突任务和 28 个价值系统,并为任务提供 pole-aligned golden traj...

DataMaster: Towards Autonomous Data Engineering for Machine Learning

发表:2026-05-11 · 收录:未知 · 智能体与自主科学

DataMaster: Towards Autonomous Data Engineering for Machine Learning 关注的是一个可复用的 AI 系统或评测问题,而不是单点 demo。 Autonomous agentic data engineering for improving fix...

Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

发表:2026-05-11 · 收录:未知 · 智能体与自主科学

这篇论文抓住 multimodal deep search agent 的两个核心问题:工具返回的图像通常只是一次性观察,不能作为后续工具调用的可寻址工作状态;训练数据也常由固定配方生成,不能跟随目标 policy 的能力边界演化。 方法上,论文提出 visual-native agent harness,把搜...

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

发表:2026-05-11 · 收录:未知 · 智能体与自主科学

RubricEM 针对 deep research agent 的难点:长报告、证据搜索和综合任务通常没有可验证答案,因此标准 RLVR 很难直接给密集、可靠奖励。 它把 rubric 从最终评分工具提升为执行接口:规划、证据收集、审阅和综合各阶段都由 rubric 组织,并用 stage-structured...

Sub-JEPA: Subspace Gaussian Regularization for Stable End-to-End World Models

发表:2026-05-10 · 收录:未知 · 生成建模与扩散

这篇 arXiv 论文直接接在 LeWorldModel 之后,处理 JEPA 世界模型从像素端到端训练的核心问题:表示崩溃与过强先验之间的 bias-variance tradeoff。 LeWM 用全 latent 空间的各向同性高斯正则防止 collapse,但作者指出控制任务的 latent 往往落在高...

Kintsugi: Learning Policies by Repairing Executable Knowledge Bases

发表:2026-05-10 · 收录:未知 · 智能体与自主科学

Kintsugi: Learning Policies by Repairing Executable Knowledge Bases 关注的是一个可复用的 AI 系统或评测问题,而不是单点 demo。 Verifier-gated policy learning through editable execut...

MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents

发表:2026-05-10 · 收录:未知 · 智能体与自主科学

MemPrivacy 关注长期个性化 agent 的核心部署问题:记忆有用性和隐私保护之间的冲突。它把敏感 span 在边缘侧识别并替换为结构化占位符,云侧处理语义化记忆,本地再恢复敏感值。 这不是普通脱敏技巧,因为它明确面向 agent memory pipeline:记忆形成、检索和个性化都要保留可用语义...

RewardHarness: Self-Evolving Agentic Post-Training

发表:2026-05-09 · 收录:未知 · 智能体与自主科学

RewardHarness 的关键思想是把 reward modeling 从训练新权重转成 agentic context evolution:系统维护并迭代一组工具和技能,用它们构造偏好判断链。 它用少量偏好 demonstrations 让 Orchestrator 选择工具、分析成功失败并改进工具/技能...

MLS-Bench: A Holistic and Rigorous Assessment of AI Systems on Building Better AI

发表:2026-05-09 · 收录:未知 · 智能体与自主科学

MLS-Bench 把“AI 系统能否改进 AI”作为一个整体评测问题,而不是只测单个 coding、math 或 benchmark-solving 能力。 它的价值在于任务目录、工具 schema、agent prompt 和 test-time scaling 设置较完整,能作为自改进/自动 ML / A...

When to Trust Imagination: Adaptive Action Execution for World Action Models

发表:2026-05-08 · 收录:未知 · 强化学习

这篇论文处理的是 World Action Models 落地时绕不开的问题:模型能想象未来,但什么时候应该相信想象、什么时候应该重新感知和执行,需要一个控制边界。 它把 WAM 从离线预测器推进到执行时决策系统,关注 action chunking、想象可信度和长期执行效率之间的权衡。这对机器人和 embod...