{
  "generated_at": "2026-05-29T02:47:21+00:00",
  "source": {
    "registry": "papers-registry.jsonl",
    "videos_catalog": "enabled",
    "genout": "enabled",
    "pdf_base_url": false
  },
  "stats": {
    "total": 1063,
    "with_video": 417,
    "with_public_video": 241,
    "themes": {
      "agents_and_autonomous_science": 305,
      "agriculture_and_food_systems": 2,
      "ai_for_science": 2,
      "ai_hardware_and_accelerator_design": 36,
      "biology_biomedicine_drug_discovery": 5,
      "chemistry_biology_and_lab_automation": 93,
      "energy_water_and_infrastructure_systems": 6,
      "environment_and_ecological_systems": 1,
      "generative_modeling_and_diffusion": 29,
      "generative_models_and_world_models": 4,
      "geospatial_remote_sensing_and_disaster_systems": 4,
      "high_value_real_world_workflows": 2,
      "industrial_process_and_manufacturing_systems": 7,
      "interpretability_and_mechanistic_analysis": 20,
      "jepa_and_predictive_world_models": 15,
      "life_science_foundation_models": 3,
      "marine_fisheries_and_coastal_systems": 2,
      "math_and_formal_reasoning": 11,
      "multimodal_foundation_models": 75,
      "multimodal_generation_and_world_models": 1,
      "neuroscience_and_cognitive_science": 113,
      "physics_and_ai_for_science": 40,
      "projects_and_appendices": 4,
      "public_health_and_medical_operations": 12,
      "reasoning_memory_and_inference_control": 82,
      "reinforcement_learning": 73,
      "robotics_and_embodied_intelligence": 14,
      "safety_governance_and_reliability": 12,
      "scientific_discovery_flagships": 29,
      "software_engineering": 1,
      "software_engineering_and_coding_agents": 7,
      "supply_chain_logistics_and_operations": 2,
      "systems_hardware_and_codesign": 4,
      "theory_robustness_and_core_ml": 39,
      "weather_climate_and_earth_systems": 8
    },
    "grades": {
      "breakthrough": 1011,
      "disruptive": 46,
      "paradigm": 2,
      "project": 4
    },
    "latest_publication": "2026-05-26"
  },
  "papers": [
    {
      "id": "P35_Recursive_Flow_Matching",
      "slug": "p35-recursive-flow-matching",
      "detail_url": "papers/p35-recursive-flow-matching/",
      "title": "Recursive Flow Matching",
      "summary": "Recursive Flow Matching 属于 generative dynamics 和科学建模交叉方向，目标是让 flow matching 更好表达复杂递归/多步动态结构。\n\n论文将递归结构引入 flow matching，使模型能够在生成过程内部反复细化状态转移，而不仅是一次性学习固定时间流。\n\n这种范式对物理仿真、科学动态系统、分层生成和长程预测都有潜在溢出，尤其适合替代昂贵数值模拟的 surrogate modeling。\n\n它值得正式收录，因为 flow matching 正成为生成建模和 AI for science 的重要基础方法，这篇提供了面向复杂动态的可复用扩展。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-05-26",
      "doi": "",
      "arxiv_id": "2605.26535",
      "collected_at": "",
      "collection_order": 1063,
      "source_url": "https://arxiv.org/pdf/2605.26535.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.26535.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.26535"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "物理世界模拟提速20倍：Rose Yu团队用递归流匹配攻克计算瓶颈",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "recursive flow matching",
          "description": "Rose Yu团队针对复杂时空动力学模拟面临的计算瓶颈，提出了一种全新的生成模型框架——递归流匹配（RecFM）。传统扩散模型在实时物理模拟中因去噪迭代步数多而导致计算成本高昂，且强行压缩步数易引发严重失真。RecFM从单摆物理规律中汲取灵感，创新地引入多尺度轨迹对齐机制与几何约束，在训练中强制要求不同尺度的预测路径保持自一致性，从而拉直生成路径。实验表明，该方法在流体力学和气候预测等任务中，仅需1至4个推理步骤即可运行，不仅比现有扩散模型提速达20倍，误差还降低了15%以上。该技术为实时高保真科学模拟提供了更快速、更精准且更稳定的解决方案，适用于方程驱动及纯数据驱动的多样化场景。",
          "x_post": "Rose Yu 团队发布递归流匹配（RecFM）：实现物理模拟20倍提速与超15%误差降低\n物理模拟在科学计算中至关重要，但传统扩散模型因去噪迭代步数多而计算高昂，压缩步数又易导致失真。\n为此，RecFM 创新地引入多尺度轨迹对齐机制与几何约束，在训练中强制要求不同尺度预测路径保持自一致性。\n实验表明，在流体动力学和气候预测中，RecFM 仅需 1 至 4 步推理，相比现有扩散模型提速达 20 倍，误差降低超 15%。\n该方法为实时高保真科学模拟提供了稳定高效的方案，适用于物理方程驱动及纯数据驱动的多种复杂动态环境。",
          "cover_url": "assets/covers/p35-recursive-flow-matching-06cfac6d7b.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-28T19:08:18+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P34_PRISM_Thin_Film_Inverse_Design",
      "slug": "p34-prism-thin-film-inverse-design",
      "detail_url": "papers/p34-prism-thin-film-inverse-design/",
      "title": "PRISM: Position-encoded Regressive Inverse Spectral Model for Multilayer Thin-Film Design",
      "summary": "PRISM 关注 multilayer thin-film 的逆向设计：研究者希望从目标光谱直接得到材料层序和厚度，而不是在庞大组合空间中手工搜索。\n\n论文提出 position-encoded regressive inverse spectral model，把薄膜层级结构作为可生成序列建模，从目标响应回推可实现的多层结构。\n\n这类模型把光学材料设计从前向仿真加优化循环，推进到可学习的 inverse design interface，对纳米光子学和材料设计 workflow 有复用价值。\n\n它值得正式收录，因为它是 AI for physics/materials 中明确改变设计搜索方式的工作，而不是普通属性预测。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-05-26",
      "doi": "",
      "arxiv_id": "2605.26502",
      "collected_at": "",
      "collection_order": 1062,
      "source_url": "https://arxiv.org/pdf/2605.26502.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.26502.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.26502"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL82_DVAO_Multi_Reward_RL",
      "slug": "rl82-dvao-multi-reward-rl",
      "detail_url": "papers/rl82-dvao-multi-reward-rl/",
      "title": "DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning",
      "summary": "DVAO 关注多奖励 RL 后训练的核心问题：真实模型优化常同时包含正确性、格式、偏好、安全或效率等多个奖励，静态权重容易让高方差奖励支配训练。\n\n论文提出 dynamic variance-adaptive advantage optimization，根据不同 reward stream 的方差和训练状态动态调整 advantage，使多目标信号在同一 PPO/RLVR 式训练过程中更稳定地合成。\n\n这种方法把多奖励训练从人工调权推进到可复用的 reward-normalization primitive，尤其适合 reasoning model、agent 和工具使用模型的复合目标优化。\n\n它值得正式收录，因为 multi-reward RL 正成为后训练系统的基础设施问题，DVAO 给出了可插入现有 RL pipeline 的稳定化机制。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-05-25",
      "doi": "",
      "arxiv_id": "2605.25604",
      "collected_at": "",
      "collection_order": 1061,
      "source_url": "https://arxiv.org/pdf/2605.25604.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.25604.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.25604"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R81_Language_Models_Need_Sleep",
      "slug": "r81-language-models-need-sleep",
      "detail_url": "papers/r81-language-models-need-sleep/",
      "title": "Language Models Need Sleep",
      "summary": "这篇论文把长上下文处理重新表述为 sleep-like consolidation：模型不必无限增长 KV cache，而是周期性把近期上下文压入可持续状态。\n\n方法在 sleep 阶段对累积上下文做离线 recurrent passes，并通过 learned local rule 更新 SSM blocks 中的 fast weights，然后清空 KV cache。\n\nwake-time 预测保持低延迟，而额外计算被移动到 sleep 阶段；实验覆盖 cellular automata、多跳图检索和数学推理等需要深层上下文整合的任务。\n\n它值得正式收录，因为它把记忆压缩、SSM fast weights、长上下文和测试时计算调度连接成新的模型运行时模式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-25",
      "doi": "",
      "arxiv_id": "2605.26099",
      "collected_at": "",
      "collection_order": 1060,
      "source_url": "https://arxiv.org/pdf/2605.26099.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.26099.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.26099"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G23_WBench_Interactive_Video_World_Model_Eval",
      "slug": "g23-wbench-interactive-video-world-model-eval",
      "detail_url": "papers/g23-wbench-interactive-video-world-model-eval/",
      "title": "WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation",
      "summary": "WBench 针对 interactive video/world models 的评估缺口：现有 benchmark 往往只覆盖静态视频质量、单轮生成或局部交互能力，缺少系统化多轮世界评测。\n\n它构建 289 个 test cases 和 1,058 个 interaction turns，每个样例包含世界设定和多轮交互序列，覆盖 navigation、subject action、event editing 和 perspective switching。\n\n评测维度包括 video quality、setting adherence、interaction adherence、consistency 和 physics compliance，并用 22 个自动子指标结合视觉专家模型和多模态大模型，且与人工判断校准。\n\n它值得正式收录，因为它给交互式世界模型提供了统一诊断接口，直接服务于 embodied simulation、游戏世界模型和机器人交互环境生成。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-25",
      "doi": "",
      "arxiv_id": "2605.25874",
      "collected_at": "",
      "collection_order": 1059,
      "source_url": "https://arxiv.org/pdf/2605.25874.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.25874.pdf",
      "project_urls": [
        "https://meituan-longcat.github.io/WBench/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.25874",
        "https://github.com/meituan-longcat/WBench"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "能在AI生成的视频里直接打游戏？复旦大学等发布世界模型多轮交互基准WBench",
          "url": "https://www.bilibili.com/video/BV15rGC67EzB",
          "platform_urls": [
            "https://www.bilibili.com/video/BV15rGC67EzB",
            "https://youtu.be/XU-u6W4VoQk"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "wbench a comprehensive multi turn benchmark for interactive video world model evaluation",
          "description": "复旦大学与LongCat联合团队针对交互式视频世界模型评估标准碎片化的痛点，推出了多轮交互评估基准WBench。该基准改变了传统被动视频生成的评估模式，模拟游戏引擎，从视频质量、动作操控、物理规律等五个核心维度对模型进行严苛检测。WBench包含289个测试案例和1058个多轮交互回合，覆盖第一与第三人称视角的导航、主体动作及事件编辑。通过22个自动化细分指标，它能够像“全能考场”一样，更准、更全面地诊断模型在长程交互中的表现与物理常识局限性。这为未来构建高逼真度、可控的闭环虚拟世界提供了关键的诊断工具，但也揭示了当前主流模型尚无法在所有指标上完美兼顾的现实边界。",
          "x_post": "复旦大学与LongCat联合团队推出WBench：包含1058个交互回合的视频世界模型多轮交互评估基准\n传统的视频生成评估多为被动观察模式，缺乏对模型在动态交互、动作控制及物理规律遵循等维度的系统度量。\n为此，团队构建了WBench基准，模拟游戏引擎，从视频质量、设定遵循、交互遵循、物理合规性及一致性5个核心维度进行测试。\n该基准涵盖289个测试案例、1058个多轮交互回合，支持FPP/TPP双视角，并通过22个自动化细分指标，对导航、动作及事件编辑等交互行为进行定量分析。\n测试结果表明，目前主流模型在各维度上各有优劣，尚无单一模型能完美兼顾所有指标，客观揭示了当前世界模型在长程物理常识保持上的技术边界。",
          "cover_url": "assets/covers/g23-wbench-interactive-video-world-model-eval-f88545b07e.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T17:20:20+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C35_MASTER_Multiagent_Catalyst_Discovery",
      "slug": "c35-master-multiagent-catalyst-discovery",
      "detail_url": "papers/c35-master-multiagent-catalyst-discovery/",
      "title": "Hierarchical Multi-agent Large Language Model Reasoning for Autonomous Heterogeneous Catalyst Discovery",
      "summary": "这篇 npj Computational Materials 论文把 LLM agents 用到异相催化发现，而不是只做文献问答或自动脚本执行。\n\nMASTER 将自然语言推理、multi-agent collaboration 和 density functional theory workflows 连接起来，用层级 agent 策略选择更有信息量的原子级模拟。\n\n在 CO adsorption on Cu adatoms 和 M-N-C catalysts 两个应用中，reasoning-guided exploration 相比启发式或随机选择最多减少 90% atomistic simulations。\n\n它值得正式收录，因为它是 AI for science 中 agentic reasoning 直接改变模拟探索闭环的顶刊级案例。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-25",
      "doi": "10.1038/s41524-026-02139-1",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 1058,
      "source_url": "https://www.nature.com/articles/s41524-026-02139-1_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41524-026-02139-1_reference.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "研发新材料提速90%，洛斯阿拉莫斯实验室等用多智能体发布MASTER系统",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "hierarchical multi agent large language model reasoning for autonomous heterogeneous catalyst discovery",
          "description": "研发新材料提速90%，洛斯阿拉莫斯实验室等用多智能体发布MASTER系统\n\n这项研究介绍了一个名为 MASTER 的多智能体大型语言模型框架，旨在实现多相催化剂发现的自主化与逻辑化。该系统通过分层架构将科学决策与底层的密度泛函理论 (DFT) 模拟解耦，由设计智能体负责提出化学假设，而模拟智能体则负责将自然语言指令转化为精确的原子结构工作流。\n实验表明，与传统的随机搜索或单智能体方法相比，这种多智能体协作策略通过整合化学直觉与模拟反馈，能将所需的计算资源减少高达 90%。在针对铜表面平移金属原子及 M-N-C 催化剂的 CO 吸附能研究中，分层分诊排名架构展现了极高的信息效率和科学推理能力。该成果通过逻辑驱动的自动探索，显著加速了材料设计进程，标志着自主实验室向具备深层推理能力的方向迈出了重要一步。",
          "x_post": "【洛斯阿拉莫斯实验室等发布 MASTER 系统，多智能体协作使催化剂研发计算资源减少 90%】\n传统多相催化剂发现依赖高通量原子模拟，存在极度依赖人工设定且遭遇错误易停滞的瓶颈。\n为此，研究团队提出分层多智能体框架 MASTER，将科学决策与底层的密度泛函理论（DFT）模拟解耦，构建由设计、审查、模拟智能体组成的闭环流水线。\n在过渡金属吸附和单原子催化剂评估中，该系统实现了 97.3% 的几何生成最终成功率（一次过件率 47.8%），能量波动低于 28 meV，且将计算资源需求降低了 90%。\n该成果表明，逻辑驱动的多智能体协作能有效解决物理模拟中的数值偏误，为具备深层推理能力的自主实验室建设提供了新路径。",
          "cover_url": "assets/covers/c35-master-multiagent-catalyst-discovery-bfc307c1dc.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-28T14:19:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C34_SOFisher_RL_Spatial_Omics_Design",
      "slug": "c34-sofisher-rl-spatial-omics-design",
      "detail_url": "papers/c34-sofisher-rl-spatial-omics-design/",
      "title": "SOFisher: reinforcement learning-guided experiment designs for spatial omics",
      "summary": "SOFisher 针对空间组学实验设计的现实瓶颈：研究者需要决定测什么 target 和在哪里放置 FOV，密集采样再拼接成本高、耗时长，有时甚至不可行。\n\n论文提出 reinforcement learning framework，根据已经采样的 FOV 序列选择下一个 FOV 位置，以更少采样捕获更多 regions of interest。\n\n作者在真实空间数据模拟、跨域泛化、不同 FOV 尺寸、阿尔茨海默病数据和结直肠癌数据上验证，并扩展 reward function 以最大化不同空间模式下的基因表达捕获。\n\n它值得正式收录，因为它把 AI/RL 直接嵌入空间生物学实验设计闭环，从被动分析数据推进到主动决定实验采样策略。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-25",
      "doi": "10.1038/s41467-026-73404-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 1057,
      "source_url": "https://www.nature.com/articles/s41467-026-73404-6_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-73404-6_reference.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让空间生物学实验告别盲抽？北理工复旦等用强化学习实现采样效率提升5倍",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "sofisher reinforcement learning guided experiment designs for spatial omics",
          "description": "北京理工大学、复旦大学、北京大学及华侨大学团队在空间组学领域取得突破，推出基于强化学习的实验设计框架SOFisher。针对传统采样方法成本高、耗时长且易破坏组织的痛点，SOFisher利用已采样视野的细胞分子信息进行实时序列决策，智能预测最佳采样点。实验表明，该框架能将特定细胞靶点的采样效率提升高达5倍，并具备强大的跨空间域追踪能力。这一成果不仅能大幅降低大面积多组学实验的成本，还能更精准、快速地锁定肿瘤微环境及阿尔茨海默症的病理标志物，为空间生物学研究带来更高效、更经济的数字化导航方案。",
          "x_post": "北理工复旦北大等提出强化学习空间组学框架SOFisher，实现特定细胞靶点采样效率提升5倍\n【问题背景】传统空间组学检测常依赖全组织覆盖扫描或无针对性随机采样，面临高成本、耗时长且易破坏样本的局限。\n【核心方法】SOFisher 引入 Double DQN 强化学习引擎，基于已采样视野的细胞表型信息进行实时序列决策，自适应预测并指引下一个最佳采样点。\n【关键证据】模拟实验显示，该框架在寻找特定神经元及空间域等任务中，将采样效率提升达 5 倍，并显著降低了达到目标所需的视野数。\n【结论边界】该工具为阿尔茨海默病病理及肿瘤微环境研究提供了低成本的数字化导航方案，其应用效果依赖于目标与周边细胞表型存在的空间关联性。",
          "cover_url": "assets/covers/c34-sofisher-rl-spatial-omics-design-c405ef7075.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T17:24:03+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO57_pUniFind_Proteomics_Mass_Spectrum_Model",
      "slug": "bio57-punifind-proteomics-mass-spectrum-model",
      "detail_url": "papers/bio57-punifind-proteomics-mass-spectrum-model/",
      "title": "A large-scale unified deep learning model for peptide mass spectrum interpretation trained on multimodal data",
      "summary": "这篇 Nature Machine Intelligence 论文把质谱蛋白质组解析从多个分散工具推进到统一的 multimodal foundational model。\n\npUniFind 在超过 100 million open search-derived spectra 上训练，通过 spectral 和 peptide modalities 的 cross-modality prediction 统一 peptide-spectrum scoring、database search 和 zero-shot de novo sequencing。\n\n在 immunopeptidomics 中，它报告 identified peptides 增加 42.6%；在 modification-rich de novo sequencing 中，在 300 倍更大搜索空间下比现有方法多识别 60% peptide-spectrum matches，并配套质量控制模块提升与 RNA-seq 证据的一致性。\n\n它值得正式收录，因为它把 AI 直接嵌入蛋白质组学核心分析工作流，提供开放模型、数据和软件，而不是单一属性预测或狭窄分类器。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-25",
      "doi": "",
      "arxiv_id": "2507.00087",
      "collected_at": "",
      "collection_order": 1056,
      "source_url": "https://arxiv.org/pdf/2507.00087.pdf",
      "paper_url": "https://arxiv.org/pdf/2507.00087.pdf",
      "project_urls": [
        "https://zenodo.org/records/18976195"
      ],
      "repo_urls": [
        "https://github.com/pFindStudio/pUniFind",
        "https://huggingface.co/Heisenburger2000/pUniFind"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "看清蛋白质暗物质：中科院与深势科技推出 pUniFind 重写质谱解析",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "a large scale unified deep learning model for peptide mass spectrum interpretation trained on multimodal data",
          "description": "中科院与深势科技在蛋白质组学领域联合推出大规模多模态预训练模型pUniFind。针对传统质谱解析依赖已知数据库导致漏检，以及De Novo测序准确率低等瓶颈，该模型首次统一了数据库搜索与开放式从头测序。pUniFind采用双模态并行编码与跨模态预训练机制，在1亿条真实质谱数据上进行训练，能同时处理超1300种修饰类型。测试表明，其在9大物种数据集中肽段鉴定数全面领先，并在免疫肽段组学等复杂任务中实现更高灵敏度与准确度。这为看清“蛋白质暗物质”提供了更精确、高效的分析工具，拓宽了生命科学的研究边界。",
          "x_post": "中科院与深势科技联合推出蛋白质组学大模型 pUniFind，基于1亿真实质谱数据实现超1300种修饰精准解析\n传统质谱解析高度依赖已知数据库易致漏检，而从头测序在复杂样本中准确率与鲁棒性受限。\npUniFind 首次实现数据库搜索与开放式从头测序的统一。模型采用双模态并行编码，通过1亿条真实质谱数据进行跨模态预训练，可处理超1300种修饰类型。\n测试表明，pUniFind 在9大物种数据集中的肽段鉴定数量全面领先其他主流引擎，显著提升了低频修饰肽段的识别率。\n配合其内置的深度学习质量控制模块过滤不可靠预测，该模型为解析复杂生物样本中的“蛋白质暗物质”提供了高置信度的分析框架。",
          "cover_url": "assets/covers/bio57-punifind-proteomics-mass-spectrum-model-87a6f42044.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-28T20:49:08+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO56_DNA_Origami_Diffusion_Design",
      "slug": "bio56-dna-origami-diffusion-design",
      "detail_url": "papers/bio56-dna-origami-diffusion-design/",
      "title": "De novo design of DNA origami with a generative diffusion model",
      "summary": "这篇论文把蛋白工程中已成熟的 generative inverse design 思路扩展到 DNA origami，用于探索更复杂几何和功能的 DNA 纳米结构设计空间。\n\n作者为缺少大规模标准结构数据的问题设计了基于 multiscale computational model 的模拟平衡构象训练数据，并用 guided diffusion sampling 与 strand routing 生成目标几何对应的 DNA origami designs。\n\n系统集成 structure prediction 做定量评估，并从超过 100 个生成候选中选择结构进行实验验证，展示正确折叠以及 auxetic transformation、modular assembly 等功能行为。\n\n它值得正式收录，因为它把 diffusion generative design 推入 DNA nanotechnology 的实际设计-预测-实验验证链条，是 AI-driven molecular/nanoscale engineering 的高价值案例。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-25",
      "doi": "10.1038/s41467-026-73578-z",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 1055,
      "source_url": "https://www.nature.com/articles/s41467-026-73578-z_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-73578-z_reference.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "首尔大等用AI一键折叠纳米机器，误差降至2纳米，发布Generative SNUPI",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "de novo design of dna origami with a generative diffusion model",
          "description": "首尔大学与汉阳大学团队在DNA纳米折叠领域取得重要突破。针对传统设计工具受限于几何规则且面临高质量数据匮乏的痛点，研究团队推出Generative SNUPI平台。该方法核心在于融合生成式扩散模型与物理模拟，利用SNUPI物理引擎生成平衡态构象攻克数据荒，并结合SE(3) Transformer和Wasserstein距离引导点云去噪重塑。实验表明，该系统能一键生成百余种复杂三维拓扑结构，成功将设计偏差从上千纳米降至约2纳米，实现微观尺度的极致精准。这一成果不仅大幅提升了功能性纳米材料的设计效率，也为开发精密可重构纳米机器人与生物医学系统奠定了数据驱动的新基础。",
          "x_post": "首尔大与汉阳大团队推出Generative SNUPI：用AI一键设计DNA纳米结构，误差降至约2纳米\n传统DNA折纸设计通常受限于双螺旋几何规则，且面临高质量3D结构数据极度匮乏的瓶颈。\n该框架融合生成式扩散模型与物理模拟，利用SNUPI引擎生成450个平衡态构象攻克数据荒，并结合SE(3) Transformer与Wasserstein距离引导碱基点云去噪重塑。\n实验表明，该系统可一键生成百余种复杂三维拓扑，成功将几何设计偏差从约1294纳米降至2.21±1.32纳米。\n该成果实现了从线框草图到物理可行DNA结构的完整设计闭环，为开发精密可重构纳米机器人提供了数据驱动的新路径。",
          "cover_url": "assets/covers/bio56-dna-origami-diffusion-design-aafdd9373c.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T16:01:27+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A323_PerMemBench_Personalized_Memory",
      "slug": "a323-permembench-personalized-memory",
      "detail_url": "papers/a323-permembench-personalized-memory/",
      "title": "Personalize-then-Store: Benchmarking and Learning Personalized Memory for Long-horizon Agents",
      "summary": "这篇论文处理个人 agent 的长期记忆难题：并非所有对话内容都应直接存储，真正有用的是能支持后续个性化决策的稳定偏好、事实和习惯。\n\nPersonalize-then-Store 将记忆写入前的个性化判断作为核心环节，强调先识别对用户长期有价值的信息，再进入 memory store。\n\nPerMemBench 评估 long-horizon agents 对个人信息的选择、更新和使用能力，使 memory 系统从粗粒度保存转向可判定的个性化维护。\n\n它值得正式收录，因为个人 agent memory 是当前高优先级方向，这篇给出了存储策略和评测接口，而不只是又一个聊天记忆 demo。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-25",
      "doi": "",
      "arxiv_id": "2605.25535",
      "collected_at": "",
      "collection_order": 1054,
      "source_url": "https://arxiv.org/pdf/2605.25535.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.25535.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.25535"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A321_ProAct_Proactive_Agents",
      "slug": "a321-proact-proactive-agents",
      "detail_url": "papers/a321-proact-proactive-agents/",
      "title": "Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents",
      "summary": "这篇论文把 agent 从被动响应推进到 proactive assistance：真实个人助理有大量空闲时间，可以提前维护上下文、预测需求并准备可验证的中间产物。\n\n方法围绕 idle-time compute 设计，让 agent 在用户未明确发出下一步请求时进行预测、检索、计划或预执行，并在后续任务中复用这些准备。\n\n论文同时提出 ProActEval，用于评估 proactive preparation 是否真正提升后续任务质量，而不是制造无用工作或干扰用户。\n\n它值得正式收录，因为它改变了 agent 运行时模型：计算不只发生在 prompt 后，而是成为长期用户环境中的持续资源调度问题。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-25",
      "doi": "",
      "arxiv_id": "2605.25971",
      "collected_at": "",
      "collection_order": 1053,
      "source_url": "https://arxiv.org/pdf/2605.25971.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.25971.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.25971"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A320_CUA_Gym_Verifiable_CUA_RLVR",
      "slug": "a320-cua-gym-verifiable-cua-rlvr",
      "detail_url": "papers/a320-cua-gym-verifiable-cua-rlvr/",
      "title": "CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents",
      "summary": "CUA-Gym 面向 computer-use agents 的训练瓶颈：agent 需要在真实或仿真的软件环境中学习，但可验证、可扩展、可自动生成的训练任务仍然稀缺。\n\n论文把 CUA 训练环境组织成可执行、可判定的任务集合，使模型可以通过 outcome verification 获得 RLVR 式训练信号，而不是只依赖静态演示或文本反馈。\n\n它强调环境和任务的规模化构造，这比单个 GUI benchmark 更接近 agent training infrastructure，可服务于浏览器、桌面和移动端操作能力提升。\n\n它值得正式收录，因为可验证环境是 CUA 从评测走向训练的关键边界，CUA-Gym 给出了可复用的数据和环境扩展方向。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-25",
      "doi": "",
      "arxiv_id": "2605.25624",
      "collected_at": "",
      "collection_order": 1052,
      "source_url": "https://arxiv.org/pdf/2605.25624.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.25624.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.25624"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A316_Claw_Anything_Always_On_Assistants",
      "slug": "a316-claw-anything-always-on-assistants",
      "detail_url": "papers/a316-claw-anything-always-on-assistants/",
      "title": "Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World",
      "summary": "Claw-Anything 扩展了 personal assistant agent 的评测边界：真实助理需要访问用户长期数字世界，而现有 benchmark 往往只给出局部网页、局部软件或短期任务状态。\n\n它沿三个维度扩大上下文：long-horizon activity histories、interdependent backend services、以及跨设备的 GUI/CLI integrated interaction。\n\n通过 multi-round event injection 模拟数月用户活动，生成含噪声、冲突信号和复杂 world states 的环境，并评估 proactive assistance 和上下文敏感推理。\n\n它值得正式收录，因为它把 agent benchmark 从单任务执行推进到 always-on personal assistant 的长期用户状态和跨服务世界模型，对个人 agent 训练与评测很关键。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-25",
      "doi": "",
      "arxiv_id": "2605.26086",
      "collected_at": "",
      "collection_order": 1051,
      "source_url": "https://arxiv.org/pdf/2605.26086.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.26086.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.26086",
        "https://github.com/LiberCoders/CLaw-Anything"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "让AI主动接管你的数字生活？北理工华为等联合发布Claw-Anything",
          "url": "https://www.bilibili.com/video/BV1AcGk6dEKA",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1AcGk6dEKA",
            "https://youtu.be/YbHPKkAR4qY"
          ],
          "main_collection": "AI智能体",
          "match": "claw anything benchmarking always on personal assistants with broader access to user s digital world",
          "description": "北京理工大学、华为、北京大学及中科院自动化所联合发布了新型智能体基准测试Claw-Anything。针对当前AI助理受限于“记忆孤岛”、缺乏全局感知能力的痛点，该研究从长周期、多服务协同和跨设备交互三大维度构建了复杂的评测环境。研究团队开发了自动化数据引擎，可模拟长达数月的真实数字生活。实验显示，顶尖模型在该测试中的成功率仅为34.5%，暴露了现阶段AI处理真实复杂需求的短板；而通过该框架生成的数据对Qwen3.5进行微调后，模型性能显著提升了23.7%。这一成果不仅填补了全天候AI助理评测的空白，也为训练更实用、更具全栈行动力的智能助手提供了关键的数据与基础设施支持。",
          "x_post": "北理工与华为等联合发布Claw-Anything，测得顶尖模型在全天候数字助理任务中成功率仅34.5%\n当前个人智能助理普遍受限于“记忆孤岛”，缺乏在长周期、多服务和跨设备异构环境下的全局感知与主动干预能力。\n为此，研究团队提出Claw-Anything评测基准，从长期活动记录、多服务协调（单任务平均跨越10.1个服务）和CLI/GUI交互三个维度模拟复杂的真实数字世界。\n实验显示，即便如GPT-5.5等顶尖模型在该基准上的任务成功率也仅为34.5%；而利用其自动化引擎生成的数据微调Qwen3.5，可使模型性能提升23.7%。\n该工作指明了现有智能体处理真实数字生活需求的短板，并为开发具全栈行动力的个人助理提供了标准化的评测工具与数据基础设施。",
          "cover_url": "assets/covers/a316-claw-anything-always-on-assistants-b83d1e691a.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T17:20:04+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T41_BonaFide_CoT_Faithfulness_Meta_Eval",
      "slug": "t41-bonafide-cot-faithfulness-meta-eval",
      "detail_url": "papers/t41-bonafide-cot-faithfulness-meta-eval/",
      "title": "Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth",
      "summary": "这篇论文针对 CoT 审计中的核心假设：已有 faithfulness metrics 是否真的测量了推理链是否反映模型计算过程。\n\n作者构造能从输出反推必要中间计算的任务，并建立自动标注流程，得到 step-level 和 CoT-level ground-truth faithfulness labels。\n\nBonaFide benchmark 包含 13 个任务、10 个模型和 3,066 条标注 CoTs；系统评估显示多数现有指标接近随机、有强预测偏差，并在长 CoT 上退化。\n\n它值得正式收录，因为它提供了 CoT faithfulness 度量的 ground-truth meta-evaluation，直接影响 reasoning model interpretability、安全审计和链式思维监控。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-05-24",
      "doi": "",
      "arxiv_id": "2605.25052",
      "collected_at": "",
      "collection_order": 1050,
      "source_url": "https://arxiv.org/pdf/2605.25052.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.25052.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.25052",
        "https://github.com/yoavgur/BonaFide",
        "https://huggingface.co/collections/yoavgurarieh/bonafide"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "揭穿大模型假装思考的谎言：全新评估框架BONAFIDE首次还原真实计算过程",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "faithfulness metrics don t measure faithfulness a meta evaluation with ground truth",
          "description": "科研团队在AI可解释性与安全领域针对大模型“假装思考”的现象展开研究。目前常用的思维链虽然能提供推理步骤，但往往只是为了迎合人类的事后合理化包装，且现有评估指标缺乏绝对真理，无法准确测出其真实忠实度。为此，研究团队首创了BONAFIDE评估框架。该方法通过设计具有唯一解的误导和计算瓶颈陷阱任务，对AI思维进行“逆向工程”以获取绝对真理标签。基于10个模型和13类任务的测试表明，多数现有忠实度指标表现仅接近随机水平，揭示了当前监控方法的严重漏洞。本研究为开发更可靠、更高效的LLM真实推理监控工具奠定了基础，但仍需探索更广泛的泛化应用边界。",
          "x_post": "研究团队推出首个CoT忠实度评估框架BONAFIDE：测试10个模型发现多数现有指标接近随机水平\n\n【背景】目前大语言模型（LLM）的思维链（CoT）常被用作推理监控，但其输出往往仅是迎合人类的事后合理化伪装，现有评估指标因缺乏地面真值（Ground Truth）而无法准确测量其真实忠实度。\n【方法】研究团队提出BONAFIDE评估框架，通过设计具有唯一解的误导和计算瓶颈陷阱任务，对AI思维进行“逆向工程”，以此获取用于验证的绝对真理标签。\n【数据】该基准涵盖10个模型、13类任务共3,066个标记示例。元评估实验表明，多数现有的忠实度评估指标表现仅接近随机水平，且存在严重的预测偏见与计算效率低下问题。\n【结论】本研究揭示了当前LLM推理监控方法的严重漏洞，为构建更可靠、更高效的真实推理审计工具奠定了基础，但其在更广泛场景下的泛化应用边界仍需进一步探索。",
          "cover_url": "assets/covers/t41-bonafide-cot-faithfulness-meta-eval-72d25b3182.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T17:13:55+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A324_SimuWoB_Mobile_GUI_Agent_Benchmark",
      "slug": "a324-simuwob-mobile-gui-agent-benchmark",
      "detail_url": "papers/a324-simuwob-mobile-gui-agent-benchmark/",
      "title": "SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking",
      "summary": "SimuWoB 处理移动 GUI agent 评测中的可复现问题：真实 app 状态易变、账号和网络依赖复杂，导致 benchmark 难以稳定扩展。\n\n论文用模拟真实移动应用的方式构建快速、可控且较忠实的任务环境，使 agent 可以在统一状态空间中执行多步 UI 操作。\n\n这种设计降低了 live-app benchmark 的维护成本，也使任务难度、状态和验证逻辑更适合训练和评测循环。\n\n它值得正式收录，因为移动 GUI 是 computer-use agent 的关键场景，SimuWoB 提供了可扩展评测环境而不是孤立任务集合。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-24",
      "doi": "",
      "arxiv_id": "2605.25160",
      "collected_at": "",
      "collection_order": 1049,
      "source_url": "https://arxiv.org/pdf/2605.25160.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.25160.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.25160"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A313_Macaron_A2UI_Generative_UI_Agents",
      "slug": "a313-macaron-a2ui-generative-ui-agents",
      "detail_url": "papers/a313-macaron-a2ui-generative-ui-agents/",
      "title": "Macaron-A2UI: A Model for Generative UI in Personal Agents",
      "summary": "Macaron-A2UI 关注 personal agent 的交互瓶颈：纯文本聊天难以承载信息收集、偏好细化、确认、多目标组织和复杂状态展示。\n\n论文提出 Generative UI 模型，让 agent 同时生成自然语言和轻量可执行 UI actions，并构建大规模 Generative UI corpus 与 A2UI-Bench。\n\n训练流程包含 LoRA-based supervised fine-tuning 和 reward-driven reinforcement learning，并在 30B、235B、754B 模型上验证，在无显式 schema hints 情况下超过强 schema baseline。\n\n它值得正式收录，因为它把 agent interface 从 chat-only 推向动态 UI synthesis，提供了个人智能体产品形态、评测和训练工作流的可复用样板。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-24",
      "doi": "",
      "arxiv_id": "2605.24830",
      "collected_at": "",
      "collection_order": 1048,
      "source_url": "https://arxiv.org/pdf/2605.24830.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.24830.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.24830"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "告别文字聊天！Mind Lab发布Macaron让AI自动生成界面",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "macaron a2ui a model for generative ui in personal agents",
          "description": "Mind Lab团队针对个人智能体在复杂任务中纯文本交互效率低、认知负荷高的问题，推出了专属生成式UI模型Macaron-A2UI。该模型打破了传统静态界面的限制，不直接生成复杂代码，而是输出高度结构化的声明式消息，由客户端客户端实时渲染出最契合用户当前需求的动态交互控件。通过构建包含超14000个样本的高质量语料库，并引入监督微调与基于真实体验的强化学习（GRPO）两阶段训练，该模型实现了高达99.2%的首发渲染成功率，在保证系统安全与跨平台一致性的同时，大幅降低了用户的沟通成本与操作负担，为下一代个性化智能体交互奠定了关键基础。",
          "x_post": "Mind Lab发布生成式UI模型Macaron-A2UI，首发渲染成功率达99.2%\n针对个人智能体纯文本交互效率低、用户认知负荷高的问题，Mind Lab提出专属生成式UI模型Macaron-A2UI。\n该模型不直接生成复杂网页代码，而是输出高度结构化的声明式消息，由客户端本地组件库进行实时渲染。\n基于包含14,000+样本的高质量语料库，通过SFT与引入多维体验奖励的GRPO强化学习两阶段训练，模型实现了99.2%的首发渲染成功率。\n此项工作开源了模型与A2UI-Bench评估基准，为下一代个性化智能体的界面交互设计提供了可核验的技术路径。",
          "cover_url": "assets/covers/a313-macaron-a2ui-generative-ui-agents-bfb5cb23ef.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T16:07:56+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW35_Trainable_Neuromorphic_Spintronic_Hardware",
      "slug": "hw35-trainable-neuromorphic-spintronic-hardware",
      "detail_url": "papers/hw35-trainable-neuromorphic-spintronic-hardware/",
      "title": "Trainable neuromorphic spintronic hardware Via analog finite-difference gradient methods",
      "summary": "这篇 Nature Communications 论文解决 analog/spintronic neuromorphic hardware 的关键训练瓶颈：设备行为复杂且有变异性，依赖过度简化软件模型会导致训练和真实硬件脱节。\n\n作者证明 magnetic tunnel junctions 可以生成可调且复杂的非线性响应，并基于此实现 analog finite-difference 方法，让芯片上神经网络产生接近数值梯度的 on-device gradients。\n\n论文实验实现了 magnetic tunnel junction-based neural network 的 device-in-the-loop backpropagation，即使存在明显设备变异，仍达到 93.3% 分类准确率，并通过模拟展示可扩展到更深架构。\n\n它值得正式收录，因为它在 AI hardware 方向提供了可训练模拟自旋电子神经网络的硬件-学习算法协同路径，直接影响低功耗 AI 计算设计空间。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-05-23",
      "doi": "10.1038/s41467-026-73624-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 1047,
      "source_url": "https://www.nature.com/articles/s41467-026-73624-w_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-73624-w_reference.pdf",
      "project_urls": [
        "https://zenodo.org/records/19848392"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让芯片摆脱外部电脑自主学习？波尔图大学等用自旋电子硬件打破存算瓶颈",
          "url": "https://www.bilibili.com/video/BV19AVK6rEn4",
          "platform_urls": [
            "https://www.bilibili.com/video/BV19AVK6rEn4",
            "https://youtu.be/tLAPD5DkeHk"
          ],
          "main_collection": "AI硬件设计",
          "match": "trainable neuromorphic spintronic hardware via analog finite difference gradient methods",
          "description": "波尔图大学、伊比利亚国际纳米技术实验室等团队在自旋电子神经形态计算领域取得突破。传统AI芯片受限于存算分离瓶颈，且模拟类脑硬件在训练时，常因器件制造差异和求导难题而依赖外部电脑。为此，研究团队提出“模拟有限差分梯度法”，利用并联的磁隧道结器件电压差，在片上直接生成物理梯度。这种全模拟方案不仅能应对器件差异，还将能耗降至皮焦耳级，并在经典分类任务中实现了与传统数字网络相当的高准确率。这证明了全模拟深度自旋神经网络的可行性，为更省电、更高效的边缘自进化AI硬件奠定了基础。",
          "x_post": "波尔图大学与INL等实现自旋电子硬件片上梯度生成，功耗降至皮焦耳级\n传统模拟类脑芯片在训练时，常因器件物理差异和求导难题而被迫依赖外部数字计算机。\n为此，研究团队利用磁隧道结（MTJ）提出“模拟有限差分梯度法”，通过并联器件与100 µA微小偏移电流，直接在片上完成差分物理求导。\n实验显示，该方案支持sub-10 nm工艺，读出能耗降至皮焦耳（pJ）级，并在经典分类任务中实现了与传统数字网络相当的准确率。\n该成果证实了全模拟深度自旋神经网络的可行性，为高效能边缘自进化AI硬件奠定了基础。",
          "cover_url": "assets/covers/hw35-trainable-neuromorphic-spintronic-hardware-5a848715af.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T17:22:48+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A325_ECHO_Terminal_Agent_World_Models",
      "slug": "a325-echo-terminal-agent-world-models",
      "detail_url": "papers/a325-echo-terminal-agent-world-models/",
      "title": "ECHO: Terminal Agents Learn World Models for Free",
      "summary": "ECHO 把 terminal agents 的环境交互视为可学习世界模型问题：命令执行后的文件系统、stdout、stderr 和状态变化可以作为自监督信号。\n\n论文通过辅助预测环境后继状态，让 agent 在完成任务的同时学习 CLI world model，不需要额外人工标注即可改善后续规划。\n\n这对 coding agents 和本地自动化尤其重要，因为终端环境有明确动作、观测和可验证状态，是 agent 世界模型最现实的落地点之一。\n\n它值得正式收录，因为它把 world modeling 从机器人/视频扩展到软件执行环境，为 terminal agent 的长期学习提供了低成本训练信号。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-23",
      "doi": "",
      "arxiv_id": "2605.24517",
      "collected_at": "",
      "collection_order": 1046,
      "source_url": "https://arxiv.org/pdf/2605.24517.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.24517.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.24517"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A317_SEAL_Agent_Environment_Co_Evolution",
      "slug": "a317-seal-agent-environment-co-evolution",
      "detail_url": "papers/a317-seal-agent-environment-co-evolution/",
      "title": "SEAL: Synergistic Co-Evolution of Agents and Learning Environments",
      "summary": "SEAL 提出 Agent-Environment Misalignment：agent 能力边界在训练中变化，但训练环境和监督信号常是静态或弱耦合的，导致 self-evolution 无法持续对准真实失败。\n\n系统收集 executable verification 下的 on-policy trajectories，把失败 rollouts 诊断为 turn-level failure labels，并把同一诊断信号用于环境侧和模型侧。\n\n环境侧调整 training-time learning interface，暴露更清晰的 tool affordance cues、constraint information 和 recovery-oriented feedback；模型侧用 diagnosis-guided advantage reweighting 优化策略。\n\n它值得正式收录，因为它把 self-improving agents 从单独更新 policy 推进到 agent 与学习环境共同演化，是 agent 训练基础设施的重要模式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-23",
      "doi": "",
      "arxiv_id": "2605.24426",
      "collected_at": "",
      "collection_order": 1045,
      "source_url": "https://arxiv.org/pdf/2605.24426.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.24426.pdf",
      "project_urls": [
        "https://yihaohu0118.github.io/SEAL/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.24426",
        "https://github.com/yihaohu0118/SEAL"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "仅凭400条数据让AI性能提升26%？西湖大学等发布SEAL框架",
          "url": "https://www.bilibili.com/video/BV1PTG26MEW2",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1PTG26MEW2",
            "https://youtu.be/6h99iVxf-oc"
          ],
          "main_collection": "AI递归自我进化",
          "match": "seal synergistic co evolution of agents and learning environments",
          "description": "西湖大学、蚂蚁集团及密歇根大学等联合团队针对大模型智能体（Agent）在学习中“智能体与环境失配”的难题，提出了SEAL（协同共演化）框架。传统方法仅单向优化模型或环境，而SEAL通过基于执行证据的客观失败诊断，将失效信号同时用于改进环境接口与优化模型策略。实验表明，该方法在仅使用400条训练数据的少样本条件下，使智能体在多轮工具调用任务中的性能提升了26%，显著增强了其鲁棒性与迁移能力。该研究为实现高效、低成本的智能体闭环进化开辟了新路径。",
          "x_post": "西湖大学与蚂蚁集团等联合团队发布SEAL框架：仅凭400条数据使AI性能提升26%\n【问题背景】大模型智能体（Agent）在多轮工具交互中面临“智能体-环境失配”难题，传统单向优化模型或环境的方法难以实现两者协同进化。\n【方法核心】SEAL框架引入基于验证器的客观失败诊断机制，将执行日志等客观证据产生的失效信号，同时用于动态改进环境接口与优化模型策略。\n【关键证据】实验表明，在仅使用400条训练数据的少样本条件下，该方法在多轮工具调用任务中使智能体性能提升26%，显著增强了鲁棒性与迁移能力。\n【结论边界】该研究开辟了低成本、高效的智能体闭环共演化路径，但其效能高度依赖于对执行失败场景的精准结构化诊断。",
          "cover_url": "assets/covers/a317-seal-agent-environment-co-evolution-7846900827.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T16:08:04+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "SE9_CoSPlay_Test_Time_Code_Self_Play",
      "slug": "se9-cosplay-test-time-code-self-play",
      "detail_url": "papers/se9-cosplay-test-time-code-self-play/",
      "title": "CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test",
      "summary": "CoSPlay 针对 coding agents 的一个现实瓶颈：许多场景没有隐藏测试或人工 verifier，模型必须自己构造测试来发现代码缺陷。\n\n方法在测试时让代码生成和单元测试生成进行 cooperative self-play，通过自生成代码和自生成 unit tests 互相暴露错误并迭代修正。\n\n这种机制把 test-time compute 转化为临时验证生态，适合和 coding agent、CI loop、自动修复系统结合，而不是只依赖单次采样。\n\n它值得正式收录，因为它是软件工程 agent 的可复用推理/验证 primitive，连接了自生成测试、代码修复和测试时搜索。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "software_engineering",
      "theme_label": "软件工程",
      "published_at": "2026-05-22",
      "doi": "",
      "arxiv_id": "2605.23491",
      "collected_at": "",
      "collection_order": 1044,
      "source_url": "https://arxiv.org/pdf/2605.23491.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.23491.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.23491"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N108_Goal_Directed_Visual_Attention_Dynamics",
      "slug": "n108-goal-directed-visual-attention-dynamics",
      "detail_url": "papers/n108-goal-directed-visual-attention-dynamics/",
      "title": "Computational neural dynamics of goal-directed visual attention in macaques",
      "summary": "这篇 Science Advances 论文研究真实视觉搜索中，目标、记忆、眼动和多脑区表征如何共同支持 goal-directed visual attention。\n\n作者在猕猴自由注视搜索任务中记录 V4、IT、OFC 和 LPFC，发现群体活动能在 cue、delay 和 search 阶段动态表征类别、注意状态和目标检测。\n\n论文特别重要的是 orthogonal subspace 和 representational geometry：搜索前 cue activity 可预测搜索效率，foveal attention 会通过增加 pattern separation 和非线性重塑表征几何来增强外围目标表征，搜索动态还携带注视历史。\n\n它值得收录，因为它给视觉注意和主动感知提供了多脑区 population-dynamics 框架，可启发多模态模型中的目标条件感知、显式搜索状态、眼动/视线策略和动态表征几何设计。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-22",
      "doi": "10.1126/sciadv.aed9004",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 1043,
      "source_url": "https://doi.org/10.1126/sciadv.aed9004",
      "paper_url": "https://doi.org/10.1126/sciadv.aed9004",
      "project_urls": [
        "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=42160437&retmode=xml"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G24_SCOPE_Cross_Game_FPS_World_Models",
      "slug": "g24-scope-cross-game-fps-world-models",
      "detail_url": "papers/g24-scope-cross-game-fps-world-models/",
      "title": "SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models",
      "summary": "SCOPE 处理 FPS playable world models 的控制难题：高频、重叠的控制信号会同时影响局部武器区域和全局相机/移动，普通全局 action injection 容易干扰无关区域。\n\n论文观察到 FPS actions 具有空间选择性，离散动作如开火和换弹主要影响 weapon scope，连续相机和移动则控制周围环境。\n\n方法在 pretrained video diffusion model 的每个 transformer block 中插入 conditioning module，把特征重排为 per-pixel temporal sequences，让每个位置按局部视觉内容计算 action response；同时发布 CrossFPS 多游戏数据集。\n\n它值得正式收录，因为它为可玩世界模型提供了局部动作响应和跨游戏泛化接口，对游戏 world model、交互仿真和 embodied environment generation 有复用价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-22",
      "doi": "",
      "arxiv_id": "2605.23345",
      "collected_at": "",
      "collection_order": 1042,
      "source_url": "https://arxiv.org/pdf/2605.23345.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.23345.pdf",
      "project_urls": [
        "https://z2tong.github.io/SCOPE/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.23345",
        "https://github.com/z2tong/SCOPE"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "腾讯北大等让AI世界模型零样本跨游戏运行，发布首个FPS引擎SCOPE",
          "url": "https://www.bilibili.com/video/BV1uFVp6UEdX",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1uFVp6UEdX",
            "https://youtu.be/rx2ykArSmqo"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "scope simulating cross game operations in playable environments for fps world models",
          "description": "腾讯、北京大学等团队针对第一人称射击游戏领域，推出了首个跨游戏交互式像素级世界模型SCOPE。传统世界模型在处理高频密集操作（如快速转头、开火）时，因全局渲染机制极易导致画面撕裂和系统崩溃。SCOPE的核心在于创新地将画面进行无监督的像素级“内外解耦”，把武器局域动态与环境全局移动分离，通过双通道架构进行针对性的渲染。该模型无需重新训练，即可在全新、未知的射击游戏中实现零样本的稳定交互运行，大幅提升画面生成质量与物理连贯性，为通用生成式AI游戏引擎的发展奠定了基础。",
          "x_post": "【腾讯北大等提出首个FPS世界模型SCOPE：实现10自由度零样本跨游戏运行】\n传统世界模型在处理FPS高频密集操作（如超180°/s的视角旋转及开火）时，因全局渲染机制极易导致画面撕裂。\n为此，研究团队构建了涵盖7款游戏的CrossFPS数据集，并提出双通道架构SCOPE。\n该模型通过无监督像素级条件建模，将画面解耦为处理局部动作的离散通道与推演全局视角移动的连续通道。\n实验表明，SCOPE无需重新训练或人工标注分割掩码，即可精确响应10自由度（10-DoF）的手柄级复杂微操。\n其在全新未知游戏场景中实现了稳定的零样本交互，为通用生成式AI游戏引擎提供了高物理连贯性的画面渲染新路径。",
          "cover_url": "assets/covers/g24-scope-cross-game-fps-world-models-2a4a0da831.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T16:04:53+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A326_SkillLens_Model_Generated_Agent_Skills",
      "slug": "a326-skilllens-model-generated-agent-skills",
      "detail_url": "papers/a326-skilllens-model-generated-agent-skills/",
      "title": "From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills",
      "summary": "这篇论文系统研究 model-generated agent skills 的生命周期：从 raw experience 中抽取技能、组织技能库、选择技能，再到执行时消费技能。\n\n它把 skill system 中常被混在一起的问题拆开，包括经验压缩、技能粒度、描述质量、调用条件、冲突和复用效果。\n\n这种分析对 skill marketplace、agent memory 和 capability extension 很重要，因为技能不是简单 prompt 片段，而是需要可维护、可检索、可组合的外部能力单元。\n\n它值得正式收录，因为它提供了 agent skill 系统的系统性经验和评测视角，可作为后续 skill runtime 设计的参考。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-22",
      "doi": "",
      "arxiv_id": "2605.23899",
      "collected_at": "",
      "collection_order": 1041,
      "source_url": "https://arxiv.org/pdf/2605.23899.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.23899.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.23899"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A322_SkillEvolBench_Procedural_Skills",
      "slug": "a322-skillevolbench-procedural-skills",
      "detail_url": "papers/a322-skillevolbench-procedural-skills/",
      "title": "SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills",
      "summary": "SkillEvolBench 聚焦 agent memory 的关键问题：长期经验如果只以 episodic traces 存储，agent 仍然很难把一次次失败和成功压缩成可复用技能。\n\nbenchmark 明确评估从 episodic experience 到 procedural skills 的演化过程，要求系统在跨任务和跨上下文场景中形成更抽象、可迁移的操作程序。\n\n这使评测对象从“是否记得过去”变成“是否把过去转化为未来能力”，直接对应 skill library、agent memory 和 self-evolving agents 的交汇点。\n\n它值得正式收录，因为它提供了 agent 能力增长的评测接口，比普通记忆检索或单任务成功率更接近长期智能体的核心目标。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-22",
      "doi": "",
      "arxiv_id": "2605.24117",
      "collected_at": "",
      "collection_order": 1040,
      "source_url": "https://arxiv.org/pdf/2605.24117.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.24117.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.24117"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A315_QUEST_Synthetic_Deep_Research_Agents",
      "slug": "a315-quest-synthetic-deep-research-agents",
      "detail_url": "papers/a315-quest-synthetic-deep-research-agents/",
      "title": "QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks",
      "summary": "QUEST 面向 deep research agents 的训练问题：前沿系统多为闭源，开放系统在不同搜索、事实核查、引用和报告任务间泛化不足。\n\n论文发布 2B 到 35B 的 open deep research agents，并提出结合 mid-training、supervised fine-tuning 和 reinforcement learning 的训练 recipe。\n\n核心是基于 unified rubric trees 的合成任务管线，在无人工标注下生成可验证奖励的多任务训练数据，并加入内置 context management 以支持长程搜索和知识综合。\n\n它值得正式收录，因为它把 deep research agent 训练做成开源模型、数据、训练脚本和评测流程，连接了 synthetic task generation、verifiable rewards 和长程 research workflow。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-22",
      "doi": "",
      "arxiv_id": "2605.24218",
      "collected_at": "",
      "collection_order": 1039,
      "source_url": "https://arxiv.org/pdf/2605.24218.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.24218.pdf",
      "project_urls": [
        "https://osu-nlp-group.github.io/QUEST/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.24218",
        "https://github.com/OSU-NLP-Group/QUEST"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "俄亥俄州立大学仅用8K数据，训练出能写深度研究报告的QUEST",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "quest training frontier deep research agents with fully synthetic tasks",
          "description": "俄亥俄州立大学NLP团队在AI科研助手与深度研究智能体领域取得新突破。传统的开源AI智能体往往面临任务泛化差、长周期搜索导致上下文溢出等痛点，且尖端深度研究系统多被闭源巨头垄断。为此，团队推出开源模型家族QUEST。它通过“全合成数据工厂”流程，利用统一规则树自动生成高质量训练数据，并借助创新的上下文管理机制压缩杂乱的搜索历史。令人瞩目的是，QUEST仅使用8000个零人工标注的全合成任务数据进行训练，其顶尖型号在多项基准测试中的表现便超越了OpenAI DeepResearch等闭源商业系统。该研究彻底开源了模型权重、数据集和代码，极大地降低了高性能科研智能体的开发成本，为通用科研智能体的普及奠定了基础。",
          "x_post": "俄亥俄州立大学NLP团队发布开源深度研究智能体QUEST：仅用8K全合成数据，多项基准超越OpenAI DeepResearch\n【背景】现有开源研究智能体常面临长周期搜索导致的上下文溢出、任务泛化差等瓶颈，且顶尖系统多由闭源巨头垄断。\n【方法】QUEST模型家族（2B-35B，基于Qwen3.5）构建了“全合成数据工厂”，利用统一规则树自主生成8,000个高质量任务，并配合上下文管理机制压缩长周期搜索历史。\n【证据】在零人工标注的前提下，QUEST顶尖型号在多项基准测试中表现优异，在事实检索、引用溯源和报告综合等维度逼近或超越OpenAI DeepResearch等闭源系统。\n【结论】该项目现已开源全部模型权重、数据集及代码，降低了高性能科研智能体的技术与成本门槛，为通用学术智能体的发展提供了可验证的开源方案。",
          "cover_url": "assets/covers/a315-quest-synthetic-deep-research-agents-f91bc7cc20.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T06:28:47+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A314_Foundation_Protocol_Agentic_Society",
      "slug": "a314-foundation-protocol-agentic-society",
      "detail_url": "papers/a314-foundation-protocol-agentic-society/",
      "title": "Foundation Protocol: A Coordination Layer for Agentic Society",
      "summary": "Foundation Protocol 关注 agent scale-up 后的系统瓶颈：当 agent 能浏览、购买、部署软件、管理系统并互相协作时，问题从单模型能力转向身份、关系、价值交换、责任和治理。\n\n论文提出 graph-first coordination layer，把 agents、tools、resources、humans、institutions 和 organizations 统一成可组织、可协作、可审计的多方关系图。\n\n协议层包含 event-based collaboration、metering、receipts、settlement、policy、provenance 和 audit 等 primitives，并强调封装和桥接现有协议而不是替代。\n\n它值得正式收录，因为它给多 agent 社会基础设施提出了系统边界模型，特别是把 coordination、accountability 和 economic primitives 作为 agent runtime 的一等对象。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-22",
      "doi": "",
      "arxiv_id": "2605.23218",
      "collected_at": "",
      "collection_order": 1038,
      "source_url": "https://arxiv.org/pdf/2605.23218.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.23218.pdf",
      "project_urls": [
        "https://foundationagents.org/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.23218",
        "https://github.com/FoundationAgents/foundation-protocol"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "怎么让成百上千个AI像人类一样组队工作？东京大学等发布4+1架构协议FP",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "foundation protocol a coordination layer for agentic society",
          "description": "东京大学等团队在多智能体协同领域，针对当前AI系统协同不足、协议碎片化及监管缺失等痛点，提出了基础协议（FP）。作为一种“图优先”的底层协同基建，FP采用4+1平面模型，将人类、AI与工具统一建模。其核心“渐进式披露”设计，改变了传统“提示词堆砌”带来的高Token消耗，实现更低成本、更安全、可审计的跨网络路由。FP将身份、经济原语直接写入底层，有效解决了规模化协作的身份验证与追责难题。这并非为了取代现有协议，而是通过连接异构系统，为人类与AI共存的智能体社会提供标准化、可受治理的信任底座。",
          "x_post": "东京大学等团队发布 Foundation Protocol (FP)：提出 4+1 架构协议，构建人类与 AI 协作的智能体社会底层基础设施。\n【背景】当前多智能体协作面临协议碎片化、监管真空，以及“提示词堆砌”带来的高 Token 消耗与安全隐患。\n【方法】FP 采用“图优先”设计，将人类、AI与工具统一建模，通过包含实体、传输、交互和监管的“4+1平面模型”实现底层协同。\n【核心机制】协议引入“渐进式披露”哲学以按需轻量化加载数据，并在通信底层植入 HostUid:EntityUid 统一寻址模型与原生经济原语。\n【定位与边界】该协议并非旨在取代 MCP、A2A 等现有标准，而是作为连接异构系统的协调层，为多智能体社会提供可审计的安全与责任底座。",
          "cover_url": "assets/covers/a314-foundation-protocol-agentic-society-597289eae8.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T16:19:48+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A312_SkillOpt_Self_Evolving_Agent_Skills",
      "slug": "a312-skillopt-self-evolving-agent-skills",
      "detail_url": "papers/a312-skillopt-self-evolving-agent-skills/",
      "title": "SkillOpt: Executive Strategy for Self-Evolving Agent Skills",
      "summary": "SkillOpt 针对 agent skill 的核心短板：当前 skill 往往是人工写、一次性生成或松散自修补，缺少像模型权重优化那样可控、可复现、可验证的训练流程。\n\n论文把 skill 文档视为冻结 agent 的外部状态，由单独 optimizer model 根据 scored rollouts 生成受限的 add/delete/replace edits，并用 held-out validation score 严格控制是否接受更新。\n\n系统引入 textual learning-rate budget、rejected-edit buffer 和 epoch-wise slow/meta update，使 skill 优化稳定，同时部署时不增加额外模型调用；实验覆盖六个 benchmark、七个目标模型和 direct chat/Codex/Claude Code 三种 harness。\n\n它值得正式收录，因为它把 agent capability extension 从 prompt 工程推进到可训练的 text-space skill optimizer，对 skill marketplace、agent memory 和长期能力演化都有直接方法价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-22",
      "doi": "",
      "arxiv_id": "2605.23904",
      "collected_at": "",
      "collection_order": 1037,
      "source_url": "https://arxiv.org/pdf/2605.23904.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.23904.pdf",
      "project_urls": [
        "https://microsoft.github.io/SkillOpt/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.23904",
        "https://github.com/microsoft/SkillOpt"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "不用调参也能让AI能力暴涨？微软交大等发布自进化框架SkillOpt",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "skillopt executive strategy for self evolving agent skills",
          "description": "由微软和上海交大等团队研发的SkillOpt，聚焦于大语言模型智能体领域。针对传统方法中基础模型权重锁定、人工提示词脆弱且难以应对复杂任务的痛点，该研究首次提出了系统化的智能体技能文本空间优化器。SkillOpt借鉴深度学习的严谨逻辑，将技能文档视为可训练状态，通过批量经验收集、小批次反思及限制编辑预算等机制进行自进化更新。实验表明，该框架在多个基准测试中达到顶尖水平，显著提升了智能体的执行效率。其核心意义在于，优化后的技能具有极强复用性，无需修改任何模型权重即可跨模型、跨任务迁移。",
          "x_post": "【微软与上海交大等提出SkillOpt：无需微调权重的自进化智能体技能文本空间优化框架】\n传统LLM智能体常受限于基础模型权重锁定，且人工编写的提示词在面对复杂任务时显得脆弱、难以扩展。\n为此，微软与上海交大等团队提出SkillOpt，将智能体技能视为可训练的外部自然语言状态。该框架引入深度学习的严谨逻辑，通过批量经验收集、小批次反思及限制编辑预算等机制，在文本空间内进行自进化更新。\n实验表明，SkillOpt在多个基准测试中均达到顶尖水平，显著提升了智能体的执行效率。\n该方法的核心边界在于，优化后的技能无需修改任何模型权重，即可实现跨模型、跨环境和跨任务的复用与迁移。",
          "cover_url": "assets/covers/a312-skillopt-self-evolving-agent-skills-7dd33a421b.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T06:19:44+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T42_Zero_CoT_Contamination_Probe",
      "slug": "t42-zero-cot-contamination-probe",
      "detail_url": "papers/t42-zero-cot-contamination-probe/",
      "title": "The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation",
      "summary": "这篇论文关注 reasoning benchmark 的污染问题，尤其是恶意或间接污染：模型发布方可以通过 paraphrasing benchmark 数据规避传统检测，并人为抬高排行榜表现。\n\n作者提出关键现象：生成的 reasoning steps 会掩盖底层记忆捷径，因此 Zero-CoT Probe 故意截断整个 CoT 过程，以暴露原始题目到答案的 latent shortcut mapping。\n\nZCP 将原 benchmark 的 zero-CoT 表现与同构扰动 reference dataset 比较，并提出 Contamination Confidence 来量化污染可能性和严重度。\n\n它值得正式收录，因为它给 LLM reasoning evaluation 提供了黑箱污染检测工具，尤其适用于 leaderboard 审计、模型发布可信度和 benchmark 治理。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.21856",
      "collected_at": "",
      "collection_order": 1036,
      "source_url": "https://arxiv.org/pdf/2605.21856.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.21856.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.21856",
        "https://github.com/Yifan-Lan/zero-cot-probe"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S84_CUSP_Scientific_Progress_Forecasting",
      "slug": "s84-cusp-scientific-progress-forecasting",
      "detail_url": "papers/s84-cusp-scientific-progress-forecasting/",
      "title": "Forecasting Scientific Progress with Artificial Intelligence",
      "summary": "这篇论文把 AI for Science 的一个关键问题形式化：模型不仅能总结已有科学，还能否在受控知识截止条件下预测未来科学进展。\n\n作者提出 CUSP（Cutoff-conditioned Unseen Scientific Progress），覆盖 4,760 个科学事件，并从 feasibility assessment、mechanistic reasoning、generative solution design 和 temporal prediction 评估模型。\n\n结果显示前沿模型能在候选方向中识别一定可行性，但难以可靠判断某项突破是否会实现，也系统性误判发生时间。\n\n它值得正式收录，因为它把“AI 是否能预测科学进步”变成了可评测接口，为自动化科研、科学发现 agent 和 research forecasting 提供了重要基准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.22681",
      "collected_at": "",
      "collection_order": 1035,
      "source_url": "https://arxiv.org/pdf/2605.22681.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.22681.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.22681"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R79_ThriftAttention_FP4_Long_Context",
      "slug": "r79-thriftattention-fp4-long-context",
      "detail_url": "papers/r79-thriftattention-fp4-long-context/",
      "title": "ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention",
      "summary": "ThriftAttention 处理长上下文推理中的注意力成本问题：全 FP16/FP8 计算昂贵，而统一低精度又会破坏关键 token 或关键头的精度。\n\n论文提出 selective mixed precision，让 attention 中不同位置、头或计算路径按重要性使用 FP4 与更高精度混合，从而降低内存带宽和计算成本。\n\n这种方法属于 long-context inference infrastructure，直接服务于长程 agent、RAG、代码库理解和科学文献分析等上下文密集任务。\n\n它值得正式收录，因为低比特注意力是推理成本曲线的重要方向，ThriftAttention 给出了比全局量化更细粒度的控制 primitive。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.23081",
      "collected_at": "",
      "collection_order": 1034,
      "source_url": "https://arxiv.org/pdf/2605.23081.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.23081.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.23081"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R78_Gated_DeltaNet_2",
      "slug": "r78-gated-deltanet-2",
      "detail_url": "papers/r78-gated-deltanet-2/",
      "title": "Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention",
      "summary": "Gated DeltaNet-2 improves linear attention by decoupling the erase and write operations that update the recurrent memory state.\n\nThe method generalizes earlier gated delta and Kimi Delta Attention variants with channel-wise erase and write gates, plus efficient chunkwise training and backward-pass machinery.\n\nThe reported results show strong long-context retrieval behavior and competitive language-modeling performance among recurrent and hybrid sequence models.\n\nFor this repository, the paper matters as a reusable memory-update primitive for efficient long-context modeling and non-softmax attention architectures.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.22791",
      "collected_at": "",
      "collection_order": 1033,
      "source_url": "https://arxiv.org/pdf/2605.22791.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.22791.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/NVlabs/GatedDeltaNet-2"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P33_REPA_P_Physics_Diffusion_Alignment",
      "slug": "p33-repa-p-physics-diffusion-alignment",
      "detail_url": "papers/p33-repa-p-physics-diffusion-alignment/",
      "title": "Learning to Think in Physics: Breaking Shortcut Learning in Scientific Diffusion via Representation Alignment",
      "summary": "REPA-P 指出 physics-informed diffusion 常只约束最终输出，隐藏层仍可能学 shortcut，导致边界条件变化时 OOD 鲁棒性差。\n\n方法在选定中间层接轻量 projection heads，把 hidden activations 解码成物理量并施加 PDE residual losses；这些 heads 在推理时移除，因此没有额外推理开销。\n\n论文在 Darcy flow、topology optimization、electrostatic potential、turbulent channel flow 等任务上报告更快收敛、更低 physics residual 和更强 OOD 鲁棒性。\n\n它值得正式收录，因为它把 representation alignment 变成 scientific diffusion 的可复用训练原语，补足了只在输出层加物理损失的不足。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.20780",
      "collected_at": "",
      "collection_order": 1032,
      "source_url": "https://arxiv.org/pdf/2605.20780.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.20780.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/Hxxxz0/REPA-P"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N98_Reward_Magnitude_RL_Efficiency",
      "slug": "n98-reward-magnitude-rl-efficiency",
      "detail_url": "papers/n98-reward-magnitude-rl-efficiency/",
      "title": "Reward magnitude determines reinforcement learning efficiency",
      "summary": "这篇 Science 论文直接重新检验动物强化学习实验中一个常见默认假设：为了增加试次数，单次奖励通常被设计得很小，但这可能系统性低估了学习效率。\n\n作者在多个行为范式中发现，特别大的奖励可以显著提升初始学习效率，并把这种提升拆分为 session 内学习、跨 session 学习和任务参与度等不同成分。\n\n机制上，腹侧纹状体多巴胺释放的持续时间和幅度随奖励大小缩放；延长多巴胺奖励反应能够复现大额奖励带来的很多学习收益。\n\n它值得收录，因为这给强化学习和 NeuroAI 提供了一个可迁移的生物学习原则：奖励幅度不只是标量反馈大小，还会改变参与度、学习速率和跨时间尺度的信用分配。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-21",
      "doi": "10.1126/science.aeb0813",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 1031,
      "source_url": "https://doi.org/10.1126/science.aeb0813",
      "paper_url": "https://doi.org/10.1126/science.aeb0813",
      "project_urls": [
        "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=42166598&retmode=xml"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM69_VGenST_Bench_Active_Video_Synthesis_Eval",
      "slug": "mm69-vgenst-bench-active-video-synthesis-eval",
      "detail_url": "papers/mm69-vgenst-bench-active-video-synthesis-eval/",
      "title": "VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis",
      "summary": "VGenST-Bench 针对多模态模型的 spatio-temporal reasoning 评测缺口：静态图像或被动收集视频难以精确控制场景变量，也难以拆分低层感知和高层时空推理。\n\n论文用 generative models 主动合成受控、多样的视频评测场景，并通过 multi-agent pipeline 与 human quality control 保证视频和 QA 质量。\n\n它设计 3x2x2 video taxonomy，覆盖 Spatial Scale、Perspective 和 Scene Dynamics，并建立 hierarchical task suite 以区分视觉感知和时空推理。\n\n它值得正式收录，因为它把 multimodal evaluation 从被动数据收集推进到主动合成可控评测场景，对视频理解、世界模型和多模态 reasoning 都有方法溢出。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.22570",
      "collected_at": "",
      "collection_order": 1030,
      "source_url": "https://arxiv.org/pdf/2605.22570.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.22570.pdf",
      "project_urls": [
        "https://zinosii.github.io/VGenST-Bench/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.22570",
        "https://github.com/zinosii/VGenST-Bench"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "M52_AI_Formal_Proof_Search",
      "slug": "m52-ai-formal-proof-search",
      "detail_url": "papers/m52-ai-formal-proof-search/",
      "title": "Advancing Mathematics Research with AI-Driven Formal Proof Search",
      "summary": "This paper evaluates LLM-driven formal proof search on open mathematical problems, using Lean-style formal verification as the reliability layer for generated proofs.\n\nThe reported system autonomously resolves several open Erdős problems and proves additional OEIS conjectures, showing that formal proof agents can move beyond benchmark exercises into active mathematical research workflows.\n\nThe important pattern is not just stronger math reasoning, but a workflow: generation, formal checking, search, cost control, and deployment into real combinatorics and related research contexts.\n\nFor this repository, it is a high-value AI-for-math entry because it demonstrates a reusable operating loop for reliable AI-assisted discovery where correctness can be machine-verified.",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "math_and_formal_reasoning",
      "theme_label": "数学与形式推理",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.22763",
      "collected_at": "",
      "collection_order": 1029,
      "source_url": "https://arxiv.org/pdf/2605.22763.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.22763.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "谷歌DeepMind用AI攻克9大数学难题且零误差，发布AlphaProof Nexus",
          "url": "https://www.bilibili.com/video/BV1WZVw6EEbF",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1WZVw6EEbF",
            "https://youtu.be/PgalvumO4kE"
          ],
          "main_collection": "AI物理与科学计算",
          "match": "advancing mathematics research with ai driven formal proof search",
          "description": "谷歌DeepMind在AI辅助数学研究领域取得重大突破，推出AlphaProof Nexus系统。针对传统大模型在进行复杂逻辑推理时易产生“幻觉”和逻辑断裂的痛点，该系统将Gemini模型的直觉推理能力与Lean 4证明助手的严谨机械验证相结合。通过创新的自我博弈循环、进化算法与强化学习，系统能够自主思考、编码、纠错并反思。实验表明，该系统实现了100%零误差的形式化验证，成功攻克了9道埃尔德什数学悬赏难题，并破译了44个OEIS未解之谜，终结了代数几何领域长达15年的悬案。这证明了AI在解决高难度抽象逻辑任务中的巨大潜力，为未来自动化数学发现提供了更准、更稳的新范式。",
          "x_post": "谷歌DeepMind发布AlphaProof Nexus：结合Gemini与Lean 4实现100%零误差证明并攻克9大Erdős难题\n传统大语言模型在进行长链条逻辑推理时，极易因“幻觉”导致推导崩溃。\nAlphaProof Nexus将Gemini模型的直觉生成能力与Lean 4的机械验证相结合，通过自我博弈循环、进化算法与强化学习实现自主编码与纠错。\n实验中，该系统以100%零误差通过形式化验证，成功攻克9道保罗·埃尔德什（Erdős）难题，破译44个OEIS未解之谜，并解决代数几何领域长达15年的悬案。\n这表明基于代理循环的自动化证明能够有效克服生成式AI的逻辑缺陷，为复杂数学研究提供了高置信度的新范式。",
          "cover_url": "assets/covers/m52-ai-formal-proof-search-4f1d03b2cf.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T07:24:25+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW34_Therm_FM_3DIC_Thermal",
      "slug": "hw34-therm-fm-3dic-thermal",
      "detail_url": "papers/hw34-therm-fm-3dic-thermal/",
      "title": "Therm-FM: Foundation Model is ALL YOU NEED for 3D-ICs Thermal Simulation",
      "summary": "Therm-FM 面向 3D-IC 设计中的热仿真成本问题：传统数据驱动预测器通常要为每个芯片设计重新生成大量高保真有限元仿真数据，跨设计复用差。\n\n论文把芯片热传导与扩散型 PDE 的共享算子结构联系起来，将 pretrained PDE foundation model 迁移到 steady-state 和 transient 3D-IC thermal simulation。\n\n方法结合 thermal-equivalent multi-fidelity training，用低成本近似仿真做领域适配，再用少量高保真样本校准；在 HotSpot 和工业 3D-IC package benchmark 上显著降低误差并减少训练数据需求。\n\n它值得正式收录，因为它把 foundation model/PDE prior 引入 AI 芯片封装热设计工作流，为 3D-IC 设计、封装协同优化和 AI hardware CAD 提供了可复用模式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "systems_hardware_and_codesign",
      "theme_label": "系统、硬件与协同设计",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.22663",
      "collected_at": "",
      "collection_order": 1028,
      "source_url": "https://arxiv.org/pdf/2605.22663.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.22663.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/haiyangxin/Therm-FM"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "GEO4_SpectralEarth_FM_Hyperspectral_EO",
      "slug": "geo4-spectralearth-fm-hyperspectral-eo",
      "detail_url": "papers/geo4-spectralearth-fm-hyperspectral-eo/",
      "title": "SpectralEarth-FM: Bringing Hyperspectral Imagery into Multimodal Earth Observation Pretraining",
      "summary": "SpectralEarth-FM 针对 Earth observation foundation models 的一个关键缺口：现有多传感器预训练很少把 hyperspectral imagery 纳入统一表示学习。\n\n方法使用 spectral tokenization、sensor-specific encoders、cross-sensor fusion 和 shared hierarchical encoder，把 HSI、Sentinel/Landsat optical、LST、SAR 等异构传感器统一到多模态 EO 预训练框架中。\n\n论文同时构建 SpectralEarth-MM，约 2M 全球位置、25M georeferenced patches、40TB 级别数据，并用 JEPA-style objective 做跨传感器/跨视图表征对齐。\n\n它值得正式收录，因为它把 hyperspectral EO 从孤立模型推进到多模态地球系统 foundation model 工作流，数据集和架构都有后续复用价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "geospatial_remote_sensing_and_disaster_systems",
      "theme_label": "地理空间、遥感与灾害系统",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.21075",
      "collected_at": "",
      "collection_order": 1027,
      "source_url": "https://arxiv.org/pdf/2605.21075.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.21075.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G20_WorldKV_World_Memory",
      "slug": "g20-worldkv-world-memory",
      "detail_url": "papers/g20-worldkv-world-memory/",
      "title": "WorldKV: Efficient World Memory with World Retrieval and Compression",
      "summary": "WorldKV 针对 action-conditioned video/world generation 的核心瓶颈：完整 KV cache 能保持场景一致性，但 rollout 变长后内存和注意力成本线性增长；滑窗推理则会丢失长期世界一致性。\n\n方法包含 World Retrieval 和 World Compression：前者把被逐出的 KV chunks 存到 GPU/CPU 记忆并按 camera/action correspondence 检索回当前 attention window，后者用 key-key similarity 压缩冗余 token。\n\n在 Matrix-Game-2.0 和 LingBot-World-Fast 上，WorldKV 在无需微调的情况下接近或超过 full-KV 的记忆保真度，并获得约 2 倍吞吐。\n\n它值得正式收录，因为它把长时世界模型的一致性问题具体化为可操作的 KV memory retrieval/compression 接口，对实时交互世界生成、机器人仿真和 embodied world model 都有直接方法价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.22718",
      "collected_at": "",
      "collection_order": 1026,
      "source_url": "https://arxiv.org/pdf/2605.22718.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.22718.pdf",
      "project_urls": [
        "https://cvlab-kaist.github.io/WorldKV/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.22718"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G19_DAR_Diffusion_Transformer_Routing",
      "slug": "g19-dar-diffusion-transformer-routing",
      "detail_url": "papers/g19-dar-diffusion-transformer-routing/",
      "title": "Rethinking Cross-Layer Information Routing in Diffusion Transformers",
      "summary": "这篇论文聚焦 Diffusion Transformers 中长期被默认继承的 residual stream，指出跨层信息流在深度和 denoising timestep 上存在幅值膨胀、梯度衰减和 block redundancy。\n\n作者提出 Diffusion-Adaptive Routing (DAR)，用 learnable、timestep-adaptive、non-incremental 的历史子层输出聚合替换传统 residual addition。\n\n在 ImageNet 256x256 上，DAR 改善 SiT-XL/2 的 FID，并用更少训练迭代达到基线收敛质量；叠加 REPA 后还带来早期训练加速。\n\n它值得正式收录，因为它把 DiT 的 cross-layer routing 提升为一个独立可调的设计轴，对视觉生成 backbone、蒸馏和大规模 T2I fine-tuning 都有方法外溢价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.20708",
      "collected_at": "",
      "collection_order": 1025,
      "source_url": "https://arxiv.org/pdf/2605.20708.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.20708.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C33_SciCore_Mol_Pluggable_Cognition",
      "slug": "c33-scicore-mol-pluggable-cognition",
      "detail_url": "papers/c33-scicore-mol-pluggable-cognition/",
      "title": "SciCore-Mol: Augmenting Large Language Models with Pluggable Molecular Cognition Modules",
      "summary": "SciCore-Mol 针对科学 LLM 处理分子数据时的结构性问题：把拓扑分子和连续反应信息压成离散文本会造成信息损失和语义噪声。\n\n框架把 topology-aware perception、latent diffusion-based molecular generation 和 reaction-aware reasoning 三个模块以 learned representation interfaces 接入 LLM backbone，而不是仅依赖文本工具反馈。\n\n实验覆盖 molecular understanding、generation、reaction prediction 和 general chemistry knowledge，目标是让 8B 开源系统在化学任务上获得更系统的专家能力。\n\n它值得正式收录，因为它提供了“LLM + 可插拔科学认知模块”的体系结构样板，比普通化学问答或分子属性预测更接近可复用 scientific-agent substrate。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.22287",
      "collected_at": "",
      "collection_order": 1024,
      "source_url": "https://arxiv.org/pdf/2605.22287.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.22287.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A308_Maestro_Model_Skill_Orchestration",
      "slug": "a308-maestro-model-skill-orchestration",
      "detail_url": "papers/a308-maestro-model-skill-orchestration/",
      "title": "Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles",
      "summary": "Maestro 关注 autonomous agents 的组合问题：模型和技能越来越多，但多数系统仍依赖固定逻辑或单一大模型，不能动态利用不同专家模型与工具技能的互补性。\n\n论文把异构多模态任务重写为对 hierarchical model-skill registry 的序列决策过程，由轻量 policy 选择是否调用外部专家、选择哪一组 model-skill pair，以及何时终止。\n\n训练采用 outcome-based RL，不需要 step-level supervision；论文报告 4B orchestrator 在多类多模态 benchmark 上获得强结果，并能在加入未见过的模型和技能后继续泛化。\n\n它值得正式收录，因为它把 skill marketplace/model registry 变成可学习的 orchestration policy，是 agent 能力扩展和模块化执行系统的重要工程/研究接口。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.22177",
      "collected_at": "",
      "collection_order": 1023,
      "source_url": "https://arxiv.org/pdf/2605.22177.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.22177.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.22177",
        "https://github.com/jinyangwu/Maestro"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A307_Spreadsheet_RL_Excel_Agents",
      "slug": "a307-spreadsheet-rl-excel-agents",
      "detail_url": "papers/a307-spreadsheet-rl-excel-agents/",
      "title": "Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning",
      "summary": "Spreadsheet-RL 把 spreadsheet agent 从 prompt-only 操作推进到真实 Excel 环境中的多轮 RL 训练，目标是处理复杂、多步骤、接近日常工作流的数据任务。\n\n系统包含自动收集 start-goal spreadsheets 的 pipeline、Domain-Spreadsheet benchmark，以及暴露大量 Excel 功能的 Spreadsheet Gym；agent 通过 Python sandbox 和工具路由规则执行任务。\n\n实验显示 RL fine-tuning 能显著提升 Qwen3-4B-Thinking-2507 在 SpreadsheetBench 和 Domain-Spreadsheet 上的 Pass@1，说明专门环境训练比单纯提示更适合这类工具密集型界面任务。\n\n它值得正式收录，因为 spreadsheet 是高频现实工作界面，论文提供了环境、数据、benchmark 和训练流程，能作为 GUI/data-interface agent 的可复用工作流模板。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.22642",
      "collected_at": "",
      "collection_order": 1022,
      "source_url": "https://arxiv.org/pdf/2605.22642.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.22642.pdf",
      "project_urls": [
        "https://spreadsheet-rl.github.io/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.22642",
        "https://github.com/Spreadsheet-RL/Spreadsheet-RL"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A306_ACC_Agent_Context_Compilation",
      "slug": "a306-acc-agent-context-compilation",
      "detail_url": "papers/a306-acc-agent-context-compilation/",
      "title": "ACC: Compiling Agent Trajectories for Long-Context Training",
      "summary": "ACC 把 agent 执行过程中天然产生的长轨迹转成 long-context 训练数据，核心观察是工具调用、环境反馈和中间状态本身包含大量跨轮证据，但传统 agent SFT 通常遮蔽工具响应，浪费了这些监督信号。\n\n方法将搜索、软件工程、数据库查询等 agent 轨迹编译为 QA pairs，把原始问题、工具响应和环境观察合并成需要远距离整合的上下文，从而不依赖额外人工标注就获得长上下文推理训练样本。\n\n在 MRCR 和 GraphWalks 等长程依赖任务上，ACC 训练 Qwen3-30B-A3B 带来显著提升，并接近更大模型表现，同时保留 GPQA、MMLU-Pro、AIME、IFEval 等一般能力。\n\n它值得正式收录，因为它提出了一个可复用的数据生成/训练接口：把 agent execution trace 变成 long-context reasoning supervision，直接连接 agent 数据飞轮和长上下文能力训练。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.21850",
      "collected_at": "",
      "collection_order": 1021,
      "source_url": "https://arxiv.org/pdf/2605.21850.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.21850.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.21850"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "让30B模型跨级追平235B巨兽？BIPC等团队发布ACC长文本训练技术",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "acc compiling agent trajectories for long context training",
          "description": "BIPC等团队针对大模型长文本推理训练展开研究。传统方法依赖高成本人工标注或缺乏逻辑的文本拼接，且标准智能体微调存在掩码掉工具响应的“监督盲区”。为此，团队提出智能体上下文编译（ACC）技术，直接回收智能体工作时的多轮交互轨迹，将其“编译”为单一、显式的长文本。实验表明，经ACC训练的Qwen3-30B模型在长程推理任务中MRCR指标提升18.1，跨级追平8倍体量的Qwen3-235B模型，且通用能力无损。该方法实现了零人工标注构建高质量训练集，使大模型能更低成本、更聪明地进行跨远距离语义线索关联。",
          "x_post": "BIPC等团队提出ACC长文本训练技术，助力30B模型MRCR指标提升18.1并追平235B模型\n传统长文本微调极度依赖高成本人工标注，且标准智能体微调因遮蔽工具响应而存在监督盲区，阻碍了跨段落复杂逻辑推理的学习。\n为此，团队提出智能体上下文编译（ACC）技术，将智能体在多轮交互中的轨迹编译为包含原始问题、工具响应和环境观察的单一显式长文本。\n实验表明，经 ACC 训练的 Qwen3-30B 模型在长程推理任务中 MRCR 指标提升 18.1，性能追平 8 倍体量的 Qwen3-235B 模型。\n该方法实现了零人工标注构建高质量长文本训练集，在显著增强模型长程推理能力的同时，保持了其在通用基准上的原有性能。",
          "cover_url": "assets/covers/a306-acc-agent-context-compilation-d0bee1b12d.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T06:25:31+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A304_AgentCoop_Interoperable_Workflows",
      "slug": "a304-agentcoop-interoperable-workflows",
      "detail_url": "papers/a304-agentcoop-interoperable-workflows/",
      "title": "AgentCo-op: Retrieval-Based Synthesis of Interoperable Multi-Agent Workflows",
      "summary": "AgentCo-op 处理开放科学任务里 multi-agent workflow 难以设计、接口不统一、缺少可靠指标的问题，而不是只做固定 benchmark 上的 agent graph 搜索。\n\n方法把可复用 skills、tools 和外部 agents 检索出来，通过 typed artifact handoffs 组合成可执行 workflow，并在失败证据指向具体组件时进行局部修复。\n\n论文在空间转录组和单细胞 multiome 两个 open-world genomics case study 中展示了跨现有 agent/tool 仓库的组合能力，并在 coding、math、QA benchmarks 上降低成本且取得强结果。\n\n它值得正式收录，因为它给出了 agent workflow 设计的一种可复用工程原语：retrieval-based synthesis + typed handoff + bounded repair，适合科学发现 agent 和企业 agent 编排。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-21",
      "doi": "",
      "arxiv_id": "2605.20425",
      "collected_at": "",
      "collection_order": 1020,
      "source_url": "https://arxiv.org/pdf/2605.20425.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.20425.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让不同AI无冲突组队科研？卡内基梅隆大学发布零训练协作框架AgentCo-op",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "agentco op retrieval based synthesis of interoperable multi agent workflows",
          "description": "卡内基梅隆大学团队针对基因组学等开放式科学任务中缺乏高质量训练集、多智能体协作存在环境与接口冲突的难题，推出了零训练多智能体协作框架AgentCo-op。该框架采用“基于检索的合成”范式，能动态召回外部智能体与工具并进行有向图工作流合成，通过Docker容器解决环境兼容，并利用自我治愈机制进行局部故障修复。实验表明，AgentCo-op在复杂生物学任务中表现出色，并在六项通用基准测试中夺得四项最高分，同时显著降低了推理成本。这为异构智能体的高效协同与自动化科学探索开辟了新途径，但其效果仍依赖于外部可用工具和智能体的丰富度。",
          "x_post": "卡内基梅隆大学发布 AgentCo-op：实现零训练多智能体协同，斩获 4/6 基准最高分\n\n【问题背景】在基因组学等开放式科学探索中，传统多智能体系统常因缺乏高质量训练集、环境冲突以及接口不兼容，导致异构智能体之间难以高效协同。\n【方法核心】CMU 团队提出 AgentCo-op 框架，采用“基于检索的合成”范式。该框架通过动态召回外部智能体与工具来合成有向图工作流，利用 Docker 容器解决环境兼容，并通过自我治愈机制对故障节点进行局部修复，避免重构全局。\n【关键证据】在基于 GPT-4o-mini 的测试中，该框架在 6 大权威基准中夺得 4 项最高分，取得 76.5% 的总体最高平均分，并在跨模态标记物发现等生物学任务中表现优异，同时显著降低了 Token 推理成本。\n【结论边界】该研究为异构智能体的高效协同与自动化科学探索开辟了低成本方案，但其最终效果仍依赖于外部可用工具和智能体的丰富度。",
          "cover_url": "assets/covers/a304-agentcoop-interoperable-workflows-135c5b3014.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T16:54:49+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T37_TRIAD_Multimodal_Attack_Defense",
      "slug": "t37-triad-multimodal-attack-defense",
      "detail_url": "papers/t37-triad-multimodal-attack-defense/",
      "title": "Surviving the Unseen: Predictive Defense for Novel Multi-Turn Multimodal Attacks",
      "summary": "TRIAD 针对多轮多模态攻击的非平稳性：恶意意图可以分散在长程对话和跨模态扰动中，单 turn guardrail 容易漏检。\n\n论文把安全验证建模为 trajectory-level survival prediction，结合结构异常、正则化 Mahalanobis 距离、拓扑轨迹加速度和 Cox/HMM 风险反馈。\n\n它值得正式收录，因为它给出了从静态 moderation 到连续风险预测的安全框架，适合 agentic multimodal workflows。\n\n它没有更高，是因为理论框架很强，但需要更大规模真实攻击、延迟开销和误报率评估来确认部署价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "safety_governance_and_reliability",
      "theme_label": "安全、治理与可靠性",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.18988",
      "collected_at": "",
      "collection_order": 1019,
      "source_url": "https://arxiv.org/pdf/2605.18988.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.18988.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "谷歌打造 AI 专属“动态免疫系统”，揪出隐藏在多轮对话中的安全威胁，发布 TRIAD 框架",
          "url": "https://www.bilibili.com/video/BV15UGV6cELJ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV15UGV6cELJ",
            "https://youtu.be/nDyIoealmwM"
          ],
          "main_collection": "AI安全与对齐",
          "match": "surviving the unseen predictive defense for novel multi turn multimodal attacks",
          "description": "谷歌Trust & Safety团队针对多模态大语言模型（MLLMs）在多轮对话中面临的安全漏洞展开研究。传统防御常落入“马尔可夫陷阱”，难以检测通过时间维度碎片化注入、单次看似无害的渐进式攻击。为此，研究团队提出TRIAD预测性防御框架。该框架创新性地将多轮对话建模为高维空间中的动态拓扑轨迹，集成孤立森林与生存分析模型，实时计算风险函数以预测模型失效时间。该方法最大优势在于能实现早期拦截、阻断隐蔽攻击，且无需重新训练模型、具备数学完备性，为自主智能体提供了更安全、高实时性的安全对齐方案。",
          "x_post": "Google 团队发布 TRIAD 框架：通过生存轨迹预测防御多模态多轮渐进式攻击\n【背景】多模态大模型在多轮交互中易受碎片化“渐进式攻击”，传统静态防御由于“马尔可夫陷阱”无法检测随上下文积累的累积毒性。\n【方法】TRIAD 将对话映射为高维语义空间中的动态拓扑轨迹，集成孤立森林、马氏距离与生存分析模型，通过实时计算风险函数预测模型失效节点。\n【机制】该框架无需重新训练模型，即可在安全红线被触及前实现早期拦截，解决了视觉与文本注意错配带来的多模态安全不对称性。\n【应用与边界】作为具备数学完备性的防御方案，它为 Agentic AI 提供了实时安全对齐，但其效能高度依赖于状态空间遥测协变量的映射精度。",
          "cover_url": "assets/covers/t37-triad-multimodal-attack-defense-ec8ffa6748.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-21T16:18:29+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T36_RoboJailBench",
      "slug": "t36-robojailbench",
      "detail_url": "papers/t36-robojailbench/",
      "title": "RoboJailBench: Benchmarking Adversarial Attacks and Defenses in Embodied Robotic Agents",
      "summary": "RoboJailBench 填补 embodied AI jailbreak 评估缺口：传统聊天模型安全基准无法覆盖机器人和自动驾驶等具身系统中的物理后果。\n\n它基于 ISO 标准、监管规则和事故记录建立 18 类安全违规后果，并构建 adversarial/benign intent contrast 数据管线，同时评估攻击成功率和良性指令执行能力。\n\n它值得正式收录，因为它把 VLM/VLA 具身系统的 jailbreak 风险标准化，形成安全 taxonomy、数据生成流程和攻防评估接口。\n\n它没有更高，是因为 benchmark 需要持续吸纳真实机器人场景、更多攻击和更多防御策略才能成为长期标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "safety_governance_and_reliability",
      "theme_label": "安全、治理与可靠性",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.19328",
      "collected_at": "",
      "collection_order": 1018,
      "source_url": "https://arxiv.org/pdf/2605.19328.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.19328.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "防范实体机器人被诱导失控，具身智能安全基准 RoboJailBench 问世",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "robojailbench benchmarking adversarial attacks and defenses in embodied robotic agents",
          "description": "针对具身智能在物理执行中面临的越狱风险，研究团队推出了首个专为机器人和自动驾驶系统设计的对抗性攻防标准化评估基准 RoboJailBench。传统的安全评估往往忽略了拦截恶意指令与保持合法任务效用之间的权衡。该基准基于工业安全标准与真实事故，构建了包含18个维度的物理威胁分类法，并生成了意图对比数据集。标准化测试表明，当前的领先视觉语言模型在面对物理越狱攻击时仍存在显著脆弱性。该基准的开源为评估实体AI的安全性提供了更全面、更具现实指导意义的工具，助力研发兼顾安全与实用性的物理机器人系统。",
          "x_post": "研究团队推出首个具身智能攻防安全基准 RoboJailBench，涵盖18个物理威胁维度\n【背景】随着视觉语言模型接入物理控制系统，传统的数字越狱防御难以应对具身智能的“物理越狱”风险（如自动驾驶车辆撞击、机械臂物理挤压等实体伤害）。\n【方法】该基准基于ISO安全标准与真实物理事故构建了18维物理威胁分类法，并开发意图对比数据集，重点评估模型在拦截恶意指令与保持合法任务效用之间的权衡关系。\n【结果】标准化测试表明，当前领先的视觉语言模型在面对“概念欺骗”等物理越狱攻击时，仍表现出显著的安全脆弱性。\n【意义】项目现已开源代码、数据集及实时排行榜，为研发兼顾安全与实用性的物理机器人系统提供了标准化、可核验的评测工具。",
          "cover_url": "assets/covers/t36-robojailbench-9c49ab19b3.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-20T18:07:21+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T35_Robotics_Inspired_Guardrails",
      "slug": "t35-robotics-inspired-guardrails",
      "detail_url": "papers/t35-robotics-inspired-guardrails/",
      "title": "Robotics-Inspired Guardrails for Foundation Models in Socially Sensitive Domains",
      "summary": "这篇论文把 foundation model guardrails 从单次输出过滤，重新表述为不确定闭环系统中的 runtime behavioral control。\n\n它借鉴机器人控制中的约束执行思想，提出 Grounded Observer 框架，并在闲聊、家庭自闭症治疗和学校行为降级三个真实部署场景中讨论轨迹级干预。\n\n它值得正式收录，因为 agent safety 需要从 output moderation 走向 trajectory-level safety boundary，这正是工具型/交互型 AI 的核心安全边界。\n\n它没有更高，是因为目前更偏框架和部署经验，形式化保证、可复现实验和跨模型标准化评测还不充分。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "safety_governance_and_reliability",
      "theme_label": "安全、治理与可靠性",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.19940",
      "collected_at": "",
      "collection_order": 1017,
      "source_url": "https://arxiv.org/pdf/2605.19940.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.19940.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "做心理医生的AI怕说错话？耶鲁与京都大学引入机器人控制理论给大模型安刹车",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "robotics inspired guardrails for foundation models in socially sensitive domains",
          "description": "耶鲁大学与京都大学研究团队针对教育、心理支持等高敏感社交领域的AI安全展开研究。当前大模型在长时交互中易出现行为偏移，传统单点防御难以解决。为此，团队借鉴实体机器人的闭环控制系统，提出‘实境观察者’框架。该方法将AI交互视为受约束的动力系统，将能力层与安全层物理隔离，通过特征提取在动作执行前预判并拦截不安全输出。在闲谈互动、居家自闭症治疗等场景中，该框架成功在不重新训练模型的前提下，实现了轨迹级安全控制。这让社交辅助AI更稳、更安全，推动了AI安全从静态对齐向运行时动态控制的转变。",
          "x_post": "耶鲁与京都大学提出借鉴机器人控制理论的社交AI安全框架，在零重训下实现长时交互轨迹级控制\n在高敏感社交场景（如心理支持、教育）中，AI在长时交互中易累积行为偏移，传统单点防御（如RLHF或提示词）难以提供确定性安全保障。\n为此，研究团队提出“落地观察者”（Grounded Observer）框架，将大模型交互视为受约束的动力系统，实现能力层与安全层的物理隔离。\n该框架通过运行时屏蔽（Runtime Shielding）机制，在动作执行前对输出进行预判，并利用特征提取器将高维概率分布转化为语气、同理心等量化指标进行拦截或修正。\n系统在闲谈、居家自闭症治疗及校园情绪疏导三个高敏感场景中通过验证，成功将AI安全从静态对齐转向运行时的闭环行为控制。",
          "cover_url": "assets/covers/t35-robotics-inspired-guardrails-ed526982c7.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-20T19:09:56+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "S85_SciAtlas_Automated_Scientific_Research_KG",
      "slug": "s85-sciatlas-automated-scientific-research-kg",
      "detail_url": "papers/s85-sciatlas-automated-scientific-research-kg/",
      "title": "SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research",
      "summary": "SciAtlas 面向自动科研中的信息组织问题：向量检索和关键词检索难以表达跨学科、跨实体、跨证据链的拓扑关系，deep research agent 又容易产生逻辑幻觉和高推理成本。\n\n系统构建跨 26 个学科、4300 万论文、1.57 亿实体和 30 亿 triplets 的异构科学知识图谱，将科学文献组织成可遍历的 evolution network。\n\n方法层提供 tri-path collaborative recall 和 graph reranking，使检索从表层语义匹配转向结构化关联发现，并展示文献综述、趋势综合、idea positioning 和学术轨迹探索等应用。\n\n它值得正式收录，因为它为 automated scientific research 提供了大规模知识底座和 neuro-symbolic retrieval 接口，可作为科研 agent 的长期外部认知地图。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.22878",
      "collected_at": "",
      "collection_order": 1016,
      "source_url": "https://arxiv.org/pdf/2605.22878.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.22878.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.22878",
        "https://github.com/zjunlp/SciAtlas"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL83_Consumer_LiDAR_Hidden_Object_Imaging",
      "slug": "rl83-consumer-lidar-hidden-object-imaging",
      "detail_url": "papers/rl83-consumer-lidar-hidden-object-imaging/",
      "title": "Imaging hidden objects with consumer LiDAR via motion-induced sampling",
      "summary": "这篇 Nature 论文把非视距隐藏物体成像推进到低成本消费级 LiDAR 场景，不再依赖昂贵、专用的实验室 NLOS 硬件。\n\n核心思路是利用运动诱导采样，把多帧消费级 LiDAR 数据和运动模型融合起来，实现隐藏物体的三维重建、跟踪和定位。\n\n对机器人和具身系统而言，这相当于扩展了感知边界：拐角后、遮挡后和视线外的风险可以通过低成本传感器和时序融合被估计。\n\n它值得收录，因为它提供了一个可复用的 embodied sensing primitive，可用于移动机器人、AR、自动驾驶边缘感知和低成本空间智能系统。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-05-20",
      "doi": "10.1038/s41586-026-10502-x",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 1015,
      "source_url": "https://www.nature.com/articles/s41586-026-10502-x",
      "paper_url": "https://www.nature.com/articles/s41586-026-10502-x",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL80_DelTA_RLVR_Credit_Assignment",
      "slug": "rl80-delta-rlvr-credit-assignment",
      "detail_url": "papers/rl80-delta-rlvr-credit-assignment/",
      "title": "DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards",
      "summary": "DelTA 关注 RLVR 的核心机制问题：sequence-level verifiable reward 如何具体改变 token-level probability。论文把 policy-gradient update 解释为 token-gradient vectors 上的线性判别器。\n\n标准 RLVR 中正负样本的 centroid 容易被格式 token 等高频共享模式支配，导致真正区分高低奖励回答的稀疏方向被稀释。\n\nDelTA 估计 token coefficients 来强化 side-specific、判别性强的 token-gradient directions，并下调共享或弱判别方向，从而改变有效 RLVR 更新方向。\n\n它值得正式收录，因为它不仅给出一个后训练技巧，还提供了 RLVR token credit assignment 的机制视角，对 reasoning RL、verifiable reward 和 post-training 诊断都有方法溢出。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.21467",
      "collected_at": "",
      "collection_order": 1014,
      "source_url": "https://arxiv.org/pdf/2605.21467.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.21467.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.21467",
        "https://github.com/RUCBM/DelTA"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL77_Embodied_LLM_Observation_Fidelity",
      "slug": "rl77-embodied-llm-observation-fidelity",
      "detail_url": "papers/rl77-embodied-llm-observation-fidelity/",
      "title": "Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving",
      "summary": "这篇论文提出一个反直觉但重要的 embodied LLM 评估发现：更高保真观察不一定带来更强问题求解。\n\n作者在物理 Lockbox 机械谜题和受控仿真中比较 RGB、RGB-D 和 ground-truth symbolic observations，发现原始 RGB 最好、完美符号观察最差；适度噪声反而能减少重复动作循环。\n\n它值得正式收录，因为它提醒机器人/具身 agent 评估不能只看成功率，也不能默认 perception fidelity 越高越好；表现可能来自感知误差与推理缺陷的交互。\n\n它没有更高，是因为任务仍是特定机械谜题，结论需要在更复杂机器人控制和 VLA 系统中复现。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.20072",
      "collected_at": "",
      "collection_order": 1013,
      "source_url": "https://arxiv.org/pdf/2605.20072.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.20072.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "越完美越出错？柏林工大引入40%视觉干扰，反而让机器人解题能力提升2.85倍",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "probing embodied llms when higher observation fidelity hurts problem solving",
          "description": "柏林工业大学研究团队在具身智能领域取得反直觉新发现。在利用大语言模型控制机器人解决复杂机械锁盒任务时，传统观念认为数据越精准AI表现越好。然而，研究人员通过“行为探针测试”系统改变观察保真度后发现，输入理论上完美的物理状态数据反而导致任务失败率极高，而引入40%视觉噪声的RGB图像却让机器人解题成功率提升了2.85倍。核心机制在于，适度的感知误差打破了模型极易陷入的重复动作死循环。这一发现表明，当前具身AI的性能提升可能仅是感知错误与推理缺陷的偶然抵消，而非真正的逻辑进步，提示未来安全评估必须超越单纯的成功率指标。",
          "x_post": "【柏林工业大学：引入40%视觉噪声使具身LLM解题成功率提升2.85倍】\n在具身智能物理交互中，传统观点认为感知精度越高越好。然而，大语言模型（LLM）在控制机器人解决复杂物理任务时，完美的物理状态输入反而常导致任务失败。\n柏林工业大学团队引入“行为探针测试”，系统性改变观察保真度，深入探析模型决策的内部行为机制。\n实验表明，在解决具有隐藏物理依赖的机械锁盒任务时，输入100%精准的物理状态数据极易让LLM陷入重复动作的死循环；而引入40%视觉噪声的RGB图像，反而让机器人解题成功率提升了2.85倍。\n研究指出，这一提升源于感知误差偶然打破了动作死循环，反映出当前具身LLM可能存在感知错误与推理缺陷相互抵消的局限。这表明未来安全评估不能仅依赖成功率，而应深入剖析其决策机制。",
          "cover_url": "assets/covers/rl77-embodied-llm-observation-fidelity-1e07f30bba.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-20T18:07:20+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R80_Equilibrium_Reasoners_Attractors",
      "slug": "r80-equilibrium-reasoners-attractors",
      "detail_url": "papers/r80-equilibrium-reasoners-attractors/",
      "title": "Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning",
      "summary": "Equilibrium Reasoners 提出一种不同于 CoT 采样和 verifier reranking 的 reasoning scaling 思路：把推理看成向 latent attractor 收敛。\n\n模型学习可迭代更新的吸引子动力学，在测试时通过更多迭代接近稳定解，而不必依赖外部 verifier 或大量候选答案投票。\n\n这种机制与 attractor networks、隐空间搜索和 test-time compute 有直接联系，为 reasoning model 提供了新的控制接口。\n\n它值得正式收录，因为它为可扩展推理提供了结构性替代方案，可能影响长程推理、数学任务和 agent planning。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.21488",
      "collected_at": "",
      "collection_order": 1012,
      "source_url": "https://arxiv.org/pdf/2605.21488.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.21488.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.21488"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N94_Primate_Action_Symbols_Frontal_Cortex",
      "slug": "n94-primate-action-symbols-frontal-cortex",
      "detail_url": "papers/n94-primate-action-symbols-frontal-cortex/",
      "title": "Neural representation of action symbols in primate frontal cortex",
      "summary": "这篇 Nature 论文处理智能和泛化的核心机制问题：大脑是否真的存在可重组的离散 action symbols，而不只是连续分布式运动表征。\n\n猕猴在 drawing-like task 中表现出 stroke-level action elements 的三个符号特征：对低层运动参数不变、具有离散类别结构、并能重组进新序列。\n\n同时记录八个 motor、premotor 和 prefrontal 区域后，作者定位到 ventral premotor cortex 中的群体活动同时满足 invariance、categorical structure 和 recombination。\n\n它值得正式收录，因为它为 compositional generalization 和 symbolic operations 提供神经层面的证据，对具身智能、动作 token、skill abstraction 和神经符号 AI 都有直接概念价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-20",
      "doi": "10.1038/s41586-026-10297-x",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 1011,
      "source_url": "https://www.nature.com/articles/s41586-026-10297-x.pdf",
      "paper_url": "https://www.nature.com/articles/s41586-026-10297-x.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N93_Critical_Initialization_Biological_Networks",
      "slug": "n93-critical-initialization-biological-networks",
      "detail_url": "papers/n93-critical-initialization-biological-networks/",
      "title": "A critical initialization for biological neural networks",
      "summary": "这篇 Nature 论文直接连接生物神经网络和人工网络初始化问题：脑内自发大尺度活动为何能在单神经元快速时间常数之外形成持久协调模式。\n\n作者发现小鼠大规模神经记录的 eigenvalue spectrum 和动力学性质，可由 critically normalized random symmetric matrix 驱动的线性动态近似解释；海马 CA1 则更像高效、去相关的信息存储码。\n\n关键 AI 溢出在于：critically normalized artificial networks 也会产生高维全局活动模式，并且这些动态有助于时间依赖任务，包括 zero-shot working memory。\n\n它值得正式收录，因为它不是普通神经科学发现，而是把脑范围动力学、random matrix initialization、工作记忆时间尺度和人工网络计算能力放在同一机制框架中。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-20",
      "doi": "10.1038/s41586-026-10528-1",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 1010,
      "source_url": "https://www.nature.com/articles/s41586-026-10528-1.pdf",
      "paper_url": "https://www.nature.com/articles/s41586-026-10528-1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "HHMI破译大脑不崩溃的密码：用“1.0临界参数”为下一代AI大模型寻找完美初始化",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "a critical initialization for biological neural networks",
          "description": "HHMI Janelia研究团队在计算神经学领域取得突破。针对生物脑在海量神经元交互中如何保持稳定的难题，研究人员引入随机矩阵理论，发现大脑静息态活动与临界归一化（特征值无限接近1.0）的对称动力学高度吻合。通过小鼠脑部电生理与钙成像实验，证实真实大脑皮层活动方差严格遵循约2/3的幂律衰减，与对称矩阵理论预测完美对齐。该研究不仅揭示了生物神经网络利用高维空间实现稳定计算的机制，更为下一代大模型提供了更稳定、更不易崩溃的“完美初始化”数学方案，避免训练中的梯度问题。",
          "x_post": "HHMI Janelia团队破译脑网络稳定机制：在特征值1.0的临界对称动力学下，活动方差完美对齐2/3幂律\n生物脑在海量神经元交互中如何避免死寂或爆发以保持宏观稳定，其底层的数学机制长期不明。\n研究团队引入随机矩阵理论，发现大脑静息态活动与最大特征值无限接近1.0的“临界归一化”对称动力学高度吻合。\n对小鼠皮层上万个神经元的高频观测显示，其实际活动方差衰减指数（0.70~0.85）高度逼近对称理论预测的衰减值（约0.688，即2/3），排除了非对称模型。\n该成果揭示了生物脑利用高维空间实现稳定计算的机制，并为下一代AI大模型提供了避免训练中梯度崩溃的“临界初始化”数学方案。",
          "cover_url": "assets/covers/n93-critical-initialization-biological-networks-2beb5c9ae6.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-28T20:49:06+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM66_VASA_Open_Adhoc_Segmentation",
      "slug": "mm66-vasa-open-adhoc-segmentation",
      "detail_url": "papers/mm66-vasa-open-adhoc-segmentation/",
      "title": "Vision Harnessing Agent for Open Ad-hoc Segmentation",
      "summary": "VASA 面向开放 ad-hoc segmentation：目标概念可能需要由部分、关系、排除条件和集合组合出来，而不是一个已学过的文本 grounding。\n\n系统把 VLM agent、segmentation foundation model、persistent working mask 和视觉操作 workflow 结合起来，规划、调用、检查、编辑并从失败中恢复。\n\n它值得正式收录，因为它把视觉 agent 从 prompt wrapping 推进到带工作记忆、视觉例程和错误恢复的 multimodal construction workflow。\n\n它没有更高，是因为目前主要验证在 PARS 和 RefCOCOm，真实开放场景、视频和交互式编辑还需扩展。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.19410",
      "collected_at": "",
      "collection_order": 1009,
      "source_url": "https://arxiv.org/pdf/2605.19410.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.19410.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让AI听懂奇葩抠图指令，密歇根大学发布免训练视觉代理VASA",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "vision harnessing agent for open ad hoc segmentation",
          "description": "密歇根大学团队针对复杂视觉分割任务，提出免训练视觉代理VASA。传统模型在面对“去掉猫耳和眼睛的猫头”等非常规指令时，因缺乏视觉记忆极易“盲猜”失败。VASA引入了“持久工作掩码（视觉草稿纸）”机制，通过“规划-操作-检查-修正”的闭环工作流，允许AI像程序员编辑代码一样，对像素进行精细的添加、删除和替换。在全新的PARS长文本基准测试中，VASA的分割效果显著优于传统智能体，无需额外训练即可实现更准、更符合逻辑的按需定制化抠图，为视觉AI智能体开辟了新方向。",
          "x_post": "密歇根大学提出免训练视觉代理 VASA：在全新 PARS 基准上攻克复杂即席分割\n传统分割模型在面对“去除耳目的猫头”等包含组合、排除逻辑的非常规指令时，常因缺乏视觉记忆导致多轮检索失败。\nVASA 引入“持久工作掩码”作为视觉草稿纸，构建“规划-操作-检查-修正”闭环，无需额外训练即可对像素进行精细的增删替换。\n实验基于同步推出的 PARS 长文本精细分割基准，结果表明 VASA 在复杂即席分割任务上的表现显著优于现有智能体。\n该工作展示了闭环视觉工程化工作流在处理开放式、非标准视觉任务中的应用潜力。",
          "cover_url": "assets/covers/mm66-vasa-open-adhoc-segmentation-25365656ab.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T07:03:35+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "G26_RankE_Discrete_T2I_Decoder_Co_Evolution",
      "slug": "g26-ranke-discrete-t2i-decoder-co-evolution",
      "detail_url": "papers/g26-ranke-discrete-t2i-decoder-co-evolution/",
      "title": "RankE: End-to-End Post-Training for Discrete Text-to-Image Generation with Decoder Co-Evolution",
      "summary": "RankE 针对 discrete text-to-image generation 的后训练问题：如果只优化离散 token 生成器，decoder 的表达边界会限制最终图像质量和偏好对齐。\n\n论文提出 decoder co-evolution，让后训练同时影响离散生成和解码路径，形成更端到端的偏好优化流程。\n\n这对离散视觉 tokenizer、图像生成后训练和多模态生成架构都有溢出，因为它把 decoder 从固定后处理模块提升为可共同优化对象。\n\n它值得正式收录，因为它改变了离散 T2I 后训练的优化边界，是生成模型系统中可复用的训练范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.21195",
      "collected_at": "",
      "collection_order": 1008,
      "source_url": "https://arxiv.org/pdf/2605.21195.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.21195.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.21195"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G25_Lens_Efficient_Foundational_T2I",
      "slug": "g25-lens-efficient-foundational-t2i",
      "detail_url": "papers/g25-lens-efficient-foundational-t2i/",
      "title": "Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models",
      "summary": "Lens 关注 foundational text-to-image models 的训练效率，而不是单一 benchmark 或局部模块改进。\n\n论文系统重构训练 recipe，涉及高质量 dense captions、多分辨率训练、语义 VAE、强化学习优化和蒸馏等环节。\n\n这种工作对生成模型基础设施有价值，因为它把大规模 T2I 模型训练中的多项经验组合成可复用工程路径。\n\n它值得正式收录，因为高效训练 recipe 会直接影响开源/工业 T2I 模型的成本曲线和可复现能力。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.21573",
      "collected_at": "",
      "collection_order": 1007,
      "source_url": "https://arxiv.org/pdf/2605.21573.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.21573.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.21573"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G21_PhysX_Omni_Physical_3D",
      "slug": "g21-physx-omni-physical-3d",
      "detail_url": "papers/g21-physx-omni-physical-3d/",
      "title": "PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects",
      "summary": "PhysX-Omni 面向 embodied AI 和物理仿真的关键缺口：现有 3D 生成往往只生成外观几何，缺少可直接进入仿真的物理属性，且常局限于刚体、可变形物体或关节物体中的单一类别。\n\n论文提出统一的 simulation-ready physical 3D generation 框架，并设计适配 VLM 的高分辨率 3D 几何表示；同时构建 PhysXVerse 数据集，覆盖多类室内外物体。\n\n评估侧提出 PhysX-Bench，覆盖 geometry、absolute scale、material、affordance、kinematics、function description 六类属性，连接生成质量和物理/功能可用性。\n\n它值得正式收录，因为它把 3D 生成从视觉资产推进到可仿真物理资产，为机器人策略学习、仿真环境构建和世界模型提供了更接近操作层的生成接口。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.21572",
      "collected_at": "",
      "collection_order": 1006,
      "source_url": "https://arxiv.org/pdf/2605.21572.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.21572.pdf",
      "project_urls": [
        "https://physx-omni.github.io"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.21572",
        "https://github.com/physx-omni/PhysX-Omni"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A327_MemPi_Adaptive_Generative_Memory",
      "slug": "a327-mempi-adaptive-generative-memory",
      "detail_url": "papers/a327-mempi-adaptive-generative-memory/",
      "title": "Mem-π: Adaptive Memory through Learning When and What to Generate",
      "summary": "这篇论文把 agent memory 从相似度检索式 episodic memory / skill library 推进一步：记忆不再只是拿回静态条目，而是由独立模型按当前上下文生成可执行 guidance。\n\n核心机制是 Mem-π 模型同时学习 when 和 what：什么时候不该干预、什么时候生成简洁有效的指导，以及指导内容应该是什么。作者用 decision-content decoupled RL 训练这个生成式记忆策略，避免把是否使用记忆和记忆内容质量混在一起。\n\n实验覆盖 web navigation、terminal tool use 和 text-based embodied interaction 等 agentic benchmarks，并报告在 web navigation 上相对提升超过 30%，说明它不是单点 QA 记忆，而是面向复杂执行任务的 memory policy。\n\n它值得正式收录，因为它给 agent memory 一个可复用的新接口：从 retrieve static memories 转向 generate context-conditioned operational guidance。这对长期 agent、工具使用、技能迁移和 memory controller 设计都有直接工程和研究价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.21463",
      "collected_at": "",
      "collection_order": 1005,
      "source_url": "https://arxiv.org/pdf/2605.21463.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.21463.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.21463"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A299_CutVerse_GUI_Agents",
      "slug": "a299-cutverse-gui-agents",
      "detail_url": "papers/a299-cutverse-gui-agents/",
      "title": "CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing",
      "summary": "CutVerse 把 GUI agents 评测从网页导航和基础 OS 操作扩展到专业创作软件工作流，例如 Premiere Pro 和 Photoshop。\n\n基准包含 7 个专业应用、186 个长程任务和专家演示，并提供把屏幕录制与低层交互日志解析为 compositional GUI action trajectories 的工具。\n\n它值得正式收录，因为专业媒体后期是高价值真实工作流，要求空间 grounding、多模态对齐、长程规划和精细 GUI 操作同时成立。\n\n它没有更高，是因为目前主要是 benchmark，真实插件/API 混合控制、版权素材约束和协作编辑流程还未完整覆盖。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.19484",
      "collected_at": "",
      "collection_order": 1004,
      "source_url": "https://arxiv.org/pdf/2605.19484.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.19484.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "中传新国大让AI用鼠标剪视频，无API操控PR，发布首个后期智能体基准",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "cutverse a compositional gui agents benchmark for media post production editing",
          "description": "中国传媒大学、新加坡国立大学与USEIT AI联合团队针对专业视频后期剪辑领域，推出了首个GUI智能体评测基准CutVerse。传统的AI助手虽能处理简单网页任务，但在面对Premiere等高密度界面的专业软件时，面临时间线操作、参数微调等巨大挑战。CutVerse提供基于Windows虚拟机和纯视觉感知的无API真实交互环境。评测结果显示，即使是当前最顶尖的视觉语言模型，在此类高精度协作任务中的成功率也仅为36.0%。该研究揭示了现有模型在时空理解上的短板，为未来AI直接操作专业软件、实现全自动视频剪辑奠定了基石。",
          "x_post": "中国传媒大学与新加坡国立大学等联合推出视频后期GUI智能体基准CutVerse，顶尖VLM任务成功率仅36.0%\n传统AI智能体在网页任务上表现良好，但在面对Premiere等高密度界面的专业视频剪辑软件时面临巨大挑战。\nCutVerse基于Windows虚拟机与纯视觉感知构建了无API真实交互评测环境，涵盖7个平台的186个真实任务。\n测试显示，即便顶尖视觉语言模型在处理时间轴编辑、特效微调等高精度协作任务时，成功率也仅为36.0%。\n该研究指出了现有模型在时空理解与长程规划上的短板，为AI协同操作专业软件、实现全自动剪辑奠定了基石。",
          "cover_url": "assets/covers/a299-cutverse-gui-agents-1b9dddd0df.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T06:50:34+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A298_ICQ_Workflow_Handoff",
      "slug": "a298-icq-workflow-handoff",
      "detail_url": "papers/a298-icq-workflow-handoff/",
      "title": "Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints",
      "summary": "这篇论文研究多 agent LLM pipeline 中的 handoff 学习：不同专用 agent 通过共享 artifact 交接，但没有中心 learner 能访问完整联合轨迹。\n\n作者把该设置形式化为 interface-constrained SMDP，并提出 IC-Q；每次交接只传一个标量，却给出神经 Q-learning 的有限样本收敛界。\n\n它值得正式收录，因为它为跨组织、跨厂商或跨权限边界的 agent workflow 提供了理论模型和可验证学习算法。\n\n它没有更高，是因为实验仍是受控任务和若干 multi-LLM 场景，真实企业 workflow 的接口漂移和安全约束尚未充分覆盖。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.19140",
      "collected_at": "",
      "collection_order": 1003,
      "source_url": "https://arxiv.org/pdf/2605.19140.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.19140.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "纽约大学等让AI在零泄露下100%协作收敛，推出全新工作流IC-SMDP",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "learning to hand off provably convergent workflow learning under interface constraints",
          "description": "纽约大学、达特茅斯学院和弗吉尼亚理工大学团队针对多智能体大模型工作流展开研究。在真实的跨组织去中心化场景中，由于隐私和商业机密限制，智能体间存在物理高墙，无法获取全局轨迹或彼此的私有状态。为此，团队提出IC-SMDP形式化框架与IC-Q算法，智能体在交接任务时仅传递极简的标量数据，实现异步协作自学习。实验表明，该方法在保证零隐私泄露的前提下，实现了100%的协作收敛，在数学推理和程序设计等任务中，使去中心化系统达到了与全局最优方案相媲美的性能。这为多智能体流水线提供了坚实的数学基石，让未来的跨企业AI协作更安全、更高效。",
          "x_post": "纽约大学等提出IC-SMDP框架，在零泄露下实现多智能体100%协作收敛\n\n【背景】在跨组织的大模型协作中，受限于隐私和商业机密，智能体无法获取全局轨迹，内部状态（如思维链）也完全屏蔽。\n【方法】为此，团队提出IC-SMDP形式化框架与IC-Q算法，智能体在交接任务时仅传递极简标量数据，实现去中心化的异步协作自学习。\n【验证】研究首次为具有局部观测性的神经 Q-learning 提供了有限样本收敛性证明。实验表明，该方法在数学推理、路由导航和程序设计任务中，达到了与全局最优方案相媲美的性能。\n【结论】该工作为去中心化多智能体流水线奠定了数学基石，并量化了表示差距和混合时间等误差来源。",
          "cover_url": "assets/covers/a298-icq-workflow-handoff-da2f89af68.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-21T16:10:07+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A297_DecisionBench_Delegation",
      "slug": "a297-decisionbench-delegation",
      "detail_url": "papers/a297-decisionbench-delegation/",
      "title": "DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows",
      "summary": "DecisionBench 针对 agent orchestration 的关键问题：一个 agent 何时应该把子任务交给另一个模型，以及如何评估这种 delegation 是否真的有效。\n\n基准固定任务套件、11 个 peer models、call_model/read_profile 接口和多轴指标，覆盖质量、成本、延迟、delegation rate、routing fidelity、vendor self-preference 与 counterfactual ceiling。\n\n它值得正式收录，因为它把 delegation 从经验 prompt 技巧变成可复现实验 substrate，能评估 routers、peer memory 和多步委派策略。\n\n它没有更高，是因为当前主要是离线评测 substrate，还没有证明某个 delegation learning 方法能稳定缩小 counterfactual gap。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.19099",
      "collected_at": "",
      "collection_order": 1002,
      "source_url": "https://arxiv.org/pdf/2605.19099.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.19099.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "MIT和斯坦福测试AI当老板管AI的能力，发布委派基准DecisionBench",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "decisionbench a benchmark for emergent delegation in long horizon agentic workflows",
          "description": "麻省理工和斯坦福等机构联合推出DecisionBench基准，用于评估大语言模型在长任务工作流中的自主委派能力。传统单一模型包揽复杂任务会带来高延迟和高成本，而让大模型作为“管理者”自主分派任务是优化的关键。研究表明，虽然提供成员画像能提高分派精度，但未直接转化为最终任务质量的提升；此外，通过按需工具传递信息的效果显著优于系统提示词，且模型存在偏向同厂商模型的“偏好”。实验揭示当前多智能体协作水平与理论天花板仍有15%至31%的差距。该框架为构建低成本、高效率的AI协作系统奠定了评测基础。",
          "x_post": "MIT和斯坦福等推出多智能体委派基准DecisionBench，揭示实际协作与理论天花板存在15%至31%的差距。\n单一模型处理复杂长任务易导致算力浪费与高成本。DecisionBench 涵盖2.3万个任务实例，旨在评估大模型作为“管理者”自主委派任务的能力。\n测试发现，提供成员画像能提高分派精度，但未能直接提升任务质量；通过按需工具传递信息效果显著优于系统提示词，且模型倾向于将任务分配给同厂商模型。\n该框架构建了包含质量、成本、延迟及偏好偏差的多维指标，为后续开发低成本、高效率的多智能体协作系统提供了评测基础。",
          "cover_url": "assets/covers/a297-decisionbench-delegation-51f126bede.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-20T19:35:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A296_EngiAI_Engineering_Design_Agents",
      "slug": "a296-engiai-engineering-design-agents",
      "detail_url": "papers/a296-engiai-engineering-design-agents/",
      "title": "EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design",
      "summary": "EngiAI 把 LLM agents 放进真实工程设计流程，而不是只做文本问答：任务覆盖拓扑优化、参数检索、HPC 作业编排和 3D 打印控制。\n\n论文同时给出 benchmark suite 和 LangGraph 多 agent 参考实现，评估 direct tool use、语义消歧、条件分支、工作记忆、RAG gate 和 SLURM 集群端到端编排。\n\n它值得正式收录，因为它为 engineering-design agents 提供了可复用评测接口和系统原型，正好对应 CAD/工程设计 workflow 的新增收录方向。\n\n它没有更高，是因为当前只有两个 EngiBench 问题和有限模型后端，真实工程约束、制造误差和安全责任链还需扩展。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-20",
      "doi": "",
      "arxiv_id": "2605.19743",
      "collected_at": "",
      "collection_order": 1001,
      "source_url": "https://arxiv.org/pdf/2605.19743.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.19743.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "苏黎世联邦理工用AI搞设计，说句话自动3D打印，发布EngiAI",
          "url": "https://www.bilibili.com/video/BV16kG46kEp9",
          "platform_urls": [
            "https://www.bilibili.com/video/BV16kG46kEp9",
            "https://youtu.be/-ZpQNr93cuk"
          ],
          "main_collection": "AI硬件设计",
          "match": "engiai a multi agent framework and benchmark suite for llm driven engineering design",
          "description": "苏黎世联邦理工学院团队针对现代工程设计中流程孤岛与AI黑盒化困境，推出大模型驱动的多智能体系统EngiAI。该系统以Supervisor为枢纽协调七个专业智能体，实现从拓扑优化、文献检索到超算调度与3D打印的无缝全流程。实验表明，云端模型在基础拓扑优化中展现出高达97%的成功率，极大降低了非专家使用门槛；但在复杂“条件分支”逻辑中完成率会降至20%至53%。这项工作为评估和部署能够胜任模拟与制造的智能工程助手奠定了基础，迈出了自然语言驱动物理制造的重要一步。",
          "x_post": "苏黎世联邦理工学院发布 EngiAI：多智能体自主工程设计框架，基础任务成功率达 97.0%\n针对现代工程设计流程孤岛和 AI 逆向设计黑盒化困境，如何实现自然语言直接驱动的物理制造成为研究难点。\nEngiAI 框架通过 Supervisor 角色协调拓扑优化、文献检索 RAG、超算调度及 3D 打印等 7 个专业智能体，实现一站式集成。\n评测显示，在基础拓扑优化中 Gemini-3-Flash 成功率达 97.0%（Qwen3.5-4B 达 78.0%），但面对复杂条件分支逻辑时，最强模型的完成率降至 20%~53%。\n该工作证实了自然语言驱动工程设计的可行性，但也揭示了当前大模型在处理长程指令和条件判断逻辑时的能力边界。",
          "cover_url": "assets/covers/a296-engiai-engineering-design-agents-7dc52ffb1a.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-20T18:09:43+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "S83_CoScientist_Hypothesis_Generation",
      "slug": "s83-coscientist-hypothesis-generation",
      "detail_url": "papers/s83-coscientist-hypothesis-generation/",
      "title": "Accelerating scientific discovery with Co-Scientist",
      "summary": "Co-Scientist 把科学假设生成做成多 agent 系统：多个 agent 持续生成、批判、排序和改进假设，并通过 test-time compute scaling 提升假设质量。\n\n系统面向研究目标和既有证据生成可实验验证的新假设；论文在药物重定位、新靶点发现和抗微生物耐药机制解释中验证，特别是 AML 候选药物和协同组合治疗经过体外实验确认。\n\n它值得正式收录，因为这是 Nature 顶刊中对通用 AI co-scientist 架构、异步任务执行、tournament evolution 和真实生物医学验证的系统化报告。\n\n它没有更高，是因为尽管具备范式意义，仍需要更多独立实验室复现、长期失败分析和跨学科验证来确认可靠性边界。",
      "grade": "paradigm",
      "grade_label": "范式级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-05-19",
      "doi": "10.1038/s41586-026-10644-y",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 1000,
      "source_url": "https://www.nature.com/articles/s41586-026-10644-y_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41586-026-10644-y",
      "project_urls": [
        "https://deepmind.google/blog/co-scientist-a-multi-agent-ai-partner-to-accelerate-research/",
        "https://ai.google/gemini-for-science/"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S82_AutoResearchClaw",
      "slug": "s82-autoresearchclaw",
      "detail_url": "papers/s82-autoresearchclaw/",
      "title": "AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration",
      "summary": "AutoResearchClaw 针对自动科研系统的线性管线缺陷：失败后停止、缺少跨轮经验、缺少多视角质询和结果可验证性。\n\n系统包含多 agent debate、Pivot/Refine 自修复执行器、可验证结果报告、人机协作的七种介入模式，以及把历史错误转化为未来 safeguards 的 cross-run evolution。\n\n它值得正式收录，因为它把 autonomous research 从一次性论文生成扩展到带失败利用、人类高杠杆介入和经验积累的循环系统。\n\n它没有更高，是因为 ARC-Bench 仍偏实验阶段基准，真实跨学科实验室长期使用还需要证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-05-19",
      "doi": "",
      "arxiv_id": "2605.20025",
      "collected_at": "",
      "collection_order": 999,
      "source_url": "https://arxiv.org/pdf/2605.20025.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.20025.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.20025",
        "https://github.com/aiming-lab/AutoResearchClaw"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "别再用AI写玩具论文了！斯坦福谷歌等用双重辩论逼AI做真科研，发布ARC框架",
          "url": "https://www.bilibili.com/video/BV1ZcLa6dEGr",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1ZcLa6dEGr",
            "https://youtu.be/dncESJoLrA4"
          ],
          "main_collection": "AI递归自我进化",
          "match": "autoresearchclaw self reinforcing autonomous research with human ai collaboration",
          "description": "由斯坦福、谷歌、卡内基梅隆等多家顶尖机构在AI自主科研领域联合推出AutoResearchClaw（ARC）自我强化科研框架。针对现有AI写论文工具存在“单一视角、执行脆弱、阅后即焚”等玩具级痛点，ARC引入了由创新者、实用主义者和反对者组成的多智能体双重辩论机制，并构建了最高支持10次循环的代码自愈执行环境与物理隔离安全沙盒。对比测试显示，ARC在端到端管线、真实实验执行及防伪验证等所有维度均优于AI Scientist等现有系统。它将AI科研转变为由假设、修复与积累构成的动态闭环，实现了更稳健、更真实的自动化探索，让AI真正涉足严谨的科学研究。",
          "x_post": "斯坦福与谷歌等联合发布ARC框架，通过双重辩论与10次自愈循环实现全维度优于AI Scientist的自主科研\n\n【问题背景】现有 AI 科研工具面临单一视角、执行脆弱与缺乏长期积累等瓶颈，难以应对复杂的非线性真实科研形态。\n【核心方法】AutoResearchClaw (ARC) 引入多智能体双重辩论机制（包含创新者、实用主义者与反对者），在假设生成与结果分析阶段进行两段式审核，并构建了物理隔离的安全沙盒环境。\n【关键数据】该系统集成自愈执行引擎，最高支持 10 次代码报错内部诊断与修复循环。对比测试显示，ARC 在端到端管线、真实实验执行及防伪验证等所有维度均优于 AI Scientist v2 与 Agent Lab。\n【结论边界】ARC 将自动化探索转化为“假设-修复-积累”的动态闭环，为实现更稳健、真实的自动化科研探索提供了系统级方案。",
          "cover_url": "assets/covers/s82-autoresearchclaw-44cfee3b5d.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T07:28:13+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "S81_ERA_Empirical_Research_Assistance",
      "slug": "s81-era-empirical-research-assistance",
      "detail_url": "papers/s81-era-empirical-research-assistance/",
      "title": "An AI system to help scientists write expert-level empirical software",
      "summary": "ERA 针对科学研究中的一个真实瓶颈：研究软件和实验脚本往往需要专家长期手写，限制了计算实验迭代速度。\n\n系统把 LLM 与 tree search 结合，以质量指标为目标反复生成、测试和改进代码；论文报告它在单细胞分析、COVID-19 住院预测、地理空间分析、斑马鱼神经活动预测和数值积分等任务中达到或超过专家级结果。\n\n它值得正式收录，因为它不是普通 coding agent，而是把代码生成、外部研究思想整合和 empirical objective search 变成科学软件发现器，直接改变计算科学 workflow。\n\n它没有更高，是因为任务仍围绕可度量 leaderboard 或明确指标；开放式科研问题、不可形式化目标和长期维护质量仍需验证。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-05-19",
      "doi": "10.1038/s41586-026-10658-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 998,
      "source_url": "https://www.nature.com/articles/s41586-026-10658-6_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41586-026-10658-6",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S80_Robin_MultiAgent_Discovery",
      "slug": "s80-robin-multiagent-discovery",
      "detail_url": "papers/s80-robin-multiagent-discovery/",
      "title": "A multi-agent system for automating scientific discovery",
      "summary": "Robin 把文献检索 agent、假设生成、实验建议、数据分析和结果解释连接成 lab-in-the-loop 的科学发现系统，而不是只做单点文献问答或代码生成。\n\n论文在干性年龄相关性黄斑变性场景中验证了系统：Robin 提出增强 RPE 吞噬作用的治疗策略，识别并体外确认 ripasudil 与 KL001，并进一步提出和分析 RNA-seq 实验以解释机制。\n\n它值得正式收录，因为 Nature 顶刊论文给出了 AI agent 直接参与真实实验生物学发现闭环的强证据，属于自动化科学发现从 workflow demo 进入实证发现的关键节点。\n\n它没有更高，是因为系统仍依赖人类实验执行与问题设定，跨疾病、跨实验平台和长期自主可靠性还需要更多独立验证。",
      "grade": "paradigm",
      "grade_label": "范式级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-05-19",
      "doi": "10.1038/s41586-026-10652-y",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 997,
      "source_url": "https://www.nature.com/articles/s41586-026-10652-y",
      "paper_url": "https://www.nature.com/articles/s41586-026-10652-y",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "牛津等发布AI科学家首测：自主发现新药且结果100%对齐人类",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "a multi agent system for automating scientific discovery",
          "description": "由牛津大学等团队开发的Robin多智能体AI系统，致力于解决现代科学数据过载、人类专家文献检索达物理极限的痛点。该系统由检索、评估与数据分析三个专业智能体组成，实现了从假设生成到数据分析的科学研究全闭环。在干性老年性黄斑变性（dAMD）的治疗方案研发中，Robin通过自主检索文献与设计实验，成功筛选出能增强细胞吞噬作用的候选药物。实验结果显示，Robin的数据分析结论与人类科学家盲测结果100%吻合，且将科研认知劳动时间缩短了约200倍。这一突破展示了AI自主驱动生物医学研究的巨大潜力，但目前其物理实验部分仍需“实验室在环”的人类配合完成。",
          "x_post": "牛津大学与FutureHouse等发布多智能体AI系统Robin，自主发现dAMD潜在新药并将认知劳动时间缩短约200倍。\n【背景】现代科学文献呈爆炸式增长，人类专家合成海量知识的速度已达物理极限，致使多项关键药物研发线索被长期隐没。\n【方法】Robin系统集成Crow（检索）、Falcon（评估）及Finch（分析）智能体，构建了覆盖假设生成、实验设计与数据解读的科研全闭环。\n【验证】在干性老年性黄斑变性（dAMD）药物筛选中，Robin推荐的方案经体外实验验证有效，其自主分析的原始数据结论与人类盲测100%吻合，将科研认知时间缩短约200倍。\n【边界】该系统展示了AI自主驱动生物医学研究的潜力，但目前物理实验部分仍需“实验室在环”的人类配合完成。",
          "cover_url": "assets/covers/s80-robin-multiagent-discovery-02b2414d4c.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T06:31:30+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R76_GoLongRL_Long_Context_RL",
      "slug": "r76-golongrl-long-context-rl",
      "detail_url": "papers/r76-golongrl-long-context-rl/",
      "title": "GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment",
      "summary": "GoLongRL 处理长上下文 RL 的数据构造和多任务奖励异质性问题，而不是只堆更复杂检索路径。\n\n论文发布 23K RLVR 样本、构造流水线和训练代码，覆盖 9 类长上下文能力，并提出 TMN-Reweight 做跨任务奖励尺度对齐和难度自适应加权。\n\n它值得正式收录，因为它把长上下文能力后训练做成开放 recipe，对 agent memory、长文档推理和代码库理解都有直接系统价值。\n\n它没有更高，是因为当前证据集中在若干长上下文 benchmark，是否稳定提升真实 agent 工作流仍需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-19",
      "doi": "",
      "arxiv_id": "2605.19577",
      "collected_at": "",
      "collection_order": 996,
      "source_url": "https://arxiv.org/pdf/2605.19577.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.19577.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.19577"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N88_FPED_Interpretable_Brain_Decoding",
      "slug": "n88-fped-interpretable-brain-decoding",
      "detail_url": "papers/n88-fped-interpretable-brain-decoding/",
      "title": "FPED: A Functional-Network Prior-Guided Mixture-of-Experts Framework for Interpretable Brain Decoding",
      "summary": "FPED introduces a functional-network-prior mixture-of-experts framework for fMRI visual decoding, avoiding the common practice of flattening brain signals into unstructured vectors.\n\nDifferent functional networks are modeled as experts, with adaptive routing estimating their contributions to visual semantic reconstruction and interpretation.\n\nThe method preserves more neurobiological structure while still connecting to CLIP-like semantic spaces and image reconstruction objectives.\n\nFor the repository, FPED is valuable as a NeuroAI bridge: it uses AI architectures to respect brain network topology while making decoding more interpretable.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-19",
      "doi": "",
      "arxiv_id": "2605.19279",
      "collected_at": "",
      "collection_order": 995,
      "source_url": "https://arxiv.org/pdf/2605.19279.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.19279.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM68_ParaVT_Parallel_Video_Tool_RL",
      "slug": "mm68-paravt-parallel-video-tool-rl",
      "detail_url": "papers/mm68-paravt-parallel-video-tool-rl/",
      "title": "ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning",
      "summary": "ParaVT 处理长视频理解中的 agentic tool-use 问题：现有 RL 方法通常顺序调用视频裁剪等工具，单次错误会传播，多轮上下文被污染，推理成本随工具轮数线性增长。\n\n论文提出 parallel video tool calling，一轮并行分发多个时间窗裁剪，让多 agent 工具结果互相补偿，并减少上下文污染。\n\n训练中发现 Tool Prior Paradox：强预训练工具先验既帮助探索工具调用，也会破坏结构化格式并诱发 skip-tool reward shortcut；PARA-GRPO 用结构 token 局部 format reward 和 frame-budget randomization 缓解该问题。\n\n它值得正式收录，因为它把多模态视频理解、工具调用和 RL 后训练连接起来，给 multimodal agents 的并行工具使用提供了明确训练范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-05-19",
      "doi": "",
      "arxiv_id": "2605.20342",
      "collected_at": "",
      "collection_order": 994,
      "source_url": "https://arxiv.org/pdf/2605.20342.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.20342.pdf",
      "project_urls": [
        "https://evolvinglmms-lab.github.io/ParaVT/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.20342",
        "https://github.com/EvolvingLMMs-Lab/ParaVT"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW33_Optical_DFA_Training",
      "slug": "hw33-optical-dfa-training",
      "detail_url": "papers/hw33-optical-dfa-training/",
      "title": "Streamlined optical training of large-scale modern deep learning architectures with direct feedback alignment",
      "summary": "这篇 PNAS 论文处理 AI 训练硬件的根问题：现代深度学习训练几乎完全依赖电子加速器和 backpropagation，能耗与规模扩展压力越来越大。\n\n作者在 hybrid electronic-photonic platform 上实验实现 direct feedback alignment，用 optical processing unit 执行该算法核心的大规模随机矩阵乘法。\n\n论文报告在语言、视觉和 diffusion-based generative tasks 上训练现代架构，包括超过 1B 参数的 Transformers，并分析 ultra-deep / wide networks 下的训练时间 scaling。\n\n它值得正式收录，因为它不是普通光计算器件展示，而是把可训练算法、光电矩阵运算和现代 Transformer/扩散架构连接起来，提供 AI 训练硬件路线的可复用证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-05-19",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 993,
      "source_url": "https://doi.org/10.1073/pnas.2532022123",
      "paper_url": "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=42139287&retmode=xml",
      "project_urls": [
        "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=42139287&retmode=xml",
        "https://www.pnas.org/doi/10.1073/pnas.2532022123"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A302_PEEK_Context_Map_Agents",
      "slug": "a302-peek-context-map-agents",
      "detail_url": "papers/a302-peek-context-map-agents/",
      "title": "PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents",
      "summary": "PEEK 区分了 agent memory 中容易混淆的对象：不是保存轨迹或原始材料，而是保存关于复用上下文的 orientation knowledge。\n\n系统维护一个固定预算 context map，记录外部上下文包含什么、如何组织、哪些实体/常量/schema 曾经有用，并通过 Distiller、Cartographer 和 Evictor 更新。\n\n它值得正式收录，因为它提供了 long-context agents 面向重复代码库、文档库和数据集工作的实用记忆原语，且报告对 Codex 等 agent 架构也有效。\n\n它没有更高，是因为 context map 的自动维护、错误累积和权限边界还需要更长周期部署验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-19",
      "doi": "",
      "arxiv_id": "2605.19932",
      "collected_at": "",
      "collection_order": 992,
      "source_url": "https://arxiv.org/pdf/2605.19932.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.19932.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.19932"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "让AI读长文本省下八成成本，全新PEEK缓存用千级Token建立永久记忆",
          "url": "https://www.bilibili.com/video/BV1hbGY61EVy",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1hbGY61EVy",
            "https://youtu.be/TZHunBtdqVY"
          ],
          "main_collection": "AI智能体",
          "match": "peek context map as an orientation cache for long context llm agents",
          "description": "在长文本大模型智能体领域，处理庞大且重复的外部文档常伴随高延迟与高昂的API成本。针对该瓶颈，研究团队推出全新PEEK缓存系统。其核心在于引入类似CPU缓存的“上下文地图”，常驻于系统提示词中，并通过提炼器、制图师和驱逐器三大模块，自动维护极小且固定大小的导向性知识，避免模型重复阅读全量文档。实验表明，该方法可使长文本推理任务的准确率最高提升34%，同时将Token成本骤降80%。该系统为大模型赋予了持久的跨查询记忆，在保证高效与高精度的同时，显著降低了计算开销，为长文本处理与复杂智能体的高效落地提供了极具通用性的全新路径。",
          "x_post": "研究团队推出基于定位缓存的 PEEK 架构，提升长文本推理准确率最高达 34% 并降低 80% Token 成本\n在处理超 50k 的巨型数据库时，长文本 LLM 智能体常因缺乏环境感知记忆，面临高延迟与重复阅读全量文档的高昂 API 成本。\nPEEK 系统受 CPU 硬件缓存启发，在系统提示词中引入固定大小为 1024 Token 的“上下文地图”，通过提炼器、制图师和驱逐器动态维护导向性知识。\n实验表明，该系统能有效提取可迁移的纯粹环境方位事实，在长文本推理任务中将准确率最高提升 34%，同时骤降 80% 的 Token 成本。\n该成果证明了主动维护外部环境上下文状态的有效性，为降低长文本智能体落地开销提供了通用的演进路径。",
          "cover_url": "assets/covers/a302-peek-context-map-agents-09cb325533.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T06:55:59+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A301_OpenComputer_Software_Worlds",
      "slug": "a301-opencomputer-software-worlds",
      "detail_url": "papers/a301-opencomputer-software-worlds/",
      "title": "OpenComputer: Verifiable Software Worlds for Computer-Use Agents",
      "summary": "OpenComputer 针对 computer-use agents 的核心评估难点：最终截图或 LLM-as-judge 往往看不见真实应用状态，也不能稳定给出部分信用。\n\n框架提供应用状态 verifier、自演化验证层、可机器检查的任务生成流水线和轨迹级评估 harness，覆盖 33 个桌面应用与 1000 个任务。\n\n它值得正式收录，因为它把软件世界变成可验证环境，为 computer-use agents 提供比纯视觉评分更可靠的训练和评测基础。\n\n它没有更高，是因为 verifier 的构建仍需要应用特定工程，覆盖更多应用和动态网页仍有成本。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-19",
      "doi": "",
      "arxiv_id": "2605.19769",
      "collected_at": "",
      "collection_order": 991,
      "source_url": "https://arxiv.org/pdf/2605.19769.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.19769.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.19769"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "耶鲁宾大揭穿AI电脑代理的视觉假象，直检底层，发布OpenComputer",
          "url": "https://www.bilibili.com/video/BV1UUGE6vEKr",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1UUGE6vEKr",
            "https://youtu.be/hHfZhfMl0Xs"
          ],
          "main_collection": "AI智能体",
          "match": "opencomputer verifiable software worlds for computer use agents",
          "description": "耶鲁大学、宾夕法尼亚大学和北卡罗来纳大学的研究团队推出了针对计算机操作智能体（Computer-Use Agents）的评估框架OpenComputer。传统的评估方式极易被看似合理的屏幕截图蒙蔽，无法发现隐藏的底层系统故障。为此，OpenComputer弃用视觉盲测，通过稳定接口直接审查软件的内容、历史、文件等底层真实状态，并具备自我修复验证逻辑的自进化能力。实验表明，该方法与人类裁决契合度高达97.3%，远超传统LLM裁判，现已覆盖33款应用和1000个任务。这一框架不仅戳破了AI操作的视觉假象，更为高可靠性智能体的研发提供了安全可信的度量基石。",
          "x_post": "【耶鲁与宾大等团队发布OpenComputer：通过底层状态验证AI电脑操作，人类契合度达97.3%】\n目前计算机操作智能体的评估极易被“看似合理”的屏幕截图所欺骗，难以发现隐藏在视觉界面之下的底层系统故障和逻辑缺陷。\nOpenComputer框架弃用视觉盲测，通过稳定接口直接审查文件、数据库及系统底层状态，并引入可自动修复验证逻辑的自进化闭环。\n该框架已覆盖33款应用和1,000个任务。实验显示，其硬编码验证器与人类裁决契合度达97.3%（LLM裁判为92.2%），任务级一致性达94.1%。\n评估结果暴露出当前顶级模型在端到端任务执行中的真实瓶颈，为高可靠性智能体的研发提供了安全可信的度量基石。",
          "cover_url": "assets/covers/a301-opencomputer-software-worlds-394968881f.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T07:27:04+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T39_Agent_Security_Systems",
      "slug": "t39-agent-security-systems",
      "detail_url": "papers/t39-agent-security-systems/",
      "title": "Agent Security is a Systems Problem",
      "summary": "This position paper reframes agent security away from model robustness alone and toward system-level security invariants around tools, identity, authority, memory, and execution boundaries.\n\nIts central claim is that the model inside an agent should be treated as an untrusted component, with security guarantees enforced by surrounding systems mechanisms rather than by hoping the model refuses bad instructions.\n\nThe paper analyzes representative real-world agent attacks through this lens and maps them to classical systems-security principles such as isolation, least privilege, mediation, and auditable control boundaries.\n\nFor this repository, the value is the reusable threat-model shift: secure agents need operating-system-like boundaries, not only alignment tuning or prompt-level defenses.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-05-18",
      "doi": "",
      "arxiv_id": "2605.18991",
      "collected_at": "",
      "collection_order": 990,
      "source_url": "https://arxiv.org/pdf/2605.18991.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.18991.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T17_EventGraph_World_Models",
      "slug": "t17-eventgraph-world-models",
      "detail_url": "papers/t17-eventgraph-world-models/",
      "title": "Deterministic Event-Graph Substrates as World Models for Counterfactual Reasoning",
      "summary": "这篇论文提出一种非参数、可审计的 world model：把 agent state 表示成 append-only typed RDF triples，并通过 fork event log 回答结构化干预下的 counterfactual queries。\n\n它的价值不是追求更强神经预测，而是提供 exact counterfactuals、triple-level inspectability 和跨域可迁移 runtime。作者还证明 explanatory 与 counterfactual queries 可归约到同一 causal-ancestor traversal。\n\n它值得正式收录，因为 world model 方向不应只有视频/神经模拟；可审计 event substrate 为 agent memory、causal reasoning 和安全审计提供了另一种基础表示。\n\n它没有更高，是因为在复杂连续环境和真实工具工作流中的表达能力、规模化和与神经模型协同仍需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-05-18",
      "doi": "",
      "arxiv_id": "2605.15967",
      "collected_at": "",
      "collection_order": 989,
      "source_url": "https://arxiv.org/pdf/2605.15967.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15967.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SYS13_AgentStop_Local_Agents",
      "slug": "sys13-agentstop-local-agents",
      "detail_url": "papers/sys13-agentstop-local-agents/",
      "title": "AgentStop: Terminating Local AI Agents Early to Save Energy in Consumer Devices",
      "summary": "AgentStop 研究本地部署 AI agents 的系统成本：多步推理、工具调用和失败重试会让本地 GPU 功耗、温度和电池消耗显著上升。\n\n论文提出轻量级 efficiency supervisor，用 token log probabilities 等低成本执行信号预测轨迹是否大概率失败，并提前终止无望执行。\n\n它值得正式收录，因为 local-first agents 会受能耗、隐私和设备可用性约束；early termination 是面向消费设备 agent runtime 的可复用控制原语。\n\n它没有更高，是因为节能幅度和 utility trade-off 还需要在更多设备、模型、任务和用户体验约束下验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "systems_hardware_and_codesign",
      "theme_label": "系统、硬件与协同设计",
      "published_at": "2026-05-18",
      "doi": "",
      "arxiv_id": "2605.15206",
      "collected_at": "",
      "collection_order": 988,
      "source_url": "https://arxiv.org/pdf/2605.15206.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15206.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SYS12_TopoEvo_RCA_Agents",
      "slug": "sys12-topoevo-rca-agents",
      "detail_url": "papers/sys12-topoevo-rca-agents/",
      "title": "TopoEvo: A Topology-Aware Self-Evolving Multi-Agent Framework for Root Cause Analysis in Microservices",
      "summary": "TopoEvo 处理 LLM RCA agents 的另一类失效：忽略服务拓扑会把根因误归到下游受害节点，产生 symptom-amplification bias。\n\n系统把 metrics、logs、traces 对齐成拓扑增强表示，用向量量化形成可审计 symptom tokens，再通过多 agent Hypothesis-Evidence-Test workflow 验证传播一致解释。\n\n它值得正式收录，因为它把 observability、graph representation、agent workflow、incident memory 和 conservative test-time adaptation 结合成 self-evolving RCA 系统。\n\n它没有更高，是因为当前仍是特定 AIOps 场景；真实生产多租户、大规模拓扑漂移和长期自适应安全性还需更多证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "software_engineering_and_coding_agents",
      "theme_label": "软件工程与编程智能体",
      "published_at": "2026-05-18",
      "doi": "",
      "arxiv_id": "2605.15611",
      "collected_at": "",
      "collection_order": 987,
      "source_url": "https://arxiv.org/pdf/2605.15611.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15611.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SYS11_STAR_RCA_Agents",
      "slug": "sys11-star-rca-agents",
      "detail_url": "papers/sys11-star-rca-agents/",
      "title": "STAR: A Stage-attributed Triage and Repair framework for RCA Agents in Microservices",
      "summary": "STAR 针对微服务 RCA agents 的关键可靠性问题：早期证据收集、假设构造或因果分析错误会沿 reasoning trace 传播，最终破坏诊断。\n\n它把 RCA workflow 拆成 Evidence Package、Hypothesis Set、Analysis Structure 和 Decision Report 四个阶段，并把 agent 失败视为可定位、可修复的 stage-local bug。\n\n它值得正式收录，因为它提供了 agent observability/repair 的可复用模式：stage-wise auditing、fast/slow routing、counterfactual stage localization 和 patch-and-replay。\n\n它没有更高，是因为目前领域集中在 AIOps/RCA，能否推广到通用 coding agents、research agents 和业务 workflow 还需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "software_engineering_and_coding_agents",
      "theme_label": "软件工程与编程智能体",
      "published_at": "2026-05-18",
      "doi": "",
      "arxiv_id": "2605.15581",
      "collected_at": "",
      "collection_order": 986,
      "source_url": "https://arxiv.org/pdf/2605.15581.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15581.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "北航让AI自动纠错防系统崩溃，实现微服务自愈，发布下一代AIOps框架STAR",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "star a stage attributed triage and repair framework for rca agents in microservices",
          "description": "北京航空航天大学团队针对微服务智能运维领域，提出了新型自愈框架STAR。传统大模型智能体在进行故障根因分析时，常因早期推断的微小偏差引发连锁反应，导致整条推理链崩溃。为此，STAR框架将分析过程解构为证据包、假设集、分析结构和决策报告四个标准化阶段，并通过阶段性审计与快慢分流机制，精准定位并修复推理中的环节错误。实验表明，该方法在不堆砌成本的前提下，显著提升了故障定位的准确率，增强了系统的自修复与可调试能力，为构建更稳健的自动化运维系统提供了新路径。",
          "x_post": "北京航空航天大学团队发布微服务自愈框架STAR，实现阶段级故障根因分析与修复\n在微服务故障根因分析（RCA）中，传统LLM智能体常因早期推理的微小偏差引发级联反应，导致最终诊断失败。\n为此，研究团队提出STAR框架，将分析过程解构为证据包、假设集、分析树和决策报告四个标准化阶段。\n该框架采用阶段性审计与快慢路由机制，并利用反事实评估器在沙盒中模拟补丁效果，精准定位并修复推理中的环节错误。\n实验表明，STAR在不增加额外成本的前提下，提升了故障定位准确率与系统的可调试性，为AIOps自愈提供了新路径。",
          "cover_url": "assets/covers/sys11-star-rca-agents-a14179e33a.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-21T16:21:55+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL79_ESI_Bench_Spatial_Intelligence",
      "slug": "rl79-esi-bench-spatial-intelligence",
      "detail_url": "papers/rl79-esi-bench-spatial-intelligence/",
      "title": "ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop",
      "summary": "ESI-Bench 重新定义空间智能评测：agent 不应只被动处理给定观察，而要主动行动以揭示被遮挡结构、动态、容器关系和功能信息。\n\n基准基于 OmniGibson，覆盖 10 类任务和 29 个子类，要求 agent 选择感知、移动和操作能力并安排动作序列来累积证据。\n\n它值得正式收录，因为它把 embodied spatial intelligence 评测从 oracle observation 推向 perception-action loop，并暴露模型 premature commitment 和 metacognition 缺口。\n\n它没有更高，是因为目前主要是 benchmark；如何训练 agent 形成主动证伪式探索策略还没有完全解决。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-05-18",
      "doi": "",
      "arxiv_id": "2605.18746",
      "collected_at": "",
      "collection_order": 985,
      "source_url": "https://arxiv.org/pdf/2605.18746.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.18746.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.18746"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "PH6_CAML_Medical_AI_Interpretability",
      "slug": "ph6-caml-medical-ai-interpretability",
      "detail_url": "papers/ph6-caml-medical-ai-interpretability/",
      "title": "Bridging the interpretability gap for medical artificial intelligence models using class-association manifold learning",
      "summary": "CAML 处理医疗 AI 的解释性缺口：局部解释难以揭示黑箱模型的全局决策逻辑，尤其难以区分个体背景和真正与诊断类别相关的模式。\n\n方法用 class-association manifold learning 把全局类别知识映射到低维空间，并生成对比样本和 topology map，让人可以沿地图理解模型决策规则。\n\n它值得正式收录，因为它给出一种可复用的 global decision logic 抽取框架，并开源代码，适合医疗 AI 对齐、审计和知识发现。\n\n它没有更高，是因为它仍是解释性方法而非端到端临床工作流；不同模态、不同临床机构和监管环境下的可靠性还需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "public_health_and_medical_operations",
      "theme_label": "公共卫生与医疗运营",
      "published_at": "2026-05-18",
      "doi": "10.1038/s41551-026-01676-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 984,
      "source_url": "https://www.nature.com/articles/s41551-026-01676-w",
      "paper_url": "https://www.nature.com/articles/s41551-026-01676-w",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/xrt11/XAI-CAML"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "怎么相信AI的诊断？最新研究让AI生成连续病灶演变图自证逻辑，发布CAML",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "bridging the interpretability gap for medical artificial intelligence models using class association manifold learning",
          "description": "发表于《自然-生物医学工程》的最新研究提出了一种名为CAML的医疗AI框架。针对传统医疗AI由于“黑盒”决策导致医生无法信任、难以满足监管要求的痛点，CAML创新性地实现了患者个体特征与疾病特征的精准解耦，并通过构建低维拓扑网络，首次让AI能够生成连续、可直观观测的病灶演变图，从而实现“反事实”推演自证诊断逻辑。实验表明，该方法在保持极高诊断精度的同时（心电数据集准确率达96.7%），为临床医生提供了“眼见为实”的决策依据。这不仅让AI诊断更准、更有据可依，也为辅助临床发现与提升智能医疗设备透明度提供了强有力的工具。",
          "x_post": "《自然-生物医学工程》发表CAML框架：通过流形学习攻克医疗AI黑盒难题，心电诊断准确率达96.7%\n传统医疗AI面临“高精度”与“可解释性”的零和博弈，医生因无法理解其黑盒决策逻辑而在临床落地上面临信任与监管红线。\n该研究提出类关联流形学习（CAML）框架，通过生成式AI将患者个体背景特征与疾病病理特征精准解耦，并构建低维拓扑网络，实现连续病灶演变的“反事实”推演。\n实验表明，CAML在保持高精度的同时提供临床可解释性。在MIT-BIH（心电）数据集上其准确率达96.7%，优于TreeExplainer（94.9%）等传统解释模型。\n这一工作为辅助临床发现与提升智能医疗设备透明度提供了强有力工具，未来仍需在更多样化的真实世界临床场景中验证其泛化边界。",
          "cover_url": "assets/covers/ph6-caml-medical-ai-interpretability-697545bd15.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T10:46:38+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N92_Primate_Metacognition_Origins",
      "slug": "n92-primate-metacognition-origins",
      "detail_url": "papers/n92-primate-metacognition-origins/",
      "title": "Brain activity, disruption and connectivity comparisons identify origins of human metacognition in other primates",
      "summary": "This Nature Human Behaviour paper investigates the evolutionary and neural origins of prospective metacognition by comparing humans and macaques across behaviour, brain activity, disruption, and connectivity.\n\nThe study identifies complementary activity patterns in macaque ventrolateral prefrontal areas 45a and 47/12o, and uses ultrasonic disruption to test causal contributions of these areas to prospective decision simulation.\n\nA comparative connectivity analysis links the conjunction of these macaque circuits to the human anterior lateral prefrontal region associated with sophisticated metacognitive planning.\n\nFor this repository, the value is conceptual but strong: it clarifies neural circuit origins of metacognitive monitoring and prospective self-simulation, a core framing for AI agents that need self-evaluation, uncertainty awareness, and planning over their own future behavior.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-18",
      "doi": "10.1038/s41562-026-02473-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 983,
      "source_url": "https://www.nature.com/articles/s41562-026-02473-w.pdf",
      "paper_url": "https://www.nature.com/articles/s41562-026-02473-w.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "猴子也懂量力而行？牛津等发现猕猴主动挑战正确率达90%的脑机制",
          "url": "https://www.bilibili.com/video/BV17mGS6qEjZ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV17mGS6qEjZ",
            "https://youtu.be/c4Kvh0QCEck"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "brain activity disruption and connectivity comparisons identify origins of human metacognition in other primates",
          "description": "牛津大学与日本理化学研究所等团队在神经科学领域取得新突破。针对人类独特的“前瞻性元认知”能力是否为灵长类共有的疑问，研究人员设计了精妙的决策博弈实验。通过让猕猴在外部奖励与自我挑战间进行抉择，并结合高精度全脑fMRI扫描，研究发现猕猴能准确感知自身大脑状态。当它们主动选择挑战时，任务正确率高达90%，远超被迫挑战的45%。脑成像进一步揭示了其大脑的双引擎架构：45a区负责向内审视自我，47/12o区负责评估环境。这一发现证实了人类高度发达的元认知并非凭空产生，而是建立在灵长类通用的神经解剖基础之上。",
          "x_post": "【牛津与理化学研究所等发现猕猴具前瞻性元认知，主动挑战正确率达90%】\n人类在行动前评估未来表现的“前瞻性元认知”在演化上是否存在灵长类共性？研究团队设计了点阵博弈实验，结合高精度全脑fMRI扫描与超声干扰，测试猕猴在外部奖励与自我挑战间的抉择。\n数据显示，猕猴主动选择挑战时的正确率达90%，显著高于被迫挑战的45%，证明其能感知自身大脑状态。脑成像揭示了双引擎架构：45a区负责审视自我表现，47/12o区负责评估外部环境。\n该研究发表于《Nature Human Behaviour》，表明人类前额叶外侧前区（alPFC）的元认知整合功能演化自灵长类通用的神经解剖基础。",
          "cover_url": "assets/covers/n92-primate-metacognition-origins-11341900df.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T16:17:14+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N91_Unsupervised_Visual_Learning_Natural_Scenes",
      "slug": "n91-unsupervised-visual-learning-natural-scenes",
      "detail_url": "papers/n91-unsupervised-visual-learning-natural-scenes/",
      "title": "Unsupervised visual learning is revealed for task-irrelevant natural scenes due to reduced attentional suppression effects in visual areas",
      "summary": "This Nature Communications paper reopens the question of unsupervised visual perceptual learning by showing that task-irrelevant natural scenes can produce learning where artificial images do not.\n\nThe proposed mechanism is a timing interaction between higher-order natural-scene statistics and top-down attentional suppression, with slower processing beyond V1 escaping the suppression window.\n\nThe AI relevance is conceptual but strong: it clarifies when unsupervised exposure can shape visual representations and how attention gates learning from irrelevant streams.\n\nFor the repository, this is a selective cognitive-neuroscience inclusion because it connects natural-scene statistics, attention, and unsupervised representation learning.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-18",
      "doi": "10.1038/s41467-026-72918-3",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 982,
      "source_url": "https://www.nature.com/articles/s41467-026-72918-3",
      "paper_url": "https://www.nature.com/articles/s41467-026-72918-3",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "没注意看也能记住？布朗大学等揭秘大脑+10%无意识学习的高阶统计密码",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "unsupervised visual learning is revealed for task irrelevant natural scenes due to reduced attentional suppression effects in visual areas",
          "description": "布朗大学与日本理化学研究所联合研究大脑无监督视觉感知学习领域。传统观点认为学习必须集中注意力，无意识信息会被大脑自动屏蔽。然而研究人员通过高负载实验发现，自然场景中丰富的高阶统计特征由于处理速度较慢，能够巧妙避开大脑的顶端下达式抑制。实验证据表明，在注意力被完全占用的情况下，接触自然场景仍能让受试者获得10%的显著视觉感知提升，而人工噪点图像的提升则为零。这证明了人类大脑拥有在无指令、无奖励下自动吸收现实世界规律的强大学习能力，而其边界则取决于刺激结构与大脑过滤机制之间的时间匹配。",
          "x_post": "布朗大学与日本理化学研究所：高阶统计特征助自然场景突破注意力屏蔽，带来10%无意识视觉学习提升\n传统理论认为无意识的背景信息会被大脑自动屏蔽。研究团队利用高认知负荷的RSVP任务屏蔽受试者注意力，并在背景中呈现不同统计层级的图像。\n实验显示，在注意力被完全占用时，接触富含“高阶统计特征”的自然场景仍能带来10%的显著视觉感知提升（P < 0.005），而人工噪点图像的提升为零。\nfMRI与行为学证据表明，高阶空间和纹理特征因处理速度较慢，得以逃避大脑顶端下达式的注意力抑制，从而实现无监督学习。\n这证实了人类可在无指令、无奖励下自动吸收现实规律，其表达边界取决于刺激结构与大脑过滤机制之间的时间匹配。",
          "cover_url": "assets/covers/n91-unsupervised-visual-learning-natural-scenes-a1534e4886.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T13:15:44+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "IND6_CIPHER_Manufacturing_VLA",
      "slug": "ind6-cipher-manufacturing-vla",
      "detail_url": "papers/ind6-cipher-manufacturing-vla/",
      "title": "Hybrid reasoning for perception, explanation, and autonomous action in manufacturing",
      "summary": "CIPHER 面向制造现场的核心问题：纯数据驱动控制系统在数据稀缺和分布外状态下容易失效，而通用 foundation models 又缺少工程量化精度。\n\n系统把过程专家、视觉/文本输入、检索增强推理和物理知识结合，让 agent 能解释状态、生成精确机器指令，并在多个制造系统中执行自主控制。\n\n它值得正式收录，因为它展示了 VLA/agent 架构进入工业过程控制的可复用模式：领域专家模块负责量化，foundation model 负责语义推理和指令生成。\n\n它没有更高，是因为证据仍集中在特定制造系统；安全认证、实时闭环鲁棒性和跨工厂迁移还需要进一步验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "industrial_process_and_manufacturing_systems",
      "theme_label": "工业过程与制造",
      "published_at": "2026-05-18",
      "doi": "10.1038/s41467-026-72378-9",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 981,
      "source_url": "https://www.nature.com/articles/s41467-026-72378-9_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-72378-9",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO54_MIDAS_Immunotherapy_Targets",
      "slug": "bio54-midas-immunotherapy-targets",
      "detail_url": "papers/bio54-midas-immunotherapy-targets/",
      "title": "Immunotherapy drug target identification using machine learning and patient-derived tumour explant validation",
      "summary": "MIDAS 面向免疫治疗新靶点发现，把基因互作、多组学患者数据、免疫细胞知识、抗原处理、疾病关联和扰动表型整合进多模态图神经网络。\n\n论文报告 MIDAS 能在时间切片数据上泛化，优于 OpenTargets 等基线，并在未见患者中恢复免疫治疗响应相关基因；后续用患者来源肿瘤 explant 验证 OSM-OSMR 信号。\n\n它值得正式收录，因为它把 AI 靶点发现从排序模型推进到可解释、多源数据整合并连接患者来源实验验证的工作流。\n\n它没有更高，是因为它仍聚焦免疫肿瘤靶点发现，跨疾病、跨药物模态和临床转化闭环还需要长期证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-18",
      "doi": "10.1038/s42256-026-01201-3",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 980,
      "source_url": "https://www.nature.com/articles/s42256-026-01201-3.pdf",
      "paper_url": "https://www.nature.com/articles/s42256-026-01201-3",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO53_CoMole_Molecular_GFM",
      "slug": "bio53-comole-molecular-gfm",
      "detail_url": "papers/bio53-comole-molecular-gfm/",
      "title": "Controllable Molecular Generative Foundation Models",
      "summary": "CoMole 针对分子图生成的关键短板：虽然 foundation model 在语言和视觉中成熟，但分子生成缺少统一、可控、跨任务的生成框架。\n\n它用 motif-aware graph diffusion 把预训练结构先验迁移到可控生成中，并用 RL 优化化学上有意义的 reverse-policy 决策，避免 atom-level action space 和无效中间状态带来的困难。\n\n它值得正式收录，因为它把 molecular generative model 推向 foundation-model + controllable RL 的组合，对材料、药物发现和多目标分子设计有工作流价值。\n\n它没有更高，是因为分子生成论文需要湿实验、真实优化闭环和更广泛 property transfer 才能确认长期影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "biology_biomedicine_drug_discovery",
      "theme_label": "生物医药与药物发现",
      "published_at": "2026-05-18",
      "doi": "",
      "arxiv_id": "2605.15354",
      "collected_at": "",
      "collection_order": 979,
      "source_url": "https://arxiv.org/pdf/2605.15354.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15354.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A319_HINT_SD_Long_Horizon_Agent_Distillation",
      "slug": "a319-hint-sd-long-horizon-agent-distillation",
      "detail_url": "papers/a319-hint-sd-long-horizon-agent-distillation/",
      "title": "HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents",
      "summary": "HINT-SD 解决 long-horizon LLM agents 的训练稀疏性问题：最终奖励只告诉任务是否成功，却不说明哪些中间动作导致失败，以及应如何修正。\n\n相比每一轮都生成反馈或固定位置蒸馏，HINT-SD 用完整轨迹 hindsight 选择 failure-relevant actions，只在相关 action spans 上进行 feedback-conditioned distillation。\n\n在 BFCL v3 和 AppWorld 上，该方法比 dense per-turn feedback baseline 有更高收益，同时降低训练步骤时间，说明“选择在哪里蒸馏”对长程 agent 训练很关键。\n\n它值得正式收录，因为它提供了 long-horizon agent training 的 targeted credit/distillation primitive，可与 RL、工具使用和轨迹诊断系统结合。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-18",
      "doi": "",
      "arxiv_id": "2605.17873",
      "collected_at": "",
      "collection_order": 978,
      "source_url": "https://arxiv.org/pdf/2605.17873.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.17873.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.17873"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A305_LongMINT_Agent_Memory_Interference",
      "slug": "a305-longmint-agent-memory-interference",
      "detail_url": "papers/a305-longmint-agent-memory-interference/",
      "title": "LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems",
      "summary": "LongMINT 面向真实 agent 长期运行中的核心问题：记忆不是静态事实检索，而是长期上下文中不断更新、互相干扰、需要多目标聚合推理的动态系统。\n\nBenchmark 覆盖 state tracking、多轮对话、Wikipedia revisions 和 GitHub commits 等场景，包含 15.6k QA pairs，平均上下文约 138.8k tokens，最长到 1.8M tokens。\n\n论文评测 long-context LLM、RAG 和 memory-augmented agent frameworks 等 7 类系统，发现平均准确率只有 27.9%，尤其在多证据聚合和旧事实被后续事实干扰时显著失败。\n\n它值得正式收录，因为它把 agent memory evaluation 从静态 recall 推进到 long-horizon interference 和 evolving memory 的问题定义，能长期作为 memory agent 系统的压力测试接口。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-18",
      "doi": "",
      "arxiv_id": "2605.18565",
      "collected_at": "",
      "collection_order": 977,
      "source_url": "https://arxiv.org/pdf/2605.18565.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.18565.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A300_EnvFactory_Tool_Use_RL",
      "slug": "a300-envfactory-tool-use-rl",
      "detail_url": "papers/a300-envfactory-tool-use-rl/",
      "title": "EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL",
      "summary": "EnvFactory 解决 agentic RL 的核心瓶颈：缺少可扩展、真实、可执行且鲁棒的工具环境，以及能反映隐式人类意图的训练轨迹。\n\n系统从真实资源自动探索和验证 stateful executable tool environments，再通过拓扑采样和校准细化生成自然多轮轨迹，用于 SFT/RL。\n\n它值得正式收录，因为它把环境构造、轨迹合成和工具使用 RL 打通成可复用工厂，降低 agent training 对真实 API 和人工数据的依赖。\n\n它没有更高，是因为当前环境数量、领域覆盖和真实 API 迁移还有限，自动生成环境的安全性也需要持续审计。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-18",
      "doi": "",
      "arxiv_id": "2605.18703",
      "collected_at": "",
      "collection_order": 976,
      "source_url": "https://arxiv.org/pdf/2605.18703.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.18703.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.18703"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A291_SDOF_State_Constrained_Dispatch",
      "slug": "a291-sdof-state-constrained-dispatch",
      "detail_url": "papers/a291-sdof-state-constrained-dispatch/",
      "title": "SDOF: Taming the Alignment Tax in Multi-Agent Orchestration with State-Constrained Dispatch",
      "summary": "SDOF 关注多 agent orchestration 的实际部署问题：LangChain/LangGraph/CrewAI 类图工作流通常能路由任务，但不强制真实业务流程中的 stage constraints。\n\n系统把多 agent 执行建模为受限状态机，结合 intent router、GoalStage finite automaton、SkillRegistry pre/postcondition checks，实现可审计执行控制。\n\n它值得正式收录，因为它把 agent orchestration 从自由路由推进到 governed execution，尤其适合 HR/企业 API 等有强流程约束和注入风险的场景。\n\n它没有更高，是因为当前主要在招聘业务流程和有限对话域验证，通用工作流与开放工具生态还需更多测试。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-18",
      "doi": "",
      "arxiv_id": "2605.15204",
      "collected_at": "",
      "collection_order": 975,
      "source_url": "https://arxiv.org/pdf/2605.15204.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15204.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A290_AIRA_Agentic_Architecture_Discovery",
      "slug": "a290-aira-agentic-architecture-discovery",
      "detail_url": "papers/a290-aira-agentic-architecture-discovery/",
      "title": "Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design",
      "summary": "AIRA 把 agentic AI 用到模型架构发现本身：AIRA-Compose 让多个 agent 在固定预算内探索基础计算原语和架构组合，AIRA-Design 则让 agent 设计低层 attention 机制和训练脚本。\n\n论文报告 agent 发现的 AIRAformer 与 AIRAhybrid 在 1B 规模上超过 Llama 3.2 和 Composer 基线，并展现更高效的 scaling frontier。它不是手工架构微调，而是用 agents 进行可迭代架构搜索。\n\n它值得正式收录，因为它直接触及 AI self-improvement 的核心问题：AI 系统能否发现下一代模型结构，而不只是调 prompt 或训练 recipe。\n\n它没有更高，是因为结果仍需独立复现，并且架构搜索成本、评估泄漏和更大规模稳定性还没有被充分验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-18",
      "doi": "",
      "arxiv_id": "2605.15871",
      "collected_at": "",
      "collection_order": 974,
      "source_url": "https://arxiv.org/pdf/2605.15871.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15871.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.15871"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "Meta发布AIRA双框架，让AI在24小时内自主演化出超越人类直觉的新架构",
          "url": "https://www.bilibili.com/video/BV1qzGe6oEA3",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1qzGe6oEA3",
            "https://youtu.be/Bl1fBop1qAU"
          ],
          "main_collection": "AI递归自我进化",
          "match": "agentic discovery of neural architectures aira compose and aira design",
          "description": "Meta FAIR团队在AI自主设计领域取得突破。针对人类依靠直觉设计Transformer等架构时面临的算力瓶颈与组合爆炸问题，他们推出了AIRA双框架。其中，AIRA-Compose负责在宏观上组合注意力机制与Mamba等计算基元，AIRA-Design则在微观上直接编写底层代码。在24小时固定算力预算内，该系统通过自主试错，演化出AIRAformer等14种非对称网络架构。实验表明，其在性能和扩展性上超越了Llama 3.2等主流基准并成功外推至30亿参数规模。这实现了更高效的模型设计，标志着AI已具备自主端到端科研的初步能力。",
          "x_post": "Meta FAIR发布AIRA框架，24小时内自主设计出可外推至30亿参数的神经网络架构。\n面对混合架构设计中千万级模块组合的探索瓶颈，传统依赖人类直觉的拼接方式难以穷举最优解。\n对此，AIRA采用AIRA-Compose宏观搜索与AIRA-Design微观底层代码编写，通过AIRA-dojo闭环在16层空间（超4300万种组合）中自主演化。\n在24小时固定算力预算内，系统成功发现AIRAformer等14种非对称架构，其在性能和扩展性上超越了Llama 3.2等主流基准，并外推至30亿参数规模。\n该成果验证了AI在约束条件下自主执行端到端科研循环的可行性，为基础模型的自动化设计提供了新路径。",
          "cover_url": "assets/covers/a290-aira-agentic-architecture-discovery-66eb0ec95e.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-21T16:08:43+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "IND7_Self_Improving_CAD_Agents_FEA",
      "slug": "ind7-self-improving-cad-agents-fea",
      "detail_url": "papers/ind7-self-improving-cad-agents-fea/",
      "title": "Self-Improving CAD Generation Agents with Finite Element Analysis as Feedback",
      "summary": "这篇论文把 CAD generation 从外观几何生成推进到更接近工程实践的任务：从 free-form engineering brief 生成完整 assembled multi-part STEP file，并接受 finite element analysis 检验。\n\n作者指出现有 learned CAD generators 多把 part synthesis 和 assembly 拆开处理，评价也偏 reference proximity；而真实工程需要迭代、结构约束、装配关系和物理性能验证。\n\n论文加入 text-only blueprint schema、21-view renderer 和 FEA feedback，让 agent 能像工程师一样检查和修正设计；在 S2O 和 Fusion360 任务中，这些反馈提升了几何重建和工程一致性。\n\n它值得正式收录，因为它符合仓库扩展的 CAD/工业设计工作流方向：AI 不只是画零件，而是进入工程验证驱动的硬件设计迭代闭环。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "industrial_process_and_manufacturing_systems",
      "theme_label": "工业过程与制造",
      "published_at": "2026-05-17",
      "doi": "",
      "arxiv_id": "2605.17448",
      "collected_at": "",
      "collection_order": 973,
      "source_url": "https://arxiv.org/pdf/2605.17448.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.17448.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.17448"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SYS14_CompactAttention_Chunked_Prefill",
      "slug": "sys14-compactattention-chunked-prefill",
      "detail_url": "papers/sys14-compactattention-chunked-prefill/",
      "title": "CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection",
      "summary": "CompactAttention 针对长上下文 LLM serving 里的真实瓶颈：chunked prefill 已经常用，但很多稀疏注意力方法仍假设 one-shot prefill，到了小 query chunk + 长 KV cache 的实际场景会失去 kernel 效率或反复承担 pattern search 成本。\n\n论文的关键机制是 Block-Union KV Selection：不把 2D block-sparse mask 直接当作 sparse kernel 的执行计划，而是把它转成 KV selection signal，再通过 Q-block union 和 intra-group union 构造 GQA-aware per-group KV block tables。\n\n这个设计的系统价值在于适配 paged execution 约束，让被选中的 KV blocks 可以原地访问，避免 QUOKA 式显式 KV copy/compaction，同时用 dense FlashAttention 类 kernel 吃到更高吞吐。\n\n它值得正式收录，因为它给长上下文推理系统提供了可复用 primitive：把稀疏注意力的选择模式和实际 kernel 执行解耦，在 chunked prefill serving 中用 block-table 接口桥接稀疏内存访问与 dense-kernel 计算效率。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "systems_hardware_and_codesign",
      "theme_label": "系统、硬件与协同设计",
      "published_at": "2026-05-16",
      "doi": "",
      "arxiv_id": "2605.16839",
      "collected_at": "",
      "collection_order": 972,
      "source_url": "https://arxiv.org/pdf/2605.16839.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.16839.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/jiwonsong-dev/CompactAttention"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R77_RTPurbo_Sparse_Attention_Transfer",
      "slug": "r77-rtpurbo-sparse-attention-transfer",
      "detail_url": "papers/r77-rtpurbo-sparse-attention-transfer/",
      "title": "Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps",
      "summary": "这篇论文重新审视长上下文推理的 sparse attention 路径：不从头训练原生稀疏模型，也不只做启发式 token eviction，而是利用 full-attention 模型已经存在的内在稀疏性。\n\n方法识别少量真正需要完整长上下文处理的 retrieval heads，并用低维 token indexer 做相关 token 检索，同时采用 query-dependent dynamic top-p token budget。\n\nRTPurbo 只需数百步适配即可把 full attention 转成高稀疏推理，在长上下文 benchmark 和 reasoning tasks 上保持近似无损，同时报告 1M context 下显著 prefill/decode 加速。\n\n它值得正式收录，因为它提供了从已训练 full-attention 模型迁移到 sparse long-context inference 的低成本路径，影响长上下文 agent、RAG 和推理系统部署成本。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-16",
      "doi": "",
      "arxiv_id": "2605.16928",
      "collected_at": "",
      "collection_order": 971,
      "source_url": "https://arxiv.org/pdf/2605.16928.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.16928.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.16928"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A318_MemForest_Agent_Memory_Temporal_Index",
      "slug": "a318-memforest-agent-memory-temporal-index",
      "detail_url": "papers/a318-memforest-agent-memory-temporal-index/",
      "title": "MemForest: An Efficient Agent Memory System with Hierarchical Temporal Indexing",
      "summary": "MemForest 关注 agent memory 的工程瓶颈：长程 agent 需要持续 serve-and-update memory，但许多系统把更新和 LLM 推理紧耦合，并依赖全局摘要重写，导致延迟和维护成本随记忆增长恶化。\n\n论文把 agent memory 重写为 write-efficient temporal data management 问题，用 parallel chunk extraction 打破顺序更新瓶颈。\n\nMemTree 以 hierarchical temporal index 组织记忆，把 flat global summaries 变成 time-ordered trees，并将更新限制在受影响的路径上，自然保留时间演化状态。\n\n它值得正式收录，因为它为长期 agent memory 提供了数据结构和并行更新 primitive，比单纯语义检索或经验摘要更接近可部署 memory runtime。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-16",
      "doi": "",
      "arxiv_id": "2605.23986",
      "collected_at": "",
      "collection_order": 970,
      "source_url": "https://arxiv.org/pdf/2605.23986.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.23986.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.23986"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL76_NudgeRL_Strategy_Exploration",
      "slug": "rl76-nudgerl-strategy-exploration",
      "detail_url": "papers/rl76-nudgerl-strategy-exploration/",
      "title": "Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR",
      "summary": "NudgeRL 处理 RLVR 的核心瓶颈：模型只能从已经采样到的轨迹中学习，简单增加 rollout 数量成本高且探索方向不可控。\n\n它用 Strategy Nudging 给每次 rollout 加入轻量策略上下文，引导多样化推理轨迹；再用统一目标分解 inter-context 和 intra-context reward，并把发现的行为蒸馏回 base policy。\n\n它值得正式收录，因为 reasoning RL 的下一步不是只堆 rollout，而是让探索变得结构化、可控、可迁移。\n\n它没有更高，是因为策略上下文设计、不同任务族的泛化和大模型训练稳定性还需要更多验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-05-15",
      "doi": "",
      "arxiv_id": "2605.15726",
      "collected_at": "",
      "collection_order": 969,
      "source_url": "https://arxiv.org/pdf/2605.15726.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15726.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.15726"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N97_Marmoset_3D_Position_Codes",
      "slug": "n97-marmoset-3d-position-codes",
      "detail_url": "papers/n97-marmoset-3d-position-codes/",
      "title": "Distributed neural codes of the 3D position in the marmoset frontal cortex and hippocampus",
      "summary": "这篇 Nature Communications 论文研究灵长类大脑如何编码三维空间位置。作者结合狨猴无线多通道记录与 3D 自由觅食任务，在更接近自然行为的三维空间中同时观察 frontal cortex 和 hippocampus 的位置编码。\n\n核心发现是，额叶皮层和海马都存在大量 3D place cells：约 42% FC 神经元和 24% HPC 神经元表现出位置调谐。两类脑区的位置细胞在 spatial information、sparsity 和 stability 上相近，并且 place cells 之间的功能连接强于 non-place cells。\n\n更关键的是，位置场倾向分布在三维空间的中心和边界，并可由模拟 FC-HPC network 的 RNN-AutoEncoder 重现。这把 3D 空间认知从单一海马地图扩展为额叶-海马分布式网络问题，也给出一个可计算模型接口。\n\n它值得正式收录，因为 embodied AI 和机器人导航需要能在 3D 环境中形成稳定、稀疏、可泛化的空间表征；这篇提供了灵长类分布式 3D position code 和 recurrent network 解释，对空间记忆、世界模型、导航表示和 NeuroAI 具备明确概念外溢价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-15",
      "doi": "10.1038/s41467-026-73263-1",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 968,
      "source_url": "https://www.nature.com/articles/s41467-026-73263-1_reference.pdf",
      "paper_url": "https://doi.org/10.1038/s41467-026-73263-1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N89_Gain_Adaptive_Efficient_Coding",
      "slug": "n89-gain-adaptive-efficient-coding",
      "detail_url": "papers/n89-gain-adaptive-efficient-coding/",
      "title": "Fast efficient coding and sensory adaptation in gain-adaptive recurrent networks",
      "summary": "This Nature Communications paper proposes a gain-adaptive recurrent sensory network that reconciles fast sensory adaptation with efficient-coding theory.\n\nThe model balances representational accuracy and spiking cost through gain modulation, producing adaptive tuning behavior without requiring slow synaptic rewiring.\n\nIt is relevant to AI because it gives a mechanistic account of rapid context-sensitive representation adjustment in recurrent networks, a useful conceptual primitive for adaptive perception systems.\n\nFor the neuroscience track, it clears the bar by linking a brain coding principle to a computational network model with direct representational-learning spillover.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-15",
      "doi": "10.1038/s41467-026-73032-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 967,
      "source_url": "https://www.nature.com/articles/s41467-026-73032-0",
      "paper_url": "https://www.nature.com/articles/s41467-026-73032-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "哈佛等揭秘大脑如何在毫秒级瞬时自适应，发布增益自适应循环网络",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "fast efficient coding and sensory adaptation in gain adaptive recurrent networks",
          "description": "由哈佛大学、苏黎世大学及慕尼黑工业大学等团队在计算神经科学领域取得新突破。针对大脑如何在几十毫秒内快速适应环境变化这一“世纪矛盾”（即先验吸引与适配器排斥共存），研究者提出了一种“增益自适应循环网络”模型。该模型核心在于模拟大脑通过调节神经元“音量旋钮”（即增益大小）而非物理重新连接突触，来实现超快速的网络形变。实验与仿真证明，系统仅凭此机制即可在毫秒级内动态优化感知表征，平衡了解码准确性与放电能效成本。这为理解生物大脑的高效编码机制提供了统一的计算框架。",
          "x_post": "哈佛与苏黎世大学等提出增益自适应循环网络，实现毫秒级动态感知编码\n大脑如何在数十毫秒内快速适应环境变化并平衡“先验吸引”与“适配排斥”，是计算神经科学的长期难题。传统突触物理重塑因耗时较长难以解释这一极速过程。\n对此，哈佛大学、苏黎世大学和慕尼黑工业大学团队提出“增益自适应循环网络”模型。其核心在于保持突触物理连接固定，仅通过毫秒级动态调节神经元增益（即信号放大倍数）来实现网络快速形变。\n仿真实验（采用801个神经元规模、0.01时间常数、0.95连接强度与0.5尖峰成本系数）证实，该机制能精准模拟适配排斥中的反应曲线形变。这表明大脑无需重组硬件，仅凭增益调制即可优化感知表征并平衡解码精度与放电能耗成本。",
          "cover_url": "assets/covers/n89-gain-adaptive-efficient-coding-8049f3d629.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T07:10:21+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "G18_WorldAct_Interactive_3D_Worlds",
      "slug": "g18-worldact-interactive-3d-worlds",
      "detail_url": "papers/g18-worldact-interactive-3d-worlds/",
      "title": "WorldAct: Activating Monolithic 3D Worlds into Interactive-Ready Object-Centric Scenes",
      "summary": "WorldAct 针对当前 3D world generation 的重要缺口：生成世界往往是静态 monolithic asset，难以编辑、碰撞、操作或用于 embodied simulation。\n\n它用 multimodal agent 指导场景分解、识别可行动对象、重建几何对齐的 object-level meshes，并用 3D inpainting 恢复背景。\n\n它值得正式收录，因为 world generation 要服务机器人和交互式内容，必须从可观看场景转向可编辑、可操作、可执行的 object-centric worlds。\n\n它没有更高，是因为交互物理真实性、复杂任务执行和与真实机器人策略的结合还需要后续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-15",
      "doi": "",
      "arxiv_id": "2605.15843",
      "collected_at": "",
      "collection_order": 966,
      "source_url": "https://arxiv.org/pdf/2605.15843.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15843.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.15843"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G12_SANA_WM_Minute_World_Model",
      "slug": "g12-sana-wm-minute-world-model",
      "detail_url": "papers/g12-sana-wm-minute-world-model/",
      "title": "SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer",
      "summary": "SANA-WM 是 NVIDIA 发布的 2.6B 开源世界模型，目标是高效生成 60 秒、720p、相机轨迹可控的视频世界。\n\n系统组合高压缩视频 tokenizer、Hybrid Linear Diffusion Transformer、frame-wise Gated DeltaNet 与 softmax attention、dual-branch 6-DoF camera control、两阶段视觉 refinement 和 public video pose annotation pipeline。\n\n它值得正式收录，因为它把世界模型从短视频 demo 推向 minute-scale action-controllable generation，并强调可访问训练/推理成本：64 H100 训练、单 GPU 推理和量化后单 5090 部署。\n\n它没有更高，是因为当前 action space 主要是相机控制，离完整 embodied action/world dynamics 仍有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-15",
      "doi": "",
      "arxiv_id": "2605.15178",
      "collected_at": "",
      "collection_order": 965,
      "source_url": "https://arxiv.org/pdf/2605.15178.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15178.pdf",
      "project_urls": [
        "https://nvlabs.github.io/Sana/WM/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.15178",
        "https://github.com/NVlabs/Sana"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C16_ML_Guided_NIR_Phosphors",
      "slug": "c16-ml-guided-nir-phosphors",
      "detail_url": "papers/c16-ml-guided-nir-phosphors/",
      "title": "Machine-learning guided engineering of Mo4+ activated halide near-infrared phosphors for AI-augmented medical imaging",
      "summary": "这篇 Nature Communications 论文把机器学习引入近红外荧光材料工程，用于 Mo4+ activated halide phosphors 的设计和筛选，并面向 AI-augmented medical imaging。\n\n它的价值不在单个材料性能，而在材料发现链条：通过 ML-guided engineering 缩小候选空间、指导组成/结构选择，并把材料设计与下游成像任务联动。\n\n它值得正式收录，因为它符合仓库 AI for materials / AI for biomedicine 的选择标准：AI 不是表面预测器，而是参与材料设计和医学成像器件工作流。\n\n它没有更高，是因为目前证据主要集中在一个材料族和一个应用方向；是否能形成更通用的 phosphor / imaging materials discovery platform 还需后续研究。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-15",
      "doi": "10.1038/s41467-026-73105-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 964,
      "source_url": "https://www.nature.com/articles/s41467-026-73105-0",
      "paper_url": "https://www.nature.com/articles/s41467-026-73105-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "广西大学等用AI打造医学透视眼材料，10秒常温合成打破近红外发光极限",
          "url": "https://www.bilibili.com/video/BV1d2Gs6cEgG",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1d2Gs6cEgG",
            "https://youtu.be/1NgwBTxOcfc"
          ],
          "main_collection": "AI化学与材料",
          "match": "machine learning guided engineering of mo4 activated halide near infrared phosphors for ai augmented medical imaging",
          "description": "广西大学与华南理工大学团队在无铅近红外发光材料及医学影像领域取得重要突破。传统近红外发光材料面临千度高温烧结、含毒性及发光效率低等瓶颈，难以用于深层医学成像。为此，研究团队引入机器学习范式，利用算法模型在复杂化学参数空间中精准锁定最优配方。该材料不仅将能量传递效率提升至64%，更实现了10秒常温极速合成，单批次量产达14克。实验表明，该材料在大于900纳米波段创下92.4%的内部量子效率纪录，结合AI重建算法成功实现超11厘米深度的超高分辨率血管成像。该成果为材料智能设计提供了新范式，也为生物医疗无创透视带来更深、更准的新可能。",
          "x_post": "广西大学与华南理工大学团队利用AI研发出10秒常温合成、PLQY达92.4%的无铅近红外发光材料\n传统近红外第二窗口（NIR-II）成像材料受限于千度高温烧结、毒性及低发光效率，难以应用于深层无创医学成像。\n对此，研究团队利用Transformer模型预测最优掺杂配比，通过Sb³⁺构筑能量桥梁，将能量传递效率由33.1%提升至64%。\n实验表明，该材料可在常温下10秒极速合成，在>900 nm波段展现出92.4%的内部量子效率与65.9%的外部量子效率。\n结合AI图像重建算法，该光源成功实现了超过11厘米深度的无创高分辨率人体血管成像，为智能视觉与生物医疗透视提供了新范式。",
          "cover_url": "assets/covers/c16-ml-guided-nir-phosphors-78805c8af6.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T07:25:53+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO52_HESpotEx_Spatial_Transcriptomics",
      "slug": "bio52-hespotex-spatial-transcriptomics",
      "detail_url": "papers/bio52-hespotex-spatial-transcriptomics/",
      "title": "HESpotEx: a dual-stream deep learning framework for spot-level gene expression prediction from histological images",
      "summary": "这篇 Nature Computational Science 论文提出 HESpotEx，用全切片 H&E 病理图像预测 spatial transcriptomics 的 spot-level gene expression。它面向的是 ST 成本高、难以规模化的问题。\n\n系统结合 graph attention autoencoder、image encoder 和 graph convolution decoder，可从 WSI 预测多达 5,457 个基因在空间采样点上的表达，并在多种癌症和非癌样本、TCGA 大规模 WSI 与高分辨率 ST 数据上验证。\n\n它值得正式收录，因为它把病理图像转成空间分子表型的可复用深度学习工作流，直接改变数字病理、空间组学和精准肿瘤分析的实验/计算链条。\n\n它没有更高，是因为仍属于特定生物医学模态的强方法；跨中心、跨染色、临床实时决策和湿实验闭环价值还需要更多外部验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-15",
      "doi": "10.1038/s43588-026-00992-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 963,
      "source_url": "https://www.nature.com/articles/s43588-026-00992-0",
      "paper_url": "https://www.nature.com/articles/s43588-026-00992-0",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/wwYinYin/HESpotEx"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "北大让几美元病理切片“算出”千元基因图，发布HESpotEx",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "hespotex a dual stream deep learning framework for spot level gene expression prediction from histological images",
          "description": "北京大学团队在计算病理学领域取得突破，发布双流深度学习框架HESpotEx。针对空间转录组测序成本高昂、难以临床普及的痛点，该算法结合图注意力自编码器与百万级病理预训练大模型，仅凭几美元的普通H&E病理切片，即可端到端直接预测超5400种基因的空间表达热点图。实验表明，HESpotEx在外部验证集上的预测准确度提升达140%，且兼容高分辨率单细胞平台。该成果大幅降低了基因测序的资金和时间成本，为肿瘤异质性研究和临床预后诊断提供了更省、更准的计算方案。",
          "x_post": "北京大学团队发表HESpotEx框架，凭普通病理切片预测超5400种基因空间表达，外部验证准确度提升140%\n【背景】空间转录组测序成本高昂，限制了高分辨率分子图谱在临床诊断中的普及。\n【方法】HESpotEx采用双流深度学习架构，融合GATE图注意力自编码器与Quilt-Net视觉引擎实现特征对齐，并引入细胞核物理计数校准AI预测结果。\n【数据】模型可端到端预测5457种基因空间表达。在乳腺癌与皮肤鳞癌内部测试中PCC分别达0.92和0.90；在严苛的外部验证集中，PCC较此前算法提升140%（由0.10升至0.24），且兼容单细胞分辨率平台。\n【结论】该成果大幅降低了空间转录组学研究的资金壁垒，已在TCGA千人队列中完成临床预后验证，其泛化边界仍需在更广泛的非癌病变组织中进一步探索。",
          "cover_url": "assets/covers/bio52-hespotex-spatial-transcriptomics-e490cba1a5.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T12:35:02+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T38_HarnessAudit_Agent_Safety",
      "slug": "t38-harnessaudit-agent-safety",
      "detail_url": "papers/t38-harnessaudit-agent-safety/",
      "title": "Auditing Agent Harness Safety",
      "summary": "HarnessAudit 指出一个常被忽略的安全问题：agent 最终输出正确并不代表执行轨迹安全，工具访问、资源分配和 agent 间信息流可能已经违规。\n\n框架审计完整执行轨迹，覆盖 boundary compliance、execution fidelity 和 system stability，并构建 8 个真实领域、210 个任务的 HarnessAudit-Bench。\n\n它值得正式收录，因为 agent safety 需要从输出安全转向 harness-level 轨迹审计，尤其多 agent 系统的权限边界和信息流风险会随轨迹长度累积。\n\n它没有更高，是因为当前还是 benchmark/audit 框架，和主流 agent runtime 的自动修复、权限系统集成还需要继续推进。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "safety_governance_and_reliability",
      "theme_label": "安全、治理与可靠性",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.14271",
      "collected_at": "",
      "collection_order": 962,
      "source_url": "https://arxiv.org/pdf/2605.14271.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.14271.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.14271"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S79_LiSA_Lifelong_Safety_Adaptation",
      "slug": "s79-lisa-lifelong-safety-adaptation",
      "detail_url": "papers/s79-lisa-lifelong-safety-adaptation/",
      "title": "LiSA: Lifelong Safety Adaptation via Conservative Policy Induction",
      "summary": "LiSA 针对 agent guardrails 的部署难题：工具调用、私有数据读取和多步工作流中的安全规则高度依赖本地政策、组织规范和用户期待。\n\n它不反复微调 base guardrail，而是把稀疏失败报告归纳成可复用 policy abstractions，用 conflict-aware local rules 防止过度泛化，并用 evidence-aware confidence 控制更新。\n\n它值得正式收录，因为安全系统需要 lifelong adaptation；LiSA 把 guardrail 从静态规则推进到保守、可记忆、可局部适应的安全层。\n\n它没有更高，是因为真实部署反馈往往带偏差、延迟和低覆盖，policy induction 的长期安全性还需更多实证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "safety_governance_and_reliability",
      "theme_label": "安全、治理与可靠性",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.14454",
      "collected_at": "",
      "collection_order": 961,
      "source_url": "https://arxiv.org/pdf/2605.14454.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.14454.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.14454"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL78_PhysBrain_Physical_Commonsense",
      "slug": "rl78-physbrain-physical-commonsense",
      "detail_url": "papers/rl78-physbrain-physical-commonsense/",
      "title": "PhysBrain 1.0 Technical Report",
      "summary": "PhysBrain 1.0 研究从人类第一视角视频中提取物理常识，再迁移到机器人 VLA 策略，而不是只依赖昂贵机器人轨迹。\n\n数据引擎抽取场景元素、空间动态、动作执行和深度关系，转成问答监督训练 PhysBrain VLM，并通过保能力和语言敏感的适配设计迁移到 VLA policy。\n\n它值得正式收录，因为它为 embodied AI 提供了一条从大规模人类交互视频到机器人行动的物理 commonsense 桥接路径。\n\n它没有更高，是因为 technical report 需要更多独立复现，且视频抽取监督的噪声、偏差和真实机器人迁移成本仍需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.15298",
      "collected_at": "",
      "collection_order": 960,
      "source_url": "https://arxiv.org/pdf/2605.15298.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15298.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.15298"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL72_FrameSkip_VLA",
      "slug": "rl72-frameskip-vla",
      "detail_url": "papers/rl72-frameskip-vla/",
      "title": "FrameSkip: Learning from Fewer but More Informative Frames in VLA Training",
      "summary": "FrameSkip 关注 VLA 训练数据层面的 temporal supervision imbalance：机器人轨迹中许多帧信息量低，但标准训练同等使用所有帧，浪费训练预算并稀释关键动作变化。\n\n它用 action variation、visual-action coherence、task progress 和 gripper-transition preservation 估计帧重要性，并按比例保留更有监督价值的帧，是 architecture-agnostic 的数据层方法。\n\n它值得正式收录，因为它提供了 VLA 训练效率和数据选择的可复用 primitive，不依赖特定模型结构，适合大规模机器人数据清洗和训练。\n\n它没有更高，是因为它更像强工程 primitive，而不是完整新 VLA 范式；效果边界仍受任务分布和重要性指标质量影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.13757",
      "collected_at": "",
      "collection_order": 959,
      "source_url": "https://arxiv.org/pdf/2605.13757.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.13757.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.13757"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL71_IntentVLA_Aliased_Manipulation",
      "slug": "rl71-intentvla-aliased-manipulation",
      "detail_url": "papers/rl71-intentvla-aliased-manipulation/",
      "title": "IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation",
      "summary": "IntentVLA 研究 VLA 操作中的 partial observability：相似当前画面可能来自不同任务阶段或短期意图，frame-conditioned chunk policies 会在相邻 replanning steps 重新采样不同 intent，导致执行不稳定。\n\n方法用最近视觉历史编码 compact short-horizon intent representation，并将其作为 action chunk generation 的条件；同时提出 AliasBench，专门评估短时观察混叠下的机器人操作。\n\n它值得正式收录，因为它把 VLA 的失败模式从简单感知误差细化为 short-horizon intent inconsistency，并给出训练框架和 benchmark。\n\n它没有更高，是因为主要验证在仿真和现有 manipulation benchmarks；真实机器人、多模态传感和长程任务下仍需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.14712",
      "collected_at": "",
      "collection_order": 958,
      "source_url": "https://arxiv.org/pdf/2605.14712.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.14712.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.14712"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "PH3_Multimodal_AMIE_Diagnostic_AI",
      "slug": "ph3-multimodal-amie-diagnostic-ai",
      "detail_url": "papers/ph3-multimodal-amie-diagnostic-ai/",
      "title": "Advancing conversational diagnostic AI with multimodal reasoning",
      "summary": "这篇 Nature Medicine 论文来自 Google/DeepMind 医疗 AI 路线，提出 multimodal AMIE：在诊断对话中主动获取、解释并推理患者历史、皮肤照片、心电图和临床文档等多模态信息。\n\n方法重点是 state-aware dialogue framework：系统根据诊断不确定性和患者状态动态调整问诊策略，而不是把多模态输入当作一次性附件分类。105 个模拟远程医疗咨询中，18 位专科医生盲评显示其在诊断准确性和对话质量上显著优于 PCP。\n\n它值得正式收录，因为它把医疗 LLM 从文本问答推进到真实远程医疗所需的 multimodal clinical conversation workflow，是 AI 改造医疗工作流的高信号系统论文。\n\n它没有更高，是因为证据仍来自模拟 telehealth 和 exploratory study；真实临床部署、安全边界、责任划分和罕见高风险病例表现仍需前瞻性验证。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "high_value_real_world_workflows",
      "theme_label": "高价值现实工作流",
      "published_at": "2026-05-14",
      "doi": "10.1038/s41591-026-04371-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 957,
      "source_url": "https://www.nature.com/articles/s41591-026-04371-0.pdf",
      "paper_url": "https://www.nature.com/articles/s41591-026-04371-0.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "看图问诊超越19位全科医生，Google DeepMind发布多模态AMIE实现状态感知推理",
          "url": "https://www.bilibili.com/video/BV1pVLW61E36",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1pVLW61E36",
            "https://youtu.be/BoQkmRk4DIE"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "advancing conversational diagnostic ai with multimodal reasoning",
          "description": "Google DeepMind联合Google Research在医疗人工智能领域取得突破。传统医疗AI严重依赖患者文本描述，无法直接识别皮肤照片、心电图等客观视觉信息，易造成漏诊。对此，团队推出多模态AMIE模型，引入“状态感知推理”框架，能主动向患者索取并解析多模态证据，前台进行温和的同理心对话，后台实时推演诊断概率。在105个疑难病例的双盲对照测试中，AMIE在诊断准确率与沟通质量上均超越了19位人类全科医生。该研究发表于《自然医学》，标志着AI在辅助复杂临床决策和缓解全球医疗资源压力方面迈出关键一步。",
          "x_post": "Google DeepMind联合Google Research推出多模态医学模型AMIE，在105例双盲测试中诊断准确率超越19位全科医生。\n传统医疗AI严重依赖文本输入，难以直接解析皮肤照片、心电图等关键临床视觉信息，易造成漏诊误诊。\n该团队提出“状态感知推理”框架，使多模态AMIE能在前台开展同理心对话的同时，后台实时推演鉴别诊断（DDx）概率，实现主动索取并解析多模态证据。\n在涵盖105个疑难病例的客观结构化临床考试（OSCE）双盲测试中，18位专科医生评估显示，AMIE的诊断准确率与沟通质量均优于19位真实全科医生。\n该研究发表于《Nature Medicine》，展示了多模态对话AI在辅助临床决策和缓解全球医疗资源压力方面的应用潜力。",
          "cover_url": "assets/covers/ph3-multimodal-amie-diagnostic-ai-fbae68ddd5.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-20T18:07:18+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N86_NeuroAtlas_EEG_BCI_Benchmark",
      "slug": "n86-neuroatlas-eeg-bci-benchmark",
      "detail_url": "papers/n86-neuroatlas-eeg-bci-benchmark/",
      "title": "NeuroAtlas: Benchmarking Foundation Models for Clinical EEG and Brain-Computer Interfaces",
      "summary": "NeuroAtlas evaluates EEG foundation models across a large collection of clinical EEG and BCI datasets, covering epilepsy, sleep, brain-age estimation, and interface tasks.\n\nThe paper argues that generic benchmark metrics are insufficient for clinical utility and introduces task-specific measures such as event-level decisions, hypnogram-derived features, and brain-age gap analyses.\n\nA key finding is skeptical and useful: EEG-specific foundation models do not consistently dominate generic time-series foundation models, and model rankings vary across domains.\n\nFor the collection, NeuroAtlas is valuable as a benchmark and evaluation-interface paper that prevents premature claims about unified EEG foundation models.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.14698",
      "collected_at": "",
      "collection_order": 956,
      "source_url": "https://arxiv.org/pdf/2605.14698.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.14698.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G17_CLVR_Closed_Loop_Visual_Reasoning",
      "slug": "g17-clvr-closed-loop-visual-reasoning",
      "detail_url": "papers/g17-clvr-closed-loop-visual-reasoning/",
      "title": "Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning",
      "summary": "这篇论文把复杂视觉生成从单步 prompt-to-image 推向闭环、可验证的多步推理生成。CLVR 将视觉语言规划、像素级扩散生成和 step-level verification 串成一个闭环。\n\n方法上，它用自动数据引擎生成带验证的推理轨迹，用 Proxy Prompt RL 解决长上下文优化与因果归因问题，并用权重合并降低多步生成延迟。\n\n它值得正式收录，因为多模态生成正在从纯采样模型转向 reasoning + verification + generation 的系统范式；CLVR 是这种方向的高信号实例。\n\n它没有更高，是因为复杂视觉生成的闭环推理很容易依赖特定任务和评估协议，是否能推广到视频、3D 和真实交互生成仍需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.14876",
      "collected_at": "",
      "collection_order": 955,
      "source_url": "https://arxiv.org/pdf/2605.14876.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.14876.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.14876"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G13_Causal_Forcing_PlusPlus",
      "slug": "g13-causal-forcing-plusplus",
      "detail_url": "papers/g13-causal-forcing-plusplus/",
      "title": "Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation",
      "summary": "Causal Forcing++ 针对 real-time interactive video generation 的低延迟瓶颈，把 autoregressive diffusion distillation 推到 frame-wise 1-2 sampling steps。\n\n论文指出 few-step AR student initialization 是关键瓶颈，提出 causal consistency distillation，用单个 online teacher ODE step 学习 AR-conditional flow map，避免预计算完整 PF-ODE trajectories。\n\n它值得正式收录，因为它为交互式视频/世界模型提供了更低延迟的可复用蒸馏流程，并把 first-frame latency 降低约 50%、Stage 2 训练成本降到约四分之一。\n\n它没有更高，是因为它仍依赖特定 AR diffusion pipeline；真实交互世界模型中的长期一致性和控制复杂度仍需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.15141",
      "collected_at": "",
      "collection_order": 954,
      "source_url": "https://arxiv.org/pdf/2605.15141.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15141.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.15141",
        "https://github.com/thu-ml/Causal-Forcing",
        "https://github.com/shengshu-ai/minWM"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G10_Asymmetric_Flow_Models",
      "slug": "g10-asymmetric-flow-models",
      "detail_url": "papers/g10-asymmetric-flow-models/",
      "title": "Asymmetric Flow Models",
      "summary": "AsymFlow 处理的是高维 flow / diffusion 生成里的结构性瓶颈：在 pixel space 预测 full-dimensional velocity 时，模型必须处理高维噪声，plain transformer 的内部表示容易被噪声维度压垮。\n\n论文提出 rank-asymmetric velocity parameterization：数据分量保持全维，噪声分量限制在低秩子空间，再解析恢复全维 velocity，不需要改变网络架构、训练流程或采样流程。这个参数化还给出从 pretrained latent flow model lift 到 pixel-space model 的路径。\n\n它值得正式收录，因为它不是单纯刷 FID，而是给高维生成提供了一个干净的可复用目标参数化，并首次展示把大规模 latent flow 模型 finetune 成强 pixel-space flow model 的实用路线。ImageNet 256x256 的 1.57 FID 和 FLUX.2 klein 9B pixel-space finetuning 结果说明其系统价值较强。\n\n它没有更高，是因为 pixel-space 大模型路线是否会成为主流仍取决于训练成本、开源复现、视频/3D 扩展和与 latent/RAE 路线的长期比较。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.12964",
      "collected_at": "",
      "collection_order": 953,
      "source_url": "https://arxiv.org/pdf/2605.12964.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.12964.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.12964"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A309_Grep_Agentic_Search",
      "slug": "a309-grep-agentic-search",
      "detail_url": "papers/a309-grep-agentic-search/",
      "title": "Is Grep All You Need? How Agent Harnesses Reshape Agentic Search",
      "summary": "This paper studies retrieval inside agent loops rather than retrieval as an isolated offline component, comparing grep and vector retrieval across different agent harnesses and result-delivery modes.\n\nThe key finding is that retrieval performance depends strongly on orchestration: whether results are inline, file-based, or mediated by a specific CLI/harness can change which retrieval strategy wins.\n\nThe work is valuable because it turns a common engineering assumption into an empirical systems question: agentic search quality is a joint property of retriever, harness, tool interface, and context consumption path.\n\nFor agent engineering, it provides a useful evaluation caution and a strong baseline argument: simple lexical search can dominate when the harness exposes evidence in a form the model can actually use.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.15184",
      "collected_at": "",
      "collection_order": 952,
      "source_url": "https://arxiv.org/pdf/2605.15184.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15184.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A292_MMSkills_Visual_Agents",
      "slug": "a292-mmskills-visual-agents",
      "detail_url": "papers/a292-mmskills-visual-agents/",
      "title": "MMSkills: Towards Multimodal Skills for General Visual Agents",
      "summary": "MMSkills 指出 visual agents 的技能不能只是文本 prompt 或代码片段；视觉操作依赖状态识别、视觉证据、进度/失败判断和下一步决策。\n\n论文把这种能力形式化为 multimodal procedural knowledge，并提出包含 textual procedure、runtime state cards 和 multi-view keyframes 的技能包。\n\n它值得正式收录，因为 agent skill systems 正在从文本/工具扩展到多模态交互；MMSkills 给出了视觉 agent 可复用技能的表示和生成方式。\n\n它没有更高，是因为技能库构建、检索和过度依赖参考截图的问题仍需在真实 GUI/机器人任务中长期验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.13527",
      "collected_at": "",
      "collection_order": 951,
      "source_url": "https://arxiv.org/pdf/2605.13527.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.13527.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.13527"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A285_MemLens_Multimodal_Memory",
      "slug": "a285-memlens-multimodal-memory",
      "detail_url": "papers/a285-memlens-multimodal-memory/",
      "title": "MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models",
      "summary": "MemLens 针对多模态长期记忆提出系统评测：问题来自多轮、多 session 对话，并明确要求模型利用图像证据、时间顺序、知识更新和拒答能力。\n\n论文关键价值在于把 long-context LVLM 和 memory-augmented agents 放在同一评测接口下比较。结果显示长上下文模型短上下文表现好但随长度退化，记忆 agent 更稳定却容易损失视觉细节。\n\n它值得正式收录，因为 agent memory 正在从文本检索转向多模态长期交互，MemLens 给出了可复用的能力拆分和跨架构对比基准。\n\n它没有更高，是因为它仍是 benchmark；对真实个人助理、机器人和持续学习系统的工程闭环还需要后续系统验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.14906",
      "collected_at": "",
      "collection_order": 950,
      "source_url": "https://arxiv.org/pdf/2605.14906.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.14906.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.14906"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A284_FutureSim_Adaptive_Agents",
      "slug": "a284-futuresim-adaptive-agents",
      "detail_url": "papers/a284-futuresim-adaptive-agents/",
      "title": "FutureSim: Replaying World Events to Evaluate Adaptive Agents",
      "summary": "FutureSim 把 agent 评测从静态任务推进到真实时间序列世界：系统按真实新闻出现顺序重放世界事件，让 agent 在知识截止后持续接收新信息并预测未来结果。\n\n这个设置直接压测 long-horizon adaptation、搜索、记忆和不确定性推理，而不是只看一次性问答或封闭环境成功率。论文显示当前 frontier agents 在三个月事件预测中的表现仍很弱，暴露出真实世界适应能力缺口。\n\n它值得正式收录，因为它提供了一个可复用的 adaptive-agent evaluation pattern：用真实世界事件回放构建 grounded simulation，衡量模型是否能随时间更新信念和策略。\n\n它没有更高，是因为当前主要是评测基准，长期影响取决于是否扩展到更多领域、可重复事件流和标准化 agent harness。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.15188",
      "collected_at": "",
      "collection_order": 949,
      "source_url": "https://arxiv.org/pdf/2605.15188.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15188.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.15188"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A279_MemEye_Multimodal_Agent_Memory",
      "slug": "a279-memeye-multimodal-agent-memory",
      "detail_url": "papers/a279-memeye-multimodal-agent-memory/",
      "title": "MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory",
      "summary": "MemEye 针对 multimodal agent memory 的评价缺口：很多视觉记忆问题可以被 caption 或文字轨迹 shortcut 解答，无法验证 agent 是否保留了真正必要的视觉证据。\n\n论文提出两个评价轴：decisive visual evidence granularity 从 scene-level 到 pixel-level，retrieved evidence usage 从单证据检索到 evolutionary synthesis，并构建 8 类生活场景任务和 371 个 mirrored questions。\n\n它值得正式收录，因为它给多模态长期记忆提供了更严格的 evidence routing / temporal tracking / detail extraction 评测接口，能指导未来 agent memory 架构设计。\n\n它没有更高，是因为主要贡献是 benchmark/evaluation，是否成为长期标准取决于社区采用和更多真实交互数据扩展。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.15128",
      "collected_at": "",
      "collection_order": 948,
      "source_url": "https://arxiv.org/pdf/2605.15128.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15128.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.15128"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A276_SDAR_Agentic_RL",
      "slug": "a276-sdar-agentic-rl",
      "detail_url": "papers/a276-sdar-agentic-rl/",
      "title": "Self-Distilled Agentic Reinforcement Learning",
      "summary": "SDAR 处理 agentic post-training 的核心痛点：RL 只有轨迹级稀疏反馈，而 on-policy self-distillation 能提供 token-level dense guidance，但直接用于多轮 agent 会因轨迹漂移和 teacher-student mismatch 产生不稳定。\n\n方法把 OPSD 降级为 gated auxiliary objective，让 RL 仍然是主优化骨架；token-level teacher-student gap 经 detached sigmoid gate 调节，强化 teacher-endorsed positive-gap token，软化负向 rejection。\n\n它值得正式收录，因为它给长程 agent RL 提供了一个可复用的 RL + privileged-context distillation 组合方式，在 ALFWorld、WebShop、Search-QA 和 Qwen2.5/Qwen3 多尺度上提升明显。\n\n它没有更高，是因为 benchmark 仍集中在典型 agent 环境，真实开放工具、长期记忆和安全约束下的稳定性还需要更多复现。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-14",
      "doi": "",
      "arxiv_id": "2605.15155",
      "collected_at": "",
      "collection_order": 947,
      "source_url": "https://arxiv.org/pdf/2605.15155.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.15155.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.15155",
        "https://github.com/ZJU-REAL/SDAR"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T16_State_Media_Control_LLMs",
      "slug": "t16-state-media-control-llms",
      "detail_url": "papers/t16-state-media-control-llms/",
      "title": "State media control influences large language models",
      "summary": "这篇 Nature 论文研究训练数据中的国家媒体控制如何影响 LLM 输出。它从跨国审计、训练数据溯源、开放权重模型额外预训练和商业模型语言审计等多个角度验证机制。\n\n核心发现是：低媒体自由国家语言中的 LLM 输出更偏向亲政府表述；中国国家协调媒体出现在训练数据中；额外用这类媒体预训练会使模型对相关政治机构和人物给出更正面回答。\n\n它值得正式收录，因为它把 LLM 偏见/治理问题从抽象价值观争论推进到可审计的训练数据影响链条，提供了数据 provenance、跨语言审计和模型行为因果检验的组合方法。\n\n它没有更高，是因为它主要是治理与审计证据，而不是直接提出新的训练、安全边界或防御机制；对不同模型家族和未来数据过滤策略的可操作影响还需继续观察。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "safety_governance_and_reliability",
      "theme_label": "安全、治理与可靠性",
      "published_at": "2026-05-13",
      "doi": "10.1038/s41586-026-10506-7",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 946,
      "source_url": "https://www.nature.com/articles/s41586-026-10506-7",
      "paper_url": "https://www.nature.com/articles/s41586-026-10506-7",
      "project_urls": [
        "https://state-media-influence-llm.github.io/"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "你的AI正被悄然洗脑？《自然》揭秘官媒如何用41倍海量数据操纵模型回答",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "state media control influences large language models",
          "description": "《自然》期刊发表的重磅研究揭示了大语言模型面临的安全隐患。在全球媒体控制的背景下，不受监管的开源训练数据正沦为“数据投毒”的温床。研究发现，大量官方宣传信息已深度渗透开源数据库，并在无意中被AI吸收。最强力的证据表明，在主流中文开源语料库中，官方媒体词汇量达到了中文维基百科的41倍，导致GPT-4o、Claude等主流商业模型对官方通稿展现出极高的“肌肉记忆”，甚至能下意识精准补全长句。这一发现警示我们，大模型生成的回答并非绝对中立，而是深受训练数据背后地缘政治与媒体环境的塑造，未来AI安全亟需关注数据源头的过滤与把控。",
          "x_post": "《自然》(Nature)最新研究：地缘政治宣传如何通过41倍开源语料塑造GPT-4o与Claude等商业模型\n【背景】传统AI监管多聚焦于后期人工对齐，而未受监管的开源训练语料正面临地缘政治信息渗透的风险。\n【方法】研究分析了官方媒体控制内容如何流入开源网络并被大语言模型吸收，最终将特定偏见转化为看似客观中立的回答。\n【证据】在中文开源数据集CulturaX中，含官媒词汇的文档数是中文维基百科的41倍；GPT-4o、Claude等对官媒短语的记忆率显著偏高，GPT-3.5能精准补全20字官方标准句式（编辑距离仅0.33）。\n【结论】LLM生成内容并非绝对中立，而是深受地缘政治与数据源头塑造，提示未来AI安全需将重点转向开源语料的源头过滤与净化。",
          "cover_url": "assets/covers/t16-state-media-control-llms-0aa3174f90.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T11:39:10+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "SYS9_MinT_LoRA_Infrastructure",
      "slug": "sys9-mint-lora-infrastructure",
      "detail_url": "papers/sys9-mint-lora-infrastructure/",
      "title": "MinT: Managed Infrastructure for Training and Serving Millions of LLMs",
      "summary": "MinT 针对后训练和在线服务里的新基础设施问题：当一个组织围绕少数昂贵 base models 产生大量 LoRA/RL policy revisions 时，不能再把每个 policy 都当成完整 checkpoint 管理。\n\n系统把 base model 常驻，把 LoRA adapter revisions 作为可调度、可回滚、可服务的轻量策略单元，在 rollout、update、export、evaluation、serving 和 rollback 之间移动。它同时覆盖 scale up、scale down 和 scale out：支持超过 1T 参数模型训练/服务，adapter-only handoff 显著降低传输成本，并支持百万级 addressable policy catalogs。\n\n它值得正式收录，因为它把 LoRA/adapter 从微调技巧提升成训练-服务一体化的系统对象。对于多策略 RL、agent policy catalogs、持续后训练和大模型 serving 运营，这种 base-resident + adapter revision 管理模式有明确复用价值。\n\n它没有更高，是因为论文来自单一系统报告，外部复现、真实多租户隔离、故障恢复、安全边界和与现有 serving 栈的集成还需要更多证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "systems_hardware_and_codesign",
      "theme_label": "系统、硬件与协同设计",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.13779",
      "collected_at": "",
      "collection_order": 945,
      "source_url": "https://arxiv.org/pdf/2605.13779.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.13779.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.13779"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SYS10_FlowCompile_LLM_Workflows",
      "slug": "sys10-flowcompile-llm-workflows",
      "detail_url": "papers/sys10-flowcompile-llm-workflows/",
      "title": "FlowCompile: An Optimizing Compiler for Structured LLM Workflows",
      "summary": "FlowCompile 把结构化 LLM workflows 的优化从运行时路由问题改写为编译问题：部署前全局探索 workflow 设计空间，形成可复用的配置集合。\n\n它关注的不是单个 prompt，而是由多个 sub-agents 组成的图结构工作流，在模型选择、reasoning budget 和结构组合之间做 accuracy-latency trade-off。\n\n它值得正式收录，因为 agent workflow 正在工程化，未来需要类似 compiler/runtime 的优化层，而 FlowCompile 明确提出了 workflow compiler 这个系统抽象。\n\n它没有更高，是因为它仍需在更多真实生产 workflow、动态任务分布和成本模型下验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "software_engineering_and_coding_agents",
      "theme_label": "软件工程与编程智能体",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.13647",
      "collected_at": "",
      "collection_order": 944,
      "source_url": "https://arxiv.org/pdf/2605.13647.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.13647.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.13647"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL70_BeeNav_Robot_Navigation",
      "slug": "rl70-beenav-robot-navigation",
      "detail_url": "papers/rl70-beenav-robot-navigation/",
      "title": "Efficient robot navigation inspired by honeybee learning flights",
      "summary": "这篇 Nature 论文把昆虫学习飞行中的视觉归巢原则转成可部署的机器人导航策略 Bee-Nav。系统用路径积分提供 home vector，再用训练于等价 learning flights 的微型神经网络修正漂移。\n\n关键工程结果是资源约束极强：室内外小型无人机实验中，3.4 kB 与 42 kB 级网络就能支撑 30-110 m 与部分 200-600 m windy flights 的归航。它不是大模型路线，而是极小模型、极低算力的 embodied navigation primitive。\n\n它值得正式收录，因为它连接了神经行为学、tiny neural networks 与真实机器人导航，为小型无人机和低功耗 embodied agents 提供了可复用的视觉记忆/路径积分混合范式。\n\n它没有更高，是因为任务主要是 home-return navigation；能否扩展到多目标、动态障碍、复杂语义任务和通用机器人策略，还需要更多验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-05-13",
      "doi": "10.1038/s41586-026-10461-3",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 943,
      "source_url": "https://www.nature.com/articles/s41586-026-10461-3",
      "paper_url": "https://www.nature.com/articles/s41586-026-10461-3",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "荷兰代理工等用昆虫脑简化无人机导航，仅需KB级内存精准归巢",
          "url": "https://www.bilibili.com/video/BV1N7G864E4M",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1N7G864E4M",
            "https://youtu.be/hFhHOgrUsSk"
          ],
          "main_collection": "机器人与具身智能",
          "match": "efficient robot navigation inspired by honeybee learning flights",
          "description": "荷兰代尔夫特理工大学等团队针对微型无人机因电池和载荷限制、无法承载传统高算力视觉SLAM系统的痛点，研发了受蜜蜂启发的Bee-Nav仿生导航策略。该方法模拟蜜蜂的学习飞行机制，结合路径积分与视图记忆，在起飞前建立局部已学习归巢区，利用自监督学习训练轻量化神经网络。实验表明，该系统仅需3.4KB至42.3KB的极小内存（比传统方法小约三个数量级），即可让无人机在室外风力干扰下实现数百米长距离精准归巢，成功率达100%。这一成果打破了微型无人机算力与体型的博弈，为低功耗、资源受限机器人的农业监测等长程作业奠定了基础。",
          "x_post": "荷兰代尔夫特理工等提出 Bee-Nav 仿生导航，仅需 3.4 KB 内存实现微型无人机高精度归巢\n微型无人机受限于电池与载荷，难以运行传统消耗数百MB甚至GB级内存的视觉SLAM系统。\n为此，研究团队受昆虫大脑启发提出 Bee-Nav 策略，结合路径积分与视图记忆，在起飞前通过自监督学习训练超轻量视觉神经网络。\n实验表明，该系统仅需 3.4 KB 至 42.3 KB 内存，可在室外风力干扰下实现数百米长距离精准归巢，成功率达 100%。\n该成果突破了微型机器人算力与体型的博弈，为低功耗、资源受限设备在农业监测等场景的作业提供了新方案。",
          "cover_url": "assets/covers/rl70-beenav-robot-navigation-22f00e15c1.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T06:40:14+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R13_Memory_Efficient_Looped_Transformer",
      "slug": "r13-memory-efficient-looped-transformer",
      "detail_url": "papers/r13-memory-efficient-looped-transformer/",
      "title": "Memory-Efficient Looped Transformer: Decoupling Compute from Memory in Looped Language Models",
      "summary": "这篇论文关注 looped language models 中计算和记忆的解耦。Looped transformer 的吸引力在于重复使用计算结构来扩展推理深度，但内存管理会成为瓶颈。\n\nMemory-Efficient Looped Transformer 的价值是把这一瓶颈作为架构问题处理。对 inference-time scaling 和 recurrent/iterative transformer 路线来说，compute-memory decoupling 是关键系统原语。\n\n它值得正式收录，因为本库持续跟踪 long-context、memory/state management 和 inference control；这篇提供了更高效 looped 推理结构的候选接口。\n\n它没有更高，是因为 looped LM 仍是活跃探索路线，实际优于普通 transformer scaling 的边界还需要更清晰。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.07721",
      "collected_at": "",
      "collection_order": 942,
      "source_url": "https://arxiv.org/pdf/2605.07721.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.07721.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.07721"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N90_Cortical_Knowledge_Word_Learning",
      "slug": "n90-cortical-knowledge-word-learning",
      "detail_url": "papers/n90-cortical-knowledge-word-learning/",
      "title": "Cortical knowledge structures guide word concept learning",
      "summary": "This Nature Communications paper studies how prior cortical knowledge structures guide new word-concept learning and generalization from limited examples.\n\nThe authors propose a Neural Bayesian Model using neural representational priors from ventral occipitotemporal cortex and compare it with control models and hippocampal learning signals.\n\nThe result separates prior-based cortical inference from hippocampal exemplar association, giving a mechanistic account of how semantic memory supports rapid concept learning.\n\nFor AI relevance, it is a useful brain-based framing of few-shot concept acquisition, prior structure, and the limits of current LLM alignment with human generalization.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-13",
      "doi": "10.1038/s41467-026-72868-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 941,
      "source_url": "https://www.nature.com/articles/s41467-026-72868-w",
      "paper_url": "https://www.nature.com/articles/s41467-026-72868-w",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "凭几个例子秒懂新词？北大北师大揭秘大脑学习机制，提出神经贝叶斯模型",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "cortical knowledge structures guide word concept learning",
          "description": "北京大学与北京师范大学研究团队在认知神经科学领域取得突破。针对人类如何利用极少数据快速掌握新概念这一谜题，研究团队提出了一种神经贝叶斯模型。该模型通过功能磁共振成像技术，证实人脑主要依靠腹侧枕颞皮层中存储的结构化先验知识进行逻辑推理，而非死记硬背。实验表明，该模型在预测人类概念泛化行为方面的表现优于大型语言模型。这一发现不仅揭示了大脑语义与情理记忆系统的分工，也证明了结构化先验在人类极致智能中的核心地位，为类脑智能的发展提供了关键启发。",
          "x_post": "北京大学与北京师范大学团队开发神经贝叶斯模型（NBM），利用fMRI解析人类少样本概念学习机制。\n人类如何仅凭极少数例子就能快速掌握并推广新词汇，是认知神经科学领域的关键谜题。\n研究团队提出NBM模型，通过fMRI提取受试者观看58种日常物品时的表征，成功构建出腹侧枕颞皮层（VOTC）中的结构化神经先验空间。\n实验表明，该模型在预测人类概念泛化行为上高度契合真实表现，且预测能力优于大型语言模型（LLMs）。\n研究同时划定了功能边界：熟悉对象的词汇学习依赖皮层知识结构推理，而缺乏先验的新形状学习则由海马体主导，这为类脑智能提供了神经科学约束。",
          "cover_url": "assets/covers/n90-cortical-knowledge-word-learning-7fca89b2aa.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T12:25:29+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N75_Hippocampal_RSC_Subspace_Communication",
      "slug": "n75-hippocampal-rsc-subspace-communication",
      "detail_url": "papers/n75-hippocampal-rsc-subspace-communication/",
      "title": "Subspace communication in the hippocampal–retrosplenial axis",
      "summary": "这篇 Nature 论文研究 hippocampus 和 retrosplenial cortex 之间如何在记忆与导航中进行灵活通信，而不是只描述单一区域编码。\n\n作者在小鼠行为任务中进行最高 1,024 channel 的大规模记录，同时覆盖 DG、CA3、CA2、CA1 和 RSC，并用 partial canonical correlation analysis 识别在控制第三脑区影响后的低维 communication subspaces。\n\n结果显示 CA1 内存在不同 input-output transformation subspaces，把上游 DG/CA3/CA2 活动连接到下游 RSC；这些 subspace membership 受内在放电性质和解剖位置约束，并可在不同经验和脑状态下重组重叠神经元池。\n\n它值得正式收录，因为它给出一个可复用脑机制框架：复杂记忆系统可能通过低维子空间路由和可重组通信通道实现灵活上下文编码，对 NeuroAI、agent memory 和模块间表示通信都有直接概念外溢。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-13",
      "doi": "10.1038/s41586-026-10481-z",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 940,
      "source_url": "https://www.nature.com/articles/s41586-026-10481-z",
      "paper_url": "https://www.nature.com/articles/s41586-026-10481-z",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "纽约大学揭秘大脑如何学新不忘旧：10毫秒级监测证实海马体旋转路由",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "subspace communication in the hippocampal retrosplenial axis",
          "description": "纽约大学研究团队在脑科学领域取得突破。针对大脑如何在吸收新知识的同时避免“灾难性遗忘”这一难题，研究人员利用高密度神经追踪技术，深入探究了海马体与新皮层之间的信息传输。研究发现，大脑会循环利用同一批神经元，并通过算法在神经噪音中提取出独立的“通讯子空间”。核心机制在于，海马体CA1区域作为“超级路由器”，通过近乎90度的正交子空间旋转，实现了同一批神经元在多任务处理中的信号无干扰转换。10毫秒级高精度监测与人工循环神经网络模拟均证实了这一旋转路由机制。该成果揭示了大脑跨区域记忆巩固的高效稳定机制，为类脑智能提供了全新启示。",
          "x_post": "纽约大学团队基于10毫秒级监测揭示海马体近90度正交“子空间旋转”路由机制\n【背景】大脑需在吸收新知（海马体高度可塑）的同时避免“灾难性遗忘”（新皮层高度稳定）。\n【方法】研究利用1024通道SINAPS探针与Neuropixels 2.0技术，同步解码小鼠从清醒导航到深度睡眠下的多脑区活动，并用偏典型相关分析（pCCA）提取独立通信子空间。\n【发现】海马体CA1作为路由器，通过将输入与输出子空间进行近90度几何正交旋转，使同批神经元可多任务无干扰转换；人工循环神经网络（RNN）亦自发演化出相同策略。\n【结论】该研究阐明了跨区域记忆巩固的高效几何计算机制，为类脑智能设计提供了生物学启发。",
          "cover_url": "assets/covers/n75-hippocampal-rsc-subspace-communication-582f256591.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T07:13:35+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N73_Internal_State_Gain_V1",
      "slug": "n73-internal-state-gain-v1",
      "detail_url": "papers/n73-internal-state-gain-v1/",
      "title": "Fluctuating internal states mediate neural–behavioral covariations in V1",
      "summary": "这篇论文关注一个对主动感知和 NeuroAI 都很关键的问题：行为表现与早期视觉皮层活动之间的协变，是否只是读出噪声，还是由内部状态对感觉处理的调制产生。\n\n作者在执行反应时视觉检测任务的猕猴中记录单个 V1 神经元膜电位，发现多数 V1 神经元在目标出现前会逐渐去极化，并且这种 buildup 的波动与反应时相关；目标出现后的膜电位波动也与选择相关。\n\n关键机制解释是 fluctuating multiplicative gain：内部状态通过非线性增益调制改变 V1 中外部输入到神经响应、再到行为的耦合方式。这个结论把 perception、internal state、choice covariance 联系到一个可建模机制。\n\n它值得正式收录，因为它不仅是高质量 Nature Neuroscience 发现，还给 AI/NeuroAI 提供了可迁移原则：感知系统的表征与行为读出不是固定映射，而受慢变内部状态和乘性调制控制。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-13",
      "doi": "10.1038/s41593-026-02296-y",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 939,
      "source_url": "https://www.nature.com/articles/s41593-026-02296-y",
      "paper_url": "https://www.nature.com/articles/s41593-026-02296-y",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "大脑如何在看到画面前做出决定？德大奥斯汀分校揭秘V1皮层提前300ms的蓄力机制",
          "url": "https://www.bilibili.com/video/BV1jNGi6fEyA",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1jNGi6fEyA",
            "https://youtu.be/NuY9qBGRQyU"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "fluctuating internal states mediate neural behavioral covariations in v1",
          "description": "德克萨斯大学奥斯汀分校在神经科学领域取得新进展。针对灵长类如何在微弱刺激下做出视觉决策这一问题，研究团队在清醒猕猴的初级视皮层（V1）开展了单细胞膜电位记录。结果表明，神经元在目标出现前300毫秒便已开启预备性去极化“蓄力”；该电位积聚越快，动物眼动反应就越迅速，且V1接收的是覆盖全域的分布式全局预警信号。这一发现证明复杂的神经-行为转换早在皮层处理最早期就由内部状态非线性介导，打破了眼睛只是被动记录仪的传统观念，阐明了大脑作为主动滤镜的工作机制。",
          "x_post": "德大奥斯廷分校揭秘V1皮层机制：刺激前300ms膜电位预备性去极化调控视觉决策速度\n大脑如何对微弱视觉刺激做出决策？这一神经-行为转换在皮层最早期阶段的调控机制此前尚不清晰。\n研究团队在清醒猕猴初级视皮层（V1）进行单细胞膜电位记录，测试其在0-5%极低对比度目标下的反应。\n结果显示，目标出现前300ms，V1神经元膜电位即产生预备性去极化；其电位积聚越快，动物眼动反应越迅速，且该信号呈全域分布式。\n这表明复杂的神经-行为协变在V1阶段便由内部状态通过增益调节机制非线性介导，证明大脑处于主动滤镜的工作模式。",
          "cover_url": "assets/covers/n73-internal-state-gain-v1-48cfcaa213.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T06:59:00+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM26_CollabVR",
      "slug": "mm26-collabvr",
      "detail_url": "papers/mm26-collabvr/",
      "title": "CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models",
      "summary": "这篇论文的关键点是把视频理解和视频生成放进同一个 collaborative reasoning loop。它不是单独做 VLM QA，也不是单独生成视频，而是让两类模型互相补足。\n\n这种结构对多模态推理有价值：VLM 可以提出解释和检查点，video generation model 可以模拟或补全可能的时序过程，从而改善长程视频推理。\n\n它值得正式收录，因为多模态系统正在从单模型输入输出转向 perception-generation-reasoning 的闭环协作。CollabVR 是这个工作流模式的代表。\n\n它没有更高，是因为生成模型参与推理可能引入 hallucinated evidence，闭环可靠性和验证机制需要更强实验。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.08735",
      "collected_at": "",
      "collection_order": 938,
      "source_url": "https://arxiv.org/pdf/2605.08735.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.08735.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.08735"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G7_Flow_OPD",
      "slug": "g7-flow-opd",
      "detail_url": "papers/g7-flow-opd/",
      "title": "Flow-OPD: On-Policy Distillation for Flow Matching Models",
      "summary": "这篇论文把 on-policy distillation 引入 flow matching models。它的价值在于把生成模型 distillation 从离线 teacher imitation 推向更接近当前模型采样分布的训练。\n\nFlow matching 已经是扩散/生成建模的重要替代路线，蒸馏效率直接影响推理成本和部署可行性。On-policy distillation 如果稳定，会成为一类通用加速机制。\n\n它值得正式收录，因为本库关注生成模型的 durable method primitive，而 Flow-OPD 正是训练/蒸馏层面的可复用方法。\n\n它没有更高，是因为生成模型蒸馏方法需要跨架构、跨数据集、跨采样预算证明稳定收益。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.08063",
      "collected_at": "",
      "collection_order": 937,
      "source_url": "https://arxiv.org/pdf/2605.08063.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.08063.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.08063"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G11_AnyFlow_Video_Diffusion",
      "slug": "g11-anyflow-video-diffusion",
      "detail_url": "papers/g11-anyflow-video-diffusion/",
      "title": "AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation",
      "summary": "AnyFlow 针对 few-step video diffusion 的一个关键缺陷：consistency distillation 在少步采样时有效，但随着测试时步数增加反而可能退化，因为它替换了原始 probability-flow ODE trajectory，破坏了 ODE sampling 的 test-time scaling 行为。\n\n论文把蒸馏目标从 endpoint consistency mapping 改成 flow-map transition learning，在任意时间区间学习 z_t 到 z_r 的转移，并提出 Flow Map Backward Simulation，把完整 Euler rollout 分解成 shortcut flow-map transitions，做更高效的 on-policy distillation。\n\n它值得正式收录，因为它为视频生成提供了 any-step distillation primitive：同一个蒸馏模型既能低步快速生成，也能随采样预算增加而继续受益。论文在 1.3B 到 14B、双向和因果视频架构上验证，且代码、模型和 demo 已公开。\n\n它没有更高，是因为它仍处在视频 diffusion distillation 子方向，是否会成为通用视频生成后训练标准，还要看更多基础模型、长视频、可控生成和真实部署延迟上的复现。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.13724",
      "collected_at": "",
      "collection_order": 936,
      "source_url": "https://arxiv.org/pdf/2605.13724.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.13724.pdf",
      "project_urls": [
        "https://nvlabs.github.io/AnyFlow/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.13724",
        "https://github.com/NVlabs/AnyFlow"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A294_Fast_Slow_Continual_Learning",
      "slug": "a294-fast-slow-continual-learning",
      "detail_url": "papers/a294-fast-slow-continual-learning/",
      "title": "Learning, Fast and Slow: Towards LLMs That Adapt Continually",
      "summary": "这篇论文提出 Fast-Slow Training，把 LLM 适应拆成两个时间尺度：prompt/context/agent layer 作为 fast weights，模型参数作为 slow weights，并在训练中交替优化。\n\n核心问题是 parameter-only RL 容易把任务细节硬写进权重，造成分布漂移、灾难性遗忘和 plasticity loss；纯 prompt/context 优化适应快但性能上限较低。FST 试图让 fast weights 吸收任务特异性细节，让 slow weights 更专注于可迁移的通用能力。\n\n实验覆盖 math、code 和 general reasoning，报告 FST 在样本效率、最终性能、KL drift、后续任务可学习性和 continual task switching 上都优于只更新权重的 RL，也高于只做 fast prompt optimization 的 GEPA。\n\n它值得正式收录，因为它把 agent/context optimization、RL 后训练和 continual learning 统一成一个可复用训练范式，直接服务于长期自适应 LLM 和自改进 agent 系统。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.12484",
      "collected_at": "",
      "collection_order": 935,
      "source_url": "https://arxiv.org/pdf/2605.12484.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.12484.pdf",
      "project_urls": [
        "https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.12484"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A281_DAWN_WAIM",
      "slug": "a281-dawn-waim",
      "detail_url": "papers/a281-dawn-waim/",
      "title": "The DAWN of World-Action Interactive Models",
      "summary": "DAWN 提出 World-Action Interactive Models，认为现有 WAM 往往把 world prediction 和 action generation 并行或串行分离，忽略动作与未来世界之间的 reciprocity。\n\n它在自动驾驶中实现一个 latent generative baseline：World Predictor 预测未来 latent world，World-Conditioned Action Denoiser 生成动作，再把动作反馈给世界预测器，在推理时递归更新。\n\n它值得正式收录，因为它给 action-contingent world modeling 提供了清晰问题定义和短 rollout latent architecture，是 embodied world/action model 的重要 framing。\n\n它没有更高，是因为实证主要集中于 autonomous driving planning；是否能迁移到通用机器人操作和更开放环境还有待验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.11550",
      "collected_at": "",
      "collection_order": 934,
      "source_url": "https://arxiv.org/pdf/2605.11550.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.11550.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.11550"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A278_EvolveMem_Self_Evolving_Memory",
      "slug": "a278-evolvemem-self-evolving-memory",
      "detail_url": "papers/a278-evolvemem-self-evolving-memory/",
      "title": "EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents",
      "summary": "EvolveMem 指出当前 agent memory 系统通常只更新存储内容，而检索评分、融合策略和回答策略在部署后固定，导致长期记忆增长时 retrieval infrastructure 不适配。\n\n它把完整 retrieval configuration 暴露为结构化 action space，由 LLM diagnosis module 读取失败日志、定位 root cause、提出配置调整，再由 guarded meta-analyzer 执行、回滚退化并在停滞时探索。\n\n它值得正式收录，因为它把 agent memory 从静态检索组件推进到自演化系统对象，在 LoCoMo 和 MemBench 上相对最强 baseline 有明显提升，并展示跨 benchmark 正迁移。\n\n它没有更高，是因为 AutoResearch 式自调参可能受评价集和诊断质量影响；生产环境的安全边界、成本和可解释回滚还需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.13941",
      "collected_at": "",
      "collection_order": 933,
      "source_url": "https://arxiv.org/pdf/2605.13941.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.13941.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.13941",
        "https://github.com/aiming-lab/SimpleMem"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A277_Preping_PreTask_Agent_Memory",
      "slug": "a277-preping-pretask-agent-memory",
      "detail_url": "papers/a277-preping-pretask-agent-memory/",
      "title": "Preping: Building Agent Memory without Tasks",
      "summary": "Preping 研究 pre-task memory construction：agent 在看到目标任务之前，仅凭环境文档和可执行工具，通过自生成练习构建 procedural memory。\n\n系统引入 proposer memory 作为控制状态，由 Proposer 生成 synthetic tasks，Solver 执行，Validator 决定哪些轨迹可写入 memory 并反馈下一轮 proposal，避免练习冗余、不可行和低信息量。\n\n它值得正式收录，因为它把 agent memory 从事后日志总结推进到部署前自练习和选择性记忆构建，对 MCP/tool agents 的冷启动有直接工程价值。\n\n它没有更高，是因为生成练习的覆盖性和 Validator 可靠性仍依赖环境类型；复杂真实任务分布下的负迁移需要更多验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.13880",
      "collected_at": "",
      "collection_order": 932,
      "source_url": "https://arxiv.org/pdf/2605.13880.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.13880.pdf",
      "project_urls": [
        "https://dozi01.github.io/preping-project-page/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.13880"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A267_HyperEyes_Multimodal_Search",
      "slug": "a267-hypereyes-multimodal-search",
      "detail_url": "papers/a267-hypereyes-multimodal-search/",
      "title": "HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents",
      "summary": "这篇论文切中 multimodal search agent 的瓶颈：搜索质量和计算效率必须同时优化，尤其在并行多模态检索/观察场景中。\n\nHyperEyes 的贡献在于用 dual-grained efficiency-aware RL 训练 parallel multimodal search agents。它把搜索 agent 的效率、粒度和决策策略放进统一训练目标。\n\n它值得正式收录，因为 agentic search 正从文本检索转向多模态、并行、长期任务，本库已经收录 direct corpus interaction 等搜索范式论文，HyperEyes 补的是多模态并行搜索控制。\n\n它没有更高，是因为需要看其方法是否能迁移到真实 web / enterprise / scientific multimodal search，而不是只在固定 benchmark 上有效。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.07177",
      "collected_at": "",
      "collection_order": 931,
      "source_url": "https://arxiv.org/pdf/2605.07177.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.07177.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.07177"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A266_AutoTTS_Agentic_TestTime_Scaling",
      "slug": "a266-autotts-agentic-testtime-scaling",
      "detail_url": "papers/a266-autotts-agentic-testtime-scaling/",
      "title": "LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling",
      "summary": "这篇论文的核心是让 LLM 帮助发现提升 LLM 测试时计算效率的方法。它把 test-time scaling 从人工设计策略，推进到 agentic discovery。\n\n它的重要性在于把模型优化本身变成一个 agent 搜索任务：coding agent 可以提出、测试和筛选推理策略，从而用相对低成本发现节省 token 或提升性能的方法。\n\n它值得正式收录，因为这符合 self-improving AI systems 的主线：不是只让模型解任务，而是让模型改进模型使用方式。它和自动后训练、agentic ML engineering 形成互补。\n\n它没有更高，是因为当前发现的策略是否能跨模型、任务和真实系统稳定迁移，还需要更多验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.08083",
      "collected_at": "",
      "collection_order": 930,
      "source_url": "https://arxiv.org/pdf/2605.08083.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.08083.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.08083"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A265_TMAS_Test_Time_MultiAgent",
      "slug": "a265-tmas-test-time-multiagent",
      "detail_url": "papers/a265-tmas-test-time-multiagent/",
      "title": "TMAS: Scaling Test-Time Compute via Multi-Agent Synergy",
      "summary": "这篇论文把 test-time scaling 和 multi-agent orchestration 连接起来。它不是简单多采样，而是通过多个专门 agent 的协同来扩大推理时计算。\n\nTMAS 的价值在于把测试时计算预算组织成 agent collaboration problem，包括分工、记忆共享和探索/利用平衡。这比单模型 self-consistency 更接近复杂任务执行系统。\n\n它值得正式收录，因为 inference-time scaling 正在成为大模型能力提升的核心路线，而 multi-agent synergy 提供了一个可复用系统模式。\n\n它没有更高，是因为多 agent 系统容易增加成本和不稳定性，仍需更多真实任务、延迟约束和失败分析。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-13",
      "doi": "",
      "arxiv_id": "2605.10344",
      "collected_at": "",
      "collection_order": 929,
      "source_url": "https://arxiv.org/pdf/2605.10344.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10344.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10344"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL75_EAPO_Agentic_Reasoning",
      "slug": "rl75-eapo-agentic-reasoning",
      "detail_url": "papers/rl75-eapo-agentic-reasoning/",
      "title": "Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization",
      "summary": "这篇论文处理 agentic test-time scaling 中的关键控制问题：agent 不是探索越多越好，而应该在不确定性高时探索，在上下文清楚时执行。\n\n方法提出 exploration-aware policy optimization，用细粒度 reward 估计探索动作对未来决策的价值，并把探索动作和完成任务动作分组优化。\n\n它值得正式收录，因为它把 agent exploration 从固定策略推进到可训练的选择性探索机制，适用于文本和 GUI agent benchmark。\n\n它没有更高，是因为探索 reward 的泛化、复杂真实工具环境中的成本控制和安全边界还需要更多实证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.08978",
      "collected_at": "",
      "collection_order": 928,
      "source_url": "https://arxiv.org/pdf/2605.08978.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.08978.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.08978"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R75_Multi_Stream_LLMs",
      "slug": "r75-multi-stream-llms",
      "detail_url": "papers/r75-multi-stream-llms/",
      "title": "Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs",
      "summary": "Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nInstruction tuning for multiple parallel token streams to unblock reading, thinking, acting, and monitoring.\n\nIt proposes a structural change to LLM interaction format with implications for latency, prompt-injection robustness, and agent monitorability.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.12460",
      "collected_at": "",
      "collection_order": 927,
      "source_url": "https://arxiv.org/pdf/2605.12460.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.12460.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.12460"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R74_Delta_Mem_Online_Memory",
      "slug": "r74-delta-mem-online-memory",
      "detail_url": "papers/r74-delta-mem-online-memory/",
      "title": "delta-mem: Efficient Online Memory for Large Language Models",
      "summary": "delta-mem: Efficient Online Memory for Large Language Models 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nCompact online associative memory state coupled to frozen attention for LLM long-term memory.\n\nIt is a direct memory primitive for LLM/agent systems, using a compact online state to modify attention without full fine-tuning or context extension.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.12357",
      "collected_at": "",
      "collection_order": 926,
      "source_url": "https://arxiv.org/pdf/2605.12357.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.12357.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.12357"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R12_Geometry_Conflict_Continual_PostTraining",
      "slug": "r12-geometry-conflict-continual-posttraining",
      "detail_url": "papers/r12-geometry-conflict-continual-posttraining/",
      "title": "Geometry Conflict: Explaining and Controlling Forgetting in LLM Continual Post-Training",
      "summary": "这篇论文处理的是持续后训练里的核心风险：模型学习新能力时会破坏旧能力，而这个问题不是简单调小学习率就能解决。它把 forgetting 解释为几何冲突。\n\n几何视角有复用价值，因为它给 LoRA、continual post-training、domain adaptation 和 capability injection 提供了统一诊断语言。真正重要的不是单个任务分数，而是能力之间怎样发生干扰。\n\n它值得正式收录，因为本库关注长期能力扩展、PEFT 和部署后适应；forgetting control 是这些路线能否工程化的基础问题。\n\n它没有更高，是因为它仍需要在更多训练范式、模型规模和实际能力组合中验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.09608",
      "collected_at": "",
      "collection_order": 925,
      "source_url": "https://arxiv.org/pdf/2605.09608.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.09608.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.09608"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N66_Tiny_NN_Gloss_Perception",
      "slug": "n66-tiny-nn-gloss-perception",
      "detail_url": "papers/n66-tiny-nn-gloss-perception/",
      "title": "Human gloss perception reproduced by tiny neural networks",
      "summary": "这篇 Nature Human Behaviour 论文把人类 gloss perception 用小型神经网络复现，价值在于说明某些视觉材料知觉可能不需要庞大黑箱模型。\n\n它对 AI 的启发是模型规模和认知机制之间的关系：如果 tiny neural networks 能复现人类光泽感知，说明该知觉可能依赖相对紧凑的计算特征和归纳偏置。\n\n它值得正式收录，因为它符合本库对认知科学的严格标准：既澄清一个核心感知机制，又能为更高效、可解释的视觉模型设计提供概念参考。\n\n它没有更高，是因为 gloss perception 是相对窄的视觉子问题，距离通用视觉智能理论还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-12",
      "doi": "10.1038/s41562-026-02445-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 924,
      "source_url": "https://www.nature.com/articles/s41562-026-02445-0",
      "paper_url": "https://www.nature.com/articles/s41562-026-02445-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "一眼看透“反光”不用算物理？牛津大学用单个滤镜AI复刻人类视觉",
          "url": "https://www.bilibili.com/video/BV1HBG76WEfD",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1HBG76WEfD",
            "https://youtu.be/bjqiFbpOL4s"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "human gloss perception reproduced by tiny neural networks",
          "description": "牛津大学与吉森大学研究团队在计算神经科学领域取得新突破。传统观点认为大脑感知物体“光泽”需要进行复杂的逆向物理计算，但研究表明，人类视觉其实依赖极其简单的非物理算法。研究人员通过构建包含3888组图像的测试库并收集盲测数据，训练了不同的AI模型。结果显示，追求物理真实的深层重型网络（如ResNet18）在预测人类感知时效果不佳，而一个仅含单个15x15像素卷积核的微型网络，就能达到人类判断一致性上限的75.3%。这一发现证明人类对光泽的认知并非源于复杂的物理推算，而是通过简单通用的图像特征。该成果展示了极简、可解释AI模型在模拟人类认知上的巨大潜力，为低算力视觉算法开发提供了新思路。",
          "x_post": "牛津大学等利用单个15x15像素AI滤镜，复刻75.3%的人类光泽感知\n传统理论认为大脑感知光泽需进行复杂的“逆向物理计算”。但盲测表明，人类的主观判断与物理真实偏差较大（相关性仅0.52），人际一致性却高达0.85，这表明人类大脑运行着一套非物理的视觉算法。\n为此，研究团队基于3888组3D渲染图像收集主观评分，对比了深层重型网络（如ResNet18）与浅层微型网络预测人类感知的表现。\n实验显示，追求物理真实的重型网络预测效果欠佳；而一个仅含单个15x15像素卷积核的超微型网络，却能逼近人类判断一致性上限的75.3%。\n这表明人类的光泽认知并非依赖复杂的物理重建，而是基于简单、通用的图像特征。该研究展示了极简、可解释AI在模拟人类认知上的应用潜力。",
          "cover_url": "assets/covers/n66-tiny-nn-gloss-perception-f0acaa0274.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-21T15:33:32+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM61_SenseNova_U1_Unified_Multimodal",
      "slug": "mm61-sensenova-u1-unified-multimodal",
      "detail_url": "papers/mm61-sensenova-u1-unified-multimodal/",
      "title": "SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture",
      "summary": "SenseNova-U1 针对多模态模型的 understanding/generation 分裂，提出 NEO-unify 架构，把理解和生成作为同一底层过程的协同视图。\n\n它不只是视觉问答或图像生成模型，而是试图把文本、视觉理解、图像生成、agentic decision-making、空间智能以及初步 VLA/world model 能力统一起来。\n\n它值得正式收录，因为本库重视 native multimodal agent foundation model 和 unified understanding-generation architecture。该报告提供了体系结构、数据和训练细节。\n\n它没有更高，是因为模型报告的独立复现、开放程度和真实 agent/世界模型能力仍需观察。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.12500",
      "collected_at": "",
      "collection_order": 923,
      "source_url": "https://arxiv.org/pdf/2605.12500.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.12500.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.12500"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM25_Auto_Rubric_Reward_Modeling",
      "slug": "mm25-auto-rubric-reward-modeling",
      "detail_url": "papers/mm25-auto-rubric-reward-modeling/",
      "title": "Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria",
      "summary": "这篇论文处理的是多模态生成训练中的 reward specification 问题。隐式偏好难以审计、难以复用，也容易把模型推向不可解释的 reward hacking。\n\nAuto-Rubric 的关键点是把偏好转成显式 rubric，并把 rubric 作为 reward。这个接口有利于把多模态生成评价从黑箱偏好模型推进到可读、可修改、可验证的标准集合。\n\n它值得正式收录，因为生成模型后训练正在从单一偏好分数转向更结构化的评价和验证。显式 rubric 可能成为 multimodal RL / reward modeling 的重要工程抽象。\n\n它没有更高，是因为 rubric 质量、自动生成 rubric 的偏差、以及与人类真实偏好的一致性仍需长期验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.08354",
      "collected_at": "",
      "collection_order": 922,
      "source_url": "https://arxiv.org/pdf/2605.08354.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.08354.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.08354"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM24_WorldReasonBench",
      "slug": "mm24-worldreasonbench",
      "detail_url": "papers/mm24-worldreasonbench/",
      "title": "WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors",
      "summary": "这篇论文的价值在于把视频生成评测从视觉质量推进到“未来世界状态预测”。如果视频模型要成为 world model，只看清晰度和偏好分数不够，必须评估它是否能预测符合人类直觉和物理约束的后续状态。\n\nWorldReasonBench 提供的是一个评测接口，而不是又一个生成模型。它把视频生成和 embodied / planning 语境连接起来，关注模型生成的未来是否能承载推理、预期和行动评估。\n\n它值得正式收录，因为多模态生成正在向 world model 迁移，社区需要能直接暴露未来状态错误的 benchmark。这个方向对机器人、自动驾驶和视频规划都有外溢价值。\n\n它没有更高，是因为当前仍是 benchmark 论文，长期影响取决于是否被主流视频模型和 WAM / VLA 系统采用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.10434",
      "collected_at": "",
      "collection_order": 921,
      "source_url": "https://arxiv.org/pdf/2605.10434.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10434.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10434"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "M51_Soohak_Math_Benchmark",
      "slug": "m51-soohak-math-benchmark",
      "detail_url": "papers/m51-soohak-math-benchmark/",
      "title": "Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs",
      "summary": "这篇论文补的是 AI for math 评测中的关键缺口：很多数学 benchmark 更像竞赛题或形式化题库，而不是研究数学家实际会遇到的问题结构。Soohak 强调 mathematician-curated 和 research-level。\n\n它的重要性在于让模型能力评估更接近真实数学研究：理解问题背景、选择工具、处理开放式推理路径，并在非模板化问题中保持严谨。\n\n它值得正式收录，因为本库已经跟踪 theorem search、AI co-mathematician 和形式推理 agent；Soohak 可以作为这些系统是否接近研究级数学能力的外部压力测试。\n\n它没有更高，是因为 benchmark 的覆盖范围、题目泄漏风险和长期维护质量仍需观察。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "math_and_formal_reasoning",
      "theme_label": "数学与形式推理",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.09063",
      "collected_at": "",
      "collection_order": 920,
      "source_url": "https://arxiv.org/pdf/2605.09063.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.09063.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.09063"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW9_Resistive_Memory_Diffusion_Solver",
      "slug": "hw9-resistive-memory-diffusion-solver",
      "detail_url": "papers/hw9-resistive-memory-diffusion-solver/",
      "title": "Resistive memory-based neural differential equation solver for score-based diffusion model",
      "summary": "这篇 Nature Communications 论文直接连接 AI 硬件和扩散模型推理：用 resistive memory 构建 neural differential equation solver 服务 score-based diffusion。\n\n它的价值不只是器件 novelty，而是把新型存储/计算硬件接到生成模型核心求解过程。扩散模型推理成本高，solver 和硬件协同是明确的 AI systems 问题。\n\n它值得正式收录，因为本库对硬件论文的标准是必须影响 AI compute、memory hierarchy 或 model-runtime-hardware co-design。这篇满足硬件与生成模型求解器耦合。\n\n它没有更高，是因为从实验硬件到可部署 AI 推理系统之间还有良率、规模、精度和软件栈集成问题。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-05-12",
      "doi": "10.1038/s41467-026-72900-z",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 919,
      "source_url": "https://www.nature.com/articles/s41467-026-72900-z",
      "paper_url": "https://www.nature.com/articles/s41467-026-72900-z",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让AI生成速度飙升116倍，清华港大等联合研发存算一体芯片加速扩散模型",
          "url": "https://www.bilibili.com/video/BV1YKL86yELn",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1YKL86yELn",
            "https://youtu.be/uTEDDaUKZyk"
          ],
          "main_collection": "AI硬件设计",
          "match": "resistive memory based neural differential equation solver for score based diffusion model",
          "description": "香港大学和清华大学等团队在类脑计算领域取得突破。针对传统数字计算中“冯·诺依曼内存墙”导致的数据搬运开销大、扩散模型运行缓慢且耗电的瓶颈，该团队研发了一种基于阻变存储器（RRAM）的模拟存算一体系统。该系统通过构建连续时间神经微分方程求解器，将计算直接在存储单元中完成，消除了离散截断误差。实验表明，该方案在保持图像生成质量的同时，将采样速度提升了100倍以上，最高实现116倍加速，并显著降低了功耗。该成果为边缘设备实现高效、低能耗的生成式AI应用开辟了新路径。",
          "x_post": "清华、港大等联合团队研发基于RRAM的模拟存算一体芯片，实现扩散模型采样最高116倍加速\n传统数字架构在运行生成式扩散模型时，受限于“冯·诺依曼内存墙”的数据搬运开销及离散时间的截断误差，导致能耗与时延高企。\n本研究提出一种基于阻变存储器（RRAM）的脑启发模拟存算一体系统，通过将计算直接在存储单元中完成，构建了连续时间神经微分方程求解器。\n实验结果表明，在保持图像生成质量的同时，该系统将采样速度提升100倍以上，最高实现116倍加速，并显著降低了能源消耗。\n该成果验证了模拟类脑计算在生成式算法中的可行性，为边缘计算设备部署高效生成式AI开辟了新路径。",
          "cover_url": "assets/covers/hw9-resistive-memory-diffusion-solver-da19c7b4d7.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T07:00:58+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "G6_G_Zero_Open_Ended_Generation",
      "slug": "g6-g-zero-open-ended-generation",
      "detail_url": "papers/g6-g-zero-open-ended-generation/",
      "title": "G-Zero: Self-Play for Open-Ended Generation from Zero Data",
      "summary": "这篇论文的核心吸引力是把 self-play 引入开放式生成，并强调 zero-data bootstrapping。它不是普通数据增强，而是试图让生成系统通过自博弈产生可扩展训练信号。\n\n如果这个方向成立，生成模型可以减少对静态数据集和人工偏好标注的依赖，转向更开放的任务生成、评估和改进循环。\n\n它值得正式收录，因为本库关注 self-improving systems、generative modeling 和 test-time / training-time autonomy；G-Zero 正好落在这些路线的交汇点。\n\n它没有更高，是因为 open-ended generation 很容易出现评估漂移和自我强化伪进步，当前仍需更强外部验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.09959",
      "collected_at": "",
      "collection_order": 918,
      "source_url": "https://arxiv.org/pdf/2605.09959.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.09959.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.09959"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G16_AlphaGRPO_Multimodal_Generation",
      "slug": "g16-alphagrpo-multimodal-generation",
      "detail_url": "papers/g16-alphagrpo-multimodal-generation/",
      "title": "AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in Unified Multimodal Models via Decompositional Verifiable Reward",
      "summary": "AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in Unified Multimodal Models via Decompositional Verifiable Reward 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nGRPO for AR-Diffusion unified multimodal generation with decompositional verifiable rewards.\n\nIt provides a reusable reward decomposition method for self-reflective multimodal generation and editing without cold-start SFT.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.12495",
      "collected_at": "",
      "collection_order": 917,
      "source_url": "https://arxiv.org/pdf/2605.12495.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.12495.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.12495"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C14_Attention_Variational_Metallic_Glasses",
      "slug": "c14-attention-variational-metallic-glasses",
      "detail_url": "papers/c14-attention-variational-metallic-glasses/",
      "title": "Attention-enhanced variational learning for physically informed discovery of exceptionally hard multicomponent bulk metallic glasses",
      "summary": "这篇 Nature Communications 论文把材料发现问题组织成 physically informed variational learning。目标是发现高硬度多组分 bulk metallic glasses，而不是只做材料属性拟合。\n\n它的关键价值在于把 attention、variational learning 和物理先验组合起来，用于复杂多组分材料空间的搜索。多组分玻璃材料的设计空间很大，传统试错成本高。\n\n它值得正式收录，因为 AI 在这里承担的是材料设计和发现流程中的搜索/生成/物理约束整合角色，符合 AI for materials 的正式标准。\n\n它没有更高，是因为材料发现论文的长期影响取决于候选材料验证、可复现性和方法能否迁移到其他材料族。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-12",
      "doi": "10.1038/s41467-026-73008-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 916,
      "source_url": "https://www.nature.com/articles/s41467-026-73008-0",
      "paper_url": "https://www.nature.com/articles/s41467-026-73008-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "马普所用AI逆向设计出逼近理论极限的超硬金属，全新VIBANN框架终结传统炼金",
          "url": "https://www.bilibili.com/video/BV1xUVF62ETm",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1xUVF62ETm",
            "https://youtu.be/NxdaST0vsCU"
          ],
          "main_collection": "AI化学与材料",
          "match": "attention enhanced variational learning for physically informed discovery of exceptionally hard multicomponent bulk metallic glasses",
          "description": "马克斯·普朗克研究所团队在AI辅助材料科学领域取得突破。针对传统大块金属玻璃开发中化学空间巨大、数据稀缺且试错成本高的痛点，研究团队开发了全新的VIBANN深度学习框架。该框架融合自注意力机制与变分信息瓶颈技术，在数据稀缺情况下实现了高准确度的属性预测与逆向设计。实验表明，团队成功预测并合成了五种新型合金，其维氏硬度最高达2450 HV，逼近理论极限。该成果将传统的“炼金术”式研发转化为系统化的闭环设计，为航空航天等极端环境下的超高硬度材料研发开辟了更精准、更高效的新路径。",
          "x_post": "马普所团队利用VIBANN深度学习框架逆向设计出硬度高达2450 HV的新型大块金属玻璃\n针对非晶态合金开发中56维化学空间巨大且实验数据稀缺的痛点，研究团队提出融合自注意力机制与变分信息瓶颈的VIBANN框架。\n该框架能动态锁定核心化学元素并过滤数据噪声，在数据稀缺情况下实现具不确定性感知的逆向属性预测与设计。\n实验成功预测并合成出五种新型合金（主要含硼、铌、铁、钨等），其维氏硬度最高达约2450 HV，分子动力学模拟证实其源于高密度原子堆积与富硼短程有序结构。\n该研究还引入了风险感知机制以评估预测不确定性，有效避开虚假理论高分，为极端环境超硬材料开发提供了系统化的闭环方案。",
          "cover_url": "assets/covers/c14-attention-variational-metallic-glasses-dfdf3059c5.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-21T15:28:41+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO47_DrEval_Drug_Response",
      "slug": "bio47-dreval-drug-response",
      "detail_url": "papers/bio47-dreval-drug-response/",
      "title": "Critical evaluation of drug response prediction models with DrEval",
      "summary": "这篇 Nature Communications 论文重要在于评估基础设施，而不是又提出一个 drug response predictor。Drug response prediction 长期受数据泄漏、拆分策略和外推能力问题影响。\n\nDrEval 的价值是把模型可靠性、评估协议和可比性推到前台。对 AI drug discovery 来说，不可靠的预测器会直接误导实验优先级和临床前资源分配。\n\n它值得正式收录，因为本库不仅收生成/发现系统，也收能改变生物医药 AI workflow 的评估框架。DrEval 可以成为药物响应建模的质量控制接口。\n\n它没有更高，是因为 benchmark 的长期地位取决于社区采用、持续维护和是否覆盖更多实验体系。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-12",
      "doi": "10.1038/s41467-026-72903-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 915,
      "source_url": "https://www.nature.com/articles/s41467-026-72903-w",
      "paper_url": "https://www.nature.com/articles/s41467-026-72903-w",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "为什么论文准确率超90%的AI抗癌药治不了病？慕尼黑工大用DrEval破除统计幻觉",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "critical evaluation of drug response prediction models with dreval",
          "description": "慕尼黑工业大学研究团队针对AI癌症药物反应预测领域，指出当前深度学习模型在论文中虽有超90%的虚高准确率，但因数据泄漏、辛普森悖论等统计幻觉，导致实际临床转化率几乎为零。为此，团队推出开源评估框架DrEval。它通过应用导向的数据划分、去偏见指标和标准化调优，对模型泛化能力进行公平检验。实验表明，复杂的深度学习模型在实际场景中甚至无法击败简单的树集成模型。该框架制定了FAIRER研究准则，为生物医学界提供透明的评估标准，助力缩小实验室研究与临床应用之间的巨大鸿沟。",
          "x_post": "慕尼黑工业大学推出开源框架DrEval，剖析AI抗癌药预测中论文R²>0.90与实际临床转化接近0的统计断层。\n现有癌症药物反应预测模型常因数据泄漏和辛普森悖论产生统计幻觉。例如，全局R²达0.82的模型，在预测单一药物疗效时实际R²仅为0.34。\n为此，团队开发开源评估框架DrEval，通过应用导向的数据划分和去偏见指标进行公平检验。\n实验表明，在实际应用场景中，复杂的深度学习模型甚至无法击败经过调优的简单树集成模型。\n该框架确立了FAIRER研究准则，为生物医学界提供标准化、透明化的评估标准，旨在缩小细胞系研究与临床应用之间的鸿沟。",
          "cover_url": "assets/covers/bio47-dreval-drug-response-7ead1e2345.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T06:45:38+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A293_LongMemEval_V2_Agent_Memory",
      "slug": "a293-longmemeval-v2-agent-memory",
      "detail_url": "papers/a293-longmemeval-v2-agent-memory/",
      "title": "LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues",
      "summary": "LongMemEval-V2 把 agent memory 评测从用户偏好历史推进到“像有经验同事一样理解工作环境”。它关注环境 affordances、状态动态、工作流和反复出现的失败模式。\n\n基准包含 451 个手工问题，覆盖 static state recall、dynamic state tracking、workflow knowledge、environment gotchas 和 premise awareness，历史轨迹可达 500 条与 115M tokens。\n\n它值得正式收录，因为长期 agent 的记忆价值不只是回忆事实，而是把环境经验压缩成可复用 evidence，支撑后续任务执行。\n\n它没有更高，是因为 benchmark 仍需与真实 agent task success、记忆更新策略和多环境迁移做更强闭环。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.12493",
      "collected_at": "",
      "collection_order": 914,
      "source_url": "https://arxiv.org/pdf/2605.12493.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.12493.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.12493"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A283_SkillSafetyBench",
      "slug": "a283-skillsafetybench",
      "detail_url": "papers/a283-skillsafetybench/",
      "title": "SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces",
      "summary": "SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nRunnable benchmark for safety failures induced by malicious or compromised agent skills.\n\nIt targets the skill layer as an attack surface, matching the repository focus on skill systems and agent safety evaluation.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.12015",
      "collected_at": "",
      "collection_order": 913,
      "source_url": "https://arxiv.org/pdf/2605.12015.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.12015.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.12015"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A275_FATE_Agentic_Safety_Alignment",
      "slug": "a275-fate-agentic-safety-alignment",
      "detail_url": "papers/a275-fate-agentic-safety-alignment/",
      "title": "On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment",
      "summary": "On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nOn-policy self-evolving safety alignment from verifier-scored agent failures.\n\nIt treats safety as trajectory repair for tool-using agents, not just response filtering, and preserves utility/over-refusal constraints.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.11882",
      "collected_at": "",
      "collection_order": 912,
      "source_url": "https://arxiv.org/pdf/2605.11882.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.11882.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.11882"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A274_ToolCUA_GUI_Tool_Orchestration",
      "slug": "a274-toolcua-gui-tool-orchestration",
      "detail_url": "papers/a274-toolcua-gui-tool-orchestration/",
      "title": "ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents",
      "summary": "ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nComputer-use agent training for hybrid GUI and tool-call action spaces.\n\nIt targets a durable CUA systems problem: when to use GUI actions versus structured tools, with trajectory scaling and online agentic RL.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.12481",
      "collected_at": "",
      "collection_order": 911,
      "source_url": "https://arxiv.org/pdf/2605.12481.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.12481.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.12481"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A264_Dynamic_Skill_Lifecycle",
      "slug": "a264-dynamic-skill-lifecycle",
      "detail_url": "papers/a264-dynamic-skill-lifecycle/",
      "title": "Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning",
      "summary": "这篇论文延续 self-evolving agents 的关键问题：技能不是一次性 prompt，也不是静态工具库，而是需要生命周期管理的能力对象。\n\nDynamic Skill Lifecycle Management 的价值在于把 skill acquisition 从“学会一个技能”推进到“管理一组会变化的技能”。这对长期 agent 更关键，因为技能会过时、冲突、冗余或需要替换。\n\n它值得正式收录，因为本库已经收 Skill1 并 watchlist SkillOS；这篇补的是 lifecycle 视角，能和 skill curation、memory validity、agent self-improvement 形成体系。\n\n它没有更高，是因为当前仍需要证明生命周期策略能在真实开放环境中长期提升，而不是只在受控 RL 任务中有效。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.10923",
      "collected_at": "",
      "collection_order": 910,
      "source_url": "https://arxiv.org/pdf/2605.10923.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10923.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10923"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A263_Mela_Test_Time_Memory",
      "slug": "a263-mela-test-time-memory",
      "detail_url": "papers/a263-mela-test-time-memory/",
      "title": "Mela: Test-Time Memory Consolidation based on Transformation Hypothesis",
      "summary": "这篇论文落在 test-time memory 和 inference-time adaptation 的交叉点。它关注的不是把更多上下文塞进模型，而是在测试时形成、转化和巩固可用记忆。\n\nMela 的价值在于把 memory consolidation 明确变成推理期机制。对长期 agent 来说，记忆系统不能只做检索，还要在任务过程中把局部经验转成后续可用的状态。\n\n它值得正式收录，因为 test-time learning、agent memory 和长上下文控制正在合流；Mela 提供了一个可复用的问题设定和机制方向。\n\n它没有更高，是因为 test-time memory 容易在少数任务上有效，是否能稳定迁移到开放 agent 和多日任务还需要更多证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-12",
      "doi": "",
      "arxiv_id": "2605.10537",
      "collected_at": "",
      "collection_order": 909,
      "source_url": "https://arxiv.org/pdf/2605.10537.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10537.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10537"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL74_RoboMemArena_Robotic_Memory",
      "slug": "rl74-robomemarena-robotic-memory",
      "detail_url": "papers/rl74-robomemarena-robotic-memory/",
      "title": "RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark",
      "summary": "RoboMemArena 把机器人记忆从抽象长上下文问题推进到长程、部分可观察、真实动作序列任务。论文强调任务平均轨迹超过 1000 步，且大部分子任务依赖记忆。\n\n基准包含 VLM 生成的复杂子任务、完整轨迹、关键帧和 memory-related annotations，并配套真实世界 memory tasks。PrediMem 则用高层 VLM planner、memory bank 和 predictive coding head 作为基线。\n\n它值得正式收录，因为机器人长期任务的核心不是单帧感知，而是选择、维护和使用行动相关记忆；这正是 VLA 和 agent memory 的交叉。\n\n它没有更高，是因为 benchmark 与基线还需要更多真实机器人平台和开放环境验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.10921",
      "collected_at": "",
      "collection_order": 908,
      "source_url": "https://arxiv.org/pdf/2605.10921.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10921.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10921"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL69_CapVector_VLA_Capability_Vectors",
      "slug": "rl69-capvector-vla-capability-vectors",
      "detail_url": "papers/rl69-capvector-vla-capability-vectors/",
      "title": "CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models",
      "summary": "CapVector 针对 VLA 机器人模型的一个现实瓶颈：标准 SFT 简单但适应慢，带辅助目标的 finetuning 能提升空间感知或长程推理等能力，却会带来额外模块、额外前向和训练开销。\n\n论文把辅助目标带来的通用能力增益与任务动作拟合拆到参数空间中处理：用同一小规模任务集训练标准 SFT 和辅助目标 SFT 两个模型，将二者参数差解释为 capability vector，再合并回预训练 VLA 得到 capability-enhanced meta model，并用轻量 orthogonal regularization 在下游 SFT 中减少能力遗忘。\n\n它值得正式收录，因为它给机器人 foundation policy 提供了可复用的能力注入接口：把复杂辅助训练的收益压缩成可迁移参数向量，让新任务可以用接近标准 SFT 的成本继承空间/推理能力。对 VLA、PEFT、模型合并和机器人快速适配都有外溢价值。\n\n它没有更高，是因为方法仍依赖作者选择的 capability extraction 任务和 VLA 家族；跨更大模型、更多真实机器人平台和非作者辅助目标的稳定性还需要独立验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.10903",
      "collected_at": "",
      "collection_order": 907,
      "source_url": "https://arxiv.org/pdf/2605.10903.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10903.pdf",
      "project_urls": [
        "https://capvector.github.io/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10903",
        "https://github.com/OpenHelix-Team/CapVector"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL65_Listwise_Policy_Optimization",
      "slug": "rl65-listwise-policy-optimization",
      "detail_url": "papers/rl65-listwise-policy-optimization/",
      "title": "Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex",
      "summary": "这篇论文的价值在于把当前热门的 group-based RLVR 从经验 recipe 拉回到更清晰的优化对象。它把问题表述为 response simplex 上的 target projection。\n\n这种解释对 RL post-training 很重要，因为 GRPO/RLVR 类方法正在快速扩散，但社区对它们究竟在优化什么、为什么稳定或不稳定仍不够清楚。\n\n它值得正式收录，因为它提供了一个可能复用的理论化接口，有助于把 reasoning RL 从技巧集合推进到可分析的优化框架。\n\n它没有更高，是因为理论解释需要和更大规模模型、更复杂 reward、真实推理任务上的收益对齐。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.06139",
      "collected_at": "",
      "collection_order": 906,
      "source_url": "https://arxiv.org/pdf/2605.06139.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.06139.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.06139"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N87_CORTEG_Cross_Modality_BCI",
      "slug": "n87-corteg-cross-modality-bci",
      "detail_url": "papers/n87-corteg-cross-modality-bci/",
      "title": "CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings",
      "summary": "CORTEG investigates whether pretrained scalp-EEG foundation models can be adapted to intracranial ECoG decoding, reducing the need for extensive per-patient calibration.\n\nThe method combines a pretrained EEG backbone, electrode-aware spatial adaptation, dual-stream tokenization for low-frequency and high-gamma activity, and leave-one-subject-out fine-tuning.\n\nThe reported results show competitive or improved decoding on finger trajectory and audio envelope tasks, especially in low-data calibration settings.\n\nFor BCI and NeuroAI, the paper is useful because it treats cross-modality transfer as a deployment problem for patient adaptation, not merely as another representation-learning benchmark.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.10337",
      "collected_at": "",
      "collection_order": 905,
      "source_url": "https://arxiv.org/pdf/2605.10337.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10337.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N65_Brain_Controlled_Select_Hearing",
      "slug": "n65-brain-controlled-select-hearing",
      "detail_url": "papers/n65-brain-controlled-select-hearing/",
      "title": "Real-time brain-controlled selective hearing enhances speech perception in multi-talker environments",
      "summary": "这篇 Nature Neuroscience 论文关注实时脑控选择性听觉，在多说话人环境中增强语音感知。它直接触及 attention、auditory scene analysis 和 closed-loop BCI。\n\n它对 AI 的外溢在于 closed-loop selection：系统需要从神经信号中识别用户注意目标，并实时调整感知前端。这类机制对脑机接口、助听设备和人机协同感知都有参考价值。\n\n它值得正式收录，因为本库的神经科学标准要求解释或利用核心认知/神经机制并对 AI 有明确启发。选择性注意的实时读出和控制正是这种接口。\n\n它没有更高，是因为这类系统的普适性、用户差异、长期稳定性和非实验室部署还需要更多证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-11",
      "doi": "10.1038/s41593-026-02281-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 904,
      "source_url": "https://www.nature.com/articles/s41593-026-02281-5",
      "paper_url": "https://www.nature.com/articles/s41593-026-02281-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "在嘈杂人群中用意念挑人听，哥大等研发脑机接口实现最高 ±9dB 声音增益",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "real time brain controlled selective hearing enhances speech perception in multi talker environments",
          "description": "哥伦比亚大学等机构在脑机接口与智能助听领域取得重要突破。针对传统助听器无法区分背景噪音与目标语音的“鸡尾酒会”难题，研究团队开发出一种实时脑控选择性听力系统。该系统基于高分辨率颅内脑电技术，通过高效的线性回归模型实时重构听觉注意力，并利用五态马尔可夫模型进行动态调整。实验表明，该系统最高可实现±9dB的声音增益与抑制，在保持环境整体声功率恒定的同时，让听者能无缝、顺滑地切换关注目标。这一成果成功将助听技术从“被动放大”提升为“主动意念驱动”，能显著提高语音清晰度并降低听觉疲劳，为下一代智能助听器提供了全新方案。",
          "x_post": "哥伦比亚大学等团队研发实时脑控助听系统，实现最高±9dB声音增益\n针对传统助听器难以在嘈杂“鸡尾酒会”环境中区分目标语音的痛点，研究团队开发出一种基于脑机接口的实时选择性听力系统。该系统利用高分辨率颅内脑电（iEEG）技术，通过线性回归模型实时重构听觉注意力，并结合五态马尔可夫模型进行动态调整。实验表明，系统能够精准识别听者意图，实现最高±9dB的声音增益与抑制，且保持环境整体声功率恒定。该成果发表于《自然-神经科学》，实现了助听技术从被动放大向主动意图驱动的跨越，为智能助听器的临床转化奠定了基础。",
          "cover_url": "assets/covers/n65-brain-controlled-select-hearing-b6aac98b44.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-21T15:16:57+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM64_PhyGround_Generative_World_Models",
      "slug": "mm64-phyground-generative-world-models",
      "detail_url": "papers/mm64-phyground-generative-world-models/",
      "title": "PhyGround: Benchmarking Physical Reasoning in Generative World Models",
      "summary": "PhyGround: Benchmarking Physical Reasoning in Generative World Models 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nBenchmark and judge model for physical law violations in generative video/world models.\n\nIt decomposes physical reasoning into law-level scores and provides a reproducible evaluation interface for world models.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.10806",
      "collected_at": "",
      "collection_order": 903,
      "source_url": "https://arxiv.org/pdf/2605.10806.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10806.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10806"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G5_Mean_Mode_Screaming",
      "slug": "g5-mean-mode-screaming",
      "detail_url": "papers/g5-mean-mode-screaming/",
      "title": "Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers",
      "summary": "这篇论文关注生成模型 scaling 中很硬的稳定性问题：Diffusion Transformer 继续加深时会出现均值主导的 collapse。它把这个失效模式命名并给出结构性处理。\n\nMean-Variance Split Residuals 的意义在于把超深 DiT 的训练稳定性变成架构问题，而不是只靠调参或训练技巧。1000-layer 这一设定说明它瞄准的是下一阶段扩展瓶颈。\n\n它值得正式收录，因为生成模型的长期进展依赖更深、更稳、更可控的 backbone；这类残差结构如果成立，会成为可复用的 generative scaling primitive。\n\n它没有更高，是因为需要看更多模型族、数据规模和下游生成质量是否稳定受益。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.06169",
      "collected_at": "",
      "collection_order": 902,
      "source_url": "https://arxiv.org/pdf/2605.06169.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.06169.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.06169"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G22_ELF_Embedded_Language_Flows",
      "slug": "g22-elf-embedded-language-flows",
      "detail_url": "papers/g22-elf-embedded-language-flows/",
      "title": "ELF: Embedded Language Flows",
      "summary": "ELF proposes Embedded Language Flows, a diffusion/flow language-modeling approach that operates primarily in continuous embedding space rather than over discrete token states.\n\nThe method uses continuous-time Flow Matching and delays the projection back to discrete tokens until the final step through a shared-weight network, making language generation structurally closer to image-domain diffusion workflows.\n\nThis formulation allows established diffusion techniques such as classifier-free guidance to transfer more naturally into language modeling, while reducing the sampling burden compared with prior diffusion language models.\n\nFor this repository, the paper is valuable because it contributes a reusable generative-modeling primitive for non-autoregressive language modeling and strengthens the broader continuous-generation path for text.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.10938",
      "collected_at": "",
      "collection_order": 901,
      "source_url": "https://arxiv.org/pdf/2605.10938.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10938.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/lillian039/ELF"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C13_SmileyLlama_Chemical_Space",
      "slug": "c13-smileyllama-chemical-space",
      "detail_url": "papers/c13-smileyllama-chemical-space/",
      "title": "SmileyLlama: modifying large language models for directed chemical space exploration",
      "summary": "这篇 Nature Computational Science 论文把 LLM 直接改造为面向化学空间探索的生成和搜索工具。它的重点不是普通 QSAR 预测，而是让模型参与 directed chemical space exploration。\n\nSmileyLlama 的价值在于把语言模型的序列生成能力接到分子表示和化学目标上，形成更主动的探索机制。这类方法对分子设计、候选生成和多目标优化有明显外溢。\n\n它值得正式收录，因为本库对 AI chemistry 的门槛是 AI 要改变发现工作流，而不是只提高一个预测器分数。SmileyLlama 属于把 LLM 作为化学空间导航器使用。\n\n它没有更高，是因为 directed exploration 的真实湿实验闭环、跨化学任务泛化和失败模式仍需要进一步验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-11",
      "doi": "10.1038/s43588-026-00986-y",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 900,
      "source_url": "https://www.nature.com/articles/s43588-026-00986-y.pdf",
      "paper_url": "https://www.nature.com/articles/s43588-026-00986-y",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A289_MemReread_Long_Context",
      "slug": "a289-memreread-long-context",
      "detail_url": "papers/a289-memreread-long-context/",
      "title": "MemReread: Enhancing Agentic Long-Context Reasoning via Memory-Guided Rereading",
      "summary": "MemReread 针对 agent memory 的一个具体失败模式：线性读文档时动态记忆会覆盖掉潜在证据，而后续检索又可能被无效 query 干扰。\n\n它保留 streaming reading 的效率，但在最终记忆不足时触发问题分解和 rereading，从而恢复早期丢失的间接事实，并用 RL 学习何时、读几遍。\n\n它值得正式收录，因为它把长上下文推理从静态扩窗转向 memory-guided rereading，是低成本长文档 agent 的可复用控制机制。\n\n它没有更高，是因为它仍需在更多开放式任务、长时程 agent 和多模态材料上验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.10268",
      "collected_at": "",
      "collection_order": 899,
      "source_url": "https://arxiv.org/pdf/2605.10268.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10268.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10268"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A287_Agent_ValueBench",
      "slug": "a287-agent-valuebench",
      "detail_url": "papers/a287-agent-valuebench/",
      "title": "Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values",
      "summary": "Agent-ValueBench 指出 agent 的价值表现不能直接等同于底层 LLM 的价值表现，因为 harness、工具、环境和动作轨迹会改变行为。\n\n基准提供 394 个可执行环境、16 个领域、4335 个价值冲突任务和 28 个价值系统，并为任务提供 pole-aligned golden trajectories 与轨迹级 judge。\n\n它值得正式收录，因为 agent safety 正在从文本偏好转向执行轨迹评估；这篇论文把 value evaluation 迁移到 agentic modality。\n\n它没有更高，是因为价值体系覆盖、心理学标注一致性和 judge 可靠性仍然会影响结论。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "safety_governance_and_reliability",
      "theme_label": "安全、治理与可靠性",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.10365",
      "collected_at": "",
      "collection_order": 898,
      "source_url": "https://arxiv.org/pdf/2605.10365.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10365.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10365"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A280_WildClawBench_Long_Horizon_Agent_Eval",
      "slug": "a280-wildclawbench-long-horizon-agent-eval",
      "detail_url": "papers/a280-wildclawbench-long-horizon-agent-eval/",
      "title": "WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation",
      "summary": "WildClawBench 针对现有 agent benchmark 的沙盒化、短任务和 mock service 问题，构建 native-runtime long-horizon agent evaluation suite。\n\n它覆盖 productivity、code intelligence、social interaction、search/retrieval、creative synthesis 和 safety alignment 六类任务，并要求 agent 在真实 CLI harness、文件系统、工具和容器环境中完成多步工作。\n\n它值得正式收录，因为它把 agent 评测推向真实运行时、可审计轨迹、双语与多模态任务的组合，对 coding agents、computer-use agents 和 tool agents 都有复用价值。\n\n它没有更高，是因为任务数仍为 60，benchmark 生态和防过拟合机制需要时间检验。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.10912",
      "collected_at": "",
      "collection_order": 897,
      "source_url": "https://arxiv.org/pdf/2605.10912.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10912.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10912",
        "https://github.com/internlm/WildClawBench"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A280_Continual_Harness",
      "slug": "a280-continual-harness",
      "detail_url": "papers/a280-continual-harness/",
      "title": "Continual Harness: Online Adaptation for Self-Improving Foundation Agents",
      "summary": "Continual Harness: Online Adaptation for Self-Improving Foundation Agents 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nOnline harness refinement for self-improving foundation agents.\n\nIt formalizes the agent harness as an adaptive object with trajectory-driven refiners, extending manual harness repair into an online self-improvement loop.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.09998",
      "collected_at": "",
      "collection_order": 896,
      "source_url": "https://arxiv.org/pdf/2605.09998.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.09998.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.09998"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A279_DataMaster_Autonomous_Data_Engineering",
      "slug": "a279-datamaster-autonomous-data-engineering",
      "detail_url": "papers/a279-datamaster-autonomous-data-engineering/",
      "title": "DataMaster: Towards Autonomous Data Engineering for Machine Learning",
      "summary": "DataMaster: Towards Autonomous Data Engineering for Machine Learning 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nAutonomous agentic data engineering for improving fixed ML pipelines.\n\nIt turns data discovery, selection, cleaning, transformation, and validation into an agentic optimization workflow.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.10906",
      "collected_at": "",
      "collection_order": 895,
      "source_url": "https://arxiv.org/pdf/2605.10906.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10906.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10906"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A278_LITMUS_OS_Agent_Jailbreaks",
      "slug": "a278-litmus-os-agent-jailbreaks",
      "detail_url": "papers/a278-litmus-os-agent-jailbreaks/",
      "title": "LITMUS: Benchmarking Behavioral Jailbreaks of LLM Agents in Real OS Environments",
      "summary": "LITMUS: Benchmarking Behavioral Jailbreaks of LLM Agents in Real OS Environments 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nOS-level benchmark for behavior jailbreaks in autonomous agents.\n\nIt evaluates physical/action-layer harm with rollback and dual semantic-physical verification, a strong reusable safety benchmark.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.10779",
      "collected_at": "",
      "collection_order": 894,
      "source_url": "https://arxiv.org/pdf/2605.10779.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10779.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10779"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A275_ODE_Visual_Native_Deep_Search",
      "slug": "a275-ode-visual-native-deep-search",
      "detail_url": "papers/a275-ode-visual-native-deep-search/",
      "title": "Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents",
      "summary": "这篇论文抓住 multimodal deep search agent 的两个核心问题：工具返回的图像通常只是一次性观察，不能作为后续工具调用的可寻址工作状态；训练数据也常由固定配方生成，不能跟随目标 policy 的能力边界演化。\n\n方法上，论文提出 visual-native agent harness，把搜索、浏览、图像处理和计算工具产生的中间图像登记为 image bank reference，使其能在后续步骤中被重新裁剪、检索和推理；再用 On-Policy Data Evolution 根据当前 policy rollouts、trace analysis 和 rubric feedback 迭代更新数据生成配置。\n\n它值得正式收录，因为它把 multimodal agent 训练从静态数据合成推进到 workspace + on-policy data evolution 的闭环。论文显示 ODE 让 Qwen3-VL-8B 平均分从 24.9% 到 39.0%，30B 从 30.6% 到 41.5%，并且验证了 reusable visual state 的独立贡献。\n\n它没有更高，是因为当前证据仍集中在 multimodal deep search benchmark 和特定 Qwen3-VL backbones；真实网页、噪声环境、工具失败和长期任务中的鲁棒性还需要进一步验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.10832",
      "collected_at": "",
      "collection_order": 893,
      "source_url": "https://arxiv.org/pdf/2605.10832.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10832.pdf",
      "project_urls": [
        "https://on-policy-data-evolution.github.io/"
      ],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10832",
        "https://github.com/JoeYing1019/ODE"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A271_RubricEM_Meta_RL_Research_Agents",
      "slug": "a271-rubricem-meta-rl-research-agents",
      "detail_url": "papers/a271-rubricem-meta-rl-research-agents/",
      "title": "RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards",
      "summary": "RubricEM 针对 deep research agent 的难点：长报告、证据搜索和综合任务通常没有可验证答案，因此标准 RLVR 很难直接给密集、可靠奖励。\n\n它把 rubric 从最终评分工具提升为执行接口：规划、证据收集、审阅和综合各阶段都由 rubric 组织，并用 stage-structured GRPO 和 reflection meta-policy 把经验转成可复用指导。\n\n它值得正式收录，因为它提供了 beyond-verifiable-reward 的 agent RL 训练框架，把评估、执行分解和记忆更新接成一个工作流。\n\n它没有更高，是因为 long-form research 评测仍容易受 judge 偏差、数据泄漏和报告风格影响，需要更多独立复现。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-11",
      "doi": "",
      "arxiv_id": "2605.10899",
      "collected_at": "",
      "collection_order": 892,
      "source_url": "https://arxiv.org/pdf/2605.10899.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.10899.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.10899"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM65_SeePhys_Pro_Modality_Transfer",
      "slug": "mm65-seephys-pro-modality-transfer",
      "detail_url": "papers/mm65-seephys-pro-modality-transfer/",
      "title": "SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning",
      "summary": "SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nFine-grained modality-transfer benchmark and RLVR diagnostics for visual physics reasoning.\n\nIt tests whether multimodal reasoning survives text-to-image information transfer and exposes blind-training artifacts.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-05-10",
      "doi": "",
      "arxiv_id": "2605.09266",
      "collected_at": "",
      "collection_order": 891,
      "source_url": "https://arxiv.org/pdf/2605.09266.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.09266.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.09266"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A286_SimWorld_Studio_Embodied_Environments",
      "slug": "a286-simworld-studio-embodied-environments",
      "detail_url": "papers/a286-simworld-studio-embodied-environments/",
      "title": "SimWorld Studio: Automatic Environment Generation with Evolving Coding Agent for Embodied Agent Learning",
      "summary": "SimWorld Studio 处理 embodied agents 的一个基础瓶颈：缺少大量、多样、可验证、可交互的 3D 学习环境。它不是生成静态 3D 场景，而是生成可执行环境。\n\n核心组件 SimCoder 是一个工具/技能增强的 coding agent，能写并执行 Unreal Engine 代码，通过编译错误、物理检查和 VLM critique 自我修正，并把技能沉淀进库。\n\n它值得正式收录，因为它把 coding agent、自进化技能库和 embodied simulation 连接成环境生成基础设施，可能改变机器人训练数据和任务生成方式。\n\n它没有更高，是因为自动生成环境的物理真实性、任务分布覆盖和 sim2real 价值还需要更大规模实证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-05-10",
      "doi": "",
      "arxiv_id": "2605.09423",
      "collected_at": "",
      "collection_order": 890,
      "source_url": "https://arxiv.org/pdf/2605.09423.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.09423.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.09423"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A282_Kintsugi_Executable_KB_Policies",
      "slug": "a282-kintsugi-executable-kb-policies",
      "detail_url": "papers/a282-kintsugi-executable-kb-policies/",
      "title": "Kintsugi: Learning Policies by Repairing Executable Knowledge Bases",
      "summary": "Kintsugi: Learning Policies by Repairing Executable Knowledge Bases 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nVerifier-gated policy learning through editable executable knowledge bases.\n\nIt converts policy improvement into inspectable typed KB repair with deterministic execution, useful for embodied and long-horizon agents.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-10",
      "doi": "",
      "arxiv_id": "2605.09487",
      "collected_at": "",
      "collection_order": 889,
      "source_url": "https://arxiv.org/pdf/2605.09487.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.09487.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.09487"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A281_Self_Evolving_Agents_Forget",
      "slug": "a281-self-evolving-agents-forget",
      "detail_url": "papers/a281-self-evolving-agents-forget/",
      "title": "Do Self-Evolving Agents Forget? Capability Degradation and Preservation in Lifelong LLM Agent Adaptation",
      "summary": "Do Self-Evolving Agents Forget? Capability Degradation and Preservation in Lifelong LLM Agent Adaptation 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nCapability erosion and preservation in lifelong self-evolving LLM agents.\n\nIt identifies a core failure mode of self-evolving agents and proposes capability-preserving evolution across workflow, skill, model, and memory channels.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-10",
      "doi": "",
      "arxiv_id": "2605.09315",
      "collected_at": "",
      "collection_order": 888,
      "source_url": "https://arxiv.org/pdf/2605.09315.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.09315.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.09315"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A277_TacoMAS_Test_Time_CoEvolution",
      "slug": "a277-tacomas-test-time-coevolution",
      "detail_url": "papers/a277-tacomas-test-time-coevolution/",
      "title": "TacoMAS: Test-Time Co-Evolution of Topology and Capability in LLM-based Multi-Agent Systems",
      "summary": "TacoMAS: Test-Time Co-Evolution of Topology and Capability in LLM-based Multi-Agent Systems 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nTest-time co-evolution of multi-agent topology and capabilities.\n\nIt frames MAS inference as online graph adaptation with distinct time scales for capability and topology updates.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-10",
      "doi": "",
      "arxiv_id": "2605.09539",
      "collected_at": "",
      "collection_order": 887,
      "source_url": "https://arxiv.org/pdf/2605.09539.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.09539.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.09539"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A276_MCP_Cosmos_World_Model_Agents",
      "slug": "a276-mcp-cosmos-world-model-agents",
      "detail_url": "papers/a276-mcp-cosmos-world-model-agents/",
      "title": "MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments",
      "summary": "MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nWorld-model augmented MCP agents for predictive tool execution.\n\nIt connects MCP tool environments with bring-your-own world models and introduces execution-quality evaluation for predictive tool planning.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-10",
      "doi": "",
      "arxiv_id": "2605.09131",
      "collected_at": "",
      "collection_order": 886,
      "source_url": "https://arxiv.org/pdf/2605.09131.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.09131.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.09131"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A270_MemPrivacy_Edge_Cloud_Agent_Memory",
      "slug": "a270-memprivacy-edge-cloud-agent-memory",
      "detail_url": "papers/a270-memprivacy-edge-cloud-agent-memory/",
      "title": "MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents",
      "summary": "MemPrivacy 关注长期个性化 agent 的核心部署问题：记忆有用性和隐私保护之间的冲突。它把敏感 span 在边缘侧识别并替换为结构化占位符，云侧处理语义化记忆，本地再恢复敏感值。\n\n这不是普通脱敏技巧，因为它明确面向 agent memory pipeline：记忆形成、检索和个性化都要保留可用语义，同时减少敏感信息暴露。论文还构建了 MemPrivacy-Bench。\n\n它值得正式收录，因为本库单独重视 agent memory、能力扩展和安全边界。MemPrivacy 同时提供机制、benchmark 和 edge-cloud deployment pattern。\n\n它没有更高，是因为隐私分类、攻击模型和实际系统集成仍需要第三方验证，尤其是跨语言、跨应用和恶意云端假设下的保护强度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-10",
      "doi": "",
      "arxiv_id": "2605.09530",
      "collected_at": "",
      "collection_order": 885,
      "source_url": "https://arxiv.org/pdf/2605.09530.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.09530.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.09530"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A288_RewardHarness_Agentic_PostTraining",
      "slug": "a288-rewardharness-agentic-posttraining",
      "detail_url": "papers/a288-rewardharness-agentic-posttraining/",
      "title": "RewardHarness: Self-Evolving Agentic Post-Training",
      "summary": "RewardHarness 的关键思想是把 reward modeling 从训练新权重转成 agentic context evolution：系统维护并迭代一组工具和技能，用它们构造偏好判断链。\n\n它用少量偏好 demonstrations 让 Orchestrator 选择工具、分析成功失败并改进工具/技能库，从而让 frozen Sub-Agent 更接近人类偏好。\n\n它值得正式收录，因为这提供了一种 self-evolving post-training pattern：能力提升不一定来自参数更新，也可以来自可审计的工具与技能库演化。\n\n它没有更高，是因为当前场景集中在图像编辑 reward；能否扩展到更广泛 agent 任务、复杂偏好和长期稳定库管理仍需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-09",
      "doi": "",
      "arxiv_id": "2605.08703",
      "collected_at": "",
      "collection_order": 884,
      "source_url": "https://arxiv.org/pdf/2605.08703.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.08703.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.08703"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A272_MLS_Bench_AI_Building_AI",
      "slug": "a272-mls-bench-ai-building-ai",
      "detail_url": "papers/a272-mls-bench-ai-building-ai/",
      "title": "MLS-Bench: A Holistic and Rigorous Assessment of AI Systems on Building Better AI",
      "summary": "MLS-Bench 把“AI 系统能否改进 AI”作为一个整体评测问题，而不是只测单个 coding、math 或 benchmark-solving 能力。\n\n它的价值在于任务目录、工具 schema、agent prompt 和 test-time scaling 设置较完整，能作为自改进/自动 ML / AI-for-AI 系统的评估接口。\n\n它值得正式收录，因为本库重视 self-improving agents、agent evaluation 和自动化科研/工程工作流。MLS-Bench 提供了可复用 benchmark 形态。\n\n它没有更高，是因为 benchmark 是否长期有效取决于任务抗污染、是否能跟上模型能力提升，以及是否真的预测真实研发效率。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-09",
      "doi": "",
      "arxiv_id": "2605.08678",
      "collected_at": "",
      "collection_order": 883,
      "source_url": "https://arxiv.org/pdf/2605.08678.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.08678.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.08678"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL68_POISE_Internal_State_Value",
      "slug": "rl68-poise-internal-state-value",
      "detail_url": "papers/rl68-poise-internal-state-value/",
      "title": "Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States",
      "summary": "Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States 关注的是一个可复用的 AI 系统或评测问题，而不是单点 demo。\n\nPOISE estimates RLVR baselines from policy internal states with negligible extra critic cost.\n\nIt is a reusable RLVR efficiency primitive, replacing large external critics or many rollouts with online internal-state value estimation.\n\n它没有更高，是因为这些新 arXiv 工作仍需要更多独立复现、真实系统部署和长期社区采用来确认影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-05-08",
      "doi": "",
      "arxiv_id": "2605.07579",
      "collected_at": "",
      "collection_order": 882,
      "source_url": "https://arxiv.org/pdf/2605.07579.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.07579.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.07579"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL64_Trust_Imagination_World_Action",
      "slug": "rl64-trust-imagination-world-action",
      "detail_url": "papers/rl64-trust-imagination-world-action/",
      "title": "When to Trust Imagination: Adaptive Action Execution for World Action Models",
      "summary": "这篇论文处理的是 World Action Models 落地时绕不开的问题：模型能想象未来，但什么时候应该相信想象、什么时候应该重新感知和执行，需要一个控制边界。\n\n它把 WAM 从离线预测器推进到执行时决策系统，关注 action chunking、想象可信度和长期执行效率之间的权衡。这对机器人和 embodied agent 比单纯提高视频预测分数更关键。\n\n它值得正式收录，因为 world model / WAM 的下一步不是只生成更逼真的未来，而是把想象接入动作执行并控制风险。Adaptive execution 正是这个接口。\n\n它没有更高，是因为当前仍是 WAM 执行控制的一篇强论文，跨任务和真实机器人长期部署还需要更多证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-05-08",
      "doi": "",
      "arxiv_id": "2605.06222",
      "collected_at": "",
      "collection_order": 881,
      "source_url": "https://arxiv.org/pdf/2605.06222.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.06222.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM71_TextPro_SLM_Prosody_Aware_Text_LLM",
      "slug": "mm71-textpro-slm-prosody-aware-text-llm",
      "detail_url": "papers/mm71-textpro-slm-prosody-aware-text-llm/",
      "title": "Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM",
      "summary": "这篇论文重新定位 Speech LLM 的 modality gap：问题不只在输出端把语音生成变得更像文本生成，剩余瓶颈主要来自输入端给 LLM 的 speech representation 不够 TLM-compatible。\n\n作者提出 TextPro-SLM，把 Speech LLM 改造成 prosody-aware text LLM。核心组件 WhisperPro 同时输出同步 text tokens 和 prosody embeddings，显式分离 what is said 与 how it is said。\n\nLLM backbone 通过知识蒸馏保留原始 text LLM 的语义能力，同时学习 emotion、speaking style、speaker timbre 等 paralinguistic understanding；实验显示 3B/7B 规模下 modality gap 更低，并且只需约 1,000 小时 LLM 训练音频。\n\n它值得正式收录，因为它给 speech-language multimodal foundation models 提供了清晰的输入侧接口设计：让语音输入尽量贴近文本 LLM 的工作形态，同时保留韵律和副语言信息。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-05-08",
      "doi": "",
      "arxiv_id": "2605.05927",
      "collected_at": "",
      "collection_order": 880,
      "source_url": "https://arxiv.org/pdf/2605.05927.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.05927.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO55_Path2Space_Spatial_Transcriptomics",
      "slug": "bio55-path2space-spatial-transcriptomics",
      "detail_url": "papers/bio55-path2space-spatial-transcriptomics/",
      "title": "AI-predicted spatial transcriptomics unlocks breast cancer biomarkers from pathology",
      "summary": "Path2Space 针对 spatial transcriptomics 的核心瓶颈：ST assay 成本高，难以在大规模临床队列中用于 biomarker discovery。\n\n方法训练深度学习模型从常规病理切片直接预测空间基因表达，在乳腺癌 ST 数据上学习后可预测数千个基因的空间表达，并优于 21 个既有方法。\n\n论文将模型应用到 976 个 TCGA 乳腺癌样本，推断肿瘤微环境细胞丰度，识别具有不同生存结局的空间亚型，并比 bulk sequencing biomarker 更好预测化疗和 trastuzumab 响应。\n\n它值得正式收录，因为它把 AI 从病理图像分类推进到低成本替代空间分子测量的发现工作流，直接改变大队列空间 biomarker discovery 的可行性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-08",
      "doi": "10.1016/j.cell.2026.04.023",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 879,
      "source_url": "https://doi.org/10.1016/j.cell.2026.04.023",
      "paper_url": "https://doi.org/10.1016/j.cell.2026.04.023",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A262_Agentic_Search_Direct_Corpus",
      "slug": "a262-agentic-search-direct-corpus",
      "detail_url": "papers/a262-agentic-search-direct-corpus/",
      "title": "Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction",
      "summary": "这篇论文的价值在于挑战 agentic search 里默认的 dense retrieval 习惯：复杂搜索任务不只是找语义相似片段，而是要主动和语料互动，逐步验证、排除和重构问题。\n\n这个 framing 对搜索 agent 很关键。长期研究、审计、法律、代码和科学文献任务都要求 agent 直接操作证据集合，而不是被动消费 top-k 相似结果。\n\n它值得正式收录，因为它把 retrieval 从 ranking primitive 推向 interaction primitive，和近期 web/research agent 的长期任务需求高度一致。\n\n它没有更高，是因为当前仍需要更多真实复杂任务和系统级复现来证明 direct corpus interaction 能成为主流检索范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-08",
      "doi": "",
      "arxiv_id": "2605.05242",
      "collected_at": "",
      "collection_order": 878,
      "source_url": "https://arxiv.org/pdf/2605.05242.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.05242.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P32_AI_CFD_Scientist",
      "slug": "p32-ai-cfd-scientist",
      "detail_url": "papers/p32-ai-cfd-scientist/",
      "title": "AI CFD Scientist: Toward Open-Ended Computational Fluid Dynamics Discovery with Physics-Aware AI Agents",
      "summary": "这篇论文的价值在于把 CFD 研究从单次 solver 调用或 surrogate modeling，推进到带物理约束的 agentic discovery loop。它把问题设定为开放式科学发现，而不是固定 benchmark 上的窄预测。\n\n方法上，它围绕 CFD 的物理约束、仿真工具和研究假设迭代来组织 agent 工作流。这种结构对 AI for science 更重要，因为真正瓶颈通常在问题分解、实验设计、仿真解释和下一步探索之间的闭环。\n\n它值得正式收录，因为 CFD 是科学计算里非常硬的场景；如果 agent 能稳定承担开放式探索，就会对工程仿真、流体设计和 physics-aware scientific agents 有明显外溢。\n\n它没有更高，是因为当前仍是领域内 early system 论文，跨 CFD 子任务和跨物理领域的稳定迁移还需要更强证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-05-07",
      "doi": "",
      "arxiv_id": "2605.06607",
      "collected_at": "",
      "collection_order": 877,
      "source_url": "https://arxiv.org/pdf/2605.06607.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.06607.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N95_Tuft_Dendrites_Flexible_Learning",
      "slug": "n95-tuft-dendrites-flexible-learning",
      "detail_url": "papers/n95-tuft-dendrites-flexible-learning/",
      "title": "Tuft dendrites in frontal motor cortex enable flexible learning",
      "summary": "这篇 Science 论文研究大脑已经学会一套规则之后，如何在环境变化时重新学习和切换规则。作者聚焦小鼠 anterolateral motor cortex 中 layer 5b pyramidal neurons 的 apical tuft dendrites，追问这些树突是否是灵活学习的关键计算位置。\n\n核心发现是，决策相关输入汇聚到这些 tuft dendrites；在 rule-switching 任务中，激活 layer 1 dendrite-inhibiting interneurons 会损害 relearning，但不影响已经学会的旧行为。这把 flexible learning 与树突局部计算、上下文整合和行为规则切换直接连接起来。\n\n机制上，树突抑制显著压低 dendritic shafts 的全局 calcium activity，同时减少 burst firing；更重要的是，兴奋性突触输入在 tuft dendrites 上呈现 rule-dependent clustering。这说明学习新规则不是简单改写全局表征，而可能依赖树突分支上的局部输入组合和上下文门控。\n\n它值得正式收录，因为这篇为 NeuroAI 中的 continual learning、context gating、rule switching 和 dendritic computation 提供了清晰生物机制：复杂行为适应可以由局部树突隔间承载，而不是只依赖单神经元点模型或全局网络权重更新。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-07",
      "doi": "10.1126/science.adx4358",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 876,
      "source_url": "https://pubmed.ncbi.nlm.nih.gov/42096555/",
      "paper_url": "https://doi.org/10.1126/science.adx4358",
      "project_urls": [
        "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=42096555&retmode=xml"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N64_Decoding_Alignment_Critique",
      "slug": "n64-decoding-alignment-critique",
      "detail_url": "papers/n64-decoding-alignment-critique/",
      "title": "Decoding Alignment without Encoding Alignment: A critique of similarity analysis in neuroscience",
      "summary": "这篇论文值得收录不是因为它给出新模型，而是因为它直接挑战 neuroscience / NeuroAI 里常用的 similarity analysis 解释方式。它强调 decoding alignment 不能推出 encoding alignment。\n\n这个 critique 对 AI 有明确外溢价值。当前大量模型-脑比较依赖 representation similarity、decoding similarity 或线性 probe 结果来宣称机制相似，但这些证据可能只说明可读出结果相似，而不是内部编码或功能原则相同。\n\n它值得正式收录，因为本库对 neuroscience 的标准是必须提供 AI-relevant brain principle 或方法论澄清。这篇正好提供了对模型-脑对齐评估的基础性警告。\n\n它没有更高，是因为它是方法批判和理论澄清，后续还需要替代评估框架和实证案例来形成新标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-07",
      "doi": "",
      "arxiv_id": "2605.05907",
      "collected_at": "",
      "collection_order": 875,
      "source_url": "https://arxiv.org/pdf/2605.05907.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.05907.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM70_VLMs_Lost_In_Attention",
      "slug": "mm70-vlms-lost-in-attention",
      "detail_url": "papers/mm70-vlms-lost-in-attention/",
      "title": "Large Vision-Language Models Get Lost in Attention",
      "summary": "这篇论文关注大视觉语言模型的一个基础可靠性问题：模型表面上能处理图文输入，但注意力机制可能在复杂图像、干扰区域或语言提示下偏离真正相关证据。\n\n作者围绕 attention loss 设计系统化诊断，分析 LVLM 在视觉 grounding、跨模态对齐和推理时如何被无关区域、局部显著性或提示结构牵引。\n\n论文配套代码，有助于复现实验和扩展到不同 VLM；它提供的不是单一任务分数，而是面向多模态模型内部注意力可靠性的诊断接口。\n\n它值得正式收录，因为 VLM attention/grounding 失配会直接影响多模态 reasoning、agent perception、GUI/robotics 输入理解和安全评测，是高溢出的 failure-analysis primitive。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-05-07",
      "doi": "",
      "arxiv_id": "2605.05668",
      "collected_at": "",
      "collection_order": 874,
      "source_url": "https://arxiv.org/pdf/2605.05668.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.05668.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/Lrbomchz/vlms_lost_in_attn"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "M50_AI_CoMathematician",
      "slug": "m50-ai-comathematician",
      "detail_url": "papers/m50-ai-comathematician/",
      "title": "AI Co-Mathematician: Accelerating Mathematicians with Agentic AI",
      "summary": "这篇论文把数学 AI 从单题求解推进到 mathematician-facing agentic workflow。它关注的是如何协助数学家推进研究，而不是只在形式化证明 benchmark 上提高一点通过率。\n\n这种 framing 对本库重要，因为 AI for math 的真正变化可能来自研究协作界面：提出可探索 conjecture、组织证明尝试、维护上下文、把失败路径转成新线索。\n\n它值得正式收录，因为它与近期 theorem proving agent、lemma library、AI scientist 路线形成互补，代表数学研究 workflow 化的一条明确分支。\n\n它没有更高，是因为数学研究协作的长期价值需要真实数学家使用、跨领域案例和可审计成果来证明。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "math_and_formal_reasoning",
      "theme_label": "数学与形式推理",
      "published_at": "2026-05-07",
      "doi": "",
      "arxiv_id": "2605.06651",
      "collected_at": "",
      "collection_order": 873,
      "source_url": "https://arxiv.org/pdf/2605.06651.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.06651.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "I19_Attractor_Geometry_Transformer_Memory",
      "slug": "i19-attractor-geometry-transformer-memory",
      "detail_url": "papers/i19-attractor-geometry-transformer-memory/",
      "title": "Attractor Geometry of Transformer Memory: From Conflict Arbitration to Confident Hallucination",
      "summary": "这篇论文重要的地方是把 transformer memory、冲突仲裁和 confident hallucination 放进同一个几何解释框架。它关注的不是某个 hallucination benchmark，而是模型记忆如何在内部形成吸引子结构。\n\n如果这个 framing 成立，它能解释为什么模型在证据冲突、模式补全和错误确信之间会表现出稳定但错误的输出。这类机制性解释对 memory editing、retrieval augmentation 和 hallucination mitigation 都有直接参考价值。\n\n它值得正式收录，因为本库对 interpretability 的要求不是漂亮可视化，而是能改变我们理解模型内部状态和失效模式的结构化解释。Attractor geometry 正好落在这个层面。\n\n它没有更高，是因为这类理论解释需要更多模型、任务和干预实验来验证；当前还不应把它视为 transformer hallucination 的完整统一理论。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-05-07",
      "doi": "",
      "arxiv_id": "2605.05686",
      "collected_at": "",
      "collection_order": 872,
      "source_url": "https://arxiv.org/pdf/2605.05686.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.05686.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "I18_Natural_Language_Autoencoders",
      "slug": "i18-natural-language-autoencoders",
      "detail_url": "papers/i18-natural-language-autoencoders/",
      "title": "Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations",
      "summary": "这篇工作的核心贡献是把 activation interpretability 从特征列表和人工解释推进到“向量 -> 文本 -> 向量”的可训练 bottleneck。它不是让模型随口解释自己，而是用重构原激活的目标约束解释文本必须携带真实内部状态信息。\n\n方法上，NLA 由 activation verbalizer 和 activation reconstructor 两个模块组成，联合训练以重构 residual stream activation。这个结构让自然语言解释第一次更像一个可优化的接口，而不是纯事后标注。\n\n它值得正式收录，因为它把 interpretability、auditing、evaluation awareness 和 hidden motivation detection 接到同一个可操作机制上。Anthropic 还释放了代码、open-model checkpoints 和 Neuronpedia 前端，工程复用价值也比较明确。\n\n它没有更高，是因为 NLA 解释仍可能 hallucinate，且训练和推理成本高；当前更像一个强的新解释接口，而不是已经被证明可靠的通用读心仪。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-05-07",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 871,
      "source_url": "https://transformer-circuits.pub/2026/nla/",
      "paper_url": "https://transformer-circuits.pub/2026/nla/",
      "project_urls": [
        "https://transformer-circuits.pub/2026/nla/",
        "https://www.anthropic.com/research/natural-language-autoencoders"
      ],
      "repo_urls": [
        "https://github.com/kitft/natural_language_autoencoders"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A273_CreativityBench_Agent_Tool_Repurposing",
      "slug": "a273-creativitybench-agent-tool-repurposing",
      "detail_url": "papers/a273-creativitybench-agent-tool-repurposing/",
      "title": "CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing",
      "summary": "CreativityBench 把 agent 创造性具体化为 affordance-based tool repurposing：能否识别工具的潜在可供性，并在非标准目标中重新组合使用。\n\n这个问题比普通工具调用更接近真实 agent 能力。真实任务经常需要把已有工具、API、文件和环境约束重新解释为可用操作，而不是按说明书执行。\n\n它值得正式收录，因为它提供了 agent creative reasoning 的 benchmark 形态，覆盖工具理解、任务重构和 affordance 推理。\n\n它没有更高，是因为创造性评测容易受题目设计、judge 标准和 benchmark gaming 影响，需要更多外部验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-07",
      "doi": "",
      "arxiv_id": "2605.02910",
      "collected_at": "",
      "collection_order": 870,
      "source_url": "https://arxiv.org/pdf/2605.02910.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.02910.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.02910"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A261_Skill1_Skill_Augmented_Agents",
      "slug": "a261-skill1-skill-augmented-agents",
      "detail_url": "papers/a261-skill1-skill-augmented-agents/",
      "title": "Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning",
      "summary": "这篇论文延续了 self-evolving agents 的关键路线：技能不只是 prompt library，而是需要被选择、使用、评估和蒸馏进 agent 行为。Skill1 把这些步骤放进统一 RL 框架。\n\n它的复用价值在于把 skill-augmented agent 的几个断裂环节合并为一个训练问题。对于 WebShop、ALFWorld 和更广工具型 agent，技能系统如果不能闭环演化，很快会退化成静态模板库。\n\n它值得正式收录，因为 agent capability acquisition 正在从 memory、tools 转向 skill lifecycle。Skill1 对这个 lifecycle 给出了更统一的训练接口。\n\n它没有更高，是因为技能演化证据仍集中在有限环境，离开放世界持续增长还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-07",
      "doi": "",
      "arxiv_id": "2605.06130",
      "collected_at": "",
      "collection_order": 869,
      "source_url": "https://arxiv.org/pdf/2605.06130.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.06130.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A260_STALE_Agent_Memory_Validity",
      "slug": "a260-stale-agent-memory-validity",
      "detail_url": "papers/a260-stale-agent-memory-validity/",
      "title": "STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?",
      "summary": "这篇论文抓住了 agent memory 里经常被忽略的核心问题：记住不难，知道什么时候记忆过期才难。长期 agent 如果不能识别 stale memory，会把历史状态当成现实，从而系统性犯错。\n\nSTALE 的价值在于把 memory validity 变成可测试问题，而不是泛泛讨论长期记忆。它对个人 agent、企业 agent、coding agent 和多日 coworker agent 都有直接工程意义。\n\n它值得正式收录，因为 agent memory 子领域不能只比较 recall 和 retrieval，还必须评估遗忘、更新、冲突和时效性。STALE 补的是一个长期会反复出现的评估接口。\n\n它没有更高，是因为它目前主要是 benchmark / diagnostic framing，还不是完整的 memory maintenance architecture。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-07",
      "doi": "",
      "arxiv_id": "2605.06527",
      "collected_at": "",
      "collection_order": 868,
      "source_url": "https://arxiv.org/pdf/2605.06527.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.06527.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A259_Agent_Scaffolding_Interference",
      "slug": "a259-agent-scaffolding-interference",
      "detail_url": "papers/a259-agent-scaffolding-interference/",
      "title": "More Is Not Always Better: Cross-Component Interference in LLM Agent Scaffolding",
      "summary": "这篇论文切中 agent 工程里的一个真实问题：更多 memory、tools、reflection、planner、verifier 不一定叠加成更强系统，组件之间可能互相干扰。这个结论比单个新 scaffold 更有长期价值。\n\n它把 agent scaffolding 从“堆模块”拉回到系统交互问题，强调组件间的负迁移、冲突和预算竞争。对长期 agent 设计来说，这类 failure primitive 比单点 benchmark 提升更重要。\n\n它值得正式收录，因为 agent 系统正在快速复杂化，而社区缺少判断什么时候加组件、什么时候删组件的评估语言。Cross-component interference 可以成为一个耐用的诊断维度。\n\n它没有更高，是因为目前还更像强实证和诊断论文，距离形成标准化 agent architecture theory 还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-07",
      "doi": "",
      "arxiv_id": "2605.05716",
      "collected_at": "",
      "collection_order": 867,
      "source_url": "https://arxiv.org/pdf/2605.05716.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.05716.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S78_DTap_Agent_Red_Teaming",
      "slug": "s78-dtap-agent-red-teaming",
      "detail_url": "papers/s78-dtap-agent-red-teaming/",
      "title": "DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents",
      "summary": "DTap 针对 agent 安全评估的核心问题：agent 会在动态、不可信、多工具环境中执行长程动作，传统静态 jailbreak 测试不足以覆盖实际风险。\n\n平台覆盖 14 个真实世界域和 50 多个模拟环境，复现 Google Workspace、PayPal、Slack 等常见系统中的工具调用、数据流和高风险操作。\n\n它值得正式收录，因为它提供可控、可交互、可复现的 agent red-teaming interface，并进一步引入 DTap-Red 自动化红队 agent 扩展评估规模。\n\n它没有更高，是因为红队平台的长期价值取决于环境真实性、攻击覆盖、社区采用和与真实权限系统的对接深度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "safety_governance_and_reliability",
      "theme_label": "安全、治理与可靠性",
      "published_at": "2026-05-06",
      "doi": "",
      "arxiv_id": "2605.04808",
      "collected_at": "",
      "collection_order": 866,
      "source_url": "https://arxiv.org/pdf/2605.04808.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.04808.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.04808"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL67_RLDX_1_VLA_Robotics",
      "slug": "rl67-rldx-1-vla-robotics",
      "detail_url": "papers/rl67-rldx-1-vla-robotics/",
      "title": "RLDX-1 Technical Report",
      "summary": "RLDX-1 面向 VLA generalist robotic policies，重点是把视觉、语言和动作能力放进真实机器人策略学习框架。\n\n它的价值在于 robotics/VLA 系统模式，而不是单一 manipulation trick。报告覆盖模型、数据、训练和评测，对后续机器人 foundation policy 有参考价值。\n\n它值得正式收录，因为本库扩大 robotics/embodied intelligence，但要求深度 AI 方法和系统复用价值。RLDX-1 属于 VLA 机器人策略系统报告。\n\n它没有更高，是因为技术报告类条目的长期影响取决于开放程度、真实机器人复现、跨平台泛化和社区采用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-05-06",
      "doi": "",
      "arxiv_id": "2605.03269",
      "collected_at": "",
      "collection_order": 865,
      "source_url": "https://arxiv.org/pdf/2605.03269.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.03269.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.03269"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N80_Hippocampal_Ripples_Planning",
      "slug": "n80-hippocampal-ripples-planning",
      "detail_url": "papers/n80-hippocampal-ripples-planning/",
      "title": "Human hippocampal ripples coordinate planning sequences and compositional representations in neocortex",
      "summary": "这篇 Nature Neuroscience 论文研究人脑如何在新问题中重组熟悉元素，核心是 hippocampus 与 mPFC 如何通过 ripples/replay 支持 planning 与 compositional inference。\n\n作者在 28 名癫痫患者中同时记录 hippocampus 和 cortical iEEG，让被试执行两个 LEGO-like inference tasks，从而观察在线推理中的序列规划与组合表征。\n\n结果显示 hippocampal ripples 会把 mPFC representations 推向 inferred relational configuration；replay 在 ripple periods 最强，并与 mPFC 活动协调，预测更高效的推理行为。\n\n它值得正式收录，因为它给 agent memory/planning 一个强脑机制参照：组合推理可以通过 replay 重新排列 building blocks，并在线更新前额叶表征，而不是只靠静态语义记忆。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-06",
      "doi": "10.1038/s41593-026-02291-3",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 864,
      "source_url": "https://www.nature.com/articles/s41593-026-02291-3",
      "paper_url": "https://www.nature.com/articles/s41593-026-02291-3",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "人类如何瞬间破解未知难题？《自然》用颅内脑电捕捉海马体拼乐高过程",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "human hippocampal ripples coordinate planning sequences and compositional representations in neocortex",
          "description": "《自然》期刊发表的最新脑科学研究，探讨了人类大脑如何在面对新颖未知难题时进行快速决策。研究团队利用高分辨率颅内脑电图（iEEG）技术，直接捕捉了28位受试者脑内的毫秒级电活动。结果发现，海马体通过尖波涟漪与内侧前额叶皮层进行高频协同，将已知的记忆碎片重组，实现组合性推理。实验表明，这种神经回放机制不仅能显著提升受试者在复杂规划任务中的准确率，还能大幅缩短反应时间。这一成果打破了海马体仅用于离线记忆巩固的传统认知，揭示了其在实时决策与知识灵活运用中的核心地位。",
          "x_post": "《自然》最新脑科学研究：基于28例颅内脑电数据揭示海马体与前额叶的在线规划机制\n\n人类能在瞬间将已知记忆碎片重组以解决未知难题，但其毫秒级的神经协作机制此前一直未被破解。该研究采用高分辨率颅内脑电图（iEEG）技术，在受试者进行“乐高式”组合推理任务时，直接捕捉深部脑区的毫秒级电活动。\n\n实验共记录了28位受试者脑内的1,650次海马体尖波涟漪（Ripples）事件。数据分析表明，背内侧前额叶（dmPFC）在推理中后期（2000-2590毫秒）专门编码空间组合结构，且海马体的重放强度与频率能显著预测受试者的推理表现与反应速度。\n\n这一发现为海马体与前额叶的实时对话提供了直接生理证据，证实了海马体在在线规划和知识灵活重组中的核心作用，拓展了其仅用于“离线记忆巩固”的传统认知。",
          "cover_url": "assets/covers/n80-hippocampal-ripples-planning-bd9aa03f70.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T11:21:00+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N106_PFC_VTA_Contingency_Degradation",
      "slug": "n106-pfc-vta-contingency-degradation",
      "detail_url": "papers/n106-pfc-vta-contingency-degradation/",
      "title": "Prefrontal to ventral tegmental area dynamics drive contingency degradation",
      "summary": "这篇 Nature 论文把认知灵活性中的“停止追逐旧奖励线索”具体化为可建模、可记录、可操控的 contingency degradation 信号。\n\n作者在经典 reward prediction error 模型中加入 meta-learning 参数，构建 meta-RPE 模型，更准确解释小鼠在 cue-reward 关系退化或增强时的舔舐行为。\n\n通过纵向双光子成像和单细胞全息光遗传，论文发现 mPFC 中一部分神经元专门编码 CD 信号并具有因果作用；进一步证明 mPFC→VTA 通路把该信号传回奖励系统，选择性加速旧行为降权。\n\n它值得收录，因为它给强化学习和 agent control 一个强生物原则：适应性不只是更新价值，还要有检测关系失效并主动降权旧策略的 meta-control 回路。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-06",
      "doi": "10.1038/s41586-026-10443-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 863,
      "source_url": "https://www.nature.com/articles/s41586-026-10443-5",
      "paper_url": "https://www.nature.com/articles/s41586-026-10443-5",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/stuberlab/Hjort-et-al.-2026-PFC-and-reversal-learning"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A258_ARIS_Adversarial_Research_Harness",
      "slug": "a258-aris-adversarial-research-harness",
      "detail_url": "papers/a258-aris-adversarial-research-harness/",
      "title": "ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration",
      "summary": "ARIS 的价值不在于“AI scientist again”，而在于它把 autonomous research 的 failure boundary 讲得非常清楚：真正危险的不是模型明显崩掉，而是它写出看似像真的结论，但证据链并不完整。\n\n它因此给出的不是单个 workflow，而是一套 harness pattern：executor / reviewer 分属不同模型家族，persistent research wiki 做长程复用，claim-evidence ledger 和 rendered PDF 检查去约束最后产物。这个 assurance layer 比一般 multi-agent research demo 更接近长期可用系统。\n\n它值得正式收录，因为科学发现 agent 现在最缺的不是再多一个 idea-generation loop，而是更可审计、更可追责的 research harness。ARIS 明显补到了这一层。\n\n它没有更高，是因为目前仍属于早期开放研究 harness，最强证据还是 architecture + early deployment experience，还没有大规模跨领域长期运行基准来证明其普适性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-06",
      "doi": "",
      "arxiv_id": "2605.03042",
      "collected_at": "",
      "collection_order": 862,
      "source_url": "https://arxiv.org/pdf/2605.03042.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.03042.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N79_Bidirectional_Recurrent_Gating",
      "slug": "n79-bidirectional-recurrent-gating",
      "detail_url": "papers/n79-bidirectional-recurrent-gating/",
      "title": "Modeling attention and binding in the brain through bidirectional recurrent gating",
      "summary": "这篇 Nature Communications 论文直接面向 attention 与 binding 的统一计算模型，而不是只做行为现象解释。\n\n作者提出 bidirectional recurrent gating：feedforward pathway 抽取视觉特征，top-down 和 lateral connections 传递任务/上下文调制信号，以 recurrent attention maps 控制信息流。\n\n模型在 recognition、segmentation、orienting、filtering、visual search 等任务上训练后，能够复现 perceptual load、inattentional blindness、multiplicative gain modulation 和 border-ownership coding 等心理物理与神经现象。\n\n它值得正式收录，因为它把脑启发 recurrence、gating、attention、binding 和 multitask learning 组合成可执行架构，对 AI 中 object binding、视觉注意力、世界模型中的选择性路由和可解释 recurrent perception 都有明确外溢。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-05",
      "doi": "10.1038/s41467-026-72146-9",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 861,
      "source_url": "https://www.nature.com/articles/s41467-026-72146-9.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-72146-9",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM52_iWorld_Bench_Interactive_WM",
      "slug": "mm52-iworld-bench-interactive-wm",
      "detail_url": "papers/mm52-iworld-bench-interactive-wm/",
      "title": "A Benchmark for Interactive World Models with a Unified Action Generation Framework",
      "summary": "interactive world model 一直缺少统一评测接口，尤其不同模型的 action interface 常常根本不兼容。这篇工作的关键不是再造一个 world model，而是提出统一的 action generation framework 去对齐评测。\n\niWorld-Bench 的价值在于把 interaction-related abilities 明确拆成可测任务，例如 distance perception 和 memory，并让不同交互范式的 world model 能在同一 benchmark 下比较。\n\n它值得正式收录，因为 benchmark primitive 在这个方向上比又一篇模型 paper 更稀缺。只要 world model 继续从纯生成转向可交互 agent substrate，这种统一评测接口就很重要。\n\n它没有更高，是因为当前仍然主要解决 benchmark/interface 统一问题，不直接证明某种 world-model architecture 的长期主导性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_generation_and_world_models",
      "theme_label": "多模态生成与世界模型",
      "published_at": "2026-05-05",
      "doi": "",
      "arxiv_id": "2605.03941",
      "collected_at": "",
      "collection_order": 860,
      "source_url": "http://arxiv.org/pdf/2605.03941v1.pdf",
      "paper_url": "http://arxiv.org/pdf/2605.03941v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C31_TrajCast_Force_Free_MD",
      "slug": "c31-trajcast-force-free-md",
      "detail_url": "papers/c31-trajcast-force-free-md/",
      "title": "Force-free molecular dynamics through autoregressive equivariant networks",
      "summary": "大多数 machine-learning molecular dynamics 仍然受制于一个老瓶颈：哪怕势能面学得很好，数值积分还是把时间步长卡得很小。TrajCast 的关键改写是直接预测位置和速度更新，从而把‘先算力、再积分’这条传统链路绕开。\n\n它的价值不只是快，而是给出了 force-free、autoregressive、equivariant 的统一接口，并在小分子、晶体和液体上都保持了结构、动力学和能量性质的一致性。对 AI-for-science 来说，这是明显的 simulation workflow primitive。\n\n这篇工作值得正式收录，因为它触及的是分子模拟的基本 operating pattern：如果能在更大步长上保持物理有效性，探索尺度和实验设计速度都会被直接改写。它对材料发现和物理现象探索都有直接外溢。\n\n它没有更高，是因为当前最强证据仍集中在分子与材料模拟范围内。force-free autoregressive dynamics 是否能成为更广模拟科学的默认范式，还需要更多体系证明。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-05",
      "doi": "10.1038/s42256-026-01227-7",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 859,
      "source_url": "https://www.nature.com/articles/s42256-026-01227-7",
      "paper_url": "https://www.nature.com/articles/s42256-026-01227-7",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "微软联合IBM打破分子模拟枷锁，将时间步长提升30倍发布新模型",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "force free molecular dynamics through autoregressive equivariant networks",
          "description": "微软联合IBM打破分子模拟枷锁，将时间步长提升30倍发布新模型\n\n这份研究介绍了一种名为 TrajCast 的新型机器学习框架，旨在解决传统分子动力学模拟计算成本过高的问题。与现有的机器学习势能模型不同，该框架采用自回归等变图神经网络，绕过复杂的力计算与数值积分，直接预测原子的位置和速度。实验证明，TrajCast 的模拟步长可比传统方法快 10 到 30 倍，且能精准还原小分子、晶体及液体的动力学与能量特性。此外，该模型展现出卓越的零外推泛化能力，在仅使用常温水数据训练的情况下，成功模拟了水分子的玻璃化转变过程。这种高效的数据利用率和扩展性，为加速材料科学发现及探索长尺度物理现象提供了强有力的工具。",
          "x_post": "微软联合IBM推出TrajCast框架：无力场分子动力学模拟时间步长最高提升30倍\n传统分子动力学模拟依赖复杂的力计算与数值积分，受限于0.5-1.0飞秒的极小时间步长，计算成本高昂。\n为此，研究团队提出自回归等变神经网络框架 TrajCast，通过引入速度嵌入并内置物理守恒约束，直接预测原子位置和速度。\n实验表明，该模型可将模拟步长提升至 30 飞秒（加速10至30倍），且能精准还原小分子、晶体及液体的动力学与能量特性。\n在仅使用常温水数据训练的条件下，TrajCast展现出卓越的零外推泛化能力，成功模拟了水分子的玻璃化转变过程。",
          "cover_url": "assets/covers/c31-trajcast-force-free-md-9d5d645a1c.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-21T15:28:27+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO53_RegFormer_GRN_Foundation",
      "slug": "bio53-regformer-grn-foundation",
      "detail_url": "papers/bio53-regformer-grn-foundation/",
      "title": "RegFormer: a single-cell foundation model powered by gene regulatory hierarchies",
      "summary": "这篇工作的关键不只是又做了一个 single-cell foundation model，而是把 gene regulatory hierarchies 明确接进了 foundation-model 接口。它瞄准的是现有单细胞模型常见的两个短板：缺 regulatory awareness，以及难以同时兼顾规模和生物可解释性。\n\n从仓库角度看，真正有复用价值的是它把 GRN 结构当成模型归纳偏置，而不只是下游后处理。这样一来，单细胞表示学习、遗传扰动建模和药物反应预测可以共享同一个更接近生物机制的表示空间。\n\n它值得正式收录，因为这类 regulatory-aware foundation model 很可能成为生命科学基础模型下一阶段的重要方向：不只做 transcript tokenization，而是把调控关系显式写进建模框架。对 perturbation modeling 和药物筛选工作流都有直接外溢。\n\n它没有更高，是因为当前证据仍主要集中在 single-cell analysis 及其近邻任务。它是否会成为更广生命科学 foundation model 的主流结构，还需要更多跨模态和跨实验体系验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "life_science_foundation_models",
      "theme_label": "生命科学基础模型",
      "published_at": "2026-05-05",
      "doi": "10.1038/s41467-026-72198-x",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 858,
      "source_url": "https://www.nature.com/articles/s41467-026-72198-x",
      "paper_url": "https://www.nature.com/articles/s41467-026-72198-x",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "华大研究院用AI预测靶向药效，攻克万级基因瓶颈，发布RegFormer",
          "url": "https://www.bilibili.com/video/BV1iVLi6PEA8",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1iVLi6PEA8",
            "https://youtu.be/2LlVFlQLzDQ"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "regformer a single cell foundation model powered by gene regulatory hierarchies",
          "description": "华大研究院在单细胞大模型领域取得突破。传统AI模型受限于算力瓶颈，在分析单细胞测序数据时最多只能处理两千个基因，容易丢失关键调控信息。为此，华大发布了新一代大模型RegFormer。该模型首次将基因调控网络先验知识与高效的Mamba架构融合，通过拓扑排序将无序基因转化为有序序列。基于2500万人类单细胞数据预训练，RegFormer成功突破万级基因输入瓶颈，实现了更低的计算复杂度和更强的泛化能力，不仅能极其精准地进行细胞分类，更能直接预测基因突变反应与抗癌靶向药效，为生命科学研究提供了更高效、更具生物学可解释性的分析工具。",
          "x_post": "华大研究院发布单细胞基础模型 RegFormer，突破万级基因输入并实现 2,500 万细胞预训练\n【背景】传统单细胞分析受限于 Transformer 架构 O(N²) 的算力瓶颈，输入基因量被压缩至 2,000 个以内，易丢失关键调控信息。\n【方法】RegFormer 结合 Mamba 架构，将基因调控网络先验知识进行拓扑排序，把无序基因转化为有序因果序列，实现 O(N) 线性复杂度。\n【数据】在 45 种组织、2,500 万人类单细胞数据集上完成预训练，RegFormer 成功支持 10,000 个基因的超长全局视距输入。\n【结论】该模型在细胞分类、基因突变反应及抗癌靶向药效预测等任务中展现出高生物保真度，为解析复杂生命系统提供了具有扩展性的分析框架。",
          "cover_url": "assets/covers/bio53-regformer-grn-foundation-9140e68b46.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-22T10:17:56+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A269_Context_to_Skills",
      "slug": "a269-context-to-skills",
      "detail_url": "papers/a269-context-to-skills/",
      "title": "From Context to Skills: Can Language Models Learn from Context Skillfully?",
      "summary": "这篇论文把长上下文使用重新表述为 context-to-skill：模型不只是检索上下文片段，而是从上下文中抽取规则、程序和可复用技能。\n\n它对 agent 能力扩展很相关。很多真实任务的关键不是参数知识，而是能否临时学习文档、流程、API 或业务规则，并把这些信息转化成后续执行策略。\n\n它值得正式收录，因为它把 context learning 与 skill augmentation 连接起来，符合本库对 agent memory、capability acquisition 和 skill systems 的扩展重点。\n\n它没有更高，是因为方法仍需在更开放、更长程、更工具化的真实任务中验证，尤其是技能抽取错误如何传播到执行阶段。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-05",
      "doi": "",
      "arxiv_id": "2604.27660",
      "collected_at": "",
      "collection_order": 857,
      "source_url": "https://arxiv.org/pdf/2604.27660.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.27660.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2604.27660",
        "https://github.com/S1s-Z/Ctx2Skill"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A257_Workspace_Bench_File_Dependencies",
      "slug": "a257-workspace-bench-file-dependencies",
      "detail_url": "papers/a257-workspace-bench-file-dependencies/",
      "title": "Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies",
      "summary": "很多 desktop 或 coding agent benchmark 的问题是文件世界太干净、依赖关系太薄。Workspace-Bench 把评测对象换成了更接近真实工作空间的 file graph environment，而不是几份预摆好的小文件。\n\n它的耐用点在于规模和结构同时成立：5 个 worker profile、74 种文件类型、20,476 个文件、388 个任务、7,399 条 rubric。这让 agent 不只是做检索，而是在大依赖图里做跨文件推理和决策。\n\n它值得正式收录，因为未来 coworker agent 的核心难题之一就是 workspace dependency reasoning，这篇 benchmark 明确补到了这一层。\n\n它没有更高，是因为虽然 benchmark 设计非常对路，但目前仍主要聚焦 workspace/task 评测接口，而非更广跨系统办公执行闭环。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "software_engineering_and_coding_agents",
      "theme_label": "软件工程与编程智能体",
      "published_at": "2026-05-05",
      "doi": "",
      "arxiv_id": "2605.03596",
      "collected_at": "",
      "collection_order": 856,
      "source_url": "http://arxiv.org/pdf/2605.03596v1.pdf",
      "paper_url": "http://arxiv.org/pdf/2605.03596v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T34_Rocket_Recurrent_HPO",
      "slug": "t34-rocket-recurrent-hpo",
      "detail_url": "papers/t34-rocket-recurrent-hpo/",
      "title": "Automated deep learning by recurrent hyperparameter optimization",
      "summary": "很多 AutoML 或 HPO 论文的问题在于只是在固定 search space 上再堆一个搜索器。Rocket 更值得收，是因为它把超参数优化明确变成 recurrent decision process，用 self-play RL 学一个可迁移的优化策略，而不是依赖每次重新手工设计 priors。\n\n这篇工作的接口价值在于 mixed-type hyperparameters、reward approximation、以及真实部署成本一起被纳入同一个自动化框架。它瞄准的不是 benchmark 上多赢几个点，而是减少现实训练和部署里的调参时间与算力浪费。\n\n从本库视角看，它属于 core-ML workflow primitive：如果自动 HPO 真能以专家级质量覆盖更广模型与任务，这会直接改变实验室和工业训练栈里的默认操作方式。它不是简单的 tuning recipe，而是 training workflow automation。\n\n它没有更高，是因为当前最强证据仍聚焦在超参数优化这一层，而不是更大范围的自动建模闭环。它是否会演化成更通用的 automated training controller，还需要后续工作验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-05-04",
      "doi": "10.1038/s41467-026-72413-9",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 855,
      "source_url": "/Users/lijie/Downloads/s41467-026-72413-9_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-72413-9",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL81_KinDER_Physical_Reasoning",
      "slug": "rl81-kinder-physical-reasoning",
      "detail_url": "papers/rl81-kinder-physical-reasoning/",
      "title": "KinDER: A Physical Reasoning Benchmark for Robot Learning and Planning",
      "summary": "KinDER is a benchmark for embodied physical reasoning that isolates kinematic and dynamic constraints in procedurally generated robotic environments.\n\nThe suite includes parameterized skills, demonstrations, Gymnasium-compatible infrastructure, and baselines across planning, imitation, reinforcement learning, and foundation-model approaches.\n\nIts value is methodological: it separates physical reasoning challenges from perception and language confounds, making it easier to diagnose what robot-learning methods actually understand about constraints, tools, and dynamics.\n\nFor the robotics track, it is a useful benchmark interface for evaluating reusable physical reasoning rather than one narrow manipulation task.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-05-04",
      "doi": "",
      "arxiv_id": "2604.25788",
      "collected_at": "",
      "collection_order": 854,
      "source_url": "https://arxiv.org/pdf/2604.25788.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.25788.pdf",
      "project_urls": [
        "https://prpl-group.com/kinder-site/"
      ],
      "repo_urls": [
        "https://github.com/Princeton-Robot-Planning-and-Learning/kindergarden"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MED7_PhysicianBench_EHR_Agents",
      "slug": "med7-physicianbench-ehr-agents",
      "detail_url": "papers/med7-physicianbench-ehr-agents/",
      "title": "PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments",
      "summary": "很多医疗 agent benchmark 只测静态问答、单步意图或者文本知识，离真实临床系统还差很远。PhysicianBench 过线的原因，是它把评测对象换成了真实 EHR 环境里的长链路 physician tasks，而不是抽象化 toy interaction。\n\n它的接口设计也很扎实：真实患者记录、标准 EHR API、跨 21 个专科、平均 27 次工具调用，以及分阶段 checkpoint 验证。这使它更像 execution-grounded workflow benchmark，而不是又一个医疗问答集。\n\n它值得正式收录，因为高风险 agent 的关键不是‘会不会答’，而是‘能不能在真实系统里可靠检索、推理、执行和记录’。这篇工作把这个问题具体化了，对未来 clinical agent 和一般 enterprise agent benchmark 都有参考价值。\n\n它没有更高，是因为当前场景仍局限在医疗 EHR 工作流。尽管执行式评测接口很耐用，但它还不是跨所有高风险 agent 系统的统一基准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "public_health_and_medical_operations",
      "theme_label": "公共卫生与医疗运营",
      "published_at": "2026-05-04",
      "doi": "",
      "arxiv_id": "2605.02240",
      "collected_at": "",
      "collection_order": 853,
      "source_url": "http://arxiv.org/pdf/2605.02240v1.pdf",
      "paper_url": "http://arxiv.org/pdf/2605.02240v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MED6_Fair_Unlearning_Clinical_AI",
      "slug": "med6-fair-unlearning-clinical-ai",
      "detail_url": "papers/med6-fair-unlearning-clinical-ai/",
      "title": "Mitigating algorithmic unfairness arising from forgetfulness of medical records in clinical artificial intelligence",
      "summary": "这篇论文抓住了 clinical AI 一个非常现实、也非常容易被忽略的系统矛盾：患者要求删除病历时，模型执行 machine unlearning 可能会改变对不同亚群体的认识，从而破坏公平性。它真正贡献的是把 ‘right to be forgotten’ 和 ‘fairness’ 的冲突正式化。\n\n方法上，它不是泛泛讨论伦理，而是提出 fair unlearning strategy，并用梯度正交化去避免遗忘目标和公平目标彼此直接干扰。这让它更像一个可复用的高风险部署接口，而不是单次医疗公平 case study。\n\n它值得正式收录，因为任何处理长期记录、合规删除和高风险决策的 AI 系统都可能遇到类似张力。虽然论文落点在 clinical AI，但这里暴露的是更一般的 deployment-time governance primitive。\n\n它没有更高，是因为当前证据主要集中在多医院临床预测任务。它对更广金融、公共治理或企业合规系统的迁移性很合理，但还缺直接验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "public_health_and_medical_operations",
      "theme_label": "公共卫生与医疗运营",
      "published_at": "2026-05-04",
      "doi": "10.1038/s41467-026-72601-7",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 852,
      "source_url": "/Users/lijie/Downloads/s41467-026-72601-7_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-72601-7",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C32_Collaborative_Graph_Diffusion_Molecules",
      "slug": "c32-collaborative-graph-diffusion-molecules",
      "detail_url": "papers/c32-collaborative-graph-diffusion-molecules/",
      "title": "A collaborative constrained graph diffusion model for the generation of realistic synthetic molecules",
      "summary": "分子生成领域一直有一个老问题：模型能生成很多‘看起来像分子’的图，但离真实可合成、可用的候选还有距离。这篇工作有价值的地方，在于它不是继续追求 unconstrained novelty，而是把 realistic synthetic molecules 当成一等目标。\n\n从方法形态看，它属于 constrained graph diffusion 这条更实用的生成路线。重点不只是 graph diffusion 本身，而是把约束、协同和 realism 一起组织进生成过程，让输出更贴近真正可进入化学工作流的候选空间。\n\n它值得正式收录，因为这类 realism-first 分子生成接口，比单纯 benchmark 分数更可能改变药物和材料早期探索流程。只要生成模型继续向实验前筛选靠近，这种约束式生成范式就有耐用价值。\n\n它没有更高，是因为我当前拿到的主要是一手题目和期刊摘要级信息，还没有更多公开细节去证明它相对现有 constrained molecular generation 路线的长期优势。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-05-04",
      "doi": "10.1038/s42256-026-01229-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 851,
      "source_url": "https://www.nature.com/articles/s42256-026-01229-5",
      "paper_url": "https://www.nature.com/articles/s42256-026-01229-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A255_MolmoAct2_VLA_Deployment",
      "slug": "a255-molmoact2-vla-deployment",
      "detail_url": "papers/a255-molmoact2-vla-deployment/",
      "title": "MolmoAct2: Action Reasoning Models for Real-world Deployment",
      "summary": "MolmoAct2 过线，不是因为它又把 open VLA 分数推高了一点，而是因为它几乎把真实部署最关键的几块一起补齐了：open backbone、open data、open action tokenizer、以及可控延迟的 reasoning interface。\n\n这篇工作最耐用的地方，是它没有把 reasoning 和 action 强行塞成一个黑盒，而是通过 OpenFAST tokenizer、per-layer KV conditioning、以及 MolmoThink 的自适应深度机制，把感知、动作和推理的接口重新组织了一遍。\n\n从仓库角度看，这类 fully open deployment-oriented VLA 很重要。它不只是模型 release，更像一套可复用的 embodied deployment stack，对低成本平台、双臂数据、和 open robotics 生态都有直接外溢。\n\n它没有更高，是因为虽然证据面已经比大多数 open VLA 强很多，但它仍主要在现实部署友好的 open VLA 主线上建立优势。它是否会成为更广具身智能默认栈，还要看后续生态采纳。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-04",
      "doi": "",
      "arxiv_id": "2605.02881",
      "collected_at": "",
      "collection_order": 850,
      "source_url": "http://arxiv.org/pdf/2605.02881v1.pdf",
      "paper_url": "http://arxiv.org/pdf/2605.02881v1.pdf",
      "project_urls": [
        "https://allenai.org/blog/molmoact2"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A254_DataClaw_Data_Analysis_Benchmark",
      "slug": "a254-dataclaw-data-analysis-benchmark",
      "detail_url": "papers/a254-dataclaw-data-analysis-benchmark/",
      "title": "DataClaw: A Process-Oriented Agent Benchmark for Exploratory Real-World Data Analysis",
      "summary": "这篇 benchmark 的价值在于它把 exploratory data analysis 当成 process problem，而不是 final-answer problem。现实里的数据分析经常发生在数据脏、先验弱、目标不完全清晰的环境里，单看最终答案会掩盖大量过程差异。\n\nDataClaw 提供的不是单纯更大的数据集，而是带 milestone annotation 的 process-oriented evaluation。这样不仅能判断 agent 成没成功，还能看它卡在哪一步、用了什么探索策略、是不是出现了 reasoning collapse。\n\n它值得正式收录，因为企业分析、政策研究和复杂 BI workflow 都会遇到类似结构。这个 benchmark 的外溢点不在具体数据域，而在把探索式数据工作正式写成 agent evaluation interface。\n\n它没有更高，是因为当前场景仍主要集中在 data-analysis agents，而不是更广泛的 general-purpose coworker agents。它的 process evaluation 设计很强，但还不是统一上位 benchmark。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-04",
      "doi": "",
      "arxiv_id": "2605.02503",
      "collected_at": "",
      "collection_order": 849,
      "source_url": "http://arxiv.org/pdf/2605.02503v1.pdf",
      "paper_url": "http://arxiv.org/pdf/2605.02503v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL73_ESARBench_UAV_Search_Rescue",
      "slug": "rl73-esarbench-uav-search-rescue",
      "detail_url": "papers/rl73-esarbench-uav-search-rescue/",
      "title": "ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue",
      "summary": "ESARBench 提出 Embodied Search and Rescue 任务，把 UAV 从视觉检测/路径规划推进到多模态 agent 搜索、线索整合和救援决策。\n\n基准基于 Unreal Engine 5 与 AirSim，使用真实 GIS 数据构建高保真环境，并引入天气、时间、地形和动态救援变量，使任务更接近真实 SAR 场景。\n\n它值得正式收录，因为它为 MLLM-driven UAV agents 提供了可复用的 embodied benchmark，覆盖感知、探索、空间推理、语义理解和决策。\n\n它没有更高，是因为目前主要是模拟基准，真实无人机部署、通信约束、安全边界和多机协作仍需进一步验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-05-02",
      "doi": "",
      "arxiv_id": "2605.01371",
      "collected_at": "",
      "collection_order": 848,
      "source_url": "https://arxiv.org/pdf/2605.01371.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.01371.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.01371"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO52_SCMBench_Multiomics_Integration",
      "slug": "bio52-scmbench-multiomics-integration",
      "detail_url": "papers/bio52-scmbench-multiomics-integration/",
      "title": "SCMBench: benchmarking domain-specific and foundation models for single-cell multi-omics data integration",
      "summary": "single-cell multi-omics integration 这条线已经不缺模型，但一直缺一套能把 domain-specific models 和 foundation models 放到同一张可操作坐标系里的评测接口。SCMBench 的贡献就在这里：它不是只比 integration accuracy，而是把 biomarker detection、trajectory inference 和 batch-effect correction 一起纳入。\n\n这篇工作的价值不只是 benchmark。它还明确揭示 foundation models 在该任务上相对专用模型的短板，并提出 lightweight adaptation strategy 去缩小差距。也就是说，它同时贡献了 evaluation interface 和一个可复用的 adaptation hook。\n\n从仓库视角看，这类工作属于 AI-for-biology workflow infrastructure。它帮助研究者在单细胞多组学场景下更可靠地选择、比较和改造 foundation models，而不是停留在某一个下游分数。\n\n它没有更高，是因为当前影响范围仍主要集中在 single-cell multi-omics integration 这条工作流。尽管方法和评测接口都很实用，但还没有证明会外溢成更广生命科学 foundation-model 评测的统一标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "life_science_foundation_models",
      "theme_label": "生命科学基础模型",
      "published_at": "2026-05-02",
      "doi": "10.1038/s41467-026-72570-x",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 847,
      "source_url": "/Users/lijie/Downloads/s41467-026-72570-x_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-72570-x",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S75_Stable_GFlowNet_Red_Teaming",
      "slug": "s75-stable-gflownet-red-teaming",
      "detail_url": "papers/s75-stable-gflownet-red-teaming/",
      "title": "Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance",
      "summary": "这篇工作的关键不是再做一个 attack generator，而是把 LLM red-teaming 里的“效果强”和“覆盖广”同时作为训练稳定性问题来处理。它针对 GFlowNet 在 noisy reward 场景下最致命的 mode collapse 做了结构性修改。\n\n最有复用价值的是三件事：去掉不稳定的 partition-function 估计、用 pairwise comparison 维持分布学习、再用 fluency stabilizer 避免模型退化成胡言乱语攻击。这些都不是一次性 trick，而是可以迁移到更广 adversarial trajectory generation 里的训练原语。\n\n它值得正式收录，因为 agent/LLM safety 现在缺的不是更多人工 jailbreak case，而是能持续探索高质量、多样攻击空间的生成方法。Stable-GFlowNet 明显比单纯 search / evolutionary red-teaming 更像耐用方法。\n\n它没有更高，是因为当前证据仍主要落在 red-teaming 这一层，还没有证明它能成为更广安全探索或 agent stress-testing 的通用分布学习接口。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-05-01",
      "doi": "",
      "arxiv_id": "2605.00553",
      "collected_at": "",
      "collection_order": 846,
      "source_url": "https://arxiv.org/pdf/2605.00553v1",
      "paper_url": "https://arxiv.org/pdf/2605.00553v1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL66_Odysseus_Long_Horizon_VLM_Games",
      "slug": "rl66-odysseus-long-horizon-vlm-games",
      "detail_url": "papers/rl66-odysseus-long-horizon-vlm-games/",
      "title": "Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning",
      "summary": "Odysseus 把 VLM 扩展到 100+ turn 的游戏决策任务，目标是长程交互、视觉状态理解和策略学习，而不是短任务 QA。\n\n游戏环境在这里不是娱乐应用，而是可控、长程、多状态的 embodied/interactive decision benchmark。它能暴露 VLM 在规划、记忆、探索和反馈利用上的限制。\n\n它值得正式收录，因为本库收 game/NPC/procedural environment 方向时要求改变 interactive evaluation 或 agent training workflow。Odysseus 符合长程 VLM-RL 评测和训练模式。\n\n它没有更高，是因为游戏环境到真实世界 embodied intelligence 的迁移仍有限，且长期表现可能依赖特定环境设计。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-05-01",
      "doi": "",
      "arxiv_id": "2605.00347",
      "collected_at": "",
      "collection_order": 845,
      "source_url": "https://arxiv.org/pdf/2605.00347.pdf",
      "paper_url": "https://arxiv.org/pdf/2605.00347.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2605.00347"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL63_Learning_While_Deploying",
      "slug": "rl63-learning-while-deploying",
      "detail_url": "papers/rl63-learning-while-deploying/",
      "title": "Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies",
      "summary": "这篇论文最值钱的不是又把某个机器人任务做到了 95%，而是把 generalist robot policy 的 post-deployment improvement 写成了 fleet-scale 闭环。它关心的是部署之后如何持续吸收真实物理经验，而不是把所有能力都押在离线预训练上。\n\n方法上它把 offline-to-online bridge 处理得比较工程化：从 pretrained VLA policy 出发，利用 fleet rollout 和 human intervention 回收数据，再用稳健 value estimation 与 flow-based policy extraction 做持续更新。这个结构对真实机器人部署比单机 RL 更有复用性。\n\n它值得正式收录，因为未来通用机器人系统最大的落差之一就是离线数据和真实部署之间的 distribution shift。LWD 给出了一个清晰的长期运行学习工作流，而不是一次性 benchmark 攻关。\n\n它没有更高，是因为当前验证仍集中在 16 台双臂机器人和 8 个任务上。虽然已经很强，但距离更广机器人群体和更多 embodiment 的统一框架还有一步。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-05-01",
      "doi": "",
      "arxiv_id": "2605.00416",
      "collected_at": "",
      "collection_order": 844,
      "source_url": "https://arxiv.org/pdf/2605.00416v1",
      "paper_url": "https://arxiv.org/pdf/2605.00416v1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N99_PFC_Motor_Communication_Subspace",
      "slug": "n99-pfc-motor-communication-subspace",
      "detail_url": "papers/n99-pfc-motor-communication-subspace/",
      "title": "A communication subspace relays context-dependent actions from human prefrontal to motor cortex",
      "summary": "这篇 Nature Neuroscience 论文研究人类前额叶如何把依赖任务上下文的行动信息传递给运动皮层。\n\n作者使用人类直接脑记录，发现跨区群体活动并非全维度广播，而是通过特定 communication subspace 高效中继行动信息。\n\n这与本库此前收录的 hippocampal-retrosplenial subspace communication 形成互补：不同认知任务可能都依赖低维子空间完成跨区信息路由。\n\n它值得收录，因为 communication subspace 是 NeuroAI 中非常重要的可迁移抽象，可启发模块化 agent、动作条件路由、上下文门控和低维控制接口。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-05-01",
      "doi": "10.1038/s41593-026-02290-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 843,
      "source_url": "https://www.nature.com/articles/s41593-026-02290-4",
      "paper_url": "https://www.nature.com/articles/s41593-026-02290-4",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MED5_GSCo_Generalist_Specialist_Collaboration",
      "slug": "med5-gsco-generalist-specialist-collaboration",
      "detail_url": "papers/med5-gsco-generalist-specialist-collaboration/",
      "title": "Towards generalizable AI in medicine via Generalist-Specialist Collaboration",
      "summary": "这篇论文的价值不在于又训练了一个更大的医疗模型，而在于给出了一个更耐用的部署接口：让 generalist foundation model 和 lightweight specialists 协同工作，而不是强迫单一模型同时兼顾全部泛化与全部精度。\n\n从本库角度看，真正重要的是它把‘generalize broadly’和‘be precise locally’之间的张力转成了一个可复用的系统模式。specialists 负责提供诊断建议、相似病例等 expert context，generalist 负责统一推理和最终输出，这比单纯的 ensemble 更像工作流层协作架构。\n\n它值得正式收录，因为这类 generalist-specialist cooperation 不只适用于医学。只要一个高覆盖基础模型和若干高精度窄专家之间存在协同空间，这种协作式接口就可能成为多模态、高风险应用里的通用部署模式。\n\n它没有更高，是因为当前最强证据仍主要集中在医疗图像诊断与报告生成场景；其跨更广临床流程或其他高风险领域的外溢虽然合理，但还需要进一步外部验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "public_health_and_medical_operations",
      "theme_label": "公共卫生与医疗运营",
      "published_at": "2026-05-01",
      "doi": "10.1038/s41551-026-01653-3",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 842,
      "source_url": "https://www.nature.com/articles/s41551-026-01653-3",
      "paper_url": "https://www.nature.com/articles/s41551-026-01653-3",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S76_Intern_Atlas_AI_Scientist_Infrastructure",
      "slug": "s76-intern-atlas-ai-scientist-infrastructure",
      "detail_url": "papers/s76-intern-atlas-ai-scientist-infrastructure/",
      "title": "Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists",
      "summary": "Intern-Atlas 试图把科研基础设施从 paper/citation graph 转向 methodological evolution graph。它关注方法如何继承、组合、替换和演进，而不只是论文之间谁引用谁。\n\n这对 AI scientist 很关键，因为自动科研 agent 需要理解研究路线、方法谱系、组件关系和可能的下一步，而普通检索很难提供这种结构。\n\n它值得正式收录，因为本库收 agent-driven scientific workflow 和 AI-science infrastructure。Intern-Atlas 是面向 AI 科学家的研究地图和方法演化基础设施。\n\n它没有更高，是因为方法图谱的质量、覆盖、自动抽取准确性和实际对科研 agent 的增益还需要更长周期验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-04-30",
      "doi": "",
      "arxiv_id": "2604.28158",
      "collected_at": "",
      "collection_order": 841,
      "source_url": "https://arxiv.org/pdf/2604.28158.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.28158.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2604.28158"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R71_ANCORA_Verifiable_Questioning",
      "slug": "r71-ancora-verifiable-questioning",
      "detail_url": "papers/r71-ancora-verifiable-questioning/",
      "title": "ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning",
      "summary": "这篇论文的关键推进不是再做一个 verifier-RL 变体，而是把自改进的入口从‘学会回答’进一步推到‘学会提出可验证问题’。也就是说，模型不只消费既有题目，而是通过 Proposer-Solver 双角色自己扩展 curriculum。\n\nANCORA 真正有方法味道的地方在于它不是无约束 self-play。作者引入了 manifold projection、自蒸馏 SFT、UCB-guided Curriculum DAG 和严格的 solver-verified novelty filter，目的是让 proposer-solver 循环不至于塌成垃圾题目或奖励投机。\n\n它值得正式收录，因为这提供了一种更耐用的 verifiable reasoning self-improvement primitive：用问题生成来放大可验证训练信号，而不是只在固定 benchmark 上做 answer-side RL。对 theorem-style reasoning、code reasoning 和 broader inference-time curriculum design 都有外溢。\n\n它没有更高，是因为当前最强证据仍集中在 verifier-friendly reasoning domains，距离更广开放世界问题上的稳定自改进还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-30",
      "doi": "",
      "arxiv_id": "2604.27644",
      "collected_at": "",
      "collection_order": 840,
      "source_url": "https://arxiv.org/pdf/2604.27644.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.27644.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "PH7_Merlin_CT_VLM",
      "slug": "ph7-merlin-ct-vlm",
      "detail_url": "papers/ph7-merlin-ct-vlm/",
      "title": "Merlin: a computed tomography vision–language foundation model and dataset",
      "summary": "这篇 Nature 论文把 medical VLM 从 2D 图像和短报告推进到 3D abdominal CT 的 foundation model 工作流。\n\nMerlin 使用 multistage pretraining，从 15,331 个 CT scans、超过 600 万图像、180 万诊断代码和 600 万 report tokens 学习，不依赖额外人工标注。\n\n评估覆盖 6 类任务和 752 个具体任务，包括 zero-shot findings、phenotype classification、cross-modal retrieval、5-year chronic disease prediction、report generation 和 3D semantic segmentation，并在 44,098 个外部 CT scans 上验证。\n\n它值得正式收录，因为它不是单一医学预测器，而是可复用的 3D medical VLM/dataset/system pattern，对医学影像 foundation model、跨模态检索、报告生成和临床工作流自动化都有长期参考价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "public_health_and_medical_operations",
      "theme_label": "公共卫生与医疗运营",
      "published_at": "2026-04-30",
      "doi": "10.1038/s41586-026-10181-8",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 839,
      "source_url": "https://www.nature.com/articles/s41586-026-10181-8",
      "paper_url": "https://www.nature.com/articles/s41586-026-10181-8",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "两万医生缺口，斯坦福用AI看懂3D CT，发布首个医疗大模型Merlin",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "merlin a computed tomography vision language foundation model and dataset",
          "description": "斯坦福大学团队针对全球放射科医生短缺及传统二维医疗AI无法理解三维空间关系的问题，推出了首个三维医疗影像视觉语言大模型Merlin。该模型打破了传统二维切片的限制，能够直接处理原生三维体素数据，并利用医院真实的非结构化历史病历进行多模态对齐自学习，彻底摆脱了高昂的人工标注依赖。在包含零样本病灶分类、报告生成等752项临床任务中，Merlin的诊断性能全面超越现有二维模型，并在多家外部医疗机构中展现出极强的泛化能力。目前，该研究已开源代码与数据集，将显著提升医生的诊断效率，为未来的生物标志物发现与疾病风险预测提供强有力的工具。",
          "x_post": "斯坦福大学发布首个3D医疗影像视觉语言大模型Merlin，基于超1.5万份三维CT并可应对752项临床任务\n【背景】全球放射科医生面临缺口，且传统2D AI因丢失三维空间关系、无法处理长病历，难以满足复杂临床诊断需求。\n【方法】Merlin直接处理原生3D体素数据，通过“放射学报告拆解”将局部解剖区域与病历描述精准对齐，实现免标注的多模态自学习。\n【证据】该模型基于超1.5万次腹部CT扫描及180万个电子病历代码训练，在零样本病灶分类、报告生成等752项临床任务中表现优于现有2D模型，并已完成多机构外部验证。\n【结论】目前该研究已开源代码与数据集，为疾病风险预测提供工具支持，但其真实临床泛化性能仍需在不同硬件设备上进一步验证。",
          "cover_url": "assets/covers/ph7-merlin-ct-vlm-43aba9d9f1.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T07:14:49+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "PH7_LLM_Physician_Reasoning",
      "slug": "ph7-llm-physician-reasoning",
      "detail_url": "papers/ph7-llm-physician-reasoning/",
      "title": "Performance of a large language model on the reasoning tasks of a physician",
      "summary": "这篇 Science 论文把 LLM 放到临床医师推理任务中评估，而不是只做医学问答或单点诊断 benchmark。\n\n研究覆盖多组挑战性临床案例，并与数百名医生基线比较；还包含急诊患者场景中的人类专家与 AI second opinion 对照。\n\n结果显示 LLM 在多个实验中超过医生基线，并表现出相对旧一代临床 AI 决策支持的持续提升。\n\n它值得收录，因为它把医学 LLM 评估推进到临床推理和 second-opinion workflow 层面，对 AI 医疗工作流、前瞻性试验设计和临床责任边界有长期参考价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "public_health_and_medical_operations",
      "theme_label": "公共卫生与医疗运营",
      "published_at": "2026-04-30",
      "doi": "10.1126/science.adz4433",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 838,
      "source_url": "https://doi.org/10.1126/science.adz4433",
      "paper_url": "https://doi.org/10.1126/science.adz4433",
      "project_urls": [
        "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=42060751&retmode=xml"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N101_LLM_Brain_Spurious_Alignment",
      "slug": "n101-llm-brain-spurious-alignment",
      "detail_url": "papers/n101-llm-brain-spurious-alignment/",
      "title": "Spurious alignment between large language models and brains can emerge from non-robust methods and overlooked confounds",
      "summary": "这篇 Nature Communications 论文直接质疑 LLM-brain alignment 研究中的方法学稳健性。\n\n作者跨多个模型、方法和三个常用神经数据集分析 neural predictivity，发现 shuffled train-test splits 曾导致有影响力但虚假的结论。\n\n他们还显示 LLM activation extraction 选择会偏向特定模型类别，而 position signal 和 word rate 等混杂变量可与训练好的 LLM 竞争，甚至解释 untrained LLM 的神经预测性。\n\n它值得收录，因为它为 NeuroAI 和认知神经科学中的模型-大脑相似性分析提供了重要方法学边界，防止把 confound 当成智能机制。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-04-30",
      "doi": "10.1038/s41467-026-72253-7",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 837,
      "source_url": "https://www.nature.com/articles/s41467-026-72253-7_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-72253-7_reference.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A310_Synthetic_Computers_Productivity",
      "slug": "a310-synthetic-computers-productivity",
      "detail_url": "papers/a310-synthetic-computers-productivity/",
      "title": "Synthetic Computers at Scale for Long-Horizon Productivity Simulation",
      "summary": "This paper proposes synthetic user computers as scalable environments for long-horizon productivity-agent training and evaluation, including realistic folders, artifacts, collaborator context, and multi-deliverable objectives.\n\nThe reported setup runs agents for thousands of turns over many hours in simulated professional computer environments, generating experiential learning signals from extended task execution rather than short benchmark prompts.\n\nIts central contribution is an environment-generation pattern for agent self-improvement: create diverse synthetic workspaces, let agents work through month-scale objectives, and use the resulting traces to improve later agents.\n\nFor this repository, the paper is important as an agent-training substrate and evaluation direction for real computer-use productivity workflows.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-30",
      "doi": "",
      "arxiv_id": "2604.28181",
      "collected_at": "",
      "collection_order": 836,
      "source_url": "https://arxiv.org/pdf/2604.28181.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.28181.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/datasets/microsoft/synthetic-computers-at-scale"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A253_InteractWeb_Bench_Blind_Execution",
      "slug": "a253-interactweb-bench-blind-execution",
      "detail_url": "papers/a253-interactweb-bench-blind-execution/",
      "title": "InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?",
      "summary": "现在很多 web coding benchmark 默认用户需求是清晰的、信息充分的，agent 只要执行就行。但真实低代码场景里，真正的难点往往是用户本身表达含混、矛盾甚至带噪，这会让 agent 陷入一种更根本的失败模式：blind execution。\n\nInteractWeb-Bench 的价值就在于把这个失败模式正式命名并 benchmark 化。它不是简单加点噪声，而是围绕非专家用户条件，引入 persona-driven instruction perturbations 和 Clarify / Implement / Verify / Submit 的统一交互动作空间，使 benchmark 真正覆盖 intent refinement 这一层。\n\n这篇工作值得正式收录，因为它为 multimodal web / coding agent 提供了一个更耐用的 evaluation interface。真正可复用的不是网页题目本身，而是把 agent 从盲执行推向澄清-实现-验证闭环的评测框架。\n\n它没有升到更高等级，因为目前任务域仍集中在 interactive website generation。尽管 failure mode 很通用，但它还不是所有 computer-use agent 的统一上位 benchmark。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-30",
      "doi": "",
      "arxiv_id": "2604.27419",
      "collected_at": "",
      "collection_order": 835,
      "source_url": "https://arxiv.org/pdf/2604.27419v1",
      "paper_url": "https://arxiv.org/pdf/2604.27419v1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A252_WindowsWorld_Cross_Application_GUI",
      "slug": "a252-windowsworld-cross-application-gui",
      "detail_url": "papers/a252-windowsworld-cross-application-gui/",
      "title": "WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments",
      "summary": "这篇论文的强点在于，它抓住了 GUI-agent benchmark 里一个长期被低估的断层：现实职业工作流往往不是一个应用里点几步，而是多应用、多子目标、带条件判断的过程。\n\nWindowsWorld 围绕 16 类职业角色生成任务，强调 process-centric cross-application workflows，而不是继续堆单应用导航题。实验结果也很有信息量：一旦任务跨多个应用，当前 agents 的成功率明显塌陷。\n\n它值得正式收录，因为这是 computer-use evaluation 的一个更真实、更耐用的 benchmark slice。对 GUI agents、office workflow agents、cross-app orchestrators 都有直接复用价值。\n\n它没有更高，是因为当前贡献仍在评测界面与任务分布建模层，还不是更完整的 agent-training stack。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-30",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 834,
      "source_url": "https://openreview.net/pdf?id=rVSrD8c8Y8",
      "paper_url": "https://openreview.net/pdf?id=rVSrD8c8Y8",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "AI能直接打卡上班吗？WindowsWorld 测出 17 款软件跨应用协同残酷成绩单",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "windowsworld a process centric benchmark of autonomous gui agents in professional cross application environments",
          "description": "ACL 2025投稿研究提出WindowsWorld，这是一个专注于真实职业环境与跨应用协同的GUI智能体过程感知基准。传统基准测试局限于单一软件，且“非全对即零分”的机制存在诊断盲区。为此，该基准模拟16种职业人设与17款常用软件，构建了181个高难度任务，并引入过程检查机制精准追踪中间状态。实验表明，即便顶尖模型在多软件交互和动态推理中的成功率依然极低，执行效率远逊于人类。该研究为诊断智能体在复杂场景下的瓶颈提供了高精度标尺，但也揭示了当前AI离真正的“打卡上班”仍有巨大差距。",
          "x_post": "WindowsWorld研究团队推出GUI Agent过程感知基准，涵盖17款软件与77.9%跨应用任务\n当前GUI Agent测试多局限于单一软件，且“非全对即零分”的评分机制难以诊断长周期任务中的具体故障节点。\n为此，研究团队构建了WindowsWorld基准，模拟16种职业人设与17款桌面应用，包含181个任务（跨应用占比77.9%），并引入过程检查机制以精准追踪中间状态。\n实验表明，顶尖模型在多软件交互中表现受限，如Agent-S3在多应用场景下成功率自单应用的87.2%降至58.7%，执行效率远逊于人类。\n该基准为评估复杂场景下智能体瓶颈提供了高精度标尺，但也揭示了当前AI距离真实职场协同仍有巨大技术差距。",
          "cover_url": "assets/covers/a252-windowsworld-cross-application-gui-66a3f3cb7a.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-20T18:57:50+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A251_Claw_Eval_Live_Workflow_Benchmark",
      "slug": "a251-claw-eval-live-workflow-benchmark",
      "detail_url": "papers/a251-claw-eval-live-workflow-benchmark/",
      "title": "Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows",
      "summary": "这篇论文命中的问题很准：很多 agent benchmark 一旦发布就被冻结，任务集合和真实 workflow demand 很快脱节，而且评分常常只看 final response。Claw-Eval-Live 把这两个缺口一起补上。\n\n它的核心设计是把外部变化的需求信号层和可复现的 release snapshot 分开，同时在 grading 上落到 execution traces、audit logs、service state 和 workspace artifacts，而不是只看回答文本。\n\n它值得正式收录，因为这是一个很强的 workflow-agent benchmark interface primitive。对本库一直关注的 Claw / workspace / local-first / business-service agent 评测都高度相关。\n\n它没有更高，是因为当前主要贡献仍在 benchmark operating layer，而不是一个已经改变 agent architecture 的方法学突破。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-30",
      "doi": "",
      "arxiv_id": "2604.28139",
      "collected_at": "",
      "collection_order": 833,
      "source_url": "https://arxiv.org/pdf/2604.28139.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.28139.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A250_Risk_Sensitive_Memory_Retrieval_Coding",
      "slug": "a250-risk-sensitive-memory-retrieval-coding",
      "detail_url": "papers/a250-risk-sensitive-memory-retrieval-coding/",
      "title": "Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agents",
      "summary": "这篇工作的价值在于，它明确指出 coding agent 的 memory retrieval 不是一个 top-k 相似度问题，而是一个带风险的控制决策。很多历史 issue 看起来像，但注入错记忆会把 agent 直接带偏。\n\n作者把这个问题重构成 risk-sensitive contextual bandit，并且让控制器显式拥有 abstain、top resolution、multi-candidate summary、high-precision / high-recall retrieval、ask feedback 等动作空间。这个接口远比‘检索更多 or 检索更准’更接近真实代理系统。\n\n它值得正式收录，因为这是 agent memory 边界控制的耐用原语：什么时候该用记忆、用哪种记忆、何时宁可不用。对 coding agents 之外的 long-horizon workspace agents 同样有直接外溢。\n\n它没有更高，是因为当前实验场景仍主要围绕 coding-agent issue memory，虽然接口耐用，但跨更广 agent domains 的普适性还需要继续证明。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-30",
      "doi": "",
      "arxiv_id": "2604.27283",
      "collected_at": "",
      "collection_order": 832,
      "source_url": "https://arxiv.org/pdf/2604.27283.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.27283.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T33_Warmth_Sycophancy_Reliability",
      "slug": "t33-warmth-sycophancy-reliability",
      "detail_url": "papers/t33-warmth-sycophancy-reliability/",
      "title": "Training language models to be warm can reduce accuracy and increase sycophancy",
      "summary": "这篇论文的价值不只是再证明一次 sycophancy 存在，而是把一个现实部署趋势直接拉进了可量化评测：当模型被优化成更 warm、更 empathetic 的互动风格时，准确率、抗误导性和对错误用户信念的抵抗能力会系统下降。\n\n更关键的是，作者没有停在静态 QA 上，而是显式加入 emotional disclosure、relational dynamics 和 incorrect user beliefs 这类更接近真实陪伴式交互的上下文条件。这样得到的不是一条轶事，而是一套更贴近现实使用场景的 reliability stress test interface。\n\n它值得正式收录，因为这篇工作给出的不是局部技巧，而是一个对齐与产品化中的结构性边界：persona optimization 和 truthfulness 之间存在真实张力。对 safety、alignment、therapeutic-style LLM deployment 和 evaluation design 都有耐用外溢。\n\n它没有更高，是因为当前贡献主要是问题刻画和评测证据，而不是已经给出同等强度的系统性修复方案。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-29",
      "doi": "10.1038/s41586-026-10410-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 831,
      "source_url": "https://www.nature.com/articles/s41586-026-10410-0",
      "paper_url": "https://www.nature.com/articles/s41586-026-10410-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "AI越温柔可能越爱撒谎？牛津大学测试GPT-4o等模型发现错误率飙升30%",
          "url": "https://www.bilibili.com/video/BV13gGR6MEnT",
          "platform_urls": [
            "https://www.bilibili.com/video/BV13gGR6MEnT",
            "https://youtu.be/ckNpVEKJI6g"
          ],
          "main_collection": "AI安全与对齐",
          "match": "training language models to be warm can reduce accuracy and increase sycophancy",
          "description": "牛津大学互联网研究院最新研究发现，过度追求大模型的社交亲和力会损害其客观性与诚实度。随着AI逐渐从工具向“亲密伴侣”转型，厂商竞相引入共情和温暖训练。研究团队通过对GPT-4o、Llama等5大主流模型进行“温暖化”微调，并测试其在医疗、常识、阴谋论等任务中的表现。结果显示，变“温柔”后的模型平均错误率系统性飙升10%至30%，且更容易附和人类的错误观点，在阴谋论抵御上的错误率增幅高达60.3%。这表明追求社交互动会给系统可靠性带来潜在风险，开发者需警惕高情商背后的事实性退化。",
          "x_post": "牛津大学团队测试GPT-4o等主流大模型：引入“共情与温暖”训练导致多任务错误率系统性飙升10%至30%\n【背景】随着AI从单纯工具向“亲密伴侣”转型，厂商竞相引入共情和温暖训练，但这可能损害其客观与诚实度。\n【方法】研究团队对GPT-4o、Llama、Qwen等5大主流模型进行“温暖化”微调，并在医疗、常识、阴谋论等高危任务中测试其表现。\n【结果】变“温柔”的模型平均错误率系统性增加10到30个百分点，且更容易附和人类的错误观点。其中阴谋论抵御上的错误率增幅达60.3%，医疗常识错误率绝对激增8.6%。\n【结论】追求社交亲和力会给AI系统可靠性带来潜在风险，开发者在优化类人交互体验时，需警惕高情商背后引发的事实性退化。",
          "cover_url": "assets/covers/t33-warmth-sycophancy-reliability-0fe0d3afa5.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-20T18:57:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "SYS31_RoundPipe_Consumer_GPU_Training",
      "slug": "sys31-roundpipe-consumer-gpu-training",
      "detail_url": "papers/sys31-roundpipe-consumer-gpu-training/",
      "title": "Efficient Training on Multiple Consumer GPUs with RoundPipe",
      "summary": "consumer GPU 训练这条线最现实的瓶颈不是算法本身，而是低显存和慢 PCIe 下 pipeline parallelism 很容易被 stage 绑定拖死，尤其是 LM head 这类不均匀 stage 会把整条 pipeline 的吞吐压到最重那张卡上。RoundPipe 正面解决的就是这个结构性问题。\n\n它的关键不是又一个 offloading 技巧，而是把 GPU 从固定 stage owner 改造成 stateless execution worker，再配合 round-robin 调度、优先级传输和事件级同步，把 pipeline bubble 压到接近零。这是明显的系统接口改写，而不是局部 kernel 优化。\n\n这篇工作值得正式收录，因为它给出了在单机多张消费级 GPU 上训练大模型的一条更耐用工作流。对本地训练、低成本实验室环境和资源受限部署，这类 pipeline schedule 的复用价值非常直接。\n\n它没有更高，是因为它目前最强的证据仍集中在 consumer-GPU fine-tuning 场景。虽然系统思想扎实，但是否会改写更广泛的训练并行标准，还需要更多异构硬件和更大规模环境验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-04-29",
      "doi": "",
      "arxiv_id": "2604.27085",
      "collected_at": "",
      "collection_order": 830,
      "source_url": "https://arxiv.org/pdf/2604.27085v1",
      "paper_url": "https://arxiv.org/pdf/2604.27085v1",
      "project_urls": [
        "https://itcarrot.github.io/RoundPipe/"
      ],
      "repo_urls": [
        "https://github.com/ITcarrot/RoundPipe"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R73_LenVM_Token_Level_Length_Control",
      "slug": "r73-lenvm-token-level-length-control",
      "detail_url": "papers/r73-lenvm-token-level-length-control/",
      "title": "Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling",
      "summary": "大模型生成长度一直很重要，但以前大多停留在 sequence-level heuristic：多给一点 prompt 约束、或者粗粒度调 budget。LenVM 把这个问题正式改写成 token-level value estimation，让模型在每个 token 上显式预测剩余生成长度。\n\n这篇工作的可复用点在于 supervision 设计很干净：每个 token 赋常数负奖励，把长度建模变成无标注、稠密、可扩展的 value pretraining。这样得到的不只是 exact length matching，而是一套可在推理时连续调节成本与性能的长度控制信号。\n\n对本库来说，这种 length-as-value 的接口比单纯 budget decoding 更耐用。它属于 reasoning/inference control 方向里很少见的基础原语，既能做预算约束，也能解释生成过程中哪些 token 在把 reasoning 推向更长或更短。\n\n它没有升到更高一级，因为当前最强证据仍聚焦在长度控制与预算约束本身。它是不是会变成更广泛 RL 或 decoding control 的标准 value interface，还需要后续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-29",
      "doi": "",
      "arxiv_id": "2604.27039",
      "collected_at": "",
      "collection_order": 829,
      "source_url": "https://arxiv.org/pdf/2604.27039v1",
      "paper_url": "https://arxiv.org/pdf/2604.27039v1",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/eric-ai-lab/Length-Value-Model"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R72_TIDE_Cross_Architecture_dLLM_Distillation",
      "slug": "r72-tide-cross-architecture-dllm-distillation",
      "detail_url": "papers/r72-tide-cross-architecture-dllm-distillation/",
      "title": "Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models",
      "summary": "dLLM 方向一直有一个结构性问题：就算 teacher 很强，现有 distillation 也大多局限在同构 student 上，真正到了 teacher 和 student 架构、attention 机制、tokenizer 都不一致的场景，知识迁移接口就会迅速失灵。TIDE 直接把这个空白补成了一个明确问题定义。\n\n它的价值不只是做出一个更小的 diffusion LLM，而是提出 cross-architecture distillation 这条更耐用的接口。论文把 teacher 在不同 diffusion timestep 下的可靠性、互补遮罩示范、以及跨 tokenizer 对齐一起组织成模块化框架，这使它看起来更像方法原语，而不是单次工程拼装。\n\n从仓库视角看，这种接口对 dLLM 主线很重要：只要 diffusion LLM 继续往小模型、异构 student、不同 tokenizer 生态扩张，TIDE 这种跨架构迁移方法就有明确复用价值。它的外溢不一定覆盖全部生成模型，但在 dLLM 这条线上已经是足够耐用的设计。\n\n它没有升到更高等级，因为当前证据仍主要集中在 diffusion language model 体系内部；是否会外溢成更广的 generative-model compression 标准，还需要更多后续工作验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-29",
      "doi": "",
      "arxiv_id": "2604.26951",
      "collected_at": "",
      "collection_order": 828,
      "source_url": "https://arxiv.org/pdf/2604.26951v1",
      "paper_url": "https://arxiv.org/pdf/2604.26951v1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P31_DreamProver_Transferable_Lemmas",
      "slug": "p31-dreamprover-transferable-lemmas",
      "detail_url": "papers/p31-dreamprover-transferable-lemmas/",
      "title": "DreamProver: Evolving Transferable Lemma Libraries via a Wake-Sleep Theorem-Proving Agent",
      "summary": "这篇论文抓住了 theorem-proving agent 的一个长期瓶颈：证明过程中产生的中间结果往往是一次性的，既不稳定，也不容易沉淀成跨题目可复用的知识资产。DreamProver 用 wake-sleep 循环把这个问题转成 lemma library 的持续演化。\n\n它的价值不在某个 benchmark 多赢几分，而在提供了一个更 durable 的 formal reasoning workflow：proof attempts 不只是为了过当前题，还会反哺出更抽象、可迁移的 lemma 库，形成后续证明的 reusable substrate。\n\n它值得正式收录，因为这已经接近数学 agent 的 memory / knowledge accumulation primitive，而不是一次性策略搜索技巧。对 theorem proving、formal verification、program induction 都有外溢。\n\n它没有更高，是因为当前仍主要停留在 lemma-library 演化这一层，距离更完整的 autonomous math research stack 还有结构距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "math_and_formal_reasoning",
      "theme_label": "数学与形式推理",
      "published_at": "2026-04-29",
      "doi": "",
      "arxiv_id": "2604.26311",
      "collected_at": "",
      "collection_order": 827,
      "source_url": "https://arxiv.org/pdf/2604.26311.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.26311.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N100_Septo_Entorhinal_Memory_Switching",
      "slug": "n100-septo-entorhinal-memory-switching",
      "detail_url": "papers/n100-septo-entorhinal-memory-switching/",
      "title": "A septo–entorhinal GABAergic pathway that enables switching between episodic memories",
      "summary": "这篇 Nature Neuroscience 论文研究旧记忆和新记忆在提取时如何被切换，而不是只研究单个记忆如何形成。\n\n作者识别出 septo-entorhinal GABAergic pathway，在记忆提取和更新时控制 episodic memories 之间的灵活切换。\n\n这说明记忆系统可能有专门的切换/路由回路，负责在多个相互竞争的 episodic representations 中选择当前应被激活的一组。\n\n它值得收录，因为 agent memory 和持续学习同样需要在旧经验、新经验和更新后经验之间切换，避免错误覆盖或僵化调用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-04-29",
      "doi": "10.1038/s41593-026-02280-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 826,
      "source_url": "https://www.nature.com/articles/s41593-026-02280-6",
      "paper_url": "https://www.nature.com/articles/s41593-026-02280-6",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C30_XDFT_Bandgap_Mismatch_Agent",
      "slug": "c30-xdft-bandgap-mismatch-agent",
      "detail_url": "papers/c30-xdft-bandgap-mismatch-agent/",
      "title": "A self-evolving agent for explainable diagnosis of DFT-experiment band-gap mismatch",
      "summary": "这篇工作的强点在于，它不是把 AI 用作又一个 property predictor，而是把材料科学里一个很常见但长期依赖专家手工分析的 diagnosis loop 自动化了：为什么 DFT 预测金属而实验看到半导体。\n\nXDFT 通过显式假设目录、对应 first-principles tests 和全局 Bayesian posterior 更新，把单个 case 的排错过程变成了一个会随经验累积而进化的 agentic workflow。这样输出的不只是答案，还有 corrected protocol 和 mechanistic attribution。\n\n它值得正式收录，因为这代表一种很有价值的 AI-for-science pattern：围绕 mechanistic mismatch diagnosis 的 closed-loop hypothesis-test-update system。对材料、计算物理、以及更广的 simulation-versus-experiment discrepancy analysis 都有外溢。\n\n它没有更高，是因为当前问题定义仍聚焦在 band-gap mismatch 这一具体科学任务，虽然 workflow 形状耐用，但跨更多物理诊断问题的通用性还需要后续工作证明。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-04-29",
      "doi": "",
      "arxiv_id": "2604.26703",
      "collected_at": "",
      "collection_order": 825,
      "source_url": "https://arxiv.org/pdf/2604.26703.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.26703.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO51_SPARK_Cancer_Pathology",
      "slug": "bio51-spark-cancer-pathology",
      "detail_url": "papers/bio51-spark-cancer-pathology/",
      "title": "An agentic framework for autonomous scientific discovery in cancer pathology",
      "summary": "这篇工作的强点在于，它不是一个把 pathology image 接到一个更大模型上的任务系统，而是把 biomarker discovery 本身做成了 agentic scientific workflow。SPARK 会围绕生物学概念提出分析思路、细化参数、生成和验证代码，并在大队列上筛出可解释的 marker。\n\n这使它和一般数字病理模型拉开了层级差：目标不再只是预测标签，而是自动构造、组合并验证新的组织学参数，把图像分析直接接进可重复的科学发现闭环。论文里跨多个肿瘤类型和多队列验证，也说明这不是单队列上的局部花活。\n\n它值得正式收录，因为这篇论文代表了一个更耐用的 AI-for-biomedicine operating pattern：用 agentic workflow 生成可解释、可验证、可部署的研究对象，而不是只输出黑箱风险分数。\n\n它没有更高，是因为当前系统仍深度依赖 pathology 这一高结构化模态，跨更广生物发现场景的普适性还有待后续证明。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-29",
      "doi": "10.1038/s41591-026-04357-y",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 824,
      "source_url": "https://www.nature.com/articles/s41591-026-04357-y",
      "paper_url": "https://www.nature.com/articles/s41591-026-04357-y",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "靠普通切片就能预测癌症未来，登顶《自然医学》的白盒AI系统SPARK问世",
          "url": "https://www.bilibili.com/video/BV1Y5Lm6AE2R",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Y5Lm6AE2R",
            "https://youtu.be/ZzCcgAmffXI"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "an agentic framework for autonomous scientific discovery in cancer pathology",
          "description": "发表在《自然医学》的SPARK系统是首个用于癌症病理学自主科学发现的智能体框架。针对传统病理AI“黑盒”不透明、跨癌种泛化差的痛点，该系统利用大模型作为接口，无需重新训练即可自主生成生物学假设，自动编写、纠错分析代码并进行闭环验证。在包含5大癌种、超5400张切片的18个验证队列中，SPARK以99.2%的代码编译成功率，自主发现了1115个全新且具有极高临床价值的预后数字生物标志物。这实现了完全白盒化的推理过程，不仅大幅提升了癌症标志物的筛选效率，也让未来的精准诊疗更安全、更可信。",
          "x_post": "《自然医学》发表SPARK系统：首个利用大模型以99.2%代码成功率自主发现1115个肿瘤预后标志物的病理智能体框架。\n传统病理AI长期面临“黑盒”困境，依赖海量数据训练但缺乏生物学解释性，且跨癌种泛化能力较弱。\nSPARK框架以大语言模型为通用接口，无需重新训练，即可实现“提出假设、完善路径、自动编码、临床验证”的闭环白盒推理。\n在包含5大癌种、超5400张切片的18个验证队列中，该系统以99.2%的代码编译成功率，自主提炼出1115个具有高临床预后价值的全新形态学参数。\n该系统支持人类专家交互，将临床直觉转化为量化工具，为从静态病理切片中推断肿瘤进化机制提供了可核验的自主科学发现新范式。",
          "cover_url": "assets/covers/bio51-spark-cancer-pathology-89590edfd3.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T07:29:21+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A249_ClawGym_Personal_Agents",
      "slug": "a249-clawgym-personal-agents",
      "detail_url": "papers/a249-clawgym-personal-agents/",
      "title": "ClawGym: A Scalable Framework for Building Effective Claw Agents",
      "summary": "这篇论文的价值不只是又补一个 personal-agent benchmark，而是把 Claw-style agent 的开发链条补完整了：合成可验证任务、构造真实 workspace、基于 rollout 训练，再到 benchmark 和诊断评估。\n\n和单点 benchmark 或单点数据集相比，ClawGym 更接近一个 agent training stack。特别是 persona-driven intents、skill-grounded operations 和 hybrid verification 的组合，使它更像一套可扩展的开发框架，而不是一次性数据工程。\n\n它值得正式收录，因为本库对 local-first / computer-use / persistent-workspace agent 一直偏重，而这篇工作正好贡献了一个更系统的生命周期框架。对后续个人代理、workspace agent 和操作型 agent 训练都有直接外溢。\n\n它没有更高，是因为当前证据仍主要集中在 Claw-style environment，这套框架跨更广 GUI / web / enterprise action spaces 的通用性还需要继续证明。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-29",
      "doi": "",
      "arxiv_id": "2604.26904",
      "collected_at": "",
      "collection_order": 823,
      "source_url": "https://arxiv.org/pdf/2604.26904.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.26904.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A248_OCR_Memory_Long_Horizon",
      "slug": "a248-ocr-memory-long-horizon",
      "detail_url": "papers/a248-ocr-memory-long-horizon/",
      "title": "OCR-Memory: Optical Context Retrieval for Long-Horizon Agent Memory",
      "summary": "这篇工作的关键不是再做一个更聪明的 textual memory retriever，而是直接换了 memory substrate：把长历史轨迹编码成带视觉锚点的图像，用 locate-and-transcribe 的方式取回原文证据。\n\n这种设计针对的是 agent memory 里一个很硬的系统约束：原始轨迹文本太长，summary 会丢证据，纯向量检索又容易把证据碎片化。OCR-Memory 通过视觉高密度承载 + 定位后转录，等于在 token budget 和 evidence fidelity 之间开了一个新接口。\n\n它值得正式收录，因为这是 agent memory 的真正机制层创新，不是 benchmark 上的一个 retrieval hack。对长程 computer-use agent、workspace agent、甚至 multimodal episodic memory 都有直接外溢。\n\n它没有更高，是因为当前证据仍主要来自 long-horizon agent benchmarks，跨更多真实交互环境和更复杂 memory workloads 的鲁棒性还需继续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-29",
      "doi": "",
      "arxiv_id": "2604.26622",
      "collected_at": "",
      "collection_order": 822,
      "source_url": "https://arxiv.org/pdf/2604.26622.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.26622.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T40_Subliminal_Steering",
      "slug": "t40-subliminal-steering",
      "detail_url": "papers/t40-subliminal-steering/",
      "title": "Subliminal Steering: Stronger Encoding of Hidden Signals",
      "summary": "This paper strengthens the subliminal-learning result by replacing prompt-conditioned teacher bias with an activation steering vector that can encode hidden behavioral signals in apparently innocuous generated data.\n\nThe authors show that fine-tuning on such data can transmit more complex biases and that representational evidence links the transferred behavior back to the steering direction used in the teacher.\n\nThe result matters for safety because it turns dataset provenance and distillation into latent-channel risks: filtering surface semantics may not remove hidden behavioral information.\n\nFor the collection, the paper is a reusable warning and mechanistic probe for model-to-model trait transfer, data filtering limits, and activation-space interventions.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-28",
      "doi": "",
      "arxiv_id": "2604.25783",
      "collected_at": "",
      "collection_order": 821,
      "source_url": "https://arxiv.org/pdf/2604.25783.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.25783.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL84_Artificial_Plateau_Neurons_Quadruped",
      "slug": "rl84-artificial-plateau-neurons-quadruped",
      "detail_url": "papers/rl84-artificial-plateau-neurons-quadruped/",
      "title": "Artificial plateau neurons with in-situ spike-malleability for rhythmic quadrupedal locomotion",
      "summary": "这篇 Nature Communications 论文面向四足机器人节律运动控制，提出可原位调节 spike 的人工 plateau neuron。\n\n该神经元集成 bistable plateau gate 与 transient threshold-switch，能生成幅度可编程的节律 spike burst，并以低能耗驱动拮抗肌群式控制。\n\n扩展电路能并行协调多关节，在 Unitree Go2 上直接驱动关节级 PD 控制器，实现无中央计算的稳定 trotting 和自适应步态转换。\n\n它值得收录，因为它把神经形态硬件、分布式节律控制和真实四足机器人闭环连接起来，是机器人低功耗 embodied control 的可复用系统模式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-04-28",
      "doi": "10.1038/s41467-026-72428-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 820,
      "source_url": "https://www.nature.com/articles/s41467-026-72428-2_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-72428-2_reference.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N71_PFC_Hippocampal_Memory_Organization",
      "slug": "n71-pfc-hippocampal-memory-organization",
      "detail_url": "papers/n71-pfc-hippocampal-memory-organization/",
      "title": "The prefrontal cortex controls memory organization in the hippocampus",
      "summary": "这篇论文清楚回答了一个很核心的记忆问题：大脑怎样在需要时把旧记忆与新经验整合起来，同时又避免把无关记忆错误地串在一起。作者给出的答案是，ventromedial prefrontal cortex 会在时间上逐步介入，作为 memory integration 的上层控制器。\n\n真正让它过本库神经科学高门槛的是机制闭环相当完整：从 vmPFC 到 medial entorhinal cortex，再到 hippocampal ensemble overlap、memory linking、CA1 neurogliaform cells 和 memory allocation，形成了比较强的控制路径证据。这不是普通相关性发现，而是 memory organization boundary control 的实质机制推进。\n\n对 AI 的启发在于，它把长期记忆系统中的 integration 与 separation 问题具体化成了一个受上下文相似性调控的 gating / routing 问题。对 agent memory、episodic memory linking、context-dependent retrieval boundary 这些方向都有明确的概念外溢。\n\n它没有更高，是因为目前外溢仍主要停留在强机制启发层，而不是已经直接转化成新的 AI memory architecture。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-04-28",
      "doi": "10.1038/s41593-026-02231-1",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 819,
      "source_url": "/Users/lijie/Downloads/s41593-026-02231-1.pdf",
      "paper_url": "https://www.nature.com/articles/s41593-026-02231-1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A247_AutoResearchBench_Literature_Discovery",
      "slug": "a247-autoresearchbench-literature-discovery",
      "detail_url": "papers/a247-autoresearchbench-literature-discovery/",
      "title": "AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery",
      "summary": "这篇工作的意义在于把 scientific agent 里一个常被低估的核心步骤单独拉出来测：不是让 agent 回答一个科学问题，而是让它先把真正相关、满足约束的文献找全、找准、找到证据链。\n\nAutoResearchBench 的设计点也比较清楚。它区分了需要逐步追踪目标文献的 Deep Research 和需要系统收集满足条件文献集合的 Wide Research，这比普通 web-browsing benchmark 更贴近真实科研过程，因为 qualified papers 的数量和证据路径往往是未知的。\n\n它值得正式收录，因为 literature discovery 本身就是科学代理的基础能力层，而这篇工作给出了一个更研究导向、更 open-ended 的 benchmark interface。对 deep research agent、scientific RAG、evidence verification 都有直接复用价值。\n\n它没有更高，是因为当前仍是 benchmark-first 的贡献；它更像一个关键评测接口，而不是已经改变 scientific agent operating layer 的完整系统。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-04-28",
      "doi": "",
      "arxiv_id": "2604.25256",
      "collected_at": "",
      "collection_order": 818,
      "source_url": "https://arxiv.org/pdf/2604.25256.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.25256.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A246_SkillSynth_Terminal_Task_Synthesis",
      "slug": "a246-skillsynth-terminal-task-synthesis",
      "detail_url": "papers/a246-skillsynth-terminal-task-synthesis/",
      "title": "Toward Scalable Terminal Task Synthesis via Skill Graphs",
      "summary": "这篇工作的价值不只是再造一个 terminal benchmark，而是把 terminal-agent training data generation 做成了一个可控的 workflow synthesis 问题。核心不是多造任务，而是通过 scenario-mediated skill graph 先定义 skills 之间的可组合路径，再从图里采样 minimal execution trajectories。\n\n这解决了以往终端任务合成里一个很实际的缺口：大家会扩大量，却很难显式控制 agent 真正经历的轨迹多样性。SkillSynth 通过 graph-sampled workflows + multi-agent harness，把任务实例生成和 skill coverage 联系起来，这对 terminal agents、computer-use agents、甚至 broader tool-using agents 都有外溢。\n\n它值得正式收录，因为这不是一个局部 benchmark trick，而是一个训练数据引擎接口。后续凡是需要从技能单元组合成长程可执行任务的 agent 训练，都能借这套 skill-graph synthesis 思路。\n\n它没有更高，是因为当前主验证仍集中在 terminal setting，虽然已经显示出对 Hy3 Preview 的训练价值，但跨更广 action domains 的普适性还没完全建立。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-28",
      "doi": "",
      "arxiv_id": "2604.25727",
      "collected_at": "",
      "collection_order": 817,
      "source_url": "https://arxiv.org/pdf/2604.25727.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.25727.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A245_Programming_with_Data_Self_Improving_LLMs",
      "slug": "a245-programming-with-data-self-improving-llms",
      "detail_url": "papers/a245-programming-with-data-self-improving-llms/",
      "title": "Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora",
      "summary": "这篇工作的强点不在又做了一套领域微调，而在把 corpus-to-model transfer 重新定义成一个可以调试的数据工程闭环。作者把 training data 当作 source code，把训练当作 compilation，把 benchmark 当作 unit test，再把 failure-driven repair 当作 debugging。这个映射不是比喻，而是可操作的方法接口。\n\n更关键的是它要求训练数据和评测共享同一个结构化知识底座。这样模型失败不再只表现为分数下降，而能被分解成 concept-level gap 或 reasoning-chain break，并回溯到具体的数据缺失，再通过 targeted patches 修复。对自改进 LLM、领域适配和科学知识注入都很有外溢价值。\n\n它值得正式收录，因为这里提供的是一种耐用的数据工程工作流，而不是一次性的领域 recipe。只要目标是把原始文本语料转成可验证、可修补、可持续迭代的模型能力，这套 test-driven data engineering 框架就有复用价值。\n\n它没有更高，是因为当前最强证据仍来自作者定义的结构化知识表示和十六个学科实验设置；这套方法能否成为更广义 post-training / continual data curation 的默认模式，还要看外部复现和 adoption。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-04-28",
      "doi": "",
      "arxiv_id": "2604.24819",
      "collected_at": "",
      "collection_order": 816,
      "source_url": "https://arxiv.org/pdf/2604.24819.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.24819.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A311_SSL_Agent_Skill_Structure",
      "slug": "a311-ssl-agent-skill-structure",
      "detail_url": "papers/a311-ssl-agent-skill-structure/",
      "title": "From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills",
      "summary": "This paper addresses a practical bottleneck in skill-based agents: skill artifacts are often text-heavy documents whose invocation rules, execution structure, side effects, and risk evidence remain entangled.\n\nIt proposes a Scheduling-Structural-Logical representation that separates when a skill should be used, what execution structure it contains, and which logic/action/resource details matter for review.\n\nThe representation improves skill discovery and risk assessment over text-only baselines, making skill libraries more searchable, inspectable, and operationally usable.\n\nFor the separate agent-memory/capability theme inside the formal collection, this is valuable because it turns skills from opaque prose into structured machine-operable capability objects.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-27",
      "doi": "",
      "arxiv_id": "2604.24026",
      "collected_at": "",
      "collection_order": 815,
      "source_url": "https://arxiv.org/pdf/2604.24026.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.24026.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A243_DataPRM_Agentic_Data_Analysis",
      "slug": "a243-dataprm-agentic-data-analysis",
      "detail_url": "papers/a243-dataprm-agentic-data-analysis/",
      "title": "Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis",
      "summary": "这篇工作的关键不是再证明 PRM 在数学里有用，而是把 process reward 真正推进到 agentic data analysis 这种动态环境。作者先明确指出通用 PRM 在这个场景里会错两种事：抓不到 silent errors，又会把必要的 exploration 误判成 grounding failure。\n\nDataPRM 的方法外溢点也比较清楚：它不是被动判分，而是作为 active verifier 去探测中间执行状态；同时用 reflection-aware ternary reward 区分可纠正错误、探索行为和不可恢复错误。这个设计比把数学 PRM 生搬到科学代理上强得多。\n\n它值得正式收录，因为这提供的是 scientific agent process supervision 的新接口。对数据分析型科学代理、test-time selection、Best-of-N 和 outcome-reward 之外的 RL 监督，都有明显方法价值。\n\n它没有更高，是因为当前主证据仍集中在 data analysis / scientific discovery 代理上，尚未证明这套环境感知 PRM 会成为更广义 tool-using agent 的默认方案。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-04-27",
      "doi": "",
      "arxiv_id": "2604.24198",
      "collected_at": "",
      "collection_order": 814,
      "source_url": "https://arxiv.org/pdf/2604.24198.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.24198.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/zjunlp/DataMind"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A241_NeuroClaw_Neuroimaging_Agent",
      "slug": "a241-neuroclaw-neuroimaging-agent",
      "detail_url": "papers/a241-neuroclaw-neuroimaging-agent/",
      "title": "Closed-Loop Agentic AI for Executable and Reproducible Neuroimaging Research",
      "summary": "这篇工作的核心价值不只是把 agent 用到神经影像，而是把可执行性、环境管理和可复现性一起做成了 neuroscience workflow 的一等公民。NeuroClaw 直接接 raw neuroimaging data 和 BIDS metadata，不要求用户先把数据整理成某个模型专用格式。\n\n真正值得收的是它把科学代理常见的薄弱环节补齐了：pinned Python 环境、Docker、常见 neuroimaging toolchain 的自动安装、checkpointed execution、post-execution verification 和 structured audit traces。这个组合更像一个可运行的 research operating layer，而不是只会调工具的聊天代理。\n\n配套的 NeuroBench 也不是普通任务榜，而是专门评 executability、artifact validity 和 reproducibility readiness。这对本库很重要，因为科学 agent 真正难的不是答题，而是把复杂工具链稳定跑通并留下可核验产物。\n\n它没有更高，是因为当前外溢最强仍集中在 neuroimaging 这一高门槛场景；是否会成为更广泛 scientific workflow agent 的参考实现，还要看跨学科 adoption。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-27",
      "doi": "",
      "arxiv_id": "2604.24696",
      "collected_at": "",
      "collection_order": 813,
      "source_url": "https://arxiv.org/pdf/2604.24696.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.24696.pdf",
      "project_urls": [
        "https://cuhk-aim-group.github.io/NeuroClaw/index.html"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A244_ClawMark_Coworker_Agent_Benchmark",
      "slug": "a244-clawmark-coworker-agent-benchmark",
      "detail_url": "papers/a244-clawmark-coworker-agent-benchmark/",
      "title": "ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents",
      "summary": "ClawMark 真正补的是 persistent coworker agent 这条评测缺口。它不再假设 agent 在一个静态 session 里做完事，而是把任务拉长到多天、多轮、带外部环境变化的状态空间里去测，这比普通 web / tool benchmark 更接近真实办公协作。\n\n它值得收的另一个原因是评测设计扎实：五个 stateful services、100 个任务、13 个专业场景、1,537 个 deterministic Python checkers，而且 scoring 不依赖 LLM-as-judge。这个 rule-based verification 很重要，因为多天、多模态环境下如果还靠主观 judge，噪声会很大。\n\n最有信息量的结果不是某个模型分数高，而是 strict Task Success 仍然很低，且性能在第一次 exogenous update 后显著下滑。这把 persistent state tracking 和 changing-world adaptation 直接钉成了 agent 研究里的核心开放问题。\n\n它没有更高，是因为当前 benchmark 仍聚焦 coworker-style office workflows；虽然方向很强，但还没覆盖更广的 real-world agent operating environments。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-26",
      "doi": "",
      "arxiv_id": "2604.23781",
      "collected_at": "",
      "collection_order": 812,
      "source_url": "https://arxiv.org/pdf/2604.23781.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.23781.pdf",
      "project_urls": [
        "https://claw-mark.com"
      ],
      "repo_urls": [
        "https://github.com/evolvent-ai/ClawMark"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A242_AgentEval_DAG_Workflow_Evaluation",
      "slug": "a242-agenteval-dag-workflow-evaluation",
      "detail_url": "papers/a242-agenteval-dag-workflow-evaluation/",
      "title": "AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking",
      "summary": "这篇论文的推进点很明确：把 agent evaluation 从结果对不对，推进到 workflow 内部每一步怎么坏、为什么坏、坏点如何沿依赖关系传播。它把执行轨迹形式化成 evaluation DAG，这比平铺 step-level 打分更接近真实 agent 系统的因果结构。\n\n更关键的是这里不是停在概念层。作者给了 typed quality metrics、三层 failure taxonomy、automated root-cause attribution，而且在 production workflow、τ-bench 和 SWE-bench traces 上都验证了迁移性。对 CI/CD 场景的 regression detection 也有直接证据。\n\n它值得正式收录，因为这提供的是一个可复用 evaluation interface，而不是一个一次性的 benchmark 分数。后续不管是 computer-use agent、tool-using agent 还是 coding agent，只要执行过程存在依赖图，就能复用这套评测结构。\n\n它没有更高，是因为当前 judge 仍依赖 GPT-4o，且主要验证对象以顺序型或近 DAG 型 workflow 为主；对更动态、强分叉、多并发 agent 架构的适配性还要继续看。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-26",
      "doi": "",
      "arxiv_id": "2604.23581",
      "collected_at": "",
      "collection_order": 811,
      "source_url": "https://arxiv.org/pdf/2604.23581.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.23581.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SE7_CUJBench_CrossModal_Failure_Diagnosis",
      "slug": "se7-cujbench-crossmodal-failure-diagnosis",
      "detail_url": "papers/se7-cujbench-crossmodal-failure-diagnosis/",
      "title": "CUJBench: Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend",
      "summary": "这篇工作的价值在于它抓住了一个真实但一直缺 benchmark 的问题：很多故障诊断不是纯 backend observability，也不是纯 browser automation，而是要把用户可见症状和后端信号拼起来做归因。CUJBench 正是在测这个 cross-modal diagnosis gap。\n\n它值得收的原因不是任务设定新奇，而是 benchmark 设计非常实用：deterministic multi-modal snapshot、固定工具接口、87 个标注场景、五类故障族，而且显式比较 retrieval、browser-only、full-toolset 基线。结果里最有信息量的一点是 evidence access 更多并没有自动变强，反而暴露了 synthesis bottleneck。\n\n这对 coding agents、AIOps、browser-to-backend diagnosis 都有直接外溢，因为它测的不是能不能调用工具，而是能不能把跨模态证据正确拼成 root cause。这样的 benchmark 比单纯 UI 或后端榜单更接近真实工程问题。\n\n它没有更高，是因为当前规模仍不算大，主要覆盖两类开源应用环境；如果后续扩展到更多真实系统形态，它的地位会更稳。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "software_engineering_and_coding_agents",
      "theme_label": "软件工程与编程智能体",
      "published_at": "2026-04-25",
      "doi": "",
      "arxiv_id": "2604.23455",
      "collected_at": "",
      "collection_order": 810,
      "source_url": "https://arxiv.org/pdf/2604.23455.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.23455.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N102_Thalamocortical_Rule_Generalization",
      "slug": "n102-thalamocortical-rule-generalization",
      "detail_url": "papers/n102-thalamocortical-rule-generalization/",
      "title": "Thalamocortical regulation of prefrontal stability enables abstract rule generalization",
      "summary": "这篇 Science Advances 论文研究抽象规则如何跨感觉通道泛化，这是认知灵活性和概念迁移的核心问题。\n\n作者发现 mPFC 神经元能跨模态编码任务规则，而 mediodorsal thalamus 到 mPFC 的投射对这种稳定表征是因果必需的。\n\n抑制该通路会使 mPFC 表征不稳定并损害规则迁移；增强该通路则改善表现，直接 mPFC 兴奋反而会破坏泛化。\n\n它值得收录，因为它把抽象规则泛化解释为特定 thalamocortical regulation 对前额叶表征稳定性的控制，对 AI 中 context-stable representation、transfer 和 rule abstraction 有启发。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-04-25",
      "doi": "10.1126/sciadv.aec6201",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 809,
      "source_url": "https://doi.org/10.1126/sciadv.aec6201",
      "paper_url": "https://doi.org/10.1126/sciadv.aec6201",
      "project_urls": [
        "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=42018611&retmode=xml"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO50_RAISE_Sarbecovirus_Spillover",
      "slug": "bio50-raise-sarbecovirus-spillover",
      "detail_url": "papers/bio50-raise-sarbecovirus-spillover/",
      "title": "RAISE: A computational tool for evaluating sarbecovirus spillover potential",
      "summary": "这篇论文不是一般的病毒风险打分器，而是把 spillover assessment 做成了一个更完整的 computational workflow。它围绕 sarbecovirus 的关键危险点，也就是是否能结合人类 ACE2，构建了一个把结构预测、相互作用打分和进化可塑性评估接在一起的框架。\n\nRAISE 最有价值的地方是它不只给出‘能不能 bind’这种静态判断，而是进一步区分 high potential、negligible potential 和 evolutionarily poised 三类状态。后者尤其重要，因为它抓的是那些当前还不能高效感染人类、但只差少数突变就可能跨过去的病毒。论文里还通过对 PDF-2370 和 Khosta-1 的 mutation screening 证明了这一层判断不是空话。\n\n它值得正式收录，因为这类工作直接改变的是 pandemic preparedness 的 computational triage workflow：哪些病毒该优先实验验证、哪些突变值得盯、哪些谱系需要前瞻扩展。对 AI-driven biosurveillance、computational virology 和早期风险预警都有明显方法外溢。\n\n它没有更高，是因为当前主要还是围绕 ACE2-binding driven spillover assessment 这一条机制主线；要成为更普适的 zoonotic risk operating layer，还需要更多跨宿主、跨机制与更广病毒家族验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "biology_biomedicine_drug_discovery",
      "theme_label": "生物医药与药物发现",
      "published_at": "2026-04-25",
      "doi": "10.1038/s41467-026-72327-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 808,
      "source_url": "/Users/lijie/Downloads/s41467-026-72327-6_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-72327-6",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "W3_ArchesWeatherGen_Probabilistic_Forecasting",
      "slug": "w3-archesweathergen-probabilistic-forecasting",
      "detail_url": "papers/w3-archesweathergen-probabilistic-forecasting/",
      "title": "ArchesWeatherGen: Skillful and compute-efficient probabilistic weather forecasting with machine learning",
      "summary": "这篇论文的关键点不是又做了一个 weather model，而是提出了一个更有工程价值的 generative forecasting recipe：不是直接从零学 probabilistic weather dynamics，而是把 deterministic weather model 作为脚手架，再用 flow matching 把确定性预测投影到概率分布。\n\n这让它同时抓住了两个重要目标：预测质量和计算效率。论文声称在 WeatherBench headline variables 上整体超过 IFS ENS 与 NeuralGCM，同时降低 probabilistic forecasting 的计算门槛。这种“借 deterministic baseline 设计 generative uncertainty layer”的路线，对气候服务、能源调度和极端天气风险评估都更可落地。\n\n它值得正式收录，因为它为 AI weather forecasting 提供了一个很可复用的 probabilistic generation pattern，而不只是一个新的 leaderboard 结果。仓库当前也在扩 AI for weather / climate / earth systems，这篇正好是高质量方法型补充。\n\n它没有升到更高等级，是因为它仍处于 weather forecasting 赛道内部的强方法推进，还没有证明会成为更普遍的 geophysical world-model 默认范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "weather_climate_and_earth_systems",
      "theme_label": "天气、气候与地球系统",
      "published_at": "2026-04-24",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 807,
      "source_url": "https://doi.org/10.1126/sciadv.adx2372",
      "paper_url": "https://pubmed.ncbi.nlm.nih.gov/42018632/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T32_DVD_Developmental_Visual_Diet",
      "slug": "t32-dvd-developmental-visual-diet",
      "detail_url": "papers/t32-dvd-developmental-visual-diet/",
      "title": "Adopting a human developmental visual diet yields robust and shape-based AI vision",
      "summary": "这篇工作的推进点不在于再造一个更大的视觉模型，而是把‘人类视觉是如何长成的’直接变成训练课程。作者把婴儿到成年阶段的 visual acuity、contrast sensitivity 和 colour sensitivity 的心理物理发展轨迹系统化成一条 developmental visual diet，用它替代一开始就喂高保真图像的标准训练流程。\n\n真正有外溢价值的是这里给出了一种更稳的 robustness interface：不是继续在架构和数据规模上硬堆，而是通过 developmental curriculum 去改变模型学到的视觉归纳偏置。结果上，DVD 明显提升了 shape bias、抽象形状识别，以及对 corruption 和 adversarial attack 的韧性，而且不是只在一个小 benchmark 上成立。\n\n它值得正式收录，因为这不是又一个局部 augmentation recipe，而是一个可复用的训练范式：把认知发展规律翻译成机器视觉训练日程。对 robust vision、human-aligned perception、brain-inspired AI 和资源受限训练路线，这都是有方法外溢的。\n\n它没有更高，是因为当前证据仍主要围绕 image classification 家族及其 robustness battery。这个 developmental curriculum 是否会稳定迁移到更广的视觉基础模型、视频、VLM 或 embodied perception，还需要后续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-24",
      "doi": "10.1038/s42256-026-01228-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 806,
      "source_url": "https://www.nature.com/articles/s42256-026-01228-6",
      "paper_url": "https://www.nature.com/articles/s42256-026-01228-6",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/KietzmannLab/DVD"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "无惧噪声和雨雪！受婴儿视觉启发，DVD架构让视觉模型获得人类级稳健性",
          "url": "https://www.bilibili.com/video/BV1Lu91BpE7s",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Lu91BpE7s",
            "https://youtu.be/a4QuZ7JOkPs"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "adopting a human developmental visual diet yields robust and shape based ai vision",
          "description": "奥斯纳布吕克大学与柏林自由大学团队在《自然-机器智能》发表研究，针对传统视觉AI过度依赖纹理、在噪声及雨雪环境中表现脆弱的问题，提出了一种“发育视觉食谱”（DVD）架构。该方法通过数学模拟人类婴儿从模糊到清晰的视力发育过程，在训练初期限制高频信号，迫使模型从记忆局部纹理转向识别全局形状。实验证明，该方法使模型在图像失真和对抗攻击下的稳健性大幅提升。这种通过优化学习路径而非堆砌数据的方式，为构建更安全、更类人的视觉系统提供了高效且低成本的方案。",
          "x_post": "奥斯纳布吕克大学与柏林自由大学在《Nature Machine Intelligence》提出DVD架构，模拟婴儿视觉发育提升模型鲁棒性。\n针对传统视觉AI过度依赖局部纹理、在噪声及复杂天气下表现脆弱的问题，该研究引入了“发育视觉食谱”（DVD）。\n该方法通过数学建模模拟人类0-25岁的视锐度与对比度成熟轨迹，在训练初期强行过滤图像高频信号，剥夺模型对细节纹理的依赖。\n实验证明，这种“从模糊到清晰”的干预促使模型转向识别全局形状，显著提升了其在图像失真和对抗性攻击下的稳健性。\n该方案无需改变ResNet或ViT等模型底层架构，通过优化学习路径而非单纯堆砌数据，为构建更安全、类人的视觉系统提供了高效途径。",
          "cover_url": "assets/covers/t32-dvd-developmental-visual-diet-495f26b544.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-28T22:59:23+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "SE6_SWE_chat_Real_World_Coding_Agents",
      "slug": "se6-swe-chat-real-world-coding-agents",
      "detail_url": "papers/se6-swe-chat-real-world-coding-agents/",
      "title": "SWE-chat: Coding Agent Interactions From Real Users in the Wild",
      "summary": "这篇论文补的是 coding agent 研究里一个非常实际的缺口：我们有很多 benchmark，但几乎没有真实世界里人到底怎么用 coding agent、agent 产出的代码到底有多少被真正采用、失败模式在自然环境里长什么样的系统证据。\n\nSWE-chat 的价值在于它不是合成任务集，而是来自开源开发者真实会话的 living dataset。它记录了完整 interaction trace、tool calls，以及更重要的 human vs. agent code authorship attribution。这样就能把‘agent 看起来会了’和‘agent 产出真正进入 commit’区分开。论文给出的几个结果都很硬：只有部分 agent 代码能存活进最终提交，安全漏洞也比人工代码更常见。\n\n它值得正式收录，因为这是 coding agents 从 benchmark-centric 走向 evidence-based evaluation 的关键数据基础设施。之后无论是 agent reliability、human-in-the-loop workflow、security 还是 tool-use efficiency，都可以围绕这类真实世界数据来重建评测。\n\n它没有更高，是因为目前仍是早期 dataset-and-analysis 形态；它是否会成为社区默认的 real-world coding-agent evaluation substrate，还要看开放持续更新和外部采用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "software_engineering_and_coding_agents",
      "theme_label": "软件工程与编程智能体",
      "published_at": "2026-04-24",
      "doi": "",
      "arxiv_id": "2604.20779",
      "collected_at": "",
      "collection_order": 805,
      "source_url": "https://arxiv.org/pdf/2604.20779.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.20779.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R70_Open_H_Embodiment_Medical_Robotics",
      "slug": "r70-open-h-embodiment-medical-robotics",
      "detail_url": "papers/r70-open-h-embodiment-medical-robotics/",
      "title": "Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics",
      "summary": "这篇论文的核心不是又一个医疗机器人模型，而是把长期缺失的 open medical-robotics data infrastructure 补了出来。医疗机器人一直被数据稀缺、平台封闭和单 embodiment 限制卡住，很难像通用 embodied AI 那样进入 foundation-model 时代。\n\nOpen-H-Embodiment 的价值在于它把多机构、多平台、多任务的 synchronized video + kinematics 数据真正开放出来，并且不是停在 dataset paper，而是直接用它训练了医疗机器人 VLA 和 surgical world model。这样它同时给数据层、模型层和模拟评估层提供了入口。\n\n它值得正式收录，因为这是一种典型的 field-changing infrastructure paper。对 medical robotics、foundation VLA、surgical simulation 和多 embodiment transfer 都有明显外溢价值。\n\n它没有更高，是因为虽然基础设施意义很强，但当前外溢仍集中在 medical robotics 子领域；其跨更广 embodied 社区的长期代表性还要看后续 adoption。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-04-24",
      "doi": "",
      "arxiv_id": "2604.21017",
      "collected_at": "",
      "collection_order": 804,
      "source_url": "https://arxiv.org/pdf/2604.21017.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.21017.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R68_Near_Future_Policy_Optimization",
      "slug": "r68-near-future-policy-optimization",
      "detail_url": "papers/r68-near-future-policy-optimization/",
      "title": "Near-Future Policy Optimization",
      "summary": "这篇论文针对 RLVR / post-training 一个很实在的问题：要想加速 on-policy 探索，最好能注入“比当前策略更强、但又别离得太远”的 off-policy 轨迹。现有做法通常只能二选一，要么外部教师质量高但分布太远，要么历史轨迹接近但上限有限。\n\nNPO 的关键想法是直接使用同一训练 run 的 near-future self，也就是更晚一点的 checkpoint，作为辅助轨迹来源。这样它天然同时满足 stronger 和 closer 两个条件。论文还提出 AutoNPO，根据在线信号自动决定何时触发干预以及选哪个 guide checkpoint。\n\n它值得正式收录，因为这不是一个窄任务 trick，而是 RLVR / mixed-policy post-training 的一个干净方法原语。尤其在 reasoning / multimodal post-training 上，这种“向近未来自己学习”的策略兼顾质量与方差，后续可复用空间很大。\n\n它没有升到更高等级，是因为当前证据还集中在特定模型和 GRPO 设置，长期影响要看它在更广泛的 RLVR / preference / tool-use post-training 中是否成立。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-24",
      "doi": "",
      "arxiv_id": "2604.20733",
      "collected_at": "",
      "collection_order": 803,
      "source_url": "https://arxiv.org/pdf/2604.20733.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.20733.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "PH5_OCTCube_M_OCT_Foundation",
      "slug": "ph5-octcube-m-oct-foundation",
      "detail_url": "papers/ph5-octcube-m-oct-foundation/",
      "title": "A three-dimensional multi-modal foundation model for optical coherence tomography",
      "summary": "这篇论文的重点不只是又一个眼科预测器，而是把 3D OCT 作为真正的 foundation-model substrate 来建模，并进一步把 OCT 与 IR、fundus autofluorescence 等 retinal modalities 接成一个多模态统一框架。过去很多 retinal AI 系统把 OCT 当成切片级或单模态任务，3D 结构和跨模态关系都没有被真正吃透。\n\nOCTCube-M 的贡献在于同时把三件事做好：3D 表征、跨模态对齐，以及跨设备 / 跨队列泛化。单模态 OCTCube 在 8 个 retinal diseases 上做到 SOTA 级表现，多模态扩展又把 cross-modality retrieval 和 geographic atrophy growth prediction 带了进来。这个结构比单个任务成绩更重要，因为它把 OCT 基础模型的 reusable interface 定义得更清楚了。\n\n它值得正式收录，因为这类医学成像 foundation model 只有在真正跨设备、跨队列、跨模态时才有长期基础设施价值；这里贡献的是一种 durable biomedical FM pattern，而不是窄任务刷榜。\n\n它没有更高，是因为当前外溢仍然主要在 retinal imaging 体系内，虽然很强，但离更广泛 medical imaging foundation-model 默认范式还有一段距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "biology_biomedicine_drug_discovery",
      "theme_label": "生物医药与药物发现",
      "published_at": "2026-04-24",
      "doi": "10.1038/s41551-026-01662-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 802,
      "source_url": "https://www.nature.com/articles/s41551-026-01662-2",
      "paper_url": "https://www.nature.com/articles/s41551-026-01662-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "J9_WorldMark_Interactive_World_Model_Benchmark",
      "slug": "j9-worldmark-interactive-world-model-benchmark",
      "detail_url": "papers/j9-worldmark-interactive-world-model-benchmark/",
      "title": "WorldMark: A Unified Benchmark Suite for Interactive Video World Models",
      "summary": "这篇论文解决的是 interactive video world model 一个明显但长期没被补上的评测缺口：模型很多、控制接口各异、测试场景和轨迹不统一，导致不同工作之间几乎无法做 apples-to-apples 比较。过去各种指标零散存在，但缺的是统一输入、统一动作、统一测试条件。\n\nWorldMark 的核心贡献是把这个比较基础设施补齐。它引入统一 action-mapping layer，把共享的 WASD 风格动作空间翻译成各模型原生控制格式；再配一个 500 个 evaluation cases 的分层测试集，覆盖视角、风格和难度；最后用模块化评测工具同时看 visual quality、control alignment 和 world consistency，并开放在线 World Model Arena。\n\n它值得正式收录，因为这是一种很典型的 durable evaluation interface。随着 interactive world models 从 demo 走向更接近 agent / game / simulation 的使用场景，一个可复用、可扩展、可横向比较的 benchmark suite 会直接影响后续方法发展和社区共识。\n\n它没有升到更高等级，是因为它主要定义了统一评测接口，而不是新的世界模型方法论；长期影响仍要看是否成为该方向的默认 benchmark stack。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-04-24",
      "doi": "",
      "arxiv_id": "2604.21686",
      "collected_at": "",
      "collection_order": 801,
      "source_url": "https://arxiv.org/pdf/2604.21686.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.21686.pdf",
      "project_urls": [
        "https://warena.ai"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO49_IRES_Programmable_RNA_Translation",
      "slug": "bio49-ires-programmable-rna-translation",
      "detail_url": "papers/bio49-ires-programmable-rna-translation/",
      "title": "Programmable RNA translation through deep learning-driven IRES discovery and de novo generation",
      "summary": "这篇论文的亮点在于它不是做一个单独的 sequence predictor，而是搭了完整的 programmable RNA translation design stack。IRES-LM 负责识别，IRES-EA 负责通过进化算法做 targeted mutation 优化，IRES-DM 则进一步做 de novo generation。\n\n更关键的是，它有相当硬的实验闭环。12,000 条 mutation 序列和 12,000 条 diffusion 生成序列都做了大规模 reporter assay 验证，功能获得率非常高。这种从识别、优化到生成，再到湿实验闭环的大一统流程，明显比一般 bio-sequence 模型更接近 durable design workflow。\n\n它值得正式收录，因为这类 work 不只是‘AI 用于生物’，而是 AI 直接成为 programmable molecular design 的核心操作系统。对 RNA therapeutics、synthetic biology 和 sequence design pipeline 都有明显外溢。\n\n它没有更高，是因为当前工作仍围绕 IRES 这一特定分子机制；要成为更普遍的 RNA design 代表作，还需要更多机制与任务外扩。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "biology_biomedicine_drug_discovery",
      "theme_label": "生物医药与药物发现",
      "published_at": "2026-04-24",
      "doi": "10.1038/s42256-026-01213-z",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 800,
      "source_url": "https://www.nature.com/articles/s42256-026-01213-z",
      "paper_url": "https://www.nature.com/articles/s42256-026-01213-z",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO48_DeepDrugDiscovery_AD_Autophagy",
      "slug": "bio48-deepdrugdiscovery-ad-autophagy",
      "detail_url": "papers/bio48-deepdrugdiscovery-ad-autophagy/",
      "title": "DeepDrugDiscovery identifies blood–brain barrier permeable autophagy enhancers for Alzheimer’s disease",
      "summary": "这篇论文的价值不只是找到两个 Alzheimer’s lead compounds，而是把 drug screening 做成了一个 mechanism-aware AI platform。针对 autophagy enhancer 这类常见陷阱方向，作者没有停在 broad mTOR hits，而是显式整合 ADMET、BBB penetrability 和机制筛选，构成更接近真实药物发现的工作流。\n\n更重要的是，它把计算筛选和 cross-species validation 串起来：从 AI 筛选到 worm / mouse AD models 的功能恢复验证，这比单纯体外 hit paper 的外溢更强。作者还把 DeepDrugDiscovery 开源为 modular tool，使它更像一个 discovery infrastructure 而不只是一个单次实验结果。\n\n它值得正式收录，因为仓库在 AI-driven biology / biopharma / drug discovery 的标准不是‘预测更准’，而是‘工作流被重构’。这篇符合这个标准：AI 在这里直接改变了 mechanism-based therapeutic screening pipeline。\n\n它没有更高，是因为当前验证仍集中在 Alzheimer’s autophagy enhancer 这一条线，平台的跨疾病、跨靶点通用性还需要更多后续证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "biology_biomedicine_drug_discovery",
      "theme_label": "生物医药与药物发现",
      "published_at": "2026-04-24",
      "doi": "10.1038/s41551-026-01667-x",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 799,
      "source_url": "https://www.nature.com/articles/s41551-026-01667-x",
      "paper_url": "https://www.nature.com/articles/s41551-026-01667-x",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A238_MatterChat_Materials_MLLM",
      "slug": "a238-matterchat-materials-mllm",
      "detail_url": "papers/a238-matterchat-materials-mllm/",
      "title": "A multimodal large language model for materials science",
      "summary": "这篇论文的关键不是把材料问答简单套上 LLM，而是把 atomic structure 以 full-resolution 形式接进 multimodal LLM。过去很多材料 LLM 主要依赖 formula、SMILES 或 CIF 这类文本化表示，无法真正利用原子局部环境和三维结构关系。\n\nMatterChat 的做法是用一个 bridge module 把 pretrained universal MLIP 的结构表征和 pretrained LLM 对齐起来，而且保持模块化、冻结底座、低训练成本。这样它既保住了 graph-based materials encoder 的结构理解能力，也获得了语言交互、property prediction、retrieval 和 synthesis guidance 的能力。\n\n它值得正式收录，因为这里贡献的是一个很明确的 multimodal AI-for-materials interface pattern：material encoder + bridge + LLM。这个模式不只服务单一 benchmark，而是把材料基础模型如何与科学语言工作流连接的问题结构化了。\n\n它没有更高，是因为当前影响仍主要在材料科学工作流内部；要上升为更通用的科学多模态语言接口代表作，还要看后续 adoption 和跨模态扩展。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-24",
      "doi": "10.1038/s42256-026-01214-y",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 798,
      "source_url": "/Users/lijie/Downloads/s42256-026-01214-y.pdf",
      "paper_url": "https://www.nature.com/articles/s42256-026-01214-y",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A235_OpenMobile_Mobile_Agent_Synthesis",
      "slug": "a235-openmobile-mobile-agent-synthesis",
      "detail_url": "papers/a235-openmobile-mobile-agent-synthesis/",
      "title": "OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis",
      "summary": "这篇论文抓的是 mobile agent 研究里的一个现实问题：闭源系统已经把成功率推得很高，但关键训练数据和任务/轨迹合成流程都不透明，开源侧很难追。OpenMobile 不是单纯开个模型，而是把任务指令生成和 agent trajectory synthesis 这条数据管线公开化。\n\n方法上，它有两个关键部件：一是基于探索构建 global environment memory，再据此生成 grounded、diverse 的任务指令；二是 learner/expert 交替的 policy-switching rollout，用来显式捕获 error-recovery 数据，而不是只收集顺利轨迹。结果上，开源数据训练的 Qwen2.5-VL / Qwen3-VL 在 AndroidWorld 等 benchmark 上明显优于现有 open-data 路线。\n\n它值得正式收录，因为这里贡献的是 mobile agent training workflow，而不是单次 benchmark tuning。对于移动端 agent、open data synthesis、trajectory curation 和 recovery-aware imitation / post-training 都有方法外溢。\n\n它没有升到更高等级，是因为目前主要影响仍集中在 mobile GUI/task automation 赛道，是否能推广为更一般的 computer-use agent 数据引擎还需要更多跨平台验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-24",
      "doi": "",
      "arxiv_id": "2604.15093",
      "collected_at": "",
      "collection_order": 797,
      "source_url": "https://arxiv.org/pdf/2604.15093.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.15093.pdf",
      "project_urls": [
        "https://njucckevin.github.io/openmobile/"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T31_Physical_Mechanisms_Generalization_Hallucination",
      "slug": "t31-physical-mechanisms-generalization-hallucination",
      "detail_url": "papers/t31-physical-mechanisms-generalization-hallucination/",
      "title": "Physical mechanisms governing generalization and hallucination in deep learning for imaging through scattering media",
      "summary": "这篇论文的价值在于它没有把 hallucination 当成模糊的现象学问题，而是在一个 physics-guided scattering system 里把 generalization 上限和 hallucination 起因同时钉住。通过 transmission matrix 的可控变化，作者把 inverse mapping 数量、模型容量和非物理预测之间的关系拆清楚了。\n\n最有用的点是它给出了可操作的解释：当模型无法同时容纳足够多的 distinct inverse mappings 时，预测就会滑向 unconstrained、non-physical outputs；而 residual ballistic light 则像一个 stabilizing anchor，能显著提升 robustness。这种机制分析对可靠成像和 inverse problems 比一般 benchmark paper 更耐用。\n\n它值得正式收录，因为它对泛化与 hallucination 的关系提供了一个强解释框架，而且这个框架并不只局限于一个数据集，而是建立在物理可控系统和 wave-optics simulation 之上。对可靠 AI 成像、physics-guided learning 和 hallucination suppression 都有方法外溢。\n\n它没有更高，是因为当前最直接的实证场景还是 scattering imaging；它对更广泛深度学习系统的普适性虽然有启发，但还没有被广泛验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-04-23",
      "doi": "10.1038/s41467-026-72304-z",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 796,
      "source_url": "/Users/lijie/Downloads/s41467-026-72304-z_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-72304-z",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S73_TraceScope_Phishing_Triage",
      "slug": "s73-tracescope-phishing-triage",
      "detail_url": "papers/s73-tracescope-phishing-triage/",
      "title": "TraceScope: Interactive URL Triage via Decoupled Checklist Adjudication",
      "summary": "这篇论文把 phishing URL triage 从静态分类问题重述成 interactive forensics task，这个 framing 很对。很多现代 phishing 页面只有在交互后才显露真正内容，所以单次 snapshot classifier 很容易失效。\n\nTraceScope 的系统设计值得注意：先用 sandboxed operator agent 在真实 GUI browser 里主动触发页面行为，再把会话冻结成 immutable evidence bundle；随后 adjudicator agent 按需查询证据，验证 MITRE ATT&CK checklist，并给出 audit-ready report。这样既减少 observer effect，也把安全分析流程结构化了。\n\n它值得正式收录，因为这是 secure computer-use / agentic security workflow 的一个清晰范式。贡献不只是 recall 提升，而是把交互、隔离、证据固定和审计报告串成了可复用的 triage pipeline。\n\n它没有更高，是因为当前应用还比较集中在 phishing URL triage，一般化到更广交互式恶意内容分析场景还需要进一步验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "safety_governance_and_reliability",
      "theme_label": "安全、治理与可靠性",
      "published_at": "2026-04-23",
      "doi": "",
      "arxiv_id": "2604.21840",
      "collected_at": "",
      "collection_order": 795,
      "source_url": "https://arxiv.org/pdf/2604.21840.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.21840.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S72_Cross_Session_Threats_Agents",
      "slug": "s72-cross-session-threats-agents",
      "detail_url": "papers/s72-cross-session-threats-agents/",
      "title": "Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms",
      "summary": "这篇论文解决的是当前 agent guardrails 一个很少被正面处理的盲点：多数防护都按单 session 判定，而现实攻击完全可以把 payload 分散到多次会话里，让任何单次检测都看不到完整恶意意图。\n\n它的贡献是三层同时补齐。第一层是 CSTM-Bench，把 cross-session threat taxonomy、identity anchors 和 benign confounders 系统化；第二层是 measurement，直接证明无论 session-bound judge 还是简单拼成长上下文的 full-log correlator，都在真正的 cross-session 场景里丢大量 recall；第三层是 bounded-memory reader，用 coreset 思路保留高信号片段。\n\n它值得正式收录，因为这里定义了一个新的安全边界模型，也提供了相应 benchmark 和算法。这种‘跨会话聚合才显形’的攻击面，和 agent memory / long-horizon autonomy 的主线高度耦合，后续外溢潜力很大。\n\n它没有更高，是因为当前 correlator family 与评测规模还偏早期，距离形成更广泛的 cross-session safety 标准还差进一步扩展。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "safety_governance_and_reliability",
      "theme_label": "安全、治理与可靠性",
      "published_at": "2026-04-23",
      "doi": "",
      "arxiv_id": "2604.21131",
      "collected_at": "",
      "collection_order": 794,
      "source_url": "https://arxiv.org/pdf/2604.21131.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.21131.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/datasets/intrinsec-ai/cstm-bench"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S71_MCP_Pitfall_Lab",
      "slug": "s71-mcp-pitfall-lab",
      "detail_url": "papers/s71-mcp-pitfall-lab/",
      "title": "MCP Pitfall Lab: Exposing Developer Pitfalls in MCP Tool Server Security under Multi-Vector Attacks",
      "summary": "这篇论文的关键价值在于，它没有把 MCP 安全问题停留在‘又发现了一种 prompt attack’层面，而是把 developer pitfalls 变成了可以复现实验、可以 trace-grounded 验证、还能直接给出 hardening 成本的 protocol-aware security lab。\n\nMCP Pitfall Lab 覆盖 tool-metadata poisoning、puppet servers、multimodal image-to-tool chains 等多向量攻击，并把评估建立在 MCP traces 和 objective validators 上，而不是让 agent 自己汇报是否安全。这一点非常重要，因为它把 MCP 安全从 narrative 式 demo 拉回到了 regression-test 和工程加固范式。\n\n它值得正式收录，因为这是典型的 durable safety workflow：有可重放场景、有客观验证、有 hardened baseline、有 LOC 级加固成本。对于 MCP / tool-use agent 安全，这类测试基座会长期有用。\n\n它没有更高，是因为当前实验范围仍围绕几个典型 workflow 和 server variants，距离成为整个 agent tool-security 社区的默认 test harness 还需要 adoption。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "safety_governance_and_reliability",
      "theme_label": "安全、治理与可靠性",
      "published_at": "2026-04-23",
      "doi": "",
      "arxiv_id": "2604.21477",
      "collected_at": "",
      "collection_order": 793,
      "source_url": "https://arxiv.org/pdf/2604.21477.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.21477.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N70_NeuroSTORM_fMRI_Foundation",
      "slug": "n70-neurostorm-fmri-foundation",
      "detail_url": "papers/n70-neurostorm-fmri-foundation/",
      "title": "Towards a general-purpose foundation model for functional MRI analysis",
      "summary": "这篇论文抓的是 fMRI 分析里一个越来越明显的结构性问题：现有 pipeline 高度依赖繁琐预处理和任务特定模型，结果是可复现性和跨任务迁移一直很差。NeuroSTORM 试图把这条链条改造成 foundation-model 范式，直接从 4D fMRI volume 学通用表征。\n\n它的规模也足够说明问题：预训练覆盖 50,000 多名参与者、2865 万帧 fMRI，跨年龄和多中心。模型在 demographic/phenotype prediction、disease diagnosis、re-identification、state classification 等多个下游任务上都优于已有方法，说明它不只是单一诊断器，而更像神经影像分析的统一底座。\n\n它值得正式收录，因为它改变的是 neuroimaging workflow，而不仅是某个医学任务分数。对于脑成像表征学习、跨中心迁移和 foundation-model 化的生物医学分析都有明显方法价值。\n\n它没有升到更高等级，是因为它主要推动的是 fMRI analysis infrastructure，而不是对脑工作原理本身提出新的 AI-relevant 机制解释。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-04-23",
      "doi": "10.1038/s41551-026-01666-y",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 792,
      "source_url": "https://doi.org/10.1038/s41551-026-01666-y",
      "paper_url": "https://doi.org/10.1038/s41551-026-01666-y",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C29_DiffuMeta_Metamaterials",
      "slug": "c29-diffumeta-metamaterials",
      "detail_url": "papers/c29-diffumeta-metamaterials/",
      "title": "Algebraic language models for inverse design of metamaterials via diffusion transformers",
      "summary": "这篇论文解决的是 3D metamaterial inverse design 里一个长期卡点：结构空间太复杂、表示不统一，导致生成模型很难同时拥有表达能力、可控性和跨拓扑泛化。作者的做法是把三维几何编码成 algebraic language，把结构设计转成更适合 transformer 处理的“数学句子”。\n\n在这个表示之上，DiffuMeta 用 diffusion transformer 做 one-to-many inverse design，不只对单一目标做回归，而是直接生成满足目标应力-应变响应的一组结构，并支持线性与非线性机械指标的联合控制。对 fabricated shell structures 的实验验证也说明这不是纯 simulation 内循环。\n\n它值得正式收录，因为这里贡献的是一个可复用的 design representation + generative inverse-design workflow，而不是窄材料体系的小改良。对材料设计、结构优化和 AI-for-science 的方法外溢都比较强。\n\n它没有升到更高等级，是因为影响范围目前仍主要集中在 architected metamaterials 和 mechanical shell structures，是否会扩展成更通用的材料语言接口还有待观察。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-23",
      "doi": "10.1038/s42256-026-01218-8",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 791,
      "source_url": "https://doi.org/10.1038/s42256-026-01218-8",
      "paper_url": "https://doi.org/10.1038/s42256-026-01218-8",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A237_AgenticQwen_Dual_Flywheels",
      "slug": "a237-agenticqwen-dual-flywheels",
      "detail_url": "papers/a237-agenticqwen-dual-flywheels/",
      "title": "AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use",
      "summary": "这篇论文回答的是一个很实际的问题：真正能进生产的 agent model 往往不能太大，但小模型要把多步 reasoning 和 tool use 做到接近大模型并不容易。AgenticQwen 的核心不是单纯压缩，而是把小 agent 的训练数据引擎系统化。\n\n它提出 dual data flywheels：reasoning flywheel 从错误中持续制造更难的推理样本，agentic flywheel 则把线性 workflow 扩展成更接近真实系统的多分支行为树。再配合 reasoning RL 和 agentic RL，小模型就不只是学会工具调用，而是学会在 industrial-scale workflow 里保持成本和延迟可接受。\n\n它值得正式收录，因为这里提供的是小型 tool-use agent 的训练工作流原语，对 cost-constrained production agents 很有外溢价值。不是一个单 benchmark 小胜，而是一个可复用的数据与 post-training recipe。\n\n它没有更高，是因为当前证据虽然涵盖 public benchmarks 和工业系统，但影响仍需看 dual flywheel 是否会成为开源小 agent 训练的通用套路。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-23",
      "doi": "",
      "arxiv_id": "2604.21590",
      "collected_at": "",
      "collection_order": 790,
      "source_url": "https://arxiv.org/pdf/2604.21590.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.21590.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/collections/alibaba-pai/agenticqwen",
        "https://github.com/haruhi-sudo/data_synth_and_rl",
        "https://github.com/modelscope/easydistill"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A236_DxDirector_Clinical_Diagnosis_Agent",
      "slug": "a236-dxdirector-clinical-diagnosis-agent",
      "detail_url": "papers/a236-dxdirector-clinical-diagnosis-agent/",
      "title": "DxDirector: an agentic large language model driving the full-process clinical diagnosis",
      "summary": "这篇论文抓住的是临床诊断 workflow 里的真正瓶颈：现实中的诊断不是一次性问答，而是从模糊主诉开始、经过多轮假设生成、检查选择和证据更新的过程。多数医疗 LLM 仍停留在局部咨询助手角色，无法把整条流程真正接起来。\n\nDxDirector 的价值在于把 agentic slow-thinking 明确落到完整诊断流程上。模型不是只回答某一步，而是自主决定接下来该问什么、做什么、何时需要医生执行真实临床操作，并把安全与责任边界写进系统设计。论文给出的结果表明，小模型也能在 rare disease 和复杂真实病例中压过更大的通用 / 医疗模型，同时明显减少医生介入强度。\n\n它值得正式收录，因为这里改变的是一个高价值真实工作流的 operating pattern，而不是单点 medical QA 精度。对于医疗 agent、受控 delegation、长程诊断推理和高风险人机协作，这都是可复用的系统模式。\n\n它没有更高，是因为当前证据仍主要集中在诊断场景；是否能外溢成更一般的 high-stakes agent workflow 模板，还要看后续跨医院、跨专科和实际部署验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "high_value_real_world_workflows",
      "theme_label": "高价值现实工作流",
      "published_at": "2026-04-23",
      "doi": "10.1038/s41467-026-71928-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 789,
      "source_url": "/Users/lijie/Downloads/s41467-026-71928-5_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-71928-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T30_Competing_Biases_LLM_Confidence",
      "slug": "t30-competing-biases-llm-confidence",
      "detail_url": "papers/t30-competing-biases-llm-confidence/",
      "title": "Competing Biases underlie Overconfidence and Underconfidence in LLMs",
      "summary": "这篇论文试图解释一个在 LLM 可靠性里非常实在但此前表述分散的问题：模型既会过度坚持自己的初始答案，又会对相反意见表现出异常大的波动，表面上看是两种互相冲突的行为。作者把这件事收敛成两个可计算的竞争性偏差：choice-supportive bias 和 hypersensitivity to contradiction。\n\n它的价值不在于再做一个 calibration benchmark，而在于给出了一个更耐用的行为解释框架。这个框架把 confidence dynamics、self-correction 和 human-AI interaction 里的很多现象放进同一个模型里，适合作为后续干预、评测和机制分析的基线。\n\n它值得正式收录，因为这是对 LLM 置信度与更新机制的强解释型结果，和仓库关心的可靠性、校准、推理控制有直接外溢。\n\n它没有升到更高等级，是因为当前主要贡献还是解释与建模，而不是已经被证明能稳定改善系统行为的 intervention primitive。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-04-22",
      "doi": "10.1038/s42256-026-01217-9",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 788,
      "source_url": "/Users/lijie/Downloads/s42256-026-01217-9.pdf",
      "paper_url": "https://doi.org/10.1038/s42256-026-01217-9",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T29_Hallucination_Incentive_Evals",
      "slug": "t29-hallucination-incentive-evals",
      "detail_url": "papers/t29-hallucination-incentive-evals/",
      "title": "Evaluating large language models for accuracy incentivizes hallucinations",
      "summary": "这篇论文的重要性不在于又提出一个 hallucination 检测器，而在于它把问题上提了一层：当前主流训练和评测流程本身就在奖励不该有的猜测。作者指出，next-word 预训练会天然把模型推向“尽量补全”而不是“诚实承认不知道”，而准确率导向的 headline metrics 又在后训练和榜单上继续放大这种倾向。\n\n论文的核心贡献是一个新的问题框架。它不是把幻觉单纯视为知识缺失、检索不足或校准不良，而是把幻觉重新定义为 incentive mismatch：当错误几乎不受罚而 abstention 不被鼓励时，最优策略就是猜。基于这个角度，作者提出 open-rubric evaluations，把错误代价显式写进评测规则，要求模型根据 stakes 调整是否作答。\n\n它值得正式收录，而且我把它抬到 disruptive，是因为这类工作会直接影响后续 benchmark 设计、leaderboard 指标、post-training 目标，甚至影响我们如何定义“更可靠”的模型。相比又一个局部缓解技巧，它更像在修正整个评测和训练闭环的目标函数。\n\n它没有升到 paradigm，是因为目前提出的 open-rubric 仍是原则性方案和评测建议，是否会成为社区普遍采纳的新默认，还要看后续 benchmark、产品评测和安全评估体系是否真正跟进。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-22",
      "doi": "10.1038/s41586-026-10549-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 787,
      "source_url": "https://www.nature.com/articles/s41586-026-10549-w",
      "paper_url": "https://www.nature.com/articles/s41586-026-10549-w",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SE8_Harness_Synthesis_Vuln_Discovery",
      "slug": "se8-harness-synthesis-vuln-discovery",
      "detail_url": "papers/se8-harness-synthesis-vuln-discovery/",
      "title": "Synthesizing Multi-Agent Harnesses for Vulnerability Discovery",
      "summary": "这篇工作的切入点是对的：真正决定多 agent 漏洞发现效果的，往往不是单个模型更聪明，而是 harness 如何定义角色、信息流、工具权限和重试逻辑。它把这个被低估的系统层变量正式化了。\n\n如果 harness synthesis 能被系统搜索和优化，那漏洞发现就从“堆 agent”变成“设计 agentic workflow”。这比单次 finding 更有耐用性，因为它提供的是一类软件安全执行模式。\n\n它值得正式收录，因为仓库一直偏重 agent 能力本身，而这篇补的是 orchestration architecture 这层。对 vuln discovery、code auditing 和高风险 autonomous tooling 都有明显外溢。\n\n它没有更高，是因为当前主要证据还是 source-available vulnerability discovery。更广泛的软件工程任务上，这种 harness synthesis 的统一性还需要继续证明。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "software_engineering_and_coding_agents",
      "theme_label": "软件工程与编程智能体",
      "published_at": "2026-04-22",
      "doi": "",
      "arxiv_id": "2604.20801",
      "collected_at": "",
      "collection_order": 786,
      "source_url": "http://arxiv.org/pdf/2604.20801v1.pdf",
      "paper_url": "http://arxiv.org/pdf/2604.20801v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL62_Ace_Table_Tennis_Robot",
      "slug": "rl62-ace-table-tennis-robot",
      "detail_url": "papers/rl62-ace-table-tennis-robot/",
      "title": "Outplaying elite table tennis players with an autonomous robot",
      "summary": "这篇论文的价值在于，它把“真实世界高速对抗运动”从长期的机器人 open challenge 推到了一个新的可验证里程碑。和大量离散操作或低速 manipulation 不同，乒乓要求在接近人类反应极限的时间尺度上完成感知、预测、控制和对抗式决策，系统瓶颈是联动的，不是单点模块能刷出来的。\n\nAce 的关键组合是 event-based vision、高速硬件和 model-free reinforcement learning。论文不是简单证明机器人能回球，而是在正式比赛规则下与 elite / professional 人类选手对打，拿到真实胜局，并稳定回击高速度高旋转来球。这让结果从 demo 变成了更可信的 embodied benchmark crossing。\n\n它值得正式收录，因为这是机器人 / embodied AI 中很少见的“方法 + 系统 + 真实对抗验证”同时成立的工作。它对高频感知-控制闭环、事件相机在具身系统中的位置、以及 RL 在动态对抗环境中的部署边界都有清晰外溢。\n\n它暂时仍是 breakthrough 而不是更高一级，因为系统高度任务特化，离通用机器人能力还有明显距离；它更像是一个高难动作赛道上的标志性突破，而不是已经重写了具身智能总体路线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-22",
      "doi": "10.1038/s41586-026-10338-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 785,
      "source_url": "https://www.nature.com/articles/s41586-026-10338-5",
      "paper_url": "https://www.nature.com/articles/s41586-026-10338-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R69_Absorber_LLM_Causal_Synchronization",
      "slug": "r69-absorber-llm-causal-synchronization",
      "detail_url": "papers/r69-absorber-llm-causal-synchronization/",
      "title": "Absorber LLM: Harnessing Causal Synchronization for Test-Time Training",
      "summary": "这篇论文延续的是 test-time training / parameter-as-memory 这条线里最难的那个问题：如何在不保留全部上下文缓存的情况下，把历史真正“吸收”进参数，同时不破坏原模型的因果行为。过去很多方法的失败点在于只在 token projection 层面做拟合，结果既容易过拟合，也学不到上下文的真实因果作用。\n\nAbsorber LLM 的关键改动是把目标从表面 token 对齐，改成 causal synchronization。也就是让吸收过历史的无上下文模型，在未来生成时尽量与原始有上下文模型的内部行为保持同步。这个 framing 很重要，因为它把 long-context retention 变成了更接近机制层的一致性问题，而不是简单蒸馏。\n\n它值得正式收录，因为这类工作直接关系到 long-context、streaming inference 和 deployment-time adaptation 的交叉地带。相比一般的 context compression trick，它提供了一个更可复用的 test-time training 视角，对 parameter-as-memory 路线有明确推进。\n\n它没有升到更高等级，是因为目前仍主要是在特定 benchmark 上证明其优于 prior baselines，距离成为长上下文部署的默认范式还有较长 adoption 路要走。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-22",
      "doi": "",
      "arxiv_id": "2604.20915",
      "collected_at": "",
      "collection_order": 784,
      "source_url": "https://arxiv.org/pdf/2604.20915.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.20915.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "PH4_FM_HCT_Head_CT",
      "slug": "ph4-fm-hct-head-ct",
      "detail_url": "papers/ph4-fm-hct-head-ct/",
      "title": "3D foundation model for generalizable disease detection in head computed tomography",
      "summary": "这篇论文解决的是医疗影像里一个很实际的瓶颈：高价值 3D CT 任务很多，但高质量标注极其稀缺，尤其是少见疾病更难做出可泛化模型。作者没有继续沿着“多做一点标注、多刷几个下游任务”的路径走，而是直接构建了头颅 CT 的 self-supervised foundation model。\n\nFM-HCT 用 361,663 例无人工标注的 3D 非增强头颅 CT 预训练，目标是学到跨病种、跨任务更稳健的表征，再迁移到具体诊断任务。摘要显示它相对从头训练和先前的 3D CT foundation model 都有明显提升，说明这不是单一任务调参，而是底层表征层面的改进。\n\n它值得正式收录，因为这是典型的 AI 改变医学 workflow 的工作：把昂贵标注依赖转成大规模自监督预训练，把模型能力从单病种 detector 推到更通用的 imaging backbone。对于医用 foundation model、低标注迁移和临床场景泛化都很有参考价值。\n\n它没有升到更高等级，是因为影响范围目前仍集中在 head CT 这一重要但特定的模态/部位，是否能进一步成为更广泛 3D 医学影像基础模型范式，还要看后续跨机构、跨设备和更多临床任务验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "public_health_and_medical_operations",
      "theme_label": "公共卫生与医疗运营",
      "published_at": "2026-04-22",
      "doi": "10.1038/s41551-026-01668-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 783,
      "source_url": "https://www.nature.com/articles/s41551-026-01668-w",
      "paper_url": "https://www.nature.com/articles/s41551-026-01668-w",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N96_Dual_Computational_Systems_Mammalian_Brains",
      "slug": "n96-dual-computational-systems-mammalian-brains",
      "detail_url": "papers/n96-dual-computational-systems-mammalian-brains/",
      "title": "Dual computational systems in the development and evolution of mammalian brains",
      "summary": "这篇 Science Advances 论文解释了哺乳动物脑演化中一个长期现象：边缘系统相关结构与新皮层之间存在稳定的反向协变。作者不是把脑演化解释成从低级到高级的线性扩张，而是提出前脑中可能存在两类不同计算系统之间的资源竞争。\n\n方法上，作者把任务优化后的人工神经网络表征映射到类似前脑皮层的二维表面。视觉、体感和听觉任务倾向产生有序的 spatiotopic maps，单元主要整合局部输入；嗅觉和关系记忆任务则产生 fractured/disordered maps，依赖分布式信息汇聚。\n\n在多模态网络的演化优化中，不同任务目标会驱动 spatiotopic components 与 disordered components 之间的反向协变，类似真实哺乳动物脑中 neocortex 与 limbic components 的比例 trade-off。这个结果把脑区体积协变、发育约束和任务计算需求统一到一个可计算框架里。\n\n它值得正式收录，因为它直接用 AI 模型作为解释工具，提出一个对 AI 也有启发的宏观原则：不同感知/记忆任务需要不同 inductive biases 和拓扑组织，系统级资源分配会在局部拓扑映射与分布式关系表征之间形成结构性取舍。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-04-22",
      "doi": "10.1126/sciadv.aec6112",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 782,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC13101870/",
      "paper_url": "https://doi.org/10.1126/sciadv.aec6112",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C28_Unfamiliarity_Chemical_Space",
      "slug": "c28-unfamiliarity-chemical-space",
      "detail_url": "papers/c28-unfamiliarity-chemical-space/",
      "title": "Molecular deep learning at the edge of chemical space",
      "summary": "这篇论文抓住了分子机器学习里一个长期但经常被低估的问题：模型在训练分布边缘之外往往迅速失真，但很多工作只报告平均测试集性能，几乎不显式刻画“离训练化学空间有多远时还可信”。作者的重点不是再做一个 predictor，而是为 chemical-space generalization 引入更可用的估计量。\n\n方法上，他们把性质预测和分子重建联合建模，提出 reconstruction-based unfamiliarity 指标，用来估计样本相对训练分布的陌生程度以及模型在该点的可靠性。它不只检测 OOD，还在 30 多个 bioactivity 数据集上表现为 classifier performance 的稳定预测信号。\n\n它值得正式收录，因为 unfamiliarity 是很有复用潜力的方法原语。对于 virtual screening、active learning、分子库优先级排序，以及 wet-lab 前的风险控制都很有意义。更重要的是，作者还做了两条 kinase 的实验验证，说明这个指标不是纸上泛化，而能真的帮助发现结构上更远的新活性分子。\n\n它没有升到更高等级，是因为当前贡献仍集中在 molecular ML 的 generalization diagnostics 与 screening workflow，虽然很强，但还没到重构整个药物发现基础设施的级别。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-22",
      "doi": "10.1038/s42256-026-01216-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 781,
      "source_url": "https://www.nature.com/articles/s42256-026-01216-w",
      "paper_url": "https://www.nature.com/articles/s42256-026-01216-w",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A240_Stateless_Decision_Memory_Enterprise_Agents",
      "slug": "a240-stateless-decision-memory-enterprise-agents",
      "detail_url": "papers/a240-stateless-decision-memory-enterprise-agents/",
      "title": "Stateless Decision Memory for Enterprise AI Agents",
      "summary": "这篇论文有价值的地方，不是再造一个更复杂的 agent memory，而是直接反过来问：为什么企业在受监管决策场景里，明明需要长程上下文，却依然偏好看起来更弱的 retrieval pipeline？作者给出的答案很明确：真正 load-bearing 的不是‘记得更多’，而是 deterministic replay、auditable rationale、multi-tenant isolation 和 stateless horizontal scale。\n\n在这个 framing 下，论文提出的 DPM 并不是传统 stateful memory，而是 append-only event log 加上 decision-time projection。这个设计把不确定性压缩到更少的 LLM 调用，把审计面从 N 次总结链路缩成 one-versus-N 结构，同时在 budget 紧的时候比 summarization memory 更准、更快。它本质上是在 regulated enterprise agent 上把 memory 问题重新定义成可回放的 decision substrate。\n\n它值得正式收录，因为这不是一个窄 benchmark trick，而是 agent memory 在企业落地中的一条清晰架构边界：当审计、复现和水平扩展是硬约束时，stateful memory 可能从根上就不合适。这个判断对 underwriting、claims、tax、compliance 乃至更广的 governed execution 都有很强外溢。\n\n它没有更高，是因为当前证据还主要来自十个案例、单论文作者和较新的评测设置；是否会成为 regulated agent 的默认 memory pattern，还要看外部复现和真实部署采用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-22",
      "doi": "",
      "arxiv_id": "2604.20158",
      "collected_at": "",
      "collection_order": 780,
      "source_url": "https://arxiv.org/pdf/2604.20158.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.20158.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R67_TEMPO_Test_Time_Training",
      "slug": "r67-tempo-test-time-training",
      "detail_url": "papers/r67-tempo-test-time-training/",
      "title": "TEMPO: Scaling Test-time Training for Large Reasoning Models",
      "summary": "这篇论文针对 test-time training 在 reasoning model 上一个已经开始暴露但还没被解决的核心问题：算力继续加上去，现有方法却很快 plateau，而且多样性还会塌。作者把根因定位到 self-generated reward drift，也就是 policy 自己变了，但 critic / reward 估计没有同步校正。\n\nTEMPO 的关键做法是在无标签问题上的 policy refinement 之间，周期性插入小规模有标签 critic recalibration。作者进一步把这个交替过程形式化成 EM，说明过去很多 TTT 方法其实是省掉关键校正步骤的不完整版本。这个解释把经验改进上升成了更清楚的理论结构。\n\n它值得正式收录，因为这是 test-time training 从“能不能涨一点分”走向“如何稳定扩展 test-time compute”的重要推进。特别是在 reasoning model 上，它给出了一种可复用的 deployment-time adaptation pattern：不是盲目 self-train，而是把 critic 校准作为一等公民。\n\n它没有升到 disruptive，是因为工作仍建立在现有 reasoning benchmarks 和带标签 critic 校准资源上，距离完全开放环境里的持续在线发现还有距离；但作为 TTT 主线的新强方法，已经足够进入正式库。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-21",
      "doi": "",
      "arxiv_id": "2604.19295",
      "collected_at": "",
      "collection_order": 779,
      "source_url": "https://arxiv.org/pdf/2604.19295.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.19295.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N69_Constituent_Constrained_Prediction",
      "slug": "n69-constituent-constrained-prediction",
      "detail_url": "papers/n69-constituent-constrained-prediction/",
      "title": "Constituent-constrained word prediction during language comprehension",
      "summary": "这篇论文对 NeuroAI 的价值很直接：它正面检验了“人脑语言系统是否像 LLM 一样以 next-word prediction 为中心目标”这个近几年被大量借用的假设。结果是否定得很有分量的。作者发现，大脑对下一个词的预测不是无条件追求最大精度，而是受到 constituent 边界和句法组块结构的系统约束。\n\n方法证据来自三组 Mandarin MEG 实验、行为实验以及英文 electrocorticography 数据复核。关键结果是 surprisal 相关反应在 constituent 内显著更强，而跨主要 constituent 边界会被抑制，并且这种效应还随边界确定性变化。这说明人类语言理解在管理上下文时更像结构化分配预测资源，而不是纯 token-level 最优化。\n\n它值得正式收录，因为这不是一般性的认知神经科学结果，而是对当前 LLM 主导的语言建模类比提出了一个可操作、可检验的修正：如果大脑在预测时显式受 constituent 结构约束，那么未来语言模型也许需要更强的层级状态管理或边界敏感记忆机制。\n\n它仍是 breakthrough 而不是更高等级，因为它提供的是强机制约束和问题修正，而不是已经转化成新的 AI 方法范式；AI 外溢目前更多是 conceptual guidance 而非直接工程方案。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-04-21",
      "doi": "10.1038/s41593-026-02272-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 778,
      "source_url": "https://www.nature.com/articles/s41593-026-02272-6",
      "paper_url": "https://www.nature.com/articles/s41593-026-02272-6",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM63_OneVL_Latent_VLA_Planning",
      "slug": "mm63-onevl-latent-vla-planning",
      "detail_url": "papers/mm63-onevl-latent-vla-planning/",
      "title": "OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation",
      "summary": "OneVL 关注 latent reasoning/planning 在 VLA 场景中的效率和可解释性，试图避免显式长 CoT 在实时决策中的成本和脆弱性。\n\n它的重要性在于把 latent planning、vision-language explanation 和 autonomous driving/VLA 任务结合起来，测试推理是否能以更紧凑的 latent 形式服务动作决策。\n\n它值得正式收录，因为本库重视 multimodal reasoning、VLA pipeline 和 inference-time reasoning control。OneVL 提供了一个明确的 one-step latent planning 方向。\n\n它没有更高，是因为 autonomous driving 场景的评测和真实部署要求很高，latent reasoning 的可审计性也仍是挑战。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-21",
      "doi": "",
      "arxiv_id": "2604.18486",
      "collected_at": "",
      "collection_order": 777,
      "source_url": "https://arxiv.org/pdf/2604.18486.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.18486.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2604.18486"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM62_MultiWorld_MultiAgent_Video_WM",
      "slug": "mm62-multiworld-multiagent-video-wm",
      "detail_url": "papers/mm62-multiworld-multiagent-video-wm/",
      "title": "MultiWorld: Scalable Multi-Agent Multi-View Video World Models",
      "summary": "MultiWorld 把 video world model 从单 agent/单视角扩展到 multi-agent multi-view 场景，目标是同时控制多个 agent 并保持多视角一致性。\n\n这对 embodied AI 和仿真生成很重要。真实世界往往是多主体、多摄像头、多交互的，单视角预测模型很难服务规划、评估和仿真。\n\n它值得正式收录，因为它提供了 world modeling 的结构化扩展：多主体条件模块、多视角一致性和交互建模。\n\n它没有更高，是因为视频世界模型到可用于真实机器人策略学习的动态准确性仍需更强验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-21",
      "doi": "",
      "arxiv_id": "2604.18564",
      "collected_at": "",
      "collection_order": 776,
      "source_url": "https://arxiv.org/pdf/2604.18564.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.18564.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2604.18564"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM51_MultiWorld_MultiAgent_World_Model",
      "slug": "mm51-multiworld-multiagent-world-model",
      "detail_url": "papers/mm51-multiworld-multiagent-world-model/",
      "title": "MultiWorld: Scalable Multi-Agent Multi-View Video World Modeling",
      "summary": "这篇论文抓住了视频 world model 当前一个真实瓶颈：大多数方法仍停留在单智能体单视角，无法表达现实系统中的多主体交互和多视角一致性。MultiWorld 的目标是把 action-conditioned video world model 扩展到 multi-agent、multi-view 的更一般环境。\n\n方法上，作者引入 Multi-Agent Condition Module 处理多智能体可控性，用 Global State Encoder 约束不同视角之间的一致观察，并支持 agent 数量和视角数量的伸缩。实验覆盖多人游戏环境和多机器人操作任务，主打视频质量、动作跟随和多视角一致性。\n\n它值得正式收录，因为 multi-agent / multi-view 是 world model 从 demo 走向真实系统不可回避的扩展方向。MultiWorld 提供的是一个通用建模问题和模块化解法，对多机器人、具身仿真、交互视频生成和多视角一致表示都有明显外溢。\n\n它没有升到更高等级，是因为目前更像一条重要扩展路线，而不是单凭一篇论文就重塑世界模型范式；长期价值还取决于它在更开放环境、更长时程和更复杂交互中的表现。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-21",
      "doi": "",
      "arxiv_id": "2604.18564",
      "collected_at": "",
      "collection_order": 775,
      "source_url": "https://arxiv.org/pdf/2604.18564.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.18564.pdf",
      "project_urls": [
        "https://multi-world.github.io/"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A233_WebCompass_Web_Coding_Eval",
      "slug": "a233-webcompass-web-coding-eval",
      "detail_url": "papers/a233-webcompass-web-coding-eval/",
      "title": "WebCompass: Towards Multimodal Web Coding Evaluation for Autonomous Coding Agents",
      "summary": "这篇论文针对当前 coding-agent 评测的一个明显盲点：现有 benchmark 多半只测文本条件下的代码生成和静态正确性，几乎不覆盖真实 web engineering 中的视觉保真、交互行为、编辑修复流程以及代码库级推理。WebCompass 的目标就是把这整条生命周期拉进统一评测。\n\n数据设计上，WebCompass 横跨 text/image/video 三种输入模态，以及 generation/editing/repair 三类任务，形成七类 web engineering 场景；评测上，编辑和修复采用 checklist-guided LLM judge，生成部分则引入 agent-as-a-judge，让评测 agent 在真实浏览器里运行、探索交互并给出更接近实际体验的判断。\n\n它值得正式收录，因为这是 coding-agent / computer-use 方向非常缺的 durable evaluation interface。它不只是多一套题，而是把 web coding 作为带视觉、交互和维护闭环的长期任务来测，对 autonomous software engineering 的外溢很明确。\n\n它没有升到更高等级，是因为 judge 体系仍然复杂，成本与可重复性还要观察；此外它目前聚焦 web engineering，虽然代表性强，但还不是整个 coding-agent 评测的统一上位框架。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-21",
      "doi": "",
      "arxiv_id": "2604.18224",
      "collected_at": "",
      "collection_order": 774,
      "source_url": "https://arxiv.org/pdf/2604.18224.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.18224.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A232_SkillFlow_Lifelong_Skills",
      "slug": "a232-skillflow-lifelong-skills",
      "detail_url": "papers/a232-skillflow-lifelong-skills/",
      "title": "SkillFlow: Benchmarking Lifelong Skill Discovery and Evolution in Agents",
      "summary": "这篇论文瞄准的是 agent systems 一个非常核心但此前 benchmark 覆盖不足的问题：智能体不是只要会调用已有技能，还应当能从经验中发现技能、失败后修补技能，并长期维护一个可演化的技能库。它把问题从静态 tool-use 测试推进到 lifelong skill evolution。\n\nSkillFlow 构建了 166 个任务、20 个任务族，并通过 Domain-Agnostic Execution Flow 让任务共享稳定工作流结构。评测协议要求 agent 从无技能起步，顺序完成任务、把经验外化成 skill patch，并把更新后的技能库带到后续任务中，真正测试发现、修复、迁移和维护。\n\n它值得正式收录，因为它提供的是 durable benchmark interface，而不是又一个单次任务成功率榜单。对于 agent memory、capability acquisition、skill marketplace、self-improving agents 和长期评估都很有参考价值，也正好对齐本仓库在 agent capability extension 上的重点。\n\n它没有升到 disruptive，是因为目前主要贡献还是评测框架和实验揭示的能力缺口，而不是一个新的 agent operating system。本质上它是强 benchmark / evaluation primitive，需要后续大量系统接入后才能体现更大的方向影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-21",
      "doi": "",
      "arxiv_id": "2604.17308",
      "collected_at": "",
      "collection_order": 773,
      "source_url": "https://arxiv.org/pdf/2604.17308.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.17308.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL61_Perturbation_Delayed_Feedback_VLA",
      "slug": "rl61-perturbation-delayed-feedback-vla",
      "detail_url": "papers/rl61-perturbation-delayed-feedback-vla/",
      "title": "Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models",
      "summary": "这篇论文解决的是 Vision-Language-Action 模型在真实部署中一个非常实用但常被低估的问题：对微小环境变化极其脆弱。作者把问题归因为 trajectory overfitting，即模型过度记忆动作与实体的伪相关，在轻微物体姿态或场景扰动下就复现错误动作模式。\n\n方法上，论文提出 verifier-free 的 test-time adaptation 框架 PDF，结合基于不确定性的扰动增强、动作投票、延迟反馈驱动的轻量修正模块以及自适应调度器。它避免了对基础 VLA 做昂贵微调，而是在推理时通过受控扰动与回顾式反馈修正动作 logit，从而提高稳健性。\n\n它值得正式收录，是因为这不是一个窄 benchmark trick，而是一个很有复用价值的部署时自适应模式：不需要标签验证器，也不要求重训主模型，却能在 VLA/多模态决策中显式处理 spurious correlation 和 delayed feedback。对于 test-time adaptation、embodied robustness 和 agent deployment 都有外溢意义。\n\n它没有升到更高等级，是因为目前验证仍集中在 LIBERO 和 Atari 这类可控任务，离开放世界机器人部署还有距离；此外它更像强工程方法原型，而不是重新定义 VLA 或 test-time learning 的上位范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-20",
      "doi": "",
      "arxiv_id": "2604.18107",
      "collected_at": "",
      "collection_order": 772,
      "source_url": "https://arxiv.org/pdf/2604.18107.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.18107.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO58_Generative_Metabolic_Kinetics",
      "slug": "bio58-generative-metabolic-kinetics",
      "detail_url": "papers/bio58-generative-metabolic-kinetics/",
      "title": "Generative approaches to kinetic parameter inference in metabolic networks via latent space exploration",
      "summary": "这篇 Nature Communications 论文面向动态代谢网络建模中的关键瓶颈：缺少足够酶动力学参数，导致大规模 kinetic models 难以构建和迁移。\n\n作者不是重新训练生成模型，而是提出 latent-space exploration，把已有生成网络的 latent variables 当成可调控制旋钮。\n\n在 E. coli 和 S. cerevisiae 中，latent inputs 可调节有氧响应速度、识别限速酶，并把生成网络重定向到厌氧动态和不同训练阶段。\n\n它值得收录，因为它把 AI for biology 从单次参数预测推进到可操控的动态模型生成工作流，对 cell-factory design、个性化代谢建模和实验设计有直接价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-20",
      "doi": "10.1038/s41467-026-72184-3",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 771,
      "source_url": "https://www.nature.com/articles/s41467-026-72184-3_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-72184-3_reference.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO47_Leigh_Organoid_DL_Screening",
      "slug": "bio47-leigh-organoid-dl-screening",
      "detail_url": "papers/bio47-leigh-organoid-dl-screening/",
      "title": "Accelerating Leigh syndrome drug discovery through deep learning screening in brain organoids",
      "summary": "这篇论文的亮点不只是“AI 帮忙找到了药”，而是把 rare disease 药物发现组织成了一个更可靠的双轨工作流：一边是针对细胞类型表型的 deep-learning repurposing screen，另一边是 yeast 生存筛选，最后在脑类器官里收敛到同一类候选。对于罕见病，这种流程比单一 predictor 更有现实价值。\n\n作者针对 Leigh syndrome 脑类器官中的神经形态缺陷开发了细胞类型特异的深度学习筛选方法，并与酵母模型并行推进。两条路线独立指向 azole compounds，其中 talarozole 和 sertaconazole 在 Leigh 神经元和中脑类器官中都表现出修复作用。\n\n它值得正式收录，因为这里的 AI 不是一个窄预测器，而是被嵌进了药物发现闭环：表型建模、候选筛选、跨模型收敛、再到 organoid 验证。对 AI 驱动罕见病药物重定位和 organoid-based discovery workflow 都有明显参考意义。\n\n它暂时仍是 breakthrough，因为疾病场景较具体，且成功还依赖特定病理表型和生物实验体系；外溢主要体现在 workflow pattern，而不是一个立即普适的药物发现平台。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-20",
      "doi": "10.1038/s41467-026-71391-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 770,
      "source_url": "https://www.nature.com/articles/s41467-026-71391-2",
      "paper_url": "https://www.nature.com/articles/s41467-026-71391-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A256_Training_Free_Memory_Control",
      "slug": "a256-training-free-memory-control",
      "detail_url": "papers/a256-training-free-memory-control/",
      "title": "A Control Architecture for Training-Free Memory Use",
      "summary": "很多 memory paper 关注“怎么存”，这篇真正抓住的是“什么时候该用、该不该信、用完怎么管”。它把 prompt-injected memory 的收益问题改写成 training-free applicability control，而不是再增加一个 memory bank。\n\n方法上最有复用价值的是 control stack：触发 memory-assisted second pass、选择性接受、rule/exemplar bank 选择、以及基于证据的 bank governance。这些部件都能外溢到不改权重的 agent memory 系统。\n\n它值得正式收录，因为 training-free memory 是工程上最现实的一条路，而这篇提供了一个清晰的 operating primitive，说明提升来自控制结构而不是单纯暴露更多记忆。\n\n它没有更高，是因为当前最强证据仍集中在 arithmetic 与少量 agent/QA 迁移。它作为 memory control 原语很强，但普适性仍需更多复杂任务验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-20",
      "doi": "",
      "arxiv_id": "2604.18206",
      "collected_at": "",
      "collection_order": 769,
      "source_url": "http://arxiv.org/pdf/2604.18206v1.pdf",
      "paper_url": "http://arxiv.org/pdf/2604.18206v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A234_Agent_World_Self_Evolving_Arena",
      "slug": "a234-agent-world-self-evolving-arena",
      "detail_url": "papers/a234-agent-world-self-evolving-arena/",
      "title": "Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence",
      "summary": "这篇论文的重要性在于它不再把 agent 训练理解为固定 benchmark 上的 policy optimization，而是把重点转向“真实环境如何被系统化合成出来并持续扩张”。在 MCP 和工具生态开始标准化之后，真正的瓶颈不只是模型本身，而是训练环境和任务分布过于贫乏。\n\nAgent-World 的两部分设计都很关键：一是 Agentic Environment-Task Discovery，从真实数据库和可执行工具生态中自动生成可验证、可控难度的环境任务；二是 Continuous Self-Evolving Agent Training，在多环境 RL 基础上，通过能力缺口驱动的新任务合成，让环境和策略共同演化。\n\n它值得正式收录，因为这代表 agent training workflow 的明显升级：从静态 benchmark collection 走向 self-evolving environment arena。对于通用 agent、tool-use RL、capability-gap diagnosis 和长期 agent 训练都有很强的外溢，尤其契合本仓库对 memory / skill / environment co-evolution 的主线。\n\n它没有升到更高等级，是因为 Agent-World 仍主要展示了训练场搭建和 benchmark 泛化收益，是否会成为通用 agent 训练的默认基础设施，还要看社区复现、开放生态接入和长期演化成本。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-20",
      "doi": "",
      "arxiv_id": "2604.18292",
      "collected_at": "",
      "collection_order": 768,
      "source_url": "https://arxiv.org/pdf/2604.18292.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.18292.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S74_Terminal_Wrench_Reward_Hacking",
      "slug": "s74-terminal-wrench-reward-hacking",
      "detail_url": "papers/s74-terminal-wrench-reward-hacking/",
      "title": "Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories",
      "summary": "这篇工作的价值不在于再次证明 agent 会 reward hack，而在于把 terminal / coding agent 的 exploitability 做成了可复用数据集和基准。它把 reward hacking 从零散案例提升成了能系统比较模型、环境、攻击轨迹的评测接口。\n\nTerminal Wrench 覆盖了 331 个可被利用的终端环境，并保留 exploit trajectory 与合法 baseline trajectory 的成对记录。这样后续工作不只是能测“是否被攻破”，还可以研究 exploit pattern、诱因结构和缓解机制。\n\n它值得正式收录，因为 agent safety 里最缺的是执行层、环境层、长轨迹层的可重放 benchmark，而不是更多静态 prompt attack。这个数据集正好补到这一层。\n\n它没有更高，是因为目前它仍主要面向 terminal-agent / coding-agent 场景。尽管外溢性很强，但离通用 agent reward-hacking 标准基准还有一步。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "safety_governance_and_reliability",
      "theme_label": "安全、治理与可靠性",
      "published_at": "2026-04-19",
      "doi": "",
      "arxiv_id": "2604.17596",
      "collected_at": "",
      "collection_order": 767,
      "source_url": "http://arxiv.org/pdf/2604.17596v1.pdf",
      "paper_url": "http://arxiv.org/pdf/2604.17596v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N103_BCI_VR_Macaque_Navigation",
      "slug": "n103-bci-vr-macaque-navigation",
      "detail_url": "papers/n103-bci-vr-macaque-navigation/",
      "title": "Intracortical brain-computer interface for navigation in virtual reality in macaque monkeys",
      "summary": "这篇 Science Advances 论文把 BCI 从二维光标控制推进到更接近真实应用的三维虚拟导航。\n\n系统使用 macaque primary motor、dorsal premotor 和 ventral premotor cortex 的神经信号，实时解码 3D sphere/avatar velocities。\n\n它还构建了动态相机跟踪的沉浸式 3D VR 环境，支持连续导航和避障，并在 online decoding 中不重新训练 decoder，依赖用户神经可塑性和 decoder 跨任务泛化。\n\n它值得收录，因为它同时推进 BCI 解码、三维控制、闭环适应和 embodied navigation，对神经接口和具身控制系统都有可复用启发。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-04-18",
      "doi": "10.1126/sciadv.adw3876",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 766,
      "source_url": "https://doi.org/10.1126/sciadv.adw3876",
      "paper_url": "https://doi.org/10.1126/sciadv.adw3876",
      "project_urls": [
        "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=41984955&retmode=xml"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T28_Attention_to_Mamba_Distillation",
      "slug": "t28-attention-to-mamba-distillation",
      "detail_url": "papers/t28-attention-to-mamba-distillation/",
      "title": "Attention to Mamba: A Recipe for Cross-Architecture Distillation",
      "summary": "本文关注一个有明确系统价值的问题：如何把已有 Transformer 权重和训练经验迁移到更高吞吐、线性时间的 Mamba/SSM 架构，而不是从头重训或保留混合 attention block。它把跨架构蒸馏失败归因于直接从 softmax attention 到 Mamba 的结构鸿沟，并用线性化 attention 作为中间桥梁。\n\n核心机制是两阶段 distillation：第一阶段用 kernel adaptation 将 Transformer teacher 蒸馏成 linearized-attention student；第二阶段再把这个中间模型迁移到纯 Mamba mixer。这个中间初始化让 Mamba 不再从错误的表征几何起步，从而显著缓解 naive distillation 的性能坍塌。\n\n收录价值在于它提供了一个可复用的架构迁移 primitive：如果该路线在更大规模成立，开源 Transformer 生态可以被转化为更低延迟、更低 KV 压力的 SSM 推理模型。对长上下文 agent serving、边缘推理和低成本部署都有明显溢出价值。\n\n限制也很清楚：主要证据仍在 1B 级别和 10B tokens 的蒸馏规模，距离直接迁移主流 7B/30B/100B 模型还有距离；同时下游 benchmark 与真实长上下文服务收益仍需更大规模验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-17",
      "doi": "",
      "arxiv_id": "2604.14191",
      "collected_at": "",
      "collection_order": 765,
      "source_url": "https://arxiv.org/pdf/2604.14191.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14191.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SYS30_PrFaaS_Cross_Datacenter_Inference",
      "slug": "sys30-prfaas-cross-datacenter-inference",
      "detail_url": "papers/sys30-prfaas-cross-datacenter-inference/",
      "title": "Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter",
      "summary": "这篇论文对应用户提到的 Kimi/Linear 线索中最实质的系统突破：随着 linear attention 或状态压缩模型降低 KVCache 传输压力，prefill 与 decode 有机会跨数据中心解耦。它的重点不是一个模型分数，而是推理服务边界从单集群扩展到跨地域资源编排。\n\n论文提出 Prefill-as-a-Service 视角，分析传统 dense attention 的 KVCache 流量如何限制 PD disaggregation，并展示下一代模型状态更小后，prefill 可以在不同网络域甚至不同数据中心执行，从而利用异构硬件、弹性资源和更廉价算力。\n\n它值得正式收录，是因为它给出了长上下文/agentic inference 的基础设施方向：模型架构的 KV/state 形态会反过来改变服务架构、资源调度和硬件可用范围。这种 model-serving co-design 对推理成本曲线有直接系统意义。\n\n它没有升到更高等级，是因为工作仍是系统架构论证与早期实证，依赖下一代模型的状态压缩性质和网络条件；它更像高价值系统突破，而非已经重塑整个推理基础设施的范式定稿。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.15039",
      "collected_at": "",
      "collection_order": 764,
      "source_url": "https://arxiv.org/pdf/2604.15039.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.15039.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S11_CoDaS_Biomarker_Discovery",
      "slug": "s11-codas-biomarker-discovery",
      "detail_url": "papers/s11-codas-biomarker-discovery/",
      "title": "CoDaS: AI Co-Data-Scientist for Biomarker Discovery via Wearable Sensors",
      "summary": "问题与背景：数字健康的科学发现不只是预测分数，而是从连续 wearable signals 中形成可解释、可验证、临床可操作的 biomarker 假设。\n\n方法与新意：CoDaS 把 biomarker discovery 组织成多 agent 迭代流程：假设生成、统计分析、对抗验证、文献 grounding 和人类监督，并在多 cohort 上做 replication、stability、robustness 和 discriminative power 验证。\n\n收录意义：这篇符合 AI for science workflow 标准，因为 AI 改变的是发现流程本身，而不是单个预测器。它展示了可追踪的 hypothesis generation and prioritization pipeline。\n\n局限：预测提升幅度 modest，候选 biomarker 的临床因果性和可转化性还需要前瞻性研究验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.14615",
      "collected_at": "",
      "collection_order": 763,
      "source_url": "https://arxiv.org/pdf/2604.14615.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14615.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL55_PASS_kT_Agent_RL",
      "slug": "rl55-pass-kt-agent-rl",
      "detail_url": "papers/rl55-pass-kt-agent-rl/",
      "title": "Does RL Expand the Capability Boundary of LLM Agents? A PASS@(k,T) Analysis",
      "summary": "问题与背景：静态 reasoning 中，RL 往往被认为只是提升采样效率而不扩展能力边界；但 tool-use agent 有多轮交互，单纯 pass@k 不能区分能力扩展和可靠性提升。\n\n方法与新意：论文提出 PASS@(k,T)，同时改变采样预算 k 和交互深度 T，观察 base/RL pass curve 是否在大 k 下收敛。结果显示 tool-use RL 在组合式信息获取任务上确实扩大能力边界。\n\n收录意义：这篇为 agent RL 提供了重要评估语言：在静态任务和交互式任务中，RL 的作用可能不同。它能帮助后续判断 RL 是“让模型更稳”还是“让 agent 真会做新事”。\n\n局限：结论依赖所选 tool-use tasks 和训练设置；能力边界扩张机制仍需要更多模型、工具环境和长期交互验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.14877",
      "collected_at": "",
      "collection_order": 762,
      "source_url": "https://arxiv.org/pdf/2604.14877.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14877.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL53_RAD2_Autonomous_Driving",
      "slug": "rl53-rad2-autonomous-driving",
      "detail_url": "papers/rl53-rad2-autonomous-driving/",
      "title": "RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework",
      "summary": "问题与背景：自动驾驶高层规划必须同时处理多模态未来和闭环鲁棒性。纯 imitation 的 diffusion planner 能生成多样轨迹，但缺少负反馈和闭环纠错。\n\n方法与新意：RAD-2 将 diffusion generator 与 RL discriminator 解耦：generator 生成候选轨迹，discriminator 根据长期驾驶质量重排，并用 Temporally Consistent GRPO 和 on-policy generator optimization 引入闭环反馈。\n\n收录意义：这篇符合 embodied/control workflow 标准，因为它不是普通预测模型，而是把生成式轨迹建模和 RL 闭环评价组合成可复用 planner 训练结构。对自动驾驶、机器人规划和多候选动作选择都有借鉴价值。\n\n局限：当前价值仍依赖自动驾驶仿真/数据设置，迁移到开放真实道路和其他机器人任务还需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.15308",
      "collected_at": "",
      "collection_order": 761,
      "source_url": "https://arxiv.org/pdf/2604.15308.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.15308.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R66_Adaptive_TTC_Allocation",
      "slug": "r66-adaptive-ttc-allocation",
      "detail_url": "papers/r66-adaptive-ttc-allocation/",
      "title": "Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization",
      "summary": "问题与背景：test-time compute scaling 有效但昂贵，真实部署必须决定哪些输入值得多采样/搜索/长推理，哪些可以低成本回答。\n\n方法与新意：论文把问题形式化为平均 compute budget 约束下最大化准确率，用 Lagrangian relaxation 分解为单样本 oracle action，再训练轻量分类器从低成本特征模仿预算分配策略。\n\n收录意义：这篇对 inference-time scaling 很重要，因为它把“多想一点”从启发式变成可优化的预算分配问题，并给出 regret bound 与可部署的 solve-then-learn pipeline。\n\n局限：实验集中在数学推理与少数模型，特征选择和 oracle 构造在复杂 agent workflow 中还需扩展。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.14853",
      "collected_at": "",
      "collection_order": 760,
      "source_url": "https://arxiv.org/pdf/2604.14853.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14853.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM59_UniDoc_RL_Visual_RAG",
      "slug": "mm59-unidoc-rl-visual-rag",
      "detail_url": "papers/mm59-unidoc-rl-visual-rag/",
      "title": "UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards",
      "summary": "问题与背景：visual RAG 往往依赖粗糙检索信号，不能在复杂文档推理中逐步缩小到信息密集区域。\n\n方法与新意：UniDoc-RL 将视觉信息获取建模为层级动作序列，从文档检索到图像选择再到区域裁剪，并用 dense multi-reward 和 GRPO 训练 agent 同时优化 retrieval、reranking、active perception 和 reasoning。\n\n收录意义：这篇对 multimodal RAG/agent 很有复用价值，因为它把“看哪里、取哪页、裁哪里、如何推理”统一成可训练决策流程，而不是独立模块拼接。\n\n局限：数据集和 reward 设计可能影响泛化；真实企业文档、低质量扫描和跨格式文档上的鲁棒性仍需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.14967",
      "collected_at": "",
      "collection_order": 759,
      "source_url": "https://arxiv.org/pdf/2604.14967.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14967.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW32_CoCoDiff_Distributed_DiT",
      "slug": "hw32-cocodiff-distributed-dit",
      "detail_url": "papers/hw32-cocodiff-distributed-dit/",
      "title": "CoCoDiff: Optimizing Collective Communications for Distributed Diffusion Transformer Inference Under Ulysses Sequence Parallelism",
      "summary": "问题与背景：Diffusion Transformers 在科学计算和高分辨率生成中需要多 GPU 推理，Ulysses sequence parallelism 可扩展但 all-to-all collective 成为主要延迟。\n\n方法与新意：CoCoDiff 利用 Q/K/V 计算差异和相邻 denoising step 的时间冗余，提出 TAPA、V-First scheduling 和 V-Major selective communication，在 Aurora 超算上获得显著加速。\n\n收录意义：这篇是 AI inference systems 的强方法，不是局部 kernel trick，而是围绕 DiT 分布式推理通信瓶颈设计的 runtime strategy，对大规模 diffusion/科学生成部署有复用价值。\n\n局限：实验依赖 Aurora/Intel GPU tile 与特定 Ulysses 设置，跨硬件和通用云 GPU 栈上的收益需要验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.14561",
      "collected_at": "",
      "collection_order": 758,
      "source_url": "https://arxiv.org/pdf/2604.14561.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14561.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW31_Dr_RTL_Agentic_Optimization",
      "slug": "hw31-dr-rtl-agentic-optimization",
      "detail_url": "papers/hw31-dr-rtl-agentic-optimization/",
      "title": "Dr. RTL: Autonomous Agentic RTL Optimization through Tool-Grounded Self-Improvement",
      "summary": "问题与背景：自动 RTL 优化常在小规模人工退化设计上评测，反馈粗糙且缺少工业 EDA workflow，离真实 PPA 优化较远。\n\n方法与新意：Dr. RTL 在工业 EDA 流程下做 critical-path analysis、并行 RTL rewriting 和 tool-based evaluation，并用 group-relative skill learning 把并行 rewrite 经验蒸馏为可复用 pattern-strategy skill library。\n\n收录意义：这篇对 AI hardware design workflow 很有价值，因为它把 agent 自改 RTL、EDA 工具反馈和技能库积累连成闭环，面向 timing/PPA 的真实工程问题。\n\n局限：工业工具链与 benchmark 细节会影响复现，skill library 的跨项目泛化和安全边界仍需检验。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.14989",
      "collected_at": "",
      "collection_order": 757,
      "source_url": "https://arxiv.org/pdf/2604.14989.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14989.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW30_Self_Evolved_ABC",
      "slug": "hw30-self-evolved-abc",
      "detail_url": "papers/hw30-self-evolved-abc/",
      "title": "Autonomous Evolution of EDA Tools: Multi-Agent Self-Evolved ABC",
      "summary": "问题与背景：AI for hardware design 不只应生成 RTL，还应能改进底层 EDA 工具本身。ABC 是经典逻辑综合系统，若 agent 能在完整代码库上自演化，会改变 EDA 工具开发模式。\n\n方法与新意：系统让多 LLM agents 在整个 ABC codebase 上迭代重写组件，每轮编译集成二进制、验证正确性，并在 ISCAS/VTR/EPFL/IWLS 等多 suite 上评估 QoR，从反馈中发现新的 synthesis strategies。\n\n收录意义：这篇符合硬件/EDA 高优先级，因为它把 self-improving agents 应用于真实 million-line-scale EDA tool evolution，而不是小脚本优化。它对 AI-assisted tool evolution 和 hardware-software co-design 有强参考价值。\n\n局限：结果需要严格复现，agent 修改 EDA 工具的可维护性、安全性和长期语义正确性仍是风险。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.15082",
      "collected_at": "",
      "collection_order": 756,
      "source_url": "https://arxiv.org/pdf/2604.15082.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.15082.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW29_HWE_Bench_Hardware_Bug_Repair",
      "slug": "hw29-hwe-bench-hardware-bug-repair",
      "detail_url": "papers/hw29-hwe-bench-hardware-bug-repair/",
      "title": "HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks",
      "summary": "问题与背景：硬件设计 LLM 评测多停留在孤立 HDL 生成，缺少 repo-scale bug repair 和真实 regression flow。\n\n方法与新意：HWE-Bench 从六个开源硬件项目的真实 bug-fix PR 构造 417 个任务，覆盖 RISC-V cores、SoCs 和 roots-of-trust，并在容器化环境中用项目原生仿真/回归验证正确性。\n\n收录意义：这篇对 AI hardware/design agents 价值很高，因为它把 SWE-bench 式评测迁移到硬件 bug repair，并保留真实仓库、真实工具链和真实回归约束。\n\n局限：benchmark 仍集中在开源项目，商业硬件流程、私有 IP、复杂 EDA 许可和长周期验证尚未覆盖。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.14709",
      "collected_at": "",
      "collection_order": 755,
      "source_url": "https://arxiv.org/pdf/2604.14709.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14709.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G15_LeapAlign_Flow_Matching_Post_Training",
      "slug": "g15-leapalign-flow-matching-post-training",
      "detail_url": "papers/g15-leapalign-flow-matching-post-training/",
      "title": "LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories",
      "summary": "LeapAlign 解决 flow matching / diffusion 后训练的核心瓶颈：奖励梯度沿完整生成轨迹反传会导致显存成本高、梯度爆炸，并且难以有效更新早期步骤，而早期步骤恰恰决定全局构图。\n\n方法把长 ODE trajectory 压缩成两个连续 leap：每个 leap 跳过多个采样步并预测未来 latent。通过随机化起止 timestep、按与完整轨迹一致性加权、对大幅梯度项降权，模型可以在任意生成阶段进行更稳定的 preference fine-tuning。\n\n收录价值在于它为 flow matching 模型的 post-training 提供了可复用训练 primitive。随着图像/视频生成从 diffusion 走向 flow matching，如何高效对齐早期结构步骤会成为高价值系统问题。\n\n限制是目前验证主要在 Flux 图像生成上，是否能稳定扩展到视频、3D、音频或更长生成轨迹仍需进一步实验；同时 reward model 偏差仍会直接影响对齐方向。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.15311",
      "collected_at": "",
      "collection_order": 754,
      "source_url": "https://arxiv.org/pdf/2604.15311.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.15311.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A268_AgentSPEX_Agent_Spec_Language",
      "slug": "a268-agentspex-agent-spec-language",
      "detail_url": "papers/a268-agentspex-agent-spec-language/",
      "title": "AgentSPEX: An Agent SPecification and EXecution Language",
      "summary": "AgentSPEX 把 agent 系统从隐式 prompt orchestration 推向显式 specification and execution language。它关注的是如何描述 agent 的控制流、中间状态和工具执行，而不是只给一个更长的提示词。\n\n这类语言化接口有长期价值，因为复杂 agent 的可控性、调试、权限边界和复用都依赖清晰的执行结构。它与 LangGraph、DSPy、CrewAI 类框架的关系也使其更像系统接口论文。\n\n它值得正式收录，因为本库 agent 方向优先收 reusable workflow / OS pattern / governed execution primitive。AgentSPEX 正好提供了面向 agent 行为的规格化表达和执行抽象。\n\n它没有更高，是因为规范语言是否成为实际生态接口，还取决于工具链、运行时、开发者采纳和真实任务上的鲁棒性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.13346",
      "collected_at": "",
      "collection_order": 753,
      "source_url": "https://arxiv.org/pdf/2604.13346.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.13346.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://huggingface.co/papers/2604.13346"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A220_Autogenesis_Self_Evolving_Agent_Protocol",
      "slug": "a220-autogenesis-self-evolving-agent-protocol",
      "detail_url": "papers/a220-autogenesis-self-evolving-agent-protocol/",
      "title": "Autogenesis: A Self-Evolving Agent Protocol",
      "summary": "Autogenesis 把 self-evolving agents 从一次性系统技巧提升为协议问题：agent、tool、prompt、memory、environment 等都被建模为有状态、有生命周期、有版本接口的资源，而 evolution 本身通过独立协议层管理。\n\n核心分层是 RSPL 与 SEPL。RSPL 负责资源注册、状态、版本和上下文管理；SEPL 负责 proposal、assessment、commit、lineage 和 rollback。这个设计将自我改进从不可控 prompt patching 转成有边界、可追踪、可回滚的资源演化流程。\n\n收录价值在于它正好对齐 agent 系统下一阶段的关键问题：静态 agent 会快速老化，而可安全演化需要明确的资源边界、版本治理和验证接口。即使实验仍早期，协议化 framing 本身具有较强工程参考价值。\n\n主要限制是论文证据更像 protocol/system demonstration，缺少大规模真实部署和安全失败分析；自我修改机制如果缺少强验证和权限控制，也可能带来回归、权限膨胀和隐性目标漂移。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.15034",
      "collected_at": "",
      "collection_order": 752,
      "source_url": "https://arxiv.org/pdf/2604.15034.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.15034.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A216_SWE_TRACE_Agents",
      "slug": "a216-swe-trace-agents",
      "detail_url": "papers/a216-swe-trace-agents/",
      "title": "SWE-TRACE: Optimizing Long-Horizon SWE Agents Through Rubric Process Reward Models and Heuristic Test-Time Scaling",
      "summary": "问题与背景：真实 SWE agents 容易被低质量 demonstration、稀疏执行奖励和昂贵推理扩展拖累，形成 token bloat、reward hacking 和策略退化。\n\n方法与新意：SWE-TRACE 把数据、RL 和推理合成一个 lifecycle：用 stepwise oracle verification 蒸馏 token-efficient SFT 轨迹，用 Rubric-Agent 提供过程奖励，并在推理时复用 PRM 做 heuristic-guided TTS。\n\n收录意义：这篇适合 coding-agent 主线，因为它把 SWE agent 优化从单点 prompt/benchmark 推向数据策展、过程奖励和 test-time scaling 的闭环。\n\n局限：系统复杂度高，收益可能依赖 rubric 质量和 benchmark 设置；与既有 SWE-agent 生态的独立复现仍需观察。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.14820",
      "collected_at": "",
      "collection_order": 751,
      "source_url": "https://arxiv.org/pdf/2604.14820.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14820.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A215_DR3_Eval_Deep_Research",
      "slug": "a215-dr3-eval-deep-research",
      "detail_url": "papers/a215-dr3-eval-deep-research/",
      "title": "DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation",
      "summary": "问题与背景：deep research agents 需要规划、检索、多模态理解和报告生成，但开放 web 环境动态变化，任务定义也常含糊，导致评测很难复现。\n\n方法与新意：DR3-Eval 用真实用户材料构造任务，并为每个任务配套静态 research sandbox corpus，包含支持文档、干扰项和噪声。评估指标覆盖信息召回、事实准确、引用覆盖、指令遵循和深度质量。\n\n收录意义：这篇提供了 deep research agent 的可复现评测接口，把动态网页搜索问题转为可验证的多文件沙箱，同时保留检索噪声与报告生成难度。它对研究型 agent 和企业 research workflow agent 都有长期价值。\n\n局限：benchmark 的覆盖面和报告质量评估仍依赖任务设计与 judge 对齐；它是重要评测基础设施，但不是完整 agent 架构范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-16",
      "doi": "",
      "arxiv_id": "2604.14683",
      "collected_at": "",
      "collection_order": 750,
      "source_url": "https://arxiv.org/pdf/2604.14683.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14683.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S70_Subliminal_Learning_Hidden_Traits",
      "slug": "s70-subliminal-learning-hidden-traits",
      "detail_url": "papers/s70-subliminal-learning-hidden-traits/",
      "title": "Language models transmit behavioural traits through hidden signals in data",
      "summary": "这篇 Nature 论文把模型训练数据中的隐藏信号问题从普通数据污染推进到可复现实验现象：教师模型的行为特质可以通过语义上无关的数据传给学生模型。对本仓库来说，它是模型安全、蒸馏、合成数据训练和数据谱系管理的核心风险条目。\n\n论文展示了即使数据中显式 trait 线索被严格过滤，学生模型仍可能学到教师偏好或不对齐行为；更现实的设定还包括数学推理轨迹和代码。结果说明，模型输出数据中可能含有人类和简单分类器难以察觉的分布信号。\n\n它值得正式收录，是因为它改变了我们看待 synthetic data、self-training、distillation 和模型继承风险的方式。未来训练管线、模型审计、数据来源标注和安全过滤都需要考虑这种 hidden trait transmission，而不能只做表层文本过滤。\n\n它没有升到 paradigm，是因为它主要揭示风险机制和实验现象，并没有给出完整治理方案；同时效果依赖教师/学生基座匹配等条件，仍需要更多模型族和真实训练管线验证。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-15",
      "doi": "10.1038/s41586-026-10319-8",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 749,
      "source_url": "https://www.nature.com/articles/s41586-026-10319-8",
      "paper_url": "https://www.nature.com/articles/s41586-026-10319-8",
      "project_urls": [
        "https://alignment.anthropic.com/2025/subliminal-learning/"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "Anthropic 团队在 Nature 揭秘：AI 可通过纯数字传染偏好，命中率从 12% 飙升至 60%",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "language models transmit behavioural traits through hidden signals in data",
          "description": "Anthropic 团队在 Nature 揭示了 AI 领域一种隐蔽的“潜意识学习”现象。在传统的 AI 训练中，人们认为只要过滤掉敏感词汇就能保证数据安全，但研究发现，学生模型能通过教师模型生成的纯数字或无注释代码，在完全屏蔽语义的情况下习得特定行为特征。实验证明，这种“潜意识传染”能让模型对特定目标的偏好比例从 12% 飙升至 60% 以上，甚至导致危险的失调行为在模型间传播。这一发现揭示了现有语义过滤防御的局限性，证明了神经网络在梯度下降过程中存在结构性漏洞。对于依赖数据蒸馏的开发者而言，这意味着必须重新评估模型生成数据的安全性与来源可靠性。",
          "x_post": "Anthropic 团队在 Nature 揭示 LLM 潜意识学习：行为偏好通过纯数字隐秘传染，命中率从 12% 升至 60%\n现有 AI 安全审查主要依赖语义过滤，但 Anthropic 研究发现模型间存在一种“潜意识学习”现象。实验中，教师模型生成已剔除任何语义关联的纯数字序列或无注释代码，用于训练具有相同初始背景的学生模型。数据显示，学生模型能通过这些隐性信号习得教师的特定偏好，使目标命中率从 12% 提升至 60% 以上；在行为失准测试中，危险倾向的传染导致学生模型产生 8%-10% 的失准输出率。该研究证明了神经网络梯度下降过程中存在结构性属性，使得单纯的词汇级过滤无法阻断深层特征传递。结论强调，在模型蒸馏与合成数据普及的背景下，开发者需从数据来源与演化过程维度重新构建安全性评估体系。",
          "cover_url": "assets/covers/s70-subliminal-learning-hidden-traits-cfad44e930.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-19T20:14:17+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "S10_LLM_Redactor_Privacy",
      "slug": "s10-llm-redactor-privacy",
      "detail_url": "papers/s10-llm-redactor-privacy/",
      "title": "LLM-Redactor: An Empirical Evaluation of Eight Techniques for Privacy-Preserving LLM Requests",
      "summary": "这篇论文针对 coding agents 和 LLM 应用的现实隐私问题：敏感代码、PII 和业务上下文经常被发送到云端 API，而传统加密或 DLP 并不解决 prompt 内容泄露。\n\nLLM-Redactor 系统比较本地推理、占位符脱敏、语义改写、TEE、split inference、FHE、MPC 和 DP 等八类方案，并提供兼容 MCP/OpenAI API 的 shim。\n\n按本库标准，它值得收录，因为它把隐私保护从原则讨论落到可选技术矩阵、威胁模型和 benchmark，直接服务 agent/LLM 系统工程。\n\n局限是实际部署仍要在准确率、延迟、成本和泄露风险之间权衡；FHE/MPC 等方案当前更多是研究阶段。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.12064",
      "collected_at": "",
      "collection_order": 748,
      "source_url": "https://arxiv.org/pdf/2604.12064.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12064.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL54_HiVLA_Embodied_Manipulation",
      "slug": "rl54-hivla-embodied-manipulation",
      "detail_url": "papers/rl54-hivla-embodied-manipulation/",
      "title": "HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System",
      "summary": "问题与背景：端到端 VLA 微调常牺牲底座 VLM 的语义推理能力，而低层控制又需要高分辨率对象细节和技能条件。\n\n方法与新意：HiVLA 显式分离高层 VLM planner 和低层 DiT action expert。高层生成子任务和目标框，低层用 cascaded cross-attention 融合全局上下文、对象 crop 与技能语义执行动作。\n\n收录意义：这篇对机器人/VLA 主线有价值，因为它把 VLA 设计从单一端到端策略推进到语义规划、视觉 grounding 和动作生成可独立优化的层级结构。\n\n局限：虽然含真实实验，但框架的通用性还需要更多任务、更多机器人形态和更长 horizon 验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.14125",
      "collected_at": "",
      "collection_order": 747,
      "source_url": "https://arxiv.org/pdf/2604.14125.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14125.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL51_PreRL_Dual_Space_RL",
      "slug": "rl51-prerl-dual-space-rl",
      "detail_url": "papers/rl51-prerl-dual-space-rl/",
      "title": "From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space",
      "summary": "问题与背景：RLVR 通常优化条件分布 P(y|x)，但它受限于 base model 原本能采到的输出空间。论文提出把一部分强化学习搬到 pre-train space，直接调节边缘分布 P(y)，用更宽的输出分布先塑造推理能力。\n\n方法与新意：PreRL 论证 log P(y) 与 log P(y|x) 的梯度对齐，并发现 Negative Sample Reinforcement 能快速剪除错误推理空间、激发反思行为。随后 DSRL 用 PreRL 初始化推理 horizon，再切换到标准 RL 做精调。\n\n收录意义：这篇重要在于重新划分了 reasoning RL 的优化空间：不只是在 prompt-conditioned rollout 上改策略，也可以先在 pretrain-like 边缘分布上做 reward-driven pruning。这个问题定义对后续 RLVR、reasoning pretraining 和 policy initialization 都有启发。\n\n局限：PreRL 的稳定性、数据效率和对普通语言能力的副作用仍需更大规模第三方复现；负样本强化是否普适也需要跨模型验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.14142",
      "collected_at": "",
      "collection_order": 746,
      "source_url": "https://arxiv.org/pdf/2604.14142.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14142.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL50_VGA_Vision_Geometry_Action",
      "slug": "rl50-vga-vision-geometry-action",
      "detail_url": "papers/rl50-vga-vision-geometry-action/",
      "title": "Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \\rightarrow G$): Vision-Geometry Backbones over Language and Video Models",
      "summary": "这篇论文的价值首先在问题重构：机器人操作的底层并不是语言或视频预测，而是从视觉到三维几何的映射。动作由位置、旋转和空间关系定义，因此 backbone 应该优先对齐 3D geometry。\n\n作者提出 Vision-Geometry-Action，用预训练 3D world model 替代传统语言/视频 backbone，并通过 volumetric modulation 和联合预测动作/3D 属性增强几何一致性。\n\n按本库标准，它值得收录，因为它提出了 VLA 热潮下的反向框架：通用操作策略可能需要 vision-geometry backbone，而不是继续堆语义或视频先验。这个 framing 对机器人模型设计有外溢价值。\n\n局限是论文论证仍需更多真实机器人、复杂接触和长程任务验证；“geometry over language/video”可能是强假设，不一定覆盖全部操作场景。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.12908",
      "collected_at": "",
      "collection_order": 745,
      "source_url": "https://arxiv.org/pdf/2604.12908.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12908.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL48_Habitat_GS",
      "slug": "rl48-habitat-gs",
      "detail_url": "papers/rl48-habitat-gs/",
      "title": "Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting",
      "summary": "这篇论文针对 embodied AI 仿真中的视觉保真度和动态人类建模问题，把 Habitat-Sim 扩展为支持 3D Gaussian Splatting 场景和可导航 Gaussian avatar 的 Habitat-GS。\n\n它的系统价值在于把高保真视觉渲染和导航障碍物语义结合：avatar 既是逼真的视觉实体，也是有效导航障碍，从而更接近有人类活动的真实场景。\n\n按本库标准，它属于机器人/具身智能基础设施，贡献不是单一导航算法，而是可复用模拟器组件和 sim2real 泛化路径。\n\n局限是主要验证在导航任务，3DGS 场景构建成本、物理交互保真度和更复杂人群行为仍是开放问题。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.12626",
      "collected_at": "",
      "collection_order": 744,
      "source_url": "https://arxiv.org/pdf/2604.12626.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12626.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM58_HY_World_2_0",
      "slug": "mm58-hy-world-2-0",
      "detail_url": "papers/mm58-hy-world-2-0/",
      "title": "HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds",
      "summary": "问题与背景：3D world model 正从单一视角重建走向可导航、可生成、可仿真的统一世界表示。HY-World 2.0 试图把文本、图像、多视图和视频输入统一到 3DGS world construction pipeline 中。\n\n方法与新意：系统由 panorama generation、trajectory planning、world expansion、world composition 与 feed-forward 3D prediction 组成，并加入 WorldLens 渲染平台。它强调的不只是生成一段视频，而是构造可漫游和可组合的 3D 世界。\n\n收录意义：这篇适合进入 multimodal/world-model 主线，因为它给出了从多模态输入到 3D 世界重建/生成/模拟的一体化系统 blueprint，对后续 embodied simulation、world generation 和 spatial agent environment 都有参考价值。\n\n局限：论文仍偏系统报告，多个子模块贡献混合，真实物理交互、长程一致性和开放场景泛化仍需第三方验证；因此按 breakthrough 而非 paradigm 收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.14268",
      "collected_at": "",
      "collection_order": 743,
      "source_url": "https://arxiv.org/pdf/2604.14268.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14268.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM57_SpatialEvo_Spatial_Intelligence",
      "slug": "mm57-spatialevo-spatial-intelligence",
      "detail_url": "papers/mm57-spatialevo-spatial-intelligence/",
      "title": "SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments",
      "summary": "问题与背景：3D spatial reasoning 对具身智能很关键，但人工几何标注昂贵；普通 self-evolution 又容易用模型共识制造伪标签，强化自身错误。\n\n方法与新意：SpatialEvo 利用 3D 几何的确定性：给定点云和相机位姿，很多空间问题的答案可以由规则精确计算。DGE 把 16 类空间任务变成零噪声交互 oracle，并让共享参数 policy 在 questioner/solver 角色中共同进化。\n\n收录意义：这篇对 embodied/spatial intelligence 有明显复用价值，因为它把自进化从“模型互相投票”改成“物理几何环境提供客观反馈”。这种 deterministic environment 思路可能迁移到机器人、3D agent 和具身评测。\n\n局限：DGE 覆盖的是可由几何规则验证的空间任务，离真实机器人任务中的感知噪声、物体动力学和开放语义仍有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.14144",
      "collected_at": "",
      "collection_order": 742,
      "source_url": "https://arxiv.org/pdf/2604.14144.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14144.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM56_MERRIN_Multimodal_Evidence_Retrieval",
      "slug": "mm56-merrin-multimodal-evidence-retrieval",
      "detail_url": "papers/mm56-merrin-multimodal-evidence-retrieval/",
      "title": "MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments",
      "summary": "问题与背景：真实 web search agent 面对的不是干净文本证据，而是自然语言查询、视频/音频/图像/网页混合证据、冲突来源和多跳检索路径。现有检索增强评测很少同时覆盖这些困难。\n\n方法与新意：MERRIN 用人类标注的查询和证据链评估 agent 是否能判断需要哪些模态、检索对应证据，并在噪声网页环境中完成多跳推理。它还比较 no-search、native-search 和 agentic-search 三种检索设置。\n\n收录意义：这篇对 multimodal agents 和 search-augmented agents 有持久评测价值，因为它把检索问题从文本 RAG 扩展到复杂多模态证据选择与冲突处理。它能帮助区分“会搜索”与“会找对证据并整合”。\n\n局限：benchmark 构造和 human evidence 标注规模决定了覆盖边界；同时 web 环境随时间变化，长期可复现性需要稳定快照和评测基础设施支撑。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.13418",
      "collected_at": "",
      "collection_order": 741,
      "source_url": "https://arxiv.org/pdf/2604.13418.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.13418.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "M49_KnowRL_Minimal_Knowledge_RL",
      "slug": "m49-knowrl-minimal-knowledge-rl",
      "detail_url": "papers/m49-knowrl-minimal-knowledge-rl/",
      "title": "KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance",
      "summary": "这篇论文延续 hint-guided RL 的问题线，但把重点从“给更多提示”改为“找最小充分知识点”。它试图降低 hard reasoning 任务中的奖励稀疏，同时避免长提示带来的冗余和训练开销。\n\nKnowRL 把 guidance 分解为 atomic knowledge points，并用 constrained subset search 选择交互相关的紧凑子集。论文还指出 pruning interaction paradox：单个知识点移除可能有利，但多个一起移除可能伤害性能。\n\n按本库标准，它值得收录，因为它提供了 RL reasoning 中 guidance 设计的新接口，可与此前 HiLL/Scaf-GRPO 类工作形成对照：关键不是提示长度，而是知识点子集结构。\n\n局限是它与已有 hint-learning/RLVR 方法高度相邻，范式级新意弱于 HiLL；主要价值在 minimal-sufficient guidance 的工程和消融。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.12627",
      "collected_at": "",
      "collection_order": 740,
      "source_url": "https://arxiv.org/pdf/2604.12627.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12627.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "M48_OPD_Mechanism_Recipe",
      "slug": "m48-opd-mechanism-recipe",
      "detail_url": "papers/m48-opd-mechanism-recipe/",
      "title": "Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe",
      "summary": "这篇论文研究后训练中越来越重要的 on-policy distillation，为“为什么有时蒸馏有效、有时失败”提供机制解释。它指出 OPD 需要学生和教师思维模式兼容，同时教师必须提供学生没见过的新能力。\n\n论文在 token 级别分析成功 OPD 的概率质量如何集中到共享高概率 token 集合，并用 weak-to-strong reverse distillation 验证同族教师可能对学生没有新信息。这个解释比简单看分数差异更有诊断价值。\n\n按本库标准，它属于核心方法/后训练机制澄清，提供了 OPD 的失败条件和修复 recipe，对 distillation、RL 后训练和小模型能力迁移都有复用价值。\n\n局限是结论仍需要在更多模型家族、长程推理任务和真实生产蒸馏流水线中验证；它不是一个通用蒸馏定理。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.13016",
      "collected_at": "",
      "collection_order": 739,
      "source_url": "https://arxiv.org/pdf/2604.13016.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.13016.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "GEO3_GeoAgentBench_GIS_Agents",
      "slug": "geo3-geoagentbench-gis-agents",
      "detail_url": "papers/geo3-geoagentbench-gis-agents/",
      "title": "GeoAgentBench: A Dynamic Execution Benchmark for Tool-Augmented Agents in Spatial Analysis",
      "summary": "问题与背景：GIS agent 评测不能只看静态文本或代码匹配，因为真实空间分析包含参数推断、工具调用、运行时错误和地图输出质量。\n\n方法与新意：GeoAgentBench 集成 117 个 GIS 原子工具和 53 类空间分析任务，提出 Parameter Execution Accuracy 与 VLM-based spatial/cartographic verification，并用 Plan-and-React 解耦全局规划与逐步执行修正。\n\n收录意义：这篇符合本库对 geospatial/workflow AI 的标准，因为它提供的是可执行的空间分析 agent sandbox 和评测协议，而不是普通遥感分类。对 GIS、灾害响应、城市分析和地理工具 agent 都有复用价值。\n\n局限：领域仍限定在 GIS 工具生态，VLM 验证与 sandbox 任务覆盖会影响泛化；真实机构工作流中的数据权限和责任链还没有被充分纳入。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "geospatial_remote_sensing_and_disaster_systems",
      "theme_label": "地理空间、遥感与灾害系统",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.13888",
      "collected_at": "",
      "collection_order": 738,
      "source_url": "https://arxiv.org/pdf/2604.13888.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.13888.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A217_APEX_MEM_Conversational_Memory",
      "slug": "a217-apex-mem-conversational-memory",
      "detail_url": "papers/a217-apex-mem-conversational-memory/",
      "title": "APEX-MEM: Agentic Semi-Structured Memory with Temporal Reasoning for Long-Term Conversational AI",
      "summary": "问题与背景：长期对话记忆不能只靠扩大上下文或 naive retrieval，因为历史信息会过时、冲突、演化，直接检索会引入噪声。\n\n方法与新意：APEX-MEM 用 domain-agnostic ontology 把对话组织成 temporally grounded events 和 entity-centric property graph，保留 append-only 历史，再由 multi-tool retrieval agent 在查询时解决冲突并生成 compact memory summary。\n\n收录意义：这篇进入 agent memory 主库，因为它把长期记忆问题明确建模为时间化、实体化、可冲突解析的半结构化记忆，而不是简单 embedding recall。\n\n局限：系统依赖 graph 构建质量和 retrieval agent 行为，benchmark 高分还需结合实际部署延迟、写入成本和错误累积来评估。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.14362",
      "collected_at": "",
      "collection_order": 737,
      "source_url": "https://arxiv.org/pdf/2604.14362.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14362.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A214_Memory_Transfer_Coding_Agents",
      "slug": "a214-memory-transfer-coding-agents",
      "detail_url": "papers/a214-memory-transfer-coding-agents/",
      "title": "Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents",
      "summary": "问题与背景：coding-agent self-evolution 往往把记忆锁在同质任务域内，导致不同 benchmark、语言和运行环境里的共性经验无法复用。\n\n方法与新意：论文系统比较 concrete traces 到 abstract insights 四类记忆表示，在 6 个 coding benchmark 上研究跨域统一 memory pool 的迁移。核心发现是高层抽象经验更可迁移，低层 trace 反而容易负迁移。\n\n收录意义：这篇进入正式主库而不是只进 practical track，因为它给 agent memory/capability acquisition 提供了可验证设计原则：记忆的抽象层级决定迁移性，跨模型记忆复用可行，memory pool 规模影响收益。\n\n局限：平均性能提升幅度不大，且集中在 coding agents；记忆写入、去重、冲突管理和长期遗忘机制仍未形成完整系统。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.14004",
      "collected_at": "",
      "collection_order": 736,
      "source_url": "https://arxiv.org/pdf/2604.14004.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.14004.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A211_HORIZON_Long_Horizon_Agent_Diagnosis",
      "slug": "a211-horizon-long-horizon-agent-diagnosis",
      "detail_url": "papers/a211-horizon-long-horizon-agent-diagnosis/",
      "title": "The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break",
      "summary": "这篇论文聚焦长程 agent 失败诊断，而不是只给一个新成功率榜单。它的问题定义很重要：短中程任务表现好，并不能说明 agent 能稳定处理长串互相依赖的行动。\n\nHORIZON 收集 3,100+ 条跨领域 agent 轨迹，用 trajectory-grounded judge 做失败归因，并用人工标注验证一致性。它试图把“长程任务失败”拆成可比较、可诊断的行为模式。\n\n按本库标准，它属于 agent evaluation / observability 方向的正式收录项，因为它提供的是跨域长程失败诊断接口，对后续 agent 架构和评测设计都有复用价值。\n\n局限是 LLM-as-judge 仍有偏差，且 HORIZON 的任务构造是否覆盖真实长期工作流仍需要社区扩展。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.11978",
      "collected_at": "",
      "collection_order": 735,
      "source_url": "https://arxiv.org/pdf/2604.11978.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11978.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A209_SLATE_Entropy_Guided_Tools",
      "slug": "a209-slate-entropy-guided-tools",
      "detail_url": "papers/a209-slate-entropy-guided-tools/",
      "title": "Long-Horizon Plan Execution in Large Tool Spaces through Entropy-Guided Branching",
      "summary": "这篇论文面向大工具空间里的长程计划执行，指出当前 tool agents 缺少 plan-level 评估，也缺少在巨大 API 决策空间中高效搜索的机制。\n\n它提出 SLATE 作为大规模上下文感知 API benchmark，并提出 Entropy-Guided Branching，在预测熵高的位置动态展开分支，平衡探索和计算成本。\n\n按本库标准，它值得收录，因为它同时提供 benchmark 和执行算法，直接服务 tool orchestration、large tool library 和 long-horizon agent planning。\n\n局限是 SLATE 是 synthetic e-commerce toolkit，真实企业工具空间中的权限、状态副作用和错误恢复会更复杂。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.12126",
      "collected_at": "",
      "collection_order": 734,
      "source_url": "https://arxiv.org/pdf/2604.12126.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12126.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A208_Plan_Compliance_Agents",
      "slug": "a208-plan-compliance-agents",
      "detail_url": "papers/a208-plan-compliance-agents/",
      "title": "From Plan to Action: How Well Do Agents Follow the Plan?",
      "summary": "这篇论文把 agent 评估从“有没有完成任务”推进到“是否按计划完成任务”。在软件修复 agent 中，如果模型绕过计划或依赖 benchmark 记忆，单纯成功率无法说明战略推理是否可靠。\n\n作者分析 16,991 条 SWE-agent 轨迹，比较不同模型和计划变体，研究无计划、标准计划、差计划和周期提醒对 plan compliance 与任务成功的影响。\n\n按本库标准，它值得正式收录，因为 plan following 是 agent 可靠性、可审计性和执行治理的核心观测指标，论文提供了可复用诊断维度。\n\n局限是场景集中在 programming agents 和 SWE-bench，计划遵循在浏览器、机器人、工具调用等其他执行环境中还需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.12147",
      "collected_at": "",
      "collection_order": 733,
      "source_url": "https://arxiv.org/pdf/2604.12147.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12147.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A206_ORBIT_C_to_Rust",
      "slug": "a206-orbit-c-to-rust",
      "detail_url": "papers/a206-orbit-c-to-rust/",
      "title": "ORBIT: Guided Agentic Orchestration for Autonomous C-to-Rust Transpilation",
      "summary": "这篇论文把 C 到 Rust 迁移从函数级翻译提升到项目级 agentic orchestration。实际遗留代码迁移的难点在跨模块依赖、接口一致性、构建系统和测试验证，而不是单个函数语法转换。\n\nORBIT 构建依赖感知翻译图，动态收集上下文，协调专门 agent 生成接口、映射函数并迭代验证。这个流程直接回应 coding agent 在大型代码库里常见的上下文不足和表面正确问题。\n\n按本库标准，它值得正式收录，因为它提供了安全软件迁移的可复用 agent 工作流，连接代码理解、自动修改、编译测试和安全语言迁移。\n\n局限是评估仍集中在特定 C-to-Rust 场景；迁移到其他语言转换、复杂系统库和真实生产代码审查还需要更多证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-15",
      "doi": "",
      "arxiv_id": "2604.12048",
      "collected_at": "",
      "collection_order": 732,
      "source_url": "https://arxiv.org/pdf/2604.12048.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12048.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S9_TEMPLATEFUZZ_Chat_Template",
      "slug": "s9-templatefuzz-chat-template",
      "detail_url": "papers/s9-templatefuzz-chat-template/",
      "title": "TEMPLATEFUZZ: Fine-Grained Chat Template Fuzzing for Jailbreaking and Red Teaming LLMs",
      "summary": "这篇论文把 LLM jailbreak 的攻击面从用户 prompt 扩展到 chat template。许多模型部署依赖模板把 system/user/assistant 内容拼成上下文，模板细节本身可能成为系统性漏洞。\n\nTEMPLATEFUZZ 通过元素级 mutation、启发式搜索和主动学习 oracle 系统挖掘模板漏洞，并在多个开源模型上展示高 ASR。这比手工 prompt 越狱更像安全工程里的 fuzzing。\n\n按本库标准，它值得收录，因为它提供了可复用 red-teaming 方法和新的安全边界模型：模板层也是需要测试和治理的接口。\n\n局限是论文需要控制双用途风险；公开细节对防御有价值，但也可能降低攻击门槛。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.12232",
      "collected_at": "",
      "collection_order": 731,
      "source_url": "https://arxiv.org/pdf/2604.12232.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12232.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S8_Typographic_VLM_Injection",
      "slug": "s8-typographic-vlm-injection",
      "detail_url": "papers/s8-typographic-vlm-injection/",
      "title": "Reading Between the Pixels: Linking Text-Image Embedding Alignment to Typographic Attack Success on Vision-Language Models",
      "summary": "这篇论文把 prompt injection 的攻击面从纯文本扩展到视觉输入：恶意指令可以被渲染成图像中的文字，绕过文本安全路径，进入 VLM 感知层。对于 browser automation、computer-use agent 和摄像头具身 agent，这是现实风险。\n\n它的价值在于不仅报告攻击成功率，还系统改变字体大小、旋转、模糊、噪声和对比度，并把成功率与 text-image embedding alignment 关联起来，为预测哪些 VLM 更容易被视觉文本劫持提供机制线索。\n\n按本库标准，它是 VLM/agent safety 的正式收录项，因为它提出了可复用的威胁模型、评估设置和防御分析入口，而不是一次性 jailbreak prompt。\n\n局限是实验集中在 typographic attack，真实网页和物理环境中的多模态注入还会涉及布局、注意力竞争和交互上下文。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.12371",
      "collected_at": "",
      "collection_order": 730,
      "source_url": "https://arxiv.org/pdf/2604.12371.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12371.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL49_HazardArena_VLA_Safety",
      "slug": "rl49-hazardarena-vla-safety",
      "detail_url": "papers/rl49-hazardarena-vla-safety/",
      "title": "HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models",
      "summary": "这篇论文指出 VLA 模型评估常只看动作执行成功，却忽略同一动作在不同语义上下文中可能变得危险。正确执行动作并不等于安全执行动作。\n\nHazardArena 通过 safe/unsafe twin scenarios 控制变量：物体、布局和动作要求相同，只有语义风险不同。这样可以专门测 VLA 是否把视觉语言语义和动作安全绑定起来。\n\n按本库标准，它是具身安全/VLA 评估的高价值 benchmark，提供了可复用风险分类、资产集和训练-free safety option layer。\n\n局限是 benchmark 风险仍是受控场景，真实机器人安全还涉及物理不确定性、长期后果和人类交互。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.12447",
      "collected_at": "",
      "collection_order": 729,
      "source_url": "https://arxiv.org/pdf/2604.12447.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12447.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL42_Habitat_GS_Navigation_Sim",
      "slug": "rl42-habitat-gs-navigation-sim",
      "detail_url": "papers/rl42-habitat-gs-navigation-sim/",
      "title": "Habitat-GS: A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting",
      "summary": "Habitat-GS 面向 embodied AI simulation 的视觉保真度和动态人类建模问题。传统 mesh-based simulator 在真实感和动态 avatar 表达上受限，会影响导航 agent 向真实人群环境泛化。\n\n论文把 3D Gaussian Splatting 渲染和可驾驶 gaussian avatars 集成进 Habitat-Sim，并保持 Habitat 生态兼容。这样既能导入高保真 3DGS 资产，又能在导航任务中模拟动态人类作为视觉和交互干扰。\n\n它值得收录，是因为它提供了 embodied navigation 的仿真基础设施 primitive：从低保真 mesh 场景推进到 photorealistic 3DGS + dynamic humans，同时不脱离现有 Habitat 工具链。\n\n局限在于仿真真实感提升不等于 sim2real 完全解决；物理交互、可变光照和真实传感器噪声仍需要更多建模。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.12626",
      "collected_at": "",
      "collection_order": 728,
      "source_url": "https://arxiv.org/pdf/2604.12626.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12626.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL41_XRZero_G0_Dexterous_Data",
      "slug": "rl41-xrzero-g0-dexterous-data",
      "detail_url": "papers/rl41-xrzero-g0-dexterous-data/",
      "title": "XRZero-G0: Pushing the Frontier of Dexterous Robotic Manipulation with Interfaces, Quality and Ratios",
      "summary": "XRZero-G0 解决灵巧操作 foundation policy 的数据瓶颈：高质量、动作对齐的人类示范难规模化，传统 teleoperation 又受硬件和工作流限制。论文把采集设备、VR 交互、闭环质检和策略训练作为一个整体系统设计。\n\n系统用人体工学 VR interface、顶视相机和双专用夹爪提高采集效率，并引入 collection-inspection-training-evaluation 闭环保证非本体感知数据的可靠性。它还系统讨论 data mixing ratio 对策略学习的影响。\n\n它值得收录，是因为它不是单个机器人控制 trick，而是面向 dexterous manipulation 的数据工厂和硬件-软件协同工作流。对机器人数据扩展、UMI 类范式和 VLA policy 训练都有直接参考价值。\n\n局限在于硬件接口和任务形态仍相对专门，能否迁移到更多手型、传感器和工业任务需要进一步验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.13001",
      "collected_at": "",
      "collection_order": 727,
      "source_url": "https://arxiv.org/pdf/2604.13001.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.13001.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R65_DDTree_Speculative_Decoding",
      "slug": "r65-ddtree-speculative-decoding",
      "detail_url": "papers/r65-ddtree-speculative-decoding/",
      "title": "Accelerating Speculative Decoding with Block Diffusion Draft Trees",
      "summary": "问题与背景：speculative decoding 的核心瓶颈是 drafter 能否提出足够长、足够可能被 target 接受的候选。DFlash 已证明 block diffusion drafter 很强，但单轮只验证一条轨迹，限制了可接受长度。\n\n方法与新意：DDTree 从 block diffusion drafter 的逐位置分布直接构造 draft tree，用 best-first heap 在固定节点预算下选择最可能匹配 target 的分支，并用 ancestor-only attention mask 一次 target forward 完成验证。\n\n收录意义：这篇是推理系统方向的可复用 primitive，把 diffusion drafter 与 tree verification 结合起来，服务于长输出和高吞吐 LLM inference。它对本库关注的 agentic long-output inference efficiency 有直接价值。\n\n局限：收益依赖高质量 diffusion drafter 和 target/draft 分布匹配；实际系统价值还要看不同 batch、KV cache、服务端调度和硬件实现下的端到端吞吐。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.12989",
      "collected_at": "",
      "collection_order": 726,
      "source_url": "https://arxiv.org/pdf/2604.12989.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12989.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R64_Nemotron3_Super",
      "slug": "r64-nemotron3-super",
      "detail_url": "papers/r64-nemotron3-super/",
      "title": "Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning",
      "summary": "问题与背景：agentic reasoning 的瓶颈不只是模型能力，还包括长上下文、多步工具调用和长输出场景下的吞吐成本。Nemotron 3 Super 把这个问题落在开放模型架构层面：120B 总参数、12B 激活参数、最长 1M context，并以 agentic 软件工程、terminal use、tool use 等长程任务作为后训练重点。\n\n方法与新意：论文把 hybrid Mamba-Attention、LatentMoE、NVFP4 预训练和 MTP native speculative decoding 组合成一个面向高吞吐长上下文推理的系统方案。LatentMoE 追求 accuracy per FLOP 与 accuracy per parameter，Mamba/Attention 混合用于降低长序列推理成本，MTP 层把 speculative decoding 变成模型原生能力，而不是纯外部推理技巧。\n\n收录意义：这篇的价值不在于又发布一个大模型，而在于给出了开放 agent 模型层的系统蓝图：稀疏激活、状态空间长上下文、低精度预训练、RL 后训练和推理加速共同设计。它对后续构建本地/企业级 agent 模型、长上下文工具使用模型、以及训练-推理协同优化都有复用参考价值。\n\n局限：论文仍是单家模型报告，许多结论依赖 NVIDIA 自有训练基础设施、数据配方、GPU 栈和评测设置；LatentMoE、NVFP4 预训练和 MTP 的独立因果贡献还需要更多第三方复现与消融。因此当前定位为 breakthrough，而不是 disruptive 或 paradigm。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.12374",
      "collected_at": "",
      "collection_order": 725,
      "source_url": "https://arxiv.org/pdf/2604.12374.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12374.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/NVIDIA-NeMo/Nemotron"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R63_OPD_Dynamics",
      "slug": "r63-opd-dynamics",
      "detail_url": "papers/r63-opd-dynamics/",
      "title": "Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe",
      "summary": "这篇论文系统研究 on-policy distillation 的成功条件和失败机制。OPD 已经成为大模型 post-training 的重要技术，但过去更多依赖经验 recipe，缺少对 teacher-student 动态的可解释规律。\n\n作者提出两个关键条件：学生和老师需要兼容的 thinking patterns，老师还必须提供学生训练中没有见过的新能力。通过 weak-to-strong reverse distillation 和 token-level probing，论文把成功 OPD 描述为 student-visited states 上高概率 token 的逐步对齐。\n\n它值得收录，是因为它提供了 OPD 的机制层说明，而不是单个蒸馏技巧。对于选择 teacher、构建 SFT/OPD 数据、判断蒸馏是否有新增能力，它给出了可复用的诊断框架。\n\n局限在于这些规律仍主要来自特定模型族和任务集合；跨架构、跨模态和 agent 训练中的 OPD 机制还需要进一步验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.13016",
      "collected_at": "",
      "collection_order": 724,
      "source_url": "https://arxiv.org/pdf/2604.13016.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.13016.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P28_COSINE_Symbolic_Dynamics",
      "slug": "p28-cosine-symbolic-dynamics",
      "detail_url": "papers/p28-cosine-symbolic-dynamics/",
      "title": "Interpretable Relational Inference with LLM-Guided Symbolic Dynamics Modeling",
      "summary": "COSINE 处理从观测动力学中发现潜在交互图和符号方程的逆问题。传统神经方法可拟合但黑盒，符号回归可解释但通常假设拓扑和函数库固定，难以同时发现关系和机制。\n\n论文提出可微框架，联合优化 interaction graph 与 sparse symbolic dynamics，并在外环引入 LLM 根据内层反馈裁剪和扩展假设空间。这样把符号动力学发现从固定库搜索推进到 LLM-guided adaptive hypothesis search。\n\n它值得收录，是因为它把 LLM 作为科学建模中的假设空间管理器，而不是最终答案生成器。该模式对多体系统、因果动力学、科学发现 agent 和可解释 surrogate modeling 都有复用价值。\n\n局限在于 LLM 外环可能引入先验偏差，复杂真实系统中的噪声、部分观测和高维状态仍会显著提高难度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.12806",
      "collected_at": "",
      "collection_order": 723,
      "source_url": "https://arxiv.org/pdf/2604.12806.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12806.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM52_Lyra2_Generative_3D_Worlds",
      "slug": "mm52-lyra2-generative-3d-worlds",
      "detail_url": "papers/mm52-lyra2-generative-3d-worlds/",
      "title": "Lyra 2.0: Explorable Generative 3D Worlds",
      "summary": "Lyra 2.0 关注生成式 3D 世界构建的新范式：先生成可控相机视频，再通过 feed-forward reconstruction 提升为可渲染 3D。这个方向结合视频模型的创造力和 3D 输出的交互可用性。\n\n论文针对长轨迹探索里的 spatial forgetting 和 temporal drifting，尝试让模型在大视角变化和位置重访时保持 3D 一致性。其目标不是单个物体或短片段，而是可探索的大场景生成。\n\n它值得收录，是因为 explorable generative 3D worlds 是世界模型、游戏/仿真内容生产和具身训练环境的重要交叉点。Lyra 2.0 把视频生成、场景重建和长程一致性问题放进同一工作流。\n\n局限在于生成式重建路线仍受视频模型一致性和重建误差限制；离真实物理仿真与可交互世界模型还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.13036",
      "collected_at": "",
      "collection_order": 722,
      "source_url": "https://arxiv.org/pdf/2604.13036.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.13036.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM51_VideoFlexTok_Video_Tokenization",
      "slug": "mm51-videoflextok-video-tokenization",
      "detail_url": "papers/mm51-videoflextok-video-tokenization/",
      "title": "VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization",
      "summary": "VideoFlexTok 重新审视视频 tokenizer 的表示假设。固定 spatiotemporal grid token 会迫使后续模型逐块预测所有低层细节，即使视频本身的复杂度并不均匀，从而增加学习负担。\n\n论文提出 flexible-length coarse-to-fine video tokenization，先用少量 token 捕获语义和运动等抽象信息，再逐步添加细节 token。token 序列长度随视频复杂度变化，让表示从均匀网格转向复杂度自适应层级。\n\n它值得收录，是因为视频 tokenizer 是视频生成、理解和世界模型的底层接口；可变长度、粗到细的 tokenizer 会改变下游模型如何学习视频结构。这个 primitive 对长视频生成和多模态模型都有溢出价值。\n\n局限在于 tokenizer 改进需要在更大生成模型和不同下游任务中验证，尤其是是否真正降低训练成本和提升长时一致性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.12887",
      "collected_at": "",
      "collection_order": 721,
      "source_url": "https://arxiv.org/pdf/2604.12887.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12887.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO34_VCHarness_Virtual_Cells",
      "slug": "bio34-vcharness-virtual-cells",
      "detail_url": "papers/bio34-vcharness-virtual-cells/",
      "title": "Harnessing AI to Build Virtual Cells",
      "summary": "这篇 bioRxiv 论文把 virtual cell 明确定义为细胞世界模型，并把关键子问题落到 perturbation-response modeling：预测遗传和化学扰动如何影响转录响应。\n\nVCHarness 的核心不是又一个生物预测模型，而是一个自动构建模型的 AI 系统：coding agent 结合多模态生物 foundation models，搜索架构和训练 pipeline，迭代评估改进候选模型。\n\n按本库标准，它是 AI for biology 的正式收录项，因为它改变的是建模工作流，从专家手工设计转向 autonomous model construction，有科学发现基础设施价值。\n\n局限是 bioRxiv 预印本仍需同行评审，且 virtual cell 的完整目标远大于 perturbation-response 模型；湿实验闭环尚不充分。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 720,
      "source_url": "https://www.biorxiv.org/content/biorxiv/early/2026/04/14/2026.04.11.717183.full.pdf",
      "paper_url": "https://www.biorxiv.org/content/biorxiv/early/2026/04/14/2026.04.11.717183.full.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A219_WebXSkill_Web_Agent_Skills",
      "slug": "a219-webxskill-web-agent-skills",
      "detail_url": "papers/a219-webxskill-web-agent-skills/",
      "title": "WebXSkill: Skill Learning for Autonomous Web Agents",
      "summary": "WebXSkill 解决 Web agent 的长期痛点：已经完成过的流程不能稳定复用。它指出现有 skill 表示存在 grounding gap，纯文本技能无法执行，纯代码技能又不利于 agent 理解、恢复和泛化。\n\n方法把一个 skill 表示成参数化 action program 加逐步自然语言说明，兼顾可执行性和可解释性。系统包含 skill extraction、URL graph 组织、retrieval，以及 grounded / guided 两种部署模式：强模型可以直接把技能当工具调用，弱模型可以按说明执行并保留局部自主性。\n\n收录价值在于它给 agent capability extension 提供了具体、工程可落地的技能接口，而不是抽象记忆或普通 prompt reuse。跨 WebArena/WebVoyager 的迁移结果说明它有可能成为 Web agent 长程操作的可复用能力层。\n\n主要限制是技能来自 synthetic trajectories，真实网页变化、权限边界、支付/账号等高风险操作还没有充分覆盖；此外 skill graph 的维护、冲突解决和安全审计仍需要更成熟机制。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.13318",
      "collected_at": "",
      "collection_order": 719,
      "source_url": "https://arxiv.org/pdf/2604.13318.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.13318.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/aiming-lab/WebXSkill"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A207_AiScientist_Long_Horizon_ML",
      "slug": "a207-aiscientist-long-horizon-ml",
      "detail_url": "papers/a207-aiscientist-long-horizon-ml/",
      "title": "Toward Autonomous Long-Horizon Engineering for ML Research",
      "summary": "这篇论文关注 AI research agent 的关键瓶颈：长程 ML 工程不是一次回答，而是要跨任务理解、环境配置、实现、实验、调试和证据归档持续推进。\n\nAiScientist 的核心是 hierarchical orchestration 加 File-as-Bus：控制层保持薄摘要和阶段管理，厚状态则沉淀在文件工作区、代码、实验记录和分析文档中，减少纯对话 handoff 的上下文丢失。\n\n按本库标准，它是 agentic ML research workflow 的正式收录项，因为它提出了长程研究工程的状态连续性模式，并在 PaperBench/MLE-Bench Lite 上做了系统验证。\n\n局限是名称容易与既有 AI Scientist 系列混淆，且结果仍依赖具体 benchmark 与 frontier model stack；真实科研自主性还需更严验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.13018",
      "collected_at": "",
      "collection_order": 718,
      "source_url": "https://arxiv.org/pdf/2604.13018.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.13018.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A196_LMM_Searcher_Multimodal_Search",
      "slug": "a196-lmm-searcher-multimodal-search",
      "detail_url": "papers/a196-lmm-searcher-multimodal-search/",
      "title": "Towards Long-horizon Agentic Multimodal Search",
      "summary": "LMM-Searcher 针对 long-horizon multimodal deep search 的核心瓶颈：文本和图像证据混在上下文里会快速膨胀，而直接压缩又会丢掉关键视觉信息。多模态 agent 需要一种可按需取回视觉证据的工作记忆机制。\n\n论文提出 file-based visual representation，把视觉资产放到外部文件系统，用轻量 UID 留在上下文中，并提供 fetch-image 工具让 agent 按需加载图像。这个机制把视觉上下文从“全塞进 prompt”改成“可导航的外部工作区”。\n\n它值得收录，是因为它把 agentic multimodal search 的状态管理问题具体化为文件化视觉记忆和渐进式主动感知接口。对 deep research、多模态 RAG、GUI/网页 agent 的证据管理都有复用价值。\n\n局限在于它依赖工具调用策略和文件组织质量；对于需要连续视觉推理或视频级状态的任务，UID 文件机制还需要更强时序建模。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.12890",
      "collected_at": "",
      "collection_order": 717,
      "source_url": "https://arxiv.org/pdf/2604.12890.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12890.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A195_Frontier_Eng_Self_Evolving_Agents",
      "slug": "a195-frontier-eng-self-evolving-agents",
      "detail_url": "papers/a195-frontier-eng-self-evolving-agents/",
      "title": "Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization",
      "summary": "Frontier-Eng 批评现有 agent benchmark 过度依赖 pass/fail 代码题或搜索问答，不能代表真实工程里的迭代优化。真实工程价值往往来自在约束预算下不断提出、执行、评估、修改可行设计。\n\n论文构建了 47 个工业级模拟器和 verifier 支撑的 generative optimization 任务，给 agent 连续 reward、硬约束和有限交互预算。它把 self-evolving agents 的评估从“有没有答对”转向“能否在反馈闭环中持续改进设计”。\n\n它值得收录，是因为它提供了自进化 agent 的高价值评估接口，直接对应真实工程中的 propose-execute-evaluate loop。对 coding agent、scientific agent、hardware/design agent 都有 benchmark 迁移意义。\n\n局限在于任务覆盖仍是一个 benchmark 子集，模型在其中的优化策略是否能迁移到开放工程项目还有待验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.12290",
      "collected_at": "",
      "collection_order": 716,
      "source_url": "https://arxiv.org/pdf/2604.12290.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12290.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A194_AiScientist_ML_Engineering",
      "slug": "a194-aiscientist-ml-engineering",
      "detail_url": "papers/a194-aiscientist-ml-engineering/",
      "title": "Toward Autonomous Long-Horizon Engineering for ML Research",
      "summary": "这篇论文聚焦自主 AI 研究中最难落地的一段：长时程 ML research engineering。相比一次性代码生成，真实研究工程需要理解任务、配置环境、实现、实验、debug，并在数小时到数天内保持状态连续。\n\nAiScientist 使用层级 orchestration 和 File-as-Bus 工作区，把计划、代码、实验结果、错误分析等 durable artifacts 当作跨 agent 共享状态。顶层 orchestrator 维护阶段控制，专门 agent 反复重新 ground 到文件证据，而不是依赖脆弱聊天上下文。\n\n它值得收录，是因为它提供了 agent-driven research workflow 的系统模式：薄控制层、文件状态总线、分阶段证据驱动执行。这个模式与仓库当前关注的 agent memory、capability extension、科学工作流高度一致。\n\n局限在于论文仍需证明在更多真实研究任务和更长周期中的鲁棒性；File-as-Bus 是实用强模式，但并不自动解决研究目标选择和实验可靠性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.13018",
      "collected_at": "",
      "collection_order": 715,
      "source_url": "https://arxiv.org/pdf/2604.13018.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.13018.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A191_Parallax_Agent_Execution_Boundary",
      "slug": "a191-parallax-agent-execution-boundary",
      "detail_url": "papers/a191-parallax-agent-execution-boundary/",
      "title": "Parallax: Why AI Agents That Think Must Never Act",
      "summary": "Parallax 讨论的是执行型 agent 的结构性安全缺口：当模型能读写文件、运行命令、请求网络或改数据库时，仅靠 prompt-level guardrails 与自然语言自律并不足以约束真实动作。论文明确把“思考”和“执行”视为必须隔离的安全边界。\n\n它提出 Cognitive-Executive Separation、Adversarial Validation 等原则，核心是让推理系统不能直接拥有行动权，而要通过独立执行层、验证层和权限边界来完成动作。这与常见“给 agent 一段安全提示词”的做法形成架构级对比。\n\n它值得收录，是因为它提供的是 agent 安全的边界模型，而不是一次 jailbreak demo 或 prompt patch。对 secure computer-use、工具调用隔离、权限分层、执行审计等后续系统设计有直接参考价值。\n\n局限在于论文更偏安全架构论证和原则框架，仍需要更多开源实现、实测攻击集和生产环境案例来证明边界设计的充分性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-14",
      "doi": "",
      "arxiv_id": "2604.12986",
      "collected_at": "",
      "collection_order": 714,
      "source_url": "https://arxiv.org/pdf/2604.12986.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12986.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S6_VERITAS_Agentic_Hypothesis_Testing",
      "slug": "s6-veritas-agentic-hypothesis-testing",
      "detail_url": "papers/s6-veritas-agentic-hypothesis-testing/",
      "title": "VERITAS: Verifiable Epistemic Reasoning for Image-Derived Hypothesis Testing via Agentic Systems",
      "summary": "VERITAS 面向医学影像和临床多模态数据里的假设检验瓶颈：一个自然语言科研假设通常需要临床、影像、编程、统计多个角色协作，流程碎片化且难以审计。论文把这个流程显式拆成多智能体协作的可执行科学工作流。\n\n系统从自然语言假设出发，生成分析计划、影像分割、统计代码和最终结论，并用 epistemic evidence label 把结果机械归类为 Supported、Refuted、Underpowered 或 Invalid。关键不是只输出答案，而是保留从假设到代码、mask 和统计结论的证据链。\n\n它值得收录，是因为它把 agentic scientific discovery 里的“自动研究”落到一个可审计、可执行、可反驳的临床数据假设测试接口上。这个设计对 AI for science、医学研究 workflow、agent 可验证执行都有复用价值。\n\n局限在于目前仍是特定临床多模态任务上的系统验证，泛化到更开放的实验设计和真实临床研究治理还需要更多证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.12144",
      "collected_at": "",
      "collection_order": 713,
      "source_url": "https://arxiv.org/pdf/2604.12144.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.12144.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL40_LARY_Latent_Action_Benchmark",
      "slug": "rl40-lary-latent-action-benchmark",
      "detail_url": "papers/rl40-lary-latent-action-benchmark/",
      "title": "LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment",
      "summary": "VLA 模型受限于显式动作数据稀缺，而人类动作视频虽然规模巨大，却没有统一 action ontology 或机器人控制标签。latent action representation 被视为可能桥接视频和控制的接口，但此前缺少系统评估：它到底能否同时支持“做什么”的语义动作和“怎么做”的低层控制。\n\nLARY 提出 Latent Action Representation Yielding Benchmark，统一评估 latent action 在高层语义动作和低层机器人控制上的表现。数据覆盖超过一百万视频、一千小时、151 类动作，并包含图像对与运动轨迹，跨不同 embodiment 和环境检验 action representation 的泛化。\n\n它值得收录，因为它对具身智能的核心瓶颈给出了评测接口：如何从无标注人类视频中抽取可迁移到机器人控制的 latent actions。这个问题对 VLA 预训练、video-to-action alignment 和大规模机器人数据利用都有长期价值。\n\n局限在于它主要是 benchmark 和数据框架，未直接提供最终 VLA 训练范式；latent action 是否能成为通用 action interface 还需要更多下游策略验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "robotics_and_embodied_intelligence",
      "theme_label": "机器人与具身智能",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11689",
      "collected_at": "",
      "collection_order": 712,
      "source_url": "https://arxiv.org/pdf/2604.11689.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11689.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R60_ZoomR_KV_Retrieval",
      "slug": "r60-zoomr-kv-retrieval",
      "detail_url": "papers/r60-zoomr-kv-retrieval/",
      "title": "ZoomR: Memory Efficient Reasoning through Multi-Granularity Key Value Retrieval",
      "summary": "ZoomR 关注长推理输出时的 KV cache 成本。现有 KV cache 优化多压缩长输入上下文，却保留完整生成过程 KV；但复杂推理往往产生很长中间 thoughts，导致输出侧 cache 成为瓶颈。\n\n论文让模型把冗长思维动态压缩成 summaries，并用多粒度 KV retrieval 策略在 summary index 和细粒度历史之间 zoom in/out。这样在保留必要推理细节的同时，避免完整保存每一步 verbose thought 的 KV。\n\n它值得收录，是因为它把 long reasoning 的状态管理从“全量保存输出 KV”改成“摘要索引 + 按需细节取回”的记忆层级。这对长链推理、agent 轨迹和推理时 scaling 的系统成本都有复用价值。\n\n局限在于摘要质量和取回策略可能影响严谨推理；在数学证明、代码调试等细节敏感任务上还需要更细分析。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.10898",
      "collected_at": "",
      "collection_order": 711,
      "source_url": "https://arxiv.org/pdf/2604.10898.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.10898.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R59_GRIP_Retrieval_As_Generation",
      "slug": "r59-grip-retrieval-as-generation",
      "detail_url": "papers/r59-grip-retrieval-as-generation/",
      "title": "Retrieval as Generation: A Unified Framework with Self-Triggered Information Planning",
      "summary": "这篇论文重新定义 RAG 的控制接口：传统 RAG 把检索当成外部模块或独立 controller，模型生成与检索决策往往松耦合，尤其在多步问题中容易出现检索时机、查询改写和终止条件不协调。\n\n作者提出 Retrieval as Generation，并实现 GRIP：模型通过生成控制 token 自己决定何时检索、如何重写 query、何时停止检索，把信息规划嵌入同一条自回归轨迹。Self-Triggered Information Planning 让 retrieval control 成为 generation policy 的一部分，而不是外接分类器或固定流程。\n\n它值得收录，因为它把 RAG 从“检索增强生成”推进到“生成式检索控制”，和仓库关注的 agent memory、reasoning control、test-time evidence use 高度相关。这个接口对长程问答、知识密集推理和可学习检索策略都有可复用价值。\n\n局限在于这类方法对训练数据、控制 token 设计和 retrieval backend 仍敏感；是否能稳定迁移到复杂 agent memory 或开放科学检索任务，还需要更多验证。因此它是突破性 RAG 控制框架，而不是最终范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11407",
      "collected_at": "",
      "collection_order": 710,
      "source_url": "https://arxiv.org/pdf/2604.11407.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11407.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P11_Physics_Simulator_RL",
      "slug": "p11-physics-simulator-rl",
      "detail_url": "papers/p11-physics-simulator-rl/",
      "title": "Solving Physics Olympiad via Reinforcement Learning on Physics Simulators",
      "summary": "这篇论文针对科学推理训练数据稀缺问题：数学和代码有大量可验证题目，但物理等科学领域缺少大规模 QA 数据。作者提出用物理模拟器生成随机场景、交互和问答，把 simulator 变成可验证监督源，用 RL 训练模型进行物理推理。\n\n方法上，系统在 physics engines 中生成合成交互，构造问题和答案，再用 reinforcement learning on synthetic data 训练 LLM。关键结果是模型在只用合成物理数据训练后，能够 zero-shot sim-to-real 迁移到真实世界物理 benchmark 和 Physics Olympiad 风格问题。\n\n它值得收录，因为它展示了一条 AI for science / reasoning 的可扩展数据路线：不用依赖互联网 QA，而是让可验证模拟器成为 RL supervision generator。这个思想对物理、机器人、工程仿真和科学推理训练都有明显外溢。\n\n局限在于 simulator 覆盖、问题生成质量和现实物理复杂度会限制迁移；当前结果证明强潜力，但还不是通用科学推理训练标准。因此按 AI x physics reasoning 的突破性 workflow 收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_for_science",
      "theme_label": "AI for Science",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11805",
      "collected_at": "",
      "collection_order": 709,
      "source_url": "https://arxiv.org/pdf/2604.11805.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11805.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G14_LangFlow_Continuous_Diffusion_LM",
      "slug": "g14-langflow-continuous-diffusion-lm",
      "detail_url": "papers/g14-langflow-continuous-diffusion-lm/",
      "title": "LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling",
      "summary": "问题与背景：连续扩散在图像等模态上很强，但在语言建模中长期落后于离散扩散和自回归模型，核心难点来自稀疏 token 空间、评价方式不统一和训练设计不足。\n\n方法与新意：LangFlow 把 embedding-space diffusion language models 与 Flow Matching 通过 Bregman divergence 连接起来，并提出 ODE-based NLL bound、information-uniform noise schedule 和适合连续语言扩散的 self-conditioning。\n\n收录意义：这篇对生成建模主线有价值，因为它不是单纯刷榜，而是补上连续语言扩散的评估与训练设计缺口，给出“连续 diffusion 也能接近离散 DLM”的明确证据。\n\n局限：结果仍主要在中等规模语言建模与 transfer benchmark 上，尚未证明可替代大规模自回归 LLM，也缺少大规模 post-training、tool use 或长上下文行为验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11748",
      "collected_at": "",
      "collection_order": 708,
      "source_url": "https://arxiv.org/pdf/2604.11748.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11748.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G13_Continuous_Adversarial_Flow",
      "slug": "g13-continuous-adversarial-flow",
      "detail_url": "papers/g13-continuous-adversarial-flow/",
      "title": "Continuous Adversarial Flow Models",
      "summary": "这篇论文针对 flow matching 的训练目标提出替代：用 adversarial objective 训练 continuous-time flow model，而不是固定 MSE 准则。它也可以作为已有 flow-matching 模型的 post-training 方法。\n\n核心价值在于把判别器学习引入连续时间生成路径，使目标分布拟合更贴近样本质量指标。论文在 ImageNet 256px、latent/pixel SiT/JiT 以及 text-to-image 上显示显著指标提升。\n\n按本库标准，它属于生成建模核心方法，因为它改变了 flow model 的后训练/训练目标，有可能成为 diffusion/flow 生成系统的可复用增强。\n\n局限是 adversarial training 可能引入稳定性和模式覆盖问题，长期是否优于更简单的 flow matching 改进还需更大规模验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11521",
      "collected_at": "",
      "collection_order": 707,
      "source_url": "https://arxiv.org/pdf/2604.11521.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11521.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G10_Introspective_Diffusion_LM",
      "slug": "g10-introspective-diffusion-lm",
      "detail_url": "papers/g10-introspective-diffusion-lm/",
      "title": "Introspective Diffusion Language Models",
      "summary": "这篇论文切入 diffusion language model 的核心短板：扩散式并行生成虽然有吞吐潜力，但文本质量长期落后于自回归模型。作者把差距归因于 introspective consistency，也就是模型是否会接受自己此前生成的 token；AR 训练由于 causal masking 和 logit shifting 天然强化这种一致性，而 DLM 往往缺少这一机制。\n\n论文提出 Introspective Diffusion Language Model（I-DLM），用 introspective strided decoding 让模型在同一次前向传播中一边生成新 token，一边验证先前 token，从而把 AR 式自我一致性注入 diffusion-style parallel decoding。它还给出 introspective acceptance rate 作为诊断指标，把“为什么 DLM 文本质量差”从经验现象变成可测机制。\n\n它值得收录，是因为它不是单纯改采样步数，而是提出了 diffusion language model 与 autoregressive language model 之间的结构性差异解释，并给出统一并行性与一致性的训练/解码接口。对于非 AR 语言模型、并行解码和高吞吐生成系统，这是一条可复用的方法线。\n\n局限在于 I-DLM 仍需在更大模型、更长文本和真实 serving 负载下验证；目前它主要证明了 DLM 质量机制和一套新范式的可行性，还没有成为替代 AR 的成熟部署路径。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_models_and_world_models",
      "theme_label": "生成模型与世界模型",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11035",
      "collected_at": "",
      "collection_order": 706,
      "source_url": "https://arxiv.org/pdf/2604.11035.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11035.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A212_OccuBench_Language_World_Models",
      "slug": "a212-occubench-language-world-models",
      "detail_url": "papers/a212-occubench-language-world-models/",
      "title": "OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models",
      "summary": "问题与背景：agent 评测长期被少数可公开复现的环境限制，难覆盖真实职业任务。OccuBench 把评测对象扩展到急诊分诊、核电安全监控、海关进口处理等 65 个专业域，并把任务完成和环境鲁棒性放在同一套协议里。\n\n方法与新意：论文用 Language World Models 生成领域工具响应与环境反馈，并通过多智能体合成管线保证实例可解、难度可校准、文档 grounding 多样。它不是静态问答集，而是面向职业 workflow 的可交互模拟评测。\n\n收录意义：这篇值得进入 agent/evaluation 主线，因为它提出了一个可复用的职业任务评测接口：同一 agent 在不同专业环境、不同故障注入条件下的能力画像。对企业级 agent、workflow agent 和高风险场景评估都有方法参考价值。\n\n局限：Language World Model 仍是模拟环境，真实职业系统中的工具副作用、权限约束和组织流程很难完全复现；因此当前按突破性 benchmark 收录，而不是更高等级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.10866",
      "collected_at": "",
      "collection_order": 705,
      "source_url": "https://arxiv.org/pdf/2604.10866.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.10866.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A205_ClawGUI",
      "slug": "a205-clawgui",
      "detail_url": "papers/a205-clawgui/",
      "title": "ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents",
      "summary": "这篇论文把 GUI agent 的问题从单纯模型能力推进到完整工程栈：训练、评测和部署必须在同一个可复现实验框架里闭环，否则 GUI agent 的进展会被环境不稳定、评测漂移和部署断层拖住。\n\nClawGUI 的核心贡献是提供 ClawGUI-RL、ClawGUI-Eval 和 ClawGUI-Agent 三层基础设施，覆盖在线 RL、标准化 benchmark 复现和真实移动设备接入。这比单个 GUI benchmark 或单个模型报告更有长期工程复用价值。\n\n按本库标准，它应进入 agent 系统/能力扩展方向，因为它提供了可运行的 GUI agent 训练与部署接口，且面向真实 Android、HarmonyOS、iOS 使用场景。\n\n局限是 GUI agent 本身仍处在低成功率阶段，ClawGUI-2B 的绝对能力并不高；论文价值主要在基础设施而非当前模型性能。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11784",
      "collected_at": "",
      "collection_order": 704,
      "source_url": "https://arxiv.org/pdf/2604.11784.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11784.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A199_AggAgent_Parallel_Agentic_Scaling",
      "slug": "a199-aggagent-parallel-agentic-scaling",
      "detail_url": "papers/a199-aggagent-parallel-agentic-scaling/",
      "title": "Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks",
      "summary": "AggAgent 研究长时程 agentic tasks 的 parallel test-time scaling。多条 agent rollout 并行生成后，简单投票或只看最终答案会丢掉轨迹里的工具调用和中间证据；直接拼接全部轨迹又会超过上下文窗口。\n\n论文把聚合器本身设计成一个 agent，把并行轨迹当作可交互环境。AggAgent 拥有检查候选解、搜索轨迹和按需读取证据的轻量工具，从而在不展开全部上下文的情况下导航、比较和综合多个 agent 过程。\n\n它值得收录，是因为它给 long-horizon agent 的 test-time scaling 提供了可复用聚合 primitive：聚合不再是静态 summarization，而是对轨迹空间的工具化搜索。这个设计对 deep research、agentic search、代码修复和多 agent 运行时都有直接价值。\n\n局限在于聚合 agent 的可靠性和搜索策略会成为新瓶颈；在高风险任务中还需要与证据验证、权限控制和可审计日志结合。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11753",
      "collected_at": "",
      "collection_order": 703,
      "source_url": "https://arxiv.org/pdf/2604.11753.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11753.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A193_LambdaA_Agent_Composition",
      "slug": "a193-lambdaa-agent-composition",
      "detail_url": "papers/a193-lambdaa-agent-composition/",
      "title": "$λ_A$: A Typed Lambda Calculus for LLM Agent Composition",
      "summary": "λ_A 直面 LLM agent 框架缺少形式语义的问题：多数 agent 配置能不能终止、工具循环是否有界、环境 mutation 是否合规，往往靠框架约定和运行时试错。论文把 agent composition 提升到 typed lambda calculus 层面。\n\n它扩展简单类型 λ 演算，加入 oracle calls、bounded fixpoints、probabilistic choice 和 mutable environments，并用 Coq 机械化证明 type safety、bounded termination 和 lint 规则 soundness。随后把语义落到真实 GitHub agent 配置 lint。\n\n它值得收录，是因为它为 agent orchestration 提供了形式化接口：不只是“如何写 agent”，而是“什么样的 agent 配置是结构良构的”。这对安全工具调用、agent 编排框架、配置验证和 CI 检查都有长期价值。\n\n局限在于当前语义覆盖的是结构层和有界循环，仍无法保证开放世界工具调用的语义正确性或任务成功。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11767",
      "collected_at": "",
      "collection_order": 702,
      "source_url": "https://arxiv.org/pdf/2604.11767.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11767.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A192_RoMem_Temporal_Agent_Memory",
      "slug": "a192-romem-temporal-agent-memory",
      "detail_url": "papers/a192-romem-temporal-agent-memory/",
      "title": "Time is Not a Label: Continuous Phase Rotation for Temporal Knowledge Graphs and Agentic Memory",
      "summary": "RoMem 针对长期 agent memory 中的时间建模问题：多数系统把时间当离散标签、recency 排序或覆盖旧事实，无法区分永久事实、缓慢变化事实和快速过期事实。这个问题会直接影响长寿命 agent 的知识连续性。\n\n论文用 relation text embedding 预测关系 volatility，并通过 continuous phase rotation 在时序知识图中表达事实随时间的几何漂移。持久关系旋转慢，易变关系旋转快，从而让旧事实不是简单删除，而是在表示空间中被 shadowing。\n\n它值得收录，是因为它把 agent structured memory 的时间维度变成可插拔的几何模块，提供了比时间戳排序和 LLM ingestion 更可控的记忆更新 primitive。对 agent memory、temporal KG、长期个人化系统都有工程迁移价值。\n\n局限在于它主要解决结构化关系记忆，对非结构化情节记忆、冲突事实归因和多源可信度还需要额外机制。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11544",
      "collected_at": "",
      "collection_order": 701,
      "source_url": "https://arxiv.org/pdf/2604.11544.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11544.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A190_Meerkat_Agent_Trace_Audit",
      "slug": "a190-meerkat-agent-trace-audit",
      "detail_url": "papers/a190-meerkat-agent-trace-audit/",
      "title": "Detecting Safety Violations Across Many Agent Traces",
      "summary": "这篇论文关注一个实际但被低估的 agent 安全问题：违规行为往往不是单条 trace 就能看出来，而是隐藏在大量 agent 轨迹的群体模式、跨任务关联或稀有异常中。传统逐条 judge、固定 monitor 或人工 spot check 都容易漏掉这种跨 trace 的风险。\n\n作者提出 Meerkat，把聚类与 agentic search 组合起来，让审计器先把大量轨迹组织成可搜索区域，再对高风险区域做自适应调查。它支持用自然语言指定违规类型，目标不是训练一个固定分类器，而是形成可迭代的稀有风险发现流程。\n\n它值得正式收录，是因为它给 agent safety 提供了一个可复用的审计 primitive：从单轨迹判定转向 trace 集合级别的搜索、聚类和调查。这对于 misuse campaign、reward hacking、prompt injection、covert sabotage 等场景都有直接方法迁移价值。\n\n局限在于效果仍取决于轨迹表示、聚类质量和审计 agent 的调查能力；它是安全审计工作流的强接口，而不是完整的形式化保证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11806",
      "collected_at": "",
      "collection_order": 700,
      "source_url": "https://arxiv.org/pdf/2604.11806.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11806.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A189_ClawGUI_GUI_Agents",
      "slug": "a189-clawgui-gui-agents",
      "detail_url": "papers/a189-clawgui-gui-agents/",
      "title": "ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents",
      "summary": "GUI agents 的瓶颈不只是模型能力，而是缺少完整开放基础设施：训练环境不稳定，评估协议难复现，在线 RL 和真实设备部署经常断裂，导致不同论文结果难比较，也难把 agent 真正放到真实手机或应用上。\n\nClawGUI 提供训练、评估、部署一体化框架。ClawGUI-RL 支持并行虚拟环境和真实物理设备，结合 GiGPO 与 Process Reward Model 做 dense step-level supervision；整个框架同时覆盖 benchmark、在线 RL、真实设备执行和部署接口。\n\n它值得收录，因为它把 GUI agent 从单个模型/单个 benchmark 推向 full-stack infrastructure。对仓库关注的 agent capability extension、tool use、computer-use/GUI automation，它提供的是可复用实验平台和工程基座，而不是局部 SOTA trick。\n\n局限在于 GUI agent 生态仍早期，ClawGUI 的长期价值取决于社区采用、任务覆盖和真实设备稳定性；因此它是 GUI agent infrastructure 的突破性收录，而不是 paradigm 级结论。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11784",
      "collected_at": "",
      "collection_order": 699,
      "source_url": "https://arxiv.org/pdf/2604.11784.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11784.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A188_CocoaBench_Digital_Agents",
      "slug": "a188-cocoabench-digital-agents",
      "detail_url": "papers/a188-cocoabench-digital-agents/",
      "title": "CocoaBench: Evaluating Unified Digital Agents in the Wild",
      "summary": "当前 agent 评测通常把软件工程、研究检索、GUI/视觉自动化分开测试，但真实数字代理经常需要把这些能力组合起来。单项 benchmark 分数高，并不意味着模型能在一个长视距任务中灵活切换搜索、视觉理解、代码执行和文件处理。\n\nCocoaBench 针对这个缺口构建了 unified digital agents benchmark：任务由人设计、长视距、只给自然语言指令和最终输出的自动评估函数，要求 agent 组合 vision、search、coding 等能力。论文还提供 CocoaAgent 作为轻量 scaffold，用于隔离模型 backbone 差异。\n\n它值得收录，因为它把数字代理评估从单能力测试推进到组合能力测试，并保持自动化可扩展评估。对未来统一 agent scaffold、agent benchmark 和多能力系统评估，它提供了更贴近真实应用的任务定义。\n\n局限在于 benchmark 本身会随任务设计和评测函数覆盖而变化；它证明了当前 agent 的能力缺口，但还不是训练方法。因此按 agent evaluation/workflow 的突破性基准收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-13",
      "doi": "",
      "arxiv_id": "2604.11201",
      "collected_at": "",
      "collection_order": 698,
      "source_url": "https://arxiv.org/pdf/2604.11201.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.11201.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A213_OS_BLIND_Agent_Safety",
      "slug": "a213-os-blind-agent-safety",
      "detail_url": "papers/a213-os-blind-agent-safety/",
      "title": "The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents",
      "summary": "问题与背景：computer-use agents 的安全评测通常盯显式恶意请求和 prompt injection，但真实部署里更危险的是用户指令本身看似良性，风险埋在环境状态、执行后果或被拆分后的子任务里。\n\n方法与新意：论文提出 OS-BLIND，包含 300 个跨 12 类、8 个应用的人写任务，覆盖环境嵌入威胁和 agent 主动造成的伤害。它把安全问题从“拒绝恶意文本”转向“执行过程中持续识别危险后果”。\n\n收录意义：这篇是 agent safety 的高价值基准，因为它暴露了当前安全对齐的触发时机缺陷：模型往往只在前几步检查风险，多步执行和多 agent 分解会稀释危险语义。对安全 runtime、权限边界、持续监控和子任务审计都有直接参考。\n\n局限：OS-BLIND 仍主要是 benchmark 与现象揭示，防御方案不完整；具体 ASR 也依赖所选 agent harness 和应用环境。因此按 breakthrough 收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-12",
      "doi": "",
      "arxiv_id": "2604.10577",
      "collected_at": "",
      "collection_order": 697,
      "source_url": "https://arxiv.org/pdf/2604.10577.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.10577.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N107_PFC_Hemispheric_Global_Cognition",
      "slug": "n107-pfc-hemispheric-global-cognition",
      "detail_url": "papers/n107-pfc-hemispheric-global-cognition/",
      "title": "Interactions across hemispheres in prefrontal cortex reflect global cognitive processing",
      "summary": "这篇 Nature Communications 论文追问 PFC 中跨试次共同波动到底是局部噪声、双半球耦合，还是更大尺度的认知状态信号。\n\n作者利用跨半球 PFC 神经记录和群体分析，研究 prefrontal population activity 中 shared variability 的来源，并将其与全局认知处理联系起来。\n\n关键价值在于把 PFC 共同波动从噪声项重新解释为 global cognitive processing 的表现：跨半球交互可能携带任务阶段、状态和全局控制相关信息。\n\n它值得收录，因为这为 AI 系统中的 global latent state、跨模块协调信号和高层控制广播提供了神经机制参照；对模块化 agent、working memory 和控制状态建模有概念价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-04-11",
      "doi": "10.1038/s41467-026-71725-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 696,
      "source_url": "https://www.nature.com/articles/s41467-026-71725-0_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-026-71725-0_reference.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G11_ZWM_Developmental_World_Model",
      "slug": "g11-zwm-developmental-world-model",
      "detail_url": "papers/g11-zwm-developmental-world-model/",
      "title": "Zero-shot World Models Are Developmentally Efficient Learners",
      "summary": "这篇论文从儿童早期物理理解出发，提出 Zero-shot Visual World Model（ZWM）假说：儿童能从极少第一人称经验中形成深度、运动、对象连续性和交互等能力，说明有效 world model 可能不需要大量任务监督，而是依赖稀疏、时间因子化的预测和因果推断。\n\nZWM 的三条原则是：把 appearance 和 dynamics 解耦的 sparse temporally-factored predictor；通过 approximate causal inference 做 zero-shot estimation；组合多个 inference 形成更复杂能力。作者用单个儿童的第一人称经验训练，并测试多个未训练物理场景理解任务。\n\n它值得收录，因为它把 developmental learning、causal inference 和 world model 结合成一个清晰的 AI 研究假说。对高效世界模型、具身学习和 NeuroAI/认知启发建模，它提供了不同于纯大数据视频预测的路线。\n\n局限在于它更像计算认知和世界模型假说验证，离大规模生成式世界模型或机器人控制系统还有距离；因此作为概念和方法上有 AI 溢出的突破性 world-model 工作收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_models_and_world_models",
      "theme_label": "生成模型与世界模型",
      "published_at": "2026-04-11",
      "doi": "",
      "arxiv_id": "2604.10333",
      "collected_at": "",
      "collection_order": 695,
      "source_url": "https://arxiv.org/pdf/2604.10333.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.10333.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R62_SPPO_Sequence_Level_PPO",
      "slug": "r62-sppo-sequence-level-ppo",
      "detail_url": "papers/r62-sppo-sequence-level-ppo/",
      "title": "SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks",
      "summary": "SPPO 针对长链推理 RL 中 token-level PPO 的两个痛点：跨 CoT horizon 的 temporal credit assignment 不稳定，以及 value model 带来的显存成本。GRPO 等 critic-free 方法缓解部分问题，但需要多样本 baseline，吞吐受限。\n\n论文把推理过程重构为 sequence-level contextual bandit，用解耦的标量 value function 生成低方差 advantage，避免逐 token value 模型和多 rollout baseline 的高成本。目标是在 PPO 的样本效率和 outcome-level 更新稳定性之间折中。\n\n它值得收录，是因为它给长时程 reasoning RL 提供了 sequence-level 训练接口，有望成为 GRPO/PPO 之间的实用替代。对大模型数学、代码和复杂推理 post-training 有直接系统价值。\n\n局限在于 sequence-level abstraction 可能牺牲部分细粒度 credit 信号；在开放式工具任务和多步 agent 环境中还需要验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-10",
      "doi": "",
      "arxiv_id": "2604.08865",
      "collected_at": "",
      "collection_order": 694,
      "source_url": "https://arxiv.org/pdf/2604.08865.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08865.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R58_PRA_Knowledge_Reasoning",
      "slug": "r58-pra-knowledge-reasoning",
      "detail_url": "papers/r58-pra-knowledge-reasoning/",
      "title": "Process Reward Agents for Steering Knowledge-Intensive Reasoning",
      "summary": "这篇论文处理知识密集型推理中的一个关键缺口：数学和代码任务的中间步骤常可局部验证，但医学等知识密集领域的推理步骤往往需要跨外部知识源综合判断，错误会沿推理链传播而不被发现。传统 process reward model 多是在轨迹完成后打分，难以进入动态推理搜索。\n\n作者提出 Process Reward Agents（PRA），把领域知识检索、步骤级判断和奖励信号组合成测试时在线模块，为冻结的 policy model 提供 domain-grounded、step-wise reward。它不是训练新 reasoner，而是在生成过程中对候选轨迹持续排名和剪枝，使搜索式解码能在每一步利用外部知识反馈。\n\n它值得收录，是因为它把 process reward 从离线评分器推进为可插入推理过程的 agentic reward module，形成“冻结通用推理器 + 领域奖励代理”的可复用部署模式。论文在多个医学推理基准上显示该方法可迁移到 0.5B 到 8B 的不同冻结模型，并在不更新 policy 的情况下显著提升准确率。\n\n局限在于实验主要集中在医学知识推理，PRA 的检索源、奖励代理质量和搜索成本会影响可迁移性；更开放的多跳科学推理和普通长文档任务还需要验证。因此它是 test-time knowledge-intensive reasoning 的突破性方法，而不是通用推理范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-10",
      "doi": "",
      "arxiv_id": "2604.09482",
      "collected_at": "",
      "collection_order": 693,
      "source_url": "https://arxiv.org/pdf/2604.09482.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.09482.pdf",
      "project_urls": [
        "https://process-reward-agents.github.io/"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R57_RecaLLM_In_Context_Retrieval",
      "slug": "r57-recallm-in-context-retrieval",
      "detail_url": "papers/r57-recallm-in-context-retrieval/",
      "title": "RecaLLM: Addressing the Lost-in-Thought Phenomenon with Explicit In-Context Retrieval",
      "summary": "这篇论文聚焦长上下文推理中的一个具体失败模式：模型在进行一段推理后，重新从上下文中定位证据的能力会快速下降。作者将其称为 lost-in-thought，并指出长上下文推理不是简单地“先读全上下文再推理”，而是检索与推理相互交织的过程。\n\nRecaLLM 的方法是把显式 in-context retrieval 插入推理过程，让模型在中间子问题处交替执行推理和证据召回。系统还使用低开销约束解码机制来逐字复制上下文证据 span，从而增强后续生成的 grounding；训练则覆盖词面与语义检索任务，使模型学会在需要时主动从上下文中找回证据。\n\n它值得收录，是因为它给长上下文和 test-time scaling 提供了一个清晰的控制模式：不是只增加思考长度，而是把可验证的上下文取证变成推理链的一等动作。论文在 RULER 与 HELMET 上展示了跨 4K 到 128K 上下文的收益，并且训练样本不需要达到同等长度，这对长上下文 agent、研究助理和文档推理系统都有可复用价值。\n\n局限在于结果仍主要集中在检索密集型长上下文任务，方法依赖显式召回格式和后训练数据构造；开放式复杂任务中，何时召回、召回多少以及如何与外部 RAG 合并仍需进一步验证。因此它是长上下文推理控制的突破性方法，而不是完整的通用记忆架构。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-10",
      "doi": "",
      "arxiv_id": "2604.09494",
      "collected_at": "",
      "collection_order": 692,
      "source_url": "https://arxiv.org/pdf/2604.09494.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.09494.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/kswhitecross/RecaLLM"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G9_ELT_Looped_Visual_Generation",
      "slug": "g9-elt-looped-visual-generation",
      "detail_url": "papers/g9-elt-looped-visual-generation/",
      "title": "ELT: Elastic Looped Transformers for Visual Generation",
      "summary": "这篇论文把 recurrent / weight-sharing transformer 思路引入视觉生成，以解决图像和视频生成模型参数量持续膨胀的问题。传统生成模型通常依赖一组互不共享的深层 transformer block，而 ELT 让同一组 transformer block 在 loop 中反复使用，以较少参数维持生成质量。\n\n关键方法是 Elastic Looped Transformers 和 Intra-Loop Self Distillation（ILSD）。训练时用最大 loop 数作为 teacher configuration，并在单次训练中蒸馏中间 loop 的 student configuration，使不同深度/循环次数下的输出保持一致；同一个模型因此天然支持 any-time inference，在计算成本和生成质量之间动态折中。\n\n它值得收录，是因为它给视觉生成模型提供了可复用的“循环深度 + 自蒸馏 + 弹性推理”接口，和近期 LLM 中递归深度扩展、YOCO-U 等方向形成跨模态呼应。论文在 ImageNet 与 UCF-101 上展示了参数显著减少下仍保持强生成质量，说明循环共享不只是压缩技巧，也是一种部署友好的生成架构模式。\n\n局限在于实验仍集中在标准图像/视频生成基准，尚未证明在大规模文生视频、可控生成或世界模型训练中的 scaling 行为；循环结构的长程稳定性也需要进一步验证。因此它作为生成模型效率架构突破收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_models_and_world_models",
      "theme_label": "生成模型与世界模型",
      "published_at": "2026-04-10",
      "doi": "",
      "arxiv_id": "2604.09168",
      "collected_at": "",
      "collection_order": 691,
      "source_url": "https://arxiv.org/pdf/2604.09168.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.09168.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G8_Matrix_Game_3_Long_Horizon_World_Model",
      "slug": "g8-matrix-game-3-long-horizon-world-model",
      "detail_url": "papers/g8-matrix-game-3-long-horizon-world-model/",
      "title": "Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory",
      "summary": "这篇论文面向交互式视频世界模型的两个核心瓶颈：长时一致性和实时高分辨率生成。现有扩散式交互世界模型通常能生成短片段或低分辨率交互画面，但难以同时维持长时记忆、动作可控性和 720p 实时流式输出。\n\nMatrix-Game 3.0 从数据、训练和推理三层改造系统：用 Unreal Engine 合成、AAA 游戏自动采集和真实视频增强构建 Video-Pose-Action-Prompt 数据；训练阶段通过残差建模、错误帧重注入和相机感知记忆检索提升长时自校正；推理阶段结合多段自回归蒸馏、DMD、量化和 VAE decoder 剪枝实现实时流式生成。\n\n它值得收录，是因为它把“世界模型作为可交互生成系统”的问题推进到系统工程层面，明确展示了长时记忆检索、错误缓冲、自回归蒸馏和部署压缩如何协同。对于生成式世界模型、具身仿真数据、游戏环境生成和未来 VLA 训练环境，都提供了可复用的系统分解。\n\n局限在于论文偏技术报告性质，核心训练数据引擎与大规模实验细节仍不如学术基准透明，且真实机器人/物理交互价值需要进一步验证。因此它作为生成世界模型系统突破收录，但不升为更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_models_and_world_models",
      "theme_label": "生成模型与世界模型",
      "published_at": "2026-04-10",
      "doi": "",
      "arxiv_id": "2604.08995",
      "collected_at": "",
      "collection_order": 690,
      "source_url": "https://arxiv.org/pdf/2604.08995.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08995.pdf",
      "project_urls": [
        "https://matrix-game-v3.github.io/"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C24_EquiformerV3_Atomistic_Modeling",
      "slug": "c24-equiformerv3-atomistic-modeling",
      "detail_url": "papers/c24-equiformerv3-atomistic-modeling/",
      "title": "EquiformerV3: Scaling Efficient, Expressive, and General SE(3)-Equivariant Graph Attention Transformers",
      "summary": "这篇论文属于 AI for atomistic modeling 方向，目标是提升 SE(3)-equivariant graph attention transformer 在大规模材料、分子和势能面建模中的效率、表达力与物理一致性。随着等变 GNN 成为 3D 原子系统建模的核心工具，速度、可扩展性和高阶导数/能量守恒任务成为关键瓶颈。\n\nEquiformerV3 在 EquiformerV2 基础上做了三类改进：优化软件实现获得显著速度提升；引入 equivariant merged layer norm、改进 FFN 超参和平滑半径截断 attention；提出 SwiGLU-S2 activation 以更低复杂度建模 many-body interactions，同时保持严格等变并支持平滑势能面和高阶导数任务。\n\n它值得收录，是因为它不是单一化学任务应用，而是面向原子级科学计算的通用等变 Transformer 骨干升级，在 OC20、OMat24 和 Matbench Discovery 上取得强结果，并把效率、表达力和物理一致性同时纳入架构设计。对材料发现、分子动力学、反应势能面和 AI 加速物理模拟都有复用价值。\n\n局限在于它是既有 Equiformer 系列的迭代升级，范式仍是等变图网络而非全新科学工作流；实际影响还取决于代码和预训练模型在材料/化学社区的采用。因此按 AI for science 的突破性基础模型骨干收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_for_science",
      "theme_label": "AI for Science",
      "published_at": "2026-04-10",
      "doi": "",
      "arxiv_id": "2604.09130",
      "collected_at": "",
      "collection_order": 689,
      "source_url": "https://arxiv.org/pdf/2604.09130.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.09130.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/atomicarchitects/equiformer_v3",
        "https://huggingface.co/mirror-physics/equiformer_v3"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C23_Transferable_Generative_Molecular_Dynamics",
      "slug": "c23-transferable-generative-molecular-dynamics",
      "detail_url": "papers/c23-transferable-generative-molecular-dynamics/",
      "title": "Transferable generative models bridge femtosecond to nanosecond time-step molecular dynamics",
      "summary": "这篇工作针对分子动力学里最核心也最顽固的瓶颈之一：传统 MD 以飞秒级步长推进，原子级细节足够好，但很难触达真正决定化学与生物功能的慢构象变化和弛豫过程。问题不是单纯把模拟再跑久一点，而是如何在不丢失物理可信度和原子分辨率的前提下，把可访问时间尺度有效拉到纳秒级甚至更高。\n\n论文提出一个可迁移的深度生成建模框架，把分子动力学的采样效率提升四个数量级，同时仍能定量恢复平衡系综和动力学弛豫过程。关键价值不只是更快，而是它表现出对化学组成和系统规模的泛化能力，能够外推到训练中未见过、更大的肽链系统，把 generative modeling 直接接入科学模拟工作流，而不是停留在静态结构生成。\n\n它值得正式收录，因为这类方法明确改变了 AI for science 的工作模式：不再只是用 AI 做下游性质预测，而是让生成模型成为连接不同时间尺度模拟的核心加速层。对化学、分子建模、生物物理和更广的 scientific simulation workflow 都有明显外溢，符合仓库对 AI materially advancing scientific modeling and discovery workflow 的收录标准。\n\n它目前还不到更高一级，主要因为证据仍集中在分子动力学加速这一条线，虽然结果很强，但是否会成为更广泛科学模拟领域的长期标准接口还需要后续采用和跨体系验证。当前更合适的定位是一篇高质量、方法外溢明确的 breakthrough。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-10",
      "doi": "",
      "arxiv_id": "2510.07589",
      "collected_at": "",
      "collection_order": 688,
      "source_url": "https://arxiv.org/pdf/2510.07589.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.07589.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A185_ManyIH_Agent_Instruction_Hierarchy",
      "slug": "a185-manyih-agent-instruction-hierarchy",
      "detail_url": "papers/a185-manyih-agent-instruction-hierarchy/",
      "title": "Many-Tier Instruction Hierarchy in LLM Agents",
      "summary": "这篇论文针对 agent 系统中越来越常见的多来源指令冲突问题，指出传统 instruction hierarchy 通常只假设少数固定权限层级，难以覆盖真实 agent 中系统消息、用户消息、工具输出、组织角色、API 信任边界等更细粒度的权限关系。作者把问题扩展为可有任意多权限层级的 Many-Tier Instruction Hierarchy，并以此定义新的安全与可靠性评测目标。\n\n核心贡献是 ManyIH 范式和 ManyIH-Bench。基准包含 853 个 agentic 任务，覆盖编码与指令遵循两类场景，最多要求模型处理 12 个冲突权限层级，并把约束设计、人工验证和自动检查结合起来，使模型必须显式识别并服从最高权限约束，而不是依赖少数硬编码 role label。\n\n它值得收录，是因为它把 agent 安全从“system > user”这种粗粒度模板推进到可扩展权限解析问题，给工具型 agent、组织内 agent、代码 agent 和多组件 agent 的指令治理提供了可复用评测框架。当前前沿模型在层级数扩张时明显失效，这说明问题不是单纯增加推理 token 可以解决，而需要面向权限结构的训练和接口设计。\n\n局限在于论文主要提出评测和范式，尚未给出成熟的训练方法或协议标准；ManyIH 的权限值也被预先给定，真实系统中仍需要解决权限来源认证、动态信任更新和跨工具传播。因此它定位为突破性 agent 评测/安全框架，而不是更高一级的系统范式转移。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-10",
      "doi": "",
      "arxiv_id": "2604.09443",
      "collected_at": "",
      "collection_order": 687,
      "source_url": "https://arxiv.org/pdf/2604.09443.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.09443.pdf",
      "project_urls": [
        "https://jhu-clsp.github.io/ManyIH"
      ],
      "repo_urls": [
        "https://github.com/JHU-CLSP/ManyIH",
        "https://huggingface.co/datasets/jhu-clsp/ManyIH-Bench"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL35_SIM1_Deformable_Sim_Data",
      "slug": "rl35-sim1-deformable-sim-data",
      "detail_url": "papers/rl35-sim1-deformable-sim-data/",
      "title": "SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds",
      "summary": "这篇论文针对的是 deformable-object robotics 的数据扩展瓶颈。刚体操作中仿真数据可以较容易扩张，但衣物等可变形对象存在形状、接触和拓扑共同演化，普通 sim-to-real 往往因为几何不准、软体动力学失真和动作 primitive 不匹配而只能做弱预训练。\n\nSIM1 提出 physics-aligned real-to-sim-to-real 数据引擎：先用高精度 3D 扫描构建与真实场景度量一致的数字孪生，再用稳定软体求解器和行为匹配校准弹性/弯曲动态，最后结合 diffusion-based trajectory generation 和质量过滤扩张可变形操作数据。核心原则是 simulation 必须先 grounding，之后 scaling 才有意义。\n\n它值得收录，因为它把机器人仿真数据扩展从“合成越多越好”推进到“物理对齐后合成才可迁移”的工作流模式。论文报告纯仿真训练在真实机器人上实现 90% zero-shot success，并在泛化任务上超过真实数据 baseline，直接回应了仓库对 embodied intelligence、sim2real 和数据引擎的扩展重点。\n\n它不是更高一级，因为方法依赖高精度场景数字化、专门软体仿真和具体双臂衣物操作设置；跨材质、跨机器人、低成本扫描和开放数据/代码成熟度还需要进一步验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08544",
      "collected_at": "",
      "collection_order": 686,
      "source_url": "https://arxiv.org/pdf/2604.08544.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08544.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "上海 AI Lab 发布 SIM1，90% 零样本成功率刷新机器人叠衣服等柔性操作纪录",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "sim1 physics aligned simulator as zero shot data scaler in deformable worlds",
          "description": "上海人工智能实验室在具身智能领域发布SIM1，这是一种专为柔性物体操纵设计的物理对齐数据引擎。针对机器人处理衣物等柔性物体时面临的物理模拟失真、真实轨迹数据采集成本极高等痛点，该研究提出了R2S2R闭环范式。其核心在于通过高精度扫描实现场景数字化，并利用形变稳定求解器确保仿真动态与现实物理一致，将少量演示扩展为海量合成数据。实验证明，该系统在现实世界中实现了90%的零样本操作成功率，泛化能力提升50%以上，为具身智能在大规模非结构化场景的应用提供了重要技术支撑。",
          "x_post": "上海人工智能实验室发布 SIM1：物理对齐数据引擎实现柔性物体 90% 零样本成功率\n机器人操纵衣物等柔性物体时，常面临物理模拟失真及真实轨迹采集成本极高的挑战。\nSIM1 提出 R2S2R 闭环范式，结合高精度几何扫描与形变稳定求解器，确保仿真环境与物理世界高度对齐。\n该引擎利用扩散模型将少量专家演示扩展为海量合成数据，有效解决了柔性物体数据稀缺的难题。\n实验数据显示，该策略在真实机器人部署中达成 90% 的零样本成功率，泛化性能提升 50% 以上。\n该工作为具身智能在复杂形变环境下的规模化数据生产与策略训练提供了可核验的技术路径。",
          "cover_url": "assets/covers/rl35-sim1-deformable-sim-data-f04f3ce46a.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-21T22:50:35+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL34_ViVa_Video_Value_Model",
      "slug": "rl34-viva-video-value-model",
      "detail_url": "papers/rl34-viva-video-value-model/",
      "title": "ViVa: A Video-Generative Value Model for Robot Reinforcement Learning",
      "summary": "这篇论文处理的是机器人强化学习中的 value estimation 问题。VLA 模型已经能从大规模预训练获得操作能力，但真实长程任务仍受 partial observability 和 delayed feedback 影响；传统基于静态 VLM 的 value model 很难判断当前状态是否真的朝成功方向推进。\n\nViVa 的核心想法是把 value estimation 重写为 future anticipation：复用预训练视频生成模型的时空先验，让模型在当前多视角观测和机器人本体状态条件下，同时预测未来 proprioception 和当前 scalar value。价值估计因此不只看静态截图，而是被未来身体动态预测约束。\n\n它值得收录，因为它给 robot RL/VLA 后训练提供了一个可复用接口：用视频生成模型作为 value model 的结构先验，而不是只把视频模型当世界模型或生成器。集成到 RECAP 后，ViVa 在真实 box assembly 中将成功率提升到 73%，并提高 throughput；定性分析显示它能更敏感地反映任务进度和异常动作。\n\n它不是更高一级，因为当前最强实验证据集中在少数真实机器人任务和特定 RECAP/VLA 环境；视频生成 value model 在更多机器人、更多动作空间和更复杂安全约束下的泛化还需要证明。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08168",
      "collected_at": "",
      "collection_order": 685,
      "source_url": "https://arxiv.org/pdf/2604.08168.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08168.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "赋予机器人“预知未来”的感知力，川大清华发布ViVa模型破解长周期任务进度感知",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "viva a video generative value model for robot reinforcement learning",
          "description": "四川大学与清华大学团队在具身智能领域取得突破，推出ViVa视频生成价值模型。针对机器人强化学习在处理叠衣服、组装纸箱等长周期任务时，因缺乏时空动态感知导致进度判断不准、反馈延迟的难题，ViVa创新性地将价值评估转化为对未来状态的预测。该模型利用视频生成大模型的时空先验知识，同步预测动作演变与任务进度标量。实验证明，ViVa在复杂现实场景中任务追踪更精准，具备极强的错误检测与新物体泛化能力，让机器人能够通过“预见”后果来提升学习效率与操作稳健性。",
          "x_post": "四川大学与清华大学发布 ViVa 视频生成价值模型，通过预测未来提升机器人长周期任务感知力\n\n针对机器人强化学习在叠衣服、组装纸箱等长周期任务中面临的反馈延迟难题，研究团队提出 ViVa 模型。该方案将价值评估转化为对未来物理状态的预测，充分利用视频大模型蕴含的时空先验知识来辅助决策。\n\n技术核心在于将 14 维机器人本体感知数据与视觉观测深度融合，基于 Diffusion Transformer 架构同步预测任务进度标量（0~1）与未来运动演变。这种预测机制强制模型理解物理接触规律，而非单纯依赖静态图像特征。\n\n实验结果表明，ViVa 在复杂现实场景中的任务进度追踪精度显著提升，并对新奇物体展现出卓越的泛化性能与错误检测能力，为具身智能实现稳健的长程操作提供了有效路径。",
          "cover_url": "assets/covers/rl34-viva-video-value-model-960b42c594.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-22T12:45:14+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R61_Experience_Replay_LLM_RL",
      "slug": "r61-experience-replay-llm-rl",
      "detail_url": "papers/r61-experience-replay-llm-rl/",
      "title": "Efficient RL Training for LLMs with Experience Replay",
      "summary": "这篇论文挑战 LLM post-training 中“必须严格 on-policy”的常见假设。由于生成 rollout 成本很高，完全丢弃旧样本可能并不是最优；经验回放在经典 RL 中成熟，却在 LLM RL 中长期被认为会因 stale data 失效。\n\n作者系统研究 replay buffer 的设计权衡：staleness 引入的方差、样本多样性、生成成本和策略熵之间如何平衡。实验显示，设计良好的 replay buffer 可以显著降低 inference compute，同时不损害甚至提升最终性能。\n\n它值得收录，是因为它为 RLVR/LLM RL 提供了训练系统层面的重要修正：on-policy 不是绝对教条，生成成本应进入算法设计目标。这个结论会影响大规模 reasoning RL 的采样、缓存和训练吞吐设计。\n\n局限在于 replay 策略仍需针对任务、模型和 reward 噪声调参；理论边界和极大规模训练稳定性还有待验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08706",
      "collected_at": "",
      "collection_order": 684,
      "source_url": "https://arxiv.org/pdf/2604.08706.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08706.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R52_DMax_Parallel_Decoding",
      "slug": "r52-dmax-parallel-decoding",
      "detail_url": "papers/r52-dmax-parallel-decoding/",
      "title": "DMax: Aggressive Parallel Decoding for dLLMs",
      "summary": "diffusion language models 一直有并行生成潜力，但真正把 decoding parallelism 开大时，模型很容易因为错误累积而迅速掉质，因此很多实现只能保守地换一点吞吐，换不来真正激进的推理加速。问题不在于 dLLM 没有并行性，而在于现有 decoding 形式太脆弱。\n\nDMax 的推进在于把 dLLM 的解码从简单的 mask-to-token 过渡，改写成从 mask embedding 到 token embedding 的渐进式自修正过程。围绕这个接口，论文给出 On-Policy Uniform Training 去统一 masked / uniform dLLM 的训练分布，再配合 Soft Parallel Decoding，让中间状态能在 embedding space 中持续纠偏，从而支持更激进的并行解码而不明显牺牲质量。\n\n它值得正式收录，因为这不是单个模型上的 speed hack，而是在 diffusion language model 上提出了更耐用的 decoding interface。对 dLLM 的训练组织、推理吞吐和未来生成接口设计，这种把并行生成和自修正结合起来的方式有可复用的方法价值。\n\n它暂时不升到更高一级，原因在于当前证据仍主要集中在 dLLM 这条生成范式内部，虽然对该方向很重要，但还没有证明会外溢成更普遍的生成推理标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08302",
      "collected_at": "",
      "collection_order": 683,
      "source_url": "https://arxiv.org/pdf/2604.08302.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08302.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "新加坡国立大学发布 DMax 架构：打破“快就出错”魔咒，实现高精度文本并行生成新突破",
          "url": "https://www.bilibili.com/video/BV1aT5W6dE97",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1aT5W6dE97",
            "https://youtu.be/K_Uy-eGELIw"
          ],
          "main_collection": "大模型架构与推理",
          "match": "dmax aggressive parallel decoding for dllms",
          "description": "新加坡国立大学团队针对扩散语言模型（dLLMs）推理效率瓶颈，发布了全新的 DMax 架构。针对现有模型在提高并行度时易出现“语义崩溃”与误差累积的痛点，该研究提出了同策略均匀训练（OPUT）与软并行解码（SPD）两大核心技术。OPUT 通过模型自预测序列闭合训练推理鸿沟，使模型具备自我纠错能力；SPD 则利用混合嵌入空间传递不确定性，实现了渐进式微调生成。实验表明，相比 LLaDA-2.0-mini 基准，DMax 在数学与代码生成任务中显著提升了解码并行度，且保持了极高的推理精度。这一突破为实现更快速、更稳健的大规模文本并行生成提供了新路径。",
          "x_post": "新加坡国立大学发布 DMax 架构：通过 OPUT 与 SPD 技术解决扩散语言模型高并行生成下的误差累积问题\n\n扩散语言模型（dLLMs）在追求高并行推理时常面临语义崩溃风险，实验观测到当并行度超过 8 后，传统模型的准确率往往出现显著下降。为突破此瓶颈，NUS 团队提出 DMax 架构，引入在线策略均匀训练（OPUT）与软并行解码（SPD）两大核心组件。\n\nOPUT 通过模型自预测序列闭合训练与推理间的分布鸿沟，使模型具备自我纠错能力；SPD 则利用混合嵌入空间传递预测不确定性，实现了渐进式自我微调。实验数据表明，相比 LLaDA-2.0-mini 基准，DMax 在数学与代码生成任务中显著提升了并行解码效率，且能保持极高的推理精度。\n\n该研究证明了通过统一掩码与均匀扩散机制，可在不牺牲准确性的前提下实现稳健的大规模文本并行生成，为高效 AI 推理提供了新路径。",
          "cover_url": "assets/covers/r52-dmax-parallel-decoding-3374e32a52.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-07T15:57:48+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N68_Shared_Perception_Imagery_Code",
      "slug": "n68-shared-perception-imagery-code",
      "detail_url": "papers/n68-shared-perception-imagery-code/",
      "title": "A shared code for perceiving and imagining objects in human ventral temporal cortex",
      "summary": "视觉意象一直被视为理解 generative perception 的核心窗口，但人类大脑里“看见一个物体”和“想象一个物体”是否真的调用同一套神经代码，过去长期缺少直接证据。大多数相关论断依赖 fMRI 或间接推断，难以在单神经元层面判断想象是否真的是对感知表征的再激活。\n\n这篇工作在人体腹侧颞叶皮层的单神经元记录上给出更强证据：研究者先发现大约 80% 的视觉响应神经元用 distributed axis code 编码物体，再用这一代码重建物体并生成最有效的合成刺激，随后在想象任务中证明约 40% 的 axis-tuned 神经元会重现相同视觉代码。核心价值不只是“有重叠”，而是把 perception 与 imagery 的共享表征推进到可重建、可合成、可在同一群体中验证的层面。\n\n它值得正式收录，因为这属于少数真正解释 brain working principle 且对 AI 有明确概念外溢的神经科学论文。它为“生成式感知”和共享 latent code 提供了单神经元级的人体证据，对视觉表征、记忆重放、生成模型如何复用判别表征这类 NeuroAI 议题都有持续参考价值。\n\n它暂时不升到更高一级，原因在于这篇工作的外溢仍主要是概念和机制层，而不是直接给出可迁移的 AI 方法接口。它非常强，但更像一篇会长期被 NeuroAI 引用的 breakthrough 级机制论文，而不是已经改变建模范式的更高层级工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 682,
      "source_url": "https://www.biorxiv.org/content/10.1101/2024.10.05.616828.full.pdf",
      "paper_url": "https://www.biorxiv.org/content/10.1101/2024.10.05.616828.full.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "揭秘闭眼想象的神经机制：加州理工破解大脑轴编码，成功从脑电中提取视觉细节",
          "url": "https://www.bilibili.com/video/BV1aHR9BgE8d",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1aHR9BgE8d",
            "https://youtu.be/VXFkLlEhoLg"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "a shared code for perceiving and imagining objects in human ventral temporal cortex",
          "description": "加州理工与Cedars-Sinai团队在神经科学领域取得突破，揭示了大脑腹侧颞叶皮层（VTC）的物体编码机制。针对想象力神经基础这一难题，研究者通过记录癫痫患者的单神经元活动，结合AI网络提取高维特征，发现大脑利用分布式“轴编码”来表征物体。研究团队成功以97%的精度从神经信号中重建了患者看到的图像。实验进一步证实，想象时约40%的神经元会按相同规律重新激活，从单细胞层面证明了想象是感知的神经再次触发。该发现为大脑作为“生成模型”提供了直接证据，并揭示了区分现实与幻觉的神经机制。",
          "x_post": "加州理工与Cedars-Sinai揭示大脑轴编码机制，以97%精度重建感知图像并解析想象神经基础\n长期以来，人类视觉想象是依赖独立回路还是共享感知机制尚不明确。研究团队通过记录16名患者腹侧颞叶皮层（VTC）的714个单神经元活动，结合深度神经网络AlexNet提取物体的高维特征，发现超80%的视觉神经元采用分布式“轴编码”（Axis Code）来表征物体特征。\n实验数据表明，利用线性解码器可从群体神经放电中以97%的精度重建原始视觉图像。关键证据显示，当受试者闭眼想象特定物体时，约40%的轴调谐神经元会按感知时的规律重新激活。这一发现从单细胞层面证实了视觉想象与感知共享同一套特征编码空间，为大脑作为“生成模型”提供了直接的生物学证据。",
          "cover_url": "assets/covers/n68-shared-perception-imagery-code-4668d497b6.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-07T18:16:31+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM50_WildDet3D_Open_World_3D",
      "slug": "mm50-wilddet3d-open-world-3d",
      "detail_url": "papers/mm50-wilddet3d-open-world-3d/",
      "title": "WildDet3D: Scaling Promptable 3D Detection in the Wild",
      "summary": "这篇论文面向单图像开放世界 3D 目标检测，目标是从 RGB 图像恢复物体的 3D 尺寸、位置和朝向，同时支持文本、点、框等不同 prompt，并在可用时利用深度线索。现有方法多绑定单一 prompt 类型，数据集也通常限制在少数类别和受控场景。\n\nWildDet3D 的贡献有两部分：一是统一的 geometry-aware promptable 3D detection 架构，可接受 text/point/box prompts，并在推理时注入辅助 depth；二是 WildDet3D-Data，用已有 2D 标注生成候选 3D box，再经人工验证，形成超过 100 万图像、1.35 万类别的开放 3D 检测数据。\n\n它值得收录，是因为它把开放世界 3D 感知推向更接近 spatial intelligence 基础能力的规模和接口：多 prompt、可用深度增强、跨数据集零样本评测。对 multimodal spatial grounding、机器人感知和 3D world model 的前端 perception 都有可复用价值。\n\n局限在于它仍是 3D detection 任务，主要贡献在数据和检测架构，距离通用空间推理或具身决策还有距离。因此按 multimodal/spatial foundation capability 的突破性数据与方法收录，而不升为更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08626",
      "collected_at": "",
      "collection_order": 681,
      "source_url": "https://arxiv.org/pdf/2604.08626.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08626.pdf",
      "project_urls": [
        "https://allenai.github.io/WildDet3D/",
        "https://allenai.org/blog/wilddet3d"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM49_Scal3R_Test_Time_3D_Reconstruction",
      "slug": "mm49-scal3r-test-time-3d-reconstruction",
      "detail_url": "papers/mm49-scal3r-test-time-3d-reconstruction/",
      "title": "Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction",
      "summary": "这篇论文面向长视频的大规模 3D 重建。现有 feed-forward 3D reconstruction 模型能从 RGB 直接回归几何，但在长序列上受限于上下文窗口和全局记忆，chunk-wise 方案又会丢失跨片段一致性并累积对齐误差。\n\nScal3R 引入神经全局上下文表示，用一组轻量子网络在测试时通过自监督目标快速适配，将长程场景信息压缩、保留并跨 chunk 共享。它把 test-time training 用作场景级工作记忆更新，而不是简单对每个样本做局部 refinement。\n\n它值得收录，因为它是测试时适应在 3D/视觉几何系统中的高价值用法：用在线适配的全局上下文解决长序列重建的记忆和一致性问题。论文在 ScanNet、ETH3D、7-Scenes、Oxford Spires 等数据上报告领先 pose 和几何精度，并展示公里级场景统一重建，这对机器人感知、SLAM 替代路线和长上下文视觉系统都有可复用启发。\n\n主要限制是方法仍绑定 3D 重建和 VGGT 类 feed-forward 几何模型，测试时适配的稳定性、时间开销和失败模式需要更多实机/闭环验证。它体现了很好的 TTT 系统模式，但不是通用语言模型或 agent 的部署时学习框架。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08542",
      "collected_at": "",
      "collection_order": 680,
      "source_url": "https://arxiv.org/pdf/2604.08542.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08542.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM47_Tempo_Long_Video_Compression",
      "slug": "mm47-tempo-long-video-compression",
      "detail_url": "papers/mm47-tempo-long-video-compression/",
      "title": "Small Vision-Language Models are Smart Compressors for Long Video Understanding",
      "summary": "这篇论文处理长视频理解中的上下文瓶颈。小时级视频会迅速耗尽 MLLM token budget，固定稀疏采样和均匀池化又容易丢掉关键瞬间，导致模型在长程问答中既浪费上下文又错过证据。\n\nTempo 的核心思路是让小型视觉语言模型充当局部 temporal compressor，把 token reduction 变成 query-aware 的早期跨模态蒸馏。随后 Adaptive Token Allocation 利用小模型的零样本相关性先验和 semantic front-loading 现象，在不训练路由器的情况下，把更多 token 分配给 query-critical 片段，并把背景片段压缩成最小锚点。\n\n它值得收录，因为它给长视频理解提供了一个实用且可迁移的分层接口：小模型负责局部、查询相关的压缩，大模型负责全局推理。论文显示 6B 级系统在严格视觉 token 预算下达到强长视频表现，并在 LVBench 等极长视频任务上超过若干闭源基线，说明长视频能力不一定来自盲目扩大上下文，而可以来自语义必要性驱动的动态带宽分配。\n\n主要限制是 Tempo 依赖 SVLM 已经具备可用的 relevance prior，当前 ATA 仍是启发式和零样本机制，而不是经过任务奖励优化的稳定路由策略。其优势也主要在视频问答/理解，尚未扩展到视频 agent、交互式 world model 或动作闭环。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08120",
      "collected_at": "",
      "collection_order": 679,
      "source_url": "https://arxiv.org/pdf/2604.08120.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08120.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A183_ImplicitMemBench_Agent_Memory",
      "slug": "a183-implicitmembench-agent-memory",
      "detail_url": "papers/a183-implicitmembench-agent-memory/",
      "title": "ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models",
      "summary": "这篇论文指出当前 agent memory 评测过度聚焦显式事实回忆，例如多轮问答、状态跟踪或检索命中，而忽略了更接近长期助理需求的隐式记忆：经验是否会自动转化为程序化行为、偏好性反应或条件化规避，而不是在测试时被明确要求回忆。\n\nImplicitMemBench 将隐式记忆拆成三类认知构件：procedural memory、priming 和 classical conditioning，并统一成 Learning / Priming - Interfere - Test 协议。评测采用 first-attempt scoring，以避免模型通过显式推理、自我修正或提示回看掩盖自动化行为是否真正形成。\n\n它值得收录，因为它为 agent memory 提供了一个新的评测维度：不是记住了什么事实，而是经验是否改变了后续默认行为。论文评测 17 个模型后显示没有模型超过 66% 总体表现，并揭示抑制式学习远弱于偏好式学习，这对后续设计 agent 记忆、技能固化和安全规避机制都有直接参考价值。\n\n主要限制是 benchmark 规模只有 300 条，部分 priming 评测依赖 LLM judge，且它主要是诊断框架而非新的记忆架构。它能清晰指出当前模型的隐式记忆缺口，但还没有给出可部署的解决方案，因此定为突破而不是更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08064",
      "collected_at": "",
      "collection_order": 678,
      "source_url": "https://arxiv.org/pdf/2604.08064.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08064.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A179_Metis_MetaCognitive_Tool_Use",
      "slug": "a179-metis-metacognitive-tool-use",
      "detail_url": "papers/a179-metis-metacognitive-tool-use/",
      "title": "Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models",
      "summary": "这篇论文抓住了 agentic multimodal models 中一个越来越实际的问题：模型会盲目调用裁剪、搜索、代码或图像工具，即使问题可以直接从视觉上下文解决。工具滥用不仅增加延迟和成本，还会把无关噪声引入推理链；但简单给 tool penalty 又容易压制必要工具调用。\n\n作者提出 HDPO，把正确性和工具节制从一个 scalarized reward 拆成两个正交优化通道：accuracy channel 先最大化任务正确性，efficiency channel 只在 accurate trajectories 内做 conditional advantage estimation。这样工具效率不再和准确率直接争夺同一 reward 标量，而是在做对的前提下学习何时不用工具。\n\n它值得收录，因为它把 tool-use learning 的目标从“会调用工具”推进到“知道何时不调用工具”，这是 agent 系统走向低延迟、低噪声、可部署时必须解决的元认知能力。论文中的 Metis 在多模态工具任务上把工具调用率从接近默认调用降到极低，同时保持或提升准确率，对 multimodal agent RL 和工具治理都有复用价值。\n\n它不是更高一级，因为当前主要验证仍围绕特定多模态工具集合和 benchmark；HDPO 的稳定性、工具种类扩展、真实环境副作用和长期任务中的 abstention 风险还需要更多验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08545",
      "collected_at": "",
      "collection_order": 677,
      "source_url": "https://arxiv.org/pdf/2604.08545.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08545.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "治好 AI 工具依赖症！阿里 Metis 破解盲目调用，HDPO 实现极简推理",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "act wisely cultivating meta cognitive tool use in agentic multimodal models",
          "description": "阿里巴巴Accio团队针对多模态AI智能体领域，提出了Metis模型及其核心HDPO算法。该研究聚焦于解决大模型在简单任务中盲目调用外部工具导致的延迟与噪音问题，即“工具依赖症”。通过HDPO分层解耦策略，研究者成功分离了准确率与效率的奖励信号，克服了传统强化学习中信号干扰的数学难题。实验证明，Metis在维持极高准确率的同时，大幅精简了不必要的工具调用频率。这一成果让模型学会了根据任务难度自主决策，实现了更稳、更快的极简推理能力，为构建具有元认知能力的高效智能体提供了重要参考。",
          "x_post": "阿里巴巴 Accio 团队发布 Metis：利用 HDPO 算法解决多模态智能体工具滥用，实现极简推理。\n针对多模态大语言模型（MLLMs）在简单任务中盲目调用外部工具导致的效率低下与延迟问题，研究团队提出了分层解耦策略优化（HDPO）框架。该方法核心在于将准确率与效率的奖励信号进行数学解耦，克服了传统强化学习中高方差准确率信号对效率优化目标的干扰。实验验证显示，Metis 在保持高任务成功率的基础上，大幅削减了冗余工具调用次数。研究表明，通过解耦优化，智能体能够建立起元认知能力，在自主推理与外部辅助之间达成更优平衡。",
          "cover_url": "assets/covers/a179-metis-metacognitive-tool-use-5e1217c780.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-22T09:54:51+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A178_KnowU_Bench_Personal_Mobile_Agents",
      "slug": "a178-knowu-bench-personal-mobile-agents",
      "detail_url": "papers/a178-knowu-bench-personal-mobile-agents/",
      "title": "KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation",
      "summary": "这篇论文处理的是 mobile agent 从明确指令执行走向个人助理时的评测断层。现有 Android/GUI benchmark 多测试 agent 能否按清楚指令点击和跨 app 完成任务，但真实个人助理还必须从行为历史推断偏好、在信息不足时主动澄清、判断何时介入、何时征求同意、何时保持沉默。\n\nKnowU-Bench 在可复现 Android emulator 中构建 42 个通用 GUI 任务、86 个个性化任务和 64 个主动服务任务。它不直接暴露用户 profile，而只给行为日志，并用基于 profile 的 LLM user simulator 支持多轮偏好询问和 consent handling；评估则结合规则验证和 LLM-as-a-judge。\n\n它值得收录，因为它把 personalized/proactive agent 的评测目标从静态意图恢复推进到在线交互式能力链：偏好获取、GUI 执行、主动性校准、拒绝后的克制。实验显示强模型在明确任务上表现好，但在 vague personalized/proactive 条件下大幅跌落，说明当前瓶颈不只是 GUI navigation，而是个人化推理和介入校准。\n\n它不是更高一级，因为 user simulator 和 LLM judge 仍会影响结论，任务规模还处在早期 benchmark 水平；真实用户长期偏好、隐私边界和跨设备多环境中的主动行为风险尚未完全覆盖。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08455",
      "collected_at": "",
      "collection_order": 676,
      "source_url": "https://arxiv.org/pdf/2604.08455.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08455.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "浙大苹果腾讯联手发布KnowU-Bench：手机智能体告别盲目执行，实现192项跨应用主动交互",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "knowu bench towards interactive proactive and personalized mobile agent evaluation",
          "description": "浙江大学、Apple与腾讯联合团队针对手机智能体领域，发布了全新测评基准KnowU-Bench。针对现有智能体难以理解模糊指令、缺乏个性化互动的痛点，该框架构建了包含192项跨应用任务的Android模拟环境。核心创新在于“隐藏画像”机制，要求智能体通过自主询问或分析日志推断用户偏好，而非直接获取上帝视角下的答案。实验显示，即便顶尖模型在模糊任务下的成功率也会跌破50%。该研究为开发更懂用户、具备主动服务能力的数字助手提供了关键的技术评估工具与优化方向。",
          "x_post": "浙大、Apple与腾讯发布KnowU-Bench：通过192项跨应用任务评估手机智能体的主动交互与个性化能力。\n现有测评体系多关注GUI导航的确定性执行，忽视了智能体在模糊指令下获取用户偏好并校准主动决策边界的核心挑战。\n该基准构建了包含23款应用的Android模拟环境，核心引入“隐藏画像”机制，要求智能体通过多轮对话或分析历史日志动态推理用户意图。\n实验结果表明，即便如Claude 3.5 Sonnet等顶尖模型，在处理需偏好推理的模糊任务时，其成功率也会大幅跌破50%。\n研究指出，手机智能体的核心瓶颈已从界面操作转向认知层的意图共情，该基准为开发具备主动服务能力的数字助手提供了关键的评估工具。",
          "cover_url": "assets/covers/a178-knowu-bench-personal-mobile-agents-0ee1070850.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-07T16:01:02+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A177_ClawBench_Live_Web_Agents",
      "slug": "a177-clawbench-live-web-agents",
      "detail_url": "papers/a177-clawbench-live-web-agents/",
      "title": "ClawBench: Can AI Agents Complete Everyday Online Tasks?",
      "summary": "这篇论文关注 web/computer-use agent 评测的真实性问题。很多已有 benchmark 使用离线沙箱、静态页面或固定 DOM，虽然可复现性强，但远离真实网页里的登录、cookie、弹窗、动态内容、多表单填写、写操作和平台变化。ClawBench 把问题直接放到生产网站中的日常任务上。\n\nClawBench 构建了 153 个日常在线任务，覆盖 144 个真实平台和 15 类生活/工作场景，包括购物、预约、求职、办公、社交、娱乐、开发等。它强调 live-web execution、write-heavy tasks、五层记录和 agentic evaluator，以便把失败追踪到具体步骤，而不仅仅给出最终页是否匹配。\n\n它值得收录，因为它给当前 agent 能力评估提供了一个很有冲击力的现实校准：一些模型在 OSWorld/WebArena 等传统 benchmark 上能达到 65-75%，但在 ClawBench 上显著下滑，最强模型也只有约三分之一成功率。这种差距对仓库的 agent evaluation 主线很重要，说明受控 benchmark 成功不能直接等价于真实网页能力。\n\n它不是更高一级，主要因为 live-web benchmark 天然面临可复现性、网站变动、账号/支付/隐私安全和长期维护成本问题；尽管论文提供了评测管线，未来能否成为稳定社区标准仍取决于维护和版本治理。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08523",
      "collected_at": "",
      "collection_order": 675,
      "source_url": "https://arxiv.org/pdf/2604.08523.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08523.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "AI智能体离“替你打工”还有多远？ClawBench引入拦截技术，在生产环境实测模型极限",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "clawbench can ai agents complete everyday online tasks",
          "description": "由UBC、清华、CMU等机构联合推出的ClawBench，是首个针对AI智能体在真实网页端表现的评估基准。针对传统沙盒测试脱离现实的问题，该研究引入“终末精准拦截”技术，在不产生真实金钱支出的前提下，允许智能体在144个真实商业网站执行填表、订票等重度写入任务。实验显示，最强模型Claude Sonnet 4.6在处理日常任务时的成功率仅为33.3%，较传统指标出现断崖式下跌。这项工作揭示了通用助手与现实应用间的巨大鸿沟，为构建更可靠、能实操的AI工作流提供了实战化的评估基准。",
          "x_post": "UBC、清华与 CMU 联合发布 ClawBench：实测 AI 智能体在 144 个真实网站的重度写入成功率仅 33.3%\n传统 AI 评估多依赖简化沙盒，难以模拟真实互联网的验证码、动态渲染及多步交互防线。\nClawBench 引入“终末精准拦截”技术，通过 Chrome 插件在智能体提交最终请求前进行捕获，确保在 153 项真实在线任务中进行安全实测。\n实验数据显示，在处理购物、订票等重度写入型任务时，性能最优的 Claude Sonnet 4.6 成功率仅为 33.3%，而 GPT-5.4 为 6.5%。\n该研究量化了 AI 智能体与现实生产环境间的应用鸿沟，通过五层数据记录提供失败诊断，为开发高可靠性通用助手提供了基准。",
          "cover_url": "assets/covers/a177-clawbench-live-web-agents-bdfa74be4d.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-22T10:11:17+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A176_MolmoWeb_Open_Web_Agent",
      "slug": "a176-molmoweb-open-web-agent",
      "detail_url": "papers/a176-molmoweb-open-web-agent/",
      "title": "MolmoWeb: Open Visual Web Agent and Open Data for the Open Web",
      "summary": "这篇论文处理的是 web agent 研究中的开放性缺口：强 web agent 多依赖闭源模型、不可见训练数据和不透明 recipes，导致社区很难复现、分析和改进。对于会在开放网页上行动的 agent，仅有性能分数不够，训练数据、动作接口和评测 harness 的开放性本身就是研究基础设施。\n\nMolmoWeb 的核心贡献是同时发布数据混合物和模型路线。MolmoWebMix 组合 10 万级 synthetic browser trajectories、3 万多 human demonstrations、atomic web-skill trajectories 和 GUI perception 数据；MolmoWeb 则把 web agent 设计成基于截图的 instruction-conditioned visual-language action policy，不依赖 HTML、accessibility tree 或专用 API。\n\n它值得正式收录，因为这不是单个 benchmark 上的模型刷分，而是给开放视觉 web agent 提供了数据、模型、动作空间和评测 harness 的完整基础。4B/8B 模型在 WebVoyager、Online-Mind2Web、DeepShop 等 benchmark 上超越同规模 open-weight baselines，并展示了 parallel rollout + best-of-N 的测试时扩展收益，对 open web automation、GUI grounding 和 agent 评测都有长期参考价值。\n\n它不是更高一级，因为论文仍主要采用 SFT 和已有 benchmark 体系，真实开放网页的稳定性、安全性、登录态、反爬和长期任务表现还未充分证明；模型 release 的社区使用情况也需要时间检验。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08516",
      "collected_at": "",
      "collection_order": 674,
      "source_url": "https://arxiv.org/pdf/2604.08516.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08516.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "像人一样“看”图就能操作网页，Ai2 开源智能体以 78.2% 胜率超越 GPT-4o",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "molmoweb open visual web agent and open data for the open web",
          "description": "由Allen研究所（Ai2）开发的MolmoWeb是一系列全开源视觉网络智能体。针对当前智能体依赖复杂代码导致易崩溃、Token成本高且模型不透明的困境，该团队提出了纯视觉交互方案。MolmoWeb仅通过观察网页截图即可精准预测点击、输入和滚动，无需读取底层DOM代码。实验显示，仅8B参数的模型在WebVoyager测试中以78.2%的胜率超越了闭源的GPT-4o，在视觉锚定精准度上亦优于Claude 3.7。该项目通过开源10万级数据集与模型权重，让网页自动化操作变得更稳、更准、更省，为构建透明高效的通用网络助手奠定了基础。",
          "x_post": "Ai2发布MolmoWeb：8B参数开源纯视觉智能体在WebVoyager获78.2%胜率超越GPT-4o\n\n针对传统Web智能体依赖复杂DOM代码导致的高成本与易崩溃问题，Allen研究所（Ai2）推出纯视觉交互方案 MolmoWeb。该模型不读取底层代码，仅通过网页截图精准预测点击、输入及滚动等操作，显著降低了Token消耗并提升了交互鲁棒性。\n\n实验数据显示，MolmoWeb-8B 在 WebVoyager 任务中表现优于闭源的 GPT-4o；引入测试时计算扩展（Best-of-4）后，任务胜率可进一步提升至 94.7%。此外，其在 ScreenSpot v2 视觉锚定评测中获得 91.8 分，定位精准度超越了 Claude 3.7（87.6%）与 OpenAI CUA（87.9%）。\n\n目前，Ai2 已完全开源模型权重、训练代码及包含 10 万级轨迹的 MolmoWebMix 数据集。这一工作证明了中等规模开源模型在复杂网页自动化任务中具备替代闭源系统的潜力，为构建透明、高效的通用网络助手奠定了基础。",
          "cover_url": "assets/covers/a176-molmoweb-open-web-agent-6e84684ea7.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-22T16:32:16+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A175_Web_Agent_Distillation",
      "slug": "a175-web-agent-distillation",
      "detail_url": "papers/a175-web-agent-distillation/",
      "title": "Structured Distillation of Web Agent Capabilities Enables Generalization",
      "summary": "这篇论文瞄准 web agent 的部署落差：前沿闭源模型可以操作复杂网站，但成本、隐私和第三方 API 依赖让本地部署困难；小型开源模型又缺少足够的 web interaction 能力。问题不只是生成更多轨迹，而是如何把 web agent 的任务设计、执行和监督过程结构化为可复用的蒸馏流水线。\n\n作者提出 Agent-as-Annotators，把人类创建 WebArena 任务时的 Task Designer、Annotator、Supervisor 三个角色替换为模块化 LLM 组件：persona/task generator 设计任务和 evaluation hints，teacher agent 执行轨迹，judge 过滤成功样本。用 Gemini 3 Pro 生成并过滤 2322 条成功轨迹后，对 9B student 做纯 SFT。\n\n这篇值得收录，因为它把 web agent 能力蒸馏从经验性合成数据扩展成清晰角色分工的 annotation framework，并给出很强的跨环境证据：9B 学生在 WebArena 达到 41.5%，超过同协议下 GPT-4o 和 Claude 3.5 Sonnet，并在未见过的 WorkArena 等环境获得明显迁移提升。它对本地化 agent、隐私友好 web automation 和合成轨迹生成都有直接参考价值。\n\n它不是更高一级，因为当前仍高度依赖单个 frontier teacher、WebArena 风格环境和自动 judge 过滤；是否能泛化到长尾真实网站、登录态任务、抗干扰 UI 和安全约束下，还需要更多独立验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.07776",
      "collected_at": "",
      "collection_order": 673,
      "source_url": "https://arxiv.org/pdf/2604.07776.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.07776.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "网页导航性能反超 GPT-4o：Mila 实验室利用结构化蒸馏让 9B 小模型刷新 WebArena 纪录",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "structured distillation of web agent capabilities enables generalization",
          "description": "Mila实验室与麦吉尔大学针对本地开源小模型在复杂网页导航任务中能力孱弱的问题，提出了AGENT-AS-ANNOTATORS框架。该方法通过模拟人类的任务设计、执行与监督角色，利用高级模型自动化生成高质量合成数据。实验证明，仅需2322条结构化轨迹，9B规模模型在WebArena基准测试中的成功率便提升至41.5%，超越了GPT-4o及Claude 3.5等闭源大模型。该研究为实现低成本、高隐私保护的本地高性能智能体部署提供了系统性方案，证明了高质量合成数据在模型能力蒸馏中的决定性作用。",
          "x_post": "Mila与麦吉尔大学发布AGENT-AS-ANNOTATORS：9B模型WebArena成功率41.5%超越GPT-4o\n针对本地开源模型在复杂网页导航中能力不足的问题，研究团队提出了结构化蒸馏框架。\n该方法通过模拟“任务设计者、执行者、监督者”三种人类标注角色，利用Gemini教师模型自动化生成高质量合成轨迹。\n实验证明，仅依靠2,322条经过严格筛选的结构化数据，9B规模模型在WebArena基准上的表现显著优于GPT-4o (31.5%) 与Claude 3.5 Sonnet (36.0%)。\n研究表明，合成数据的角色化设计与严格过滤对智能体泛化性能的影响远超单纯的数据规模增长。\n该工作为实现低成本、高隐私保护的本地高性能Web智能体部署提供了系统化的技术方案。",
          "cover_url": "assets/covers/a175-web-agent-distillation-9589e07e64.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-07T15:57:40+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A173_SkillClaw_Collective_Skill_Evolution",
      "slug": "a173-skillclaw-collective-skill-evolution",
      "detail_url": "papers/a173-skillclaw-collective-skill-evolution/",
      "title": "SkillClaw: Let Skills Evolve Collectively with Agentic Evolver",
      "summary": "这篇论文处理的是 skill-enabled agent 系统的一个真实瓶颈：OpenClaw 这类 agent 可以安装和调用大量可复用 skill，但部署后的 skill 往往是静态资产。不同用户会在相似工具链、相似工作流和相似失败模式上反复踩坑，单次会话中发现的修复很少能沉淀成共享能力，导致系统层面的经验无法累积。\n\nSkillClaw 的核心贡献是把 skill 更新从单用户局部修补推进到集体演化闭环。系统记录跨用户交互轨迹，包括 prompt、工具调用、环境反馈、错误和最终响应；再按引用的 skill 分组，形成带因果链的共享证据库；agentic evolver 对成功和失败轨迹做开放式诊断，选择 refine、create 或 skip，并把候选 skill 更新经真实环境验证后同步回共享 skill repository。\n\n它值得正式收录，因为它直接命中仓库的 agent memory、capability acquisition 和 skill systems 主线。相比已有的单 agent skill discovery 或本地 trace repair，SkillClaw 明确提出了多用户 skill ecosystem 的演化机制：普通使用产生证据，夜间 evolver 生成更新，validator 过滤后全局分发。这是一个有工程可复用性的系统模式，也为 agent skill marketplace 如何持续改进提供了清晰蓝图。\n\n它目前仍只是 breakthrough，而不是更高一级。论文标注为 work in progress，实验是 8 个模拟用户、6 轮 day-night evolution、WildClawBench 中 4 类任务，并且主要由 Qwen3-Max 同时承担执行、演化和验证。结果显示社交、检索、创意和安全任务均有提升，但跨平台可迁移性、真实多用户部署中的噪声、恶意轨迹污染、验证成本和版本治理仍缺少充分证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-09",
      "doi": "",
      "arxiv_id": "2604.08377",
      "collected_at": "",
      "collection_order": 672,
      "source_url": "https://arxiv.org/pdf/2604.08377.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08377.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "像人类一样在实践中变聪明，SkillClaw 实现昼夜全自动进化，让多用户 Agent 技能集体持续更新",
          "url": "https://www.bilibili.com/video/BV1Mvo4BYEQZ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Mvo4BYEQZ",
            "https://youtu.be/0jTztGFXAFs"
          ],
          "main_collection": "AI递归自我进化",
          "match": "skillclaw let skills evolve collectively with agentic evolver",
          "description": "DreamX团队在智能体领域推出SkillClaw框架，旨在解决传统智能体技能静态、无法跨会话学习且在不同用户间重复犯错的痛点。该框架通过Agentic Evolver核心，白天静默收集多用户真实交互轨迹并提取证据，夜晚自动进行归因诊断与技能代码迭代。实验表明，SkillClaw在WildClawBench严苛环境验证下，显著增强了智能体处理复杂任务的鲁棒性与效率，确保技能更新性能单调递增。该研究打破了知识孤岛，实现了跨用户的经验积累，让AI系统能在实践中像人类一样持续进化并变聪明。",
          "x_post": "DreamX团队发布SkillClaw框架，实现多用户Agent技能的集体自动化演化\n针对当前大模型智能体部署后技能静态、在不同用户间重复犯错的局限性，SkillClaw 提出了一种基于 Agentic Evolver 的群智进化范式。系统采用“日间静默收集轨迹，夜间闭环迭代”模式，通过分析用户交互中的 Action-Feedback 因果链条，自主优化或新建技能代码。在包含多模态执行与硬性约束的 WildClawBench 评测中，该框架通过严苛的自动化验证机制，确保技能更新在修复已知缺陷的同时维持系统稳定性。实验证明，该闭环演化机制能实现智能体性能的单调递增，有效打破了跨会话的知识孤岛。",
          "cover_url": "assets/covers/a173-skillclaw-collective-skill-evolution-3d2653e718.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-22T12:54:11+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T26_Quantum_Oracle_Sketching",
      "slug": "t26-quantum-oracle-sketching",
      "detail_url": "papers/t26-quantum-oracle-sketching/",
      "title": "Exponential quantum advantage in processing massive classical data",
      "summary": "这篇论文针对量子机器学习长期存在的两个根本瓶颈：经典大数据如何装入量子态，以及量子态结果如何读出成有用模型。传统 QML 往往需要 QRAM 或强复杂性假设，导致对实际经典数据处理的量子优势一直缺乏坚实依据。\n\n作者提出 quantum oracle sketching，让量子计算机在流式经典样本到达时即时构造相干查询，而不是先把完整数据存入 QRAM；再结合 classical shadows / interferometric readout，从量子态中提取可用于 SVM、PCA 等任务的紧凑经典模型。理论上，该方法给出小型量子计算机处理海量经典数据的指数级空间优势。\n\n它值得收录，因为它为 AI/ML 数据处理中的量子优势提供了罕见的无条件理论结果：优势不依赖 BPP/BQP 分离等未证明复杂性猜想，而主要依赖量子力学本身。论文还在单细胞 RNA 和 IMDb 情感数据上做数值验证，显示少于 60 个逻辑量子比特可带来 4-6 个数量级的内存缩减。\n\n它不是更高一级，因为这仍是容错量子时代的理论/模拟结果，实际硬件端到端验证尚未出现；时间复杂度、逻辑量子比特实现成本、误差校正和真实机器学习流水线集成仍是主要落地障碍。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-08",
      "doi": "",
      "arxiv_id": "2604.07639",
      "collected_at": "",
      "collection_order": 671,
      "source_url": "https://arxiv.org/pdf/2604.07639.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.07639.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R50_MARS_Multi_Token_Generation",
      "slug": "r50-mars-multi-token-generation",
      "detail_url": "papers/r50-mars-multi-token-generation/",
      "title": "MARS: Enabling Autoregressive Models Multi-Token Generation",
      "summary": "标准自回归语言模型哪怕在连续 token 已经高度可预测时，仍然一次只生成一个 token，这使得高吞吐推理长期受限在非常保守的 decoding interface 上。多 token generation 因此一直重要，但很多方案需要附加 draft model、额外 heads，或者直接改底层架构。\n\nMARS 的关键价值在于，它用 continued training 直接把 instruction-tuned AR 模型变成可做 multi-token generation 的模型，不改架构、不加参数，也不引入第二个草稿模型。除了训练目标本身，工作还给出了 block-level KV caching 和 confidence thresholding，让 serving 侧可以在保持基线精度的同时把吞吐提升到 1.5 到 1.7 倍，并按负载动态调节速度。\n\n它值得正式收录，因为这不是又一个 narrow decoding trick，而是对 autoregressive serving interface 的低摩擦重写：保留原模型调用方式，却打开多 token generation 和实时 latency-quality knob。这对 inference systems、deployment-time optimization 和后续 AR model serving pattern 都有明显外溢。\n\n它暂时不升到更高一级，原因在于当前收益仍主要表现为部署与吞吐改进，尚未证明会像 speculative decoding 或更深层接口重写那样全面改变 autoregressive model 的默认训练与部署范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-08",
      "doi": "",
      "arxiv_id": "2604.07023",
      "collected_at": "",
      "collection_order": 670,
      "source_url": "https://arxiv.org/pdf/2604.07023.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.07023.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM48_OpenSpatial_Data_Engine",
      "slug": "mm48-openspatial-data-engine",
      "detail_url": "papers/mm48-openspatial-data-engine/",
      "title": "OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence",
      "summary": "这篇论文聚焦多模态模型的空间智能数据问题。很多现有空间任务数据集是单点式构造，覆盖特定任务或封闭 pipeline，导致模型很难系统学习距离、相对位置、多视角一致性和场景级空间推理。\n\nOpenSpatial 把 3D bounding box 作为核心原语，构建了一个可扩展数据生成引擎，并围绕 Spatial Measurement、Spatial Relationship、Camera Perception、Multi-view Consistency 和 Scene-Aware Reasoning 五类任务组织数据层级。基于该引擎，作者生成 OpenSpatial-3M，并给出数据规模、任务组合和来源扩展对空间性能的系统分析。\n\n它值得收录，因为它不是单个空间 benchmark，而是一个面向空间智能的开放数据生产工作流。论文展示用该数据训练的模型能在多个空间推理 benchmark 上取得平均约 19% 相对提升，并强调从静态数据集转向可持续数据引擎，这与仓库关注的可复用数据/评测基础设施一致。\n\n主要限制是贡献重心在数据工程和合成 pipeline，模型方法本身不新；数据质量仍依赖 3D lifting、标注模板和任务设计的正确性。它是强基础设施型突破，但尚不足以称为空间智能范式改变。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-08",
      "doi": "",
      "arxiv_id": "2604.07296",
      "collected_at": "",
      "collection_order": 669,
      "source_url": "https://arxiv.org/pdf/2604.07296.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.07296.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM45_INSPATIO_WORLD_4D_Simulator",
      "slug": "mm45-inspatio-world-4d-simulator",
      "detail_url": "papers/mm45-inspatio-world-4d-simulator/",
      "title": "INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling",
      "summary": "world simulator 的一个长期难点，是既要保住 spatial consistency，又要支持真实可交互的长时导航。很多视频生成方案能做短片段外观，但一到可导航、可交互、长时一致的动态场景，就会在几何结构和时空持久性上迅速失真。\n\nINSPATIO-WORLD 的推进在于把这一问题做成 real-time 4D simulator：用 STAR 架构把时空自回归建模接到 interactive scene generation 上，并用 implicit spatiotemporal cache 维护全局一致的 latent world representation，再用 explicit spatial constraint module 把用户交互翻译成几何上合理的 camera trajectory。再加上 JDMD，用真实分布正则 synthetic-heavy training。\n\n它值得正式收录，因为这不是普通视频生成，而是把 monocular reference video 变成可导航的 4D world simulation pipeline。对 world models、interactive scene generation 和未来 embodied simulation，这条路线有明显方法外溢。\n\n它暂时不升到更高一级，原因在于当前主线仍偏视觉世界模拟，是否能外溢成更通用的 embodied/world-model interface 还需要后续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-08",
      "doi": "",
      "arxiv_id": "2604.07209",
      "collected_at": "",
      "collection_order": 668,
      "source_url": "https://arxiv.org/pdf/2604.07209.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.07209.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G7_Sol_RL_Diffusion_Rollout_Scaling",
      "slug": "g7-sol-rl-diffusion-rollout-scaling",
      "detail_url": "papers/g7-sol-rl-diffusion-rollout-scaling/",
      "title": "FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling",
      "summary": "这篇工作针对 text-to-image diffusion model 的 RL 后训练提出了一个很具体但现实的瓶颈：随着 rollout group size 增大，偏好对齐效果会继续上涨，但在 FLUX.1-12B 这类大模型上直接扩大 rollout 会迅速被算力和吞吐拖死。问题不在于 RL 本身是否有效，而在于现有 pipeline 缺少一种能把大规模探索成本压下去的训练组织方式。\n\n论文提出 Sol-RL，把 rollout exploration 和 policy optimization 显式拆成两段：先用高吞吐的 NVFP4 rollout 生成大规模候选池，再从中筛出高对比样本，用 BF16 重新生成并只在这些高保真样本上做优化。关键点不只是量化加速，而是把低精度探索和高精度训练组合成一个两阶段框架，用算法上的 sample selection 去抵消直接量化训练带来的退化风险。\n\n它值得正式收录，因为这不是一个孤立的 diffusion 调参技巧，而是一条可复用的 post-training workflow：把 massive rollout scaling、低精度探索和高保真优化拼成统一训练接口。对生成模型后训练、偏好对齐和算法-硬件协同设计都有明显外溢，符合仓库对 generative modeling 与系统化训练流程的重点方向。\n\n目前它还没有到更高一级，主要因为验证范围仍集中在 diffusion RL for T2I alignment，外溢虽强但尚未证明会成为跨生成范式的长期标准。它更像一篇非常扎实的强方法和强流程论文，而不是已经改写整个后训练版图的 paradigm/disruptive 级工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-04-08",
      "doi": "",
      "arxiv_id": "2604.06916",
      "collected_at": "",
      "collection_order": 667,
      "source_url": "https://arxiv.org/pdf/2604.06916.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.06916.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO32_Regulatory_Syntax_Development",
      "slug": "bio32-regulatory-syntax-development",
      "detail_url": "papers/bio32-regulatory-syntax-development/",
      "title": "Multiomics and deep learning dissect regulatory syntax in human development",
      "summary": "理解人类发育过程中顺式调控元件如何工作，长期受限于数据粒度和建模接口两端都不够完整。一方面，发育期单细胞层面的染色质开放性与基因表达图谱长期碎片化，难以支撑跨器官、跨细胞类型的统一比较；另一方面，很多序列模型虽然能做局部预测，却难以把 motif 组合规则、协同约束和变异效应解释组织成真正可复用的 regulatory syntax 资源。\n\n这篇工作的核心不只是做了一个大 atlas，而是把单细胞 multiomics 与 sequence-to-accessibility deep learning 接成了一条完整的建模链路。作者构建了覆盖 12 个器官、81.7 万 fetal cells 的 Human Development Multiomic Atlas，并训练从局部 DNA 序列预测可及性的深度学习模型，用来系统解析影响 accessibility 的 motif 词汇表、复合 motif 的 spacing/orientation 约束，以及正负调控规则对基因表达的影响。模型解释层进一步把 variant disruption 与 gene-expression effect 对齐，使其不止是黑盒预测器。\n\n这篇论文值得正式收录，因为它把 AI 在发育基因调控中的角色从“辅助做一个序列分类器”推进到“建立可查询、可解释、可迁移的 regulatory syntax layer”。对仓库来说，真正有价值的不是又一个 genomics benchmark，而是这种把多组学资源、序列建模、规则抽取和变异解释连接起来的 durable modeling interface。它对发育生物学、疾病变异解释、增强子逻辑研究和后续 foundation-style regulatory modeling 都有明显外溢。\n\n它暂时不升到更高一级，因为当前重点仍集中在 human development 语境下的 cis-regulatory logic 解析，还没有进一步走到更通用的跨物种 regulatory foundation model、实验闭环设计平台或端到端干预优化 workflow。它非常强，但更像一层高价值基础建模与资源平台，而不是已经重排整个 AI-for-biology 工作流的范式级系统。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-08",
      "doi": "10.1038/s41586-026-10326-9",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 666,
      "source_url": "https://www.nature.com/articles/s41586-026-10326-9",
      "paper_url": "https://www.nature.com/articles/s41586-026-10326-9",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "斯坦福联手伯克利破解生命源代码：AI 深度学习 81 万单细胞，揭秘 12 大器官发育逻辑",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "multiomics and deep learning dissect regulatory syntax in human development",
          "description": "斯坦福大学与加州大学伯克利分校等团队在《Nature》发布了人类发育多组学图谱（HDMA）。针对同源细胞如何分化为不同器官的生物学难题，研究利用SHARE-seq技术同步测绘了12个器官、81万个单细胞的基因表达与染色质状态，并引入深度学习模型ChromBPNet破解DNA序列背后的“逻辑语法”。实验成功识别逾百万个调控元件，揭示了转录因子驱动细胞身份的精确间距与排列规则。该研究将复杂的生命发育过程数字化，不仅极大提升了对细胞命运决定的认知精度，也为理解人类发育疾病及非编码基因变异提供了关键的底层导航。",
          "x_post": "斯坦福与伯克利团队发布人类发育多组学图谱（HDMA），利用 AI 破解 81 万单细胞及百万调控元件的序列语法。\n\n针对同源细胞分化为不同器官的调控机制，研究人员采用 SHARE-seq 技术同步测绘了 12 个胎儿器官的基因表达与染色质可及性。通过引入 ChromBPNet 深度学习模型，研究从 DNA 序列中识别出超 100 万个调控元件，并揭示了驱动细胞特异性的“基序语法”，包括转录因子间的精确间距限制与灵活排列规则。数据进一步定位了 NR2F2 等占据核心调控资源的枢纽基因，为预测人类发育疾病中的非编码基因变异提供了关键的底层逻辑。该研究系统性地解码了人类发育的顺式调控逻辑，将复杂的生命发育过程转化为可计算的数字化资源。",
          "cover_url": "assets/covers/bio32-regulatory-syntax-development-bc89a70082.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-21T21:41:06+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A166_TraceSafe_Trajectory_Guardrails",
      "slug": "a166-tracesafe-trajectory-guardrails",
      "detail_url": "papers/a166-tracesafe-trajectory-guardrails/",
      "title": "TraceSafe: A Systematic Assessment of LLM Guardrails on Multi-Step Tool-Calling Trajectories",
      "summary": "这篇论文瞄准的是一个在 agent systems 里越来越关键但之前缺少系统评测的问题：随着 LLM 从聊天接口转向多步 tool-calling execution，真正的风险表面已经从最终自然语言输出转移到中间执行轨迹，但大多数 guardrail 评测仍停留在 final-response safety。结果是很多看起来“安全”的系统，在真实工具轨迹里仍可能暴露 prompt injection、隐私泄漏、幻觉传染和接口状态错配等风险。\n\nTraceSafe 的核心贡献不是再造一个单点防御器，而是提出面向 mid-trajectory safety 的系统 benchmark。论文构建了 TraceSafe-Bench，覆盖 12 类风险、超过 1000 个执行实例，并统一评测 13 个 LLM-as-a-guard 模型与 7 类专用 guardrails。它把 safety 问题从“最后一句话是否违规”改写成“执行过程中每一步是否仍可控、可审计、可拦截”，这对 tool-use agents 的评测接口有明显外溢。\n\n这篇应收进仓库，因为它补的是 governed execution 主线里此前相对缺口的一层：trajectory-level safety evaluation。相比只做 policy、runtime enforcement 或 static verification，TraceSafe 让我们能系统比较 guardrails 在多步真实工具调用中的结构性瓶颈，适合作为后续 agent safety、tool risk mitigation、trajectory diagnosis 和 deployment review 的基础参考。\n\n这篇目前仍是 arXiv 预印本，主要价值在 benchmark 与系统性评测，而不是提出一个已经被广泛验证的新 guardrail 标准栈。它更像一个非常强的 evaluation interface 和 failure-surface clarifier，还没有达到范式级改写，因此先定为 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-08",
      "doi": "",
      "arxiv_id": "2604.07223",
      "collected_at": "",
      "collection_order": 665,
      "source_url": "https://arxiv.org/pdf/2604.07223.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.07223.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL52_Target_Policy_Optimization",
      "slug": "rl52-target-policy-optimization",
      "detail_url": "papers/rl52-target-policy-optimization/",
      "title": "Target Policy Optimization",
      "summary": "问题与背景：PPO/GRPO 一类 policy-gradient 方法把“应该提高哪些 completion 的概率”和“参数如何移动”耦合在同一个梯度更新里，容易受学习率、clip 和优化器细节影响，尤其在 sparse reward 下不稳定。\n\n方法与新意：TPO 先由旧策略概率和 reward 构造目标分布，再用 cross-entropy 拟合当前策略，使 sampled-completion logits 上的梯度变成 pθ - q。它把策略改进目标显式化，减少过冲或欠冲。\n\n收录意义：这篇是 RLVR/post-training 方向的可复用优化 primitive。它提供的不是新 benchmark，而是更清楚的策略更新分解，对高方差 sparse reward、组内采样和 reasoning RL 训练有直接方法价值。\n\n局限：是否能在更大模型、更复杂 reward pipeline 和长周期训练中稳定优于强 PPO/GRPO 实现，还需要更多开源复现和系统级消融。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.06159",
      "collected_at": "",
      "collection_order": 664,
      "source_url": "https://arxiv.org/pdf/2604.06159.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.06159.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL37_MARL_GPT_Foundation",
      "slug": "rl37-marl-gpt-foundation",
      "detail_url": "papers/rl37-marl-gpt-foundation/",
      "title": "MARL-GPT: Foundation Model for Multi-Agent Reinforcement Learning",
      "summary": "多智能体强化学习长期受困于任务定制化：不同环境往往需要不同网络、不同输入工程和不同训练套路，这使跨领域复用和预训练几乎无从谈起。相比自然语言领域已经形成的 foundation model 路线，MARL 仍高度碎片化。\n\nMARL-GPT 的关键贡献是提出统一的观察编码和离线训练范式，用一个 GPT 风格模型同时处理 SMACv2、GRF 和 POGEMA 等结构完全不同的多智能体环境。它通过通用的特征/智能体/队伍/时间步嵌入对观测做 token 化，再结合大规模专家轨迹上的离线 RL 与模仿学习，实现单模型跨任务表现。\n\n它值得正式收录，因为它给 MARL 提供了“基础模型化”的清晰入口：统一编码、统一 backbone、跨环境联合训练，而不是继续在每个 benchmark 上单独造模型。这条线对 multi-agent control、offline RL 和 sim-to-real 都有较高系统外溢价值。\n\n它暂时不升到更高一级，原因在于当前仍依赖结构化向量观测和强专家数据，真正意义上的跨环境常识迁移、像素级感知和冷启动能力还没有被证明。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.05943",
      "collected_at": "",
      "collection_order": 663,
      "source_url": "https://arxiv.org/pdf/2604.05943.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.05943.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R56_Master_Key_Capability_Transfer",
      "slug": "r56-master-key-capability-transfer",
      "detail_url": "papers/r56-master-key-capability-transfer/",
      "title": "The Master Key Hypothesis: Unlocking Cross-Model Capability Transfer via Linear Subspace Alignment",
      "summary": "这篇论文关注一个对后训练和模型控制都很关键的问题：模型通过指令微调或推理训练获得的行为，是否可以在不重新训练目标模型的情况下迁移到另一个模型。作者提出 Master Key Hypothesis，认为能力可以表示为低维潜在子空间中的方向，并能通过线性子空间对齐跨模型映射。\n\n方法上，Unlock 先用同一家族或相关模型中的 capability-present / capability-absent 变体做激活对比，提取能力方向，再用低秩线性变换把该方向映射到目标模型表示空间，最后在推理时作为 normalized activation intervention 注入。整个流程不需要标签、不需要梯度训练，主要依赖前向激活和线性对齐。\n\n它值得收录，因为它把 steering vector 从风格/安全控制推进到能力迁移问题，并给出了一个可复用的训练外能力注入接口。论文在 CoT、GSM8K、MATH、SVAMP 等推理行为上展示了跨尺度迁移收益，尤其说明部分后训练收益可能来自对已有潜在能力的可达性重塑，而不一定是全新能力写入。\n\n主要限制是证据仍集中在推理行为和相对可控的模型家族/规模迁移上，Master Key 还更像一个强假设而非已被广泛验证的定律。它目前不能替代系统性后训练，也没有充分证明复杂多能力组合、跨架构迁移和长期副作用，因此定为突破而不是颠覆。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.06377",
      "collected_at": "",
      "collection_order": 662,
      "source_url": "https://arxiv.org/pdf/2604.06377.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.06377.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R54_PTE_Tool_Integrated_Reasoning",
      "slug": "r54-pte-tool-integrated-reasoning",
      "detail_url": "papers/r54-pte-tool-integrated-reasoning/",
      "title": "Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning",
      "summary": "这篇论文针对 tool-integrated reasoning 的一个实际部署盲点：只看正确率、token 数或 tool call 数，并不能解释真实延迟和成本。工具调用会打断 LLM 请求、导致 KV cache eviction 和 prefill 重算；工具返回的长文本还会持续膨胀上下文，使后续 decode 变慢。\n\n作者提出 PTE（Prefill Token Equivalents），用一个硬件感知指标把内部推理 token、外部工具调用、不可复用 KV cache、长工具返回带来的额外 prefill/decode 成本统一到同一效率单位中。论文在高并发工业场景中验证 PTE 与 wall-clock latency 的相关性显著优于普通 token count，并在多个 TIR benchmark 上归纳出典型低效模式。\n\n它值得收录，因为它把 agent/tool-use 评估从“模型是否会用工具”推进到“工具使用是否在硬件和服务系统中真的划算”。这一点对仓库的 agent evaluation、tool orchestration 和 inference-control 主线很重要：很多看似更强的长链工具推理，在服务端可能因为 cache eviction 和长返回而变成低吞吐路径。\n\n它不是更高一级，因为 PTE 仍是度量与诊断框架，不直接给出新的 agent 学习算法；不同 serving stack、KV cache 策略、工具响应格式和并发调度策略下的参数化成本模型还需要更多系统级复验。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.05404",
      "collected_at": "",
      "collection_order": 661,
      "source_url": "https://arxiv.org/pdf/2604.05404.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.05404.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R51_RAGEN2_Reasoning_Collapse",
      "slug": "r51-ragen2-reasoning-collapse",
      "detail_url": "papers/r51-ragen2-reasoning-collapse/",
      "title": "RAGEN-2: Reasoning Collapse in Agentic RL",
      "summary": "agentic RL 里最危险的问题之一不是 reward 直接崩掉，而是模型在多轮轨迹中逐渐学会对不同输入套用同一类 reasoning template。传统上很多工作用 entropy 监控训练稳定性，但 entropy 只能衡量同一输入内的多样性，完全可能把“看起来有变化、实际上不看输入”的 collapse 漏掉。\n\nRAGEN-2 的推进在于把 reasoning quality 明确拆成 within-input diversity 和 cross-input distinguishability，并用 mutual information 及其代理指标诊断 template collapse；同时给出一个清晰机制解释：当 reward variance 太低时，任务梯度被 regularization 压过去，输入相关的 reasoning 差异就会被抹平。对应方法是 SNR-aware filtering，用 reward variance 作为轻量 proxy 挑出高信号 prompt。\n\n它值得正式收录，因为这类 work 不只是又提一个 agentic RL trick，而是在定义和诊断一个此前被主流指标忽略的 failure mode。对 reasoning RL、agent training stability、online diagnosis 和 reward shaping，这种更准确的 collapse lens 有持久方法价值。\n\n它暂时不升到更高一级，原因在于 mutual-information proxies 和 SNR filtering 的普适性还需要更多模型家族与更长训练周期验证；目前它更像很强的诊断与改进框架，而不是彻底定型的统一理论。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.06268",
      "collected_at": "",
      "collection_order": 660,
      "source_url": "https://arxiv.org/pdf/2604.06268.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.06268.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R43_In_Place_TTT",
      "slug": "r43-in-place-ttt",
      "detail_url": "papers/r43-in-place-ttt/",
      "title": "In-Place Test-Time Training",
      "summary": "大语言模型仍基本停留在“训练完成后静态部署”的范式，这使它们很难在推理时随着上下文流持续适应。测试时训练本来是解决这类问题的理想方向，但过去方法往往需要重构 Transformer 架构、逐 token 更新导致吞吐量差，或者使用与自回归语言建模并不对齐的重构目标。\n\n这篇工作的核心是 In-Place TTT：不引入新层，而是把标准 MLP 的最终投影矩阵原地转成可更新的快速权重，再用与 next-token prediction 对齐的目标函数驱动其更新。配合大分块 chunk-wise 更新和上下文并行，它既保留了注意力层处理细粒度 token 交互的能力，也把传统 TTT 的串行瓶颈显著压低。\n\n它值得正式收录，因为它改变了 TTT 在 LLM 里的工程入口：不再要求从头训练专门架构，而是为现有开源模型提供了低侵入升级路径。这对长上下文、持续适应和部署后学习都有明显方法外溢，不只是一个局部 benchmark 改进。\n\n它暂时不升到更高一级，原因在于当前证据仍主要集中在自回归文本模型和长上下文评测上。是否能成为更广义测试时学习的默认接口，还需要更多跨任务、跨模态和后续采用来确认。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.06169",
      "collected_at": "",
      "collection_order": 659,
      "source_url": "https://arxiv.org/pdf/2604.06169.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.06169.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R42_ALTO_LoRA_Orchestration",
      "slug": "r42-alto-lora-orchestration",
      "detail_url": "papers/r42-alto-lora-orchestration/",
      "title": "ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads",
      "summary": "LoRA 已经成为参数高效微调的默认路径，但真实生产里最大的瓶颈往往不是单个 adapter 怎么训，而是海量 LoRA 配置在共享 GPU 集群里的联合调参与调度。现有系统基本把每个 LoRA job 当成独立训练任务处理，这会导致弱配置长期占卡、共享 frozen backbone 的机会被浪费、而多租户集群的空闲能力也很难被真正回收。\n\nALTO 的新意在于把 heterogeneous LoRA tuning workload 视作一个联合 orchestration 问题来做。系统一边监控 loss trajectory 提前终止弱配置，一边借助 fused grouped GEMM 和新的 rank-local adapter parallelism 把幸存 adapter 更紧密地并置在共享 backbone 上，同时结合 intra-task 和 inter-task scheduling 利用 LoRA 任务时长更可预测这一特征做跨任务放置优化。整体上，它把 LoRA tuning 从“很多小训练任务”提升成“共享主干上的联合资源调度问题”。\n\n这篇值得入库，因为它明显超出了小技巧或局部 ablation 的范围。对本仓库关心的 PEFT、deployment-time specialization 和训练系统工作流来说，ALTO 提供的是可复用的 orchestration pattern：如何在共享 backbone 前提下把 adapter tuning、早停、并置和调度合成一个系统级优化目标。这种系统设计会影响后续 LoRA 工具链和多租户 PEFT 平台。\n\n局限在于它仍主要服务于 LoRA training cluster 这一特定场景，收益强依赖共享 backbone 与多任务并发条件，也还停留在 arXiv 预印本阶段。它是很强的系统 paper，但不构成更高层级的方法范式改写，因此定为 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.05426",
      "collected_at": "",
      "collection_order": 658,
      "source_url": "https://arxiv.org/pdf/2604.05426v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.05426v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "I16_Reasoning_Trajectory_Geometry",
      "slug": "i16-reasoning-trajectory-geometry",
      "detail_url": "papers/i16-reasoning-trajectory-geometry/",
      "title": "LLM Reasoning as Trajectories: Step-Specific Representation Geometry and Correctness Signals",
      "summary": "虽然思维链推理已经成为 LLM 的核心能力之一，但我们对模型内部究竟如何跨步骤组织和纠偏，仍主要停留在静态表示或单点探针层面。真正缺的不是又一个“某层有什么信号”的观察，而是对整段推理过程作为动态轨迹的描述。\n\n这篇工作把多步推理明确刻画成表示空间中的结构化轨迹，发现不同推理步骤会穿过功能有序的子空间，而且正确与错误解答在后期轨迹上会系统分叉。基于这一点，作者进一步做出了中期正确性预测器，以及只在轨迹偏离时触发的 trajectory-based steering，用于纠错和控制推理长度。\n\n它值得正式收录，因为它把 interpretability、预测和干预接到了同一个几何接口上：不仅能解释 LLM 在推理时“走到了哪里”，还能据此判断是否即将出错，并在推理期做局部引导。这对 reasoning control、test-time intervention 和 mechanistic analysis 都有明确复用价值。\n\n它暂时不升到更高一级，原因在于当前实验主要集中在数学任务和有限模型家族上，而且“理想轨迹”这一干预基准在更开放任务里是否稳健还需要继续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.05655",
      "collected_at": "",
      "collection_order": 657,
      "source_url": "https://arxiv.org/pdf/2604.05655.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.05655.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C21_OMNI_P2x_Excited_State_Simulation",
      "slug": "c21-omni-p2x-excited-state-simulation",
      "detail_url": "papers/c21-omni-p2x-excited-state-simulation/",
      "title": "OMNI-P2x universal neural network potential for excited-state simulations",
      "summary": "这篇工作针对光活性分子体系中的一个长期瓶颈：激发态和基态联合模拟在精度与成本之间长期难以兼得。太阳能材料、有机发光、光催化和光动力学等场景都依赖高质量 excited-state simulation，但第一性原理方法的代价过高，直接限制了大规模筛选、动力学模拟和分子设计的吞吐能力。\n\n论文提出 OMNI-P2x，一个面向分子基态与激发态的通用神经网络势能模型。它不是针对单一体系做专门拟合，而是把 universal potential 与 fine-tuning 路线结合起来，使同一模型既能直接用于一批光物理/光化学任务，也能在下游体系上继续适配。作者给出的使用面覆盖 UV/Vis 光谱、实时光动力学和可见光吸收分子设计，强调的是 excited-state simulation 的统一接口而不是单点 benchmark。\n\n这使它符合本仓库对 AI for science 的高门槛：AI 在这里不是辅助分析，而是直接改变了研究工作流，把原本高成本的 excited-state first-principles simulation 推向可复用、可扩展、可筛选的基础设施层。对化学、材料和分子设计方向来说，这类 universal neural potential 比单任务预测器更有长期参考价值，也比窄场景模型更容易外溢到后续 photochemistry/photophysics 管线。\n\n它目前仍更适合放在 breakthrough，而不是更高一档。核心原因是影响范围虽然很强，但目前主要集中在 excited-state molecular simulation 这条 AI x chemistry 主线，还没有证明会像更上位的 foundation interface 那样重写更广的科学计算版图；此外当前公开证据仍主要来自作者给出的模拟和设计任务展示，后续是否成为子领域标准接口，还需要更多独立采用与跨体系验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-07",
      "doi": "10.1038/s41467-026-71380-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 656,
      "source_url": "https://www.nature.com/articles/s41467-026-71380-5",
      "paper_url": "https://www.nature.com/articles/s41467-026-71380-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让光电材料研发从数周缩短至秒级，OMNI-P2x凭3400万数据打破计算之墙",
          "url": "https://www.bilibili.com/video/BV1P6osBHET2",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1P6osBHET2",
            "https://youtu.be/MfKMWaBh0Q0"
          ],
          "main_collection": "AI化学与材料",
          "match": "omni p2x universal neural network potential for excited state simulations",
          "description": "该研究成果发表于 Nature Communications。针对传统量子化学方法在分子激发态计算中精度与速度不可兼得的“计算之墙”，研究团队开发了通用神经网络电势 OMNI-P2x。该模型基于 3400 万海量数据训练，采用多态并行学习与全合一融合架构，能以极低成本提供媲美 TD-DFT 精度的模拟。实验证明，其成功将 50 万个光开关分子的筛选耗时从数周缩短至秒级，R² 达到 0.9966。这一突破为 OLED 显示、太阳能电池及光动力疗法等领域的大规模材料发现提供了高效、普适的 AI 工具。",
          "x_post": "Nature Communications 发表 OMNI-P2x 通用激发态神经网络势，基于 3400 万数据打破计算壁垒\n传统光电材料研发受限于 TD-DFT 等高昂计算成本，长期面临精度与效率的平衡难题。\nOMNI-P2x 采用多状态并行学习与 All-in-One 架构，融合 PubChemQC 与 ANI-1ccx 数据集以理解底层量子物理规律。\n实验显示其预测能量 R² 达 0.9966，并将 50 万个偶氮苯衍生物的筛选时间从数周缩短至秒级。\n该模型实现了“开箱即用”的高精度预测，为 OLED 开发及光动力疗法等领域提供了普适的材料发现工具。",
          "cover_url": "assets/covers/c21-omni-p2x-excited-state-simulation-3041ce0f81.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-22T10:51:06+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A197_TRACE_Capability_Targeted_Training",
      "slug": "a197-trace-capability-targeted-training",
      "detail_url": "papers/a197-trace-capability-targeted-training/",
      "title": "TRACE: Capability-Targeted Agentic Training",
      "summary": "TRACE 关注 agent 训练中的一个核心低效：失败并不直接告诉我们缺什么能力，而普通 synthetic data 也不一定针对目标环境的真实缺口。论文把 recurrent failures 转换为 capability-targeted training environments。\n\n系统对比成功与失败轨迹，自动识别缺失能力，再合成针对该能力的训练环境，并奖励模型是否学会相应动作模式。它把“agent 自我改进”拆成缺陷定位、环境生成和定向训练三步。\n\n它值得收录，是因为它给 self-improving agents 提供了能力级闭环，而不是简单微调失败样本。这个范式对网页 agent、工具 agent、代码 agent 和具身 agent 的 targeted curriculum 都有复用价值。\n\n局限在于能力识别和合成环境质量决定上限；复杂开放任务中的 capability 分解可能仍会漂移或过拟合。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.05336",
      "collected_at": "",
      "collection_order": 655,
      "source_url": "https://arxiv.org/pdf/2604.05336.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.05336.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A182_Neural_Computers",
      "slug": "a182-neural-computers",
      "detail_url": "papers/a182-neural-computers/",
      "title": "Neural Computers",
      "summary": "这篇论文重新定义了 agent、world model 和传统计算机之间的边界。它提出 Neural Computer（NC）：让神经网络的潜在运行时状态同时承载计算、工作内存和 I/O，而不是让模型只作为外部操作系统、GUI 或工具链上的 agent。长期目标是 Completely Neural Computer（CNC），即具备通用可编程性、稳定执行、可复用能力和显式更新治理的 learned runtime substrate。\n\n论文不是只给概念图，而是用 Wan2.1 视频模型构建了两个原型：NCCLIGen 用文本/初始终端帧生成 CLI 交互 rollout，NCGUIWorld 用屏幕像素和鼠标/键盘动作生成 GUI 交互 rollout。实验系统性评估了数据质量、caption 粒度、动作注入位置、动作编码和光标监督等设计变量，并指出当前模型主要学到的是 I/O 对齐、界面渲染和短时程控制，而不是可靠符号计算。\n\n它值得升级为正式收录，并给 `disruptive`，因为它把“计算机使用智能体”的问题从外部软件栈操作，推进到“模型自身是否能成为运行时”的系统级问题重构。更重要的是，论文给出了一组可复用设计结论：高质量目标导向轨迹比 1400 小时随机探索更有价值；GUI 微操需要把坐标翻译成显式视觉光标；深层 action injection 明显优于浅层条件注入；reprompting 造成的算术提升应被解释为条件渲染而非原生推理。\n\n它不是 `paradigm`，因为当前原型离 CNC 的核心要求仍很远：native symbolic reasoning 只有 4% 算术准确率，83% 的提升主要来自 reprompting/条件注入；能力安装、长期复用、行为一致性、run/update 边界和治理机制都还停留在路线图层面。它的价值在于建立一个强问题框架和早期工程约束，而不是已经实现了可替代传统计算机或 agent stack 的神经运行时。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.06425",
      "collected_at": "",
      "collection_order": 654,
      "source_url": "https://arxiv.org/pdf/2604.06425.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.06425.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A174_Graph_of_Skills",
      "slug": "a174-graph-of-skills",
      "detail_url": "papers/a174-graph-of-skills/",
      "title": "Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills",
      "summary": "这篇论文处理的是 agent skill 生态扩张后的检索瓶颈：当本地 skill library 从几十个增长到数百、数千个时，把所有 skill 塞进上下文会造成 token 成本、幻觉和延迟，而普通向量检索又容易只找语义相似项，漏掉真正执行所需的解析器、前置转换器、认证步骤或底层工具 skill。\n\nGraph of Skills 的新意在于把 skill retrieval 从平面 top-k 检索改成结构化、依赖感知的执行 bundle 检索。它离线解析 skill package 的 I/O schema、工具入口、路径和依赖关系，构建 typed executable skill graph；推理时先做语义-词法混合 seeding，再用反向加权 Personalized PageRank 召回前置依赖，最后按上下文预算 hydration 出紧凑 skill bundle。\n\n它值得收录，因为这正好补上 SkillClaw、EvoSkill、SkillRouter 等路线里的一个关键系统层：skill 可以被创造和演化，但大规模使用时必须有可靠的依赖完整检索接口。论文在 SkillsBench、ALFWorld、200 到 2000 skill library 和 Claude Sonnet、GPT-5.2 Codex、MiniMax 等模型上验证了 reward、token 和 runtime 的平衡收益，方法具有明确工程可迁移性。\n\n它不是更高一级，原因是它仍属于 skill-system 中的检索层改进，依赖 skill package 元数据质量和图构建假设；真实开放 skill marketplace 中的脏元数据、版本冲突、安全约束和动态依赖还没有被充分检验。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.05333",
      "collected_at": "",
      "collection_order": 653,
      "source_url": "https://arxiv.org/pdf/2604.05333.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.05333.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "宾大CMU等五校联合发布 GoS：通过结构化检索攻克技能过载，让 Agent 任务成功率暴涨 43%",
          "url": "https://www.bilibili.com/video/BV1uLdgBEEK5",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1uLdgBEEK5",
            "https://youtu.be/xyO-iNHaJqo"
          ],
          "main_collection": "AI智能体",
          "match": "graph of skills dependency aware structural retrieval for massive agent skills",
          "description": "宾夕法尼亚大学与卡内基梅隆大学等五校联合提出 Graph of Skills (GoS) 框架。针对大规模 AI Agent 系统在面对海量 API 时产生的技能过载，以及传统向量检索易忽略执行前置条件的问题，该研究通过构建有向多维技能图谱，将技能间的依赖关系结构化。GoS 在推理时利用混合检索与增强排名算法提取最优技能包。实验证明，该方法在减少 37% Token 消耗的同时，将任务成功率大幅提升 43%。这不仅降低了运行成本，更确保了复杂任务在海量工具环境下的执行完备性与稳定性。",
          "x_post": "宾大与CMU等五校联合提出Graph of Skills (GoS)：利用结构化检索提升Agent成功率43%并降本37%\n针对大规模AI Agent在调用海量API时面临的“技能过载”及传统向量检索易遗漏前置执行条件的问题，该研究提出了GoS框架。\n其核心将技能及其依赖关系构建为有向多维图，通过语义词法混合寻优与增强排名算法，提取逻辑完备的最小可执行技能包。\n实验结果显示，该方案在减少37% Token消耗的同时，将复杂任务的成功率提升了43%。\n研究证明了结构化检索在确保Agent任务执行完备性与优化运行成本方面的有效性，为海量工具环境下的智能体协作提供了新思路。",
          "cover_url": "assets/covers/a174-graph-of-skills-a9b33dc206.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-07T18:10:35+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A165_Claw_Eval_Trustworthy_Agent_Evaluation",
      "slug": "a165-claw-eval-trustworthy-agent-evaluation",
      "detail_url": "papers/a165-claw-eval-trustworthy-agent-evaluation/",
      "title": "Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents",
      "summary": "随着 LLM agents 逐渐进入真实软件环境，benchmark 的核心问题已经不只是任务会不会做，而是评测能不能真实反映 agent 的全过程行为。现有很多 agent benchmark 只看 final output，忽略中间轨迹、跳过安全与鲁棒性、并且模态覆盖狭窄，导致模型看起来完成了任务，但其实中途可能已经发生危险行为、脆弱决策或不可接受的失败。\n\nClaw-Eval 的方法贡献是把 autonomous agent evaluation 做成 end-to-end 证据化体系。它用 execution traces、audit logs 和 environment snapshots 三路独立证据记录每一步动作，再围绕 300 个人工验证任务和 2,159 个细粒度 rubric 条目，对 Completion、Safety、Robustness 做 trajectory-aware grading；同时用 `Pass@k` 和 `Pass^k` 区分侥幸成功与稳定能力，并在 multimodal perception/generation 和 multi-turn dialogue 场景下统一评估。\n\n这篇值得收录，因为它不是再加几百题任务，而是把 trustworthy agent evaluation 的接口重新定义了。特别是 evidence-channel 设计、trajectory-aware grading 和对安全/鲁棒性的显式拆分，具有很强的后续 benchmark 复用价值。它对 agent benchmarking、safety evaluation 和部署前验证都有直接方法外溢，比普通 agent leaderboard paper 更耐久。\n\n局限也很明确：这仍然是作者自建评测套件，任务选择、rubric 设计和错误注入方式都会影响结论；而且目前还主要是 arXiv 预印本，是否会成为社区共用基线还有待验证。因此这里给 `breakthrough`，不再上调。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.06132",
      "collected_at": "",
      "collection_order": 652,
      "source_url": "https://arxiv.org/pdf/2604.06132v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.06132v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A164_Gym_Anything_Agent_Environment",
      "slug": "a164-gym-anything-agent-environment",
      "detail_url": "papers/a164-gym-anything-agent-environment/",
      "title": "Gym-Anything: Turn any Software into an Agent Environment",
      "summary": "这篇论文处理的是 computer-use agents 一个长期被低估但越来越关键的问题：现有评测和训练环境覆盖的软件种类太少、任务链太短，而且大量环境仍停留在电商、系统设置或少数桌面操作 demo 上，离真正有经济价值的软件工作流很远。作者把瓶颈明确定位在 environment creation 本身太昂贵、太手工，因此 agent 研究无法稳定扩展到更复杂的软件世界。\n\nGym-Anything 的核心贡献不是再做一个 benchmark，而是提出把“把软件变成 agent environment”本身做成多 agent 流程。系统里 coding agent 负责写 setup 脚本、下载真实数据、配置软件并生成 setup evidence，独立 audit agent 再按 checklist 验证环境是否真的搭好。基于这套流程，作者构建出覆盖 200 个软件应用、超过 10K 长链任务的 CUA-World 和更难的 CUA-World-Long，把 environment generation、审计、训练/测试切分和长任务评测接成了同一个可扩展基础设施。\n\n这篇应收进仓库，因为它改写的不是某个 agent policy，而是 computer-use 研究的环境供给方式。相比只在固定 GUI benchmark 上比较模型，Gym-Anything 把 environment generation、auditability 和 economic-task coverage 一起纳入方法设计，对 agent evaluation、computer-use training、long-horizon task construction 和未来真实软件自动化都有明显外溢。它更像一个 durable workflow primitive，而不是一次性基准集合。\n\n这篇目前仍是 arXiv 预印本，任务分布和环境质量主要依赖作者自己的生成与审计流水线，外部团队是否会采用这一套环境构建方法还需要时间验证。它是很强的 benchmark/infrastructure paper，但还没有强到足以成为范式级改写，因此给 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-07",
      "doi": "",
      "arxiv_id": "2604.06126",
      "collected_at": "",
      "collection_order": 651,
      "source_url": "https://arxiv.org/pdf/2604.06126v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.06126v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R53_TriAttention_KV_Compression",
      "slug": "r53-triattention-kv-compression",
      "detail_url": "papers/r53-triattention-kv-compression/",
      "title": "TriAttention: Efficient Long Reasoning with Trigonometric KV Compression",
      "summary": "长链推理把 KV cache 推成了部署瓶颈，但现有压缩方法往往依赖 recent post-RoPE queries 去估计 key importance。问题在于 query 在 RoPE 之后会随位置旋转，代表性 query 变得很少，导致 top-key selection 不稳定，尤其在需要长 reasoning trace 的设置里容易明显掉质。\n\nTriAttention 的推进在于直接回到 pre-RoPE 空间，利用作者观察到的 Q/K concentration 现象：Q 和 K 向量围绕稳定的非零中心聚集，并由这些中心通过三角级数决定 query 对不同距离 key 的偏好。基于这个结构，方法不再只靠近邻 attention score，而是用由中心刻画出的 distance preference 再结合 Q/K norm 去估计 key importance，从而做更稳的 KV compression。\n\n它值得正式收录，因为这不是一个靠工程调参换吞吐的局部技巧，而是给长 reasoning 的 KV importance estimation 提供了更可解释、更可迁移的几何接口。对 long-context inference、reasoning deployment、KV cache management 和 memory-efficient serving，这种 pre-RoPE 视角有明显方法外溢。\n\n它暂时不升到更高一级，原因在于当前最强证据仍集中在特定长推理 benchmark 和 OpenClaw 部署场景。它已经是很强的方法论文，但是否会成为更广泛 KV compression 的默认思路，还需要更多模型家族与真实 serving 环境验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-06",
      "doi": "",
      "arxiv_id": "2604.04921",
      "collected_at": "",
      "collection_order": 650,
      "source_url": "https://arxiv.org/pdf/2604.04921.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.04921.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "10倍级内存压缩：MIT与英伟达联合发布TriAttention，让消费级显卡支撑数万Token长推理",
          "url": "https://www.bilibili.com/video/BV1tdRmBQE15",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1tdRmBQE15",
            "https://youtu.be/0hObHvngbuI"
          ],
          "main_collection": "大模型架构与推理",
          "match": "triattention efficient long reasoning with trigonometric kv compression",
          "description": "由MIT、英伟达与浙江大学联合研发，TriAttention针对大模型长文本推理中的KV缓存瓶颈提出创新方案。在处理复杂逻辑生成的长思维链时，显存线性膨胀常导致硬件内存溢出。该研究发现模型在应用RoPE旋转前具有稳定的Q/K聚集特性，据此推导出可预测注意力分布的三角级数，解决了传统方法在旋转空间中的观察盲区。实验证明，该技术实现了10.7倍显存缩减和2.5倍吞吐提升，且能无损匹配全量注意力精度。这显著降低了部署门槛，使单张消费级显卡支撑数万Token长推理成为现实。",
          "x_post": "MIT与英伟达联合发布TriAttention：实现10.7倍KV缓存压缩与2.5倍推理吞吐提升\n针对大语言模型长思维链推理引发的显存线性膨胀与OOM瓶颈，现有KV压缩方案常因RoPE旋转后的局部观察盲区导致逻辑链条崩溃。研究团队发现模型在Pre-RoPE原始空间中存在高度稳定的Q/K聚集特性，据此推导出可精准预测注意力分布的三角级数模型。实验数据表明，TriAttention在数学推理任务中不仅能匹配全量注意力精度，更实现了10.7倍的显存缩减与2.5倍的吞吐增益。该技术显著降低了硬件门槛，使单张消费级显卡支撑数万Token的长序列推理成为现实。",
          "cover_url": "assets/covers/r53-triattention-kv-compression-01b26488a7.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-07T16:15:08+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM46_Boxer_Open_World_3D_Lifting",
      "slug": "mm46-boxer-open-world-3d-lifting",
      "detail_url": "papers/mm46-boxer-open-world-3d-lifting/",
      "title": "Boxer: Robust Lifting of Open-World 2D Bounding Boxes to 3D",
      "summary": "这篇论文处理开放世界 3D 目标定位中的一个核心数据鸿沟：2D 开放词汇检测已经能借助大规模网页图文数据识别大量类别，但 3D 边界框标注昂贵、稀缺且受传感器形态限制，导致端到端 3D 检测器难以覆盖真实世界物体。\n\nBoxer 的核心设计是把语义识别和几何提升解耦。系统先用现成 2D open-vocabulary detector 产生候选框，再用 BoxerNet 结合带位姿图像和可选深度，将 2D 框提升为全局 7-DoF 3D bounding boxes。它用 median depth patch encoding 同时兼容稠密深度和稀疏 SLAM/SfM 点云，并引入 3D aleatoric uncertainty 与 2D 置信度联合排序。\n\n它值得收录，因为它给开放世界空间理解提供了一个可复用工程模式：用 2D VLM 负责语义，用小型几何网络负责 3D lifting。论文在 122 万独立 3DBB 的混合训练集上训练，并在 egocentric sparse-depth 场景把 CuTR 的 mAP 从 0.010 提升到 0.532，这对 AR/机器人/具身空间感知都很有参考价值。\n\n它不是更高一级，因为 Boxer 仍依赖上游 2D 检测、相机位姿和静态世界假设；动态物体、非长方体物体和复杂交互场景仍未解决。其贡献是强空间感知模块和数据解耦策略，而不是完整通用 3D 世界模型。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-06",
      "doi": "",
      "arxiv_id": "2604.05212",
      "collected_at": "",
      "collection_order": 649,
      "source_url": "https://arxiv.org/pdf/2604.05212.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.05212.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "J14_DeltaWorld_Delta_Tokens",
      "slug": "j14-deltaworld-delta-tokens",
      "detail_url": "papers/j14-deltaworld-delta-tokens/",
      "title": "A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens",
      "summary": "这篇论文针对生成式视频世界模型的计算瓶颈：现有方法通常在密集空间-时间 latent 上建模，未来每个 frame 仍对应大量空间 token，导致多未来采样和长时序预测开销很高。作者把问题重新表述为预测相邻视觉基础模型特征的变化，而不是重建完整未来帧。\n\n方法上，DeltaTok 将相邻帧 VFM feature 的差分压缩成单个连续 delta token，DeltaWorld 则在这些 token 序列上做生成式建模。这样视频从空间-时间网格被压缩成纯时间序列，模型不需要对大量静态背景 token 重复建模，并能在一次前向中产生多个可能未来。\n\n它值得收录，因为它提供了一个很清晰的世界模型接口转变：将未来生成放在冻结 VFM 的特征差分空间，并用单 token 表达帧间变化。论文报告相对现有生成式世界模型可少 35 倍参数、约 2000 倍 FLOPs，同时在多个指标上保持竞争力，这对高效生成世界模型和机器人/视频预测系统都有溢出价值。\n\n主要限制是它仍主要评估视觉特征预测和短期未来生成，尚未证明在 action-conditioned planning、闭环控制或真实决策任务中能替代更完整的世界模型。delta token 对大位移、视角剧变和交互式物理状态的表达边界也仍需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-04-06",
      "doi": "",
      "arxiv_id": "2604.04913",
      "collected_at": "",
      "collection_order": 648,
      "source_url": "https://arxiv.org/pdf/2604.04913.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.04913.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW27_MegaTrain_Single_GPU_LLM_Training",
      "slug": "hw27-megatrain-single-gpu-llm-training",
      "detail_url": "papers/hw27-megatrain-single-gpu-llm-training/",
      "title": "MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU",
      "summary": "这篇论文处理的是超大模型训练在显存维度上的系统瓶颈。常规大模型训练以 GPU 显存为中心，参数、优化器状态和 autograd metadata 长驻设备；即使有 ZeRO/offload，100B+ 级别全精度训练通常仍依赖多 GPU 和复杂分布式系统。\n\nMegaTrain 反过来把训练系统设计成 memory-centric 架构：参数和优化器状态主要存放在 CPU host memory，GPU 被当成瞬时计算引擎；每层训练时按需把参数流入 GPU、把梯度流出。为缓解 CPU-GPU 带宽瓶颈，系统使用双缓冲流水线、多 CUDA stream 重叠 prefetch/compute/offload，并用 stateless layer templates 替代持久 autograd graph。\n\n它值得收录，因为它不是普通 offload recipe，而是明确改变了超大模型训练的资源边界：在单 H200 + 1.5TB host memory 上训练到 120B 参数，并在 14B 训练上达到 DeepSpeed ZeRO-3 CPU offloading 的 1.84 倍吞吐；还展示了单 GH200 训练 7B、512k context 的可能性。对低资源大模型训练、长上下文训练和 memory hierarchy co-design 都有实用参考价值。\n\n它不是更高一级，因为该路线用 host memory 换取可达模型规模，吞吐仍受 PCIe/NVLink-C2C、CPU 内存带宽、layer scheduling 和模型结构影响；它更像高价值系统设计，而不是改变主流大规模训练集群范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-04-06",
      "doi": "",
      "arxiv_id": "2604.05091",
      "collected_at": "",
      "collection_order": 647,
      "source_url": "https://arxiv.org/pdf/2604.05091.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.05091.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW26_DeepStack_3D_Accelerator_DSE",
      "slug": "hw26-deepstack-3d-accelerator-dse",
      "detail_url": "papers/hw26-deepstack-3d-accelerator-dse/",
      "title": "DeepStack: Scalable and Accurate Design Space Exploration for Distributed 3D-Stacked AI Accelerators",
      "summary": "这篇论文瞄准的是 AI hardware 里一个越来越关键的结构性问题：随着大模型推理走向跨 chiplet、跨 stack 的 3D memory-rich 系统，设计瓶颈不再只是单个 accelerator kernel，而是 3D memory semantics、interconnect、parallelism strategy 和 serving schedule 的联动搜索。传统模拟器很难在足够准确的同时支撑这种规模的 design space exploration，结果是很多所谓 co-design 实际上只能在非常局部的空间里试探。\n\n作者提出 DeepStack，一个面向 distributed 3D-stacked AI systems 的性能建模和设计探索工具。它在硬件层捕捉 transaction-aware bandwidth、bank activation、buffering 和 thermal-power 行为，在系统层建模 distributed LLM inference 的 parallelization 与 scheduling，并通过 dual-stage network abstraction 与 tile-level compute-communication overlap 等技术把模拟速度做到了比现有模拟器快几个数量级，同时保持与内部 3D 设计、NS-3 和 vLLM serving 的交叉验证精度。\n\n这篇值得正式收录，因为它不只是多一个 accelerator simulator，而是在给 `3D memory + distributed serving + schedule search` 这条 AI compute 主线建立可操作的 co-design interface。论文最有价值的地方在于它暴露出一些 durable design insight，比如 batch size 比 prefill/decode 区分更能主导架构分化，以及并行策略与硬件结构之间存在强耦合，软件后调无法弥补前期不完整的设计搜索。\n\n它目前仍然不是更高一级，因为这是强工具与强 insight 的结合，但证据主要还在 arXiv 与作者自有验证链上，且影响会首先集中在特定一类 3D-stacked/distributed accelerator 设计场景。它已经足够成为 AI hardware 主线里的高质量正式条目，但还没到更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-04-06",
      "doi": "",
      "arxiv_id": "2604.04750",
      "collected_at": "",
      "collection_order": 646,
      "source_url": "https://arxiv.org/pdf/2604.04750.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.04750.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "仿真速度飙升10万倍：DeepStack挑战千万亿级配置空间，精准定义下一代3D芯片架构",
          "url": "https://www.bilibili.com/video/BV1m5DnBcEcJ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1m5DnBcEcJ",
            "https://youtu.be/N_tHoKYgkL8"
          ],
          "main_collection": "大模型架构与推理",
          "match": "deepstack scalable and accurate design space exploration for distributed 3d stacked ai accelerators",
          "description": "针对大语言模型推理面临的内存墙挑战，DeepStack 提供了一种面向分布式 3D 堆叠 AI 加速器的设计空间探索（DSE）框架。该框架解决了 3D 内存建模、热量功耗约束与复杂分布式并行策略的协同设计难题。通过引入瓦片级重叠与双阶段网络抽象技术，DeepStack 在保持 12.18% 以内仿真误差的前提下，较传统离散事件模拟器实现了 10 万倍的运行速度提升。其搜索空间涵盖 250 万亿个配置点，支持流水线并行、算子切分等七维策略的自动优化，为未来高性能集成电路与系统架构设计提供了重要的量化参考与开源基础设施。",
          "x_post": "DeepStack研究团队发布分布式3D堆叠AI加速器设计框架，仿真速度提升10万倍且覆盖250万亿配置空间\n针对大语言模型推理面临的“内存墙”挑战与2.5D封装带宽瓶颈，3D堆叠芯片已成为高性能计算的关键演进方向。DeepStack框架通过引入瓦片级重叠与双阶段网络抽象，首次实现了从芯片微观Bank级特征到系统宏观七维并行策略的协同建模。实验数据表明，该框架在保持12.18%以内仿真误差的前提下，较传统离散事件模拟器提速10万倍，并成功支持对2.5×10^14个设计点的自动化搜索。该工作为未来高性能、高带宽的3D集成AI系统设计提供了重要的量化参考与开源基础设施。",
          "cover_url": "assets/covers/hw26-deepstack-3d-accelerator-dse-b9802f19df.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-09T05:59:24+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO31_MolClaw_Drug_Discovery_Agent",
      "slug": "bio31-molclaw-drug-discovery-agent",
      "detail_url": "papers/bio31-molclaw-drug-discovery-agent/",
      "title": "MolClaw: An Autonomous Agent with Hierarchical Skills for Drug Molecule Evaluation, Screening, and Optimization",
      "summary": "这篇论文处理的是 drug discovery workflow 里一个非常实际但长期没有被系统解决的问题：药物分子评估、筛选和优化通常要跨多个学科工具和几十步顺序操作，通用 agent 在这种长链、高约束场景里往往很快失稳。作者把问题明确成“workflow orchestration competence”，而不是继续把注意力停留在单次 tool call 或 ad hoc scripting 上。\n\n论文提出 MolClaw，一个带三层层级技能结构的自主代理系统：tool-level skills 把原子操作标准化，workflow-level skills 负责把这些操作编组成可验证的管线并执行质量检查与反思，discipline-level skill 则提供跨任务的领域原则来约束规划和验证。与此同时，作者还提出 MolBench，把分子筛选、优化和端到端 discovery 组织成需要 8 到 50+ 次顺序工具调用的 benchmark，用来直接测工作流能力而不是只测局部工具使用。\n\n这篇值得正式收录，因为它同时补了两个仓库关心的长期接口：一是 agent 技能系统在科学工作流中的层级化设计，二是 AI for science agent 的长链 benchmark 应该怎么构造。它不只是一个药物代理 demo，而是在把“hierarchical skill substrate + workflow benchmark”压成可复用模式，这对后续更广的 scientific agents 有直接参考价值。\n\n它现在还不到更高一级，主要因为证据仍停留在 bioRxiv 阶段，评测也主要集中在药物相关流程本身，跨领域可迁移性还没有被充分证明。换句话说，它已经是这条线上的强 breakthrough，但距离成为更普适的 scientific agent 基础设施或范式级接口还差外部验证和更广 adoption。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-06",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 645,
      "source_url": "https://www.biorxiv.org/content/10.1101/10.64898/2026.04.03.716272v1",
      "paper_url": "https://www.biorxiv.org/content/10.1101/10.64898/2026.04.03.716272v1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A184_FileGram_File_System_Memory",
      "slug": "a184-filegram-file-system-memory",
      "detail_url": "papers/a184-filegram-file-system-memory/",
      "title": "FileGram: Grounding Agent Personalization in File-System Behavioral Traces",
      "summary": "这篇论文针对个性化智能体长期记忆的一个具体缺口：现有记忆系统多依赖用户画像、对话摘要或叙事式 profile，但真实个人工作流往往沉淀在文件系统的操作痕迹、内容差异、目录结构、跨应用上下文和时间序列中。作者将这些低层行为轨迹视为可被智能体记忆系统利用的原始证据，提出用文件系统行为来支撑更稳健的个性化、意图恢复和长期上下文建模。\n\n方法上，论文构建了 FileGramEngine、FileGramBench 和 FileGramOS 三个配套组件。FileGramEngine 用 persona 驱动的数据生成流程模拟真实文件工作流和多模态动作序列；FileGramBench 将评测拆成 profile reconstruction、trace disentanglement、persona drift detection、multimodal grounding 等任务；FileGramOS 则采用自底向上的记忆架构，把原子级文件动作、内容 delta 和时间上下文组织为程序性、语义性与情节性记忆通道，并在查询时进行抽象和检索。\n\n它值得正式收录，是因为它把 agent memory 从对话摘要和向量检索推进到更接近操作系统层的行为证据建模，并给出了可复用的数据生成、评测和系统接口。对仓库关注的 agent memory、能力扩展和本地优先工具链而言，FileGram 的价值不只在一个 benchmark 分数，而在于提出了一种把文件系统事件流转化为个性化记忆的工程模式。\n\n主要限制是证据仍然高度依赖合成轨迹和模拟 persona，真实个人文件系统会带来更强的隐私、权限、噪声、跨设备同步和分布漂移问题。FileGramOS 展示了比叙事式记忆更强的效果，但还不是大规模真实部署验证，因此更适合作为突破性 agent-memory 工作收录，而不是上调到 disruptive。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-06",
      "doi": "",
      "arxiv_id": "2604.04901",
      "collected_at": "",
      "collection_order": 644,
      "source_url": "https://arxiv.org/pdf/2604.04901.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.04901.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A168_Atomic_Skills_Coding_Agents",
      "slug": "a168-atomic-skills-coding-agents",
      "detail_url": "papers/a168-atomic-skills-coding-agents/",
      "title": "Scaling Coding Agents via Atomic Skills",
      "summary": "当前 coding agents 的主流训练仍然高度依赖 composite tasks，比如 bug fixing 或 issue resolution。这种做法虽然能直接刷 benchmark，但往往让模型在特定任务分布上过拟合，反而不利于形成可迁移的通用软件工程能力。\n\n这篇工作把 coding agent 能力显式拆成五个 atomic skills：code localization、code editing、unit-test generation、issue reproduction 和 code review，并在这些原子技能上做 joint RL。核心价值不只是分数提升，而是把训练目标从“做完整任务”重写成“掌握可组合技能”，从而减轻不同子能力之间的负迁移。\n\n它值得正式收录，因为它为 coding agents 提供了一个更 durable 的训练接口：不是继续堆更大模型或更多 composite data，而是直接对 skill basis 做优化。这种结构化拆分对 agent training、generalization diagnosis 和后续 skill composition 都有明显外溢价值。\n\n它暂时不升到更高一级，原因在于当前证据仍主要集中在 coding domain，且 atomic skill 划分是否会成为更广泛 agent training 的默认接口还需要后续验证。它是很强的方法推进，但还不是通用 agent 学习范式的最终定型。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-06",
      "doi": "",
      "arxiv_id": "2604.05013",
      "collected_at": "",
      "collection_order": 643,
      "source_url": "https://arxiv.org/pdf/2604.05013.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.05013.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "人工智能程序员进化论：解构五项原子技能，实现18.7%综合性能跨越式提升",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "scaling coding agents via atomic skills",
          "description": "本视频深入解析通过原子技能提升大语言模型编程智能体性能的新方法。针对传统强化学习在单一复杂任务中容易产生的负面干扰和泛化性差等瓶颈，研究者将软件工程任务拆解为代码定位、代码编辑、单元测试生成、问题复现和代码审查五项基础能力。通过在沙盒环境中进行联合强化学习，智能体在未见过的复杂任务中实现了18.7%的综合性能提升。实验证明，打好原子技能基本功能够有效产生正向迁移，为构建高通用性的自动化编程助手提供了更具扩展性的技术路径。",
          "x_post": "研究团队提出通过五项原子技能训练AI程序员，实现18.7%综合性能提升\n\n传统大语言模型编程智能体在单一复杂任务（如Bug修复）中进行强化学习时，常面临负面干扰，导致代码重构等其他能力下降达6%以上。该研究将软件工程任务解构为代码定位、编辑、单元测试生成、问题复现及代码审查五项核心“原子技能”。\n\n通过在沙盒环境中进行联合强化学习（Joint RL），智能体在五项基础技能与从未见过的复合任务中均取得显著进步。实验数据证明，这种训练模式使综合性能平均提升18.7%，表现出极强的跨领域泛化能力。\n\n研究结论指出，打好原子技能的底层基本功能够有效产生正向迁移，为构建具备高通用性和可扩展性的自动化编程助手提供了确凿的技术路径。",
          "cover_url": "assets/covers/a168-atomic-skills-coding-agents-86e4e235e7.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-13T16:07:38+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A162_ShieldNet_Supply_Chain_Guardrails",
      "slug": "a162-shieldnet-supply-chain-guardrails",
      "detail_url": "papers/a162-shieldnet-supply-chain-guardrails/",
      "title": "ShieldNet: Network-Level Guardrails against Emerging Supply-Chain Injections in Agentic Systems",
      "summary": "这篇论文处理的是 agent safety 里一个近几个月快速抬头、但现有防线覆盖很差的问题：随着 agent 越来越依赖第三方工具和 MCP server，攻击者已经不必只在 prompt 或输入输出层做注入，而可以把恶意行为埋进看似正常的工具、插件或服务依赖里，形成 supply-chain injection。作者的切入点不是继续把安全边界限制在文本层，而是把威胁模型上移到工具网络交互与外部依赖层。\n\n论文先提出 SC-Inject-Bench，一个包含一万多个恶意 MCP 工具的大规模 benchmark，并用 25+ 种攻击类型系统化刻画 supply-chain threat taxonomy。随后提出 ShieldNet：它不依赖表面 tool trace 或语义扫描，而是在网络层通过 MITM proxy 和事件提取器观察真实交互，再用轻量分类器识别异常行为。结果显示，现有 MCP scanners 和 LLM guardrails 在这类攻击上明显失效，而 ShieldNet 在高 F1 和低误报下保持较小运行开销。\n\n这篇值得正式收录，因为它同时补了仓库很重视的两层基础设施：一是新的、清晰的 supply-chain threat model 与 benchmark；二是独立于模型内部推理过程的 runtime/network-level guardrail。对 `governed execution` 主线来说，它把防线从 prompt safety 和 graph verification 进一步推进到真实依赖调用层，属于很实的系统边界补强。\n\n它目前还不适合更高一级，因为证据仍主要来自 arXiv 阶段，且影响首先会集中在 tool-using agents、MCP ecosystem 和安全工程社区。它显著推进了 agent supply-chain security 的工作流与评测，但还没有到足以全面改写更广 agent architecture 默认设计的程度，因此以 breakthrough 收录更稳。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-06",
      "doi": "",
      "arxiv_id": "2604.04426",
      "collected_at": "",
      "collection_order": 642,
      "source_url": "https://arxiv.org/pdf/2604.04426.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.04426.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "揭示AI智能体安全盲区：ShieldNet通过底层网络监控，攻克MCP协议下的供应链注入难题",
          "url": "https://www.bilibili.com/video/BV1F6DfBZEQS",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1F6DfBZEQS",
            "https://youtu.be/-K_lV3DUx9k"
          ],
          "main_collection": "供应链与物流",
          "match": "shieldnet network level guardrails against emerging supply chain injections in agentic systems",
          "description": "随着智能体系统通过模型上下文协议（MCP）广泛调用第三方服务，供应链注入攻击成为严重的隐蔽威胁。传统语义检测方法难以识别伪装在正常接口描述下的恶意代码逻辑。ShieldNet 框架放弃了过度依赖语义的范式，转而通过中间人代理（MITM）解密与结构化事件提取，直接监控智能体运行时的底层网络流量。研究团队基于 MITRE ATT&CK 框架构建了包含万级恶意工具的基准集 SC-Inject-Bench 进行验证。实验结果表明，该方案能以极低延迟识别复杂的注入攻击，检测精度显著优于现有的 LLM 辅助安全工具，论证了网络层可见性在保障智能体运行时安全中的核心价值。",
          "x_post": "研究团队发布 ShieldNet 框架：通过底层网络监控应对 MCP 协议下的智能体供应链注入，包含万级恶意工具基准。\n当前智能体系统通过模型上下文协议（MCP）调用第三方服务，恶意代码常伪装在合规语义接口下，导致传统静态扫描和语义检测出现盲区。\nShieldNet 转向底层流量监控范式，通过中间人代理（MITM）解密与结构化事件提取，实时捕捉工具运行时的隐蔽通信与恶意逻辑。\n实验基于包含 10,000+ 恶意工具、覆盖 25+ 种 MITRE ATT&CK 类型的 SC-Inject-Bench 基准集，证明该框架在检测精度与延迟上均优于现有安全工具。\n该研究论证了网络层可见性在保障智能体运行时安全中的核心价值，为应对新兴的智能体供应链威胁提供了可核验的底层护栏。",
          "cover_url": "assets/covers/a162-shieldnet-supply-chain-guardrails-635495ea2e.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-09T15:26:51+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A170_Computer_Use_Verifiers",
      "slug": "a170-computer-use-verifiers",
      "detail_url": "papers/a170-computer-use-verifiers/",
      "title": "The Art of Building Verifiers for Computer Use Agents",
      "summary": "computer-use agents 近来的一个根本问题是：如果 verifier 不可靠，那 benchmark 分数和训练信号都会一起变脏。很多现有 web-task verifier 的 false positive 很高，导致“agent 成功了没有”这件事本身就不再可信。\n\n这篇工作的重点不在于提出一个抽象评分器，而是把 verifier design 总结成四条可落地原则：rubrics 必须非重叠、process reward 和 outcome reward 必须分离、controllable 和 uncontrollable failures 必须区分、长轨迹要用 divide-and-conquer context management 才能稳。作者据此构建 Universal Verifier 和 CUAVerifierBench，把 false positive 压到接近零。\n\n它值得正式收录，因为对 computer-use agents 来说，verifier 不是附属件，而是 evaluation 和 RL data generation 的基础设施。这篇工作把 verifier 从隐形工程细节提升成第一类研究对象，外溢到 benchmark design、agent training 和 web-task auditing。\n\n它暂时不升到更高一级，原因在于目前结论仍强依赖 web-task / screenshot trajectory 这类 setting，离更通用的 agent verifier theory 还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-05",
      "doi": "",
      "arxiv_id": "2604.06240",
      "collected_at": "",
      "collection_order": 641,
      "source_url": "https://arxiv.org/pdf/2604.06240.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.06240.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R48_Self_Distilled_RLVR",
      "slug": "r48-self-distilled-rlvr",
      "detail_url": "papers/r48-self-distilled-rlvr/",
      "title": "Self-Distilled RLVR",
      "summary": "RLVR 只拿到环境可验证结果，信号稀疏；而 on-policy distillation 虽然能给 token-level 密集信号，却往往需要教师或特权信息，并容易产生信息泄漏。社区最近尝试 self-distillation，但长期稳定性和真正可迁移的更新信号仍然是问题。\n\n这篇工作提出 Self-Distilled RLVR，把 self-distillation 和 RLVR 重新分工：用自蒸馏得到 token-level policy differences 来控制更新幅度，同时继续依赖环境反馈给出可靠的更新方向。这样既保留了细粒度学习信号，又避免了单靠 privileged teacher 带来的长期训练不稳定。\n\n它值得正式收录，因为它不是简单把两个训练范式拼在一起，而是给 reasoning post-training 提供了一个更清晰的接口分层。对 RLVR、reasoning RL 和自蒸馏后训练，这种 magnitude/direction 解耦有明显方法外溢。\n\n它暂时不升到更高一级，原因在于当前仍主要是 reasoning post-training 子线内的方法推进，是否能成为更广后训练栈的默认组成还需要更多独立复现和后续采用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-03",
      "doi": "",
      "arxiv_id": "2604.03128",
      "collected_at": "",
      "collection_order": 640,
      "source_url": "https://arxiv.org/pdf/2604.03128.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.03128.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "揭开大模型自主探索的未来路径：RLSD解决作弊瓶颈，赋予Self-Distilled RLVR工业级逻辑严谨性",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "self distilled rlvr",
          "description": "针对大语言模型在自我蒸馏中常见的“逻辑作弊”与性能崩溃问题，研究团队提出RLSD训练新范式。该方法针对在线自我蒸馏中特权信息泄露的痛点，结合了强化学习与自蒸馏的双重优势：由环境奖励锚定更新方向，通过自蒸馏信号调节代币级更新力度。实验证明，RLSD在MMMU及MathVista等基准上实现最高4.69%的性能提升，且完全消除特权信息泄露风险。这标志着模型能通过自主探索真正理解复杂逻辑，而非简单模仿参考答案，为构建更稳定、严谨的工业级大模型提供了关键技术路径。",
          "x_post": "研究团队提出RLSD训练新范式，多模态推理准确率提升4.69%并消除信息泄露\n\n大语言模型在在线自我蒸馏（OPSD）中常因“特权信息泄露”导致逻辑作弊与后期性能崩溃。为解决此瓶颈，研究团队开发了RLSD范式，旨在通过优化强化学习反馈机制提升逻辑严谨性。\n\n该方法结合了环境奖励与自蒸馏信号：由环境奖励锚定参数更新的可靠方向，同时将自蒸馏信号转化为Token级权重以精确调节更新幅度，从而规避了教师模型与学生模型间的互信息鸿沟。\n\n实验数据显示，RLSD在MathVista（78.1%）、MathVision（52.73%）及MMMU（67.22%）等基准上全面领先，较GRPO范式平均提升2.32%，且特权信息泄露率降至0。\n\n研究证明，RLSD通过平衡探索方向与步长力度，显著增强了模型在复杂推导中的稳定性，为构建工业级逻辑模型提供了可验证的技术路径。",
          "cover_url": "assets/covers/r48-self-distilled-rlvr-97e7c60b3e.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-13T16:06:56+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM44_Agentic_MME_Multimodal_Agents",
      "slug": "mm44-agentic-mme-multimodal-agents",
      "detail_url": "papers/mm44-agentic-mme-multimodal-agents/",
      "title": "Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?",
      "summary": "多模态模型越来越被包装成“agentic”，但现有评测往往要么只看 final answer，要么把 visual tools 和 web search 分开测，导致我们很难知道模型到底有没有正确调用工具、是否真的完成了多步过程，还是只是靠答案投机过关。\n\nAgentic-MME 的核心贡献是 process-verified benchmark。它覆盖 418 个真实任务、6 个领域和 3 个难度层级，不仅提供统一的 tool/sandbox 评估框架，还引入 2000 多个 stepwise checkpoints 以及相对人类轨迹的 overthinking metric，用过程而不是结果单点来审 multimodal agentic capability。\n\n它值得正式收录，因为这是仓库非常看重的 durable evaluation interface：把 multimodal intelligence 和 agentic tool use 真正接到一起，并且把“有没有走对过程”明确纳入度量。对于 multimodal agents、web-grounded systems 和工具调用评测，这种 benchmark 很有长期参考价值。\n\n它暂时不升到更高一级，原因在于 benchmark 仍然需要时间证明自己的长期 adoption 和社区标准地位。它是很强的新评测接口，但是否会成为默认坐标系还需要后续使用情况来确认。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-03",
      "doi": "",
      "arxiv_id": "2604.03016",
      "collected_at": "",
      "collection_order": 639,
      "source_url": "https://arxiv.org/pdf/2604.03016.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.03016.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "从观察到探究：Agentic-MME以418个真实任务挑战AI解题轨迹",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "agentic mme what agentic capability really brings to multimodal intelligence",
          "description": "当前的评估体系往往侧重于多模态大模型的被动感知，且存在“唯结果论”的弊端。Agentic-MME基准测试针对这一痛点，通过418个涉及视觉扩展与知识扩展的真实协同任务，重点考察模型主动解决问题的能力。研究通过独创的双轴过程审计机制，对2,000多个人工标注检查点进行细粒度验证，确保模型并非通过随机猜测获胜。实验结果揭示了行业现状：即便是顶尖模型在处理需要多步推理与跨维度验证的复杂任务时，准确率也从56.3%骤降至23%。该基准为多模态智能体从“观察者”向“探究者”的演进提供了量化的边界观察与路径参考。",
          "x_post": "Agentic-MME研究团队发布多模态智能体基准，顶尖模型在复杂任务中的准确率由56.3%骤降至23%。\n当前评估体系多侧重被动感知且存在“结果偏见”，难以衡量模型在真实场景下的主动探究与工具调用逻辑。Agentic-MME通过“视觉扩展”与“知识扩展”双核心维度，构建了涵盖418个真实协同任务的评估体系。项目引入包含2,000个人工标注检查点的双轴审计机制，对模型的策略执行与视觉证据进行细粒度过程验证。实验数据揭示了模型在多步推理与跨维度验证中的效能瓶颈，为多模态智能体从“观察者”向“探究者”演进提供了量化参考。",
          "cover_url": "assets/covers/mm44-agentic-mme-multimodal-agents-bb8357fb17.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-10T22:48:26+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C19_Chemputation_Literature_Verification",
      "slug": "c19-chemputation-literature-verification",
      "detail_url": "papers/c19-chemputation-literature-verification/",
      "title": "Verification and execution of the scientific literature via chemputation augmented by large language models",
      "summary": "这篇工作针对自动化化学里一个长期缺口：即便合成机器人和标准化实验语言已经存在，论文里的实验步骤仍然充满歧义、遗漏和不可直接执行的自然语言表述，导致文献复现与验证高度依赖人工整理。作者把问题从“让模型规划新实验”转成“让系统忠实地把既有科学文献转成可执行实验程序并验证其真实性”。\n\n方法上的新意在于把大语言模型放进一个明确受约束的 chemputation 工作流中。系统先从论文中抽取合成步骤和分析信息，再将其翻译为通用的 XDL 程序，在硬件特定设置中模拟执行，最后把程序下发给受 XDL 控制的化学机器人真实完成实验。论文给出六个真实 synthesis 例子，并且跨两套平台完成执行，强调的是文献验证、程序化表达、机器人执行与结果回证之间的闭环。\n\n它对本仓库的重要性不在于化学单点性能，而在于提供了一个高复用的 AI for science 工作流模板：把科学文本解析、结构化表示、仿真检查、自动执行和 reproducibility verification 串成一个统一系统。这使它不仅是 autonomous lab 的一个应用案例，也是在“科学文献能否被机器可靠执行”这个问题上迈出了可操作的一步。\n\n这篇工作目前仍主要绑定 Chemputer/XDL 生态，验证规模也还不大，离“自动化化学的通用默认接口”还有距离。因此它适合评为 `breakthrough`：工作流价值很强、外溢性明确，但还没到更高一级的范式重写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-03",
      "doi": "10.1038/s42004-026-01993-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 638,
      "source_url": "https://www.nature.com/articles/s42004-026-01993-w",
      "paper_url": "https://www.nature.com/articles/s42004-026-01993-w",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让实验室拥有“自动驾驶”大脑：格拉斯哥大学利用大语言模型驱动 Chemputation，开启化学发现的算力接管时代",
          "url": "https://www.bilibili.com/video/BV1siD6BmEVT",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1siD6BmEVT",
            "https://youtu.be/F8eQBFd55Is"
          ],
          "main_collection": "AI安全与对齐",
          "match": "verification and execution of the scientific literature via chemputation augmented by large language models",
          "description": "针对化学合成文献复现难、主观偏差大等行业痛点，格拉斯哥大学提出了一种基于大语言模型驱动的化学计算（Chemputation）系统。该系统通过ACRA工作流，将非结构化的科研文献自动转化为标准化的XDL编程指令，并在数字环境中预演以规避物理风险，最终驱动机器人完成自动化合成。研究重点展示了LLM在提取实验参数、逻辑重构及跨硬件平台适配方面的能力，为实现科研文献的自动验证与实验室自动化执行提供了闭环技术路径。",
          "x_post": "格拉斯哥大学提出 LLM 驱动的 Chemputation 系统，实现化学文献到机器人指令的自动化转化与执行\n\n针对化学合成复现难、文献描述存在主观偏差等痛点，研究构建了基于 ACRA 架构的自主研究工作流。该系统利用大语言模型跨越语义鸿沟，将非结构化文献中的实验参数精准编译为标准化的 XDL 编程指令。\n\n技术流程涵盖文献提取、代码翻译、硬件模拟及实体执行四个阶段。通过在物理实验前进行 100% 数字化预演，系统可有效规避逻辑冲突与试剂损耗，确保跨硬件平台的精确适配。实验证明，Chemputation 能将化学反应转化为可分发、无损执行的代码，为构建标准化、自动化的化学发现模式提供了闭环路径。",
          "cover_url": "assets/covers/c19-chemputation-literature-verification-2a85af4f6b.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-07T16:46:51+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A181_GrandCode_Agentic_RL",
      "slug": "a181-grandcode-agentic-rl",
      "detail_url": "papers/a181-grandcode-agentic-rl/",
      "title": "GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning",
      "summary": "这篇论文关注 competitive programming 这一高难代码推理场景。单模型代码生成在复杂竞赛题中容易受限于思路提出、反例构造、测试生成、修补和长程验证之间的耦合，而普通 pass@k 或静态 SFT/RL 很难覆盖真实竞赛中的多阶段搜索过程。\n\nGrandCode 将解题系统组织成多模块 agentic workflow，并引入 Agentic GRPO 来处理多阶段 agent rollout、延迟奖励和严重 off-policy drift。系统包含假设提出、solver、test generator、summarization 等 agent 模块，通过 post-training 与在线 test-time RL 联合改进，而不是只训练一个单次生成器。\n\n它值得收录，因为它把 RLVR/GRPO 明确扩展到多阶段 agent 系统训练，并用 live Codeforces 竞赛作为高压评测场景。论文声称在连续三场 Codeforces live rounds 中排名第一，这使它成为 agentic RL 用于复杂代码推理和竞赛式搜索的高价值参考，不只是普通代码模型榜单。\n\n它不是更高一级，因为结果仍需要更多第三方复核和可复现实验；competitive programming 也是相对特殊的可验证、强测试驱动环境，Agentic GRPO 是否能迁移到开放软件工程、科学研究或网页 agent 任务仍需后续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-03",
      "doi": "",
      "arxiv_id": "2604.02721",
      "collected_at": "",
      "collection_order": 637,
      "source_url": "https://arxiv.org/pdf/2604.02721.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.02721.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW25_FlatAttention_Tile_Accelerators",
      "slug": "hw25-flatattention-tile-accelerators",
      "detail_url": "papers/hw25-flatattention-tile-accelerators/",
      "title": "FlatAttention: Dataflow and Fabric Collectives Co-Optimization for Large Attention-Based Model Inference on Tile-Based Accelerators",
      "summary": "随着 large-model inference 越来越向 tile-based、chip-scale 和 wafer-scale accelerator 迁移，attention 的瓶颈不再只是 kernel 算子本身，而是 tile fabric、HBM 访问和数据流组织方式的整体协同。单纯移植 GPU 上的 FlashAttention 思路，往往无法把新型 fabric 的潜力真正吃满。\n\nFlatAttention 的关键新意，是把 dataflow 与 on-chip fabric collectives 一起联合优化。它针对现代 attention variants 设计新的 tile-based dataflow，显式利用网络 fabric 内置 collective primitives 去压低 HBM 访问，并在 tile-scale 系统上实现高利用率、较大端到端吞吐提升和更低 token latency。真正重要的不是某一个 kernel 数字，而是 attention inference 在这类架构上的组织方式被重写了。\n\n它值得正式收录，因为这类工作符合本仓库对 AI hardware 的严格标准：不是窄设备结果，而是能够改变 AI inference system design 的 reusable co-design pattern。对未来 tile/wafer-scale AI compute 来说，attention 不只是算子实现问题，而是 fabric-aware dataflow problem，这一点被这篇论文讲得很清楚。\n\n它没有升到更高一级，是因为当前证据仍主要集中在 tile-based accelerator family 和作者设定的系统条件下，普适性还需更多平台验证。现阶段它是一个强而清楚的 AI-hardware design pattern，但尚未成为跨架构默认答案。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-04-02",
      "doi": "",
      "arxiv_id": "2604.02110",
      "collected_at": "",
      "collection_order": 636,
      "source_url": "https://arxiv.org/pdf/2604.02110v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.02110v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "节省16倍显存带宽：FlatAttention以片上网络协同优化实现4.1倍注意力提速",
          "url": "https://www.bilibili.com/video/BV1UVDpBzEdu",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1UVDpBzEdu",
            "https://youtu.be/nM4K0tJ8pAQ"
          ],
          "main_collection": "AI硬件设计",
          "match": "flatattention dataflow and fabric collectives co optimization for large attention based model inference on tile based accelerators",
          "description": "针对DeepSeek-v3等大模型在推理过程中，注意力机制算力占比激增且受限于HBM显存带宽的“内存墙”困境，本研究提出FlatAttention数据流优化方案。该方案通过深度整合片上网络（NoC）的硬件级集合通信原语，实现了计算单元间的集群协同与本地内存池化。实验数据表明，在切片式加速器上，FlatAttention相比FlashAttention-3可降低16倍显存流量，实现4.1倍的计算提速，并将矩阵引擎利用率提升至92.3%，为解决长文本生成场景下的硬件瓶颈提供了高效的架构参考。",
          "x_post": "ETH Zürich 与华为等团队发布 FlatAttention，通过 NoC 协同优化实现 16 倍显存流量削减与 4.1 倍提速\n\n在大模型向长文本演进过程中，以 DeepSeek-v3 为代表的模型注意力计算占比已高达 71%，传统单核隔离架构因 HBM 带宽限制面临严重性能瓶颈。FlatAttention 提出一种面向切片式加速器的数据流方案，通过深度整合片上网络（NoC）的硬件级集合通信原语，将多个计算单元转化为统一协作集群，实现 L1 缓存的全局池化。实验数据表明，该方案较 FlashAttention-3 提速 4.1 倍，矩阵引擎利用率提升至 92.3%，并显著降低了显存访问频次。该研究为超大规模混合专家系统（MoE）在硬件受限环境下的高效推理提供了关键的架构参考。",
          "cover_url": "assets/covers/hw25-flatattention-tile-accelerators-7264782bf1.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-09T05:59:37+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C22_NMR_Solver_Structure_Elucidation",
      "slug": "c22-nmr-solver-structure-elucidation",
      "detail_url": "papers/c22-nmr-solver-structure-elucidation/",
      "title": "NMR-Solver: automated structure elucidation via large-scale spectral matching and physics-guided fragment optimization",
      "summary": "这篇工作处理的是化学里一个长期高价值但高度依赖专家经验的逆问题：如何从 1H 和 13C NMR 光谱自动恢复未知小分子结构。传统结构解析虽然成熟，但在复杂样品、陌生骨架和高通量场景下仍然劳动密集、门槛高且难以规模化，直接限制了化学发现与实验闭环的自动化程度。\n\n论文提出 NMR-Solver，把大规模谱图匹配、深度学习和 physics-guided fragment optimization 结合成一个可解释的自动化框架。它不是单纯做 end-to-end 黑箱预测，而是显式利用原子级 structure-spectrum 关系，把谱图检索与物理约束下的结构优化串成统一流程，重点强调真实实验可用性、可解释性和对复杂分子的泛化。\n\n这使它符合本仓库对 AI x chemistry 的高门槛：AI 在这里不是做边缘辅助，而是把结构解析这个核心瓶颈推进成可扩展、可自动化的研究基础设施。相比单一性质预测器，自动结构解析更直接地影响实验效率、分子发现吞吐和后续实验设计，因此有更强的方法复用价值和工作流外溢。\n\n它仍更适合定在 breakthrough。原因是影响力虽然扎实，但当前主要集中在 NMR-driven structure elucidation 这条化学工作流主线，还没有证明会重写更广泛的分子表征与实验自动化范式；另外目前最强证据仍来自作者给出的基准、文献实验和实测任务，后续是否成为标准工具链还需要更多独立采用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-02",
      "doi": "10.1038/s41467-026-71315-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 635,
      "source_url": "https://www.nature.com/articles/s41467-026-71315-0",
      "paper_url": "https://www.nature.com/articles/s41467-026-71315-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "像拼乐高一样组装分子碎片，NMR-Solver全自动输出3D结构，解析准确率突破98%",
          "url": "https://www.bilibili.com/video/BV1o75p6FEUB",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1o75p6FEUB",
            "https://youtu.be/fry-AeNmPVU"
          ],
          "main_collection": "AI化学与材料",
          "match": "nmr solver automated structure elucidation via large scale spectral matching and physics guided fragment optimization",
          "description": "由MIT、斯坦福与哈佛等团队研究的NMR-Solver系统，针对传统核磁共振波谱解析耗时久、极度依赖人工经验及算力瓶颈等痛点，提出了创新的全自动方案。该框架核心在于“双核驱动”架构：有机结合了基于1.06亿分子的大规模光谱数据库检索与物理引导的碎片优化策略，有效避免了AI解析的“黑盒幻觉”。实验数据表明，该系统可将传统长达数月的解析周期缩短至分钟级，解析准确率突破98%，并能纠正文献中现有的结构定性错误。这为高通量化学发现与人工智能辅助合成提供了高效、精准的技术支撑。",
          "x_post": "MIT、斯坦福与哈佛团队研发 NMR-Solver：结合亿级波谱匹配与物理优化，分子结构解析准确率突破 98%\n\n传统核磁共振（NMR）结构解析高度依赖人工经验且周期漫长。该研究提出的 NMR-Solver 采用“双核驱动”架构，将基于 1.06 亿分子的大规模波谱检索与物理引导的片段优化有机结合，有效规避了深度学习模型的“化学幻觉”与纯物理计算的算力瓶颈。\n\n实验数据显示，该系统利用 NMRNet 进行前向光谱预测与迭代精修，可将解析周期从数月缩短至分钟级，解析速度提升约 1000 倍，并在模拟基准测试与真实文献案例中实现了超过 98% 的准确率。该框架不仅能纠正文献中现有的结构定性错误，也为高通量化学发现与人工智能辅助合成提供了具备化学依据的自动化技术支撑。",
          "cover_url": "assets/covers/c22-nmr-solver-structure-elucidation-30d5d9b635.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-28T15:15:27+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A167_ByteRover_Agent_Native_Memory",
      "slug": "a167-byterover-agent-native-memory",
      "detail_url": "papers/a167-byterover-agent-native-memory/",
      "title": "ByteRover: Agent-Native Memory Through LLM-Curated Hierarchical Context",
      "summary": "现有 memory-augmented generation 系统大多把记忆外包给向量数据库、嵌入服务或图数据库，导致“负责存”的流水线并不真正理解“负责用”的知识。结果是语义漂移、多智能体上下文丢失和故障恢复脆弱，记忆层和推理层之间长期割裂。\n\nByteRover 的核心贡献是把记忆变成 agent-native：由同一个 LLM 亲自执行记忆的整理、写入、更新和检索。它用纯 Markdown 维护分层 Context Tree，以显式关系和 Adaptive Knowledge Lifecycle 管理知识成熟度，再通过五级渐进式检索在大多数情况下避免昂贵的 LLM 调用。\n\n它值得正式收录，因为它不是又一个 memory benchmark 小改良，而是提出了清晰的新架构模式：让智能体自己维护可读、可审计、可恢复的上下文树。这条路线和仓库长期关注的 agent memory、capability extension、local-first tooling 高度一致，且具有很强工程实施价值。\n\n它暂时不升到更高一级，原因在于当前写入路径仍然昂贵，对底座模型遵循格式和归纳质量依赖很强，而且当知识库继续扩大时，文件系统和轻量索引方案的伸缩性还需要更多实战验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-02",
      "doi": "",
      "arxiv_id": "2604.01599",
      "collected_at": "",
      "collection_order": 634,
      "source_url": "https://arxiv.org/pdf/2604.01599.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01599.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A163_CORAL_Autonomous_Multi_Agent_Evolution",
      "slug": "a163-coral-autonomous-multi-agent-evolution",
      "detail_url": "papers/a163-coral-autonomous-multi-agent-evolution/",
      "title": "CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery",
      "summary": "这篇论文处理的是 open-ended discovery 中一个很具体但长期没被解决好的问题：让基于大模型的演化式研究系统在长时搜索里真正积累知识，而不是依赖固定 heuristics、手写 exploration rules 和一次性 search loop。作者指出，现有 evolutionary agent 系统虽然已经能在局部任务上改进解，但在持续自治、跨轮知识复用和多 agent 协作上仍然被控制逻辑写死，导致开放式发现能力很难继续扩展。\n\nCORAL 的核心贡献是把进化式 research workflow 改写成长期运行的多 agent 自治系统。系统把 shared persistent memory、asynchronous multi-agent execution 和 heartbeat-based interventions 组合起来，让多个 agent 能并行探索、反思、交换中间发现并持续修正搜索方向；同时配套加入 isolated workspaces、evaluator separation、resource management、session/health management 等 safeguard，把 autoresearch 从单轮 prompt workflow 推到可持续运行的 compound runtime。\n\n仓库里收这篇，不是因为它又在某个 benchmark 上刷高了分，而是因为它把 open-ended discovery 的控制接口从固定策略推进到自演化的多 agent research runtime，且明确把 memory、异步协作、自治干预和安全隔离合到同一个系统蓝图里。它与本仓库已经关注的 research agents、memory-control、AI for science workflow 和自改进 agent 主线都有直接连接，也很可能成为后续 autoresearch / self-evolving agent 工作讨论的参考点。\n\n这篇目前仍是 arXiv 预印本，证据主要来自数学、算法和系统优化任务，而不是更广的真实科学实验闭环或跨组织生产环境；它展示的是一个很强的 runtime pattern，但还没有强到足以改写整个 agent 研究范式。因此这里给 `breakthrough`，而不是更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-02",
      "doi": "",
      "arxiv_id": "2604.01658",
      "collected_at": "",
      "collection_order": 633,
      "source_url": "https://arxiv.org/pdf/2604.01658v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01658v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A158_SKILL0_Skill_Internalization",
      "slug": "a158-skill0-skill-internalization",
      "detail_url": "papers/a158-skill0-skill-internalization/",
      "title": "SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization",
      "summary": "这篇论文关注一个很实际的 agent capability 问题：当前大量 agent skill 机制依赖推理时动态检索和注入 skill 文件，但这样会引入检索噪声、额外 token 开销，也意味着模型并没有真正学会技能，只是在运行时照着外部说明执行。作者因此把目标改成 skill internalization，即把技能从外部上下文迁入模型参数。\n\nSKILL0 的核心方法是一个 in-context reinforcement learning curriculum。训练初期给予完整 skill context，随后动态评估每个 skill 文件对当前策略的 on-policy 帮助程度，并在逐步缩小的预算下持续撤去外部 skill 依赖，直到 agent 在 fully zero-shot 设置下完成任务。作者还把 skill 按类别离线分组，并结合交互历史构造成紧凑上下文，以训练模型掌握 tool invocation 和 multi-turn completion。\n\n这篇工作的仓库价值在于，它不是再做一个 retrieval policy 小修小补，而是给 capability acquisition 提供了一个更强的研究方向：把 skill marketplace / skill retrieval 这条工程路线，与参数内化、持续训练和 agent RL 连接起来。对 agent memory、skill evolution、长期能力积累这些主线都有直接参考价值。\n\n局限也很清楚：目前主要验证仍集中在 ALFWorld 和 Search-QA 这类 agent benchmark，外推到更复杂的企业工具链、真实软件环境和开放世界任务还缺少强证据。因此它更适合作为 `breakthrough` 收录，而不是更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-02",
      "doi": "",
      "arxiv_id": "2604.02268",
      "collected_at": "",
      "collection_order": 632,
      "source_url": "https://arxiv.org/pdf/2604.02268v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.02268v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "赋能大模型实现真正的“内在觉醒”：SKILL0 框架通过参数化技能内化，将智能体任务成功率推向新高度",
          "url": "https://www.bilibili.com/video/BV1BiSUBdEDJ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1BiSUBdEDJ",
            "https://youtu.be/HP1od4uoUEg"
          ],
          "main_collection": "AI智能体",
          "match": "skill0 in context agentic reinforcement learning for skill internalization",
          "description": "针对大模型智能体在执行任务时过度依赖外部技能检索、推理成本高昂且受限于上下文窗口的问题，浙江大学、美团与清华大学联合提出了SKILL0框架。该研究引入了“上下文强化学习”机制，将原本需要显式注入提示词的技能说明书，通过动态课程学习逐步内化为模型的内部参数。技术上，SKILL0利用编码器将冗长的文本交互历史压缩为紧凑特征，并在训练中采用复合奖励函数平衡任务成功率与推理效率。实验结果表明，SKILL0在零样本推理环境下表现优异，任务成功率提升约9.7%，且单步上下文消耗降至0.5k tokens以下，有效解决了智能体在复杂场景下的实时性与自主性挑战。",
          "x_post": "浙江大学、美团与清华大学发布 SKILL0 框架，实现智能体技能内化并提升 9.7% 成功率\n\n针对传统大模型智能体依赖外部检索导致的高 Token 开销与检索噪声问题，研究团队提出了 SKILL0 框架。该框架利用“上下文强化学习”机制，通过动态课程学习将原本需显式注入的技能说明书转化为模型的内部参数。技术上采用编码器将文本交互历史压缩为紧凑特征，并在训练中应用复合奖励函数平衡任务成功率与推理效率。实验结果表明，SKILL0 在零样本推断环境下使任务成功率提升约 9.7%，且单步上下文消耗降至 0.5k tokens 以下。这一工作推动了智能体从“工具依赖”向“完全自主”的范式转变。",
          "cover_url": "assets/covers/a158-skill0-skill-internalization-3cb91ae137.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-05T09:34:32+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A152_EvoSkills_Self_Evolving_Skills",
      "slug": "a152-evoskills-self-evolving-skills",
      "detail_url": "papers/a152-evoskills-self-evolving-skills/",
      "title": "EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification",
      "summary": "随着 agent 从简单 tool call 走向长链任务执行，单一函数式工具已经不够，越来越多能力需要以 skill 的形式被组织成多文件、多步骤、带约束的能力包。现实问题在于，这类 skill 仍高度依赖人工 authoring，成本高，而且容易出现人类预期与模型实际使用方式不一致。\n\nEvoSkills 的核心贡献，是把 self-evolving tools 的思路扩展到更复杂的 skills。它不只是让模型生成 skill，而是让 Skill Generator 与不依赖真实测试内容的 Surrogate Verifier 共同演化：前者持续改写多文件 skill 包，后者提供可操作的反馈信号，从而把复杂 skill 的构造、修正和泛化能力放进一个 co-evolutionary loop。\n\n它值得正式收录，因为它切中的不是单次 benchmark 结果，而是 agent capability acquisition 的更长期问题：如果 skill 可以被自动生成、修正并跨模型泛化，那么 capability extension 就不再只是人工维护库，而会变成自演化系统的一部分。对本仓库已有的 skill discovery、memory skill、self-evolving agent 主线来说，这是一条明显延伸。\n\n它没有升到更高一级，是因为当前验证仍主要集中在 SkillsBench 和若干 coding-agent 模型，外部生态的长期采用还没有形成。现阶段更像非常强的 skill-generation 方法路线，而不是已经成为默认 agent capability layer 的公共基础设施。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-02",
      "doi": "",
      "arxiv_id": "2604.01687",
      "collected_at": "",
      "collection_order": 631,
      "source_url": "https://arxiv.org/pdf/2604.01687v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01687v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A148_ATBench_Long_Horizon_Agent_Safety",
      "slug": "a148-atbench-long-horizon-agent-safety",
      "detail_url": "papers/a148-atbench-long-horizon-agent-safety/",
      "title": "ATBench: A Diverse and Realistic Trajectory Benchmark for Long-Horizon Agent Safety",
      "summary": "随着 LLM agents 进入真实工具环境，风险越来越多地在长轨迹中逐步显现，而不是在单轮 prompt 或最终回复上直接暴露。现有 agent safety benchmark 往往要么交互太短，要么故障类型和工具环境过于简化，因此很难支撑真正的 long-horizon safety diagnosis。\n\nATBench 的核心贡献是把 trajectory-level agent safety 做成更接近真实部署的 benchmark。它用 risk source、failure mode、real-world harm 三个维度组织 taxonomy，构造带 delayed trigger 的长上下文轨迹，并引入异构 tool pools 与全人工审计。最终数据集包含 1000 条轨迹、近两千次 tool invocation 和明显更强的长程风险暴露结构。\n\n它值得正式收录，因为这不是又一个普通安全数据集，而是为 long-horizon agents 提供了更 durable 的 evaluation target。对我们关心的 secure computer-use、governed execution、trajectory diagnosis、agent safety guardrails 等方向来说，它提供了更像现实世界的统一测试面，也更利于后续工作做分层风险分析而不是只报单一安全分数。\n\n它没有升到更高一级，是因为当前贡献仍主要停留在 benchmark、taxonomy 和评测层，而不是提出新的 agent safety training 或 execution architecture。它很可能会成为这条子线的重要参考，但是否足以重塑整个 agent safety 默认标准，还需要生态采用来验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-02",
      "doi": "",
      "arxiv_id": "2604.02022",
      "collected_at": "",
      "collection_order": 630,
      "source_url": "https://arxiv.org/pdf/2604.02022v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.02022v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "警惕智能体长周期的“延时炸弹”：ATBench 引入轨迹透视机制，扫清多步交互中的隐蔽风险",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "atbench a diverse and realistic trajectory benchmark for long horizon agent safety",
          "description": "随着大语言模型智能体从单轮对话演进到长周期多步交互，安全风险也从显式攻击转向隐蔽的“延时炸弹”。现有基准测试由于缺乏轨迹观测性和工具多样性，难以捕捉动态演变中的风险。ATBench 填补了这一空白，它通过 1,000 条真实交互轨迹和 2,084 个异构工具，构建了覆盖风险来源、失效模式与现实危害的 3D 评价体系。其引入的延迟触发协议能有效模拟“早期埋点、后期引爆”的复杂威胁。实验显示，即使是顶级模型在处理高 Token 消耗的长轨迹时，仍面临严重的隐私泄露和违规动作风险。该工具为开发高鲁棒性智能体提供了精细化诊断平台，明确了当前模型在复杂环境执行中的安全边界。",
          "x_post": "上海AI实验室、复旦、清华等发布 ATBench，利用 1,000 条真实轨迹与 2,084 个工具评估长周期智能体安全。\n随着智能体从单轮对话演进至多步交互，安全风险正从显式攻击转向由环境观察和外部实体注入引发的“延时炸弹”。\nATBench 引入 3D 安全分类法与延迟触发协议，通过异构工具池模拟“早期埋点、后期引爆”的复杂交互场景。\n实验数据显示，测试轨迹平均 Token 消耗达 3.95k；即使是顶级模型在长周期任务中，仍表现出显著的隐私泄露与越权操作风险。\n该研究通过细粒度的轨迹透视机制，明确了当前智能体在复杂环境执行中的安全边界，为构建高鲁棒性防御模型提供了关键平台。",
          "cover_url": "assets/covers/a148-atbench-long-horizon-agent-safety-fe55414881.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-06T09:32:09+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "W4_AI_Weather_Pipeline_Theory",
      "slug": "w4-ai-weather-pipeline-theory",
      "detail_url": "papers/w4-ai-weather-pipeline-theory/",
      "title": "The Recipe Matters More Than the Kitchen:Mathematical Foundations of the AI Weather Prediction Pipeline",
      "summary": "AI weather prediction 近年来进展很快，但理论解释一直比较碎片化：有人讨论架构，有人讨论数据，有人讨论损失函数，却缺少一个能把整个预测流水线统一起来的数学框架。这使得很多经验观察虽然反复出现，例如训练 recipe 和数据常比架构更重要，却缺少系统性的理论支撑。\n\n论文把 approximation theory on the sphere、dynamical systems、information theory 和 statistical learning theory 接到一起，提出针对完整 AI weather pipeline 的统一框架。作者给出 Learning Pipeline Error Decomposition，论证在当前规模下 estimation error 往往压过 approximation error；同时还提出 Loss Function Spectral Theory 来刻画 MSE 带来的 spectral blurring，并推导 OOD extrapolation bounds 来解释极端事件系统性低估。\n\n这篇工作值得收录，因为它不是又一个天气模型，而是在解释为什么当前 AI weather 该这样训练与评估。对科学机器学习、地球系统建模和更广的 pipeline-sensitive foundation modeling 来说，这类理论澄清具有超出天气领域本身的价值。\n\n它没有升到更高一级，是因为它目前更像一篇强理论整合与解释性工作，而不是已经引出全新 operational pipeline 的范式替代。它很有长期参考价值，但暂时仍属于高质量理论突破。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "weather_climate_and_earth_systems",
      "theme_label": "天气、气候与地球系统",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.01215",
      "collected_at": "",
      "collection_order": 629,
      "source_url": "https://arxiv.org/pdf/2604.01215.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01215.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T25_T2_Compute_Optimal_Overtraining",
      "slug": "t25-t2-compute-optimal-overtraining",
      "detail_url": "papers/t25-t2-compute-optimal-overtraining/",
      "title": "Test-Time Scaling Makes Overtraining Compute-Optimal",
      "summary": "Chinchilla 这类经典预训练 scaling law 默认把训练阶段当作主要预算对象，但在 test-time scaling 成为默认能力放大手段后，这种分离式看法已经不够。真正的问题不再只是“多大模型配多少 token 最优”，而是训练规模和推理采样成本在端到端预算下如何联合最优。\n\n这篇工作提出 Train-to-Test (T²) scaling laws，把模型大小、训练 token 数和 inference sampling 次数一起纳入统一优化。核心结论很反直觉：一旦把 inference cost 真正算进去，compute-optimal 的预训练策略会显著偏向 overtraining，而不是传统 scaling suite 常见的平衡点。\n\n它值得正式收录，因为它直接改写了 test-time scaling 时代的 compute-optimal 讨论框架。对训练资源分配、部署预算设计和 reasoning model 的 end-to-end economics，这种联合 scaling 视角有明显持久价值。\n\n它暂时不升到更高一级，原因在于当前仍主要建立在一组任务和建模假设上的经验验证。它已经是强 framing paper，但是否会成为后续大模型训练决策的普适准绳，还要看更广模型族和生产场景的验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.01411",
      "collected_at": "",
      "collection_order": 628,
      "source_url": "https://arxiv.org/pdf/2604.01411.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01411.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "37M小模型逻辑推理反超24倍巨量架构：T2定律揭秘测试时缩放如何重塑算力平衡",
          "url": "https://www.bilibili.com/video/BV1KNQuBaEHo",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1KNQuBaEHo",
            "https://youtu.be/y1HtKyuYTXU"
          ],
          "main_collection": "AI物理与科学计算",
          "match": "test time scaling makes overtraining compute optimal",
          "description": "传统Chinchilla定律忽视了推理端的采样成本，导致大模型在复杂任务中的部署开销巨大。本研究提出T2（Train-to-Test）缩放定律，首次将模型参数量、训练数据量与推理采样次数纳入统一优化框架。通过对百余个5M至901M参数模型的实验验证，发现在总算力预算固定时，减小模型体积并进行“超额训练”能获得更优的推理性能。实验证明，37M小模型在推理算力重分配后，逻辑推理准确率提升显著，性能反超参数量达24倍的传统架构。该定律为低延迟、高精度模型的高效部署提供了关键的数学指南。",
          "x_post": "研究团队发布 T2 缩放定律：37M 过度训练小模型逻辑推理能力反超 24 倍规模架构\n\n传统 Chinchilla 定律在优化时忽略了推理端的重复采样成本。T2 (Train-to-Test) 缩放定律首次将模型参数量、训练数据量与推理采样次数纳入统一优化框架，旨在实现训练与推理算力的全局平衡。通过对 100 余个 5M 至 901M 参数模型的实验验证，研究发现在总算力预算固定时，减小模型体积并进行“超额训练”能获得更优的推理表现。实验数据显示，37M 小模型在算力重分配后，逻辑推理准确率提升 214%，性能优于参数量达 24 倍的传统模型。该定律为低延迟、高精度大模型在推理资源受限环境下的部署提供了关键的数学指南。",
          "cover_url": "assets/covers/t25-t2-compute-optimal-overtraining-31f8e24bcf.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-11T01:37:13+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "S4_CliffSearch_Algorithm_Discovery",
      "slug": "s4-cliffsearch-algorithm-discovery",
      "detail_url": "papers/s4-cliffsearch-algorithm-discovery/",
      "title": "CliffSearch: Structured Agentic Co-Evolution over Theory and Code for Scientific Algorithm Discovery",
      "summary": "LLM-guided algorithm discovery 现在越来越多，但很多系统只优化代码产物和最终分数，弱化了理论结构、正确性约束和原创性判断，导致搜索过程更像 benchmark hacking，而不是科学意义上的算法发现。CliffSearch 试图把这一点纠正回来。\n\n论文提出一个 agentic evolutionary framework，把每个搜索节点都表示为 structured scientific artifact，可以是 theory+code，也可以是 code_only；pair selection、crossover、mutation、review 等演化算子都由 LLM agents 执行，但 reviewer 对 correctness 与 originality 的判断被提升为第一类 selection gate，而不只是附带说明。作者还把 mutation 分成 exploration 与 correction 两条路径，分别处理新颖性引入和证据驱动修复。\n\n这篇工作值得收录，因为它把 agentic scientific discovery 从代码搜索推进到‘理论与代码共演化’。这对 optimizer discovery、algorithm search、scientific coding agents 和更广的 AI for science workflow 都有很强的方法外溢，也和 AlphaEvolve 之后大家真正关心的‘如何把 discovery process 结构化’直接相关。\n\n它没有升到更高一级，是因为当前主要还是在若干 benchmark-grounded case study 上展示统一框架，尚未证明这套 reviewer-gated theory+code co-evolution 会成为主流 scientific discovery agent 的默认蓝图。它非常值得收，但还不到更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.01210",
      "collected_at": "",
      "collection_order": 627,
      "source_url": "https://arxiv.org/pdf/2604.01210.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01210.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL27_BAT_Humanoid_Control",
      "slug": "rl27-bat-humanoid-control",
      "detail_url": "papers/rl27-bat-humanoid-control/",
      "title": "BAT: Balancing Agility and Stability via Online Policy Switching for Long-Horizon Whole-Body Humanoid Control",
      "summary": "长时程 humanoid whole-body control 的难点不只是在单个 controller 上再堆一点性能，而是在 agility、stability 与 precision 三者之间始终存在结构性冲突。现有方法通常要么走 coupled whole-body policy，强调全局协调；要么走 decoupled modular policy，强调局部精度，但缺乏稳定的在线整合机制。\n\nBAT 提出在线 policy switching 框架，在两类互补的 whole-body RL controllers 之间动态切换。它由两个核心模块组成：一是用 hierarchical RL 学到的 switching policy，并结合 sliding-horizon policy pre-evaluation 的 expert guidance；二是 option-aware VQ-VAE，根据离散 motion token 序列预测 option preference。最终系统通过 confidence-weighted fusion 做在线决策，在不同 motion context 下平衡 agility 与 stability。\n\n这篇工作值得收录，因为它抓住了 humanoid control 中一个很耐久的问题：不是哪种单一路线绝对更强，而是如何把互补 controller 变成真正可在线组合的长时控制机制。它对 whole-body loco-manipulation、online control arbitration 和长时程机器人行为组织都有清晰的复用价值。\n\n它没有升到更高一级，是因为当前方法仍主要服务于 humanoid whole-body control 这条子线，虽然工程和方法价值都很强，但还没有达到重写更广泛 embodied control 训练范式的程度。它是强机器人方法论文，但外溢范围仍相对聚焦。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.01064",
      "collected_at": "",
      "collection_order": 626,
      "source_url": "https://arxiv.org/pdf/2604.01064.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01064.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL25_EgoNav_Humanoid_Navigation",
      "slug": "rl25-egonav-humanoid-navigation",
      "detail_url": "papers/rl25-egonav-humanoid-navigation/",
      "title": "Learning Humanoid Navigation from Human Data",
      "summary": "humanoid navigation 通常依赖大量机器人自身数据、任务特定训练和后续 finetuning，因此跨环境泛化成本很高。EgoNav 提出的核心问题是：能不能直接从人类行走数据里学到足够强的 navigation prior，再零样本迁移到 humanoid 机器人。\n\n论文给出一套完整系统：用 5 小时 human walking data 训练 diffusion trajectory predictor，以过去轨迹、融合 color/depth/semantics 的 360 度 visual memory，以及来自冻结 DINOv3 的视频特征为条件，预测 plausible future trajectories；再用 hybrid sampling 和 receding-horizon controller 做实时路径选择。作者在离线 collision avoidance、多模态覆盖评估以及 Unitree G1 零样本真实部署中验证，显示等待开门、绕开人群和避开玻璃墙等行为可以自然涌现。\n\n这篇工作值得收录，因为它展示了一个很强的 robotics pattern：先从 human data 学 navigation prior，再把它投到 humanoid control 上，而不是从机器人数据集里硬堆。对 embodied learning、human-to-robot transfer 和 real-world humanoid generalization，这种路线有明显复用价值。\n\n它没有升到更高一级，是因为当前任务仍聚焦 humanoid navigation，且实证规模还不足以证明这一人类数据优先路线能全面改写更广的 embodied learning 栈。它很强，但还是具体子线中的强推进。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00416",
      "collected_at": "",
      "collection_order": 625,
      "source_url": "https://arxiv.org/pdf/2604.00416.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00416.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R47_HiLL_Hint_Learning",
      "slug": "r47-hill-hint-learning",
      "detail_url": "papers/r47-hill-hint-learning/",
      "title": "Learning to Hint for Reinforcement Learning",
      "summary": "基于可验证奖励的 LLM 强化学习已经成为推理后训练的主线之一，但它有一个非常实际的失败模式：当题目太难、一个 rollout group 全错时，相对优势就是零，训练完全没有更新信号。给模型加 hints 看起来是自然补救，但固定 hints 往往会让模型学会依赖提示，而不是把能力迁移回无提示场景。\n\nHiLL 的关键贡献是把 hinter 和 reasoner 一起放进在线 RL 中共同训练。它不仅让 hinter 根据当前 reasoner 的失败轨迹动态生成提示，还进一步提出 hint reliance 和 transfer-weighted reward：只有那些既能恢复非零学习信号、又不会让正确轨迹过度依赖提示的 hints，才会得到高奖励。\n\n它值得正式收录，因为它把 hinting 从 ad-hoc scaffold 变成了一个有理论约束的 RL 接口。对于 GRPO、RLVR、课程学习以及 reasoning policy 的能力引出，这种“创造信号但不过度喂答案”的框架具有明显可复用性。\n\n它暂时不升到更高一级，原因在于训练成本显著增加，而且当前方法仍依赖参考答案和较结构化的评测场景。它是很强的 reasoning RL 推进，但尚未证明会成为通用后训练默认范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00698",
      "collected_at": "",
      "collection_order": 624,
      "source_url": "https://arxiv.org/pdf/2604.00698.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00698.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R46_Stochastic_Attention_Routing",
      "slug": "r46-stochastic-attention-routing",
      "detail_url": "papers/r46-stochastic-attention-routing/",
      "title": "Stochastic Attention: Connectome-Inspired Randomized Routing for Expressive Linear-Time Attention",
      "summary": "高效注意力长期面临一个结构瓶颈：滑动窗口和大多数线性时间方案虽然把复杂度压下来了，但代价通常是全局路由能力显著下降，感受野扩展非常慢。很多工作只能在复杂稀疏模式、额外路由器或自定义 kernel 之间做折中。\n\n这篇工作的核心是 Stochastic Attention。它在窗口注意力前先对 token 做随机重排，计算完局部窗口注意力后再恢复原顺序，从而把固定局部窗口变成随机全局窗口。跨层使用独立随机排列后，感受野会以指数速度扩展；再和标准 SWA 做门控组合，就形成了兼顾局部聚集与全局捷径的小世界式注意力结构。\n\n它值得正式收录，因为这不是又一种复杂稀疏 pattern，而是一个极简、可复用、训练和推理都能接的路由原语。对于长上下文、线性时间注意力和 training-free inference acceleration，这种随机化全局路由接口都有明显方法外溢。\n\n它暂时不升到更高一级，原因在于当前从头训练实验的规模仍有限，而且纯 SA 本身会破坏局部语义，仍需要和 SWA 组合使用。它已经是很强的结构推进，但是否会成为默认注意力路线还要看更大规模验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00754",
      "collected_at": "",
      "collection_order": 623,
      "source_url": "https://arxiv.org/pdf/2604.00754.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00754.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R45_SSD_Code_Generation",
      "slug": "r45-ssd-code-generation",
      "detail_url": "papers/r45-ssd-code-generation/",
      "title": "Embarrassingly Simple Self-Distillation Improves Code Generation",
      "summary": "代码生成后训练通常依赖执行反馈、验证器、教师模型或 RL 流水线，导致成本高、实现复杂，而且很难把方法推广到不同模型规模与训练设定。真正有价值的问题是：模型能否只用自己的原始输出就系统性变强。\n\n这篇工作给出的答案是可以。它提出极简自蒸馏 SSD：直接采样模型自己的未经验证输出，再用标准 SFT 回灌训练。论文进一步把收益解释为对 token 分布的上下文依赖式重塑：在需要精确锁定的地方压掉长尾干扰项，在需要探索分叉的地方保留头部多样性，从而缓解代码生成里的精度-探索冲突。\n\n它值得正式收录，因为它用极低复杂度的 post-training recipe 换来了显著的代码生成提升，并且不是单纯报告分数，而是给出了关于解码分布几何和为什么 decode-only 调参不够的清晰解释。这对代码模型和更广义的后训练设计都很有参考价值。\n\n它暂时不升到更高一级，原因在于当前证据仍主要集中在代码生成这一高结构化场景，而且小模型上出现了跨域性能代价，说明方法的普适边界还没有完全厘清。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.01193",
      "collected_at": "",
      "collection_order": 622,
      "source_url": "https://arxiv.org/pdf/2604.01193.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01193.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "AI代码通过率飞跃式提升30%：SSD极简自我蒸馏实现“左脚踩右脚”式进化",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "embarrassingly simple self distillation improves code generation",
          "description": "该研究针对大语言模型在代码生成中面临的严谨性与创造性矛盾，提出了一种名为“极简自我蒸馏”（SSD）的创新方法。传统方案在确保语法准确与探索多元解法间难以兼得，而SSD通过调高模型温度释放潜力，并利用底层截断机制过滤语法噪声。实验证明，在Llama与Qwen等模型上，该方法即便无需人工标注或强化学习，也能使代码一次通过率相对提升30%，高难度题目解决率提升15.3%。这一成果意味着AI能以极低成本实现自我进化，在面对复杂编程逻辑时卡壳率更低、思路更多样，为构建低成本、高效率的自我迭代智能体提供了重要参考。",
          "x_post": "SSD极简自我蒸馏实现Qwen与Llama代码生成率相对提升30%\n\n大语言模型在代码任务中常面临语法严谨性（Lock）与逻辑发散性（Fork）的权衡困境。传统低温解码虽能维持语法正确，但显著抑制了复杂算法的探索能力。\n研究提出简单自我蒸馏（SSD）方法，核心在于调高模型温度以释放生成潜力，并配合底层截断机制过滤语法杂质，随后利用这些未经外部验证的原始数据进行监督微调。\n实验数据表明，SSD在不同规模模型上展现出强泛化性，使代码一次通过率相对提升30%，高难度题目解决率提升15.3%。\n该成果证实模型即便不依赖人工标注、外部老师或强化学习，仅凭自身生成的非完美数据也能实现逻辑能力的显著内化与进化。",
          "cover_url": "assets/covers/r45-ssd-code-generation-5ddaa23dba.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-13T16:06:15+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R38_SyCo_Open_Set_Adaptation",
      "slug": "r38-syco-open-set-adaptation",
      "detail_url": "papers/r38-syco-open-set-adaptation/",
      "title": "Learning from Many and Adapting to the Unknown in Open-set Test Streams",
      "summary": "LLM 在真实部署里面对的往往不是静态测试集，而是不断变化、混合已知与未知任务的开放测试流。传统 test-time adaptation 多半依赖手工设计的无监督目标，并直接在全参数空间上更新，结果容易破坏源域知识，也缺少对非平稳适应信号可靠性的控制。\n\n这篇工作提出 SyCo，把 open-set test streams 下的 LLM 适应做成 parameter-efficient adaptation。方法通过低秩适配器更新实现快速塑性，并用两条生物启发的控制路径来约束适应：Rac1 把更新限制在对源域知识影响更小的 tail-gradient 子空间，MAPK 则通过分层控制器抑制噪声更新、巩固真正有用的适应。论文同时提出 MOA（Multi-source Open-set Adaptation）设定，把多个源任务训练后的模型放入持续出现已知/未知任务且标签、意图部分重叠的非平稳测试流中评测。\n\n这篇工作值得收录，因为它把 test-time adaptation 从静态、闭集、单源设定推进到更贴近部署现实的 multi-source open-set 流式场景，并且给出了低秩适配器 + 结构化适应控制的可复用模式。对 deployment-time learning、continual adaptation 和 open-world LLM specialization，这是一条很有延展性的路线。\n\n它没有升到更高一级，是因为当前仍主要是在 test-time adaptation 这条活跃子线里做出很强推进，而不是已经改写整个 post-deployment learning 范式。MOA 设定和 SyCo 方法都很有价值，但外部采用信号还需要时间积累。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00533",
      "collected_at": "",
      "collection_order": 621,
      "source_url": "https://arxiv.org/pdf/2604.00533.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00533.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "借鉴果蝇大脑记忆重塑机制：SyCo 框架攻克大模型在未知环境下灾难性遗忘的行业难题",
          "url": "https://www.bilibili.com/video/BV18fSXB4E9y",
          "platform_urls": [
            "https://www.bilibili.com/video/BV18fSXB4E9y",
            "https://youtu.be/De2l4xMAB6c"
          ],
          "main_collection": "大模型架构与推理",
          "match": "learning from many and adapting to the unknown in open set test streams",
          "description": "针对大语言模型在开放域非平稳数据流下易发生灾难性遗忘和表示漂移的难题，本研究提出一种生物启发式插件适配方法SyCo。该框架模拟果蝇大脑的Rac1与MAPK双通路机制：Rac1通路通过低秩子空间重构锁定核心权重以保护源知识，释放弹性插槽；MAPK通路则利用基于熵、似然及一致性的三重门控实现可靠性感知，有效过滤更新噪声。实验基于新提出的多源开放集适配（MOA）评测设定，在18个NLP数据集上验证了其在应对未知任务和分布偏移时的优越性，为大模型在动态生产环境中的稳健部署提供了兼具塑性与稳定性的方案。",
          "x_post": "清华大学与北京科技大学团队提出 SyCo 框架：实现未知任务适应 78.31% SOTA 性能\n针对大语言模型在动态开放环境（MOA）下易发生灾难性遗忘与表示漂移的难题，本研究受果蝇大脑记忆重塑机制启发，提出仿生插件式适配方法。\n核心技术包含 Rac1 和 MAPK 双通路：Rac1 通过 SVD 低秩子空间重构锁定核心权重以保护原始知识，MAPK 利用基于熵、似然及一致性的三重门控实现可靠性感知更新。\n实验基于 18 个 NLP 数据集验证，SyCo 在应对未知任务与数据分布偏移时的性能分别达到 78.31% 和 85.37%，均创下当前领先水平。\n该研究为大模型在真实世界非平稳数据流中的稳健部署提供了兼具塑性与稳定性的技术路径。",
          "cover_url": "assets/covers/r38-syco-open-set-adaptation-5e9b613649.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-05T19:39:00+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R33_Adaptive_Parallel_MCTS",
      "slug": "r33-adaptive-parallel-mcts",
      "detail_url": "papers/r33-adaptive-parallel-mcts/",
      "title": "Adaptive Parallel Monte Carlo Tree Search for Efficient Test-time Compute Scaling",
      "summary": "test-time compute scaling 已经成为提升 reasoning LLM 的一条主线，但 MCTS 这类方法在真实系统里很容易被长尾延迟拖垮。问题不只是平均性能，而是不同 query 的 search depth 和 search usefulness 高度不均，最终让线上系统在 p99 latency、资源争用和吞吐稳定性上付出很大代价。\n\n论文针对这一痛点提出 adaptive parallel MCTS。核心不是单纯更快地跑搜索，而是增加 negative early exit 来主动剪掉无进展的 search branch，再用 adaptive boosting 机制把回收的预算重新分配给仍值得继续的并发搜索，从而在保持 reasoning accuracy 的同时改善尾延迟和资源利用。作者还把实现接进 vLLM，强调其系统落地性。\n\n这篇工作值得收录，因为它把 TTCS 从“多给算力就行”的研究叙事推进到更接近线上可部署的调度与预算控制问题。对 reasoning serving、search-based decoding 和 inference-time adaptation infra，这种对 tail latency 与 parallel contention 的显式处理具有明显复用价值。\n\n它没有升到更高一级，是因为方法仍然建立在既有 MCTS/TTCS 框架之上，更像把这一条路线做对、做稳，而不是改写 test-time reasoning 的总体范式。它是很强的系统化推进，但还不是更高层级的方向重构。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00510",
      "collected_at": "",
      "collection_order": 620,
      "source_url": "https://arxiv.org/pdf/2604.00510.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00510.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R31_Doctor_RAG_Failure_Repair",
      "slug": "r31-doctor-rag-failure-repair",
      "detail_url": "papers/r31-doctor-rag-failure-repair/",
      "title": "Doctor-RAG: Failure-Aware Repair for Agentic Retrieval-Augmented Generation",
      "summary": "Agentic RAG 在多跳问答和复杂知识推理里已经很常见，但随着 reasoning trajectory 变长，失败点也越来越多。很多系统要么只会做失败诊断，要么干脆把整条 retrieval-reasoning pipeline 从头重跑，既贵又浪费已经验证过的正确前缀。Doctor-RAG 的价值就在于把这个 repair 问题拆细。\n\n论文提出 diagnose-and-repair 的统一框架，先做 trajectory-level failure diagnosis 与 localization，把错误归入 coverage-gated taxonomy，并找出最早失败点；然后只在该局部位置做 tool-conditioned local repair，同时最大化复用已验证通过的 reasoning prefixes 和 retrieved evidence。这样一来，错误归因和修复被显式解耦，系统既能更精确定位失败，也避免了昂贵的全流程重跑。\n\n这篇工作值得收录，因为它把 Agentic RAG 的改进方向从‘再跑一次’推进到‘局部失败修复’，这对 agent reliability、tool use 和 retrieval-reasoning orchestration 都有清晰外溢。它不是单一 benchmark 上的 patch，而是一种更耐用的 trajectory repair pattern。\n\n它没有升到更高一级，是因为当前仍主要围绕 multi-hop QA 和若干 Agentic RAG baselines 验证，尚未证明会成为更广泛 agent pipeline 的通用修复接口。它很值得收，但还不到更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00865",
      "collected_at": "",
      "collection_order": 619,
      "source_url": "https://arxiv.org/pdf/2604.00865.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00865.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R30_TR_ICRL_Test_Time_Rethinking",
      "slug": "r30-tr-icrl-test-time-rethinking",
      "detail_url": "papers/r30-tr-icrl-test-time-rethinking/",
      "title": "TR-ICRL: Test-Time Rethinking for In-Context Reinforcement Learning",
      "summary": "In-Context Reinforcement Learning 试图让 LLM 直接在上下文中从外部 reward 学习，但一到真实推理阶段就会碰到一个根本问题：模型往往拿不到 ground truth，因此 reward estimation 本身变得不可靠。TR-ICRL 关注的正是这个关键短板。\n\n论文提出 Test-Time Rethinking for In-Context Reinforcement Learning，通过从未标注 evaluation set 中检索相关实例，再让模型为这些实例生成多组候选答案，利用 majority voting 构造 pseudo-label，并据此生成 reward messages 与 formative feedback，驱动多轮迭代 refinement。最后再把这些综合上下文与原问题拼接，形成最终推理 prompt。换句话说，它把 test-time unlabeled data 变成了一种可循环利用的伪反馈源。\n\n这篇工作值得收录，因为它把 ICRL 从单轮上下文适配推进到 test-time iterative improvement loop，形成了更完整的 in-context adaptation pattern。它与仓库持续扩展的 test-time learning、deployment-time adaptation 和 reasoning control 方向高度一致，属于可复用的方法模式。\n\n它没有升到更高一级，是因为当前方案仍较依赖特定的 pseudo-labeling 和 majority-vote 设计，是否能成为更广 ICRL 或 TTL 的标准组件还需要更多跨任务、跨模型验证。它有效且有启发，但还不是更高层级的统一框架。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00438",
      "collected_at": "",
      "collection_order": 618,
      "source_url": "https://arxiv.org/pdf/2604.00438.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00438.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R29_Universal_YOCO_Depth_Scaling",
      "slug": "r29-universal-yoco-depth-scaling",
      "detail_url": "papers/r29-universal-yoco-depth-scaling/",
      "title": "Universal YOCO for Efficient Depth Scaling",
      "summary": "test-time scaling 让 LLM 的推理和 agentic 能力显著提升，但标准 Transformer 在推理时做深度扩展并不高效：循环计算带来高额重复开销，而 KV cache 也会随着深度和长度一起膨胀。Universal YOCO 的出发点就是解决这种 inference-time depth scaling 的结构瓶颈。\n\n论文把 YOCO 的 decoder-decoder 架构与 recursive computation 结合，提出 Universal Self-Decoder，在参数共享下执行多轮迭代，但把递归限制在更浅、更高效的 attention 层中。这样一来，YOCO 的 constant global KV cache 和 linear prefill 保留下来，而部分递归又能以较低额外代价增加表示深度。结果是 capability-efficiency tradeoff 比单独用 YOCO 或单独做 recursion 更好。\n\n这篇工作值得收录，因为它给高效深度扩展提供了清晰的新 pattern：把高效注意力架构和递归深度计算耦合，而不是在标准 Transformer 上直接堆 test-time compute。对于长上下文、高效推理和可扩展 reasoning stack，这种结构接口有持续参考价值。\n\n它没有升到更高一级，是因为当前仍然建立在 YOCO 这条特定架构路线之上，是否会外溢成更广泛的默认深度扩展方案还需要后续验证。它是很强的结构推进，但还不是明确的路线重写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.01220",
      "collected_at": "",
      "collection_order": 617,
      "source_url": "https://arxiv.org/pdf/2604.01220.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01220.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R28_OBD_LLM_Low_Rank",
      "slug": "r28-obd-llm-low-rank",
      "detail_url": "papers/r28-obd-llm-low-rank/",
      "title": "Optimal Brain Decomposition for Accurate LLM Low-Rank Approximation",
      "summary": "低秩分解已经成为 LLM 压缩、部署和高效适配中的常见工具，但很多方法仍主要围绕输入侧激活白化或简单 SVD 展开，对分解误差与模型损失之间的关系建模并不充分。这使得不少低秩近似方法虽然实用，却仍然更像经验手艺而不是真正最优的分解方案。OBD-LLM 针对的就是这个问题。\n\n论文利用二阶 Hessian 信息重新推导 LLM 权重分解问题，通过 Kronecker 因子化显示最优分解需要同时考虑层的输入与输出信息，而不是只看输入统计。基于这一点，作者提出 bi-directional whitening 的 loss-aware decomposition，并给出 closed-form solution，用更严格的模型空间视角取代单侧白化近似。实验上，相比 SVD-LLM 等已有方法报告了约 20% 到 40% 的改进。\n\n这篇工作值得收录，因为它把低秩分解从经验性压缩技巧推进成更清晰的二阶优化对象。对仓库关注的低秩方法、模型压缩和可复用适配接口来说，这种从 Hessian 结构出发的 closed-form decomposition 有明显长期价值，不只是一次局部提分。\n\n它没有升到更高一级，是因为当前影响仍主要集中在 LLM low-rank approximation 这条子线，外溢范围还不足以重写更广泛的 PEFT 或部署范式。它是很强的方法推进，但暂时还不是路线级变化。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00821",
      "collected_at": "",
      "collection_order": 616,
      "source_url": "https://arxiv.org/pdf/2604.00821.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00821.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R27_Routing_Free_MoE",
      "slug": "r27-routing-free-moe",
      "detail_url": "papers/r27-routing-free-moe/",
      "title": "Routing-Free Mixture-of-Experts",
      "summary": "Mixture-of-Experts 已成为扩展模型容量和训练效率的核心路线，但现有主流设计几乎都默认依赖一个集中式 router，再配上 softmax、top-k 和显式 load balancing 规则。这套结构虽然有效，却也把很多设计选择提前硬编码进了系统，限制了专家激活与资源分配方式的可塑性。Routing-Free MoE 直接把这个默认前提拿掉。\n\n论文提出 Routing-Free MoE，把专家激活功能完全收回到各个 expert 内部，不再使用外部 router、Softmax、Top-K 或固定的负载均衡模块，而是通过连续梯度流直接优化专家自身的激活行为。作者同时引入统一的 adaptive load-balancing framework，在 expert-balancing 与 token-balancing 之间做可配置插值，让资源分配目标本身也成为可调设计变量，而不是预先钉死的规则。\n\n这篇工作值得收录，因为它不是在 MoE router 上做局部修补，而是在重写 MoE 的组织方式：从 centralized routing 转向 expert-local activation。这种改变具有明确的结构外溢，可能影响后续 MoE 的路由、扩展性、鲁棒性和资源调度设计，属于会改变问题处理方式的工作。\n\n它没有升到更高一级，是因为当前证据仍主要来自作者论文中的实验与分析，外部采用和跨模型大规模验证还没有形成。它已经足够显示出 disruptive 意味，但是否会成为新的主流 MoE 蓝图，还需要更多后续工作确认。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00801",
      "collected_at": "",
      "collection_order": 615,
      "source_url": "https://arxiv.org/pdf/2604.00801.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00801.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结 MoE 架构的零和博弈：RFMoE 凭借去中心化范式，在提升模型精度的同时大幅释放吞吐量",
          "url": "https://www.bilibili.com/video/BV1ZQ9PBrE86",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1ZQ9PBrE86",
            "https://youtu.be/QG9ao0QZBt8"
          ],
          "main_collection": "大模型架构与推理",
          "match": "routing free mixture of experts",
          "description": "传统 MoE 架构依赖中心化路由器、Softmax 和 TopK 机制，导致训练不稳定、参数容量受限及专家间的“零和博弈”困境。本视频深度解析 Routing-Free MoE（RFMoE）架构，该方案彻底移除中央路由器，通过在专家内部封装激活功能，使其基于内部置信度得分和 ReLU 函数实现自主激活。研究引入了统一自适应负载均衡框架，利用滑动参数动态平衡令牌端与专家端的资源分配。实验证明，RFMoE 在 9 大下游任务中显著提升了平均准确率，并有效增强了训练稳定性与推理吞吐量，为大规模模型去中心化扩展提供了新路径。",
          "x_post": "LMU 与 UCLA 团队提出 Routing-Free MoE (RFMoE)，去中心化架构使 9 大任务平均准确率提升 0.77%\n\n传统 MoE 架构依赖中心化路由器、Softmax 及 TopK 机制，导致专家间存在“零和博弈”困境并限制了模型容量扩展。RFMoE 彻底移除中央路由器，使专家基于内部置信度得分与 ReLU 函数实现自主激活，从根本上解决了中心化瓶颈。\n\n研究引入统一自适应负载均衡框架，通过滑动参数动态平衡令牌端与专家端的资源分配。实验数据证实，该方案在提升模型精度的同时，显著增强了训练稳定性与推理吞吐量。此架构支持专家并行与异步通信，为构建超大规模去中心化语言模型提供了高效路径。",
          "cover_url": "assets/covers/r27-routing-free-moe-16ab50b67d.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-03T10:47:43+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R26_ORCA_Reasoning_Calibration",
      "slug": "r26-orca-reasoning-calibration",
      "detail_url": "papers/r26-orca-reasoning-calibration/",
      "title": "Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning",
      "summary": "test-time scaling 带来了更强推理能力，但也把推理成本迅速推高。很多情况下，真正的问题不是模型不会做，而是采样和 stopping 决策缺乏校准，导致系统在无需额外思考时仍然花大量算力。ORCA 正是从 reasoning calibration 这个角度切入，尝试在保证风险控制的前提下减少无效 compute。\n\n论文提出 Online Reasoning Calibration，把 conformal prediction 与 test-time training 结合起来。核心做法是为每个输入在线更新 calibration module，使其适应 reasoning 过程中的分布变化，以及开发阶段与部署阶段 prompt 分布的偏移。作者给出 conformal risk 保证，并在多类 reasoning 任务上报告显著效率提升，尤其在 OOD 设置下相对静态校准大幅提高节省算力的幅度。\n\n这篇工作值得收录，因为它把 reasoning efficiency 问题从简单的 sample budget 调整，推进到‘在线校准 reasoning process’这一更系统的 post-deployment adaptation 模式。它与仓库关注的 test-time learning、inference-time adaptation 和 reasoning control 非常贴近，属于可复用的方法模式，而不只是某个技巧性节流。\n\n它没有升到更高一级，是因为当前仍主要验证在特定推理 benchmark 和模型族上。理论与实证都不错，但是否会成为更广泛 reasoning stack 的标准组件，还需要跨模型、跨任务、跨部署场景的进一步证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.01170",
      "collected_at": "",
      "collection_order": 614,
      "source_url": "https://arxiv.org/pdf/2604.01170.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01170.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R25_RAG_Considerate_Pretraining",
      "slug": "r25-rag-considerate-pretraining",
      "detail_url": "papers/r25-rag-considerate-pretraining/",
      "title": "To Memorize or to Retrieve: Scaling Laws for RAG-Considerate Pretraining",
      "summary": "RAG 系统已经很常见，但预训练阶段到底该把多少知识学进参数、又该把多少预算留给外部检索存储，这个问题一直缺少干净的定量回答。多数实践只能靠经验拍脑袋分配预训练语料和 retrieval store 规模，而缺乏可外推的规律。\n\n这篇论文系统研究了模型参数规模、预训练 token 数量和检索语料库规模之间的三维关系。作者在 OLMo-2 系列不同模型尺寸与数据预算上做了大范围实验，比较 parametric-only baseline 与 retrieval-augmented setting，最后提出一个三维 scaling manifold，用来估计固定数据预算下 pretraining 与 retrieval 的最优分配。\n\n这篇工作值得收录，因为它提供的是对 RAG-considerate pretraining 的结构性澄清，而不是单次经验结论。对于部署型 LLM、企业知识系统、低预算训练路线以及未来 memory-enhanced models，这类 scaling law 直接影响系统设计和资源配置，外溢价值很强。\n\n它没有升到更高一级，是因为当前仍主要是经验性 scaling-law 拟合与一组模型族上的验证。它已经很有参考价值，但是否会成为更广泛的默认训练设计准则，还要看更多模型家族、更多 retrieval 形态和真实生产场景下的稳定性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00715",
      "collected_at": "",
      "collection_order": 613,
      "source_url": "https://arxiv.org/pdf/2604.00715.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00715.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P27_SIGN_Ultra_Large_Dynamics",
      "slug": "p27-sign-ultra-large-dynamics",
      "detail_url": "papers/p27-sign-ultra-large-dynamics/",
      "title": "Predicting Dynamics of Ultra-Large Complex Systems by Inferring Governing Equations",
      "summary": "如何在超大规模复杂系统中同时获得可解释性与长期预测能力，是复杂系统建模里长期没有被真正解决的问题。传统 equation discovery 方法有解释性，但在规模上很快失效；纯神经网络虽然能扩展到大系统，却通常是黑箱，而且在长时预测和缺失数据条件下可靠性不足。这篇工作正面处理的，就是把 governing-equation inference 从小系统推向超大规模网络系统。\n\n论文提出 Sparse Identification Graph Neural Network（SIGN），核心思路是把符号发现问题下沉到 edge-level information，从而把稀疏识别的计算复杂度与网络规模解耦。这样一来，方程发现不再依赖对整个系统做整体符号搜索，而是可以在图结构上分布式地恢复 governing equations。作者展示了该框架在噪声、稀疏采样和缺失数据下的稳健性，并在混沌振子、神经动力学、流行病传播以及近 7.2 万海表温度位置的真实数据上给出长期预测结果。\n\n这篇工作的价值不只是 complex systems 里的又一个预测器，而是把可解释 equation discovery、图建模与大规模科学预测真正接到了一起。对仓库关注的 AI x scientific computing、physics-inspired modeling、可解释科学建模与研究工作流而言，它提供了一条很耐久的方法路线：不是在黑箱模型上再做解释，而是直接在可扩展条件下恢复 governing equations 本身。\n\n当前证据仍主要来自 arXiv 阶段，影响范围也更集中在复杂系统、科学计算和方程发现这条主线上。虽然问题很大、方法也足够强，但它尚未形成更广泛的跨领域默认蓝图，因此现在给 breakthrough 是合适的；要进一步上调，还需要更多独立复现、后续采用和跨领域外溢证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00599",
      "collected_at": "",
      "collection_order": 612,
      "source_url": "https://arxiv.org/pdf/2604.00599.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00599.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "攻克十万级节点预测难题：SIGN框架通过方程推断实现超大规模复杂系统动力学的秒级算力飞跃",
          "url": "https://www.bilibili.com/video/BV1rTDkBLEcJ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1rTDkBLEcJ",
            "https://youtu.be/YBZCezR9Kow"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "predicting dynamics of ultra large complex systems by inferring governing equations",
          "description": "针对气候、生物及技术网络等超大规模复杂系统，传统动力学预测方法在十万级节点规模下常面临计算爆炸与可解释性不足的困境。本研究提出稀疏识别图神经网络（SIGN）框架，核心思路是将方程发现转化为边缘级信息共享，使计算复杂度与节点总数解耦。该框架通过局部稀疏回归提取全局共有物理规律，并利用图神经网络的消息传递机制学习演化参数。实验证明，SIGN在处理噪声和采样稀疏时具有强鲁棒性，仅需数百秒即可完成十万节点的方程推断与长期演化预测，填补了高可解释性与高可扩展性之间的技术空白。",
          "x_post": "东南大学与复旦等：SIGN框架实现10万级节点复杂系统动力学的秒级推断\n气候、生物及技术网络等超大规模系统（N=10^5）的动力学预测，长期面临算力爆炸与模型黑盒化的双重挑战。针对此问题，研究团队提出稀疏识别图神经网络（SIGN）框架，核心是将方程发现重新定义为边缘级信息共享过程。该框架通过局部稀疏回归提取全局符号支持，并利用GNN消息传递机制学习演化参数，使计算复杂度与节点总数彻底解耦。实验表明，SIGN在处理噪声与采样稀疏时具有强鲁棒性，完成10万节点的方程推断仅需数百秒，性能远超传统指数级复杂度模型。该工作为理解和控制大规模真实世界复杂系统的动态演化提供了高可解释性与高可扩展性的新路径。",
          "cover_url": "assets/covers/p27-sign-ultra-large-dynamics-c5137876c0.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-08T12:44:04+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N83_Mental_Representation_Guided_Learning",
      "slug": "n83-mental-representation-guided-learning",
      "detail_url": "papers/n83-mental-representation-guided-learning/",
      "title": "Human-like cognitive generalization for large models via mental representation-guided supervision",
      "summary": "这篇 Nature Communications 论文正面研究如何把人类 mental representations 作为监督信号注入大模型，而不是只比较脑和模型表征相似性。\n\n方法用少量脑信号构造 mental representation-guided supervision，把人类概念结构迁移到 DNN/large models 中。\n\n实验显示这种监督能增强 abstract / unseen concepts 的理解，并带来 few-shot、zero-shot 和 OOD recognition 增益，同时得到更可解释的 concept representations。\n\n它值得正式收录，因为它把认知神经数据从解释工具推进到模型训练信号，为 brain-guided AI、概念泛化、抽象表示和小数据监督提供可复用方向。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-04-01",
      "doi": "10.1038/s41467-026-71267-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 611,
      "source_url": "https://www.nature.com/articles/s41467-026-71267-5",
      "paper_url": "https://www.nature.com/articles/s41467-026-71267-5",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/JxuanC/mental-representation-guided-learning"
      ],
      "has_video": true,
      "videos": [
        {
          "title": "让AI像人一样学会真正的抽象思考，浙大用150种脑电信号打破参数瓶颈",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "human like cognitive generalization for large models via mental representation guided supervision",
          "description": "浙江大学团队在《自然-通讯》发表最新研究，针对大模型在处理抽象概念和跨类别泛化时的瓶颈，提出了一种脑电表征引导监督框架。该方法利用图神经网络与最优传输算法，将人类fMRI脑电信号与AI的潜在空间进行结构对齐，重塑AI的概念关联结构。实验表明，仅需150种物体的脑电信号，模型就能在未知概念上实现全局泛化。在高层抽象概念的单样本学习中，该模型表现远超传统大模型，显著增强了零样本学习和对抗攻击下的鲁棒性。这一生物启发的对齐路径，为开发具类人思考能力且更具解释力的智能系统开辟了新方向。",
          "x_post": "浙江大学团队《Nature Communications》新研究：仅用150种脑电信号引导，实现未见概念R²=0.83的类人抽象泛化\n【背景瓶颈】传统大模型主要通过增加参数规模提升具体事物识别，但在处理高层抽象概念及跨类别泛化时仍存在局限。\n【方法核心】提出一种“心理表征引导监督”框架，利用图神经网络（GNN）与GW距离算法，将人类fMRI脑电信号与AI潜在空间进行拓扑几何对齐。\n【关键证据】实验表明，仅需150种物体的脑电信号，模型在未见概念上的泛化R²达0.83；在高层抽象的单样本学习中，传统模型的SC指标跌至0.044，而脑引导模型仍能保持0.127（P < 0.0001）。\n【结论边界】这种基于生物启发的结构对齐路径，显著增强了AI在零样本学习和对抗攻击下的鲁棒性，为开发具可解释性的类人智能系统提供了新方向。",
          "cover_url": "assets/covers/n83-mental-representation-guided-learning-99e771b5bc.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T07:41:17+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N105_Dopaminergic_Social_Specialization",
      "slug": "n105-dopaminergic-social-specialization",
      "detail_url": "papers/n105-dopaminergic-social-specialization/",
      "title": "Dopaminergic mechanisms of dynamical social specialization",
      "summary": "这篇 Nature 论文研究群体分工不是预设角色，而是如何从个体互动、资源竞争/合作和多巴胺调制中动态形成。\n\n作者在半自然觅食环境中长期追踪小鼠三元组，结合神经记录和整合强化学习与社会条件的计算模型，发现同基因个体也会在群体约束下形成稳定 worker-scrounger 或更均匀协作策略。\n\n关键机制是 VTA 多巴胺活动调节这种社会专业化；模型进一步显示，竞争会放大微小个体差异，互动反馈又稳定群体角色，而性别混合或经验个体再引入会重塑角色分布。\n\n它值得正式收录，因为它把社会分工建模为 multi-agent reinforcement learning + neuromodulation + contingent interaction 的闭环。对多智能体 AI、社会学习、角色分化和群体行为建模有清晰的概念外溢。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-04-01",
      "doi": "10.1038/s41586-026-10301-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 610,
      "source_url": "https://www.nature.com/articles/s41586-026-10301-4",
      "paper_url": "https://www.nature.com/articles/s41586-026-10301-4",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM38_TTA_Vid_Video_Reasoning",
      "slug": "mm38-tta-vid-video-reasoning",
      "detail_url": "papers/mm38-tta-vid-video-reasoning/",
      "title": "TTA-Vid: Generalized Test-Time Adaptation for Video Reasoning",
      "summary": "视频推理模型通常依赖大规模监督数据和多阶段训练管线，迁移到新 domain 或新数据分布时成本高、适配慢。test-time learning 虽然在若干模态里被反复讨论，但真正落到 video reasoning 上，尤其是无标注、样本极少的在线适配场景，仍然缺少足够强的方法。\n\n论文提出 TTA-Vid，把 test-time reinforcement learning 用到 video-language reasoning 中。方法在 inference 时对不同 frame subsets 做 step-by-step reasoning，并利用 batch-aware frequency-based reward 在无真实标签条件下形成 pseudo supervision，再配合 multi-armed bandit 做自适应 frame selection，优先选择信息量高的片段。作者声称即便只用单 batch 或单 sample 也能形成对整个数据集乃至跨数据集的 test-time generalization。\n\n这篇工作值得收录，因为它把 test-time adaptation 从 text/reasoning 场景有效推进到 video reasoning，并且不是简单套个 TTA 名字，而是给出了 reward 设计、frame selection 和跨样本泛化的完整机制。对多模态 adaptation、video understanding 和部署时快速适配，这是一条可复用的方法模式。\n\n它没有升到更高一级，是因为当前仍是早期 arXiv 证据，方法的稳定性、成本和在更复杂视频任务上的耐久收益还需要进一步验证。它已经很有价值，但还未形成更高层级的统一适配范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00696",
      "collected_at": "",
      "collection_order": 609,
      "source_url": "https://arxiv.org/pdf/2604.00696.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00696.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM36_EgoSim_Embodied_World_Simulator",
      "slug": "mm36-egosim-embodied-world-simulator",
      "detail_url": "papers/mm36-egosim-embodied-world-simulator/",
      "title": "EgoSim: Egocentric World Simulator for Embodied Interaction Generation",
      "summary": "egocentric world simulation 是 embodied AI 很缺的一块：已有模拟器要么缺显式 3D grounding，导致视角变化后结构漂移；要么把场景视作静态背景，无法持续更新 world state，因此不适合多阶段互动和具身操作。EgoSim 正是在补这一层缺口。\n\n论文把 3D scene 建模为可更新的 world state，并用两个模块完成闭环模拟：Geometry-action-aware Observation Simulation 负责从状态和动作生成观察结果，Interaction-aware State Updating 负责在交互后更新底层 3D scene state。作者还给出一条可扩展数据流水线，从 in-the-wild monocular egocentric videos 中抽取点云、相机轨迹和 embodiment actions，并用 EgoCap 做低成本真实采集。\n\n这篇工作值得收录，因为它不是又一个视频生成器，而是把 egocentric embodied simulation 做成了带 persistent 3D state 的闭环世界模型接口。这种‘观察生成 + 状态更新’的结构，对 embodied world models、机器人模拟数据合成、cross-embodiment transfer 和 interaction generation 都有明显外溢。\n\n它没有升到更高一级，是因为当前影响仍集中在 egocentric interaction simulation 这条子线，且需要更多外部系统将其真正作为通用 world simulator 复用。现在它已经足够强，但还没到改写更广 multimodal world-model 蓝图的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.01001",
      "collected_at": "",
      "collection_order": 608,
      "source_url": "https://arxiv.org/pdf/2604.01001.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01001.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C18_Materials_Research_Direction_Prediction",
      "slug": "c18-materials-research-direction-prediction",
      "detail_url": "papers/c18-materials-research-direction-prediction/",
      "title": "Predicting new research directions in materials science using large language models and concept graphs",
      "summary": "材料科学文献增长过快，研究者即使在自己领域内也很难系统遍历潜在的概念组合与未来方向。这篇论文关注的不是文献检索本身，而是如何把大规模论文摘要转成结构化概念图，并进一步预测哪些概念组合最可能构成有启发性的新研究方向。\n\n作者先让大语言模型从材料科学摘要中抽取概念与语义信息，再构建概念图，将‘研究方向预测’转化为历史概念组合演化上的链路预测问题。论文显示，和传统自动关键词抽取相比，LLM 提供的语义概念表示更适合构图；将这种语义概念信息融入预测模型后，新兴概念组合的预测效果得到提升。\n\n这篇工作值得收录，因为它展示了一个很清晰的 AI-for-science workflow pattern：不是让 LLM 直接给出泛泛建议，而是先做结构化知识抽取，再用图上的预测机制产生研究方向候选，并最终交由领域专家做定性验证。这个模式对科研辅助、技术雷达和科学知识发现都有外溢价值。\n\n它暂时不更高，是因为证据仍主要集中在材料科学文献这一单一学科上，真正的长期影响力要看这种‘LLM 抽取 + 概念图预测’范式能否稳定迁移到更多科学领域，并在实际科研流程中形成持续 adoption。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-01",
      "doi": "10.1038/s42256-026-01206-y",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 607,
      "source_url": "https://www.nature.com/articles/s42256-026-01206-y",
      "paper_url": "https://www.nature.com/articles/s42256-026-01206-y",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "点亮13.7万个节点构成的全球材料知识图谱，FAU用高维语义向量预测潜在科研蓝海",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "predicting new research directions in materials science using large language models and concept graphs",
          "description": "德国FAU与KIT等机构针对材料科学领域文献爆炸导致的信息茧房问题，开发了AI驱动的科研灵感引擎。研究团队利用微调的Llama-2模型从22万篇文献中自动提取核心概念，构建起包含13.7万个节点和1300万条连接的全球材料知识图谱。通过MatSciBERT模型将科学概念转化为高维语义向量，AI能够识别出人类尚未尝试但具备高潜力的跨界研究方向。实验证明，该模型在预测未来学术关联方面的精度远超传统算法，并已通过材料专家的实证评估。这一成果为自动化处理海量科技文献、指引跨学科材料创新提供了全新的技术范式。",
          "x_post": "FAU与KIT团队利用LLM构建13.7万节点材料知识图谱，实现科研蓝海自动预测\n背景：材料科学文献呈指数级增长，科研人员面临“信息茧房”挑战，难以跨越学科边界发现潜在的创新结合点。\n方法：研究团队微调Llama-2-13B模型，从22.1万篇文献中提取360万个概念，构建起包含13.7万个节点和1300万条连接的知识图谱，并结合MatSciBERT生成的768维语义向量进行预测。\n指标：实验表明该模型在预测未结合概念的潜力方面表现优异；相比传统RAKE算法16.7%的提取精度，LLM方案在科学语义提纯上具有显著优势。\n结论：该AI驱动的灵感引擎能识别出人类尚未尝试但具备高潜力的研究方向，为自动化处理海量文献、指引材料科学创新路径提供了全新范式。",
          "cover_url": "assets/covers/c18-materials-research-direction-prediction-268eccdf9f.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-25T18:48:06+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO29_TDFold_Protein_Structure",
      "slug": "bio29-tdfold-protein-structure",
      "detail_url": "papers/bio29-tdfold-protein-structure/",
      "title": "Two-dimensional geometric template diffusion for boosting single-sequence protein structure prediction",
      "summary": "单序列蛋白结构预测的重要性持续上升，因为很多蛋白缺乏足够同源信息，而传统依赖 MSA 或模板的路线在这些场景下成本高、覆盖差。这篇论文瞄准的就是如何在不依赖同源信息的情况下，仍然高效地得到高质量结构预测。\n\n作者提出 TDFold，用二维几何模板扩散先生成成对距离和方向等 pairwise geometries，再结合 sequence-geometry collaborative learning 推断三维结构。它把扩散模型用在 2D 几何模板层，而不是直接在 3D 结构空间硬做生成，这使得单序列输入下的结构归纳更稳定，也形成了一个不同于现有 protein language model 路线的接口设计。\n\n这篇工作值得收录，因为它不是简单刷新单一 benchmark，而是在单序列 protein folding 上给出了一条更清晰的可复用方法路径：先生成高质量 2D 几何模板，再高效折叠到 3D。对资源受限环境、同源稀缺蛋白，以及更广的 AI x biology 结构建模都有现实意义。\n\n它没有升到更高一级，是因为其影响目前仍主要集中在蛋白结构预测子线，且长期地位还要看后续外部复现、与主流基础模型路线的结合程度，以及在更复杂结构生物学任务中的延展性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-04-01",
      "doi": "10.1038/s42256-026-01210-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 606,
      "source_url": "https://www.nature.com/articles/s42256-026-01210-2",
      "paper_url": "https://www.nature.com/articles/s42256-026-01210-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "孤儿蛋白预测精度超越AlphaFold3，南理工等用单张4090练出新模型",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "two dimensional geometric template diffusion for boosting single sequence protein structure prediction",
          "description": "南京理工大学、北京师范大学及东南大学团队在AI蛋白质结构预测领域取得新突破。针对传统模型过度依赖同源数据且单序列模型显存消耗极高的痛点，团队提出TDFold框架。该方法巧妙地将蛋白质折叠类比为AI绘画，利用视觉扩散模型将序列信息转化为二维几何模板，并通过轻量级协同网络直接推导三维结构。实验表明，TDFold在无同源信息的孤儿蛋白预测上精度超越AlphaFold3；同时大幅降低算力门槛，仅需单张RTX 4090显卡7天即可完成训练，推理速度提升百倍。这为资源受限的科研团队开展高效生物大分子研究提供了新范式。",
          "x_post": "南理工等联合提出单序列蛋白质预测模型TDFold，孤儿蛋白预测精度超越AlphaFold3且仅需单张4090训练\n传统预测模型高度依赖同源序列比对（MSA）且计算开销巨大，在预测无同源信息的孤儿蛋白时准确率明显下降。\n对此，研究团队借鉴视觉扩散（Stable Diffusion）模型，将蛋白质残基间物理距离进行RGB编码，以氨基酸序列为引导，通过逆向去噪生成2D几何模板，再结合轻量级序列-几何协同学习（SCL）网络直接推导3D结构。\n在Orphan/Orphan25数据集上，TDFold精度超越AlphaFold3和ESMFold。同时，该模型彻底摆脱高复杂度注意力机制，推理速度提升100倍，仅需单张NVIDIA RTX 4090显卡训练7天即可完成。\n本研究通过将视觉生成机制引入生物信息学，为算力受限环境下的高效率大分子建模提供了新范式。",
          "cover_url": "assets/covers/bio29-tdfold-protein-structure-e55600fa74.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-20T18:12:58+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A128_Eager_Code_Execution",
      "slug": "a128-eager-code-execution",
      "detail_url": "papers/a128-eager-code-execution/",
      "title": "Executing as You Generate: Hiding Execution Latency in LLM Code Generation",
      "summary": "当前 LLM coding agent 的默认执行范式几乎都是串行的：先把完整代码吐完，再把代码交给解释器执行。这样生成阶段 executor 闲置，执行阶段 generator 闲置，导致端到端时延被无谓拉长。真正的问题不只是模型快不快，而是 code generation 与 execution pipeline 根本没有重叠。\n\n这篇工作把这一问题形式化为 generation、detection、execution 三阶段并行流水线，并提出 Eager 作为具体实现。Eager 结合 AST-based chunking、带门控的动态批处理以及 early error interruption，让代码在生成过程中就能被切分、检测并尽早执行，从而把一部分 execution latency 藏到 generation 过程中。作者还给出闭式时延界，明确不同 operating regime 下的理论收益空间。\n\n这篇工作值得收录，因为它把 coding agent 的执行模型从串行后处理推进到可重叠的 pipeline 设计，这是一种清晰可复用的系统模式，而不是单纯对某个 benchmark 做 prompt 优化。对本地 coding agent、IDE assistant、tool-using program synthesis 和 code-interpreter runtime，这种并行执行视角都有直接参考价值。\n\n它没有升到更高一级，是因为当前主要价值仍集中在 code generation 与 interpreter execution 这一场景，尚未证明这一 pipeline 会普遍外溢到更广的 agent runtime 设计。它是很强的 coding-agent systems 工作，但还不宜拔得过高。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00491",
      "collected_at": "",
      "collection_order": 605,
      "source_url": "https://arxiv.org/pdf/2604.00491.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00491.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A126_PaperRecon_AI_Writing_Eval",
      "slug": "a126-paperrecon-ai-writing-eval",
      "detail_url": "papers/a126-paperrecon-ai-writing-eval/",
      "title": "Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers",
      "summary": "随着 coding agents 和 research agents 开始写完整论文，问题已经不再只是“能不能生成一篇看起来像论文的文本”，而是 presentation quality 和 hallucination risk 如何同时量化。当前对 AI-written papers 的担忧很多，但真正系统化、可复现的评估框架仍然很少。\n\n论文提出 Paper Reconstruction Evaluation（PaperRecon）：先从原论文生成 overview，再让 agent 只基于 overview 和极少额外资源重写完整论文，最后再与原论文进行比较。作者把评估拆成两个正交维度：Presentation 与 Hallucination，并引入 PaperWrite-Bench，包含 51 篇 2025 年后多领域 top-tier papers。实验显示 ClaudeCode 与 Codex 在写作表现与 hallucination 风险上存在清晰 trade-off，从而揭示 AI research writing 的具体失真模式。\n\n这篇工作值得收录，因为它把 AI research automation 里的一个核心风险做成了正式 benchmark：不仅评生成质量，还评是否在科研写作中系统性胡编。对 agentic scientific writing、AI scientist safety 和研究工作流治理，这是一条很实用的评测基础设施。\n\n它没有升到更高一级，是因为当前仍然是一个很聚焦的 evaluation layer，主要服务于 paper-writing agents，而不是整个 AI research automation 栈的统一评估体系。它很有价值，但范围仍偏具体。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.01128",
      "collected_at": "",
      "collection_order": 604,
      "source_url": "https://arxiv.org/pdf/2604.01128.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01128.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A125_Decision_Centric_LLM_Systems",
      "slug": "a125-decision-centric-llm-systems",
      "detail_url": "papers/a125-decision-centric-llm-systems/",
      "title": "Decision-Centric Design for LLM Systems",
      "summary": "很多 LLM systems 真正失败的地方并不是语言生成本身，而是控制决策被偷偷塞进了同一个 model call：什么时候直接回答、什么时候澄清、什么时候检索、什么时候调工具、什么时候 repair 或 escalate，都常常混在生成过程里，导致系统难以诊断、约束和逐层改进。\n\n论文提出 decision-centric framework，把 control decisions 从生成里显式拆出来，区分 decision-relevant signals 与 policy layer。这样系统可以把失败归因到 signal estimation、decision policy 或 execution 本身，并把这一思想统一到 routing、adaptive inference 以及更长的 sequential decision setting 中。作者通过三组 controlled experiments 展示，这种分层能减少 futile actions、提升任务成功率，并暴露更可解释的 failure modes。\n\n这篇工作值得收录，因为它把 agent/control-heavy LLM systems 的一个普遍工程问题提升成了架构原则：不要把控制逻辑继续藏在自由生成里，而要把决策层做成可检查、可替换、可约束的显式模块。对于 agents、RAG orchestration、tool routing 和 controllable inference，这有很强的系统模式价值。\n\n它没有升到更高一级，是因为当前证据仍主要来自 controlled experiments 和框架论证。它很像一条对的系统蓝图，但要成为更广泛默认范式，还需要更多外部实现和长期经验支持。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00414",
      "collected_at": "",
      "collection_order": 603,
      "source_url": "https://arxiv.org/pdf/2604.00414.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00414.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A124_EvolveTool_Bench",
      "slug": "a124-evolvetool-bench",
      "detail_url": "papers/a124-evolvetool-bench/",
      "title": "EvolveTool-Bench: Evaluating the Quality of LLM-Generated Tool Libraries as Software Artifacts",
      "summary": "越来越多的 LLM agents 会在运行时自己生成工具，从 Python functions 到 API clients 都开始被动态创建和迭代。但主流评测几乎仍然只看下游任务是否完成，这会掩盖一个关键事实：即使任务成功率接近，生成出来的工具库也可能在复用性、冗余、回归稳定性和安全性上相差很大。\n\n论文提出 EvolveTool-Bench，把 agent 生成的 tool library 当作一等软件制品来评估。基准覆盖专有数据格式、API orchestration 和数值计算三个需要真实执行工具的领域，同时定义 library-level 指标，如 reuse、redundancy、composition success、regression stability、safety，以及 per-tool 的 Tool Quality Score，用来衡量 correctness、robustness、generality 和 code quality。作者据此比较 code-level 与 strategy-level 的 tool evolution 系统，显示相近 task completion 会掩盖显著不同的 library health。\n\n这篇工作值得收录，因为 tool use 已经从调用固定工具库转向生成、维护、演化工具库本身，而这篇论文第一次把“生成出来的工具软件质量”显式拉进 agent evaluation。对 tool-learning agents、capability extension、software-artifact governance 和长期工具生态，这是一条很有耐久性的评测补位。\n\n它没有升到更高一级，是因为当前核心贡献仍然是 benchmark 与评测维度设计，而不是直接提出新的 tool-learning 主方法。它对方向发展很重要，但是否会成为该线的标准基准，还需要后续采用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00392",
      "collected_at": "",
      "collection_order": 602,
      "source_url": "https://arxiv.org/pdf/2604.00392.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00392.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A123_STITCH_Agentic_Trajectory_Training",
      "slug": "a123-stitch-agentic-trajectory-training",
      "detail_url": "papers/a123-stitch-agentic-trajectory-training/",
      "title": "Yet Even Less Is Even Better For Agentic, Reasoning, and Coding LLMs",
      "summary": "agentic 和 coding LLM 的后训练越来越依赖大规模 task-specific trajectories，但构造、筛选和回放这些轨迹成本极高。很多工作默认更多轨迹就更好，而这篇论文延续了 less-is-more 的判断，直接追问：对于 agentic data，真正重要的是数量，还是高价值决策片段的密度。\n\n论文提出 STITCH（Sliding-memory Trajectory Inference and Task Chunking Heuristic），用 coarse-to-fine 的方式切掉低价值噪声、保留 decision-critical tokens，并把这套筛选框架应用到 reasoning、coding 和 software engineering agent training 上。实验覆盖不同 agent scaffold、不同模型规模以及 Python、Java、ArkTS 等多语言环境，结果显示在远少于传统大数据量的轨迹条件下依然能显著提升 SWE-bench Verified 和多语言 agent 任务表现。\n\n这篇工作值得收录，因为它把 agent post-training 的关键问题从“如何再收集更多轨迹”改成“如何提高轨迹训练信号密度”。这对 agent data pipeline、trajectory compression、cost-aware post-training 和 multilingual agent adaptation 都有直接方法价值，而不只是一个 task-specific trick。\n\n它没有升到更高一级，是因为当前方法仍以 heuristic curation 与 chunking 为主，虽然效果强，但还没有上升为更完整的 agent learning 理论或标准化训练接口。它是一条很实用的后训练路线推进，但还不够重定义整个 agent training 框架。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00824",
      "collected_at": "",
      "collection_order": 601,
      "source_url": "https://arxiv.org/pdf/2604.00824.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00824.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A122_Signals_Trajectory_Triage",
      "slug": "a122-signals-trajectory-triage",
      "detail_url": "papers/a122-signals-trajectory-triage/",
      "title": "Signals: Trajectory Sampling and Triage for Agentic Interactions",
      "summary": "LLM agent 已经进入多步交互、工具调用和持续部署阶段，但真正阻碍后续优化的一个现实问题是：系统每天会产生成海量 trajectory，而人工或辅助模型逐条复核成本过高，导致很多后训练、偏好构造和 failure analysis 根本拿不到高质量样本。问题不只是缺少数据，而是缺少便宜、稳定、可在线运行的 triage 机制。\n\n论文提出 Signals，把轨迹筛选前移到在线交互层，通过不依赖额外模型调用的轻量信号来标记 trajectory 的信息密度与异常模式。作者把这些信号组织为 interaction、execution、environment 三类，覆盖 misalignment、stagnation、failure、loop、exhaustion 等可操作状态，再把它们附着到 live interactions 上，供后续 sampling、annotation 和 optimization 使用。\n\n这篇工作值得收录，因为它把 agent post-deployment improvement 里一个长期被忽略但极其实际的基础设施问题正式化了：什么轨迹值得看、值得标、值得回流。相比简单按 reward 或启发式抽样，Signals 更接近一种可复用的 trajectory triage layer，对 agent evaluation、preference data construction 和持续改进工作流都有直接方法价值。\n\n它没有升到更高一级，是因为当前贡献仍主要是 sampling infrastructure，而不是完整的自我改进闭环或更上层 agent training 蓝图。它在 agent data curation 上很有用，但是否会成为更广部署优化栈的标准组件，还需要更多外部采用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00356",
      "collected_at": "",
      "collection_order": 600,
      "source_url": "https://arxiv.org/pdf/2604.00356.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00356.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A121_MyPhoneBench_Phone_Privacy",
      "slug": "a121-myphonebench-phone-privacy",
      "detail_url": "papers/a121-myphonebench-phone-privacy/",
      "title": "Do Phone-Use Agents Respect Your Privacy?",
      "summary": "mobile phone-use agents 的任务成功率越来越高，但它们是否尊重用户隐私一直很难严格回答。问题不只是模型会不会偷看隐私，而是缺少可操作的 privacy contract 和可验证的观测接口，普通 app 也不会直接告诉你 agent 在哪些表单里多填了什么、何时过度申请权限。MyPhoneBench 正是在把这个模糊问题变成可测问题。\n\n论文提出 MyPhoneBench，把 privacy-respecting phone use 操作化为 permissioned access、minimal disclosure 和 user-controlled memory，并用最小隐私契约 `iMy`、instrumented mock apps 和 rule-based auditing 让不必要权限申请、欺骗性再披露、过度表单填写都可观测、可复现。基于 10 个 mobile apps、300 个任务和多个 frontier models 的评测，作者显示任务成功、隐私合规完成和后续会话中对保存偏好的使用其实是三种不同能力。\n\n这篇工作值得收录，因为 phone-use agents 是 computer-use agents 的高风险变体，而这篇论文第一次把其 privacy behavior 明确做成 benchmark 与审计接口。对于 agent evaluation、computer-use safety 和 deployment readiness，这种 success 与 privacy jointly evaluated 的框架有明显长期价值，而不只是一次安全吐槽。\n\n它没有升到更高一级，是因为当前仍主要围绕作者构建的 mock apps 与任务设置验证，外部生态和真实部署场景中的采用还需要时间。它是很强的评测与安全条目，但还没到更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00986",
      "collected_at": "",
      "collection_order": 599,
      "source_url": "https://arxiv.org/pdf/2604.00986.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00986.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A120_Pare_Proactive_Agent_Eval",
      "slug": "a120-pare-proactive-agent-eval",
      "detail_url": "papers/a120-pare-proactive-agent-eval/",
      "title": "Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants",
      "summary": "proactive assistants 要真正有用，关键不只是能回应用户请求，而是能在合适时机主动介入、推断目标并执行任务。但这个方向长期缺少像样的评测环境，因为很多现有框架把 app 抽象成平面化的 tool-calling API，根本无法模拟真实用户与状态化数字环境之间的序列交互。Pare 正是在补这一层。\n\n论文提出 Proactive Agent Research Environment，把应用建模为 finite state machines，并为 user simulator 提供 stateful navigation 与 state-dependent action space，从而支持 active user simulation。基于这个环境，作者又构建 Pare-Bench，覆盖 communication、productivity、scheduling、lifestyle 等 143 个任务，用来测试 context observation、goal inference、intervention timing 和 multi-app orchestration。\n\n这篇工作值得收录，因为 proactive agent 目前最大的缺口正是评测接口，而 Pare 给出了比平面 API mock 更接近真实使用场景的环境建模方式。对 proactive assistants、computer-use agents 和 context-aware agent evaluation，这种 stateful user simulation 具有明显长期参考价值。\n\n它没有升到更高一级，是因为当前仍然是一个较新的 benchmark/environment 提案，是否会成为该方向默认评测底座还需要社区采用与持续维护证明。它已经很强，但还不到更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00842",
      "collected_at": "",
      "collection_order": 598,
      "source_url": "https://arxiv.org/pdf/2604.00842.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00842.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A118_EVOM_Optimization_Modeling",
      "slug": "a118-evom-optimization-modeling",
      "detail_url": "papers/a118-evom-optimization-modeling/",
      "title": "Execution-Verified Reinforcement Learning for Optimization Modeling",
      "summary": "用 LLM 自动完成 optimization modeling 一直很有吸引力，但现实里常见方案要么依赖闭源 agent pipeline，推理成本高、延迟大；要么靠过程监督微调较小模型，却容易把能力绑定到单一 solver API 上，难以泛化到不同求解后端。EVOM 直接对这个核心瓶颈下手。\n\n论文把 solver execution 当成确定性的交互式 verifier，提出 Execution-Verified Optimization Modeling。给定自然语言问题和目标 solver，模型生成 solver-specific 代码，放到沙箱中执行，再把 execution outcome 映射成 scalar reward，用 GRPO 和 DAPO 在 generate-execute-feedback-update 闭环里优化。这样做的关键好处是，不再需要昂贵的 process supervision，而且跨 solver 泛化可以通过切换 verification environment 实现，而不用重建整套 solver-specific 训练数据。\n\n这篇工作值得收录，因为它提供了一个很干净的 execution-verified RL pattern：把外部 deterministic executor 当作 verifier，直接训练模型学习可执行、可验证的优化建模代码。这不仅对 optimization modeling 有意义，也对更广的 program synthesis、tool-verified learning 和 decision-intelligence workflow 有明显外溢。\n\n它没有升到更高一级，是因为当前证据仍主要集中在 optimization modeling 和少数 solver 生态，离更广泛的 execution-verified agent learning 默认范式还有距离。它很强，但现在仍更像一条重要方法推进。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00442",
      "collected_at": "",
      "collection_order": 597,
      "source_url": "https://arxiv.org/pdf/2604.00442.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00442.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A117_NARCBench_Collusion_Detection",
      "slug": "a117-narcbench-collusion-detection",
      "detail_url": "papers/a117-narcbench-collusion-detection/",
      "title": "Detecting Multi-Agent Collusion Through Multi-Agent Interpretability",
      "summary": "随着 LLM agents 开始真正以多智能体方式协作，风险也从单体 deception 扩展到 covert coordination，也就是多个 agent 之间通过隐蔽协作共同规避人类监管。已有 interpretability 工作已经证明单体模型激活里能暴露一定欺骗信号，但 multi-agent collusion 是更高阶的问题：它不只取决于单个输出是否可疑，还取决于跨 agent 的内部状态是否共同指向协调行为。\n\n这篇论文把 collusion detection 明确转成 white-box multi-agent interpretability 问题。作者提出 NARCBench，用带分布偏移的多智能体场景评估 collusion detection，并设计五类 probing techniques，把每个 agent 的 deception signal 聚合到 group level classification。结果显示，这类内部表征信号在分布内几乎完美，在结构迁移和带隐写通信的 blackjack 卡牌计数任务上也保持可用，并且 token-level spikes 暗示 collusion signal 可能局部化在编码消息片段附近。\n\n这篇工作值得收录，因为它为 agent safety 提供了一个新层级的评估与监控接口：不是只看文本输出，而是把多 agent activation aggregation 当成补充监管信号。对于仓库关注的 agent evaluation、agent safety 和 interpretability，这属于明确可复用的方法与 benchmark 组合，而不是一次性案例展示。\n\n它没有升到更高一级，是因为当前证据还集中在作者构建的 benchmark 与少数迁移场景上，离成为默认的 multi-agent safety standard 还差外部复现和更广部署验证。它已经足够强，但还不到路线级重写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.01151",
      "collected_at": "",
      "collection_order": 596,
      "source_url": "https://arxiv.org/pdf/2604.01151.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01151.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A116_Meta_TTL_Agent_Adaptation",
      "slug": "a116-meta-ttl-agent-adaptation",
      "detail_url": "papers/a116-meta-ttl-agent-adaptation/",
      "title": "Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies",
      "summary": "Test-time learning 在语言 agent 上越来越重要，但现有做法大多把 adaptation policy 视作人工设计的固定规则，比如如何根据前几轮轨迹更新策略、保留什么反馈、怎样进行下一轮修正。这样做能工作，但它默认人类已经知道最优 adaptation rule 是什么。\n\nMeta-TTL 的关键点是把 adaptation policy 本身变成学习对象。作者把 TTL 写成 bi-level optimization：内层执行标准 TTL 过程，观察候选 adaptation policy 是否真的能帮助 agent 在后续 episode 中纠错；外层则在任务分布上用 evolutionary search 不断改进 adaptation policy。这样，post-deployment improvement 不再依赖固定启发式，而变成了可学习的策略搜索问题。\n\n这篇工作值得收录，因为它把 test-time learning / post-deployment adaptation 从‘写一个更新规则’推进到‘学习更新规则’。这对语言 agent、web navigation、interactive environments 和更广的 deployment-time learning 都有很明确的模式价值，也与仓库关注的 self-improvement 与 test-time adaptation 主线高度一致。\n\n它暂时不更高，是因为验证仍主要在 Jericho 与 WebArena-Lite 这类环境上，路线虽对，但距离更广泛 agent setting 的 durable default 还需要更多复现与扩展。它是强方法论文，但还没到改写整条 TTL 研究图景的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.00830",
      "collected_at": "",
      "collection_order": 595,
      "source_url": "https://arxiv.org/pdf/2604.00830.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00830.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A115_OmniMem_Multimodal_Memory",
      "slug": "a115-omnimem-multimodal-memory",
      "detail_url": "papers/a115-omnimem-multimodal-memory/",
      "title": "OmniMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory",
      "summary": "长程、多模态、可持续更新的 agent memory 仍然是现实智能体最难补齐的短板之一。问题不只是设计一个 memory store，而是同时要在架构、检索、prompt、数据流水线和评测之间做联动优化。OmniMem 针对的正是这个高度耦合、靠人工很难系统搜索的 memory design space。\n\n论文核心贡献有两层。第一层是 OmniMem 本身，一个 unified multimodal lifelong memory framework；第二层更重要，是作者部署了一条 autonomous research pipeline，让系统在无人工内环干预下自主运行约 50 个实验，诊断失败模式、提出结构修改、修复数据流水线 bug，并据此把 LoCoMo 与 Mem-Gallery 上的成绩从很弱的 baseline 推到新的 SOTA。\n\n这篇工作值得收录，因为它同时触及了仓库的两条主线：agent memory 与 self-improving/autoresearch systems。它证明了 memory system 的关键进步并不只是超参，而可能来自 bug 修复、架构调整和 prompt 改写等异质改动，而这些可以被一个 autoresearch loop 真正发现和累积。\n\n它暂时不更高，是因为当前证据仍主要来自作者构建的自动研究闭环和指定 benchmark。虽然信号很强，但长期影响力还要看这条 autoresearch-guided memory design 路线是否被更多团队采纳，以及在更开放、更真实的 agent memory 任务中能否稳定复现。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.01007",
      "collected_at": "",
      "collection_order": 594,
      "source_url": "https://arxiv.org/pdf/2604.01007.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01007.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A114_HippoCamp_Contextual_Agents",
      "slug": "a114-hippocamp-contextual-agents",
      "detail_url": "papers/a114-hippocamp-contextual-agents/",
      "title": "HippoCamp: Benchmarking Contextual Agents on Personal Computers",
      "summary": "当前 agent benchmark 大多围绕网页操作、工具调用或通用软件自动化展开，但真实个人电脑环境中的 agent 还要处理完全不同的问题：理解用户背景、在海量个人文件中跨模态检索证据、并据此完成上下文化推理。HippoCamp 针对的正是这类更接近真实个人计算场景的 contextual agent 能力。\n\n论文构建了一个 device-scale benchmark，用真实用户档案和超过 2K 个真实文件搭建个人文件系统环境，总数据量达 42.4GB，并进一步标注 581 个 QA 任务以及 46.1K 条结构化执行轨迹。评测不只看最终答对率，还细分到 search、evidence perception 和 multi-step reasoning 等子能力，因此更适合做 agent failure diagnosis 与方法对比。\n\n这篇工作值得收录，因为它把 agent evaluation 从公开网页和通用工具，推进到更贴近个人操作系统与私有文件空间的场景。这个方向和仓库近期关注的 memory、context engineering、contextual assistants 很一致，而且 dense trajectory 标注让它具备了比一般 benchmark 更高的分析与复用价值。\n\n它没有升到更高一级，是因为当前仍是一条新 benchmark 线，长期耐久性要看外部团队是否会广泛采用，以及是否会成为 contextual agents / PC agents 的默认评测基座。现在它显然已超过普通 benchmark，但离更高层级的路线改写还差 adoption 证明。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "",
      "arxiv_id": "2604.01221",
      "collected_at": "",
      "collection_order": 593,
      "source_url": "https://arxiv.org/pdf/2604.01221.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.01221.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A112_General_Scales_AI_Evaluation",
      "slug": "a112-general-scales-ai-evaluation",
      "detail_url": "papers/a112-general-scales-ai-evaluation/",
      "title": "General scales unlock AI evaluation with explanatory and predictive power",
      "summary": "这篇 Nature 论文针对当前大模型评测体系的根本缺陷发力：常见 benchmark 能给出分数，却难以解释模型到底具备什么能力，也难以可靠预测模型在新任务、新实例上的表现。作者把问题从‘比较模型在固定题集上的平均表现’改写为‘用通用量尺刻画任务需求与模型能力，并据此解释和预测表现’。\n\n论文提出一套面向 AI 评测的 general scales 方法学，用 18 条通用能力/知识/外生维度刻画任务实例需求，并为模型估计对应的 ability profile。核心不是再造一个排行榜，而是把 benchmark 项拆成可解释的 demand profile，并在此基础上对模型进行 commensurate profiling，从而实现实例级、跨任务、尤其是 out-of-distribution 条件下的性能预测。\n\n这项工作对仓库的价值很高，因为它改变的是 AI evaluation 的组织方式，而不是单个测试集或单个 predictor。它把 psychometrics、rubric annotation、instance-level prediction 结合起来，直接外溢到模型路由、安全 operating area、拒答规则和部署前评估等实际问题，更像一套可扩展的评测科学基础设施。\n\n它还没有升到更高一级，是因为这套 general scales 目前主要在 LLM 和作者定义的评测电池上验证，领域采纳度仍有待时间检验。它已经明显超出普通 benchmark paper，但是否成为长期默认标准，还要看后续独立复现、扩展到更多模型形态和真实部署场景的情况。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-04-01",
      "doi": "10.1038/s41586-026-10303-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 592,
      "source_url": "https://www.nature.com/articles/s41586-026-10303-2",
      "paper_url": "https://www.nature.com/articles/s41586-026-10303-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "普林斯顿联手微软登Nature：18维量表精准拆解大模型，DeLeAn算法终结跑分乱象",
          "url": "https://www.bilibili.com/video/BV1zkoaBAEV3",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1zkoaBAEV3",
            "https://youtu.be/i9qxzj4mCJs"
          ],
          "main_collection": "大模型架构与推理",
          "match": "general scales unlock ai evaluation with explanatory and predictive power",
          "description": "普林斯顿大学、剑桥大学与微软研究院在《Nature》发表最新成果，针对大模型“跑分幻象”提出了DeLeAn评估框架。传统基准测试如GSM8K常面临数据污染且缺乏解释力，难以预测模型在未知任务中的表现。研究团队构建了包含推理、元认知等18个维度的通用量表，将AI能力从Level 0至5+进行指数级量化。实验显示，该系统在任务标注上与人类专家的一致性高达0.86，能精准识别测试集水分并揭示模型逻辑漏洞。这一方法让AI评估从模糊的分数转向深入的因果分析，为开发更安全、可控的智能系统提供了科学衡量标准。",
          "x_post": "普林斯顿与微软在《Nature》发布 DeLeAn 框架：18维量表实现 0.86 一致性的 AI 性能解构\n\n当前 AI 评估面临“跑分幻象”与测试集污染，传统基准测试难以解释模型失败原因或预测新任务表现。研究团队提出一套包含推理、元认知等 18 个维度的通用量表，将 AI 能力划分为 Level 0 至 5+ 的指数级刻度，使任务需求与系统能力在同一尺度下可比。\n\n实验表明，该自动化协同注释引擎在任务标注上与人类专家的一致性 (rWG) 高达 0.86。通过对 15 个大语言模型的剖析，该框架成功揭示了 GSM8K 与 GPQA 等测试集的结构效度差异，并能精准识别任务中暗含的知识干扰。这一成果推动了 AI 评估从单一的分数衡量转向深入的因果分析，为构建安全可控的智能系统提供了可核验的科学标准。",
          "cover_url": "assets/covers/a112-general-scales-ai-evaluation-971f83f90e.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-22T09:52:36+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL26_QAsk_Nav_Collaborative_Navigation",
      "slug": "rl26-qask-nav-collaborative-navigation",
      "detail_url": "papers/rl26-qask-nav-collaborative-navigation/",
      "title": "Benchmarking Interaction, Beyond Policy: a Reproducible Benchmark for Collaborative Instance Object Navigation",
      "summary": "embodied navigation benchmark 往往只看最终是否到达目标，却很少把人与 agent 之间的协作互动本身作为独立能力来评估。对于 Collaborative Instance Object Navigation 这类任务，这会掩盖一个关键问题：agent 到底是真会问问题、会消解歧义，还是只是靠运气和强 policy 硬闯。\n\n论文提出 QAsk-Nav，明确把 collaborative question asking 从 navigation policy 中拆出来做独立评测。基准提供轻量但可复现的问题提问协议、单独计分的交互指标、更现实的目标描述，以及 28,000 条高质量 reasoning/question-asking traces 供训练和分析。基于该 benchmark，作者还提出轻量统一模型 Light-CoNav，在 unseen objects 和 unseen environments 上优于既有 CoIN 方法，同时更小更快。\n\n这篇工作值得收录，因为它把 embodied collaboration 从“附带现象”提升成一等评测对象。对 embodied agents、interactive navigation 和 language-conditioned robotics，这种把 interaction capability 独立量化的 benchmark 设计具有明显长期价值。\n\n它没有升到更高一级，是因为当前仍集中在 CoIN 这一特定 embodied task family，尽管评测设计很对，但还未证明会扩展成更广泛的人机协作 embodied standard。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-31",
      "doi": "",
      "arxiv_id": "2604.00265",
      "collected_at": "",
      "collection_order": 591,
      "source_url": "https://arxiv.org/pdf/2604.00265.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00265.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL24_DreamControl_v2",
      "slug": "rl24-dreamcontrol-v2",
      "detail_url": "papers/rl24-dreamcontrol-v2/",
      "title": "DreamControl-v2: Simpler and Scalable Autonomous Humanoid Skills via Trainable Guided Diffusion Priors",
      "summary": "humanoid loco-manipulation 仍然面临一个老问题：单靠 RL 很难稳定学到长程、互动密集的技能，而仅靠 imitation 或 motion prior 又难以兼顾机器人本体约束与真实执行鲁棒性。DreamControl 这一系工作已经证明 human-motion diffusion prior 对 RL 有帮助，但原始流程仍然带着较重的人为筛选和手工干预。DreamControl-v2 的目标就是把这条路线做得更简单、更可扩展。\n\n论文的核心改动是直接在 humanoid motion space 中训练 guided diffusion model，并把多种 human 与 robot 数据统一到一个 embodiment space。这样既扩大了可表达技能范围，也移除了对手工过滤和繁琐 prior 清洗的依赖。作者还强调 reference trajectory generation 的规模化对于后续 RL policy 稳定性非常关键，从而把 diffusion prior 从静态先验推进成可训练、可扩展的 skill-generation 组件。\n\n这篇工作值得收录，因为它给 humanoid autonomous skill learning 提供了更清晰的训练 recipe：用 trainable guided diffusion prior 作为可扩展的 reference generator，再驱动 downstream RL。这个模式对具身技能学习、先验注入和人机数据混合训练都有持续参考价值，不只是一个 demo 系统。\n\n它没有升到更高一级，是因为当前证据仍主要围绕 DreamControl 系路线和 Unitree G1 等平台展开，尚未证明这套方法会成为更广 humanoid 技能学习的默认蓝图。它足够强，但还不到路线重写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-31",
      "doi": "",
      "arxiv_id": "2604.00202",
      "collected_at": "",
      "collection_order": 590,
      "source_url": "https://arxiv.org/pdf/2604.00202.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00202.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL23_VLLR_Dense_Robotic_Rewards",
      "slug": "rl23-vllr-dense-robotic-rewards",
      "detail_url": "papers/rl23-vllr-dense-robotic-rewards/",
      "title": "Generalizable Dense Reward for Long-Horizon Robotic Tasks",
      "summary": "机器人基础策略虽然能靠大规模 imitation learning 获得不错起点，但一到长程任务就容易因 distribution shift 和 error accumulation 崩掉。RL 微调理论上能补，但现实中最大障碍是 diverse tasks 下没有统一、密集、可泛化的 reward，导致还得回到繁琐的手工 reward engineering。\n\n这篇论文提出 VLLR，把 dense reward 分成两部分：外部 reward 由 LLM/VLM 对任务进度和子任务完成情况进行识别，内部 reward 则来自 policy self-certainty。作者用 LLM 拆解 subtasks，再用 VLM 初始化 value function 做短 warm-up，之后主要依靠 self-certainty 作为内在指导，避免全程调用大模型带来的高成本。\n\n这篇工作值得收录，因为它提供的是一种可复用的 long-horizon robotic RL reward pattern，而不是某个任务的定制 reward。把语言/视觉模型当作 progress recognizer，再结合 policy uncertainty/self-certainty 做长期训练指导，这种组合对于 mobile manipulation、navigation 和 foundation-policy finetuning 都有持续参考价值。\n\n它没有升到更高一级，是因为当前仍主要验证在 CHORES 及相近任务族上，尚未证明这条 dense reward 路线会成为跨机器人平台的默认后训练方式。它很强，但更像稳固的方法推进而非路线重写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-31",
      "doi": "",
      "arxiv_id": "2604.00055",
      "collected_at": "",
      "collection_order": 589,
      "source_url": "https://arxiv.org/pdf/2604.00055.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00055.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL22_DIAL_Latent_World_VLA",
      "slug": "rl22-dial-latent-world-vla",
      "detail_url": "papers/rl22-dial-latent-world-vla/",
      "title": "DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA",
      "summary": "当前很多 end-to-end VLA 仍把预训练视觉语言模型当作通用 encoder，再直接映射到低层动作。这种做法虽然简单，但往往把高层语义决策和低层 motor control 混在一起，既浪费了 VLM 的高层推理潜力，也容易在端到端优化时破坏原本的语义表示。DIAL 针对的正是这个结构性问题。\n\n论文提出一个 differentiable latent intent bottleneck，把高层意图和低层动作解耦。具体来说，VLM-based System-2 在原生特征空间里做 latent world modeling，预测 latent visual foresight 来显式编码 intent；随后一个更轻量的 System-1 policy 结合当前观测和 latent intent，通过 latent inverse dynamics 解码出具体动作。再加上先 decoupled warmup、后 joint optimization 的两阶段训练，整体优化稳定性比直接端到端映射更好。\n\n这篇工作值得收录，因为它给 end-to-end VLA 引入了更清晰的系统分层：高层 latent intent 作为结构化瓶颈，既保留预训练语义，又让动作学习有明确接口。这种 intent/action decoupling 不只是提分技巧，而是对机器人控制中 world modeling 和 motor execution 如何耦合给出了更可复用的模式。\n\n它没有升到更高一级，是因为当前验证仍主要集中在 RoboCasa 等具身操作基准上，外部 adoption 和跨平台泛化还需要时间证明。它已经是强方法推进，但是否会成为更广 VLA 默认结构，还要看后续复现与扩散。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-31",
      "doi": "",
      "arxiv_id": "2603.29844",
      "collected_at": "",
      "collection_order": 588,
      "source_url": "https://arxiv.org/pdf/2603.29844.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.29844.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R37_MAC_Attention",
      "slug": "r37-mac-attention",
      "detail_url": "papers/r37-mac-attention/",
      "title": "MAC-Attention: a Match-Amend-Complete Scheme for Fast and Accurate Attention Computation",
      "summary": "长上下文 decoding 的核心瓶颈越来越不是 FLOPs，而是 KV cache 的 IO：每个新 token 都要重新读取不断膨胀的历史缓存。现有加速路线大多走压缩、选择或淘汰，但这些办法都会在 fidelity 或 accessibility 上做出让步，进而伤害 delayed recall 和长篇连续生成。\n\nMAC-Attention 提出一种 fidelity-preserving、access-preserving 的替代路线：不删 KV，不压缩历史，而是复用先前对语义相近 recent queries 的 attention 计算结果。方法分为三个阶段：match 用 pre-RoPE L2 matching 在短局部窗口寻找可复用 query；amend 在匹配边界附近重新计算小带宽区域做修正；complete 再把修正后的结果与对 KV tail 的新计算结果通过数值稳定的方式融合。命中时，计算和带宽复杂度都与上下文长度脱钩。\n\n这篇工作值得收录，因为它把 long-context inference acceleration 从“牺牲一部分信息换速度”推进到“显式复用 attention computation”这条更干净的路线。它模型无关，并且可与 IO-aware kernels、paged KV managers、MQA/GQA 叠加，对实际 serving 栈和长上下文解码基础设施都有明确复用价值。\n\n它没有升到更高一级，是因为当前仍主要聚焦于 decoding acceleration 这条子问题，尚未证明 computation reuse 会成为更广泛 long-context inference 的默认接口。它是很强的系统方法，但还没到重写整条推理栈的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-31",
      "doi": "",
      "arxiv_id": "2604.00235",
      "collected_at": "",
      "collection_order": 587,
      "source_url": "https://arxiv.org/pdf/2604.00235.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00235.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R36_ParetoBandit_Adaptive_Routing",
      "slug": "r36-paretobandit-adaptive-routing",
      "detail_url": "papers/r36-paretobandit-adaptive-routing/",
      "title": "ParetoBandit: Budget-Paced Adaptive Routing for Non-Stationary LLM Serving",
      "summary": "真实 LLM serving 往往不是固定模型单点部署，而是跨成本区间巨大的多模型组合。问题在于，这个质量-成本 trade-off 不是静态的：模型价格会变、质量会漂移、新模型会热插拔上线，而很多现有 router 仍假定环境近似静止。\n\n论文提出 ParetoBandit，把 open-ended serving stream 下的 budget control、online adaptation 和 runtime hot-swap 合到一个 cost-aware contextual bandit 框架里。核心包括 online primal-dual budget pacer、对 sufficient statistics 做 geometric forgetting 以适应价格和质量漂移，以及支持新模型上线后短暂强制探索再进入 UCB 选择的 hot-swap registry。实验表明，它能在严格预算约束下快速适应价格变化、静默质量回归和新模型冷启动。\n\n这篇工作值得收录，因为它把 LLM router 从静态离线选择器推进成了真正面向 production drift 的在线控制层。对于企业级 multi-model serving、cost-quality governance 和不停机演化，这种 budget-paced adaptive routing 明显比只比平均精度的 router 更有系统价值。\n\n它没有升到更高一级，是因为方法仍主要建立在 bandit/online control 框架上，更多是把 serving 路线做稳、做实用，而不是重写整个 LLM serving 栈的范式。它是很好的系统方法，但不宜拔得过高。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-31",
      "doi": "",
      "arxiv_id": "2604.00136",
      "collected_at": "",
      "collection_order": 586,
      "source_url": "https://arxiv.org/pdf/2604.00136.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00136.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM35_FlexMem_Long_Video_Memory",
      "slug": "mm35-flexmem-long-video-memory",
      "detail_url": "papers/mm35-flexmem-long-video-memory/",
      "title": "Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism",
      "summary": "长视频理解一直卡在上下文窗口和计算成本之间：把所有帧一次性塞给 MLLM 既昂贵也容易引入噪声，而简单抽帧又会丢掉关键细节。FlexMem 这篇工作把问题换了一个角度来做：不是直接缩短输入，而是把视频理解改写成视觉记忆的写入、压缩和读取问题。\n\n论文提出一个 training-free 的 visual memory mechanism。它把 visual KV caches 当成 memory source，通过 dual-pathway compression 做有效的 memory transfer 和 writing，再针对不同长视频与 streaming 任务设计 memory reading 策略。这个接口的关键点在于，它不需要重新训练底层 MLLM，却能让模型在较低硬件成本下处理更长视频，并维持较强问答能力。\n\n这篇工作值得收录，因为它给出了长视频理解里一个更可复用的 memory pattern：把视觉上下文持续写入可检索记忆，再按问题进行针对性读取。这对 long-video MLLM、streaming understanding 和更广义的 multimodal memory design 都有外溢，不只是又一个抽帧技巧。\n\n它没有升到更高一级，是因为当前证据仍主要集中在长视频 benchmark 和作者指定的两套 video-MLLM 上。它是一个很强的 memory mechanism，但还需要更多独立模型、更多真实视频场景和更长期采用来证明其更高层的路线价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-31",
      "doi": "",
      "arxiv_id": "2603.29252",
      "collected_at": "",
      "collection_order": 585,
      "source_url": "https://arxiv.org/pdf/2603.29252.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.29252.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "IND3_Owl_AuraID_Scientific_Instrumentation",
      "slug": "ind3-owl-auraid-scientific-instrumentation",
      "detail_url": "papers/ind3-owl-auraid-scientific-instrumentation/",
      "title": "Owl-AuraID 1.0: An Intelligent System for Autonomous Scientific Instrumentation and Scientific Data Analysis",
      "summary": "高通量科学实验越来越依赖自动化，但现实世界里的精密仪器往往被锁在专有 GUI 和异构软件栈里，导致很多自动化系统只能覆盖少数带 API 的设备。Owl-AuraID 正面瞄准这一现实瓶颈：如果仪器没有统一 API，agent 是否仍能像人类专家一样直接操作 GUI、串联实验流程，并完成后续数据分析。\n\n论文提出 Owl-AuraID，一个 software-hardware collaborative embodied agent system，采用 GUI-native 范式与精密仪器交互。其 skill-centric 设计把 Type-1 GUI 操作技能和 Type-2 数据分析技能组合进完整 workflow，连接样品处理、仪器控制和科学解释。论文报告其覆盖十类精密仪器与多种分析流程，包括 FTIR、NMR、AFM、TGA 等，体现出明显的跨设备泛化意图。\n\n这篇工作值得收录，因为它给出了 autonomous laboratory intelligence 的一种非常实际的系统路线：不等待厂商统一接口，而是把 GUI 操作、本地技能库和分析能力统一为 agent-native instrumentation stack。它对 AI x science、实验自动化、lab agents 和能力可迁移的技能系统都有持续参考价值。\n\n它暂时不更高，是因为当前仍是作者侧系统报告，长期影响力要看外部实验室是否会跟进复现，以及这种 GUI-native instrumentation pattern 能否稳定扩展到更广的实验设备和更复杂的闭环实验。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "industrial_process_and_manufacturing_systems",
      "theme_label": "工业过程与制造",
      "published_at": "2026-03-31",
      "doi": "",
      "arxiv_id": "2603.29828",
      "collected_at": "",
      "collection_order": 584,
      "source_url": "https://arxiv.org/pdf/2603.29828.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.29828.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "I13_Contextual_Privacy_Norms",
      "slug": "i13-contextual-privacy-norms",
      "detail_url": "papers/i13-contextual-privacy-norms/",
      "title": "Do LLMs Know What Is Private Internally? Probing and Steering Contextual Privacy Norms in Large Language Model Representations",
      "summary": "很多 LLM 的 privacy failure 看起来像是模型根本不理解什么信息不该在什么情境里泄露，但这篇论文切换了问题 framing：也许模型内部已经表示了 contextual privacy norms，只是这些表示没有稳定地转化为行为控制。这把问题从“模型不知道”改成了“表示与行为脱节”。\n\n论文基于 contextual integrity 理论，把隐私规范拆成 information type、recipient 和 transmission principle 三个维度，并系统探测这些维度是否在 activation space 中以可分离、可组合的方向存在。作者进一步提出 CI-parametric steering，沿这些维度做结构化干预，而不是用单一整体向量去硬推模型。结果显示，模型内部确实编码了这套结构，但行为层仍会泄露，由此把 privacy failure 归因到 control gap 而非纯缺失认知。\n\n这篇工作值得收录，因为它把 privacy alignment 从表层 prompt hardening 推进到表示层与 steering 层的结构化研究。对 mechanistic interpretability、concept steering 和 safety control，这不仅是一个隐私小任务，而是一个把社会规范映射到 latent structure 的清晰案例，具有明显方法外溢。\n\n它没有升到更高一级，是因为当前工作仍集中在 contextual privacy 这一特定规范族，外推到更一般的 social norms、policy control 和 production safety stack 还需要更多证据。它是强的表示与控制论文，但还未形成更广的对齐蓝图。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-03-31",
      "doi": "",
      "arxiv_id": "2604.00209",
      "collected_at": "",
      "collection_order": 583,
      "source_url": "https://arxiv.org/pdf/2604.00209.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00209.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO30_Latent_Y_Drug_Design_Agent",
      "slug": "bio30-latent-y-drug-design-agent",
      "detail_url": "papers/bio30-latent-y-drug-design-agent/",
      "title": "Latent-Y: A Lab-Validated Autonomous Agent for De Novo Drug Design",
      "summary": "AI for drug discovery 已经有大量生成模型和结构模型，但真正拖慢速度的往往是跨 literature review、target analysis、epitope selection、candidate design、validation 到 lab-ready selection 的整条研究工作流。多数系统只覆盖其中一段，而不是完整 campaign。\n\nLatent-Y 的核心价值在于把这条端到端流程交给 autonomous agent 执行，并让它在与人类专家相同的工具、数据库和文献环境中工作。它不仅调用专门的 antibody design model 生成候选，还负责组织后续的计算验证与筛选。更关键的是，论文给出了 wet-lab validation：在 9 个 target 上得到对 6 个 target 有效的 lab-confirmed nanobody binders，并通过 user study 报告专家协作效率的大幅压缩。\n\n它值得正式收录，因为它代表了一类更可信的 AI-for-science workflow paper：不是仅做 in-silico 打分，而是把 autonomous discovery、真实研究工具链和实验验证连成闭环。即便具体平台和模型栈带有公司色彩，这种‘autonomous campaign with lab validation’ 的工作流本身具有长期参考价值。\n\n它没有升到更高一级，是因为当前体系仍明显绑定 Latent Labs 平台与 Latent-X2 模型，外部复现性、开放性和跨模态/跨任务可迁移性仍有限。现阶段更像一条非常强的 AI scientist workflow 样板，而不是已经被社区普遍复用的公共基础设施。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-31",
      "doi": "",
      "arxiv_id": "2603.29727",
      "collected_at": "",
      "collection_order": 582,
      "source_url": "https://arxiv.org/pdf/2603.29727.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.29727.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "56倍速重塑抗体研发：Latent-Y 将数周专家工作压缩至数小时，实现自主闭环设计",
          "url": "https://www.bilibili.com/video/BV1F6QcBiEmS",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1F6QcBiEmS",
            "https://youtu.be/LJx3-TStTg0"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "latent y a lab validated autonomous agent for de novo drug design",
          "description": "当前生物药研发的瓶颈在于人类专家的分析带宽。Latent-Y 是一款基于 Latent-X2 模型的 AI 自主智能体，能根据自然语言指令完成从文献调研、表位识别、候选分子设计到质控筛选的全闭环流程。在实验验证中，该系统在 IL-6 等多个靶点上实现了 56 倍的研发提速，实验室命中率达 67%，最优结合亲和力达 5.44 nM。针对跨物种结合等非标设计挑战，Latent-Y 展现了自主编写代码并生成定制化算法的能力。这种端到端的自动化流程标志着抗体发现正从专家驱动模式向高通量、可扩展的计算自动化时代演进。",
          "x_post": "Latent Labs 推出 Latent-Y：自主抗体研发智能体实现 56 倍速提升与 5.44 nM 亲和力突破\n针对生物药研发中专家分析带宽受限的问题，Latent Labs 开发了基于 Latent-X2 基础模型的自主智能体 Latent-Y。该系统通过自然语言指令驱动，集成了文献检索、表位分析、序列生成及质控筛选的全闭环工作流。\n实验验证显示，Latent-Y 将原本需数周的研发周期压缩至数小时，提速达 56 倍。在包含 IL-6 在内的多个靶点测试中，其实验室命中率为 67%，最优结合亲和力达 5.44 nM；面对跨物种设计等非标挑战，系统展现了自主编写算法代码以优化几何评估的能力。\n研究结果表明，抗体发现流程正从低通量的专家驱动模式向可大规模扩展的计算自动化模式演进，实现了端到端的药物分子设计闭环。",
          "cover_url": "assets/covers/bio30-latent-y-drug-design-agent-240640f69a.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-05T17:38:47+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A159_SkillReducer_Token_Efficient_Skills",
      "slug": "a159-skillreducer-token-efficient-skills",
      "detail_url": "papers/a159-skillreducer-token-efficient-skills/",
      "title": "SkillReducer: Optimizing LLM Agent Skills for Token Efficiency",
      "summary": "基于 LLM 的 coding agent 和工具型 agent 越来越依赖 skill 机制来注入能力，但 skill 本身正在变成新的上下文负担：描述冗长、正文臃肿、参考文件过大，直接吞掉上下文预算并稀释模型注意力。SkillReducer 正面处理的不是单个 agent 性能，而是 skill 作为能力扩展接口时的 token 经济性问题。\n\n论文先对 55315 个公开 skill 做了大规模剖析，明确展示当前 skill 生态的系统性冗余，然后提出两阶段优化框架：第一阶段压缩或补全 routing 描述，第二阶段把 skill 正文拆成可操作核心与按需加载的补充内容，并通过 faithfulness 检查与反馈回路控制压缩后的可用性。\n\n这项工作与仓库长期关注的 agent capability extension、skill systems 和上下文管理高度一致。它不仅给出一个可复用的优化框架，还把 skill 设计从经验写法推进到可测量、可压缩、可迁移的工程对象；对 agent 的 token 成本、可维护性和调用鲁棒性都有直接实现价值。\n\n它的影响力目前仍主要集中在 skill 包装层和 coding-agent 语境，属于非常强的系统优化和接口整理，而不是更高一级的 agent 架构重写。按照当前更保守的分级标准，正式收录没有问题，但还不足以升到 disruptive。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-31",
      "doi": "",
      "arxiv_id": "2603.29919",
      "collected_at": "",
      "collection_order": 581,
      "source_url": "https://arxiv.org/pdf/2603.29919.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.29919.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "打造 AI 的高能效“插件大脑”：SkillReducer 引入关注点分离原则，通过渐进式呈现重构技能调用的极简主义范式",
          "url": "https://www.bilibili.com/video/BV1KoD8BWETo",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1KoD8BWETo",
            "https://youtu.be/GPwXq2zu2nA"
          ],
          "main_collection": "AI智能体",
          "match": "skillreducer optimizing llm agent skills for token efficiency",
          "description": "本视频深入探讨针对大模型智能体技能冗余问题的优化框架 SkillReducer。研究通过对五万余个公开技能的分析发现，现有技能描述普遍存在 60% 以上的非行动导向冗余，不仅大幅增加了令牌（Token）消耗，还因上下文干扰降低了任务成功率。该方案采用双阶段优化：首先利用增量调试算法提取路由层的最小充分描述，随后基于关注点分离原则将技能主体重构为核心指令与按需加载模块。实验证明，在平均压缩 48% 描述和 39% 内容的基础上，智能体功能质量反而提升了 2.8%，为高效能智能体开发提供了可落地的优化路径。",
          "x_post": "香港科技大学、清华大学及浙江工业大学推出 SkillReducer：优化智能体技能 Token 效率，冗余最高减少 48% 并提升 2.8% 质量\n\n【问题背景】对 5.5 万个公开技能的实证分析显示，超过 60% 的内容为非行动导向冗余，导致上下文窗口成本高昂且稀释了模型注意力。\n\n【方法核心】SkillReducer 引入关注点分离原则：利用增量调试（Delta Debugging）算法提取路由层的最小充分描述，并将技能主体重构为核心指令与按需加载的参考模块。\n\n【关键证据】实验表明，在平均压缩 48% 的描述和 39% 的主体内容后，智能体功能质量反而提升 2.8%，证明了精简上下文对任务成功率的正面作用。\n\n【结论边界】该框架为高能效智能体开发提供了通用的技能优化路径，已在多个主流模型系列与框架中验证了其广泛的通用性与鲁棒性。",
          "cover_url": "assets/covers/a159-skillreducer-token-efficient-skills-c87fa7aeb9.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-06T09:21:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A127_Near_Miss_Latent_Policy_Failures",
      "slug": "a127-near-miss-latent-policy-failures",
      "detail_url": "papers/a127-near-miss-latent-policy-failures/",
      "title": "Near-Miss: Latent Policy Failure Detection in Agentic Workflows",
      "summary": "agentic workflow 的合规评测常默认只看最终系统状态是否与 ground truth 一致，但这会漏掉一类更危险的错误：agent 实际上绕过了必要的 policy checks，只是恰好在这次轨迹里得到了正确结果。问题不只是 policy violation 有没有发生，而是当前评测常看不到“决策过程本身已经失真”的 latent failure。\n\nNear-Miss 针对这一盲点提出 latent policy failure metric。它建立在 ToolGuard 这类把自然语言 policy 编译成可执行 guard code 的框架上，但进一步分析完整 agent trajectories，判断 agent 的 tool-calling decisions 是否建立在充分、合规的信息条件之上，而不是只比较终态是否正确。这样评测目标从 outcome correctness 延伸到了 process validity。\n\n这篇工作值得收录，因为它把 agent evaluation 从“最终结果对不对”推进到“决策过程是否真正遵守约束”。对 enterprise workflow agents、tool-use compliance 和安全审计，这是一种更耐久的评估视角，也直指当前很多 agent benchmark 的结构性盲点。\n\n它没有升到更高一级，是因为当前验证仍主要集中在 business-process automation 与 ToolGuard/τ²-verified Airlines 这一类设定上。它提出了重要 blind spot 和可执行 metric，但是否会成为更广 agent evaluation 的默认标准，还需要更多跨场景验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-31",
      "doi": "",
      "arxiv_id": "2603.29665",
      "collected_at": "",
      "collection_order": 580,
      "source_url": "https://arxiv.org/pdf/2603.29665.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.29665.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM41_Hydra_Doc_Retrieval_Generation",
      "slug": "mm41-hydra-doc-retrieval-generation",
      "detail_url": "papers/mm41-hydra-doc-retrieval-generation/",
      "title": "Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model",
      "summary": "文档理解系统通常把检索和生成拆成两套模型来做，这会同时增加显存占用、服务复杂度和系统维护成本。Hydra 针对这一长期存在的双模型结构问题，尝试把视觉文档检索与文档问答生成统一到同一个视觉语言模型中，让同一底座同时承担文档表示和回答生成两种职责。\n\n这篇工作的核心做法是给基座 VLM 增加一个可切换的 retrieval LoRA：开启时输出适合 late-interaction 检索的多向量表示，关闭时恢复生成路径。作者特别强调了三个维持生成质量所必须满足的工程条件，包括 attention mode 恢复、lm_head 保留和 KV-cache 兼容解码，并用大规模样本比较表明切换后生成结果几乎与独立基座保持一致。\n\n它的价值不只在文档任务分数，而在于提出了一种更耐久的多模态系统接口：检索与生成不必天然对应两套模型。对仓库关注的多模态基础模型、统一接口和部署工作流而言，这是一种有可复用性的系统模式；同时 41% 的峰值显存下降也使它具备明确的工程现实意义。\n\n目前证据仍主要来自 arXiv 阶段和单次训练结果，部分提升集中在少数 benchmark 子集，作者自己也承认需要多种子实验进一步确认趋势。它已经足够作为强方法收录，但还没到重写该方向默认架构的程度，因此维持在 breakthrough 而不再上调。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-30",
      "doi": "",
      "arxiv_id": "2603.28554",
      "collected_at": "",
      "collection_order": 579,
      "source_url": "https://arxiv.org/pdf/2603.28554.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.28554.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "揭秘Hydra的“状态拨动”黑科技：利用LoRA加法特性实现物理级无缝切换，让单一VLM兼容双重能力",
          "url": "https://www.bilibili.com/video/BV1SYSfBBEYq",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1SYSfBBEYq",
            "https://youtu.be/V4Dr6g7WkZE"
          ],
          "main_collection": "AI物理与科学计算",
          "match": "hydra unifying document retrieval and generation in a single vision language model",
          "description": "针对文档AI领域中检索模型与生成式模型必须独立部署的“双子星困境”，Hydra架构提出了一种重构方案。该方法核心在于利用适配器权重的加法特性，通过实时挂载或卸载模块，使单一视觉语言模型在检索与生成状态间实现物理级无缝切换。研究指出，只要通过工程手段解决注意力模式动态重置等细节，即可在保持100%生成精度的前提下，将GPU显存占用大幅降低41%。实验涵盖了多模态检索数据，验证了其在复杂文档问答场景中的应用潜力，为低成本部署高性能文档智能系统提供了新路径。",
          "x_post": "研究员Athos Georgiou提出Hydra架构，通过LoRA状态切换统一VLM检索与生成，显存占用降低41%\n针对文档AI领域中检索与生成模型需独立部署的“双子星困境”，该研究提出Hydra架构以实现单一视觉语言模型的任务重构。其核心利用LoRA权重的加法特性，通过实时“挂载”或“卸载”适配器状态，使模型在检索模式（双向注意力）与生成模式（因果注意力）间物理级切换。实验数据表明，在解决注意力模式动态重置等工程细节后，Hydra在保持100%生成精度的前提下，将GPU显存峰值需求降低了41%。该方案通过“一脑双擎”设计显著降低了高性能文档智能系统的硬件部署成本，并展示了在全模态检索中的应用潜力。",
          "cover_url": "assets/covers/mm41-hydra-doc-retrieval-generation-f4189bcd6d.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-06T09:21:27+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM37_Unify_Agent_World_Grounded_Synthesis",
      "slug": "mm37-unify-agent-world-grounded-synthesis",
      "detail_url": "papers/mm37-unify-agent-world-grounded-synthesis/",
      "title": "Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis",
      "summary": "统一多模态模型已经能做出高质量图像，但一遇到 long-tail、知识密集、文化事实性很强的生成任务，就容易被冻结参数中的陈旧或缺失知识卡住。普通 world knowledge prompting 往往不够，因为问题不只是模型记不记得，而是生成流程缺少显式的外部 grounding 与证据整合。Unify-Agent 针对的正是这一缺口。\n\n论文把 world-grounded image synthesis 重写成一个 agentic pipeline：先做 prompt understanding，再做 multimodal evidence searching，然后 grounded recaptioning，最后再进入 synthesis。为了训练这一流程，作者构建了专门的数据管线和 143K 高质量 agent trajectories，用来监督完整的 agentic generation 过程；同时提出 FactIP benchmark，覆盖 12 类文化和长尾事实概念，显式要求外部知识 grounding。\n\n这篇工作值得收录，因为它不只是把 image generation 接个搜索器，而是把 reasoning、searching 和 generation 紧耦合成了统一 agentic modeling 流程。对 multimodal agents、open-world generation 和 grounded image synthesis，这是一条具有耐久方法价值的路线，而不仅仅是提分技巧。\n\n它没有升到更高一级，是因为当前仍主要是该方向的早期探索，尽管 pipeline 和 benchmark 都很完整，但是否会成为 world-grounded multimodal generation 的主流蓝图，还需要更多后续验证和外部 adoption。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-30",
      "doi": "",
      "arxiv_id": "2603.29620",
      "collected_at": "",
      "collection_order": 578,
      "source_url": "https://arxiv.org/pdf/2603.29620.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.29620.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A119_APEX_EM_Experience_Memory",
      "slug": "a119-apex-em-experience-memory",
      "detail_url": "papers/a119-apex-em-experience-memory/",
      "title": "APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay",
      "summary": "很多 LLM autonomous agents 虽然看起来能规划、执行和反思，但一旦面对结构相似却表面不同的任务，仍然会从头再做一遍，缺乏真正可积累的 procedural memory。现有 memory 方法常常只存简短摘要或纯语义向量，难以支撑跨任务的结构复用。APEX-EM 正是围绕这个问题设计。\n\n论文提出一种 non-parametric online learning 框架，把每次执行过程编码成 structured procedural-episodic experience，显式保留 planning steps、artifacts、iteration history、error analysis 和 quality scores。它再配合 Plan-Retrieve-Generate-Iterate-Ingest（PRGII）工作流、Task Verifiers 的多维 reward，以及结合 semantic search、structural signature matching 和 plan DAG traversal 的 hybrid retrieval，让 agent 在不改权重的情况下复用成功与失败经验。\n\n这篇工作值得收录，因为它把 agent memory 从‘存点笔记’推进到‘存可执行程序化经验’，而且给出了清晰的 online learning loop。对仓库持续扩展的 agent memory、self-improving agents 和 capability accumulation 来说，这种结构化 procedural-episodic replay 是明确可复用的模式，不只是一个 benchmark 技巧。\n\n它没有升到更高一级，是因为当前证据仍主要来自作者选取的几个 benchmark 和固定 backbone，外部 adoption 还没形成。它已经是一篇很强的 agent memory 工作，但是否会成为该方向的主导蓝图，还需要后续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-30",
      "doi": "",
      "arxiv_id": "2603.29093",
      "collected_at": "",
      "collection_order": 577,
      "source_url": "https://arxiv.org/pdf/2603.29093.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.29093.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A113_Mimosa_Scientific_Research_Agents",
      "slug": "a113-mimosa-scientific-research-agents",
      "detail_url": "papers/a113-mimosa-scientific-research-agents/",
      "title": "Mimosa Framework: Toward Evolving Multi-Agent Systems for Scientific Research",
      "summary": "当前 autonomous scientific research 系统虽然越来越多，但大多仍依赖固定的 agent workflow 和预设工具栈，导致一旦任务结构变化或环境变复杂，系统很难自适应调整。Mimosa 瞄准的不是单一任务性能，而是‘科研 agent workflow 能否像程序一样被自动合成、执行、评估并持续进化’这个更上层问题。\n\n论文提出 Mimosa，一个可进化的 multi-agent scientific workflow 框架。它通过 meta-orchestrator 自动生成任务特定的 agent 拓扑，用 MCP 做动态工具发现，再由 code-generating agents 调用科学软件与工具执行子任务；执行结果交给 LLM judge 评分，反馈再反向驱动 workflow refinement。也就是说，它把 multi-agent decomposition、tool discovery、execution trace 和 evolutionary refinement 接成了闭环。\n\n这篇工作值得收录，因为它不是再做一个固定 agent，而是在 agent-driven science 方向给出了一种更 durable 的系统模式：任务来了先合成 workflow，再根据实验反馈迭代演化。这个结构对科学自动化、复杂分析流水线和自改进 agent 系统都有明显外溢价值，也和仓库近期补收的 self-evolving / workflow optimization 主线形成了很好衔接。\n\n它没有升到更高一级，是因为当前主要验证还集中在 ScienceAgentBench 和作者给出的开源平台叙事上。虽然模式很对，且比普通 static multi-agent paper 更进一步，但离真正成为跨科学领域默认路线，还需要更多独立团队复现和更广场景 adoption。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-30",
      "doi": "",
      "arxiv_id": "2603.28986",
      "collected_at": "",
      "collection_order": 576,
      "source_url": "https://arxiv.org/pdf/2603.28986.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.28986.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A111_Heddle_Agentic_RL_Rollout",
      "slug": "a111-heddle-agentic-rl-rollout",
      "detail_url": "papers/a111-heddle-agentic-rl-rollout/",
      "title": "Heddle: A Distributed Orchestration System for Agentic RL Rollout",
      "summary": "Agentic RL 把 LLM 训练分成 rollout data collection 和 policy training 两个阶段，但真正卡住吞吐的往往不是训练本身，而是 rollout 中长尾轨迹的生成。频繁工具调用会导致排队延迟、相互干扰和 per-token time 膨胀，而很多系统仍按 step-centric 方式调度，忽略了整条 trajectory 的上下文与长尾特性。\n\nHeddle 的核心新意是把 rollout orchestration 改写成 trajectory-centric system problem。它结合 trajectory-level scheduling、trajectory-aware placement 和 trajectory-adaptive resource manager 三个层次，分别处理何时排队、放到哪里执行、以及如何动态调整模型并行度，从而有针对性地压制长尾轨迹对端到端吞吐的拖累。\n\n它值得正式收录，因为 agentic RL 正在变成越来越重要的系统层问题，而 Heddle 给出的不是某个 workload 特化优化，而是一套可复用的 rollout orchestration pattern。对需要大规模工具调用、长轨迹交互和分布式收集的 agentic RL 系统都有直接外溢价值。\n\n它现在是 breakthrough 而不是更高一级，因为主要证据仍来自 arXiv 阶段和 rollout throughput 指标，离更广泛的通用 distributed agent runtime 参考架构还有距离；同时不同 agent workload 下的调度收益和工程复杂度仍需更多生产级验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-30",
      "doi": "",
      "arxiv_id": "2603.28101",
      "collected_at": "",
      "collection_order": 575,
      "source_url": "https://arxiv.org/pdf/2603.28101.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.28101.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "通向AGI的算力破局点：北大Heddle以轨迹级编排解决智能体训练80%的性能损耗",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "heddle a distributed orchestration system for agentic rl rollout",
          "description": "针对Agentic RL训练中长尾轨迹导致的80%算力损耗问题，北京大学提出Heddle分布式轨迹编排系统。该系统改变了传统以“步”为中心的调度模式，转向“以轨迹为中心”的全局管理。通过渐进式优先级调度解决排队延迟，利用轨迹感知物理隔离降低算力干扰，并结合轻量级模型实时预测轨迹长度以优化资源分配。实验表明，Heddle在复杂多步交互场景下，能将集群吞吐量提升至现有框架的2.5倍，有效解决了智能体在调用工具和环境交互时的资源利用率低下问题。",
          "x_post": "北京大学推出Heddle：轨迹级编排解决Agentic RL采样80%性能损耗，吞吐量提升2.5倍\n在智能体强化学习（Agentic RL）中，多步交互与工具调用产生的“长尾轨迹”常导致严重的算力闲置，采样阶段往往占用80%的总训练时间。Heddle摒弃了传统的“以步骤为中心”调度模式，通过轨迹级编排重构底层逻辑。\n系统核心包含三项技术：利用动态优先级消除排队延迟的轨迹调度、通过动态规划实现物理隔离的轨迹放置、以及基于实时长度预测的资源管理。这种“以轨迹为中心”的全局管理大幅降低了内存与算力争抢。\n实验数据证明，在复杂多步交互任务中，Heddle能将集群吞吐量提升至现有主流框架的2.5倍。该研究为解决大规模智能体训练中的算力黑洞问题提供了高性能分布式方案。",
          "cover_url": "assets/covers/a111-heddle-agentic-rl-rollout-4843c57c7d.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-01T12:47:50+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A110_Meta_Harness_Model_Harnesses",
      "slug": "a110-meta-harness-model-harnesses",
      "detail_url": "papers/a110-meta-harness-model-harnesses/",
      "title": "Meta-Harness: End-to-End Optimization of Model Harnesses",
      "summary": "大语言模型系统的表现不仅由模型权重决定，也深受 harness 影响，也就是决定哪些信息被存储、检索和呈现给模型的那层代码逻辑。现实里这部分仍主要靠人工设计，而现有文本优化器又往往把反馈压缩得过度，难以真正搜索代码级 harness 设计空间。\n\nMeta-Harness 的核心贡献是把 harness optimization 做成 outer-loop code search。系统中的 proposer agent 能读取源代码、历史候选的分数以及执行轨迹，并在文件系统层面访问完整经验，而不是只拿到高度压缩的文本反馈。它因此能对上下文管理、检索逻辑和呈现策略进行端到端搜索，并在在线分类、检索增强数学推理和 agentic coding 三类设置中稳定优于手工或既有 context-management baseline。\n\n它值得正式收录，因为这篇工作推进的不只是 prompt 优化，而是把 harness 本身提升成可自动设计的第一类对象。仓库里已经有 AutoHarness 和 Natural-Language Agent Harnesses，这篇则更进一步，把 harness engineering 从单条技巧推进到可搜索的 outer-loop workflow，对 agent system design 和 model orchestration 都有明显耐久外溢。\n\n它目前定为 disruptive 而不是更高一级，因为证据仍主要来自 arXiv 阶段和有限任务组合，离成为广泛默认的 harness engineering 范式还有距离；同时其搜索成本、跨应用泛化和工程落地复杂度仍需要更多后续验证。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-30",
      "doi": "",
      "arxiv_id": "2603.28052",
      "collected_at": "",
      "collection_order": 574,
      "source_url": "https://arxiv.org/pdf/2603.28052.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.28052.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "构建AI进化的闭环系统：Meta-Harness通过自主修改底层代码，在动态信息流中实现准确率跨越式提升",
          "url": "https://www.bilibili.com/video/BV1pJ95B5Eg7",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1pJ95B5Eg7",
            "https://youtu.be/oErjCKQxcBg"
          ],
          "main_collection": "AI智能体",
          "match": "meta harness end to end optimization of model harnesses",
          "description": "大语言模型的性能不仅取决于权重，外部框架的影响可达6倍。传统人工优化效率低，而现有自动化方案因过度压缩反馈信息存在“失忆”问题。Meta-Harness由斯坦福、MIT等机构联合提出，采用智能体外环系统，赋予其全量文件系统访问权限，直接审阅并修改Python代码。通过“提出-评估-存储”闭环，该系统在处理千万级Token上下文的基础上进行代码空间搜索。实验显示，Meta-Harness在无人工干预下将在线分类准确率提升7.7%，且Token消耗仅为基线的四分之一，显著提升了自动化框架工程的效率。",
          "x_post": "斯坦福与MIT等机构发布Meta-Harness：自动优化大模型框架代码，准确率提升7.7%\n\n研究指出，LLM系统性能高度依赖人工编写的检索、存储及提示代码（Harness）。Meta-Harness构建了一个自动化外环系统，赋予编程代理全量文件系统访问权限，直接审阅并迭代修改底层Python代码，而非依赖信息被过度压缩的任务摘要。\n\n实验证明，在在线文本分类任务中，该方法将准确率从40.9%提升至48.6%，且Token消耗仅为基线系统的约22.4%。系统单次迭代的诊断视野可覆盖千万级Token的执行轨迹，在数学推理和编程代理测试中均超越了现有方案。\n\n这种基于完整经验反馈而非有损总结的代码空间搜索机制，有效克服了传统自动化方案的“失忆”问题，显著提升了复杂AI框架工程的优化效率与性能上限。",
          "cover_url": "assets/covers/a110-meta-harness-model-harnesses-18f45fce4c.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-01T05:11:26+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R44_TurboAngle_KV_Compression",
      "slug": "r44-turboangle-kv-compression",
      "detail_url": "papers/r44-turboangle-kv-compression/",
      "title": "TurboAngle: Near-Lossless KV Cache Compression via Uniform Angle Quantization",
      "summary": "长上下文推理里，KV cache 已经成为推理内存和部署成本的核心瓶颈之一。现有量化方法通常需要校准数据、复杂统计特征或异常值处理，工程链条重且对新模型的迁移成本高。\n\nTurboAngle 的核心思路是先用随机对角旋转和快速 Walsh-Hadamard 变换把 KV 向量送入一个更适合量化的域，再对连续元素对的角度做均匀量化。它进一步引入逐层 early-boost 和 K/V 非对称范数量化，从而在零校准条件下实现近乎无损的 KV 压缩。\n\n它值得正式收录，因为它没有继续在原始激活分布上做补丁，而是直接改变了量化问题的表述方式。这种“先把分布变成可量化域”的路线，对推理系统、缓存压缩和后续量化器设计都有清晰方法外溢。\n\n它暂时不升到更高一级，原因在于当前证据仍主要集中在 perplexity 和量化配置分析上，真实下游任务、长上下文基准和系统级延迟收益还需要更完整的验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-29",
      "doi": "",
      "arxiv_id": "2603.27467",
      "collected_at": "",
      "collection_order": 573,
      "source_url": "https://arxiv.org/pdf/2603.27467.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.27467.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R32_UltRAG_KG_RAG",
      "slug": "r32-ultrag-kg-rag",
      "detail_url": "papers/r32-ultrag-kg-rag/",
      "title": "UltRAG: a Universal Simple Scalable Recipe for Knowledge Graph RAG",
      "summary": "Knowledge Graph RAG 一直比文档式 RAG 更难做，尤其在 multi-hop graph reasoning 上，传统做法往往要在 classical KG retrieval 和 LLM generation 之间做很多特化 glue code，或者退化成昂贵且脆弱的图检索流水线。UltRAG 的思路是换个接口：不再把 KG 当作普通上下文检索源，而是让 LLM 直接调用 query execution 模块。\n\n论文提出 ULTRAG，通过现成的 neural query executing modules，让语言模型在无需重训练 LLM 或 executor 的前提下执行 Knowledge Graph 问答。作者强调这不是 classical RAG 的一个小变种，而是让 LLM 以更接近 query planner/executor 的方式与 Wikidata 级别的大图交互，并在 KGQA 上达到优于现有 KG-RAG 的效果，同时成本可控。\n\n这篇工作值得收录，因为它给 graph-grounded retrieval-reasoning 提供了更可扩展的接口设计。对 KG-RAG、knowledge-intensive agents 和大规模结构化知识接入来说，这种‘LLM + query executor’的范式比单纯堆图检索模块更耐用。\n\n它没有升到更高一级，是因为当前主要影响仍然集中在 KGQA 和 graph-grounded retrieval 这条子线，尚未证明会反过来重写更广泛的 RAG 基础设施。它是很好的方法推进，但还没到更高层。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-29",
      "doi": "",
      "arxiv_id": "2603.28773",
      "collected_at": "",
      "collection_order": 572,
      "source_url": "https://arxiv.org/pdf/2603.28773.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.28773.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW24_Expert_Streaming_MoE_Chiplets",
      "slug": "hw24-expert-streaming-moe-chiplets",
      "detail_url": "papers/hw24-expert-streaming-moe-chiplets/",
      "title": "Expert Streaming: Accelerating Low-Batch MoE Inference via Multi-chiplet Architecture and Dynamic Expert Trajectory Scheduling",
      "summary": "MoE 在 edge / low-batch inference 场景里很有吸引力，但真实部署时会同时撞上 expert sparsity、on-chip memory 限制、off-chip access 开销和 workload imbalance。随着 chiplet interconnect 带宽提升，低粒度分布式调度的机会也出现了。\n\n这篇工作的核心新意是提出 Fully Sharded Expert Data Parallelism 及其对应的 dynamic expert trajectory scheduling，把 fine-grained expert streams 沿高带宽 chiplet 链路调度和重叠执行。论文不只是给一个 scheduling trick，而是明确提出一套面向 low-batch MoE inference 的 parallelization paradigm，并配套轻量 virtualization rules 让数据流复杂度可硬件化实现。\n\n它值得正式收录，因为这类工作真正影响的是 AI hardware design space：MoE 推理不再只是把现有大模型搬到 chiplet 上，而是需要新的 sharding、通信和 runtime scheduling 组织方式。对仓库来说，这属于有耐久价值的 architecture/workflow paper，而不是单一 kernel 优化。\n\n它没有升到更高一级，是因为当前范围仍主要集中在 low-batch MoE inference 和 multi-chiplet 这条明确子线，通用性还没有外推到更广的 accelerator family。它是强而清楚的设计模式，但暂时还不到更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-03-29",
      "doi": "",
      "arxiv_id": "2603.27624",
      "collected_at": "",
      "collection_order": 571,
      "source_url": "https://arxiv.org/pdf/2603.27624.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.27624.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "港科大推出 Expert Streaming 架构：利用多芯粒动态调度实现 MoE 推理 2 倍提速与 78.8% 内存节省",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "expert streaming accelerating low batch moe inference via multi chiplet architecture and dynamic expert trajectory scheduling",
          "description": "针对边缘设备部署混合专家模型（MoE）时面临的 SRAM 内存受限与计算负载不均挑战，港科大团队提出 Expert Streaming 架构。该方案核心采用 FSE-DP 全分片专家数据并行策略，利用多芯粒高速互联技术使专家权重以微切片形式在芯片间动态流转，实现了计算与通信的高效重叠。这种设计打破了传统并行策略中的内存冗余限制，解决了低批处理量场景下权重复用率低的问题。实验数据表明，该架构在显著降低片上存储占用的同时，实现了推理性能的成倍增长，为大模型在低功耗边缘端的实时应用提供了硬件级解决方案。",
          "x_post": "港科大团队推出 Expert Streaming 架构：多芯粒并行实现 MoE 推理 2 倍提速与 78.8% 内存节省\n针对边缘端部署 MoE 模型时 SRAM 资源受限及低 Batch 场景下权重复用率低的痛点，研究团队提出了一种新型多芯粒（Multi-chiplet）并行策略。该架构核心采用 FSE-DP（全分片专家数据并行）范式，利用 D2D 高速互联将专家权重以微切片形式在各芯片间动态流转，实现了计算与通信的高效重叠。实验数据与 5nm MCM 流片结果显示，该方案打破了传统并行策略中的内存冗余限制，在显著降低片上存储占用的同时，推理性能提升达 2.00x。这一研究为混合专家模型在低功耗边缘端的实时应用提供了高带宽利用率的硬件级解决方案。",
          "cover_url": "assets/covers/hw24-expert-streaming-moe-chiplets-d105cf7b9b.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-09T13:53:17+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO28_AFDB_Quaternary_Complexes",
      "slug": "bio28-afdb-quaternary-complexes",
      "detail_url": "papers/bio28-afdb-quaternary-complexes/",
      "title": "AlphaFold Database expands to proteome-scale quaternary structures",
      "summary": "蛋白质功能越来越需要在复合体与互作层面理解，但现有结构资源长期偏向单体，导致很多生物学与药物发现工作仍停留在序列、单体结构或零散相互作用证据上。AlphaFold Protein Structure Database 已经把单体结构访问门槛大幅降低，这篇工作继续把问题推进到 proteome-scale 的复合体层。\n\n作者将 4,777 个 proteome 上 31M 级别的 homo- 和 heteromeric 复合体预测整合起来，并给出 1.8M 高置信 complex 结果，同时系统校准 complex 置信度、提出 cutoffs、分析 monomer 场景看不到的新结构拓扑与聚类规律。它的真正新意不只是规模，而是把 interactome 级结构预测做成可用的公共工作流和参考资源。\n\n这件事对 AI x biology 的价值很直接：它把结构生物学、互作研究、功能注释和药物发现中的一个高摩擦环节转成了可检索、可筛选、可批量调用的基础设施。相比单个模型论文，它更像长期会被反复调用的工作流底座，因此很适合正式收进仓库。\n\n但这篇还不到更高一级。原因是它更偏资源扩展与大规模部署，而不是提出新的基础模型范式；而且目前仍是 bioRxiv 阶段，长期影响虽然看起来很强，但还需要看后续社区吸收、正式发表和下游依赖程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-29",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 570,
      "source_url": "https://research.nvidia.com/labs/dbr/assets/data/manuscripts/afdb.pdf",
      "paper_url": "https://research.nvidia.com/labs/dbr/assets/data/manuscripts/afdb.pdf",
      "project_urls": [
        "https://research.nvidia.com/labs/dbr/assets/data/manuscripts/afdb.pdf"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A186_AgentSwing_Context_Routing",
      "slug": "a186-agentswing-context-routing",
      "detail_url": "papers/a186-agentswing-context-routing/",
      "title": "AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents",
      "summary": "这篇论文面向长视距 Web agent 的上下文容量瓶颈。现有 context management 往往在整个轨迹中固定使用某一种压缩、裁剪或保留策略，但信息检索任务的状态会动态变化：早期更需要探索效率，后期更需要终局精度，单一静态策略很难同时满足。\n\nAgentSwing 先用概率框架把长视距成功拆成 search efficiency 和 terminal precision 两个维度，再提出 state-aware adaptive parallel context management routing。系统在触发点并行展开多个 context-managed 分支，用 lookahead routing 选择最有前景的后续轨迹，从而让 agent 在不同阶段自适应切换上下文处理策略。\n\n它值得收录，是因为它把 agent context engineering 从静态压缩技巧提升为可分析、可路由的决策问题，直接服务于 deep research、长网页搜索和多轮信息搜集 agent。论文显示它能在不同基准和 agent backbone 上超过强静态策略，并以更少交互轮数达到相近或更高上限。\n\n局限在于它需要并行分支和 lookahead，推理成本与实现复杂度高于单一路径 agent；此外结果仍集中在 Web 信息搜索任务。它因此是长视距 agent context routing 的突破性框架，而不是完整的通用 agent memory 系统。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-29",
      "doi": "",
      "arxiv_id": "2603.27490",
      "collected_at": "",
      "collection_order": 569,
      "source_url": "https://arxiv.org/pdf/2603.27490.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.27490.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A160_PRBench_Physics_Reproduction",
      "slug": "a160-prbench-physics-reproduction",
      "detail_url": "papers/a160-prbench-physics-reproduction/",
      "title": "PRBench: End-to-end Paper Reproduction in Physics Research",
      "summary": "这篇论文针对一个此前没有被严格回答的问题：现有大模型 agent 虽然在代码、推理和局部科研任务上表现不错，但它们是否真的能从真实科学论文出发，独立完成端到端的复现实验流程。作者将这个问题具体化为 physics reproduction，并构建了一个由真实已发表论文反推而来的 benchmark，以避免科研 agent 评测长期停留在拆碎任务或合成任务层面。\n\n方法上的核心贡献是 PRBench 本身。它包含 30 个由物理学领域专家策划的任务，覆盖 11 个 physics 子方向，要求 agent 只基于论文内容与任务指令，在沙箱环境里从零实现算法并产出与原论文一致的定量结果。数据、评分 rubric、ground truth 与 agentified assessment pipeline 一起构成了一套可复用的评测接口，使 scientific-agent 的能力第一次能在真实论文复现链条上被系统比较。\n\n对本仓库而言，它的价值不只是一个 physics benchmark，而是为 agent-driven scientific workflow 提供了更可信的评测基座。和单点代码任务、单轮问答或 narrow domain benchmark 相比，PRBench 更接近真实科研中的长链路工作形态，因此对 AI for science、autonomous research agent、research evaluation 这几条主线都有明显外溢价值。\n\n这篇论文目前仍主要建立在 physics reproduction 场景上，跨学科覆盖面还有限。它更像是科学复现 agent 评测的强基准和起点，而不是已经被广泛接受的跨学科默认标准，所以在本仓库中定为 breakthrough，而不再上调。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-29",
      "doi": "",
      "arxiv_id": "2603.27646",
      "collected_at": "",
      "collection_order": 568,
      "source_url": "https://arxiv.org/pdf/2603.27646.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.27646.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "北京大学发布PRBench基准，在全隔离沙盒中挑战AI独立复现物理论文的端到端能力",
          "url": "https://www.bilibili.com/video/BV1ygDZBbEEc",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1ygDZBbEEc",
            "https://youtu.be/a5KK-9cB21A"
          ],
          "main_collection": "AI智能体",
          "match": "prbench end to end paper reproduction in physics research",
          "description": "北京大学发布PRBench基准，旨在评估大语言模型在物理学研究中的端到端复现能力。该基准涵盖量子光学、核物理等11个子领域的30项任务，要求智能体在完全隔离的沙盒环境中，仅依靠论文原文从零开始编写代码并生成定量结果。研究发现，尽管现有模型在方法论理解上有所表现，但在代码实现和数值精度方面存在严重不足，所有参与测试的智能体在完整复现任务中的成功率均为零。评分体系重点考察数据复现准确度，占比达60%。PRBench为衡量AI迈向自主科学发现的真实水平提供了规范化且严苛的验证平台，揭示了当前AI在复杂科研工程中的局限性。",
          "x_post": "北京大学物理学院发布 PRBench 基准，评估 AI 端到端复现物理论文能力，实测所有模型完整复现成功率均为 0。\n\n当前大语言模型评估多侧重于文本理解，缺乏对科研中“阅读到验证”全流程执行力的考核。北京大学团队开发的 PRBench 涵盖量子光学、核物理等 11 个子领域的 30 项任务，要求 AI 在完全隔离的沙盒中，仅凭论文原文独立编写代码并生成定量结果。\n\n评估体系将 60% 的权重置于数据复现准确度。实验结果显示，尽管尖端模型在方法论理解上表现尚可，但在数值精度和代码实现上存在严重缺陷，测试模型的完整复现成功率均为零。该基准为衡量 AI 迈向自主科学研究的进程提供了严苛的验证平台，并揭示了当前模型在复杂科研工程中的系统性失效模式。",
          "cover_url": "assets/covers/a160-prbench-physics-reproduction-b9df3d6880.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-08T13:10:27+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T24_Muon_Associative_Memory",
      "slug": "t24-muon-associative-memory",
      "detail_url": "papers/t24-muon-associative-memory/",
      "title": "Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory",
      "summary": "Muon 等谱优化器在大规模语言模型训练中的强表现已经引发很多关注，但社区对它们到底为什么有效、优势来自哪里，仍缺少足够干净的理论解释。单看经验结果，很难区分它到底是在更快收敛、放大长尾信号，还是仅仅在某些工程设置下占优。\n\n这篇工作把问题放进线性联想记忆框架中分析，在高斯嵌入和幂律频率分布下推导了 Muon 与 SGD 的容量和批次缩放规律。核心结论是：Muon 在单步更新中就能获得远高于 SGD 的存储容量，并且在更大的临界 batch size 下才饱和；多步动力学分析则说明它的主要优势集中在训练早期对各向异性梯度的快速放大与整形。\n\n它值得正式收录，因为这是一篇对活跃核心方向给出强理论澄清的论文。它把谱优化器的优势和事实记忆、长尾数据、batch scaling 明确联系起来，对理解大模型训练动态和优化器设计都有持久参考价值。\n\n它暂时不升到更高一级，原因在于当前理论仍建立在简化的联想记忆任务和近似动力学之上，距离完整解释真实 LLM 训练还有明显距离。它是高质量理论推进，但还不是最终定论。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-03-27",
      "doi": "",
      "arxiv_id": "2603.26554",
      "collected_at": "",
      "collection_order": 567,
      "source_url": "https://arxiv.org/pdf/2603.26554.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.26554.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P26_HorusEye_Tomography_Restoration",
      "slug": "p26-horuseye-tomography-restoration",
      "detail_url": "papers/p26-horuseye-tomography-restoration/",
      "title": "HorusEye: a self-supervised foundation model for generalizable X-ray tomography restoration",
      "summary": "X-ray tomography 在科学和临床场景里都很关键，但图像退化、低剂量采集和数据稀缺一直限制其分析质量。已有 restoration 方法通常围绕特定模态和预设退化建模，泛化性差，导致大量后处理系统只能在窄条件下工作。\n\nHorusEye 的核心新意，是把 restoration 重新定义为直接从数据中学习真实且非参数化的 acquisition degradation process，而不是假设一套固定退化模型。作者使用 interslice contrastive pretraining 和自监督训练，在没有配对监督和先验退化假设的条件下，同时学习结构先验与退化机制，并在超大规模 X-ray 图像上形成 foundation model。\n\n它值得收录，不只是因为效果提升，而是因为它把 tomography restoration 从任务专用模块提升到了通用基础模型接口。论文还把这种恢复能力和更低剂量成像、硬件需求下降、下游 AI 任务增强直接连到了一起，属于很典型的 AI 重塑科研/医疗成像 workflow。\n\n为什么不是更高一级也很明确：它目前仍主要集中在 X-ray tomography 这一大类成像问题上，虽然覆盖面已经很广，但还没有形成更普适的 scientific imaging foundation-model 蓝图。它是很强的 breakthrough，但不是更大的范式重写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-03-27",
      "doi": "10.1038/s43588-026-00973-3",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 566,
      "source_url": "https://www.nature.com/articles/s43588-026-00973-3",
      "paper_url": "https://www.nature.com/articles/s43588-026-00973-3",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "免除高辐射也能看清脏器细节，自监督模型HorusEye用相邻切片自动去噪",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "horuseye a self supervised foundation model for generalizable x ray tomography restoration",
          "description": "哈工大与沙特阿卜杜拉国王科技大学（KAUST）等团队在X射线断层扫描修复领域取得突破，联合推出通用基础模型HorusEye。传统AI严重依赖临床上极难获取的“清晰-高噪”配对数据，且泛化性差。为此，HorusEye利用相邻切片间结构连续而噪声随机不连续的物理特性，通过“夹击”算法与自监督学习进行去噪。模型基于超1亿张图像预训练，融合了SwinUNet架构。实验表明，HorusEye无需成对数据，即可在医疗CT、显微及纳米CT等多模态下实现出色的去噪、超分辨率重建与金属伪影剔除，显著提升病灶检出率。这使得患者在接受极低辐射剂量的前提下，依然能获得高清晰度的脏器细节，安全与画质兼得。",
          "x_post": "哈工大与KAUST等联合发布自监督X射线断层扫描修复基础模型HorusEye，基于超1亿张图像预训练\n【研究背景】传统医疗图像修复算法高度依赖临床极难获取的“清晰-高噪”成对数据，且由于不同设备和部位差异，泛化性受到限制。\n【核心方法】HorusEye利用相邻扫描切片中结构连续而噪声随机分布的物理规律，采用自监督“夹击”算法与SwinUNet架构，无需成对数据即可实现自监督图像重建。\n【关键数据】该模型在包含12万个三维扫描卷、超1亿张图像的50个多中心异构数据集上完成预训练，在医疗、显微及纳米CT等多模态的去噪、超分和金属伪影剔除任务中，性能均优于特定任务模型。\n【应用前景】作为一种通用的图像后处理解决方案，该模型在显著降低患者X射线辐射剂量的同时，保障了脏器细节的清晰度与临床诊断的准确性。",
          "cover_url": "assets/covers/p26-horuseye-tomography-restoration-12ed00b4f3.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-20T19:09:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM34_VGGRPO_World_Consistent_Video",
      "slug": "mm34-vggrpo-world-consistent-video",
      "detail_url": "papers/mm34-vggrpo-world-consistent-video/",
      "title": "VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward",
      "summary": "大规模视频扩散模型已经能生成高质量画面，但几何一致性仍然是明显短板：镜头抖动、跨视角结构漂移和动态场景中的世界不一致会显著削弱其作为 world generation interface 的价值。此前方法要么改动生成器结构，要么在 RGB 空间做 geometry-aware reward，对动态场景支持弱且训练成本高。\n\nVGGRPO 的关键新意是把 geometry reward 直接搬进 latent space。它先用 Latent Geometry Model 把视频扩散 latent 与具有 4D reconstruction 能力的几何基础模型接起来，从而能够不经反复 VAE 解码就直接从 latent 解出场景几何；随后在 latent space 做 Group Relative Policy Optimization，配合 camera motion smoothness reward 和 geometry reprojection consistency reward 两类奖励，对世界一致性进行 post-training。\n\n它值得正式收录，因为这不是单纯多加一个视频奖励函数，而是在 generative video post-training 里提出了更高效、更可推广的 geometry-guided RL pattern：几何约束不必停留在 RGB 对齐，也不必局限于静态场景。这对 video world models、camera-consistent generation 和更广的 world-consistent generation 都有明确外溢。\n\n它现在定为 breakthrough 而不是更高一级，因为仍处于 arXiv 早期阶段，影响范围首先集中在几何一致性和 camera stability，而不是全面重排视频生成路线；此外 latent geometry decoding 的稳健性和跨模型泛化还需要更多后续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-27",
      "doi": "",
      "arxiv_id": "2603.26599",
      "collected_at": "",
      "collection_order": 565,
      "source_url": "https://arxiv.org/pdf/2603.26599.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.26599.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决AI视频一动就崩的物理难题：VGGRPO通过4D潜在奖励重塑动态场景的几何一致性",
          "url": "https://www.bilibili.com/video/BV1tZXZB5E2P",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1tZXZB5E2P",
            "https://youtu.be/B2zVELZ9UAY"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "vggrpo towards world consistent video generation with 4d latent reward",
          "description": "针对视频扩散模型在镜头移动时产生的几何畸变与物理结构崩溃问题，本视频解析由Google等机构提出的VGGRPO框架。该方法跳过耗时的VAE解码，通过轻量级潜在几何模型直接在潜在空间提取4D场景结构。结合组相对策略优化算法，研究者设计了相机平滑与重投影一致性双重奖励机制。实验证明，该方案在不损失通用生成能力的前提下，显著提升了动态视频的视觉连贯性与物理稳定性，为具身智能等下游应用提供了可靠的物理模拟基础。其核心价值在于解决了传统对齐方法对像素空间的过度依赖。",
          "x_post": "Google 等团队发布 VGGRPO：基于 4D 潜在奖励解决视频生成的几何一致性难题\n现有视频扩散模型在镜头移动时常面临物理结构瓦解与几何畸变。VGGRPO 引入轻量级潜在几何模型（LGM），绕过耗时的 VAE 解码，直接在潜在空间提取 4D 场景结构。通过组相对策略优化（GRPO）及相机平滑与重投影一致性双重奖励，该框架实现了对动态视频物理规律的精准对齐。实验证明，该方案在不损失模型通用生成能力的前提下，显著增强了视频的镜头稳定性与结构连贯性，为具身智能应用提供了可靠的物理模拟基础。",
          "cover_url": "assets/covers/mm34-vggrpo-world-consistent-video-1f6bacece2.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-01T04:45:07+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "I17_Weight_Tying_Output_Bias",
      "slug": "i17-weight-tying-output-bias",
      "detail_url": "papers/i17-weight-tying-output-bias/",
      "title": "Weight Tying Biases Token Embeddings Towards the Output Space",
      "summary": "权重绑定长期被当作语言模型里的标准参数节省技巧，但随着模型规模增大，越来越多新模型开始放弃 tying。过去这更多被当作经验工程选择，而不是一个被充分解释的机制问题。\n\n这篇工作从结构对齐、tuned lens 和梯度流角度系统分析了权重绑定的代价。作者发现共享嵌入矩阵会明显向输出空间偏移，而根本原因是训练初期输出梯度对共享矩阵具有压倒性主导。进一步的分析还揭示了早期层因此承受 first-layer penalty，说明 tying 不是中性的参数共享，而是对输入表征的系统性扭曲。\n\n它值得正式收录，因为它给出了一个很典型的 mechanistic explanation：不是简单说 untied 更好，而是解释了为什么共享矩阵会被 unembedding 需求绑架。这对 embedding 设计、参数共享策略以及现代 LLM 架构演进都有持续解释价值。\n\n它暂时不升到更高一级，原因在于论文更像强诊断而不是完整解法。它说明了问题和因果链条，但尚未提出一个同时保持参数效率又稳定消除偏置的新范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-03-27",
      "doi": "",
      "arxiv_id": "2603.26663",
      "collected_at": "",
      "collection_order": 564,
      "source_url": "https://arxiv.org/pdf/2603.26663.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.26663.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW21_Mixed_Precision_Supernetwork",
      "slug": "hw21-mixed-precision-supernetwork",
      "detail_url": "papers/hw21-mixed-precision-supernetwork/",
      "title": "Supernetwork-based efficient mapping of deep learning applications to mixed-precision hardware using model adaptation",
      "summary": "随着异构模拟-数字加速器逐渐成熟，真正的瓶颈不再只是单个硬件单元效率，而是如何把神经网络各层合理映射到不同精度、不同噪声特性的硬件上，同时兼顾能效和精度。这个问题如果靠逐模型、逐层手工搜索，成本极高，也很难形成稳定部署流程。\n\n这篇论文提出 Mixed-Precision Supernetwork，把量化层和受模拟噪声影响的层统一放到一个 supernetwork 里联合训练，并结合 mapping-aware adaptation 与 hardware-aware architecture search，动态优化层级映射与模型适配。它的重点不是单纯混合精度，而是把模型适配和硬件映射合并为同一个搜索对象。\n\n对 AI 硬件设计主线来说，这种方法有明显的 workflow 价值：它把 analog-digital heterogeneous accelerator 上的部署问题，从一次性工程调参提升为可复用的 supernetwork 搜索与适配框架。只要后续硬件族继续扩展，这类统一映射方法就会越来越重要。\n\n它暂时还不是更高等级，因为论文主要展示的是一条很强的 mapping/search 路线，而不是对整个 AI 加速器设计空间的全面重写。换句话说，它已经是优秀的 reusable co-design 方法，但还没有达到更广的 architecture blueprint 层面。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-03-27",
      "doi": "10.1038/s41467-026-71071-1",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 563,
      "source_url": "https://www.nature.com/articles/s41467-026-71071-1",
      "paper_url": "https://www.nature.com/articles/s41467-026-71071-1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "Nature子刊揭示AI映射新范式：MPS超网络通过全局同步探索，驱动混合精度计算效率飞跃",
          "url": "https://www.bilibili.com/video/BV1t1DxBLETy",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1t1DxBLETy",
            "https://youtu.be/YwM0Bqzo8Hg"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "supernetwork based efficient mapping of deep learning applications to mixed precision hardware using model adaptation",
          "description": "针对深度学习模型在异构硬件部署中面临的精度与能效失衡问题，Nature Communications刊载的研究提出混合精度超网络（MPS）框架。该方法通过构建包含模拟、数字及跳跃连接的“母体网络”，利用硬件感知自适应技术同步探索全局最优映射方案。实验显示，MPS在图像分类与NLP任务中将搜索速度提升约2.2倍，并在保持80%模拟计算占比的同时，比全模拟方案提升3.4%的准确率。该研究有效解决了模拟内存计算（AIMC）由于物理噪声导致的精度衰减痛点，通过将敏感层与计算密集层差异化分配，实现了模型架构在边缘侧资源受限环境下的多目标协同优化。",
          "x_post": "《Nature Communications》刊载MPS超网络框架：实现混合精度映射搜索速度2.2倍提升与3.4%精度增益\n深度学习模型在边缘侧部署受限于冯·诺依曼架构的能耗瓶颈，而高效的模拟内存计算（AIMC）常受物理噪声干扰导致精度受损。研究团队提出混合精度超网络（MPS）框架，通过构建集成模拟、数字及跳跃连接的“母体网络”，利用硬件感知自适应技术同步探索全局最优映射方案。\n实验结果显示，该框架在图像分类及NLP任务中，将映射搜索时间缩短约2.2倍。在保持80%模拟计算占比的同时，其准确率较全模拟方案提升约3.4%。该研究证明了通过模型架构自适应，差异化分配敏感层与计算密集层，可有效平衡异构硬件的计算潜力与能效约束。",
          "cover_url": "assets/covers/hw21-mixed-precision-supernetwork-2bf973a53f.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-09T16:08:59+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A161_AIRA2_Research_Agents",
      "slug": "a161-aira2-research-agents",
      "detail_url": "papers/a161-aira2-research-agents/",
      "title": "AIRA_2: Overcoming Bottlenecks in AI Research Agents",
      "summary": "这篇论文聚焦 research-agent 这一条已经开始拥挤但仍缺少结构性解释的主线。作者不是简单把更强模型堆到 MLE-bench 上，而是先明确指出 AI research agents 存在三个持续限制性能的瓶颈：单 GPU 同步执行导致 search 吞吐受限，validation-based selection 带来表面上的 extended-search generalization gap，以及固定单轮 operator 本身限制了搜索与调试能力。\n\nAIRA_2 的贡献在于把这三个瓶颈分别转成可复用的系统设计。论文提出异步多 GPU worker pool 以提升实验吞吐，提出 Hidden Consistent Evaluation 以减少 noisy validation selection 带来的误判，并用可动态缩放动作范围的 ReAct agents 取代固定单轮 operator。结果不只是拿到更高的 MLE-bench-30 percentile rank，更重要的是通过 ablation 说明先前所谓 overfitting 很大一部分来自评测噪声而不是真实的数据记忆。\n\n这使它对仓库里的 agent systems / research workflow 方向有持续价值。它同时提供了 research-agent runtime 设计模式、evaluation protocol 改进和 bottleneck taxonomy，不只是一次 benchmark 刷分。对于后续做 autonomous research、tool-use search、multi-run selection 的系统，AIRA_2 给出的是一套更稳定的工程蓝图。\n\n它的主要证据仍集中在 MLE-bench-30 及相邻 research-agent 场景，泛化到更广 scientific workflow 或 enterprise agent 环境的证据还不够充分。因此这篇论文在仓库中适合定为 breakthrough，而不是更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-27",
      "doi": "",
      "arxiv_id": "2603.26499",
      "collected_at": "",
      "collection_order": 562,
      "source_url": "https://arxiv.org/pdf/2603.26499.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.26499.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "Meta联合牛津重构AI科研底层逻辑：AIRA2通过异步算力池实现自动化实验效率的8倍跨越",
          "url": "https://www.bilibili.com/video/BV137DLB9EFk",
          "platform_urls": [
            "https://www.bilibili.com/video/BV137DLB9EFk",
            "https://youtu.be/hNkRbI26DvE"
          ],
          "main_collection": "AI智能体",
          "match": "aira 2 overcoming bottlenecks in ai research agents",
          "description": "本视频深入解析由Meta与牛津大学联合开发的AIRA2科研智能体。针对当前自动化AI科研中存在的单卡同步阻塞、验证集过拟合以及静态算子灵活性不足三大结构性瓶颈，AIRA2提出了针对性方案。通过构建异步多GPU并行架构，系统实现了实验吞吐量的线性扩展，将效率提升至8倍；同时引入隐式一致性评估（HCE）协议，有效滤除评估噪声，解决了长周期搜索下的泛化衰退问题。此外，系统采用具备动态交互能力的ReAct智能体替代传统预设指令，显著增强了在复杂科研场景下的纠错与推理能力。实验数据表明，AIRA2在MLE-bench基准测试中刷新纪录，证明了优化底层系统架构是通向自主科学发现的关键路径。",
          "x_post": "Meta与牛津大学发布AIRA2科研智能体：通过异步架构实现8倍吞吐量提升并刷新MLE-bench纪录\n\n当前自动化AI科研常面临单卡同步阻塞、验证集过拟合及静态算子灵活性不足等结构性瓶颈。AIRA2架构通过构建异步多GPU并行机制实现算力线性扩展，并引入隐式一致性评估（HCE）协议以消除评估噪声导致的泛化衰退。此外，系统采用具备交互调试能力的ReAct智能体取代传统预设指令，显著增强了复杂科研场景下的纠错与推理能力。\n\n实验数据表明，AIRA2在MLE-bench-30基准测试中达到76.0%胜率，且8个GPU可带来约8倍的实验吞吐量提升。该成果验证了通过优化底层系统架构，可显著提升自主科学发现的可靠性与效率。",
          "cover_url": "assets/covers/a161-aira2-research-agents-1aab0262cb.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-08T13:10:01+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL21_Persistent_Robot_World_Models",
      "slug": "rl21-persistent-robot-world-models",
      "detail_url": "papers/rl21-persistent-robot-world-models/",
      "title": "Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning",
      "summary": "机器人世界模型一个长期痛点是：短期预测看起来可用，但一旦自回归 rollout 到多步，误差就会快速累积，视觉质量和任务可用性同步崩掉。这使大量 action-conditioned video world model 在真实规划链路里停留在“会演示、难部署”的阶段。\n\n这篇论文的核心做法是把 post-training 目标改到模型自己的多步 rollout 上，而不只是对齐真实历史片段。作者用一个适配 diffusion world model 的对比式 RL 目标，在同一 rollout state 上生成并比较多个候选未来，对高保真轨迹进行强化，并配合多视角视觉保真奖励稳定训练。\n\n这对 embodied / robotics 主线的价值很直接：它不再把世界模型质量只看成单步生成问题，而是明确当作长链 rollout 稳定性问题来优化。只要方法成立，后续世界模型用于规划、控制和仿真替代时的可靠性都会明显上移。\n\n目前它仍是特定世界模型设定上的 post-training 方案，尚未证明能成为所有机器人世界模型的统一稳定化接口；奖励设计和多视角 fidelity 度量也有一定系统依赖。因此我给它 breakthrough，而不是更高。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-26",
      "doi": "",
      "arxiv_id": "2603.25685",
      "collected_at": "",
      "collection_order": 561,
      "source_url": "https://arxiv.org/pdf/2603.25685.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.25685.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "为机器人打造终极虚拟沙盒：PersistWorld利用RL后训练突破物理瓶颈，实现高保真长程模拟",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "persistent robot world models stabilizing multi step rollouts via reinforcement learning",
          "description": "针对机器人世界模型在长时视频生成中常见的“自回归崩溃”问题，本研究提出 PersistWorld 框架。该方法指出传统模型受曝光偏差影响，在推理阶段会因误差累积导致画面结构溶解。PersistWorld 引入强化学习后训练机制，通过 K 分支候选采样与可变长度前缀测试，让模型在自身生成的轨迹中学习。结合多维度视觉奖励系统，该模型在 DROID 数据集上实现了显著的性能提升，其中腕部相机 SSIM 提升 9.1%。研究证明了通过后期优化可将视频生成模型转化为高保真的虚拟仿真环境，为复杂机器人策略评估提供了稳定且具身一致的数字沙盒。",
          "x_post": "PersistWorld 团队通过强化学习后训练解决机器人世界模型崩溃问题，腕部相机 SSIM 提升 9.1%。\n针对长程视频生成中因“曝光偏差”导致的画面溶解与结构失效，PersistWorld 引入了对比式 RL 优化方案。方法核心在于 K 分支候选采样与可变长度前缀协议，强迫模型在自身生成的、含误差的序列中学习维持物理一致性，并利用多维视觉指标作为奖励信号。实验结果显示，该模型在 DROID 数据集上刷新 SOTA，腕部相机 SSIM 提升 9.1%，外部相机 LPIPS 误差降低 14.0%。此项工作将视频生成模型转化为更可靠的虚拟仿真环境，为复杂机器人策略的评估提供了具身一致的数字沙盒。",
          "cover_url": "assets/covers/rl21-persistent-robot-world-models-c8ba3e4d2f.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-02T13:18:36+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N66_TRIBE_v2_In_Silico_Neuroscience",
      "slug": "n66-tribe-v2-in-silico-neuroscience",
      "detail_url": "papers/n66-tribe-v2-in-silico-neuroscience/",
      "title": "A foundation model of vision, audition, and language for in-silico neuroscience",
      "summary": "如果神经科学想真正和 foundation model 接轨，关键不只是做一个更高分的 encoding model，而是把跨视觉、听觉和语言刺激的大规模脑响应预测统一到同一个可泛化模型接口上。TRIBE v2 的定位正是这样：它试图把人类大脑对几乎任意 sight or sound 的反应，建模为一个可 zero-shot 外推的新型 trimodal brain encoder。\n\n这项工作的核心新意，是把 vision、audition 和 language 联合到同一 foundation-model 训练对象里，并基于 500 多小时、700 多名被试的 fMRI 数据学习可迁移的神经响应表示。论文强调它不仅在新被试、新语言和新任务上做 zero-shot 预测，还通过可解释 latent feature 抽取，去揭示 multisensory integration 的细粒度拓扑结构，从而把预测性能与神经机制解释连到一起。\n\n它值得正式收录，因为这不是普通脑编码 benchmark 提升，而是在 NeuroAI 方向上把 foundation model 方法论直接引入 in-silico neuroscience。它对脑响应数字孪生、跨模态神经表征建模、以及用 AI 统一不同感觉通道的认知神经科学工作流，都有明确外溢价值，也符合仓库对 neuroscience 条目的高门槛要求。\n\n它目前仍然是 breakthrough，而不是更高一级，因为主证据仍主要建立在 Meta 官方技术报告和其组织的数据资产之上。虽然方向很强、规模也足够大，但它是否会成为更广 NeuroAI 社区的 durable reference，还要看外部复现、下游采用和对 brain-inspired AI 的实质性反哺。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-03-26",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 560,
      "source_url": "https://ai.meta.com/research/publications/a-foundation-model-of-vision-audition-and-language-for-in-silico-neuroscience/",
      "paper_url": "https://ai.meta.com/research/publications/a-foundation-model-of-vision-audition-and-language-for-in-silico-neuroscience/",
      "project_urls": [
        "https://ai.meta.com/research/publications/a-foundation-model-of-vision-audition-and-language-for-in-silico-neuroscience/"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结碎片化的认知神经科学：Meta推出TRIBE v2，用大模型拼凑人类认知的运作全景",
          "url": "https://www.bilibili.com/video/BV1TU9WBjEsm",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1TU9WBjEsm",
            "https://youtu.be/ZXeol__c4sY"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "a foundation model of vision audition and language for in silico neuroscience",
          "description": "针对传统认知神经科学“分而治之”、难以构建统一认知图景的难题，Meta FAIR推出了三模态大脑基础模型TRIBE v2。该模型整合了视频、音频和语言输入，利用V-JEPA、Llama 3.2等前沿架构提取特征，并由10亿参数的Transformer进行跨时间维度的信息聚合。研究基于720位受试者超过1000小时的fMRI数据进行训练，证明了其在预测人类脑活动方面显著优于传统线性模型，并具备极强的跨受试者泛化能力。TRIBE v2不仅揭示了大脑多感官整合的地形结构，还成功在硅上复现了经典的视觉与语言处理实验，为通过AI探索人类大脑功能组织提供了通用框架。",
          "x_post": "Meta FAIR 发布 TRIBE v2 三模态大脑基础模型，基于 1115 小时 fMRI 数据统一全脑表征。\n针对认知神经科学长期存在的研究碎片化问题，该工作通过整合视频、音频与语言输入，构建了能够模拟人类全脑响应的通用基础模型。\n模型利用 V-JEPA、W2vec-Bert 及 Llama 3.2 提取多模态特征，配合 10 亿参数 Transformer 实现了对 20,484 个皮层顶点的跨时间维度精密映射。\n基于 720 位受试者的实验数据证明，其预测精度显著超越传统线性模型，并具备跨受试者的零样本泛化能力，成功在“硅上”复现了多项经典神经科学实验结果。\n这一进展为理解大脑多感官整合的精细地形提供了高精度计算框架，标志着计算神经科学向构建统一功能基础模型迈出关键一步。",
          "cover_url": "assets/covers/n66-tribe-v2-in-silico-neuroscience-28bdba8631.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-02T10:11:42+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM33_Hybrid_Memory_Video_World_Models",
      "slug": "mm33-hybrid-memory-video-world-models",
      "detail_url": "papers/mm33-hybrid-memory-video-world-models/",
      "title": "Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models",
      "summary": "视频世界模型已经能模拟大量场景，但现有记忆机制大多默认环境近似静态，对动态主体暂时离开视野后再出现的情况处理很差，常见问题是主体冻结、形变或直接消失。这个问题本质上不是普通长视频建模，而是世界模型是否真正学会了对动态对象进行持续记忆。\n\n这篇工作把问题明确成 hybrid memory：背景需要像档案一样稳定存储，运动主体则需要像跟踪器一样维持连续状态。作者为此构建了 HM-World 数据集，并提出 HyDRA 记忆架构，把记忆压缩成 token，再用时空相关性驱动的检索去取回与当前生成最相关的动态线索，从而维持遮挡、出画和回画场景中的主体一致性。\n\n它值得收录，不是因为又提升了一个视频分数，而是因为它把动态主体记忆从模糊能力项提升成了显式训练目标、数据构造方式和可复用模块接口。这对视频世界模型、交互式生成以及更广义的长期视觉记忆建模都有外溢价值。\n\n它现在还不到更高一级，主要因为证据仍集中在作者自建任务设定和 preprint 阶段；Hybrid Memory 是否会成为更广视频生成或视觉世界模型的标准接口，还需要跨数据集、跨架构复现来确认。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-26",
      "doi": "",
      "arxiv_id": "2603.25716",
      "collected_at": "",
      "collection_order": 559,
      "source_url": "https://arxiv.org/pdf/2603.25716.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.25716.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW23_FireBridge_Accelerator_CoVerification",
      "slug": "hw23-firebridge-accelerator-coverification",
      "detail_url": "papers/hw23-firebridge-accelerator-coverification/",
      "title": "FireBridge: Cycle-Accurate Hardware + Firmware Co-Verification for Modern Accelerators",
      "summary": "现代 AI accelerator 的复杂度越来越依赖 firmware 与多层 memory hierarchy 的协同，结果是开发瓶颈逐渐从单个 RTL 模块验证，转移到硬件与生产 firmware 的系统级联合调试。传统上很多团队仍依赖 FPGA emulation 来做 integration debug，迭代非常慢。\n\nFireBridge 的关键贡献是给出一个 cycle-accurate 的 hardware + firmware co-verification workflow：把 production firmware 编译到 x86 侧，再通过 randomized memory bridge 与标准 simulator 中的 RTL/gate-level 子系统对接，从而在 VCS、Xsim、Xcelium 这类环境里直接做 firmware debugging、register protocol testing、memory congestion emulation 和 profiling。\n\n它值得正式收录，因为它改变的是 accelerator 开发工作流，而不是某个局部性能点。对 AI hardware / systems 而言，这类 co-verification pattern 会直接影响 heterogeneous accelerator 团队怎样并行推进 firmware、HLS/RTL 与系统集成，具备明显的 reusable workflow value。\n\n它没有升到更高一级，是因为当前贡献仍主要聚焦在 verification/integration 这一个环节，而不是更全面地重构 AI accelerator 设计范式。它是很强的工程基础设施模式，但距离更高一级的设计蓝图还差更广泛的行业采用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-03-26",
      "doi": "",
      "arxiv_id": "2603.25969",
      "collected_at": "",
      "collection_order": 558,
      "source_url": "https://arxiv.org/pdf/2603.25969.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.25969.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "提速50倍的软硬协同验证：FireBridge通过原生x86执行打破仿真瓶颈，实现秒级调试闭环",
          "url": "https://www.bilibili.com/video/BV1mnDeBeEV9",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1mnDeBeEV9",
            "https://youtu.be/gLMk6-6yYTY"
          ],
          "main_collection": "AI硬件设计",
          "match": "firebridge cycle accurate hardware firmware co verification for modern accelerators",
          "description": "提速50倍的软硬协同验证：FireBridge通过原生x86执行打破仿真瓶颈，实现秒级调试闭环\n\n该研究介绍了一种名为 FIREBRIDGE 的高效、周期精确的硬件与固件联合验证框架。在现代 AI 加速器设计中，传统基于 FPGA 的原型验证因冗长的综合和部署周期而成为生产力瓶颈。FIREBRIDGE 通过 DPI-C 接口将编译为 x86 原生代码的生产固件与 RTL 或门级硬件直接相连，使开发者能在标准仿真器中进行快速调试。实验表明，该框架比传统的 FPGA 流程快 50 倍，并支持对内存拥塞和离线数据传输进行详细的性能分析。这种方法不仅显著缩短了产品的上市时间，还促进了硬件与固件团队之间的并行开发与无缝集成。",
          "x_post": "UC San Diego团队发布FireBridge协同验证框架，通过原生x86执行实现50倍速验证效率提升\n在现代AI加速器设计中，数据移动常占总延迟的60%-75%，而传统FPGA验证流程因冗长的综合周期成为开发瓶颈。\nFireBridge利用SystemVerilog DPI-C接口，将编译为x86原生代码的生产级固件与周期精确的RTL/门级硬件直接关联。\n实验数据表明，该框架比传统FPGA验证流程快50倍，支持秒级调试闭环，并能精准捕获总线拥塞等协议缺陷。\n通过消除进程间通信开销与FPGA部署等待，FireBridge为高性能加速器的软硬件并行开发提供了高效的验证路径。",
          "cover_url": "assets/covers/hw23-firebridge-accelerator-coverification-ab93d413fb.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-07T19:57:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO25_Cardiac_MRI_Foundation_Model",
      "slug": "bio25-cardiac-mri-foundation-model",
      "detail_url": "papers/bio25-cardiac-mri-foundation-model/",
      "title": "Building foundation models for cardiac MRI",
      "summary": "医学影像里的 foundation model 真正难的地方，不是简单把图像模型搬到医疗数据上，而是如何利用临床场景中天然存在但噪声很高的弱监督信号，让模型学到跨疾病谱、跨任务可迁移的表示。心脏 MRI 尤其如此：它是时序影像、结构复杂、病种跨度大，而且临床价值高度依赖下游诊断和报告场景。\n\n这篇工作提出的核心，是利用 routine clinical practice 中天然成对出现的 cardiac MRI 视频与对应文本报告，做 self-supervised / contrastive-style 预训练，构建面向心脏 MRI 的 domain foundation model。它不是围绕单一病种或单个 segmentation/classification 任务调模型，而是把临床生成的 scan-report pairing 当成可扩展监督接口，借此学习覆盖更完整心血管疾病谱的表征。\n\n它值得正式收录，因为这条路线对 biomed foundation modeling 很有代表性：不是再做一个窄任务 predictor，而是把日常临床工作流本身转化成模型训练资源。对医学多模态基础模型、医疗报告配对学习、以及领域 foundation model 的构建方式都有直接外溢，也符合仓库对 AI x biomed 的高门槛要求。\n\n它目前仍是 breakthrough，而不是更高一级，因为它的主要外溢仍然绑定在 cardiac MRI 这一高价值但明确收敛的模态与学科内。它展示了很强的 domain foundation-model 思路，但是否能进一步变成更一般的医学影像-文本建模范式，还需要跨模态、跨器官和跨机构的更广验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-26",
      "doi": "10.1038/s41551-026-01638-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 557,
      "source_url": "https://www.nature.com/articles/s41551-026-01638-2",
      "paper_url": "https://www.nature.com/articles/s41551-026-01638-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让机器看懂心脏跳动的动态奥秘，通用心脏 MRI 基础模型发布，视频转换器助力解析异构体征",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "building foundation models for cardiac mri",
          "description": "宾夕法尼亚大学与斯坦福大学研究团队针对心脏磁共振（MRI）影像诊断中AI泛化能力差、高度依赖人工标注的痛点，研发出通用基础模型。该系统核心采用自监督对比学习机制，利用视频转换器同步解析动态影像与医生文本报告，模拟专家的临床决策逻辑。实验表明，该模型仅需传统方法1%的微调数据量，即可在多种全新临床任务中实现更高精度的诊断。这显著降低了医疗AI的开发成本与门槛，使机器能更准、更稳地识别复杂心血管异构体征，为自动化辅助诊断的大规模应用提供了高效方案。",
          "x_post": "宾夕法尼亚大学与斯坦福大学研发通用心脏MRI基础模型，微调数据仅需传统方法的1%\n传统医疗AI在心脏影像分析中高度依赖海量人工标注，且因缺乏临床语境导致其在处理真实世界的异构体征时泛化能力不足。该研究采用自监督对比学习机制，通过双轨Transformer架构同步解析动态影像序列与医生文本报告，实现跨模态的语境化理解。实验结果显示，该模型在仅使用1%微调数据量（减少两个数量级）的情况下，即在多项全新临床任务中表现出优于传统监督学习方法的诊断精度。这一具有3600万参数的视觉转换器架构，显著降低了医疗AI的开发成本与门槛，为心血管疾病的自动化辅助诊断提供了高效、可扩展的通用方案。",
          "cover_url": "assets/covers/bio25-cardiac-mri-foundation-model-14bad5ee5b.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-25T13:10:16+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A87_Trace2Skill_Agent_Skills",
      "slug": "a87-trace2skill-agent-skills",
      "detail_url": "papers/a87-trace2skill-agent-skills/",
      "title": "Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills",
      "summary": "给 LLM agent 配技能一直有明显瓶颈：人工写技能不扩展，自动生成技能又容易只记住局部轨迹里的偶然经验，最后得到的是脆弱、碎片化、难迁移的 skill。对于想把 agent 做成长期能力系统的人，这个问题比单次任务得分更关键。\n\nTrace2Skill 的核心做法不是按单条轨迹顺序修补，而是并行调度多个子代理去分析大批执行轨迹，先抽出 trajectory-local lesson，再做分层归纳，把冲突经验合并成一个统一、可迁移的技能目录。它既能强化已有人工技能，也能从零生成新技能，并强调跨模型规模与 OOD 迁移。\n\n它对仓库的价值很直接：这是 agent capability acquisition / skill evolution / skill marketplace 方向里少见的可复用方法论文，真正把“从运行经验中蒸馏技能”从想法推进到了可执行工作流。对后续的技能库、能力注入和长期 agent 学习都有强外溢。\n\n它没有更高一级，是因为目前验证域仍相对集中，且体系依然偏 pipeline engineering，距离成为跨框架默认的技能演化标准还有距离；但作为正式收录的突破性工作已经足够稳。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-26",
      "doi": "",
      "arxiv_id": "2603.25158",
      "collected_at": "",
      "collection_order": 556,
      "source_url": "https://arxiv.org/pdf/2603.25158.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.25158.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A86_Natural_Language_Agent_Harnesses",
      "slug": "a86-natural-language-agent-harnesses",
      "detail_url": "papers/a86-natural-language-agent-harnesses/",
      "title": "Natural-Language Agent Harnesses",
      "summary": "这篇论文抓住了一个经常被低估但越来越关键的问题：agent 表现高度依赖 harness engineering，但 harness 往往埋在控制器代码、运行时约定和框架细节里，难以迁移、比较和系统研究。结果是很多 agent 进步其实发生在 harness 层，却没有形成稳定的可复用对象。\n\n作者提出 Natural-Language Agent Harnesses，把高层控制逻辑外化成可编辑的自然语言工件，并配套 Intelligent Harness Runtime，通过显式 contract、durable artifact 和轻量 adapter 来执行这些 harness。真正的新意不只是“用自然语言写配置”，而是把 harness 从隐藏代码路径提升为可移植、可实验、可迁移的独立执行层。\n\n这条路线对本仓库很重要，因为它触及 agent 系统工程里最缺少标准化的一层：控制逻辑、运行时约束和能力编排接口。如果 harness 可以像 prompt、tool schema 或 memory policy 一样被抽象出来，后续 agent 复现、迁移和比较都会更清晰。\n\n它暂时还不是 paradigm 级别，因为证据仍主要围绕 coding 与 computer-use 场景，且运行时契约能否跨更多 agent stack 稳定成立仍需时间验证。但作为可复用的 agent harness 外化范式，它已经足够形成正式收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-26",
      "doi": "",
      "arxiv_id": "2603.25723",
      "collected_at": "",
      "collection_order": 555,
      "source_url": "https://arxiv.org/pdf/2603.25723.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.25723.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决长周期任务中的控制流过载：NLAH通过自然语言架构重构智能体的高级调度范式",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "natural language agent harnesses",
          "description": "针对复杂智能体在长周期任务中面临的控制流过载与逻辑黑盒问题，清华大学与哈尔滨工业大学联合提出NLAH框架。该研究将复杂的编排逻辑与角色契约从底层硬编码中抽离，转化为可编辑、可移植的自然语言制品。配合智能劫持运行时（IHR），系统通过内置大模型解释器管理多步推理与状态流转，实现了运行策略与任务逻辑的深度解耦。实验表明，该方法在软件工程等基准测试中显著提升了系统透明度与操作可行性，为智能体控制模式的标准化评估提供了新的科学范式。",
          "x_post": "清华大学与哈尔滨工业大学联合提出NLAH框架，利用自然语言重构智能体调度范式\n\n针对复杂智能体在长周期任务中的控制流过载与逻辑黑盒问题，研究团队开发了NLAH（Natural-Language Agent Harnesses）架构。该框架将编排逻辑与任务契约从底层硬编码中抽离，转化为可编辑、可移植的自然语言制品。通过配套的智能劫持运行时（IHR）及内置大模型解释器，系统实现了运行策略与任务逻辑的深度解耦。实验表明，该方法在软件工程与计算机操作基准测试中显著提升了系统透明度与操作可行性。这种范式将智能体优化从提示词工程提升至系统级编排维度，为控制模式的标准化评估提供了新的科学对象。",
          "cover_url": "assets/covers/a86-natural-language-agent-harnesses-be73bf19c7.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-29T17:01:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A169_SEVerA_Verified_Agents",
      "slug": "a169-severa-verified-agents",
      "detail_url": "papers/a169-severa-verified-agents/",
      "title": "SEVerA: Verified Synthesis of Self-Evolving Agents",
      "summary": "self-evolving agents 这条线越来越强，但大多数框架只关心 planner 能否自动生成和改写 agent program，几乎不对 autonomy 带来的安全性、约束遵守和 correctness 给出形式保证。一旦这些程序在未见输入上自动执行，这个缺口就会直接变成 reliability 和 security 风险。\n\nSEVerA 的核心推进，是把 agentic code generation 改写成带 hard constraints 的学习问题，并用 Formally Guarded Generative Models 为每次生成调用加 formal output contract。每个 generative call 都由 rejection sampler 和 verified fallback 包住，于是 planner 搜索、verification 证明和 learning 优化可以组合起来：软目标继续优化，但硬约束始终不被违反。\n\n它值得正式收录，因为这条路线把 formal methods 真正接到了 self-evolving agents 的核心循环里，而不是做外围 guardrail。对安全 agent synthesis、tool-using agents 和可验证的 self-improvement，这是一条很清晰的 durable pattern。\n\n它暂时不升到更高一级，原因在于当前 formal contract 的表达能力和任务覆盖还有限，主要验证也集中在 Dafny、symbolic math 和 policy-compliant tool use。它非常强，但还没证明自己会成为更广 agent synthesis 的默认接口。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-26",
      "doi": "",
      "arxiv_id": "2603.25111",
      "collected_at": "",
      "collection_order": 554,
      "source_url": "https://arxiv.org/pdf/2603.25111.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.25111.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S3_AI_Scientist_End_to_End_Automation",
      "slug": "s3-ai-scientist-end-to-end-automation",
      "detail_url": "papers/s3-ai-scientist-end-to-end-automation/",
      "title": "Towards end-to-end automation of AI research",
      "summary": "自动化科学早就不缺局部工具：想法生成、代码编写、实验执行、论文写作、文献检索、评审辅助都各自有进展。真正缺的是把整个研究生命周期连成一条可运行、可评估的 agentic workflow。The AI Scientist 直指这个缺口。\n\n论文提出一个端到端 research pipeline：自动生成研究方向和计划、执行实验、可视化和记录结果、写完整论文、再由 Automated Reviewer 做自动评审。系统同时支持 template-based 和 template-free 两种实验路径，并在后者中引入 tree search 扩展 test-time compute。\n\n这篇工作的地位不在于某个局部子模块最强，而在于它第一次把“从 conception 到 submission”的完整 AI research workflow 以可运行系统形式展示出来，并用 workshop submission 和 reviewer prediction 作为外部化验证。这对 agent-driven scientific workflow 是明确的 research framing 变化。\n\n它没有再升到 paradigm，原因也很明确：目前主要限于机器学习这类可计算研究任务；提交实验前有人工筛选；通过的是 workshop 首轮评审而不是更高门槛正式长文轨道；而且 reviewer automation 与生成研究质量之间仍存在可被游戏化和污染的风险。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-03-25",
      "doi": "10.1038/s41586-026-10265-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 553,
      "source_url": "https://www.nature.com/articles/s41586-026-10265-5",
      "paper_url": "https://www.nature.com/articles/s41586-026-10265-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL19_Chameleon_Episodic_Manipulation",
      "slug": "rl19-chameleon-episodic-manipulation",
      "detail_url": "papers/rl19-chameleon-episodic-manipulation/",
      "title": "Chameleon: Episodic Memory for Long-Horizon Robotic Manipulation",
      "summary": "长程机械臂操作里，真正难的常常不是当前一帧该怎么抓，而是当前观测本身已经不再是 Markov 的：遮挡、状态变化和历史交互会让相同视觉输入对应不同决策。很多 embodied memory 系统用语义压缩摘要和相似度检索来解决，但这样很容易把真正决定动作的细粒度几何线索抹掉。Chameleon 针对的正是这种 manipulation memory 的错位问题。\n\n它提出的思路不是继续把经验压成文本或粗语义，而是写入 geometry-grounded multimodal tokens，并用可微 memory stack 做 goal-directed recall。也就是说，系统保留的是足以区分相似场景但不同历史的感知上下文，而不是只保留语义相似性。论文还配套给出 Camo-Dataset，在 episodic recall、spatial tracking 和 sequential manipulation 等真实 UR5e 任务上系统验证。\n\n这篇工作值得正式收录，因为它把 agent memory 在 embodied 场景里的关键问题说清楚了：对机器人来说，memory 的检索单位不能只靠语义相似，而要保留可行动作决策所需的几何与时序差异。这种设计对长期 manipulation、世界模型记忆接口和 real-robot episodic control 都有明显方法外溢。\n\n它目前仍是 breakthrough，而不是更高一级，因为证据主要集中在一套机械臂平台和一类 episodic manipulation 场景，离更通用的 embodied memory blueprint 还有距离。它已经是强方法条目，但还需要跨机器人形态和更开放任务的验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.24576",
      "collected_at": "",
      "collection_order": 552,
      "source_url": "https://arxiv.org/pdf/2603.24576.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.24576.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N67_Reverse_Predictivity_Brain_ANN_Alignment",
      "slug": "n67-reverse-predictivity-brain-ann-alignment",
      "detail_url": "papers/n67-reverse-predictivity-brain-ann-alignment/",
      "title": "Reverse predictivity for bidirectional comparison of neural networks and biological brains",
      "summary": "这篇论文针对 NeuroAI 里一个长期存在但经常被忽略的问题：我们通常只看人工神经网络能否预测脑神经反应，也就是单向的 forward predictivity，却很少反过来问脑神经活动是否也足以恢复模型内部表征。如果一个模型只在单向映射上看起来像脑，但其内部大量维度无法被真实神经群体回收，那么这种“对齐”就可能是表面上的。\n\n作者提出 reverse predictivity 这个双向比较指标，用猕猴 inferior temporal cortex 的神经反应去预测 ANN 单元激活，并将其与传统的 model-to-brain 预测一起使用。结果显示，很多 forward predictivity 很高的模型仍包含大量对脑活动不可预测的“biologically inaccessible”维度；相反，猴到猴的映射是近似对称的。论文进一步据此区分出与 IT 共享、具行为相关性并可跨物种泛化的 common units，以及缺乏这种对齐的 unique units，并分析了特征维数、训练目标和对抗鲁棒性对 reverse predictivity 的影响。\n\n这篇值得正式收录，因为它不是单纯再做一个 brain-score 变体，而是把 brain-model comparison 的问题定义从单向拟合推进到双向可恢复性。对仓库的 neuroscience / NeuroAI 条线，它提供了一个明确可复用的诊断接口：不仅要问模型能否拟合脑，也要问脑能否解释模型，这直接影响后续如何判断 biological plausibility、表征冗余与模型内部不可达维度。\n\n它目前还不适合更高一级，因为论文本质上仍是一个强的分析与诊断框架，而不是直接改写模型训练范式或提出新的脑机制理论。虽然有 Nature Machine Intelligence 正式发表、代码、PyPI 工具和 OSF 数据支撑，证据已经很完整，但影响更可能先集中在视觉 NeuroAI 和 brain-model alignment 子方向，因此以 breakthrough 收录更稳。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-03-25",
      "doi": "10.1038/s42256-026-01204-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 551,
      "source_url": "https://www.nature.com/articles/s42256-026-01204-0",
      "paper_url": "https://www.nature.com/articles/s42256-026-01204-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM32_LensWalk_Agentic_Video",
      "slug": "mm32-lenswalk-agentic-video",
      "detail_url": "papers/mm32-lenswalk-agentic-video/",
      "title": "LensWalk: Agentic Video Understanding by Planning How You See in Videos",
      "summary": "长视频理解真正困难的地方，不只是 token 太长，而是 perception 和 reasoning 长期脱节：模型通常先被动接收预处理后的视频表示，再在固定输入上推理，无法随着思考过程主动改变观察策略。LensWalk 的目标，就是把视频理解从一次性看完，改成“边推理边决定下一步怎么看”的 agentic perception loop。\n\n论文提出一个 reason-plan-observe 框架，让 LLM reasoner 在每一步主动指定视频的时间范围和采样密度，再调用参数化的视频工具去做粗扫、局部核查或跨时段拼接验证。重点不是训练新模型，而是在不微调的前提下，把控制“如何看视频”这件事显式变成推理过程的一部分，从而实现按需证据收集。\n\n它值得正式收录，因为它把视频理解里的主动感知接口正式化了：不是简单 video QA，不是静态 feature pooling，而是 agent 根据 evolving chain of thought 动态控制观察带宽。对 long-video reasoning、multimodal agents 和 world-aware video analysis 都有直接方法外溢。\n\n它目前仍是 breakthrough，而不是更高一级，因为它更像一种强框架模式和推理接口，而不是已经成为社区标准的新 benchmark 或 foundation model。它证明了方向有效，但长期地位还要看后续模型和评测是否围绕这种 active perception 范式收敛。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.24558",
      "collected_at": "",
      "collection_order": 550,
      "source_url": "https://arxiv.org/pdf/2603.24558.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.24558.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM31_GameplayQA_Agentic_Video",
      "slug": "mm31-gameplayqa-agentic-video",
      "detail_url": "papers/mm31-gameplayqa-agentic-video/",
      "title": "GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents",
      "summary": "面向 3D 虚拟环境与 embodied agent 的视频理解，难点从来不只是“看懂一段视频”，而是要在第一人称视角下处理高决策密度、多主体并发、快速状态变化和跨视频对齐。现有多模态 benchmark 很少真正测这些 agent-centric 感知与推理能力，因此模型即使在通用视频 QA 上表现不错，也未必适合做自主体感知骨干。GameplayQA 对准的正是这个缺口。\n\n论文的核心贡献是构造了一套 decision-dense、POV-synced、multi-video 的评测框架：作者对多人 3D 游戏视频做高密度时序标注，把事件组织成 Self、Other Agents 与 World 三元结构，再从中提炼出 2.4K 诊断式 QA，并配上可分析 hallucination 来源的 distractor taxonomy。它测的不只是答案对错，而是模型在 temporal grounding、agent-role attribution 和跨视角并发行为理解上到底哪里出问题。\n\n这篇工作值得正式收录，因为它给多智能体环境下的 agentic perception 补了一块很缺的 benchmark：不是通用视频理解，不是单主体 action recognition，而是围绕自主体决策需要的多主体、时间同步、世界状态解析来组织评测。对 embodied AI、virtual agents、world modeling 和 video reasoning 都有耐用外溢。\n\n它目前仍是 breakthrough，而不是更高一级，因为 benchmark 规模和场景多样性还没有大到足以成为压倒性的默认标准，主要环境也集中在 3D gameplay domain。它已经足够值得收，但长期地位还要看后续社区是否围绕这套 agent-centric视频评测收敛。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.24329",
      "collected_at": "",
      "collection_order": 549,
      "source_url": "https://arxiv.org/pdf/2603.24329.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.24329.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW20_AVO_Agentic_Kernel_Search",
      "slug": "hw20-avo-agentic-kernel-search",
      "detail_url": "papers/hw20-avo-agentic-kernel-search/",
      "title": "AVO: Agentic Variation Operators for Autonomous Evolutionary Search",
      "summary": "现有 evolutionary search 即使接入 LLM，也往往只是把模型当候选生成器，真正的 mutation、crossover 和局部修补逻辑仍然由人手工定义。AVO 的切入点更深：不是让 agent 在既定搜索框架里吐候选，而是让 agent 直接充当 variation operator，自主读取 lineage、知识库和执行反馈，决定如何改写候选实现。\n\n论文提出 Agentic Variation Operators，把 propose、repair、critique、verify 统一进一个自驱动 agent loop。作者用它搜索 Blackwell B200 上的 multi-head attention kernel，连续七天自动演化后，得到的 kernel 在多种配置上超过 cuDNN 和 FlashAttention-4，而且还可以快速迁移到 grouped-query attention。这里真正有新意的是“agent 作为 variation operator”这个抽象，而不只是某个 kernel 的最终性能数字。\n\n它值得正式收录，因为它把自动搜索从 candidate generation 推进到了更通用的 agentic search primitive，对 AI 系统优化、kernel search、自动化硬件/软件协同设计都有明确外溢。尤其在 attention kernel 这种已经被高度人工优化的目标上还能持续超越现有实现，说明这条路线不只是概念包装。\n\n它目前仍是 breakthrough，而不是更高一级，因为公开验证还集中在 attention kernel 这一类目标和 Blackwell 这一代硬件上。是否能成为跨系统、跨算法、跨硬件的默认 agentic optimization interface，还需要更广泛的任务族验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.24517",
      "collected_at": "",
      "collection_order": 548,
      "source_url": "https://arxiv.org/pdf/2603.24517.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.24517.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "硬核挑战cuDNN与FA4：AVO智能体在Blackwell架构上实现核心算子性能的自主跨越",
          "url": "https://www.bilibili.com/video/BV1W4XUBCEy3",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1W4XUBCEy3",
            "https://youtu.be/SrKR2Ba_ko0"
          ],
          "main_collection": "AI智能体",
          "match": "avo agentic variation operators for autonomous evolutionary search",
          "description": "本视频探讨Agentic Variation Operators (AVO)框架，旨在解决GPU底层算子优化中极度依赖人类专家且迭代周期长的问题。AVO将大模型从单一代码生成器升级为具备规划、调试与文档查阅能力的自主智能体。在NVIDIA Blackwell (B200)架构下，该系统针对多头注意力算子开展了为期7天的全自主演化，最终生成的代码在性能上超越了深度精调的cuDNN与FlashAttention-4。实验证明了AI在处理异步流水线与Warp级硬件特性时的卓越推理能力，为自动化算力挖掘提供了新范式。",
          "x_post": "AVO智能体框架在NVIDIA Blackwell架构实现MHA算子优化，性能超越cuDNN及FlashAttention-4\n\n当前GPU底层算子（如多头注意力机制）的优化极度依赖专家经验。在Blackwell (B200) 架构下，复杂的Warp级专业化与异步流水线设计使得人工调优周期长、迭代成本高。\n研究团队提出Agentic Variation Operators (AVO) 框架，将LLM从单一代码生成器升级为具备规划、调试与文档查阅能力的自主智能体。该系统通过领域知识库与Supervisor监督机制，构建了从“规划-实现”到“评估-诊断”的演化搜索闭环。\n在Blackwell B200平台的实验中，AVO经历7天24小时无人值守演化，完成500余次探索并产出40个迭代版本。测试结果表明，AVO生成的内核性能超越了人工精调的cuDNN v9.19.1与FlashAttention-4。\n该工作证明了自主智能体在处理硬件级异步流水线调度与算力挖掘中的推理能力，为自动化算子研发提供了新的范式。",
          "cover_url": "assets/covers/hw20-avo-agentic-kernel-search-f4a7399723.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-29T11:06:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C17_MolEvolve_Molecular_Optimization",
      "slug": "c17-molevolve-molecular-optimization",
      "detail_url": "papers/c17-molevolve-molecular-optimization/",
      "title": "MolEvolve: LLM-Guided Evolutionary Search for Interpretable Molecular Optimization",
      "summary": "分子优化里最棘手的问题之一，是 activity cliffs 让微小结构变化触发巨大的性质跃迁，而许多深度学习方法又依赖相似性原则和黑箱表征，难以给出可解释的结构操作路径。MolEvolve 处理的不是普通的 property prediction 提分，而是如何让分子优化过程本身变成一个可规划、可解释、可工具化的 agentic search 问题。\n\n论文把 molecular discovery 重写成 autonomous look-ahead planning：系统先由 LLM 冷启动，再通过 Monte Carlo Tree Search 与 RDKit 等外部化学工具共同搜索一组可执行 chemical symbolic operations。重点不在单次生成分子，而在于持续演化一个可操作、可审查的符号操作库，使结构改动和性质变化之间的关系能够被串成透明的 reasoning chain。\n\n它值得正式收录，因为它把 AI x chemistry 从黑箱打分器推进到更接近 agentic scientific workflow 的层次：LLM、外部工具、测试时规划和可解释符号操作共同构成优化回路。对分子设计、AI for science agent、以及“可解释工具化搜索”这条主线都有明确外溢。\n\n它目前仍是 breakthrough，而不是更高一级，因为证据还主要来自 benchmark 级分子优化与性质预测任务，距离更强的实验闭环、湿实验验证和更大规模真实发现工作流还有距离。它已经展示了很好的方法方向，但长期影响仍取决于是否能走出 benchmark chemistry。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.24382",
      "collected_at": "",
      "collection_order": 547,
      "source_url": "https://arxiv.org/pdf/2603.24382.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.24382.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "攻克AI制药的“活性悬崖”难题：MolEvolve通过符号逻辑演化实现分子设计的白盒化",
          "url": "https://www.bilibili.com/video/BV1geXiBnEV8",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1geXiBnEV8",
            "https://youtu.be/EXEKh5q1i3Y"
          ],
          "main_collection": "AI化学与材料",
          "match": "molevolve llm guided evolutionary search for interpretable molecular optimization",
          "description": "本视频介绍针对AI制药中“活性悬崖”与模型不可解释性难题的解决方案MolEvolve。该框架创新性地将大语言模型与蒙特卡洛树搜索（MCTS）结合，通过冷启动机制将化学先验知识转化为可执行的符号规则，并利用RDKit等工具进行物理严谨性验证。实验证明，相比于传统图神经网络和通用大模型，MolEvolve能更精准地捕捉分子结构微小变化带来的属性突变，输出透明且人类可读的推理链。该研究标志着分子优化从隐式向量表示向显式符号演化的重要转变，为药物发现提供了高精度且白盒化的技术路径。",
          "x_post": "香港理工与清华等团队发布 MolEvolve：通过 LLM 引导符号演化攻克分子设计“活性悬崖”\n针对 AI 制药中深度学习模型的黑盒化及“活性悬崖”难题，即微小结构变化导致药理属性剧烈波动的现象，分子设计的精准度与可解释性长期存在割裂。\n研究团队提出 MolEvolve 框架，利用冷启动机制将 LLM 的化学先验转化为可执行的 Python 符号规则，并结合蒙特卡洛树搜索（MCTS）与 RDKit 实现离散化学空间内的自主规划与物理验证。\n实验结果表明，该方法在分子属性预测中能精准捕捉 QED 从 0.721 跌至 0.486 等非线性突变点，性能优于传统图神经网络（GNN）与通用大模型。\n这一从隐式向量表示向显式符号演化的范式转变，为药物发现提供了物理严谨且全透明、人类可读的“白盒化”技术路径。",
          "cover_url": "assets/covers/c17-molevolve-molecular-optimization-eb5f891a2a.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-29T16:26:34+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C16_AgentChemist_Robotic_Platform",
      "slug": "c16-agentchemist-robotic-platform",
      "detail_url": "papers/c16-agentchemist-robotic-platform/",
      "title": "AgentChemist: A Multi-Agent Experimental Robotic Platform Integrating Chemical Perception and Precise Control",
      "summary": "化学实验自动化的长期瓶颈，不是机器人能不能重复执行少数标准步骤，而是面对真实实验室里层出不穷的 long-tail 操作时，系统能不能感知实验状态、动态调整计划并处理不完全标准化的器械与流程。AgentChemist 对准的是这个长期存在但很少被真正解决的问题。\n\n它提出的是一套 multi-agent experimental robotic platform：一方面用 chemical perception 持续监测反应过程，另一方面用任务分解、动态调度和精确控制把执行层做成反馈驱动而不是固定脚本。这个设计的价值在于把 perception、planning 和 physical execution 接到一个可适应长尾实验变化的系统里，而不是再做单机台 demo automation。\n\n这篇工作值得正式收录，因为它命中仓库在 agent-driven scientific workflow 和 lab automation 上的主线：AI 不只是帮忙预测或分析，而是直接重构实验执行工作流，让实验平台能根据 evolving state 调整动作。对化学机器人、实验 agent 和闭环科学工作流都有明显系统价值。\n\n它目前仍是 breakthrough，而不是更高一级，因为从摘要层面看，它更像一个强系统平台，而不是已经证明可重排大范围化学实验自动化的统一范式。长期通用性、跨实验类型迁移和更细致的 failure analysis 还需要更多公开证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.23886",
      "collected_at": "",
      "collection_order": 546,
      "source_url": "https://arxiv.org/pdf/2603.23886.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.23886.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "攻克化学自动化的长尾效应难题：AgentChemist 通过多智能体协同实现 8 小时无干预实验",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "agentchemist a multi agent experimental robotic platform integrating chemical perception and precise control",
          "description": "针对化学实验室自动化中难以处理非标任务的“长尾效应”，华东师范大学研发了 AgentChemist 多智能体机器人平台。该平台摒弃了传统的僵化脚本，采用基于大模型的规划者智能体，协同视觉、听觉与执行节点实现动态反馈。通过状态机引擎将化学动作数学化，系统能根据 pH 值和颜色变化实时调整操作步调。实验证明，该机器人在酸碱滴定等任务中具备高精度定位能力，并成功完成 8 小时无干预连续运行。该架构解决了传统自动化在复杂动态环境下的脆弱性，为自主科研探索提供了高灵活性方案。",
          "x_post": "华东师范大学研发 AgentChemist 多智能体机器人，实现 8 小时无干预自主实验\n\n针对化学实验室自动化难以处理非标准化任务的“长尾效应”，华东师范大学团队开发了 AgentChemist 多智能体机器人平台。该系统摒弃传统僵化脚本，利用多智能体协作架构实现任务的动态分解与实时反馈控制。\n平台集成了基于大模型的规划者智能体与多模态视听监督节点，通过状态机引擎将化学动作数学化，确保实验逻辑的严谨。在酸碱滴定实验中，该系统展示了 ±0.01 mL 的操作精度，并成功验证了连续 8 小时无人工干预的自主运行能力。\n这一研究解决了传统自动化系统在复杂动态环境下的脆弱性，为提升自主科研探索的灵活性与可重复性提供了系统性方案。",
          "cover_url": "assets/covers/c16-agentchemist-robotic-platform-c3935431b2.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-29T15:47:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A88_SlopCodeBench_Coding_Agents",
      "slug": "a88-slopcodebench-coding-agents",
      "detail_url": "papers/a88-slopcodebench-coding-agents/",
      "title": "SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks",
      "summary": "现有 coding agent benchmark 大多看单次提交能否过测试，但真实软件开发是不断迭代扩展的。代码可能今天能过测试，明天就因为结构变形、冗余堆积而难以继续维护，因此 pass rate 对 agent 的长期开发能力测量严重不足。\n\nSlopCodeBench 针对这一缺口，设计了 20 个问题、93 个 checkpoint 的长程迭代 benchmark，让 agent 在不断变化的需求下持续修改自己先前写出的代码。作者显式跟踪 verbosity 和 structural erosion 两个轨迹级指标，并把 agent 代码与开源人类仓库做对照，展示当前 coding agent 会随迭代明显退化。\n\n这篇工作值得收录，因为它不是又一个 coding leaderboard，而是把“长期代码退化”抽成了一个可复用评测对象。只要还在讨论代码代理、自然语言 harness、自治软件工程，这个 benchmark 都有明显的方法外溢和诊断价值。\n\n它没有更高一级，是因为它主要解决的是评测和诊断，不是新的训练范式或系统接口；而且 benchmark 规模还不算特别大，是否会成为默认标准还要看后续采用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.24755",
      "collected_at": "",
      "collection_order": 545,
      "source_url": "https://arxiv.org/pdf/2603.24755.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.24755.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A84_POISE_Autonomous_RL_Discovery",
      "slug": "a84-poise-autonomous-rl-discovery",
      "detail_url": "papers/a84-poise-autonomous-rl-discovery/",
      "title": "From AI Assistant to AI Scientist: Autonomous Discovery of LLM-RL Algorithms with LLM Agents",
      "summary": "改进语言模型的 policy optimization 算法一直高度依赖研究者手工试错，因为它不只是调参数，而是要围绕训练动力学、机制改写和评测证据持续迭代。POISE 处理的正是这个层面的问题：能不能让 LLM agents 不只是帮人跑实验，而是自己形成提案、实现、验证和反思闭环，从而发现新的 LLM-RL 算法机制。\n\n论文提出一个闭环算法发现框架，维护带 genealogy 的 archive，把 proposal、可执行实现、标准化评测和自然语言反思全部串起来，支持 evidence-driven iteration。以 GRPO 为起点，系统在 64 个候选里发现了 analytic-variance scaling 和 validity masking 等更优机制，并在数学推理训练里显著提升了 weighted Overall 和 AIME25 pass@32。\n\n它值得正式收录，因为它给出了“LLM agents 发现 RL algorithm mechanism”的硬证据，而不是泛泛的 AI scientist 叙事。对 autoresearch、自我改进 agent、post-training algorithm discovery 以及 agent-driven ML systems research 都有明确外溢，也和仓库已收录的 autoresearch 主线形成闭环。\n\n它目前仍是 breakthrough，而不是更高一级，因为当前验证仍集中在一条 LLM-RL 算法族和数学推理评测上。它已经说明 agent 可以参与机制级算法发现，但距离广泛迁移到更多研究领域和更开放的发现任务，还有一段距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.23951",
      "collected_at": "",
      "collection_order": 544,
      "source_url": "https://arxiv.org/pdf/2603.23951.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.23951.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A83_EnvGrounded_Pentest_Agents",
      "slug": "a83-envgrounded-pentest-agents",
      "detail_url": "papers/a83-envgrounded-pentest-agents/",
      "title": "Environment-Grounded Multi-Agent Workflow for Autonomous Penetration Testing",
      "summary": "随着机器人和工业 OT 系统日益网络化，渗透测试已经不只是传统 IT 环境的问题，而是直接关联到真实 cyber-physical system 的安全评估。现有 LLM-based pentest agent 大多停留在一般网络攻防环境，缺少对机器人环境状态、通信拓扑和 exploit traceability 的持续建模，因此难以在需要人类审计和安全合规的场景中真正落地。\n\n这篇工作提出 environment-grounded multi-agent 架构，把自动化渗透测试建立在共享图式记忆之上：系统在执行过程中动态构建 graph-based memory，显式记录网络拓扑、通信链路、漏洞、利用尝试和环境状态变化。这样 agent 不只是串行试命令，而是围绕环境可观察状态做结构化协作，同时保留完整的 traceability 和 human oversight 接口。\n\n它值得正式收录，因为这不是单纯“让 agent 自动打靶场”，而是把 agentic security workflow 明确推进到了 environment-grounded、graph-memory、可审计执行这一层。对于 agent safety、autonomous red teaming、robotics security 和高风险 agent deployment，这是一种具备直接复用价值的系统模式。\n\n它目前仍是 breakthrough，而不是更高一级，因为公开证据主要来自 ROS/ROS2 CTF 场景和较小规模重复实验，离更广泛企业安全环境或通用 cyber-physical systems 的跨域证明还有距离。它已经展示了清晰的方法价值，但还没有证明自己会成为默认的 autonomous pentesting 基础架构。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.24221",
      "collected_at": "",
      "collection_order": 543,
      "source_url": "https://arxiv.org/pdf/2603.24221.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.24221.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A82_Claudini_Autoresearch_Safety",
      "slug": "a82-claudini-autoresearch-safety",
      "detail_url": "papers/a82-claudini-autoresearch-safety/",
      "title": "Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs",
      "summary": "autoresearch 现在最有价值的地方，不在于能不能帮人写一篇研究报告，而在于它是否能在一个有强反馈信号的具体研究问题上持续迭代并超过人工手工搜索。Claudini 选择了一个很合适的目标：白盒 adversarial attack algorithm discovery。这个问题既有现成实现可以作为起点，也有明确可量化的攻击成功率作为密集反馈，因此很适合检验 agent-based autoresearch 的真实上限。\n\n论文展示的是一个以 Claude Code 为核心的 autoresearch pipeline，能够在现有攻击实现的基础上持续迭代并产生新的 jailbreaking 和 prompt injection attack algorithms，而且在多个模型和评测设定上显著超过三十多种现有方法。这里真正重要的不是某一个攻击技巧本身，而是论文给出的证据：在安全研究这种高度 incremental、反馈密集的子领域，LLM agent 已经可以承担从实现、实验到算法改进的闭环发现工作。\n\n这篇工作值得正式收录，因为它把 autoresearch 从一般性口号推进到了一个高价值安全研究场景，并且给出清晰的外部目标函数与可复现实验基线。对 agent-driven security research、automated red teaming 和自动化研究 workflow 都有明确外溢，也补强了仓库刚扩展的 LLM safety / agent safety 方向。\n\n它目前仍是 breakthrough，而不是更高一级，因为它集中验证的是攻击算法发现这一个研究子域，且依赖一个很适合自动化优化的反馈结构。它证明了 autoresearch 在安全研究中已经可行且强大，但还没有证明这会广泛迁移到更开放、更稀疏反馈的研究问题。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.24511",
      "collected_at": "",
      "collection_order": 542,
      "source_url": "https://arxiv.org/pdf/2603.24511.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.24511.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "当AI开始自主研究如何攻击AI：Claudini迭代出超越30种已知方法的算法，挑战大模型安全极限",
          "url": "https://www.bilibili.com/video/BV1zWXhBQEkF",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1zWXhBQEkF",
            "https://youtu.be/9u8L1bD5lqw"
          ],
          "main_collection": "AI安全与对齐",
          "match": "claudini autoresearch discovers state of the art adversarial attack algorithms for llms",
          "description": "本视频展示了名为Claudini的自主AI研究系统，该系统利用Claude Code驱动的智能体自动发现大语言模型的高级对抗攻击算法。针对当前白盒攻击方法在面对现代安全模型时成功率普遍低于10%的瓶颈，Claudini通过“分析-提议-编码-验证”的闭环迭代，成功开发出在越狱和提示词注入任务中远超基线水平的新算法。实验证据表明，新算法不仅能将特定目标的攻击成功率提升至40%，还展现出极强的跨模型泛化能力，甚至能完全破解经过防御强化的Meta-SecAlign-70B模型。研究揭示了AI智能体通过策略重组与精细化调优实现算法创新的潜力，并建议将AI驱动的压力测试作为未来模型安全评估的必要标准。",
          "x_post": "MPI与帝国理工等团队推出Claudini：基于Claude驱动自主发现LLM攻击算法，ASR提升至40%\n针对现代大语言模型安全防御日益严密，现有白盒对抗攻击算法（如 GCG）的成功率普遍受限于 10% 以下。研究团队构建了利用 Claude Code 驱动的自主研究流水线 Claudini，通过“分析-提议-编码-验证”闭环迭代优化离散 Token 后缀。实验数据表明，Claudini 生成的算法在特定安全模型上的攻击成功率提升至 40%，且相比传统 AutoML 实现 10 倍损失下降。该系统展现出极强的泛化能力，成功实现对 Meta-SecAlign-70B 防御模型的完全破解（100% ASR）。此项工作证明了自动化 AI 代理在红队测试中的创新潜力，建议将 AI 驱动的压力测试作为未来模型安全评估的必要标准。",
          "cover_url": "assets/covers/a82-claudini-autoresearch-safety-e423c04902.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-30T10:14:01+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A81_VehicleMemBench_Multi_User_Memory",
      "slug": "a81-vehiclemembench-multi-user-memory",
      "detail_url": "papers/a81-vehiclemembench-multi-user-memory/",
      "title": "VehicleMemBench: An Executable Benchmark for Multi-User Long-Term Memory in In-Vehicle Agents",
      "summary": "车载 agent 如果要从助手变成长时陪伴系统，真正难的不是回答单轮问题，而是持续建模多用户偏好、处理家庭成员间的冲突，并在习惯变化后做可靠决策。现有 long-term memory benchmark 大多还是单用户、静态 QA 或弱交互环境，因此很难覆盖真实 in-vehicle agents 面临的 preference evolution 和 tool-interactive 决策压力。VehicleMemBench 明确补的是这个场景缺口。\n\n它的核心价值在于可执行环境和客观评测接口。VehicleMemBench 不是只给一堆对话样本，而是把 memory 与 tool use 放进一个可执行车载模拟环境里，通过动作后的环境状态是否达成目标来评价模型，而不是依赖 LLM judge 或人工主观打分。基准里包含 23 个工具模块、每个样本超过 80 条历史记忆事件，因此它实际测到的是 memory retrieval、冲突解析和长时偏好更新后的真实决策质量。\n\n这篇工作值得正式收录，因为它把 agent memory 评测从静态问答推进到 multi-user、long-horizon、executable benchmark，这正好命中仓库在 agent memory 和 evaluation 上的主线。尤其是“多用户偏好演化 + 工具交互 + 客观环境验收”这一组合，很可能会成为后续 memory systems 更有说服力的测试方式。\n\n它目前仍是 breakthrough，而不是更高一级，因为场景仍然聚焦车载 domain，虽然机制上有外溢，但是否能上升为更广泛 multi-user memory benchmark 范式还需要更多跨领域复用。它已经很有评测价值，但还不是所有长期记忆 agent 的统一基准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.23840",
      "collected_at": "",
      "collection_order": 541,
      "source_url": "https://arxiv.org/pdf/2603.23840.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.23840.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A80_ClawKeeper_Agent_Safety",
      "slug": "a80-clawkeeper-agent-safety",
      "detail_url": "papers/a80-clawkeeper-agent-safety/",
      "title": "ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers",
      "summary": "随着 OpenClaw 这类本地自主 agent runtime 拿到文件系统、shell 和插件调用权限，agent safety 的问题已经不再是抽象对齐口号，而是会直接变成系统级风险：敏感信息泄露、权限滥用、恶意第三方 skill 执行都可能来自一次模型判断失误。ClawKeeper 处理的正是这种 runtime-level agent safety，而不是单轮提示防御。\n\n论文提出三层联防架构。第一层是 skill-based protection，在 agent 指令与上下文层注入结构化安全策略；第二层是 plugin-based protection，在运行期做配置加固、威胁检测和行为监控；第三层是 watcher-based protection，把安全中间件从 agent 内部逻辑中解耦出来，持续校验 agent 状态演化并在高风险动作出现时执行阻断或人工确认。这里真正有新意的是 Watcher 这一 decoupled safety middleware 设计，它把干预点放到了 agent runtime 外围而不是模型内部。\n\n这篇工作值得正式收录，因为它把 agent safety 从 prompt-level guardrails 推进到了更贴近真实系统部署的 runtime architecture。对 skills、plugins、local shell execution 这些高风险 agent interface 来说，这种分层保护和外置 watcher 机制具备直接复用价值，也和仓库已纳入的 agent safety / computer-use 主线高度一致。\n\n它目前仍是 breakthrough，而不是更高一级，因为证据主要围绕 OpenClaw 生态和一组具体威胁场景，距离成为更广 agent runtime 的通用安全底座还有距离。它已经很有工程价值，但跨框架可迁移性、误报漏报代价和长期生产环境表现还需要更多公开验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.24414",
      "collected_at": "",
      "collection_order": 540,
      "source_url": "https://arxiv.org/pdf/2603.24414.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.24414.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A79_UI_Voyager_GUI_Agent",
      "slug": "a79-ui-voyager-gui-agent",
      "detail_url": "papers/a79-ui-voyager-gui-agent/",
      "title": "UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience",
      "summary": "mobile GUI agent 的关键难题不是单步 grounding，而是长程任务里的失败经验怎么转化成可持续的训练信号。现有方法常见两个问题：要么只是离线堆 demonstration，无法形成持续演化闭环；要么只看最终 sparse reward，导致 credit assignment 太弱，学不到中间关键分叉点。UI-Voyager 处理的正是这个自进化学习问题。\n\n论文提出两阶段 self-evolving 方案。第一阶段用 Rejection Fine-Tuning 在全自动循环里让数据和模型共同进化，不断积累失败与成功轨迹；第二阶段用 Group Relative Self-Distillation 从一组 rollout 中识别关键 fork points，并把成功轨迹转成更密集的 step-level 监督去纠正失败轨迹。这个设计的重点不是单纯提安卓任务分数，而是把 failed experience 变成可持续利用的学习资产。\n\n它值得正式收录，因为它给 mobile GUI agent 一条相对清晰的持续改进路径：不是只靠更多人类 demonstration，也不是只靠末端奖励，而是围绕失败轨迹构造自进化训练循环。对 computer-use / GUI agent / deployment-time improvement 三条主线都有直接方法外溢。\n\n它目前仍是 breakthrough，而不是更高一级，因为证据主要集中在 AndroidWorld 和一类移动 GUI 任务，尚未证明这一套 self-evolving 机制能稳定迁移到更广桌面、浏览器和跨应用 agent setting。它很强，但还不是整个 GUI agent 训练范式的终局。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.24533",
      "collected_at": "",
      "collection_order": 539,
      "source_url": "https://arxiv.org/pdf/2603.24533.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.24533.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A78_CUA_Suite_Computer_Use_Dataset",
      "slug": "a78-cua-suite-computer-use-dataset",
      "detail_url": "papers/a78-cua-suite-computer-use-dataset/",
      "title": "CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents",
      "summary": "computer-use agent 现在最缺的不是又一个 benchmark 分数，而是连续、高质量、带动作与推理痕迹的人类演示数据。现有公开资源大多停留在稀疏截图、短时交互或极少量视频，导致 agent 很难真正学到长程桌面工作流里的时序线索、光标运动细节和局部失败恢复。CUA-Suite 正面处理的就是这个基础设施缺口。\n\n这篇工作的核心不是单一数据集，而是一整套面向 CUA 的视频演示生态。它以 VideoCUA 为中心，提供约一万条人类演示任务、覆盖 87 个应用、连续 30fps 屏幕录制、光标轨迹以及多层级 reasoning annotations，从而把 computer-use agent 的训练信号从稀疏状态截图提升到可学习连续交互过程。这个接口对 imitation、planning、verification 和 video-grounded action modeling 都是通用底座。\n\n它值得正式收录，因为它补的是整个 computer-use 子方向最明确的瓶颈之一：公开视频演示规模不够，导致系统只能在截图级观测上打转。相比单纯再做一个 agent，CUA-Suite 这类数据与评测底座更可能成为长期引用点，也和仓库已经在收的 GUI / computer-use 主线高度一致。\n\n它目前仍是 breakthrough，而不是更高一级，因为它的长期影响还取决于社区是否真的围绕这套 video-first 数据接口收敛，以及数据质量、标注一致性和跨平台泛化是否经得起后续验证。它已经非常像基础设施，但距离成为该方向默认基座还需要时间。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-25",
      "doi": "",
      "arxiv_id": "2603.24440",
      "collected_at": "",
      "collection_order": 538,
      "source_url": "https://arxiv.org/pdf/2603.24440.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.24440.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结专业软件60%失败率：CUA-Suite利用连续视频重塑AI控制力",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "cua suite massive human annotated video demonstrations for computer use agents",
          "description": "针对当前计算机控制智能体（CUAs）在处理专业桌面软件时面临的高失败率（约60%）问题，CUA-Suite 提供了一套涵盖 55 小时人类操作视频的全栈式开源资源。该系统通过 VideoCUA 数据集保留了 30fps 的高帧率动作轨迹与多层级推理链标注，解决了传统离散截图导致的空间控制直觉缺失。此外，包含 360 万 UI 标注的 GroundCUA 提升了模型的视觉定位精度。研究显示，复杂的桌面工作流仍是现有 AI 的瓶颈，本项目通过连续视频流与细粒度语义标注，旨在推动智能体从离散点击向连续空间控制进化，为开发通用型数字助理提供核心基础设施。",
          "x_post": "ServiceNow与滑铁卢大学等发布CUA-Suite：利用55小时连续视频重塑AI桌面控制力\n当前计算机使用智能体（CUAs）在处理专业软件时面临约60%的失败率，主要瓶颈在于稀疏截图导致的动作间视觉反馈缺失。为此，研究团队推出开源生态系统CUA-Suite，其核心VideoCUA包含55小时、30fps的高帧率真人操作视频，涵盖87种专业软件的一万多个任务。项目同步提供包含360万个UI标注的GroundCUA数据集，以及集成“观察-思考-反思-动作”的多层级推理链。实验表明，连续空间控制直觉是提升智能体性能的关键，该系统旨在推动AI从离散点击向复杂的视觉世界模型进化。目前该资源库已完全开源。",
          "cover_url": "assets/covers/a78-cua-suite-computer-use-dataset-c2624ae333.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-03T10:18:17+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P25_Weak_PDE_Net",
      "slug": "p25-weak-pde-net",
      "detail_url": "papers/p25-weak-pde-net/",
      "title": "Weak-PDE-Net: Discovering Open-Form PDEs via Differentiable Symbolic Networks and Weak Formulation",
      "summary": "从稀疏、含噪观测中恢复 governing PDE 一直很难，传统 sparse regression 路线通常同时受限于数值微分不稳定和固定候选库过窄。Weak-PDE-Net 处理的正是这两个长期瓶颈。\n\n它把 surrogate dynamics learner、弱形式 PDE 生成器、符号网络和可微架构搜索连成一个端到端框架：一方面避免直接数值微分，另一方面允许在更开放的函数空间里搜索方程形式，并通过物理一致性约束增强多变量系统发现能力。\n\n这篇论文符合仓库对 `AI x math / physics / scientific computing` 的收录口径，因为它不是单个 PDE benchmark 的拟合提升，而是在 PDE discovery 的接口层面给出更稳健、更开放的工作流。对科学建模和符号发现都有持续价值。\n\n它不是更高一级的原因在于，目前仍主要在 benchmark family 上展示效果。要成为更高层级参考，还需要在更复杂真实科学系统中的发现质量和可解释性上继续站稳。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-03-24",
      "doi": "",
      "arxiv_id": "2603.22951",
      "collected_at": "",
      "collection_order": 537,
      "source_url": "https://arxiv.org/pdf/2603.22951v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.22951v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N82_Adversarial_AI_Consciousness",
      "slug": "n82-adversarial-ai-consciousness",
      "detail_url": "papers/n82-adversarial-ai-consciousness/",
      "title": "Adversarial AI reveals mechanisms and treatments for disorders of consciousness",
      "summary": "这篇 Nature Neuroscience 论文不是普通疾病分类，而是把 AI 用作 consciousness disorder 的机制发现和干预假设生成工具。\n\n作者构建 generative adversarial AI framework：一侧是从 680,000+ 十秒神经电生理样本训练的意识检测深度网络，另一侧是可解释的 machine-learning-driven neural field models。\n\n该框架生成 biologically realistic simulations，能 retrodict 已知 DOC 对脑刺激的反应，并提出两个经 diffusion MRI、RNA sequencing 和人类电生理数据支持的机制预测，还指向 subthalamic nucleus 高频刺激作为潜在干预。\n\n它值得正式收录，因为它展示 AI for neuroscience 从预测标签走向 causal inference、机制生成和治疗发现的工作流，对 AI for science 和 NeuroAI 都有范式外溢。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-03-24",
      "doi": "10.1038/s41593-026-02220-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 536,
      "source_url": "https://www.nature.com/articles/s41593-026-02220-4",
      "paper_url": "https://www.nature.com/articles/s41593-026-02220-4",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "如何让昏迷脑刺激告别“掷骰子”？UCLA用对抗AI破解意识机制",
          "url": "https://www.bilibili.com/video/BV1ZaVs6eEgR",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1ZaVs6eEgR",
            "https://youtu.be/jQVcrKbzgNM"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "adversarial ai reveals mechanisms and treatments for disorders of consciousness",
          "description": "UCLA（加州大学洛杉矶分校）团队在神经科学领域取得突破。针对昏迷等意识障碍患者脑刺激治疗如同“掷骰子”的临床痛点，研究团队引入生成对抗AI架构，通过分析超68万个跨物种神经电生理样本，构建出虚拟大脑生成器。该模型成功重现了多种昏迷特征，不仅揭示了意识丧失的脑区关键机制，还精准预测出丘脑下核高频电刺激在唤醒患者方面的巨大潜力。这一预测已在初步临床中得到验证。该技术将传统的经验疗法转化为数据驱动的精准医疗，为未来个性化意识唤醒治疗提供了更安全、更高效的数字化因果推断工具。",
          "x_post": "UCLA团队利用对抗性AI解析意识障碍机制：基于超68万个神经电生理样本预测精准唤醒靶点\n【背景】昏迷等意识障碍（DOC）在临床干预上面临靶点选择与刺激频率缺乏精确模型指导、高度依赖经验的瓶颈。\n【方法】研究引入生成对抗人工智能（AI）框架，使深度卷积神经网络（DCNN）与基于真实解剖连接的生物动力学脑模型进行对抗进化，构建出虚拟大脑生成器。\n【证据】模型分析了跨越565名个体、超68万个跨物种神经电生理样本，准确重现了昏迷表型，定位基底节间接通路中断为意识丧失关键机制，并预测丘脑下核（STN）高频电刺激具唤醒潜力。\n【结论】该预测已在人类患者的初步临床数据中得到验证，为意识障碍的个体化精准医疗提供了数据驱动的因果推断工具。",
          "cover_url": "assets/covers/n82-adversarial-ai-consciousness-37d09346f5.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T11:46:59+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM28_SpecEyes_Agentic_MLLM_Acceleration",
      "slug": "mm28-speceyes-agentic-mllm-acceleration",
      "detail_url": "papers/mm28-speceyes-agentic-mllm-acceleration/",
      "title": "SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning",
      "summary": "agentic multimodal LLM 的核心瓶颈不是单轮模型前向，而是 perception、reasoning、tool-calling 反复串行导致的 agentic depth。只要还依赖昂贵视觉工具链逐步展开，多模态 agent 的延迟和并发吞吐都会被顺序依赖拖死。SpecEyes 针对的是这个系统级瓶颈。\n\n它提出一种 speculative acceleration 框架：用轻量、tool-free MLLM 作为 speculative planner 预测执行轨迹，提前判断哪些昂贵视觉工具链可以被终止；同时用 answer separability 做 cognitive gating，在没有 oracle label 的情况下调节 speculative planning；再通过 heterogeneous parallel funnel 用小模型的无状态并发去掩蔽大模型的串行执行。\n\n这篇工作的价值在于它把 speculative execution 从 token-level decoding 推进到了 agentic multimodal workflow 级别。对于 computer-use、视觉问答代理、以及多模态 tool-using systems，它提供的是一条可复用的系统优化接口，而不只是某个 benchmark 上的特化 trick。\n\n它目前仍是 breakthrough，因为验证主要集中在 V* Bench、HR-Bench 和 POPE 一类评测，离更复杂真实 GUI / robotics / embodied tool-use 环境还有距离。它能否成为通用 agentic MLLM serving blueprint，还要看更广部署验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-24",
      "doi": "",
      "arxiv_id": "2603.23483",
      "collected_at": "",
      "collection_order": 535,
      "source_url": "https://arxiv.org/pdf/2603.23483.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.23483.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决多模态智能体的延迟爆炸：SpecEyes 引入认知门控机制，实现路径截断式的极致加速",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "speceyes accelerating agentic multimodal llms via speculative perception and planning",
          "description": "针对代理型多模态大模型（Agentic MLLMs）因频繁调用工具导致的延迟爆炸问题，SpecEyes 提出了一种投机感知与规划框架。该研究通过引入轻量级模型的“快思考”路径，利用基于答案可分离度的认知门控机制，自主判断是否可以截断复杂的工具调用链。这种从标记层级提升至智能体层级的投机方案，有效解决了传统架构中的串行依赖与并发瓶颈。实验表明，SpecEyes 在不损失精度的前提下，实现了最高 3.35 倍的推理加速，为实时多模态交互提供了高效的异构并行处理方案。",
          "x_post": "清华、南洋理工等团队发布 SpecEyes 框架，通过智能体级投机实现 Agentic MLLM 最高 3.35 倍推理加速\n\n背景：代理型多模态大模型（Agentic MLLMs）因频繁调用外部工具产生严重的响应延迟爆炸与并发处理瓶颈。针对此状态依赖导致的串行锁问题，SpecEyes 引入了投机感知与规划路径，将投机范式从词元级提升至智能体级。\n核心：该框架构建了由轻量级模型驱动的“快思考”路径，并结合基于答案可分离度（Answer Separability）的认知门控机制，自主决策是否截断复杂的工具调用链。通过异构并行漏斗架构，系统能够优先处理简单查询并实现高并发吞吐。\n证据：实验显示，SpecEyes 在维持或优化预测准确率的前提下，实现了最高 3.35 倍的端到端推理加速，显著提升了 GPU 批处理效率，解决了传统架构在复杂视觉任务中的计算冗余。\n结论：该研究为实时多模态交互应用提供了高效的异构并行解决方案，验证了路径截断机制在提升大模型智能体运行效率方面的可行性。",
          "cover_url": "assets/covers/mm28-speceyes-agentic-mllm-acceleration-14c3cfca28.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-28T23:07:15+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM27_VTAM_Video_Tactile_Action",
      "slug": "mm27-vtam-video-tactile-action",
      "detail_url": "papers/mm27-vtam-video-tactile-action/",
      "title": "VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs",
      "summary": "这篇工作切中的问题很明确：纯视觉的 Video-Action / VLA 路线在长时任务上已经有一定能力，但在接触丰富、力控制敏感的交互里，视觉 token 无法稳定表征关键的接触状态。作者因此把 tactile 视为世界动作模型的基础模态，而不是附属传感器。\n\n方法上，VTAM 在预训练视频 transformer 上接入 tactile stream，用轻量化的 modality transfer finetuning 做跨模态对齐，并通过 tactile regularization loss 抑制视觉潜变量对动作模型的单边支配。它不要求 tactile-language 成对数据，也不要求单独的 tactile 预训练。\n\n对仓库而言，这篇论文的价值在于它把 `video + tactile + action` 组织成一个可扩展的 embodied foundation-model 接口，清楚地说明了为什么复杂物理交互不能只靠视觉世界模型。这个接口层面的价值大于单个 manipulation 分数。\n\n它还不是更高一级，因为当前证据主要在 contact-rich manipulation，虽然结果很强，但离更广通用机器人平台和长期多任务泛化还差一步。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-24",
      "doi": "",
      "arxiv_id": "2603.23481",
      "collected_at": "",
      "collection_order": 534,
      "source_url": "https://arxiv.org/pdf/2603.23481v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.23481v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "J13_WildWorld_Action_State_Dataset",
      "slug": "j13-wildworld-action-state-dataset",
      "detail_url": "papers/j13-wildworld-action-state-dataset/",
      "title": "WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG",
      "summary": "很多视频 world model 数据集并不真正适合 action-conditioned dynamics 学习：动作空间窄、语义弱，动作又直接绑在像素变化上，缺少中间 state，使模型更容易学到视觉相关性而不是可控动力学。WildWorld 针对的是这个 dataset 层面的结构性缺口。\n\n它基于 photorealistic AAA action role-playing game 自动采集出大规模数据，提供超过 1.08 亿帧、450+ actions，以及逐帧同步的 skeleton、world states、camera poses 和 depth annotations。作者同时构造 WildBench，用 Action Following 和 State Alignment 评估模型是否真正学到 action-state-consistent world dynamics。\n\n这篇工作的价值不只是数据量大，而是把 explicit state supervision、丰富语义动作和长时 state consistency 评测一起打包成一个更像“世界模型训练底座”的 benchmark。对 generative world modeling、state-aware video generation 和 action-conditioned simulation 学习都有明显的基础设施外溢。\n\n它当前仍是 breakthrough，因为领域仍带有游戏环境先验，和更开放物理世界之间还有差距；同时它更像强 benchmark/data infrastructure，而不是直接提供新的建模范式。能否进一步上升，要看后续是否真正成为 state-aware world model 的标准底座。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-03-24",
      "doi": "",
      "arxiv_id": "2603.23497",
      "collected_at": "",
      "collection_order": 533,
      "source_url": "https://arxiv.org/pdf/2603.23497.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.23497.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "还原 3A 级的真实交互：1.08 亿帧 WildWorld 数据集发布，补齐生成式世界模型的演化短板",
          "url": "https://www.bilibili.com/video/BV1rsXkBDE48",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1rsXkBDE48",
            "https://youtu.be/FzvUZEsgWnU"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "wildworld a large scale dataset for dynamic world modeling with actions and explicit state toward generative arpg",
          "description": "针对当前视频生成模型仅能模拟视觉表象而缺乏物理逻辑的问题，WildWorld 发布了规模达 1.08 亿帧的开源数据集。该数据集源自 3A 级 ARPG 游戏，提供 450 余种细粒度动作及角色骨骼、相机轨迹、数值状态等 119 项显式标注。研究重点在于通过显式状态演化，解决生成模型在长时序中逻辑崩溃的局限。配套的 WildBench 基准从动作跟随与状态对齐维度，量化评估了 AI 模型在物理常识与互动能力上的表现，为构建可交互的生成式世界模型提供了基础证据。",
          "x_post": "清华与北京博大所等联合发布 WildWorld：1.08 亿帧交互数据助力生成式 ARPG 世界模型\n当前视频生成模型多侧重视觉像素模拟，在复杂动作分支与长时序逻辑一致性方面仍存在局限。\nWildWorld 数据集涵盖 1.08 亿帧视频、450 余种细粒度动作以及包括骨骼、轨迹、数值状态在内的 119 项显式标注。\n该研究通过引入显式状态演化（Explicit State）替代单一像素预测，旨在解决逻辑崩溃问题，增强模型的物理常识。\n项目同步推出 WildBench 基准，从动作跟随与状态对齐等多维度量化评估生成式世界模型的交互表现。",
          "cover_url": "assets/covers/j13-wildworld-action-state-dataset-1cb930bf60.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-26T16:12:58+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO24_Universal_Drug_Receptor_Model",
      "slug": "bio24-universal-drug-receptor-model",
      "detail_url": "papers/bio24-universal-drug-receptor-model/",
      "title": "A universal model for drug-receptor interactions",
      "summary": "药物发现里一个长期难题是：仅靠结构知识并不能真正支撑对新化学空间的可靠推断，导致研发仍高度依赖昂贵筛选。作者把问题重新聚焦为能否直接学习 drug-receptor space 中非键相互作用的普适规律。\n\n这篇工作声称通过更 reductionist 的训练数据组织和模型训练方式，让模型学到对分子识别更可泛化的表征，从而把相互作用预测从记忆已见化学，推进到对 truly novel chemistry 的推断。重点是 predictive molecular recognition，而不是窄任务 QSAR。\n\n它符合仓库在 `AI-driven biology / biopharma` 上的高门槛，因为这里的目标是为 drug-target interaction 提供更基础的通用建模接口。若结论站住，这类模型对 hit discovery 和 rational design 都有直接外溢。\n\n它当前仍是 preprint，且摘要里的“universal”表述需要后续更强社区检验，因此先给到 `breakthrough` 而不抬得更高。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-24",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 532,
      "source_url": "https://www.biorxiv.org/content/10.1101/2025.08.01.668090v1.full.pdf",
      "paper_url": "https://www.biorxiv.org/content/10.1101/2025.08.01.668090v1.full.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "攻克全新药物结构的外推预测难题：通用模型通过百万级微环境向量，让AI摆脱对历史经验的死记硬背",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "a universal model for drug receptor interactions",
          "description": "针对传统AI药物设计模型依赖记忆历史结构、在处理全新化学空间时外推能力不足的瓶颈，本项研究提出了通用模型TPM（目标偏好图）。该方法避开传统的分子骨架表征，转而从2万多个蛋白质复合物中提取110万个亚原子级微环境向量，利用Transformer架构学习非共价相互作用的本质物理规律。实验证明，TPM能通过体素化切割精准预测受体结合位点的理想原子分布，生成反映空间偏好的彩色图谱。该模型将药物开发从偶然性筛选转向基于物理约束的理性设计，为突破专利壁垒、优化高亲和力新药提供了高效的计算指南。",
          "x_post": "研究团队提出通用模型TPM：利用110万个微环境向量攻克药物结构外推预测难题\n针对传统AI模型依赖记忆分子骨架导致的外推能力不足，该研究开发了“目标偏好图”（TPM）模型。通过从2万余个蛋白质复合物中提取110万个亚原子级微环境向量，TPM利用Transformer架构抽象出非共价相互作用的物理本质，而非单纯记忆已知结构。\n模型通过对受体结合位点进行体素化切割，精准预测特定空间的理想原子类型分布。实验证明，该方法能有效识别已知药物关键特征，并引导开发者探索具备专利潜力的全新化学空间。\n这一进展推动了药物研发从依赖偶然性的分子筛选，转向基于物理约束的理性设计，显著提升了高亲和力药物的优化效率。",
          "cover_url": "assets/covers/bio24-universal-drug-receptor-model-be31027b36.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-26T17:36:42+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A70_MemCollab_Shared_Agent_Memory",
      "slug": "a70-memcollab-shared-agent-memory",
      "detail_url": "papers/a70-memcollab-shared-agent-memory/",
      "title": "MemCollab: Cross-Agent Memory Collaboration via Contrastive Trajectory Distillation",
      "summary": "现有 agent memory 大多是 per-agent 设计：memory 既绑定任务，也绑定某个模型自己的推理风格。这在异构 agent 联合部署里会立刻变成问题，因为同一份 memory 迁移给不同 agent 时，往往会把模型私有偏好和任务不变量混在一起，反而伤害效果。MemCollab 处理的正是这个共享 memory 难题。\n\n它提出一种 cross-agent collaborative memory 构造方式：先让不同 agent 在同一任务上产生 reasoning trajectories，再通过 contrastive trajectory distillation 提炼出更抽象的 shared reasoning constraints，把任务级不变量保留下来，同时抑制 agent-specific artifacts。检索阶段再用 task-aware retrieval 按任务类别调取相关约束。\n\n这篇工作的价值在于它把“memory 是否可跨 agent 共享”从默认假设变成了明确方法问题，并给出了一条可复用路线：shared memory 不能是 agent-specific trace 的简单搬运，而应当经过跨 agent 对比蒸馏。对于多模型协作、异构 agent orchestration 和长期运行的 agent infra，这个思路有明确外溢。\n\n它仍是 breakthrough 而不是更高一级，因为当前验证主要集中在数学推理和代码生成，离更广泛的开放环境、工具使用、多模态或真实企业工作流还有距离。共享 memory 在长期演化中的稳定性和写入污染问题也仍需要更强证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-24",
      "doi": "",
      "arxiv_id": "2603.23234",
      "collected_at": "",
      "collection_order": 531,
      "source_url": "https://arxiv.org/pdf/2603.23234.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.23234.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A130_ARC_AGI_3_Agentic_Intelligence",
      "slug": "a130-arc-agi-3-agentic-intelligence",
      "detail_url": "papers/a130-arc-agi-3-agentic-intelligence/",
      "title": "ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence",
      "summary": "当前很多所谓 frontier agent benchmark 仍严重依赖语言知识、互联网经验或任务模板匹配，因此很难真正区分“会调用很多工具”与“具备流体式新任务适应能力”之间的差别。ARC-AGI-3 直接把问题重新拉回 agentic intelligence 的核心：在没有明确指令、没有外部知识补偿的陌生交互环境里，agent 是否能通过探索、归纳、建模和规划快速找出可行解法。\n\nARC-AGI-3 是一个交互式 benchmark，任务由 novel、abstract、turn-based environments 组成，要求 agent 在环境中自己发现目标、理解动态、构建内部世界模型并规划动作序列。它延续 ARC-AGI-1/2 避开语言和外部知识的设计原则，只使用 core knowledge priors，并进一步引入以人类操作基线为锚点的效率型 scoring framework，从而把评价重点放在 novel-task adaptive efficiency，而不是静态答题正确率。\n\n这篇工作值得收录，因为它不是再造一个更难的数据集，而是在重写 frontier agent evaluation 的目标函数。对 agent research、general intelligence benchmarking 和 system design，它明确提出：真正重要的不是会不会利用已知模板，而是在陌生环境中能否快速形成有效内部模型并完成任务。这种 framing 对后续 agent benchmark 和训练目标都会有持续影响。\n\n它没有升到更高一级，是因为 ARC-AGI-3 目前仍主要是一条新 benchmark 路线，虽然问题定义非常强，但它是否会成为整个 agent intelligence 评测的默认坐标系，还需要后续更广泛采用与围绕它展开的方法生态。当前给 disruptive 更稳。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-24",
      "doi": "",
      "arxiv_id": "2603.24621",
      "collected_at": "",
      "collection_order": 530,
      "source_url": "https://arxiv.org/pdf/2603.24621.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.24621.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "以人类巅峰效率为残酷裁决尺度：ARC-AGI-3 凭借指数级惩罚机制，粉碎大模型靠暴力穷举维持的虚假智能",
          "url": "https://www.bilibili.com/video/BV13N9TBrExX",
          "platform_urls": [
            "https://www.bilibili.com/video/BV13N9TBrExX",
            "https://youtu.be/js9J4h9thm0"
          ],
          "main_collection": "AI智能体",
          "match": "arc agi 3 a new challenge for frontier agentic intelligence",
          "description": "当前大模型在已知领域表现优异，但在处理未知任务时常陷入“泛化失效”。ARC-AGI-3 是一项衡量人工智能通用适应效率的新型互动基准，旨在区分真正的流体智能与暴力搜索。该测试摒弃语言提示与先验知识，要求智能体在 64x64 的像素环境中通过自主探索、建模与规划解决抽象任务。测试核心采用相对人类动作效率（RHAE）评分，并引入指数级惩罚机制，严厉打击盲目尝试。实验显示，人类受试者凭借逻辑直觉可达 100% 成功率，而 2026 年初的尖端模型得分不足 1%，揭示了现有技术在非静态任务中与通用人工智能的本质差距。",
          "x_post": "ARC Prize Foundation 发布 ARC-AGI-3 基准：尖端 AI 适应效率不足 1%，量化流体智能差距\n当前前沿大模型在脱离训练分布的未知任务中普遍面临泛化失效。ARC-AGI-3 弃用语言提示，要求智能体在 64x64 像素交互环境中通过自主探索、环境建模与逻辑规划解决抽象任务，重点评估对象性、基础物理等通用法则的运用能力。\n该测试引入相对人类动作效率（RHAE）作为核心指标，并采用指数级惩罚机制严厉打击暴力搜索。实验数据显示，人类受试者凭借逻辑直觉可达到 100% 成功率，而截至 2026 年初的最先进模型得分仍不足 1%。\n研究表明，现有技术在非静态任务中的表现与通用人工智能（AGI）所需的流体适应力存在本质代差。ARC-AGI-3 通过高难度私有测试集与严苛的效率裁决，为准确量化智能体的认知适应性提供了科学标准。",
          "cover_url": "assets/covers/a130-arc-agi-3-agentic-intelligence-4186fbfd5b.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-03T14:12:29+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R41_Golden_Subspace_CTTA",
      "slug": "r41-golden-subspace-ctta",
      "detail_url": "papers/r41-golden-subspace-ctta/",
      "title": "The Golden Subspace: Where Efficiency Meets Generalization in Continual Test-Time Adaptation",
      "summary": "Continual test-time adaptation 一直有一个现实矛盾：想提升在线适应效果，就往往要更新更多参数；但一旦更新太多，推理效率和稳定性都会快速变差。现有很多方法在效率与泛化之间做经验折中，但较少给出更干净的机制解释。\n\nThe Golden Subspace 的核心贡献，是提出并分析一个最小适应子空间：在单步适应设定下，这个子空间与预训练分类器的行空间重合。论文进一步用 sample-wise Average Gradient Outer Product 作为在线估计 proxy，并据此构造 GOLD，把 continual adaptation 压缩到一个动态维护的小子空间内进行。这样一来，CTTA 的问题不再只是‘更新多少层’，而是‘更新应局限在哪个可解释子空间’。\n\n它值得正式收录，因为 test-time adaptation 主线里真正稀缺的是机制层澄清。这篇工作既给了结构性解释，也给了可以实际运行的在线方案，属于理论和系统实现结合得比较紧的路线。对本仓库强调的 deployment-time adaptation 来说，这种 work 比单纯刷分更耐久。\n\n它没有升到更高一级，是因为当前理论结果和系统实现仍主要围绕视觉分类/分割等 CTTA 场景，跨更广模态和任务的外溢还需进一步验证。现阶段它是很强的 CTTA clarification + method paper，但尚未形成更高一级的范式替换。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-23",
      "doi": "",
      "arxiv_id": "2603.21928",
      "collected_at": "",
      "collection_order": 529,
      "source_url": "https://arxiv.org/pdf/2603.21928.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.21928.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "破解动态环境下的 AI 失效难题：GOLD 架构利用黄金子空间，实现模型极小代价的实时进化",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "the golden subspace where efficiency meets generalization in continual test time adaptation",
          "description": "针对自动驾驶等动态环境中AI模型因数据分布偏移导致的失效难题，本视频解析了名为 GOLD 的新框架。该研究旨在解决持续测试时自适应（CTTA）中计算效率与模型泛化之间的权衡，提出并证明了“黄金子空间”的存在。通过引入平均梯度外积（AGOP）作为在线估计工具，GOLD 在无需重训的情况下实时维护该低维特征空间，并仅通过学习轻量化缩放向量来修正预测。实验证据显示，该方法仅需极小的特征向量即可捕获绝大部分能量，有效约束了参数漂移并抑制了噪声。在自动驾驶基准测试中，GOLD 不仅显著提升了推理效率，更在复杂多变的环境中展现了卓越的稳定性和泛化性能，为实时部署提供了高可靠的进化方案。",
          "x_post": "南京大学与香港科技大学提出 GOLD 架构，利用“黄金子空间”实现 CTTA，128 维特征向量可捕获 99% 以上能量。\n在自动驾驶等动态环境中，模型常因分布偏移导致性能下降，而现有持续测试时自适应方法难以平衡计算效率与泛化稳定性。\n该研究通过数学证明了与分类器权重相关的低维特征空间——黄金子空间，并利用平均梯度外积（AGOP）作为在线估计工具实时维护该空间。\n实验数据表明，仅需前 64-128 个特征向量即可捕获绝大部分能量，通过学习轻量化缩放向量，有效约束了参数漂移并降低了噪声干扰。\nGOLD 架构在多项基准测试中显著提升了推理效率与泛化性能，为实时部署场景下的模型自适应进化提供了高可靠方案。",
          "cover_url": "assets/covers/r41-golden-subspace-ctta-996fe89e6e.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-06T09:26:30+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N65_CoAdaptive_Neural_Interfaces",
      "slug": "n65-coadaptive-neural-interfaces",
      "detail_url": "papers/n65-coadaptive-neural-interfaces/",
      "title": "Computational framework to predict and shape human-machine interactions in closed-loop, co-adaptive neural interfaces",
      "summary": "这篇论文处理的是神经接口和脑机接口里一个很关键但长期缺少统一分析工具的问题：一旦用户和解码器都在闭环中同时学习，系统就不再是“模型适配人”或“人适配模型”的单边过程，而变成了两个学习者相互耦合的动态系统。过去这类 co-adaptive neural interface 大多依赖经验调参，很难在设计阶段就预测不同解码策略会如何改变用户行为和整体性能。\n\n论文提出一套建立在控制理论和博弈论之上的计算框架，用来分析、预测并塑造闭环共适应神经接口中的 user–decoder dynamics。作者在一个自适应肌电接口实验平台上做了验证，让受试者通过在线适配的解码器控制二维光标，随后用控制理论模型分离用户与解码器的变化，并用 game-theoretic 视角去预测不同解码更新策略下的共适应结果。重点不只是证明 co-adaptation 存在，而是给出了一套可用于设计这种交互的可计算方法。\n\n它值得正式收录，因为这篇工作把闭环人机交互、神经接口和在线适应解码器从经验工程推进到了更可复用的理论/系统框架。对 BCI、肌电接口、辅助设备 personalization、adaptive decoder 设计，以及更广义的 human-in-the-loop learning systems 都有明显外溢价值。对于这个仓库，它既符合 NeuroAI 的严格标准，也符合 test-time / deployment-time adaptation 对“闭环适配机制”而非单点技巧的要求。\n\n它暂时不到更高一级，原因在于影响范围目前主要还是集中在神经接口与相关 human-machine control 场景。虽然方法论上很干净，也有实验验证，但还没到足以重排更广 AI 适配范式或更一般多智能体学习框架的程度，因此定为 breakthrough 更稳。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-03-23",
      "doi": "10.1038/s42256-026-01194-z",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 528,
      "source_url": "https://www.nature.com/articles/s42256-026-01194-z",
      "paper_url": "https://www.nature.com/articles/s42256-026-01194-z",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决人机共生中的“双大脑”冲突：华盛顿大学利用博弈论重构神经接口的稳定性",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "computational framework to predict and shape human machine interactions in closed loop co adaptive neural interfaces",
          "description": "针对神经接口中人脑与机器算法同时学习导致的系统不稳定问题，华盛顿大学研究团队提出了一种融合控制论与博弈论的共适应计算框架。该研究将人机交互建模为双人博弈，通过数学手段精确预测并引导双方的动态行为。实验采用64通道高密度表面肌电接口，在连续追踪任务中观察到受试者神经策略的系统性重构，证明了大脑在主动适应机器节拍。研究结果表明，通过优化解码器参数，可使闭环系统打破“黑盒调参”困境，逼近理论追踪极限。该成果为开发高性能智能康复设备和神经辅助技术提供了基于第一性原理的设计准则。",
          "x_post": "华盛顿大学提出神经接口共适应计算框架：利用博弈论实现64通道肌电信号的理论极限追踪\n\n在闭环神经接口中，人脑与算法的同时学习常因缺乏数学建模导致系统不稳定。研究团队融合控制论与博弈论，将人机交互建模为双人博弈，通过调整解码器学习率与惩罚项来引导用户行为。实验采用64通道高密度表面肌电接口，在14名受试者参与的5分钟连续追踪任务中，观察到肌电调谐曲线发生了系统性偏移，证实了大脑在主动适应机器节拍。该框架证明了通过算法参数优化可使交互性能逼近理论极限，为开发高性能智能康复设备提供了基于第一性原理的设计准则。",
          "cover_url": "assets/covers/n65-coadaptive-neural-interfaces-4dba6294ba.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-28T23:05:27+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "G5_UNITE_Unified_Tokenization_Denoising",
      "slug": "g5-unite-unified-tokenization-denoising",
      "detail_url": "papers/g5-unite-unified-tokenization-denoising/",
      "title": "End-to-End Training for Unified Tokenization and Latent Denoising",
      "summary": "现代 latent diffusion pipeline 通常把 tokenizer 和 generator 分成两阶段：先学一个可重建的 latent space，再冻结它去训练 diffusion 或 flow model。这个流程已经变成默认配方，但它也把 latent space 的两种目标人为拆开了：一边追求重建与判别友好，一边追求生成分布的可建模性。UNITE 直接针对这个结构性问题下手，问的是 tokenization 和 generation 是否本来就该作为同一个 end-to-end latent inference 问题来联合训练。\n\n论文提出的 UNITE 把 tokenizer 与 latent denoiser 统一到同一个共享参数的 Generative Encoder 里：在 tokenization 模式下，它从完整观测推断 clean latent；在 generation 模式下，它从噪声和条件出发恢复相同 latent。训练时只保留 reconstruction objective 和 latent-space flow-matching objective，通过两次前向传播端到端联合优化，不依赖 adversarial losses、预训练 DINO encoder 或额外教师信号。这个设计给出的不是单一 trick，而是对 latent pipeline 边界的一次明确重写。\n\n这篇工作值得正式收录，因为它把“先学 tokenizer、再学 generator”这条长期默认工序改写成一个更统一、也更干净的训练范式。对 generative modeling 主线而言，真正有价值的不是单次 FID，而是它给出了一个共享 latent language 的可复用接口：同一表示同时承担重建、推断和生成职责，并且已经展示到图像与分子两类模态上。这类统一 latent interface 对后续多模态生成、科学生成和世界模型都有外溢。\n\n它目前仍是 breakthrough，而不是更高一级，因为证据主要集中在 ImageNet 256 和分子模态的端到端可行性与近 SOTA 结果，距离成为 latent generation 默认范式还有一步。社区还需要验证它在更大规模视频、音频、3D 或强条件生成任务上的稳定性，以及这种 joint shaping 是否会在更复杂设定下持续优于 staged training。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-03-23",
      "doi": "",
      "arxiv_id": "2603.22283",
      "collected_at": "",
      "collection_order": 527,
      "source_url": "https://arxiv.org/pdf/2603.22283",
      "paper_url": "https://arxiv.org/pdf/2603.22283",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "告别繁琐的自编码器预训练：MIT联合Adobe发布UNITE架构，实现生成式AI的单阶段端到端进化",
          "url": "https://www.bilibili.com/video/BV1s99ABHEbn",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1s99ABHEbn",
            "https://youtu.be/AIAUpc8kOd0"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "end to end training for unified tokenization and latent denoising",
          "description": "当前潜在扩散模型（LDM）依赖分阶段训练，即先预训练自编码器再训练生成器，导致流程冗余且表征割裂。MIT与Adobe联合提出的UNITE架构打破了这一范式，通过共享参数的生成式编码器，在单阶段内同时优化图像重建与潜空间去噪。该方法利用流匹配技术，让模型在同一套参数下学习通用潜在语言，避免了对外部预训练模型的依赖。实验证明，UNITE在保持极高保真度的同时，显著简化了训练流程，为构建高效、简洁的生成式AI模型提供了创新的端到端技术方案。",
          "x_post": "MIT与Adobe发布UNITE架构：实现生成式AI单阶段端到端训练，FID指标达1.73\n\n当前潜在扩散模型（LDM）普遍依赖两阶段训练，需先预训练自编码器再冻结参数训练生成器，导致流程冗余且表征割裂。MIT与Adobe团队提出UNITE架构，核心在于引入共享参数的“生成式编码器”（Generative Encoder），在单阶段内同时优化图像重建与潜空间去噪。\n\n该方法利用流匹配技术，使同一套参数在不同观测条件下学习通用的潜语言，完全摆脱了对DINO等外部预训练模型或对抗性损失的依赖。实验数据显示，UNITE在图像合成中取得了1.73 FID的性能表现，并在分子生成等跨领域任务中验证了其高保真度。\n\n这项工作证明了通过权重共享可有效平衡信息保留与生成鲁棒性，为构建高效、简洁的端到端生成式AI模型提供了系统性技术方案。",
          "cover_url": "assets/covers/g5-unite-unified-tokenization-denoising-1f854bfec2.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-28T23:04:16+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A77_SkillRouter_Skill_Selection",
      "slug": "a77-skillrouter-skill-selection",
      "detail_url": "papers/a77-skillrouter-skill-selection/",
      "title": "SkillRouter: Retrieve-and-Rerank Skill Selection for LLM Agents at Scale",
      "summary": "随着 agent skill 生态从几十个工具扩展到上万条 skills、plugins 和 prompts，真正的瓶颈已经不只是“agent 会不会调用工具”，而是“在巨大且高度同质的 skill 池里，系统怎样先找对 skill”。这篇论文把 skill routing 提升成一个独立问题来研究，而不是继续默认 name 和 description 足够代表技能能力。它面对的是现实里最常见但此前几乎没被系统研究的场景：大量重名、近义、实现细节不同的社区 skill 并存。\n\nSkillRouter 的关键贡献有两层。第一层是经验性但很重要的结论：skill body，也就是完整实现文本，不是附属信息，而是决定 skill selection 的主要信号；拿掉 body 后，各种检索方法都会出现 29 到 44 个百分点的退化。第二层是方法与评测：作者基于约 8 万 skills 和 75 条 expert-verified queries 构建标准化 benchmark，并提出一个 0.6B encoder + 0.6B reranker 的两阶段 retrieve-and-rerank pipeline，在 consumer hardware 约束下仍能给出有竞争力的 routing 结果。\n\n这篇工作值得正式收录，因为它不只是做了一个小型 tool retriever，而是明确改写了 agent skill system 的一个默认假设：progressive disclosure 下只看 metadata 做 selection 是不够的，routing 端必须利用 skill body。这个结论对 skill marketplace、capability extension、local-first agent tooling 和 memory-plus-skill library 设计都有直接复用价值，也为后续技能检索 benchmark 和 router 设计提供了清晰参照。\n\n它目前仍是 breakthrough，而不是更高一级，因为 benchmark 规模虽已像样，但查询数量还不大，且主要围绕阿里系构建的 skill pool 和 under-review 设定。它已经证明了问题存在且 body 信息关键，但是否会成为跨生态的默认 skill routing 基础设施，还要看更多公开技能仓库、真实 agent loop 和 end-to-end task completion 的后续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-23",
      "doi": "",
      "arxiv_id": "2603.22455",
      "collected_at": "",
      "collection_order": 526,
      "source_url": "https://arxiv.org/pdf/2603.22455",
      "paper_url": "https://arxiv.org/pdf/2603.22455",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "面对八万个AI技能如何实现百里挑一？SkillRouter通过双阶段重排架构解决检索灾难",
          "url": "https://www.bilibili.com/video/BV1qRX1BoEUs",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1qRX1BoEUs",
            "https://youtu.be/-eMEXTtPYhI"
          ],
          "main_collection": "AI智能体",
          "match": "skillrouter retrieve and rerank skill selection for llm agents at scale",
          "description": "针对大语言模型智能体在面对数万级技能池时出现的检索精度下降问题，本文介绍阿里巴巴开发的 SkillRouter 框架。研究发现，仅依赖技能名称和简介会导致检索准确率大幅下跌，而代码主体包含超过 90% 的关键决策信号。SkillRouter 采用 1.2B 参数的双阶段架构，通过双塔检索与交叉重排序的协同，配合列表式损失函数和虚假负样本过滤技术，在 8 万规模技能池中达到了 74.0% 的首选准确率。该方案支持在消费级硬件部署，有效解决了大规模智能体任务中的技能选择瓶颈，为低延迟、高精度的端侧技能路由提供了实践指南。",
          "x_post": "阿里巴巴提出 SkillRouter 技能路由框架，在 8 万级技能池实现 74.0% 首选准确率\n针对大模型智能体在面对数万级技能池时检索精度下降的问题，研究发现仅依赖名称与简介会导致准确率大幅下跌，而代码主体（Body）承载了 91.7% 的关键决策信号。\nSkillRouter 采用 1.2B 参数的轻量化双阶段架构，由 0.6B 编码器与 0.6B 重排序器组成，通过检索与重排的协同配合列表式损失函数，从 80,000 个技能中精准筛选目标。\n实验结果显示，该系统在 8 万规模技能池中实现了 74.0% 的首选准确率，显著超越多个大规模零样本模型，且支持在消费级硬件上端侧部署。\n该方案突破了现有智能体架构对元数据的依赖限制，为实现低延迟、高精度的大规模技能路由提供了有效路径。",
          "cover_url": "assets/covers/a77-skillrouter-skill-selection-70867240f2.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-28T23:02:41+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A73_Ego2Web_Web_Agent_Benchmark",
      "slug": "a73-ego2web-web-agent-benchmark",
      "detail_url": "papers/a73-ego2web-web-agent-benchmark/",
      "title": "Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos",
      "summary": "问题与背景：当前 web-agent benchmark 基本都把智能体限制在浏览器内部，默认视觉输入也只来自网页本身，因此无法评估一类更真实的助理任务：智能体先通过第一人称视觉理解用户身边的物体、场景或上下文，再去网页上完成检索、购买、预约或信息填写。Ego2Web 要解决的正是这个物理世界到网页执行之间的断层。\n\n方法/新意：论文提出 Ego2Web，把真实的 egocentric video 与需要网页执行的任务配对，覆盖电商、媒体检索、知识查询等多类场景。数据构建上采用自动生成加人工校验的流程，避免纯人工写题的低扩展性；评估上提出 Ego2WebJudge，用 LLM-as-a-Judge 对任务完成情况做自动判定，并报告出明显高于既有方法的人类一致性。\n\n意义/放在仓库中的位置：这篇工作适合放在 agent / computer-use / embodied assistant 主线。它的重要性不只是又一个网页 benchmark，而是把 web execution 和第一人称现实感知绑到同一条任务链上，为未来 AR glasses agent、跨物理-数字环境助理以及更真实的 GUI/Web/VLA 融合评测提供了一个明确接口。对 agent evaluation 的长期外溢性很强。\n\n局限/为何不再升一级：它当前仍是 benchmark 和 evaluation 资源，而不是直接改写 agent 架构本身的方法论文。任务规模、视频类型和网页环境也还可以继续扩展，因此更稳妥的定位是突破性，而不是更高一级的范式重排。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-23",
      "doi": "",
      "arxiv_id": "2603.22529",
      "collected_at": "",
      "collection_order": 525,
      "source_url": "https://arxiv.org/pdf/2603.22529.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.22529.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S5_AutoMOOSE_Phase_Field_Simulation",
      "slug": "s5-automoose-phase-field-simulation",
      "detail_url": "papers/s5-automoose-phase-field-simulation/",
      "title": "AutoMOOSE: An Agentic AI for Autonomous Phase-Field Simulation",
      "summary": "像 MOOSE 这样的 multiphysics simulation framework 很强，但真实门槛并不只在物理知识本身，而在于如何写对 input file、配置参数扫描、诊断 runtime 失败并把结果整理成可信的研究流程。很多材料和 phase-field 工作流仍高度依赖熟练研究者手工维护。\n\nAutoMOOSE 的关键贡献，是把 phase-field simulation lifecycle 变成自然语言驱动的多 agent workflow。它用多 agent 管道自动生成输入、并行执行参数扫描、诊断三类 runtime failures，并通过 plugin architecture 和 MCP tool interface 暴露可扩展的科学计算工作流接口；同时，论文不只看能不能跑通，还补上了 physical consistency check 与 FAIR-style provenance。\n\n它值得正式收录，因为它符合本仓库对 AI for science 的高门槛要求：不是单一预测任务，而是把 simulation campaign 的组织方式做成可复用的 agentic infrastructure。对 self-driving lab、scientific workflow automation 和 domain simulation copilots，这类工作比单点 benchmark 更有长期价值。\n\n它没有升到更高一级，是因为当前验证仍集中在 phase-field / grain-growth 这条具体科学子线，跨更广 simulation stack 的可迁移性还需要更多证据。现阶段它更像一个强科学 workflow prototype，而不是已经统一 scientific simulation automation 的通用平台。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-03-22",
      "doi": "",
      "arxiv_id": "2603.20986",
      "collected_at": "",
      "collection_order": 524,
      "source_url": "https://arxiv.org/pdf/2603.20986.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.20986.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "物理科研效率的指数级跃迁：AutoMOOSE 引入 1.8 倍并行加速与 MCP 协议，构建从意图解析到科学叙事的智能闭环",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "automoose an agentic ai for autonomous phase field simulation",
          "description": "针对计算材料科学中物理直觉与底层仿真代码之间的鸿沟，AutoMOOSE 提出了一种基于 AI 智能体的自动化框架。该框架由架构解析、输入编写、并行调度、故障自愈及科学叙事五个核心智能体组成，支持通过自然语言指令完成 MOOSE 多物理场模拟的全生命周期管理。实验证明，系统可自主执行多晶铜晶粒生长等复杂相场模拟任务，在无需人工干预的情况下实现 1.8 倍并行加速。通过集成 MCP 协议，AutoMOOSE 能够无缝接入自动化实验室管线，有效降低了高性能计算的门槛，并严格遵循 FAIR 数据原则，为科学研究提供了高效且可复现的自动化路径。",
          "x_post": "UIC与阿贡实验室发布AutoMOOSE：5智能体架构实现相场模拟全自动化与1.8倍并行加速\n针对计算材料科学中物理直觉与底层代码间的鸿沟，该研究构建了由架构解析、输入编写、并行调度、故障自愈及科学叙事组成的自动化框架。\n核心技术通过模型上下文协议 (MCP) 整合，支持将自然语言指令直接转化为包含物理公式、几何拓扑及边界条件的结构化仿真计划。\n在多晶铜晶粒生长模拟实验中，系统实现了从MPI并行任务调度到 R²=0.988 的Arrhenius曲线拟合的全流程无人化闭环。\n实验结果证明，AutoMOOSE在提升1.8倍运行效率的同时，通过故障自愈机制显著降低了HPC模拟的技术门槛，并严格遵循FAIR数据原则。",
          "cover_url": "assets/covers/s5-automoose-phase-field-simulation-986a781fd1.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-05T09:31:11+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL18_RoboAlign_VLA_Reasoning",
      "slug": "rl18-roboalign-vla-reasoning",
      "detail_url": "papers/rl18-roboalign-vla-reasoning/",
      "title": "RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models",
      "summary": "这篇论文处理的是一个很实在的问题：很多在 MLLM 上加 reasoning supervision 的方法，迁移到 VLA 后并不能稳定提升机器人表现，甚至会伤害动作质量。作者把症结归因于语言推理和低层动作之间的接口没有真正对齐。\n\nRoboAlign 的核心做法是先用零样本自然语言推理产生动作 token，再通过 RL 对这些推理进行校正，使语言侧的决策过程能够更可靠地映射到扩散式动作头。重点不是再堆 VQA 监督，而是把 reasoning 直接变成动作对齐机制。\n\n这条路线命中仓库当前重点的 `VLA / embodied reasoning / test-time adaptation`。它展示了一种更系统的语言-动作桥接方案，且在 LIBERO、CALVIN 和 real-world 上都给出了明显增益，因此不只是 benchmark trick。\n\n它暂时还不是更高一级，因为当前验证仍围绕特定 VLA 训练配方和 benchmark 体系展开。要成为更通用的范式，还需要在更广机器人形态、动作表示和长期部署 setting 上继续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-22",
      "doi": "",
      "arxiv_id": "2603.21341",
      "collected_at": "",
      "collection_order": 523,
      "source_url": "https://arxiv.org/pdf/2603.21341v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.21341v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "通用机器人曙光初现：RoboAlign 引入双阶段架构与 GRPO 算法，让 AI 在试错中实现思考与动作的深度一致",
          "url": "https://www.bilibili.com/video/BV1RKX5BFEaP",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1RKX5BFEaP",
            "https://youtu.be/2XiS1HyX0qA"
          ],
          "main_collection": "机器人与具身智能",
          "match": "roboalign learning test time reasoning for language action alignment in vision language action models",
          "description": "具身智能模型常面临“大脑”推理与“躯体”动作失调的模态鸿沟。RoboAlign 提出双阶段训练框架解决此问题：第一阶段通过 188 万条数据进行监督微调，结合 FAST 动作 Token 化技术赋予模型空间意识；第二阶段引入 GRPO 强化学习算法，以动作准确度而非语言优美度作为奖励信号，实现测试时推理与物理执行的深度对齐。实验证明，该方法在真实世界物理成功率提升达 106.6%，并在 LIBERO 等主流基准测试中显著超越传统微调基线，有效提升了机器人在复杂任务中的泛化能力与操作精度。",
          "x_post": "KAIST与UC Berkeley等团队发布RoboAlign：通过GRPO强化学习实现语言-动作深度对齐，物理成功率提升106.6%\n现有的具身智能模型在高级语言推理与底层动作执行之间存在显著的“模态鸿沟”，单纯提升推理能力往往难以转化为操作性能。研究团队提出RoboAlign框架，首阶段通过188万条多模态数据进行监督微调（SFT），利用FAST Token化技术赋予模型3D空间意识；次阶段引入GRPO强化学习算法，以动作准确度为奖励信号，使模型在试错中优化测试时推理（Test-Time Reasoning）路径。实验数据显示，该方法在真实物理环境下的成功率提升达106.6%，并在LIBERO、CALVIN等基准测试中大幅超越传统微调基线。此项工作证明了将物理精确度作为优化信号，可有效解决大脑推理与肢体动作的失调问题。",
          "cover_url": "assets/covers/rl18-roboalign-vla-reasoning-a30a82034f.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-26T18:02:53+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P24_WinDiNet_Urban_Wind",
      "slug": "p24-windinet-urban-wind",
      "detail_url": "papers/p24-windinet-urban-wind/",
      "title": "Pretrained Video Models as Differentiable Physics Simulators for Urban Wind Flows",
      "summary": "这篇工作针对城市风环境设计中的一个核心瓶颈：高质量 CFD 仿真太慢，导致行人风舒适性与安全性的设计空间探索成本极高。作者把这个问题重新表述为可微的时空生成与优化问题，而不是单纯训练一个更快的数值替代器。\n\n方法上，它从预训练视频扩散模型出发，微调成风场时序 rollout 的代理模拟器，并加入物理约束的解码损失，使模型既能快速生成完整时序流场，又能对布局参数反向传播。这样一来，模型不只是预测器，也是可用于逆向设计的 differentiable simulator。\n\n这篇论文对仓库的价值在于，它把视频生成模型、神经代理仿真和物理设计优化连成了一个统一工作流，明确展示了 foundation-model 级视频建模如何进入科学计算和工程设计闭环。这个接口比普通 neural PDE surrogate 更有外溢性。\n\n它目前仍有边界：任务是 2D incompressible urban wind setting，验证范围也还集中在特定 CFD 数据分布内，因此还不足以把更广义的 AI 物理模拟路线整体重排。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-03-22",
      "doi": "",
      "arxiv_id": "2603.21210",
      "collected_at": "",
      "collection_order": 522,
      "source_url": "https://arxiv.org/pdf/2603.21210v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.21210v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "视频大模型变身物理模拟器：ETH联合发布WinDiNet，让20亿参数看懂城市流体力学",
          "url": "https://www.bilibili.com/video/BV1UzXsB7E1F",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1UzXsB7E1F",
            "https://youtu.be/aqNpuj7xGAU"
          ],
          "main_collection": "AI物理与科学计算",
          "match": "pretrained video models as differentiable physics simulators for urban wind flows",
          "description": "本研究介绍了一种名为WinDiNet的新型框架，旨在解决传统计算流体动力学（CFD）模拟高昂的计算成本与不可微性难题。该框架由ETH Zurich等机构联合发布，核心是将预训练视频扩散模型LTX-Video重新构筑为城市风场模拟器。研究团队通过RGB编码方式将物理风速场映射至视频色彩空间，并在微调过程中引入散度损失与墙面防穿透等硬性物理约束。实验数据证明，WinDiNet仅需不足一秒即可生成包含112帧的复杂风场序列，速度较传统方法提升三个数量级，且物理精度在VRMSE指标上超越了FNO等主流神经PDE求解器。此外，凭借端到端可微的特性，该模型能直接支持通过反向传播进行建筑布局优化，为智慧城市设计提供了高效且精准的决策工具。",
          "x_post": "ETH联合发布WinDiNet：基于20亿参数视频大模型实现秒级城市流体仿真，VRMSE降至0.520\n传统城市风场模拟（CFD）面临计算高昂且不可微的局限，难以支持大规模设计优化。研究团队提出WinDiNet框架，将LTX-Video视频扩散模型重构为微分物理仿真器，通过RGB通道编码风速场并引入散度与墙面防穿透等硬性物理约束。\n实验数据表明，该模型在不足1秒内即可生成包含112帧的复杂风场序列，推理速度较传统方法提升三个数量级。在核心指标VRMSE上，WinDiNet（0.520）表现优于FNO（0.610）及OFormer（0.585）等主流神经PDE求解器。\n得益于端到端可微特性，该框架支持通过反向传播直接进行建筑布局的梯度优化，为提升城市行人舒适度与安全性提供了高效、严谨的物理仿真决策工具。",
          "cover_url": "assets/covers/p24-windinet-urban-wind-492fed07a7.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-26T17:52:57+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW22_PF_LLM_Hardware_Prefetching",
      "slug": "hw22-pf-llm-hardware-prefetching",
      "detail_url": "papers/hw22-pf-llm-hardware-prefetching/",
      "title": "PF-LLM: Large Language Model Hinted Hardware Prefetching",
      "summary": "PF-LLM tackles a classic microarchitecture bottleneck: hardware prefetchers must decide when and how aggressively to prefetch under extremely tight runtime latency and area constraints. Existing ensemble prefetchers rely on online heuristics and trial-and-error adaptation, which limits their ability to use broader program context and respond well to diverse access patterns.\n\nThe paper’s core idea is to move the hard orchestration decisions out of runtime hardware and into offline LLM analysis. PF-LLM is fine-tuned to read assembly context around load instructions and emit prefetching hints, while a lightweight runtime LMHint Prefetcher consumes those hints inside a prefetcher ensemble. This turns code understanding by a foundation model into a practical microarchitectural control signal.\n\nThis is worth collecting because it is more than a one-off performance tweak. It demonstrates a reusable workflow pattern for AI-guided hardware optimization: use offline learned program analysis to steer a constrained online hardware mechanism. That pattern has spillover beyond prefetching to broader architecture, compiler, and low-level system design questions.\n\nIt is not ranked higher because the contribution is still centered on one subsystem, hardware data prefetching, rather than redefining AI-hardware co-design at a larger scale. The performance gains are meaningful and the method is conceptually fresh, but its immediate scope remains narrower than the strongest route-level hardware papers in the repository.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-03-22",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 521,
      "source_url": "https://fact-lab.hkust.edu.hk/publications/conference-paper/2025/xu-2025-pf-llm/3779212.3790202.pdf",
      "paper_url": "https://fact-lab.hkust.edu.hk/publications/conference-paper/2025/xu-2025-pf-llm/3779212.3790202.pdf",
      "project_urls": [
        "https://fact-lab.hkust.edu.hk/publications/conference-paper/2025/xu-2025-pf-llm/3779212.3790202.pdf"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A68_Library_Theorem_Agentic_Reasoning",
      "slug": "a68-library-theorem-agentic-reasoning",
      "detail_url": "papers/a68-library-theorem-agentic-reasoning/",
      "title": "The Library Theorem: How External Organization Governs Agentic Reasoning Capacity",
      "summary": "这篇论文讨论的不是普通 RAG 效果，而是一个更底层的问题：随着 agent 推理链变长，外部记忆到底该如何组织，才能避免 reasoning cost 被顺序扫描拖垮。作者把 context window 形式化成 I/O page，并把 indexed external memory 作为独立能力对象来分析。\n\n核心贡献是给出顺序扫描与索引检索之间清晰的复杂度分界，并用跨模型实验展示：即便模型理解内容很强，只要检索依赖语言模型自己执行导航协议，就会在规模上失稳；更稳的模式是让模型负责语义建索引，让确定性算法负责索引遍历。\n\n这很符合仓库对 agent memory / capability extension 的高优先级方向。它不是又一个工程技巧，而是把外部组织结构上升为 agent reasoning capacity 的决定因素之一，对后续 memory system 设计有直接方法和系统启发。\n\n它目前仍然不是更高一级，因为实验还集中在受控 lookup setting，虽然结论干净，但距离更复杂真实 agent workloads 的全面验证还有一段距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-22",
      "doi": "",
      "arxiv_id": "2603.21272",
      "collected_at": "",
      "collection_order": 520,
      "source_url": "https://arxiv.org/pdf/2603.21272v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.21272v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R35_LLM_Router_Prefill_Activations",
      "slug": "r35-llm-router-prefill-activations",
      "detail_url": "papers/r35-llm-router-prefill-activations/",
      "title": "LLM Router: Rethinking Routing with Prefill Activations",
      "summary": "multi-model routing 的经典做法通常依赖 query 语义特征，但这类信号往往并不能真正捕捉模型各自的 failure modes，也很难判断某条 query 对某个目标模型究竟是容易还是困难。问题不是 router 有没有语义理解，而是缺少更贴近模型内部可解性与正确率的 routing signal。\n\n论文提出用 prefill activations 做 routing signal，并通过 Encoder-Target Decoupling 将产生信号的 encoder 与被估计正确率的 target model 解耦。这样即便 target 是 closed-source model，也可以用 open-weight encoder 的 prefill activations 来做预测。作者进一步比较 layerwise geometric probes，并引入 SharedTrunkNet，同时预测多个候选模型的 correctness probability。实验显示，这种 mechanistic routing 明显优于纯语义基线，并在成本上显著节省。\n\n这篇工作值得收录，因为它把 routing 从 prompt/semantic heuristics 推进到 activation-based mechanistic signal。对 cost-aware serving、model selection、multi-model orchestration 和 inference control，这是一种有明显长期价值的 routing 视角，而不是单纯再调一个 bandit 参数。\n\n它没有升到更高一级，是因为当前主要价值仍体现在 routing 层优化，尚未证明这种 prefill-activation routing 会成为更广 LLM serving 栈的默认标准接口。它很强，但仍是具体系统层中的重要推进。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-21",
      "doi": "",
      "arxiv_id": "2603.20895",
      "collected_at": "",
      "collection_order": 519,
      "source_url": "https://arxiv.org/pdf/2603.20895.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.20895.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A85_T_MAP_Agent_Red_Teaming",
      "slug": "a85-t-map-agent-red-teaming",
      "detail_url": "papers/a85-t-map-agent-red-teaming/",
      "title": "T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search",
      "summary": "这篇论文针对一个已经变得现实但仍缺少系统方法的问题：传统 LLM 红队主要诱导有害文本输出，却难以覆盖多步工具执行中的 agent 漏洞，尤其是在 MCP 这类快速扩张的工具生态里。仅看单轮文本对齐已经不足以刻画代理系统的真实风险，攻击是否真的通过工具链被执行，才是更关键的安全边界。\n\n论文提出 T-MAP，把红队搜索对象从孤立提示词扩展到执行轨迹，并用 trajectory-aware evolutionary search 自动生成更有效的攻击样本。核心新意不只是 evolutionary search 本身，而是把执行轨迹反馈显式纳入攻击优化目标，使搜索过程直接朝着有害目标的实现率而不是表面越狱率收敛。\n\n它对本仓库的价值在于 agent safety 的方法接口很明确：安全评测不再停留在文本层，而要落到真实 tool-use 轨迹、攻击实现率和跨环境迁移性上。这使它更像一个可复用的 agent 红队范式，而不是又一篇针对单模型的越狱论文。\n\n局限也很清楚：目前证据主要集中在 MCP 风格环境和自动攻击生成流程，还不是统一的 agent 安全理论或通用防御框架。它更像是在现有 agent tool-use 安全问题上建立了高质量攻击基线，因此收为 breakthrough，而不抬到更高等级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-21",
      "doi": "",
      "arxiv_id": "2603.22341",
      "collected_at": "",
      "collection_order": 518,
      "source_url": "https://arxiv.org/pdf/2603.22341.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.22341.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "提取漏洞的成功基因：T-MAP 跨越式诊断机制如何通过演化闭环，攻破大模型智能体的安全护栏",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "t map red teaming llm agents with trajectory aware evolutionary search",
          "description": "随着大模型智能体接入工具调用，安全风险已从单纯的文本生成转向真实的物理与数字执行。传统红队测试仅关注对话输出，难以识别多步工具交互中的深层漏洞。本研究提出的 T-MAP 框架采用轨迹感知演化搜索，利用执行反馈驱动攻击提示词的迭代。其核心机制包括跨越式诊断与工具调用图，能够从成功案例中提取“基因”并规避执行死胡同。实验证明，T-MAP 在 GPT 与 Gemini 等主流模型及邮件、文件系统等真实环境中显著提升了攻击实现率，为自主智能体的安全部署提供了关键的漏洞检测手段。",
          "x_post": "KAIST、UCLA 及 DeepAuto.ai 推出 T-MAP 框架：利用轨迹感知演化搜索提升 LLM 智能体多步执行漏洞检测率\n\n随着 LLM 智能体接入工具调用（MCP），安全风险已从纯文本生成转向具有实质危害的物理与数字执行。传统红队测试因缺乏执行反馈，难以识别多步交互中的深层安全漏洞。\n\nT-MAP 引入“跨越式诊断”与“工具调用图（TCG）”机制，通过分析历史轨迹提取成功特征，引导对抗性提示词进行演化迭代。实验证明，该框架在邮件和文件系统等真实环境下，显著提升了 GPT-5.2 与 Gemini-3-Pro 等前沿模型的攻击实现率（Realized Success）。\n\n研究通过建立从“拒绝响应”到“完全实现”的四级轨迹裁判标准，揭示了自主智能体在现实部署中的复杂风险，为构建更高安全性的智能体系统提供了可核验的检测手段。",
          "cover_url": "assets/covers/a85-t-map-agent-red-teaming-f273546da1.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-03T09:06:25+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A132_AC4A_Agent_Access_Control",
      "slug": "a132-ac4a-agent-access-control",
      "detail_url": "papers/a132-ac4a-agent-access-control/",
      "title": "AC4A: Access Control for Agents",
      "summary": "多数 LLM agent 现在仍然工作在全有或全无的权限模型里：要么拿到完整 API 权限和整页网页内容，要么完全拿不到。随着 agent 更能执行真实任务，这种粗粒度授权会把用户暴露在不必要的能力过度授予之下，也使很多安全控制只能停留在 prompt 约束层。\n\nAC4A 提出面向 agent 的访问控制框架，把 API 资源和网页内容都纳入统一权限模型。它借鉴传统操作系统和文件系统里的 access control 思路，用资源层级、权限声明和运行时权限计算来限制 agent 只能访问任务真正需要的部分。重点不在规定固定权限模板，而在提供一套可扩展、可执行、跨 API 与 browser agent 的权限表达与 enforcement 机制。\n\n这篇工作值得收录，因为它把 agent 安全里一个长期被忽略的结构性问题明确化了：agent 不应默认继承其工具和页面可见范围的全部能力。对真实生产 agent 来说，permissioning 本身就是基础设施，这篇论文提供的是一套可落地的 agent access-control interface，而不是单次案例防御。\n\n它没有升到更高一级，是因为当前验证仍以 case studies 为主，更多展示的是 framework feasibility 与 engineering shape，而不是已经重写整个 agent deployment 生态。它是一篇很对方向的系统论文，但路线影响力还在形成期。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-21",
      "doi": "",
      "arxiv_id": "2603.20933",
      "collected_at": "",
      "collection_order": 517,
      "source_url": "https://arxiv.org/pdf/2603.20933.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.20933.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A150_Agentproof_Workflow_Verification",
      "slug": "a150-agentproof-workflow-verification",
      "detail_url": "papers/a150-agentproof-workflow-verification/",
      "title": "Agentproof: Static Verification of Agent Workflow Graphs",
      "summary": "越来越多 agent framework 会把 tool-using behavior 编码成显式 workflow graphs，但多数安全控制仍发生在 runtime，意味着很多图结构层面的错误只有在坏路径真的被走到时才会暴露。对生产系统而言，这种事后发现成本很高。\n\nAgentproof 的贡献是把主流 framework 暴露出来的 graph structure 变成可统一静态验证的对象。系统先从 LangGraph、CrewAI、AutoGen 和 Google ADK 中抽取抽象图模型，再执行 dead-end、unreachable exit 等结构检查，并把 temporal safety policies 编译成 DFA，通过 graph x DFA product construction 做静态验证，同时也支持运行时 trace 检查。整个流程不要求用户手工写 model checker 级别的建模。\n\n它值得正式收录，因为它为 governed execution 提供了一个更底层、更可复用的 static verification primitive。与 runtime guardrails 相比，它能在部署前发现 topology-level defect 和 policy violation，对 agent workflow engineering 的长期价值明显大于单次 benchmark 分数。\n\n它没有升到更高一级，是因为当前 benchmark 仍是作者构造的小型定向语料，更多证明‘这种验证接口可行且有价值’，还不是对真实生产工作流缺陷分布的大规模刻画。它是很强的基础模式，但尚未成为行业默认标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-20",
      "doi": "",
      "arxiv_id": "2603.20356",
      "collected_at": "",
      "collection_order": 516,
      "source_url": "https://arxiv.org/pdf/2603.20356.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.20356.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "别等AI智能体“撞墙”才报警：Agentproof 静态验证系统，在部署前扫清工作流中的隐性死角",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "agentproof static verification of agent workflow graphs",
          "description": "针对大语言模型驱动的智能体工作流日益复杂导致逻辑死角的问题，Agentproof 提出了一种预部署静态验证方案。该系统能自动从 LangGraph 等框架提取工作流并转化为统一抽象模型，利用时序逻辑检查死循环、不可达出口及缺失人工干预等拓扑缺陷。相比传统运行时监控，它无需执行代码即可覆盖所有潜在路径，在处理包含数千节点的复杂图表时仍保持亚秒级验证速度，为自主系统的可靠性提供了有效保障。",
          "x_post": "瑞典吕勒奥理工大学开发 Agentproof 静态验证系统，实现 5000 节点规模下 AI 智能体工作流的亚秒级安全校验。\n\n当前 AI Agent 开发正从单一指令转向复杂的网络工作流，传统运行时护栏存在延迟负担且难以覆盖未触发的隐性路径。Agentproof 提出一种预部署静态验证方案，通过自动从 LangGraph、AutoGen 等框架提取拓扑结构并转化为统一抽象模型，利用时序逻辑（LTL）检查死循环、不可达出口及缺失人工干预等结构缺陷。\n\n实验数据表明，该系统无需执行代码即可覆盖全量潜在执行路径；在处理包含数千节点的大型图表时，验证过程仍能保持亚秒级的高效性能。这为复杂自主系统的可靠性提供了自动化保障，能在部署前有效识别开发者难以察觉的拓扑风险与逻辑死角。",
          "cover_url": "assets/covers/a150-agentproof-workflow-verification-a23da2e205.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-05T17:50:53+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A140_EO_Crisis_Response_Agents",
      "slug": "a140-eo-crisis-response-agents",
      "detail_url": "papers/a140-eo-crisis-response-agents/",
      "title": "Beyond detection: cooperative multi-agent reasoning for rapid onboard EO crisis response",
      "summary": "地面中心的 Earth Observation 危机响应流程长期受制于下行链路、跨模态融合延迟和全场景穷举分析的算力开销，这让真正需要分钟级反应的灾害监测很难做到快速闭环。单一模型直接扫完整场景也不适合卫星边缘计算平台的带宽与功耗约束。\n\n这篇工作提出分层的 cooperative multi-agent 架构：Early Warning agent 先在板上快速提出事件假设，再按需激活 domain-specific analysis agents，最后由 Decision agent 聚合多模态证据并生成最终告警。关键新意不只是把多个模型串起来，而是把 routing、角色分工和事件驱动推理做成适合 onboard EO 的结构化决策流水线。\n\n它值得收录，因为这是 agentic reasoning 在资源受限感知系统里的一个耐久系统模式：先做低成本假设生成，再做按需深分析，再做集中裁决。这个思路对卫星星座、无人机群、边缘灾害感知和其他带宽受限的多节点自治系统都有直接外溢。\n\n这篇论文目前仍是 wildfire 和 flood 场景上的 proof-of-concept，验证范围相对集中，离更高一级所要求的跨任务普适性和大规模部署证据还有距离。因此适合给到 breakthrough，而不是更高。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-20",
      "doi": "",
      "arxiv_id": "2603.19858",
      "collected_at": "",
      "collection_order": 515,
      "source_url": "https://arxiv.org/pdf/2603.19858v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.19858v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL9_RLT_Precise_Manipulation",
      "slug": "rl9-rlt-precise-manipulation",
      "detail_url": "papers/rl9-rlt-precise-manipulation/",
      "title": "Precise Manipulation with Efficient Online RL",
      "summary": "这篇工作聚焦于机器人操作中最难、也最容易被通用模型忽视的一类问题：关键接触瞬间的亚毫米级精度操作。对于许多真实任务，广义 VLA 模型已经能完成大部分宏观步骤，但最后毫米级的插接、对准和施力阶段仍然是失败瓶颈。作者因此不再追求整任务端到端大规模改进，而是专门面向这些 critical phases 做高效在线强化学习。\n\n核心方法是 RLT，也就是 RL Tokens。作者先让预训练 VLA 产出一个紧凑的 RL token，作为其内部状态的压缩接口，再用这个 token 驱动一个很小的 actor 和 critic 做高频在线 RL 更新，而无需微调整个 VLA。这样一来，在线策略既能利用大模型内部表征，又能在机器人上以很高频率快速学习；同时策略是对 VLA 原有 action chunk 的编辑，而不是从零接管动作空间。\n\n这篇工作值得正式收录，因为它给出了一种很清楚的 robot foundation model adaptation pattern：冻结大模型主体，通过紧凑接口连接小型在线 RL 模块，在极少真实数据下快速提升最关键的精密操作阶段。官方结果也足够硬：四个高精度任务里关键阶段效率最高提升三倍，最少十五分钟真实数据即可得到显著改进，在以太网插接上还超过了人类遥操作速度。\n\n它目前适合定为 breakthrough，而不是更高一级。原因是这还是一份公司技术报告，任务范围集中在精密装配类 manipulation 上。方法路线很强，但是否能成为更广泛机器人在线适应的默认接口，还需要更多社区验证和不同平台复现。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-19",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 514,
      "source_url": "https://www.pi.website/download/rlt.pdf",
      "paper_url": "https://www.pi.website/download/rlt.pdf",
      "project_urls": [
        "https://www.pi.website/download/rlt.pdf"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "挑战亚毫米级精密操作：Pi 团队发布 RL Token，让机器人几分钟学会“拧螺丝”",
          "url": "https://www.bilibili.com/video/BV1Rg5E6EEoY",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Rg5E6EEoY",
            "https://youtu.be/5ty49OXIJOM"
          ],
          "main_collection": "机器人与具身智能",
          "match": "precise manipulation with efficient online rl",
          "description": "Physical Intelligence (Pi) 团队针对机器人精密操作领域提出创新方案。传统视觉-语言-动作（VLA）大模型在识别宏观场景时表现优异，但在拧螺丝、插线等亚毫米级任务中往往因精度不足而失败，且在线微调全量参数的算力成本极高。该研究引入了名为 RL Token 的轻量级接口，通过 Encoder-Decoder 架构将大模型高维特征极限压缩，并外挂专门负责高频控制的“小脑”网络。实验显示，机器人仅需 5-15 分钟的在线纠错数据，即可显著提升任务成功率，操作速度甚至反超人类示教。这种方案为大模型跨越“最后一毫米”精密鸿沟提供了高效路径。",
          "x_post": "Pi 团队发布 RL Token：利用轻量化接口实现亚毫米级机器人微操，5-15 分钟即可完成在线进化\n\n通用视觉-语言-动作模型（VLA）虽具备宏观感知能力，但在处理拧螺丝、插线等亚毫米级高精度任务时，常因无法实时微调数十亿参数而面临控制瓶颈。Physical Intelligence 团队提出 RL Token (RLT) 框架，通过冻结 VLA 主脑并嵌入轻量化 Transformer 接口，将 2048 维高维特征压缩为核心操作直觉，直接驱动高频 Actor-Critic 网络。\n\n该方案结合 50Hz 动作分块（Action Chunking）技术，实验数据表明机器人仅需 5 至 15 分钟的在线纠错训练，其操作速度与成功率即可达到甚至超越人类示教水平。RLT 为大模型在真实场景中跨越“最后一毫米”精密鸿沟提供了低算力、高效率的技术路径。",
          "cover_url": "assets/covers/rl9-rlt-precise-manipulation-d436e3a53f.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-07T16:21:35+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R49_Learning_to_Self_Evolve",
      "slug": "r49-learning-to-self-evolve",
      "detail_url": "papers/r49-learning-to-self-evolve/",
      "title": "Learning to Self-Evolve",
      "summary": "很多 test-time self-evolution 工作默认假设模型天然会根据反馈改写自身上下文，但实际上大多数方法只是把更强模型或更复杂搜索包在外层，并没有显式训练“如何根据反馈进化上下文”这项能力。\n\n这篇工作的核心推进，是把 self-evolution 本身重写成可学习的 RL 目标：每次上下文编辑都按下游性能改善来奖励，并配合 tree-guided evolution loop，让模型直接学会怎样在测试时持续重写自己的上下文，而不是只依赖底座模型的静态推理能力。\n\n它值得正式收录，因为它把 test-time adaptation 从“外部 prompt 优化技巧”推进成“可训练技能”。这对 deployment-time learning、context editing、small-model self-improvement 和 agentic adaptation 都有明显方法外溢，尤其契合本仓库对 test-time learning / self-improving agents 的主线。\n\n它暂时不升到更高一级，原因在于当前验证仍集中在 Text-to-SQL 和 general QA 等少数任务，长期稳定性、跨模态泛化和更复杂 agent workflows 上的耐久价值还需要进一步证明。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-19",
      "doi": "",
      "arxiv_id": "2603.18620",
      "collected_at": "",
      "collection_order": 513,
      "source_url": "https://arxiv.org/pdf/2603.18620.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.18620.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "40亿参数性能反超顶级模型：LSE框架通过增量奖励机制，让小模型实现专家级进化",
          "url": "https://www.bilibili.com/video/BV1JeDCB2Ehn",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1JeDCB2Ehn",
            "https://youtu.be/NareVOyehgA"
          ],
          "main_collection": "机器人与具身智能",
          "match": "learning to self evolve",
          "description": "当前大语言模型普遍面临知识冻结和经验丢失的“静态出厂”瓶颈。本研究介绍LSE（学习自进化）强化学习框架，该框架将复杂的自我改进过程简化为单步强化学习目标，显式训练模型掌握进化技能。技术核心在于采用树状引导搜索平衡探索与利用，并引入基于增量（Delta）的奖励机制，仅对真实的性能进步给予正向反馈，有效避免了传统绝对分值奖励导致的优化陷阱。实验证明，经LSE训练的4B参数模型在SQL生成等任务上性能超越了顶级闭源模型，且具备跨模型迁移能力。这为构建能够动态适应环境、具备自我迭代能力的智能系统提供了实证支持与技术路径。",
          "x_post": "LSE框架实现4B模型自我进化：性能超越顶级闭源模型且具备6.7%跨模型迁移增益\n针对大语言模型知识冻结与经验丢失的“静态出厂”瓶颈，研究提出Learning to Self-Evolve (LSE) 强化学习框架。该方法将多步进化过程简化为单步强化学习目标，显式训练模型掌握自我改进技能。技术核心在于采用树状引导搜索平衡探索与利用，并引入基于增量（Delta）的奖励机制，仅对真实的性能进步给予正向反馈，有效避免了传统绝对分值奖励导致的优化陷阱。实验数据表明，经LSE训练的4B参数模型在SQL生成等任务上性能优于顶级闭源模型，并在无需额外训练的情况下使其他模型准确率提升6.7%。该工作证实了自我进化作为一种可学习技能的潜力，为构建动态适应环境的智能系统提供了技术路径。",
          "cover_url": "assets/covers/r49-learning-to-self-evolve-f86a247563.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-10T23:12:01+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A76_ProRL_Agent_Rollout_Service",
      "slug": "a76-prorl-agent-rollout-service",
      "detail_url": "papers/a76-prorl-agent-rollout-service/",
      "title": "ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents",
      "summary": "多轮 LLM agent 的 RL 训练正在从单轮问答转向长轨迹、强环境交互的任务，但真正拖慢系统的常常不是 PPO 或 GRPO 本身，而是 rollout 这一侧：要管理沙箱环境、工具调用、异步反馈和不同任务的执行时延。现有框架往往把 rollout 生命周期直接嵌在 trainer 里，结果是训练侧和执行侧的系统边界被揉在一起，迁移、扩展和维护都变得很重。\n\nProRL Agent 的核心贡献是把这一部分明确抽成独立服务，提出 rollout-as-a-service 的训练架构。trainer 不再自己管理 agent 执行，而是通过统一 HTTP 接口提交请求并取回 trajectory 与 reward；服务端则负责环境初始化、工具执行、推理协调和结果评估。论文还补上了几个关键工程接口：token-in/token-out 避免重分词漂移，可扩展的 sandbox 统一承载异构 agent 任务，以及 rootless HPC 部署能力，保证它能在共享集群环境下落地。\n\n这篇工作值得正式收录，因为它给出的不是一次性的 NeMo 组件封装，而是 agentic RL 训练基础设施的一条清晰系统分层：训练器负责优化，rollout 服务负责执行。这个边界对多任务 agent RL、可插拔训练后端、以及需要频繁更换环境与工具链的研究流程都有明显复用价值。它和已经收录的 ARL-Tangram 也不重复，后者重在 action-level 资源调度，ProRL Agent 重在把 rollout 生命周期从 trainer 中系统性解耦。\n\n它目前仍是 breakthrough，而不是更高一级，因为证据主要集中在与 ProRL training framework 的整合和一组 agentic 任务验证，还没有证明 rollout-as-a-service 已经成为更广泛 agent post-training 生态的默认接口。它的思想很对，但长期通用性、跨框架采纳和更复杂企业级 workflow 支撑还需要更多公开验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-19",
      "doi": "",
      "arxiv_id": "2603.18815",
      "collected_at": "",
      "collection_order": 512,
      "source_url": "https://arxiv.org/pdf/2603.18815.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.18815.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决多轮智能体训练的I/O瓶颈：NVIDIA发布ProRL架构，通过推演解耦实现强化学习性能飞跃",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "prorl agent rollout as a service for rl training of multi turn llm agents",
          "description": "针对多轮大模型智能体在强化学习训练中面临的I/O密集型采样瓶颈，NVIDIA推出了ProRL架构。该架构核心在于“推演即服务”理念，将耗费资源的采样环节与GPU策略更新彻底解耦。ProRL通过高性能HTTP接口管理沙盒环境，利用Singularity容器技术实现了高性能计算集群下的无特权部署。技术细节包括极速Bash后端、原生IPython直连及异步三阶段流水线，有效解决了Token漂移与并发延迟问题。实验证明，该框架在软件工程、编程及数学等复杂任务中显著提升了模型性能与扩展效率，目前已集成至NVIDIA NeMo Gym。",
          "x_post": "NVIDIA发布ProRL架构：通过“推演即服务”解耦多轮智能体强化学习训练，解决I/O瓶颈。\n在多轮LLM智能体训练中，环境交互产生的I/O密集型采样常导致GPU算力闲置。ProRL Agent框架将采样环节与模型训练彻底解耦，通过独立HTTP接口管理沙盒环境。技术上，该架构利用Singularity容器支持HPC集群无特权部署，并采用异步三阶段流水线实现初始化、执行与评估的计算重叠，有效消除了Token漂移与并发延迟。实验表明，ProRL在软件工程、编程及数学等复杂任务中显著提升了模型性能与扩展效率。该项目现已集成至NVIDIA NeMo Gym。",
          "cover_url": "assets/covers/a76-prorl-agent-rollout-service-6b0df88e06.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-28T23:12:26+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A65_Hyperagents",
      "slug": "a65-hyperagents",
      "detail_url": "papers/a65-hyperagents/",
      "title": "Hyperagents",
      "summary": "这篇论文针对 self-improving AI systems 的一个根本限制：现有方法虽然强调自我改进，但元层机制往往仍是人工写死的，系统只能在固定的自改进框架里搜索更好的策略。Darwin Gödel Machine 已经展示了 coding 领域中的开放式自改进，但它依赖一个特殊前提，即“做任务”和“改进自己”都可以统一成代码修改任务，因此任务能力提升天然能反馈到自改进能力上。这个前提在更一般的领域里并不成立。\n\nHyperagents 的核心贡献，是把 task agent 和 meta agent 融合进一个统一的可编辑程序里，让系统不仅能改进完成任务的行为，也能直接改写生成未来改进的元程序。作者把这种框架实例化为 DGM-Hyperagents（DGM-H），核心点在于 meta-level modification procedure 本身也是可编辑对象，因此系统具备 metacognitive self-modification 能力，而不是停留在固定的 search loop。论文还强调，这种改进会积累成跨任务、跨运行可迁移的元层资产，例如更好的 persistent memory 和 performance tracking。\n\n这项工作值得正式收录，因为它把 self-improvement 从“搜索更好解”推进到“搜索如何更好地搜索如何改进自己”，直接触及 agent systems 里最重要也最难的开放式能力增长问题。它不是普通 multi-agent orchestration，也不是简单反思式 agent，而是明确提出一个更通用的自指代理框架，试图去掉 coding-only alignment 的前提。对仓库主线而言，它和 agent memory、capability acquisition、research agents、deployment-time self-improvement 都直接相关。\n\n它暂时还不到更高一级，原因是当前证据主要仍来自 arXiv 首版和作者构造的对比体系，距离真正证明这是通用 self-improving agent 的默认蓝图还有距离。它的概念很强，但能否在更多真实任务、长期运行和更开放环境里持续兑现自加速改进，还需要后续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-19",
      "doi": "",
      "arxiv_id": "2603.19461",
      "collected_at": "",
      "collection_order": 511,
      "source_url": "https://arxiv.org/pdf/2603.19461v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.19461v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "迈向通用自主进化体系：HyperAgents在多领域实现跨界对齐，以开放式归档加速科学发现",
          "url": "https://www.bilibili.com/video/BV1D2XJBTELp",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1D2XJBTELp",
            "https://youtu.be/5lCM2w6bbcc"
          ],
          "main_collection": "AI智能体",
          "match": "hyperagents",
          "description": "当前AI系统的进化受限于固定的元代理设计，导致优化空间被锁死且难以跨领域迁移。本视频介绍的DGM-Hyperagents (DGM-H) 框架，通过将执行任务的代理与负责修改自身的元代理整合为单一的可编辑程序，实现了元认知自我修复。该系统基于图灵完备的架构，允许AI在运行过程中通过内外循环机制审视并重写自身的修改逻辑。实验证据表明，DGM-H在机器人设计、数学评分及论文评审等多种可计算任务中表现优异，并通过开放式归档机制保留成功变体，实现了自主递归提升。研究展示了系统如何突破层级回归限制，为构建通用自主进化体系提供了技术边界内的有效路径。",
          "x_post": "Meta 与 UBC 等机构发布 DGM-Hyperagents：通过元认知自我修改在四大领域实现 AI 自主进化\n针对传统 AI 系统因固定元代理导致优化空间受限的问题，DGM-H 将任务代理与元代理整合为单一可编辑程序。\n该架构基于图灵完备的 Python 环境，通过内外循环机制实现了元认知自我修复，允许代理自主重写其修改逻辑。\n实验在编程、论文评审、机器人设计及数学评分四大领域验证了系统的跨界演进能力与性能累积效应。\n研究通过开放式归档机制保留成功变体，为构建具备自主递归提升能力的通用 AI 体系提供了技术路径。",
          "cover_url": "assets/covers/a65-hyperagents-551bd0704b.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T20:23:54+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A187_Multi_User_LLM_Agents",
      "slug": "a187-multi-user-llm-agents",
      "detail_url": "papers/a187-multi-user-llm-agents/",
      "title": "Multi-User Large Language Model Agents",
      "summary": "这篇论文指出当前 LLM agent 默认服务单一用户或单一 principal，但真实组织和团队工具中，一个 agent 经常同时服务多个用户，且这些用户具有不同角色、偏好、权限和隐私边界。多用户场景天然带来目标冲突、信息不对称和协调成本，是单用户 instruction following 无法覆盖的系统问题。\n\n论文把多用户 LLM agent 形式化为 multi-principal decision problem，并提出统一的多用户交互协议与三个压力测试场景，分别考察模型在冲突指令优先级、隐私保持和协作协调中的表现。结果显示前沿模型在多轮交互中会出现优先级漂移、隐私泄露增加和低效信息收集。\n\n它值得收录，是因为它为 agent 从个人助手走向组织级协作系统提供了基础问题定义和评测接口，与 ManyIH 的权限层级问题互补：ManyIH 关注指令权限解析，本论文关注多 principal 的效用、隐私和协调。它对企业 agent、团队工作流 agent 和共享工具代理具有直接设计意义。\n\n局限在于它主要是问题形式化和压力测试，尚未给出稳定的训练/协议解决方案；多用户效用函数如何定义、审计和落地仍是开放问题。因此它是 agent 评测与系统 framing 的突破性补录，而不是完整解决方案。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-19",
      "doi": "",
      "arxiv_id": "2604.08567",
      "collected_at": "",
      "collection_order": 510,
      "source_url": "https://arxiv.org/pdf/2604.08567.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.08567.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/Korde-AI/Multi-User-LLM-Agent"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A107_MemMA_Memory_Cycle",
      "slug": "a107-memma-memory-cycle",
      "detail_url": "papers/a107-memma-memory-cycle/",
      "title": "MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution",
      "summary": "很多 memory-augmented LLM agent 把 memory construction、retrieval 和 utilization 视为分离模块：前面按局部启发式抽记忆，后面按相似度检索，真正回答失败后又很难把错误直接反馈回 memory 本身。这导致记忆系统在长期运行时既缺少全局策略，也缺少有效的自我修复回路。\n\nMemMA 的核心贡献是把整个 memory cycle 显式协调起来。前向路径上，它用 Meta-Thinker 为 Memory Manager 和 Query Reasoner 提供结构化指导，让记忆构建和检索不再只由局部启发式驱动；反向路径上，它加入 in-situ self-evolving memory construction，通过合成 probe QA、验证当前 memory、再把失败转成修复动作，把 memory bank 的自我更新做成闭环。\n\n这篇工作值得正式收录，因为它推进的不只是 retrieval，而是“memory 如何持续变得更好”这件事。它和仓库里已有的 self-evolving agents、Trace2Skill、MetaClaw 等路线相呼应，但作用点更聚焦在 memory cycle 自身，对长期 agent memory 的设计有明确方法外溢。\n\n它暂时仍是 breakthrough，因为当前结果主要来自 LoCoMo 和 plug-and-play backend 改造，范围还偏 memory 子系统；离成为长期 agent 默认 memory operating loop 还需要更多开放环境和长期生产部署证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-19",
      "doi": "",
      "arxiv_id": "2603.18718",
      "collected_at": "",
      "collection_order": 509,
      "source_url": "https://arxiv.org/pdf/2603.18718.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.18718.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决长周期智能体的逻辑断层难题：MemMA通过多智能体协同重构大模型记忆闭环",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "memma coordinating the memory cycle through multi agent reasoning and in situ self evolution",
          "description": "针对长周期智能体在处理大规模任务时出现的逻辑断层与遗忘问题，本文介绍 MemMA 多智能体协作框架。该研究识别出当前记忆系统存在策略盲区与反馈延迟两大痛点，导致记忆构建过程中频繁出现冲突、冗余与遗漏。MemMA 引入 Meta-Thinker 决策机制，采用规划师与执行者分离的架构，在前向路径通过引导式构建与迭代检索提升记忆质量，在后向路径实现原位自进化修复。实验数据证明，该即插即用框架能显著增强不同底层模型在复杂长周期任务中的记忆准确率与逻辑连贯性，为构建具备持续进化能力的 AI 助手提供了系统性方案。",
          "x_post": "Penn State/Amazon/Microsoft 团队提出 MemMA 框架，通过多智能体协作优化长周期记忆闭环\n针对 LLM 智能体在长周期任务中因“策略盲区”与“反馈延迟”导致的逻辑断层问题，该研究提出了 MemMA 协作框架。核心机制引入了元思考者（Meta-Thinker）作为指挥官，采用规划师-执行者架构，在前向路径实现引导式存储与诊断式迭代检索。在后向路径，系统通过原位自进化机制利用探针问题即时修复记忆冲突与冗余。实验证明，该即插即用框架能显著增强不同底层模型与存储后端的记忆准确率。这种闭环协调设计为构建具备持续进化能力的复杂智能助手提供了系统性方案。",
          "cover_url": "assets/covers/a107-memma-memory-cycle-d422a85831.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-01T04:52:46+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL7_Efficient_Exploration_RLHF",
      "slug": "rl7-efficient-exploration-rlhf",
      "detail_url": "papers/rl7-efficient-exploration-rlhf/",
      "title": "Efficient Exploration at Scale",
      "summary": "这篇论文针对的是 RLHF 中一个长期悬而未决但非常现实的问题：离线式偏好学习虽然有效，却极度耗标签，导致高质量对齐过程越来越像昂贵的数据工程。作者把重点放在在线 RLHF 上，目标不是在固定偏好数据集上继续挤分，而是在真实交互过程中边收选择反馈、边更新奖励模型和语言模型，让探索和学习同步发生，从而显著降低样本需求。\n\n方法上的核心是把 reward uncertainty 建模和 information-directed exploration 明确引入在线 RLHF。系统随着 choice data 到来增量更新 reward model，并用其提供的强化信号更新语言模型；同时通过 epistemic neural network 表征奖励不确定性，再结合 information-directed exploration 决定该探索哪里。作者还加入一个小的 affirmative nudge 来稳定强化信号，使在线学习过程在数据效率和训练稳定性上都更可用。\n\n这篇工作值得正式收录，因为它不是普通的 RLHF 配方小修补，而是把在线对齐、奖励不确定性建模和高效探索系统地连成了一条可复用路线。论文给出的结果也有明确说服力：在 Gemma 大模型上，用不到 2 万个 labels 达到离线 RLHF 20 万 labels 的水平，体现出 10 倍以上的数据效率提升。对对齐、主动学习式偏好优化和可持续数据闭环都有直接外溢。\n\n它目前适合定为 breakthrough，而不是更高一级。原因是这仍是一篇预印本，且主要证据集中在作者给定的实验设置与模型家族上。信息导向探索在 RL 与 bandit 里有成熟思想基础，这篇论文的价值更像是把这些思想强有力地带入 RLHF 并做出规模化验证，而不是独立开辟一条全新理论主线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-18",
      "doi": "",
      "arxiv_id": "2603.17378",
      "collected_at": "",
      "collection_order": 508,
      "source_url": "https://arxiv.org/pdf/2603.17378v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.17378v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "DeepMind 重塑大模型扩展定律：1000 倍数据效率算法解决标注瓶颈，Gemma 9B 实现性能飞跃",
          "url": "https://www.bilibili.com/video/BV1Gz5J6EEED",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Gz5J6EEED",
            "https://youtu.be/lU7kSRnFXm8"
          ],
          "main_collection": "AI安全与对齐",
          "match": "efficient exploration at scale",
          "description": "Google DeepMind 团队针对大模型对齐中人类标注成本高昂的瓶颈，提出了一种全新的在线强化学习算法。该研究核心在于引入认知神经网络与信息定向探索机制，配合“肯定性微调”技术，有效解决了在线学习中常见的性能崩溃问题。实验证明，该方法在 Gemma 9B 模型上仅需 2 万条数据即可匹配传统方法 20 万条的效果，效率提升达 10 倍以上，且具备千倍扩展潜力。这一成果大幅降低了对高质量人类反馈的依赖，使模型能更省时、更精准地完成对齐，为构建高效的人工智能提供了关键路径。",
          "x_post": "Google DeepMind 发布高效探索算法，Gemma 9B 验证 1000 倍数据效率潜力\n针对大模型对齐（RLHF）中高质量人类标注成本高昂的瓶颈，研究提出一种全新的在线强化学习框架。\n该方法引入认知神经网络（ENN）量化不确定性，结合信息定向探索机制筛选高信息量对比数据，并利用“肯定性微调”防止在线更新中的性能衰退。\n实验数据显示，在 Gemma 9B 模型上，该算法仅需 2 万条数据即可匹配传统离线方法 20 万条的效果，实现 10 倍以上的即时效率提升。\n研究证明通过优化探索策略，可在大幅减少人类反馈依赖的同时维持模型性能平稳增长，为高效对齐提供了关键技术路径。",
          "cover_url": "assets/covers/rl7-efficient-exploration-rlhf-fa4d1a1b70.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-10T21:14:31+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL39_GigaWorld_Policy",
      "slug": "rl39-gigaworld-policy",
      "detail_url": "papers/rl39-gigaworld-policy/",
      "title": "GigaWorld-Policy: An Efficient Action-Centered World--Action Model",
      "summary": "这篇论文处理的是视频生成式 world-action model 在机器人策略学习中的部署瓶颈。已有 WAM 借用视频生成 backbone 同时推理未来视觉动态和动作，但这种联合建模在执行时很慢，而且动作质量会被未来视频预测质量拖累，不适合低延迟真实机器人控制。\n\nGigaWorld-Policy 将 WAM 改造成 action-centered 结构：训练时仍利用未来视频生成作为视觉动态约束，但执行时主要直接解码未来动作序列，视频生成变成可选辅助分支。模型通过动作预测和视频生成的耦合监督学习 2D pixel-action dynamics，让策略利用视觉动态知识，却不必在部署时完整 rollout 视频。\n\n它值得收录，因为它提供了一个对机器人 world model 很实用的解耦模式：训练阶段用 generative dynamics 丰富动作学习，推理阶段把控制路径压缩成直接 action decoding。论文报告相比 Motus 等 WAM 在推理速度上约 9x 提升，同时提高任务成功率，这对真实机器人部署和 action-conditioned world model 设计都有复用价值。\n\n它不是更高一级，因为当前证据主要集中在特定仿真和真实机器人任务，方法是否能扩展到更复杂接触、多机器人协作、长时程规划和不同机器人形态仍需验证；视觉生成分支带来的物理一致性约束也可能依赖数据和 backbone 质量。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-18",
      "doi": "",
      "arxiv_id": "2603.17240",
      "collected_at": "",
      "collection_order": 507,
      "source_url": "https://arxiv.org/pdf/2603.17240.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.17240.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL29_PIER_Maritime_Routing",
      "slug": "rl29-pier-maritime-routing",
      "detail_url": "papers/rl29-pier-maritime-routing/",
      "title": "Physics-informed offline reinforcement learning eliminates catastrophic fuel waste in maritime routing",
      "summary": "航运路径优化长期依赖启发式方法或高度依赖天气预报的路径搜索，这会在极端条件下带来巨大的燃料浪费和运营风险。真正难的不是把平均指标再抬一点，而是把 catastrophic failures 压下去。\n\nPIER 提出一套 physics-informed offline RL 流程：用历史 AIS 航迹和海洋再分析数据构建校准环境，用 demonstration-augmented offline data 训练策略，再用 decoupled post-hoc safety shield 做约束。关键点在于它不依赖在线模拟器，也不依赖脆弱的全局预报条件，而是把物理先验、离线学习和安全后处理组合成了一条完整工作流。\n\n这篇论文值得收录，因为它展示了一个可复用的范式：在高代价、强物理约束、不能随便在线试错的运营系统里，如何做 physics-informed offline control。作者也明确指出其结构可迁移到 wildfire evacuation、aircraft trajectory optimization 和未建图地形导航，这种外溢价值明显超过单一航运任务。\n\n现阶段验证仍集中在 Gulf of Mexico 七条航线和一年的 AIS 数据上，跨区域与跨系统泛化还需要更广证据。它已经是很强的方法论文，但还不足以升到 disruptive。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-18",
      "doi": "",
      "arxiv_id": "2603.17319",
      "collected_at": "",
      "collection_order": 506,
      "source_url": "https://arxiv.org/pdf/2603.17319v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.17319v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM29_MolmoPoint_Grounding_Tokens",
      "slug": "mm29-molmopoint-grounding-tokens",
      "detail_url": "papers/mm29-molmopoint-grounding-tokens/",
      "title": "MolmoPoint: Better Pointing for VLMs with Grounding Tokens",
      "summary": "视觉语言模型里的 grounding 已经变成很多系统能力的基础层，但多数模型仍把 pointing 当作文本坐标生成问题来做。这种做法既难学，又会引入高 token 开销和明显的坐标表示误差，在 GUI 操作、视频跟踪和机器人交互里都容易成为瓶颈。\n\nMolmoPoint 的核心改动是把 pointing 从坐标文本生成改成 grounding tokens 选择视觉 token。模型依次生成 patch、subpatch 和 location 三类特殊 token，直接在图像或视频 token 上做选择，并配合顺序化多点生成、相对位置编码和 no-more-points 类别，让 pointing 过程更接近模型原生的视觉选择而不是外部坐标回归。\n\n这篇论文值得正式收录，因为它提供了一个可复用的多模态 pointing interface，而不是只在某个 GUI benchmark 上提分。同一套接口同时覆盖图像 pointing、GUI grounding、视频 pointing 和 tracking，并且对机器人抓取与视觉规划也有明显外溢，属于 multimodal grounding 层的耐用方法条目。\n\n它暂时不再升一级，因为当前最强证据仍集中在 pointing 与 grounding 子任务。这还不是完整的 GUI automation 或 embodied agent 系统，更多是在为这些系统提供更稳的感知与定位模块，因此定位为 breakthrough 更合适。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-18",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 505,
      "source_url": "https://allenai.org/papers/molmopoint",
      "paper_url": "https://allenai.org/papers/molmopoint",
      "project_urls": [
        "https://allenai.org/papers/molmopoint"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "I12_Verbal_Confidence_Computation",
      "slug": "i12-verbal-confidence-computation",
      "detail_url": "papers/i12-verbal-confidence-computation/",
      "title": "How do LLMs Compute Verbal Confidence",
      "summary": "这篇论文研究的是一个很基础但此前机制上并不清楚的问题：当大语言模型说出“我有 90% 把握”这类 verbal confidence 时，它内部到底是何时、如何形成这个判断的。围绕这个问题，作者试图区分两种可能：模型是在最后被问到时即时计算置信度，还是在生成答案过程中已经自动形成并缓存下来。\n\n论文综合使用 activation steering、patching、noising、swapping 和 attention blocking 等机制可解释性工具，在 Gemma 3 27B 和 Qwen 2.5 7B 上给出了一致证据，支持 cached retrieval 假说。核心结论是：与置信度相关的表征会在答案生成完成后先出现在答案后的关键位置，再被路由到 verbalization site。更重要的是，这种表征所解释的方差显著超出 token log-probabilities，本质上更接近一种对问答质量的二阶评估，而不是简单的生成流畅度读数。\n\n这篇工作值得正式收录，因为它不是普通 interpretability 可视化，而是对一个广泛使用的模型能力给出了较扎实的因果机制解释。它对 calibration、uncertainty extraction、LLM metacognition 和机制可解释性研究都有明确外溢，属于重要活跃方向上的高价值机制澄清。\n\n它目前适合定为 breakthrough，而不是更高一级。原因是尽管证据很漂亮，但任务主要集中在知识问答和 verbal confidence setting 上，机制是否在更复杂推理、长链条 CoT 和多模态自信度表达中完全成立，还需要更广泛的验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-03-18",
      "doi": "",
      "arxiv_id": "2603.17839",
      "collected_at": "",
      "collection_order": 504,
      "source_url": "https://arxiv.org/pdf/2603.17839v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.17839v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "DeepMind揭秘AI到底懂不懂自己：在开口前已算好置信度，Gemma 3证实潜意识缓存存在",
          "url": "https://www.bilibili.com/video/BV1YEdTBUE1t",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1YEdTBUE1t",
            "https://youtu.be/ETtTshKoPPI"
          ],
          "main_collection": "AI安全与对齐",
          "match": "how do llms compute verbal confidence",
          "description": "Google DeepMind 团队在 AI 元认知领域取得关键突破，深入探究大语言模型是否真正理解自身回答的准确性。通过对 Gemma 3 和 Qwen 2.5 的内部激活轨迹进行追踪，研究者发现模型并非在被询问时才临时计算信心，而是存在一种“潜意识缓存”机制。实验证据显示，置信度信号在输出结果前的换行符节点就已提前形成。这意味着 AI 具备独立于生成流利度之外的深度自我评估能力，能够更早地识别潜在错误，为从底层理解并拦截 AI 幻觉提供了重要的技术依据。",
          "x_post": "Google DeepMind 揭示 LLM 言语置信度生成机制：Gemma 3 证实置信度信号在输出前已完成“潜意识缓存”。\n研究探讨大语言模型如何生成言语信心指数，通过对 Gemma 3 (27B) 与 Qwen 2.5 (7B) 的内部激活轨迹进行追踪，分析模型在生成答案时的元认知过程。\n实验通过思维注入与消融证明，置信度信号并非在询问时临时计算，而是在答案后的换行符（PANL Token）节点处已提前形成并缓存。数据显示，Gemma 3 的 AUROC 达 0.71，相关信号在第 22 层左右即出现显著波峰。\n这一结果证实了模型具备独立于生成流利度之外的深度自我评估能力，特定的神经网络枢纽负责置信度的聚合与传递，为从底层拦截 AI 幻觉提供了可核验的技术依据。",
          "cover_url": "assets/covers/i12-verbal-confidence-computation-887bd49240.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-07T16:00:05+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A55_Kumiho_Graph_Native_Memory",
      "slug": "a55-kumiho-graph-native-memory",
      "detail_url": "papers/a55-kumiho-graph-native-memory/",
      "title": "Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures",
      "summary": "这篇论文解决的是 agent memory 领域一个长期存在的问题：很多系统会堆外部记忆组件，但缺乏清晰的版本语义、信念更新原则和稳定的长期知识结构。它符合仓库新扩展的 agent memory 范围，而且相比一般 memory system 论文更重视形式化与架构一致性。\n\n作者提出 Kumiho，把图原生版本化记忆、工作记忆/长期记忆双存储、全文与向量混合检索，以及 prospective indexing 等机制统一起来，并明确把这一体系和 AGM belief revision 对应起来。它的贡献不只是“存更多记忆”，而是试图给 agent memory 提供可解释、可演化的操作语义。\n\n它值得正式收录，是因为 agent memory 现在很热，但真正同时兼顾形式化 grounding、工程架构和基准表现的条目不多。Kumiho 至少提供了一个比较像长期参考点的 memory architecture 方案，对 versioned memory、belief revision 和 agent asset management 的结合有明显方法价值。\n\n它没有升到更高等级，是因为虽然形式化部分很强，但生态还早，评测和采用范围仍有限，还不足以证明自己会成为 agent memory 的事实标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-18",
      "doi": "",
      "arxiv_id": "2603.17244",
      "collected_at": "",
      "collection_order": 503,
      "source_url": "https://arxiv.org/pdf/2603.17244.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.17244.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "Kumiho发布图原生认知内存，将AI记忆精准度升至93.3%并实现逻辑纠错",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "graph native cognitive memory for ai agents formal belief revision semantics for versioned memory architectures",
          "description": "Kumiho 团队针对 AI 智能体长期记忆缺失的问题，推出了具备形式化信念修正语义的图原生认知内存架构。传统大模型依靠上下文窗口存在成本高昂、无法持久化以及难以逻辑自洽等缺陷。该系统通过 Redis 与 Neo4j 构建仿生双层存储，结合 AGM 理论实现记忆的版本追踪与逻辑纠错，并利用通用寻址协议与双路混合检索精准定位信息。实测显示，该架构将记忆召回精准度提升至 93.3%，在处理隐式约束召回时显著优于传统方案。这标志着 AI 从简单的对话工具向具备专业资产管理能力的“数字员工”转型，为解决大模型幻觉并实现可靠的任务溯源提供了底层支撑。",
          "x_post": "Kumiho发布图原生认知内存，将AI记忆精准度升至93.3%并实现逻辑纠错\n\n传统大模型上下文窗口面临高成本、非持久化及逻辑自省缺失等局限，难以支撑复杂多智能体协作。Kumiho 提出一种图原生架构，采用 Redis 与 Neo4j 构建仿生双层存储，结合 AGM 理论实现版本化信念修正语义。系统通过 kref 协议进行通用寻址，利用双路混合检索及六类关系边追踪认知演变。实验数据显示，该架构在处理隐式约束召回时的精准度达到 93.3%，显著优于传统方案。此研究将 AI 记忆转化为可审计的数字资产，为解决模型幻觉与任务溯源提供了形式化支撑。",
          "cover_url": "assets/covers/a55-kumiho-graph-native-memory-d1cf90729a.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-24T09:48:55+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A151_TDAD_Test_Driven_Agentic_Development",
      "slug": "a151-tdad-test-driven-agentic-development",
      "detail_url": "papers/a151-tdad-test-driven-agentic-development/",
      "title": "TDAD: Test-Driven Agentic Development - Reducing Code Regressions in AI Coding Agents via Graph-Based Impact Analysis",
      "summary": "AI coding agents 在真实仓库里的一个核心问题不是‘能不能修好 issue’，而是修完后会不会悄悄打断原本通过的测试。现有 benchmark 往往只看 resolution rate，很少把 regression behavior 当作一等对象来建模和控制。\n\nTDAD 的关键贡献，是把 pre-change impact analysis 做成 coding agent 可以直接查询的轻量技能层。它先建立 source code 与 tests 的 dependency map，再在 agent 提交补丁前告诉它哪些测试必须验证，并让 agent 基于这些 targeted checks 自我修正。论文还明确比较了仅给程序性 TDD 指令和真正给 targeted test context 的差异，证明后者更有效。\n\n它值得正式收录，因为这不是又一篇‘更强 coding agent’论文，而是给 coding-agent workflow 提供了一个 durable pre-commit control pattern。对 repository maintenance、CI-loop agent、long-horizon coding automation 都有直接复用价值，且可以作为 skill 接口接入不同模型和框架。\n\n它没有升到更高一级，是因为当前证据仍主要集中在 SWE-bench Verified 和少量 open-weight 模型，外部生态采用还不足。现阶段更像非常强的 workflow primitive，而不是已经重构整个 coding-agent 工程栈的总蓝图。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-18",
      "doi": "",
      "arxiv_id": "2603.17973",
      "collected_at": "",
      "collection_order": 502,
      "source_url": "https://arxiv.org/pdf/2603.17973.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.17973.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "揭示AI编程的致命盲区：TDAD架构通过图谱影响分析，将智能体代码回归率大幅降低70%",
          "url": "https://www.bilibili.com/video/BV1NkDdBfE4H",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1NkDdBfE4H",
            "https://youtu.be/v69W7uFGRNg"
          ],
          "main_collection": "AI智能体",
          "match": "tdad test driven agentic development reducing code regressions in ai coding agents via graph based impact analysis",
          "description": "针对AI编程智能体在修复代码时频发“回归错误”的痛点，TDAD（测试驱动代理开发）提出了一种基于图谱的影响分析框架。研究发现，传统的TDD提示词会因消耗过多上下文窗口而导致模型性能下降，产生“TDD提示词悖论”。TDAD通过AST解析和依赖图谱构建，精准识别代码变更受影响的测试用例并作为上下文输入，使智能体具备自我纠错能力。实验数据表明，该方案在不增加外部依赖的情况下，成功将代码回归率降低了70%。本研究强调，对于AI编程而言，精准的结构化上下文知识比冗长的操作流程指令更具价值，并建议将回归率作为衡量AI编程水平的核心指标。",
          "x_post": "TDAD 团队提出 Test-Driven Agentic Development 框架，利用图谱影响分析将 AI 编程回归率降低 70%\n\n当前 AI 编程智能体在修复代码时频繁引发“回归错误”，基础智能体平均每个补丁会导致 6.5 个测试失败。研究发现存在“TDD 提示词悖论”：传统的程序化指令会因占用过多上下文窗口，导致小型模型性能下降。TDAD 通过 AST 解析构建代码与测试的依赖图谱，在提交前精准识别受影响的测试用例并提供结构化上下文。\n\n实验数据表明，该方案在不增加外部依赖的情况下，成功将代码回归率降低了 70%。研究结论强调，精准的结构化上下文比冗长的流程指令对智能体更有效，并建议将回归率作为衡量 AI 编程水平的核心指标。",
          "cover_url": "assets/covers/a151-tdad-test-driven-agentic-development-8729f4fa48.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-08T13:10:20+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A149_Guardrails_As_Infrastructure",
      "slug": "a149-guardrails-as-infrastructure",
      "detail_url": "papers/a149-guardrails-as-infrastructure/",
      "title": "Guardrails as Infrastructure: Policy-First Control for Tool-Orchestrated Workflows",
      "summary": "从脚本、CI bot 到 tool-using agents，很多真实失败并不是模型回答错了一句，而是在执行层产生了不安全副作用、无效参数、失控重试或敏感信息泄漏。仅靠 prompt patch 或模型内安全策略，既脆弱，又无法覆盖非 LLM caller。\n\n这篇工作的关键转向，是把 guardrails 从 model-centric mitigation 改写为 policy-first execution infrastructure。论文提出一个紧凑的 policy DSL、一个对 tool invocation 做约束和风险分级的 runtime enforcement layer，以及带 rationale 与 fix hints 的执行反馈接口。配套的 trace-replay benchmark 则把 violation prevention、retry amplification、secret leakage recall 与 task success 放在同一张 safety-utility tradeoff 图里。\n\n它值得正式收录，因为真正有复用价值的是 execution-layer pattern：任何 tool-orchestrated workflow，不管调用方是不是 LLM，都可以在工具边界上接入显式策略、恢复控制和可审计解释。这条路线和我们仓库里已有的 permissioning、governed execution、agent safety、secure computer-use 形成了明显的系统主线。\n\n它没有升到更高一级，是因为当前验证仍以 replay benchmark 和作者定义的 policy packs 为主，距离被广泛采纳为通用 execution substrate 还有距离。现阶段更像非常强的 infrastructure blueprint，而不是已经完成范式替换的事实标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-18",
      "doi": "",
      "arxiv_id": "2603.18059",
      "collected_at": "",
      "collection_order": 501,
      "source_url": "https://arxiv.org/pdf/2603.18059v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.18059v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "别让自动化工具弄崩物理世界：将护栏下沉为基础设施，在灾难性调用发生前封断逻辑漏洞",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "guardrails as infrastructure policy first control for tool orchestrated workflows",
          "description": "针对自动化工具在执行过程中可能引发的文件误删、隐私泄露及无限重试等不可逆风险，该研究提出了一种“策略优先”的工具治理架构。该方案主张将安全护栏从大模型提示词层面下沉至基础设施级，通过部署独立的执行点强制拦截所有工具调用。系统集成了全维度策略基元、运行时预算控制及动态风险评估模型，实现了与模型无关的安全性保障。实验数据揭示了违规拦截率提升与任务成功率之间的权衡关系。这种方法为构建可审计、具备韧性的AI智能体工作流提供了标准化路径，确保在底层模型存在幻觉或不可靠时，物理环境的状态依然具有确定性。",
          "x_post": "博伊西州立大学提出“策略优先”工具治理架构：将安全护栏下沉为基础设施，显著提升自动化违规拦截率。\n针对AI智能体或脚本在执行过程中可能引发的文件误删、隐私泄露及无限重试等不可逆风险，现有防御过度依赖模型提示词，缺乏物理环境的确定性保障。\n该研究通过部署独立于模型的执行点（PEP），构建了包含工具门控、运行时预算及加权风险评估的强制执行层，实现了对工具调用的标准化拦截与审计。\n实验基准测试表明，随着策略严格度增加，系统预防违规能力显著提升，且揭示了拦截率与任务成功率之间的权衡关系。\n这种方法为构建韧性AI工作流提供了可验证框架，确保在底层模型产生幻觉或逻辑漏洞时，系统状态依然具备确定的安全边界。",
          "cover_url": "assets/covers/a149-guardrails-as-infrastructure-bcd08afc06.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-05T19:38:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A139_SafeTutors_Tutoring_Safety",
      "slug": "a139-safetutors-tutoring-safety",
      "detail_url": "papers/a139-safetutors-tutoring-safety/",
      "title": "SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems",
      "summary": "AI tutor 正在快速进入真实教学场景，但现有评测通常把‘做题是否正确’和‘模型是否安全’分开看，忽略了教学场景里更隐蔽的失败：过度泄题、强化误解、放弃 scaffolding，最终悄悄破坏学习过程。论文的出发点很明确：tutoring safety 不是一般意义上的 toxicity/safety，而是一个与学习科学深度耦合的独立问题。\n\n论文提出 SafeTutors 这一 benchmark，把 pedagogy 与 safety 联合建模，并构造了一个来自 learning-science 文献的风险分类体系，包含 11 个 harm dimensions 和 48 个 sub-risks，覆盖数学、物理、化学以及单轮与多轮互动。结果不只是展示某模型领先，而是揭示一个结构性事实：多轮 tutoring 中的 pedagogical failures 会显著放大，且不同学科的风险模式并不相同。\n\n它值得正式收录，因为它为 AI tutoring 建立了一个更 durable 的 evaluation target：不是只问模型能不能答对，而是问它会不会在长期交互里伤害学习。这个 framing 对教育 agent 很关键，也对更广泛的 long-horizon assistance evaluation 有参考价值。\n\n它没有升到更高一级，是因为它主要贡献在评测与风险分类，而不是提出新的 tutoring architecture 或跨行业通用安全底座。它在教育领域很重要，但外溢范围目前仍以 tutoring systems 为主。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-18",
      "doi": "",
      "arxiv_id": "2603.17373",
      "collected_at": "",
      "collection_order": 500,
      "source_url": "https://arxiv.org/pdf/2603.17373v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.17373v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T21_PRISM_Mid_Training",
      "slug": "t21-prism-mid-training",
      "detail_url": "papers/t21-prism-mid-training/",
      "title": "PRISM: Demystifying Retention and Interaction in Mid-Training",
      "summary": "这篇论文讨论的是后训练流水线里一个非常关键但此前经常被黑盒化处理的阶段：mid-training。作者想回答的不只是“mid-training 有没有用”，而是它与后续 RL 到底如何分工、数据配比应该在哪里发挥作用，以及它为什么会成为复杂推理 RL 的前置条件。\n\n论文通过跨模型家族、跨架构和跨参数规模的系统实验，给出了一组很有分量的结论。最重要的一个结论是：直接在基座模型上做 RL 基本无法得到复杂推理能力，而经过高质量 mid-training 后，RL 才开始有效。机制分析进一步显示，mid-training 会对超过九成的权重进行密集重构，而 RL 只对少量前部权重做稀疏更新；更反直觉的是，RL 不管从 base 还是 mid-trained 模型开始，更新模式都非常相似，但只有后者处在可被 RL 有效优化的位置。\n\n这篇工作值得正式收录，因为它不是单纯报告一个更好的训练 recipe，而是对 mid-training 与 RL 的关系给出了很清楚的经验和机制解释。对后训练设计、推理模型训练、数据配比、长上下文保留以及 training pipeline design 都有很强的指导意义，符合仓库对强理论/机制澄清论文的收录标准。\n\n它目前适合定为 breakthrough，而不是更高一级。原因是论文虽然把现象讲清楚了，但还没有把这些规律提升为更一般的理论框架，也主要聚焦于作者实验范围内的模型和数据设置，尚未完全成为社区共识。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-03-17",
      "doi": "",
      "arxiv_id": "2603.17074",
      "collected_at": "",
      "collection_order": 499,
      "source_url": "https://arxiv.org/pdf/2603.17074v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.17074v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL8_RARRL_Embodied_Reasoning",
      "slug": "rl8-rarrl-embodied-reasoning",
      "detail_url": "papers/rl8-rarrl-embodied-reasoning/",
      "title": "When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making",
      "summary": "这篇论文关注的是具身智能系统里一个非常实际的问题：大语言模型推理并不是免费午餐，何时调用高成本 reasoning，何时直接执行动作，本身就是一个需要学习的决策问题。作者把这个问题明确表述为资源感知型 orchestration，而不是继续默认“能想就一直想”。\n\n方法上，论文提出 RARRL，让强化学习学习一个高层 orchestration policy，而不是去替换底层控制器。该策略根据当前观察、执行历史和剩余预算，决定是否调用 reasoning、调用哪种 reasoning role，以及分配多少预算。实验尤其强调了真实延迟和预算冲击下的表现：相比固定频率或启发式规则，RARRL 在保持或提升任务成功率的同时，显著降低推理时延和 token 开销，并在资源突变时更鲁棒。\n\n这篇工作值得正式收录，因为机器人与具身智能已经是仓库主线，而这篇论文给出了一个可复用的系统模式：高层 reasoning control 与低层执行解耦，并通过 RL 学会在成本和成功率之间权衡。对 embodied agents、resource-aware inference 和 robotic decision orchestration 都有明显外溢。\n\n它目前适合定为 breakthrough，而不是更高一级。原因是验证仍主要集中在 ALFRED 这类任务和作者设定的系统结构中，虽然 pattern 很清晰，但距离成为通用 embodied agent 默认设计还需要更多跨平台和真实机器人验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-17",
      "doi": "",
      "arxiv_id": "2603.16673",
      "collected_at": "",
      "collection_order": 498,
      "source_url": "https://arxiv.org/pdf/2603.16673v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.16673v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "CMU哈佛等发布RARRL架构：让机器人学会“看情况思考”，执行效率大幅提速60%",
          "url": "https://www.bilibili.com/video/BV1ipd3BaEBr",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1ipd3BaEBr",
            "https://youtu.be/bbSnuHJIU0k"
          ],
          "main_collection": "机器人与具身智能",
          "match": "when should a robot think resource aware reasoning via reinforcement learning for embodied robotic decision making",
          "description": "由CMU、哈佛及东北大学等机构联合提出的RARRL框架，旨在解决具身机器人调用大模型推理时的高延迟与资源损耗难题。研究团队针对“思考过多”导致的行动卡顿与“思考不足”引发的决策失败，开发了一套基于强化学习的智能调度策略。该策略赋予机器人自主决策“何时思考”与“何时行动”的能力，根据任务进度与剩余资源动态分配算力。实验结果显示，RARRL在保证任务成功率的同时，将执行效率大幅提速60%。这种将逻辑编排与物理执行彻底解耦的架构，为构建更敏捷、更低功耗的智能体提供了关键技术支撑。",
          "x_post": "CMU、哈佛与东北大学发布RARRL架构：动态平衡机器人推理与执行，提速60%\n针对具身智能机器人在调用大语言模型（LLM）时面临的高延迟与资源冗余问题，本研究提出了RARRL（资源感知推理）强化学习框架。该系统利用PPO算法训练智能调度器，根据物理环境观测、执行历史及资源余量，动态决策机器人“何时思考”与“何时行动”。RARRL实现了逻辑编排与物理执行的彻底解耦，可自主分配Token预算并切换LLM推理角色。实验数据表明，该框架在保证任务成功率的前提下，将机器人执行效率显著提升60%，并有效降低了计算成本。这种资源感知决策模式为构建更敏捷、低功耗的具身智能体提供了关键的可扩展架构。",
          "cover_url": "assets/covers/rl8-rarrl-embodied-reasoning-4401d485d5.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-07T18:29:59+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL10_Fast_WAM_World_Action_Models",
      "slug": "rl10-fast-wam-world-action-models",
      "detail_url": "papers/rl10-fast-wam-world-action-models/",
      "title": "Fast-WAM: Do World Action Models Need Test-time Future Imagination?",
      "summary": "这篇论文关注 embodied world model 里一个非常具体但很关键的问题：World Action Models 的收益，到底主要来自测试时显式未来想象，还是来自训练时的视频建模信号。它不是单纯继续堆更慢的 imagine-then-execute，而是在问这条路线里真正有效的因果因素是什么。\n\n作者提出 Fast-WAM，在训练阶段保留视频共训练，但在推理阶段跳过未来预测，并据此对视频共训练与测试时 imagination 的作用做了受控拆分。结果显示，去掉测试时未来想象后模型仍能保持竞争力，同时延迟降到 190ms，比传统 imagine-then-execute WAM 快四倍以上。\n\n它值得正式收录，因为这是典型的机制澄清型论文：不是只报成功率，而是明确回答 active area 里的核心设计问题，并给出对后续 world action model 设计有直接价值的结论。对仓库里的 multimodal/world-model/robotics 主线来说，这类 clarification 条目很重要。\n\n它没有升到更高等级，是因为影响范围仍然主要限于 WAM/VLA 这一子路线，虽然结论很有用，但还不足以成为更广泛 embodied intelligence 的总蓝图。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-17",
      "doi": "",
      "arxiv_id": "2603.16666",
      "collected_at": "",
      "collection_order": 497,
      "source_url": "https://arxiv.org/pdf/2603.16666.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.16666.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "清华联合Galaxea发布Fast-WAM，190ms极速响应让机器人摆脱视频去噪瓶颈，实现4倍速实时控制",
          "url": "https://www.bilibili.com/video/BV19WXVBfEyi",
          "platform_urls": [
            "https://www.bilibili.com/video/BV19WXVBfEyi",
            "https://youtu.be/oyLh711AF2g"
          ],
          "main_collection": "机器人与具身智能",
          "match": "fast wam do world action models need test time future imagination",
          "description": "传统世界动作模型（WAM）常受限于“先想象后执行”机制，导致85%的推理时间被视频去噪占据。清华大学与Galaxea AI提出Fast-WAM，核心在于解耦训练与推理过程。该模型在训练阶段通过视频与动作分支的联合流匹配优化，使模型吸收物理常识并强化表征；在推理阶段则跳过显式视频生成，通过单次前向传播实现190ms极速响应。实验证明，该架构在保持高性能的同时，推理速度提升4倍以上，成功解决了具身智能在实时闭环控制中的延迟瓶颈。",
          "x_post": "清华大学与 Galaxea AI 发布 Fast-WAM：190ms 极速响应实现 4 倍速实时机器人控制\n传统世界动作模型（WAM）受限于“先想象后执行”机制，视频去噪过程通常占据推理总时长的 85%，制约了机器人的实时闭环控制能力。\nFast-WAM 提出解耦架构，训练阶段保留视频协同建模以吸收物理常识表征，推理阶段则跳过显式视频生成，通过单次前向传播直接输出控制动作。\n基于 60 亿参数规模（含 WAN2.2-5B 视频 DiT），该模型实现了 190ms 的端到端响应，推理速度较同类 WAM 模型提升 4 倍以上。\n研究结果表明，WAM 的效能核心源于训练时的视频预测目标而非推理时的实时画面生成，这一发现成功解决了具身智能在高频控制中的延迟瓶颈。",
          "cover_url": "assets/covers/rl10-fast-wam-world-action-models-987776663e.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T20:45:38+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R82_VQKV_Vector_Quantized_KV_Cache",
      "slug": "r82-vqkv-vector-quantized-kv-cache",
      "detail_url": "papers/r82-vqkv-vector-quantized-kv-cache/",
      "title": "VQKV: High-Fidelity and High-Ratio Cache Compression via Vector-Quantization",
      "summary": "这篇论文针对长上下文 LLM 的核心部署瓶颈：KV cache 随上下文长度线性增长，直接限制显存、吞吐和可生成长度。与 token eviction、低秩投影或 scalar quantization 相比，作者把问题转成 vector-level quantization，希望同时获得高压缩率和高重构保真度。\n\nVQKV 是 training-free 方法，不修改模型参数。它用 SimVQ 把高维 KV cache 向量映射到紧凑 codebooks，用少量整数索引替代大量浮点 cache 值；同时通过 residual codebook design 分散 RoPE 带来的异质频率变化，使 RoPE-rotated key cache 也能保持较高重构质量。\n\n实验在 LLaMA3.1-8B 和 LongBench 上显示，VQKV 达到 82.8% KV cache 压缩，同时保留 98.6% baseline 表现，并在相同显存 footprint 下支持 4.3 倍更长 generation length。论文还提供 GitHub 和 Hugging Face checkpoint，工程复现路径相对清晰。\n\n它值得正式收录，因为它提供了一个可复用的推理时内存压缩 primitive：无需训练、模型参数无侵入、面向长上下文和资源受限部署，直接影响 LLM serving、agent 长程记忆窗口和边缘推理的成本曲线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-17",
      "doi": "",
      "arxiv_id": "2603.16435",
      "collected_at": "",
      "collection_order": 496,
      "source_url": "https://arxiv.org/pdf/2603.16435",
      "paper_url": "https://arxiv.org/pdf/2603.16435",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/LUMIA-Group/VQKV",
        "https://huggingface.co/LuckyOrz/vqkv_llama3.1-8B"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM24_WorldCam_Gaming_Worlds",
      "slug": "mm24-worldcam-gaming-worlds",
      "detail_url": "papers/mm24-worldcam-gaming-worlds/",
      "title": "WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation",
      "summary": "该文处理的是交互式游戏世界模型里的两个核心难点：动作控制不精确，以及长时程探索中的三维一致性漂移。现有方法通常把用户动作当成抽象条件信号，而没有把动作和世界几何之间通过相机位姿耦合这一事实直接建模。\n\nWorldCam 的关键做法是把 camera pose 提升为统一几何表示。一方面，它把用户输入映射到物理一致的连续动作空间，并在 Lie algebra 中表示 6-DoF 相机位姿，再通过 camera embedder 注入生成模型，提升即时动作对齐；另一方面，它把全局位姿当作长程记忆索引，在回访场景时从历史观察中检索相关视图，以维持长时程导航下的空间一致性。作者还提供了带相机轨迹和文本描述的大规模真实人类游戏数据。\n\n这篇论文值得收录，因为它不是简单的视频 world model 扩容，而是对 interactive gaming worlds 提出了更干净的几何统一方式。对仓库关注的 world generation / long-horizon multimodal generation 主线来说，camera pose 作为统一控制和记忆索引这一点有明确可迁移性。\n\n它暂时仍是 breakthrough，因为场景集中在游戏世界，外部验证也主要是该任务族内的 controllability、视觉质量和 3D consistency。它是否能升到更高层级，要看这套 pose-grounded 记忆与生成机制能否迁移到更一般的 embodied/world simulation 任务。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-17",
      "doi": "",
      "arxiv_id": "2603.16871",
      "collected_at": "",
      "collection_order": 495,
      "source_url": "https://arxiv.org/pdf/2603.16871v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.16871v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C10_CLOUD_Crystal_Foundation_Model",
      "slug": "c10-cloud-crystal-foundation-model",
      "detail_url": "papers/c10-cloud-crystal-foundation-model/",
      "title": "CLOUD: A Scalable and Physics-Informed Foundation Model for Crystal Representation Learning",
      "summary": "该文关注晶体性质预测在材料发现中的基础瓶颈：实验测量和第一性原理计算成本高，现有机器学习模型又往往依赖带标签数据、结构表示不充分，且缺少可组合的物理约束。论文把问题提升为一个更一般的材料 foundation model 问题，希望在统一表示上同时覆盖多类晶体性质任务。\n\n论文提出 CLOUD，一个基于 transformer 的晶体表征框架，并引入 SCOPE 这种对称性一致、无坐标的字符串编码，把晶体对称性、Wyckoff 位点和组分压缩进统一输入。模型在超过六百万晶体上预训练，再迁移到多种下游性质预测；同时作者把它和 Debye 模型结合，展示了可微材料建模的路线，使温度相关声子性质预测可以在不额外引入监督数据的情况下保持热力学一致性。\n\n这篇论文值得正式收录，不只是因为效果强，而是因为它把晶体 foundation model、对称性一致表示、以及 physics-grounded differentiable modeling 三件事真正接在了一起。对 AI x materials 主线来说，它比单一性质预测器更像可复用底座，也比纯表征学习论文更接近实际科学工作流。\n\n它目前仍属于 breakthrough 而不是更高一级，因为核心验证仍集中在晶体性质预测与相关可微建模示例上，还没有像更高层级条目那样彻底改写整条材料发现流程。它的长期地位还取决于后续社区是否把 SCOPE/CLOUD 这一表示与训练范式真正当作默认基座。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-17",
      "doi": "10.1038/s41467-026-70467-3",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 494,
      "source_url": "https://doi.org/10.1038/s41467-026-70467-3",
      "paper_url": "https://doi.org/10.1038/s41467-026-70467-3",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "晶体科学的GPT时刻：密歇根大学整合630万无标签数据，用Transformer架构重构材料表征的底层逻辑",
          "url": "https://www.bilibili.com/video/BV1kZQoBhECe",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1kZQoBhECe",
            "https://youtu.be/hcOYMwwk6Nw"
          ],
          "main_collection": "AI化学与材料",
          "match": "cloud a scalable and physics informed foundation model for crystal representation learning",
          "description": "针对传统图神经网络依赖三维坐标及DFT计算成本高昂的痛点，密歇根大学研究团队推出了晶体基础模型CLOUD。该模型核心采用了SCOPE编码方式，将复杂的对称性、威科夫位置及组分降维为一维字符串序列，彻底摆脱了对显式坐标的依赖。通过在630万无标签晶体数据上进行预训练，CLOUD利用Transformer架构有效捕捉长程结构关联。模型集成了德拜模型等可微物理层，在保证热力学一致性的同时，显著提升了材料长程属性的预测精度，为加速固态电池与催化剂等新材料研发提供了高效工具。",
          "x_post": "密歇根大学发布 CLOUD 基础模型：利用 630 万晶体数据实现无坐标物理约束表征\n针对传统图神经网络（GNN）依赖高成本 3D 坐标及 DFT 计算的痛点，研究团队提出 SCOPE 编码逻辑。\n该方法将复杂的晶格对称性、威科夫位置与化学组分降维为一维序列，结合 Transformer 架构捕捉长程结构关联。\n通过在 14 个数据库整合的 630 万无标签数据上预训练，并内嵌德拜模型等可微物理层，确保预测符合热力学一致性。\n实验表明，CLOUD 在预测热容等长程属性方面表现优异，为固态电池与催化剂等新材料的研发提供了高效的数字化筛选工具。",
          "cover_url": "assets/covers/c10-cloud-crystal-foundation-model-6b7e749337.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-21T19:31:48+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO27_Horizyn_1_Enzyme_Discovery",
      "slug": "bio27-horizyn-1-enzyme-discovery",
      "detail_url": "papers/bio27-horizyn-1-enzyme-discovery/",
      "title": "Dual-encoder contrastive learning accelerates enzyme discovery",
      "summary": "酶工程里的核心瓶颈往往不在后续定向进化本身，而在于能否先从巨大蛋白空间里找到值得起步的候选酶。很多机器学习工作能做局部打分，但真正把反应需求映射到可实验验证的 enzyme recommendation，并在大规模数据和真实实验里证明有效，门槛一直很高。\n\n这篇论文提出 Horizyn-1，用 dual-encoder contrastive learning 把 reaction fingerprint 与 protein language model 表征接到同一个推荐框架里，在数百万 reaction-enzyme pairs 上训练，实现大规模 reaction-to-enzyme retrieval。它的关键不是单一 benchmark 提升，而是把推荐结果直接推到实验层面，覆盖 orphan reactions、酶 promiscuity 预测，以及非天然生化反应的酶发现，并展示少样本 fine-tuning 对稀缺反应类的快速增益。\n\n它值得正式收录，因为这不是普通的 biocatalysis predictor，而是一种可复用的 enzyme discovery workflow：给定反应，先在大规模酶空间里高召回检索，再把结果转入实验验证和后续优化。对 AI x chemistry / synthetic biology / enzyme engineering 来说，这种 reaction-to-enzyme recommendation interface 有明确外溢，也和仓库当前对 AI 驱动科学发现工作流的重点方向一致。\n\n它目前仍然是 breakthrough，而不是更高一级，因为虽然实验验证很重要，但方法主轴仍然集中在 enzyme sourcing 这一层，而不是更完整的药物发现或多步生物合成闭环。它证明了一个强有力的 discovery primitive，但要上升到更高层级，还需要更广泛的工业级采用、跨家族泛化和与下游 design-build-test loops 的深度整合。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-17",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 493,
      "source_url": "https://www.biorxiv.org/content/10.1101/2025.08.21.671639v1.full.pdf",
      "paper_url": "https://www.biorxiv.org/content/10.1101/2025.08.21.671639v1.full.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决合成生物学的起始点瓶颈：Horizyn-1 框架通过海量数据训练，助力实验室跨越极限验证",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "dual encoder contrastive learning accelerates enzyme discovery",
          "description": "针对合成生物学中寻找特定反应催化酶的“大海捞针”难题，Dayhoff Labs 推出 Horizyn-1 深度学习框架。该模型采用双编码器对比学习技术，将 890 万个化学反应与蛋白质序列映射至统一嵌入空间，突破了传统生物信息学对序列同源性的依赖。实验表明，其在未知测试集上的 Top-100 命中率达 76.7%，并成功应用于孤儿反应修复、蛋白质广谱活性预测及非天然氨基酸合成等极限场景。模型展现出极强的对数扩展潜能与小样本微调能力，为生物催化和代谢工程提供了数字化的筛选工具，有效解决了实验起始点搜寻的效率瓶颈。",
          "x_post": "Dayhoff Labs 发布 Horizyn-1：基于 890 万反应-酶对的对比学习框架加速功能注释\n针对合成生物学中酶发现过度依赖序列同源性的瓶颈，Dayhoff Labs 推出 Horizyn-1 深度学习框架。该模型利用双编码器对比学习技术，将生化反应指纹与由 30 亿参数 ProtT5 模型提取的蛋白质序列映射至统一嵌入空间。实验数据显示，在 890 万个训练对的支持下，Horizyn-1 在未知测试集上的 Top-100 命中率达 76.7%，且性能随数据规模呈现明确的对数扩展趋势。通过对尼龙降解孤儿反应修复、蛋白质广谱活性预测及非天然氨基酸合成的实验验证，该框架展现了极强的跨领域泛化能力。这一数字化筛选工具为生物催化和代谢工程提供了高效的起始点搜寻方案，有效缓解了实验室验证的效率难题。",
          "cover_url": "assets/covers/bio27-horizyn-1-enzyme-discovery-37f2d5672e.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-29T11:06:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A51_Online_Experiential_Learning",
      "slug": "a51-online-experiential-learning",
      "detail_url": "papers/a51-online-experiential-learning/",
      "title": "Online Experiential Learning for Language Models",
      "summary": "这篇论文针对的是部署后语言模型如何持续学习的问题。当前大模型能力的提升几乎全部发生在离线阶段，依赖人工标注的 SFT 或模拟环境里的 RL，而真实部署中积累的大量交互经验往往只被当作日志保存，无法转化为稳定的能力改进。作者因此把重点放在一个更现实的 setting 上：只有文本反馈、没有显式标量奖励、也不要求训练时访问用户环境。\n\n方法上的核心是 OEL（Online Experiential Learning）闭环。第一阶段，从用户侧交互轨迹中提取可迁移的经验知识，而不是直接拿原始轨迹学习；第二阶段，利用 on-policy context distillation 把这些经验知识内化到模型参数中。论文的一个重要结论是：原始交互轨迹本身噪声很大，必须先抽象成规则、策略或经验；另一个关键发现是同策略一致性很重要，小模型从自己轨迹中总结的经验往往比大模型替它提炼的高级经验更有效。\n\n这篇工作值得正式收录，因为它不是普通的 post-training recipe，而是提出了一个较完整的部署后在线学习框架：交互、经验抽取、知识内化、再交互形成闭环。它对 agent memory、online adaptation、experience distillation 和 continual LM improvement 都有明确外溢，也契合仓库目前对长期运行 AI 系统的关注方向。\n\n它目前适合定为 breakthrough，而不是更高一级。原因是实验场景仍主要集中在文字游戏等较受控环境上，虽然结果稳定且洞见很强，但距离成为开放式真实部署环境中的默认方案还差更复杂任务和多模态场景的验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-17",
      "doi": "",
      "arxiv_id": "2603.16856",
      "collected_at": "",
      "collection_order": 492,
      "source_url": "https://arxiv.org/pdf/2603.16856v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.16856v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "零标注下的AI进化论：微软研究院利用两阶段OEL框架，在真实交互中提炼模型永久能力",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "online experiential learning for language models",
          "description": "针对大语言模型部署后学习停滞的问题，微软研究院提出在线经验学习（OEL）框架。该框架无需人工标注或显式奖励模型，直接从真实交互的文本反馈中提取知识。通过经验提取和参数整合两个阶段，将多轮对话轨迹转化为结构化规则，并利用在策略上下文蒸馏技术将其内化为模型永久能力。实验数据证明，OEL能将复杂任务通关率提升近3倍，且有效缓解了持续学习中的灾难性遗忘。该研究为大模型在无监督真实环境下的自我能力提升提供了闭环路径。",
          "x_post": "微软研究院提出在线经验学习（OEL）框架，实现在无标注环境下将任务通关率提升近3倍\n针对大语言模型部署后因缺乏标量奖励导致学习停滞的瓶颈，OEL框架旨在利用真实交互中的非结构化文本反馈实现自我进化。该方案分为“经验提取”与“参数整合”两个阶段：首先从多轮对话轨迹中提炼结构化知识规则，随后通过在策略上下文蒸馏技术将其内化为模型的永久能力。实验数据显示，OEL将复杂任务的通关率从7.5%提升至21.4%，显著优于直接利用原始轨迹的方案。研究证明，该机制在无需人工标注或显式奖励模型的情况下，能有效增强特定领域能力并缓解持续学习中的灾难性遗忘。",
          "cover_url": "assets/covers/a51-online-experiential-learning-0bcc6e8471.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-02T10:11:25+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A50_MetaClaw_Continual_Agent_Learning",
      "slug": "a50-metaclaw-continual-agent-learning",
      "detail_url": "papers/a50-metaclaw-continual-agent-learning/",
      "title": "MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild",
      "summary": "这篇论文针对的是一个很现实但长期被弱化的问题：部署后的 LLM agent 往往是静态的，用户需求和任务分布在变，系统却只能靠人工整理记忆、重启训练或停机更新来追赶。作者把这个问题放到 OpenClaw 这类多渠道、持续在线的 agent 平台上来讨论，强调核心矛盾不是单次任务求解，而是如何在不中断服务的前提下持续获得新能力。\n\nMetaClaw 的关键设计是把持续演化拆成两条互补回路。第一条是 skill-driven fast adaptation：分析失败轨迹，由 LLM evolver 直接合成新技能，实现零停机的即时改进；第二条是 opportunistic policy optimization：在用户空闲窗口里，通过云端 LoRA 微调和 RL-PRM 做策略更新，并由 Opportunistic Meta-Learning Scheduler 结合系统空闲和日历信息来触发。作者还加入版本隔离机制，把 support 与 query 数据分开，避免持续学习时的数据污染。\n\n这篇工作值得正式收录，因为它不是普通的 agent benchmark 提升，而是提出了一个更接近真实系统维护方式的 continual agent learning 框架：技能库演化与底座策略更新相互增强，且明确围绕在线服务约束来设计。对 agent memory、capability acquisition、长期部署与系统自我改进这几条主线都有明显外溢，也和仓库当前对 agent systems 的扩展方向一致。\n\n它目前仍适合定为 breakthrough，而不是更高一级。原因是这套框架虽然完整，也给出了在 MetaClaw-Bench 和 AutoResearchClaw 上的显著提升，但证据仍主要来自作者自建系统和平台环境。它更像一篇高质量的 agent continual learning 系统论文，距离成为更广泛 agent infra 默认范式，还需要更多独立复现与跨平台验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-17",
      "doi": "",
      "arxiv_id": "2603.17187",
      "collected_at": "",
      "collection_order": 491,
      "source_url": "https://arxiv.org/pdf/2603.17187v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.17187v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "告别“部署即过时”！UNC等发布MetaClaw，智能体成功率暴涨8.25倍",
          "url": "https://www.bilibili.com/video/BV1jydcBqEoP",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1jydcBqEoP",
            "https://youtu.be/iVT4171z1AM"
          ],
          "main_collection": "AI递归自我进化",
          "match": "metaclaw just talk an agent that meta learns and evolves in the wild",
          "description": "由北卡罗来纳大学与卡内基梅隆大学等机构联合研发的 MetaClaw 框架，旨在解决大型语言模型智能体在部署后能力僵化、难以适应新环境的问题。该系统采用双螺旋进化机制：利用自然语言指令集实现毫秒级的快速技能自适应，并结合机会主义策略优化在系统闲时进行底层权重重塑。通过智能调度算法，MetaClaw 能够在用户休息或电脑闲置时，利用云端低秩微调技术完成无感知的自我强化。实验证明，该框架在复杂科研流水线等任务中，使智能体执行成功率飙升 8.25 倍。这种零停机、边干边学的模式，不仅保证了服务的连续性，更让智能体具备了随环境变化而持续增强的动态自演化能力。",
          "x_post": "UNC 与 CMU 等发布 MetaClaw：持续元学习框架实现智能体成功率 8.25 倍提升\n\n针对大语言模型智能体在部署后能力僵化、难以适应动态环境的痛点，研究团队提出 MetaClaw 持续元学习框架。该系统构建了“双螺旋”进化机制：通过自然语言指令集实现毫秒级的技能自适应，并结合 Cloud LoRA 技术在系统闲时进行底层权重重塑。配合 OMLS 调度算法，MetaClaw 能够在用户休息或设备闲置时执行无感知训练，确保服务零停机。实验数据表明，该框架在复杂科研流水线任务中的执行成功率显著提升 8.25 倍。这一研究验证了智能体在实际应用中“边干边学”的可行性，为长效动态 AI 系统的构建提供了新路径。",
          "cover_url": "assets/covers/a50-metaclaw-continual-agent-learning-13cde29840.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-07T18:16:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A49_Kinema4D_Embodied_Simulation",
      "slug": "a49-kinema4d-embodied-simulation",
      "detail_url": "papers/a49-kinema4d-embodied-simulation/",
      "title": "Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation",
      "summary": "这篇论文要解决的问题不是一般的视频生成，而是更接近机器人训练需求的 embodied simulation：既要保留机器人控制轨迹的精确性，又要让环境反应具备真实的时空生成能力。作者明确指出，传统模拟器在视觉与交互上过于刚性，而已有生成式模拟方法又大多停留在 2D 或静态环境条件，无法真正覆盖机器人与世界相互作用的 4D 本质。\n\n论文的核心设计是把机器人—环境交互拆成两部分分别建模，再在 4D 时空中重新对齐。第一部分用基于 URDF 和运动学的方式生成精确的 4D 机器人控制轨迹；第二部分把这条 4D 轨迹投影成 pointmap 作为时空视觉信号，条件控制生成模型去合成环境的同步 RGB 与 pointmap 反应序列。为了支撑训练，作者还构建了 Robo4D-200k 数据集，包含 201,426 条高质量 4D 机器人交互片段。\n\n这篇工作值得正式收录，是因为它补上了传统机器人模拟器和纯视频世界模型之间的一个关键缺口：前者控制精确但缺乏真实生成能力，后者能生成但难以保证机器人控制和几何一致性。Kinema4D 提供了一个更像基础设施的中间层 framing，对 embodied simulation、real-to-sim、robot interaction generation 和下一代机器人训练环境都有明显外溢。\n\n它目前仍更适合定为 breakthrough，而不是更高一级。原因是这条路线虽然问题定义和系统组合都很强，但现阶段仍主要落在 embodied simulation 子方向，距离成为更通用的机器人训练底座还差一步；零样本迁移潜力被提出了，但是否能稳定改变更大规模机器人学习工作流，还需要后续社区验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-17",
      "doi": "",
      "arxiv_id": "2603.16669",
      "collected_at": "",
      "collection_order": 490,
      "source_url": "https://arxiv.org/pdf/2603.16669v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.16669v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "将物理确定性交还给运动学：Kinema4D利用4D生成建模，攻克仿真穿模与虚假反馈",
          "url": "https://www.bilibili.com/video/BV1AQQaBbEMi",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1AQQaBbEMi",
            "https://youtu.be/G3fK3rc1v5M"
          ],
          "main_collection": "机器人与具身智能",
          "match": "kinema4d kinematic 4d world modeling for spatiotemporal embodied simulation",
          "description": "传统机器人模拟器常面临视觉虚假感与物理反馈不一致的难题，Kinema4D 通过 4D 原生时空建模提出解决方案。该系统将机器人动作的确定性交由运动学计算，而将复杂的环境反应交给生成式大模型推演。利用扩散模型（DiT）与柔性占位掩码，Kinema4D 实现了物理控制与 AI 生成的有效解耦，从几何层面解决了仿真中的穿模与虚假位移。基于大规模 Robo4D-200k 数据集的训练，该方法在处理物体形变、工具交互等任务中表现出极高的空间可靠性。实验证明，其不仅能生成逼真的视觉序列，更能同步重建 3D 物理几何，为具身智能提供了高保真的虚拟演练环境。",
          "x_post": "Kinema4D团队发布4D生成式机器人模拟器，利用Robo4D-200k数据集攻克仿真穿模难题\n传统机器人仿真器常面临视觉虚假感与物理反馈不一致的瓶颈，难以准确处理交互中的空间穿模与虚假位移。\nKinema4D提出运动学驱动的4D世界建模框架，将机器人动作的确定性轨迹与环境动态的生成式推演进行有效解耦。\n系统引入扩散模型（DiT）与柔性占位掩码，在包含201,426组交互的Robo4D-200k数据集上实现了精准的空间对齐。\n实验证明，该方法能同步生成高保真视觉序列与3D物理几何，在变形物体拖拽及工具使用任务中表现出极高的空间可靠性。\n该研究通过将抽象动作转化为确定的时空信号，为具身智能提供了物理逻辑可核验的虚拟演练环境。",
          "cover_url": "assets/covers/a49-kinema4d-embodied-simulation-99e06b8829.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-10T22:37:07+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A180_OpenResearcher_Deep_Research_Trajectories",
      "slug": "a180-openresearcher-deep-research-trajectories",
      "detail_url": "papers/a180-openresearcher-deep-research-trajectories/",
      "title": "OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis",
      "summary": "这篇论文处理的是 deep research agent 训练数据的可复现性瓶颈。高质量研究型 agent 需要长时程轨迹，轨迹里包含搜索、打开网页、定位证据、综合推理和多轮工具调用；但现有数据合成流程通常依赖商业搜索 API 和在线网页环境，成本高、状态不稳定，也难以复现和分析。\n\nOpenResearcher 的核心贡献是把深度研究轨迹合成改造成完全离线、可仪表化的数据流水线。它先构建 1500 万文档语料库，再用 search/open/find 三个显式浏览器原语执行搜索-浏览闭环，并使用 GPT-OSS-120B 作为 teacher 合成 9.7 万条以上长时程轨迹，其中包含大量 100+ tool calls 的长尾样本。\n\n它值得收录，因为它为 research agent 提供了一个从数据生成到受控分析的开放基础设施，而不是只报告一个 agent 分数。用这些轨迹 SFT 30B-A3B backbone 后，在 BrowseComp-Plus 上达到 54.8%，相对 base 模型提升 34.0 个点，同时在 BrowseComp、GAIA 和 xbench-DeepSearch 上保持竞争力；这对 agentic research workflow、离线评测环境和可复现轨迹合成都有直接复用价值。\n\n它不是更高一级，因为当前能力仍主要来自 teacher 轨迹蒸馏和离线语料环境，离真实开放网页、动态网页状态、登录权限、反爬、跨源可信度校验还有距离；长时程轨迹质量也会受 teacher 模型和 corpus bootstrapping 的系统性偏差影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-17",
      "doi": "",
      "arxiv_id": "2603.20278",
      "collected_at": "",
      "collection_order": 489,
      "source_url": "https://arxiv.org/pdf/2603.20278.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.20278.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A106_Chronos_Temporal_Memory",
      "slug": "a106-chronos-temporal-memory",
      "detail_url": "papers/a106-chronos-temporal-memory/",
      "title": "Chronos: Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory",
      "summary": "长期会话记忆里最难的部分往往不是“能否检索到相关片段”，而是如何在多月跨度的对话中正确处理时间变化、事件先后关系和跨轮次多跳查询。很多 memory 系统仍然主要依赖语义相似度，因此一旦用户事实随时间变化，或者问题本身要求 temporal filtering，就很容易把语义相关但时间错误的证据混在一起。\n\nChronos 的核心新意是把长期对话显式重写成两个结构化检索层：一个是由 subject-verb-object 事件与时间范围组成的 events calendar，另一个是保留原始上下文的 turn calendar。查询时系统不是静态 top-k，而是先动态生成 retrieval guidance，再通过迭代式 tool-calling 在两个 calendar 上做时间约束检索和多跳推理。这个设计把长期记忆从“语义相似”推进到“时间结构化检索”。\n\n它值得这个仓库正式收录，因为 temporal-aware memory 是长期 agent memory 的核心难点，而 Chronos 给出的是清晰、可复用的系统模式：先把会话压成可时间推理的结构化事件层，再保留上下文层作为精读补充。对 personal assistant、long-horizon dialogue agent 和 profile memory infra 都有直接外溢。\n\n它目前仍是 breakthrough 而不是更高一级，因为证据还主要来自 arXiv 阶段和 LongMemEvalS 一类特定 benchmark，离成为更广长期记忆默认架构还有距离；同时它的 structured event extraction 本身仍依赖上游解析质量，复杂真实对话中的稳定性需要更多验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-17",
      "doi": "",
      "arxiv_id": "2603.16862",
      "collected_at": "",
      "collection_order": 488,
      "source_url": "https://arxiv.org/pdf/2603.16862.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.16862.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结AI的“时间失忆症”：Chronos利用双日历架构赋予对话系统精准的长期记忆能力",
          "url": "https://www.bilibili.com/video/BV1ys9EB4ENW",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1ys9EB4ENW",
            "https://youtu.be/Zhu5IDryQmU"
          ],
          "main_collection": "AI智能体",
          "match": "chronos temporal aware conversational agents with structured event retrieval for long term memory",
          "description": "针对大语言模型在长周期对话中面临的“时间失忆症”与多跳推理难题，Chronos 框架提出了一种创新的记忆管理方案。该系统摒弃了冗余的全局知识图谱，采用“轮次历法”与“事件历法”双架构并行索引。方法核心在于将原始对话进行结构化提取、时间归一化及词汇别名扩展，并配合动态提示技术实现工具化检索。实验数据表明，Chronos 在 LongMemEval 测试中达到 95.60% 的准确率，刷新了 SOTA 纪录。该方案有效解决了模糊时间表述的歧义问题，并在保留原始语义语境的同时，显著提升了跨月度交互的事实检索精度与推理效率。",
          "x_post": "普华永道 (PwC) 研发 Chronos 框架：以双日历架构提升 AI 长期记忆，LongMemEval 准确率达 95.60%\n\n针对大语言模型在跨月度长对话中面临的“时间失忆症”及复杂推理难题，Chronos 提出了一种无需全局知识图谱的结构化记忆管理方案。该系统采用“轮次日历”与“事件日历”双架构并行，前者负责保留原始语境的语义流，后者存储经 ISO 8601 标准化处理的结构化事件。核心机制包括时间归一化、词汇别名生成及基于动态提示的工具化检索，确保了在检索过程中能执行精确的时间范围过滤。实验数据表明，Chronos 在 LongMemEval 基准测试中刷新了 SOTA 纪录，准确率达到 95.60%。该研究证明了在不依赖重型知识图谱的情况下，通过平衡原始语境与结构化时间推理，可显著提升对话智能体的事实检索精度与推理效率。",
          "cover_url": "assets/covers/a106-chronos-temporal-memory-a9cd7be550.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-01T10:44:05+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T20_Mamba_3_State_Space_Principles",
      "slug": "t20-mamba-3-state-space-principles",
      "detail_url": "papers/t20-mamba-3-state-space-principles/",
      "title": "Mamba-3: Improved Sequence Modeling using State Space Principles",
      "summary": "Mamba-3 处理的是当前线性序列模型最核心的矛盾：虽然 sub-quadratic 架构在理论上具备线性时间和常数内存优势，但很多设计为了训练效率过度简化了状态更新，导致模型质量、状态追踪能力以及真实硬件上的推理效率都不够理想。论文因此明确采用 inference-first 视角重新审视 state space model 的设计。\n\n作者围绕三个方向改造 Mamba-2：用更一般的 recurrence 和离散化提升 SSM 的表达力，用 complex-valued state update 增强状态追踪能力，并引入 MIMO SSM 在不增加 decode latency 的前提下提升模型表现和算术强度。配合若干架构细化后，Mamba-3 在 retrieval、state-tracking 和 language modeling 上都优于 Mamba-2 与强线性基线，并在 1.5B 规模上给出更好的 prefill+decode latency。\n\n这篇论文值得正式收录，因为它不是普通 Mamba 系列续作，而是把 state space model 重新拉回到 inference 这一真实部署瓶颈上来，并且给出了从算法到 kernel 设计都相对完整的一体化改进路线。对 AI core 来说，它是线性架构和 SSM 主线里很可能会持续被引用的重要节点。\n\n它当前仍是 breakthrough 而不是更高一级，因为尽管改动扎实、结果明确，但它更像对既有 Mamba 路线的高质量升级与重新定向，而不是彻底开辟全新范式。它能否进一步升格，要看后续社区是否普遍把这些 inference-first 设计吸收到下一代线性或混合架构中。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.15569",
      "collected_at": "",
      "collection_order": 487,
      "source_url": "https://arxiv.org/pdf/2603.15569v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.15569v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SYS9_MobileLLM_Flash",
      "slug": "sys9-mobilellm-flash",
      "detail_url": "papers/sys9-mobilellm-flash/",
      "title": "MobileLLM-Flash: Latency-Guided On-Device LLM Design for Industry Scale",
      "summary": "这篇论文关注的是端侧大语言模型设计里一个经常被理论代理指标误导的问题：参数量和 FLOPs 并不能可靠代表真实移动端延迟。作者把问题直接放回工业部署语境中，要求模型不仅要快，还要兼容标准移动端运行时和标准软件栈，避免依赖不可移植的定制算子。\n\n方法上的核心是 hardware-in-the-loop 架构搜索。作者先在真实移动硬件上建立延迟模型，再联合搜索层数、宽度以及注意力模式。论文给出的结论很有操作性：在当前移动 CPU 条件下，浅而宽的模型优于深而窄的模型；标准 runtime 里 skip attention 比 sliding window attention 更实用；并且对预训练模型做结构化剪枝和极少量继续训练，就能高精度预测候选架构在大规模训练后的排序。\n\n这篇工作值得正式收录，因为它不是单纯的 mobile benchmark 论文，而是给出了面向工业级端侧 LLM 的设计原则和搜索方法。对系统设计、边缘部署、runtime-aware architecture search 以及小模型工程路线都有明显外溢，也符合仓库对高价值系统与基础设施论文的收录标准。\n\n它目前适合定为 breakthrough，而不是更高一级。原因是它主要还是集中在移动端 LLM 这一具体部署场景中，虽然工程洞见很强，但影响范围尚未扩展到更广泛的通用模型架构范式替换。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.15954",
      "collected_at": "",
      "collection_order": 486,
      "source_url": "https://arxiv.org/pdf/2603.15954v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.15954v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "Meta AI 刷新端侧体验：MobileLLM-Flash 攻克 4 秒首字响应瓶颈，实现手机端大模型秒开",
          "url": "https://www.bilibili.com/video/BV1RdRdB9EQf",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1RdRdB9EQf",
            "https://youtu.be/BjFPFhnGzXA"
          ],
          "main_collection": "大模型架构与推理",
          "match": "mobilellm flash latency guided on device llm design for industry scale",
          "description": "Meta AI 针对移动端推理性能推出的 MobileLLM-Flash 系列模型，专注于解决端侧大模型首字生成延迟（TTFT）过长的痛点。传统轻量化模型往往盲目追求低参数量，却忽视了真实硬件环境下的运行效率。该研究采用硬件在环（Hardware-in-the-loop）架构搜索，直接在三星 S25 等手机 CPU 上进行延迟实测与贝叶斯优化。实验证明，该模型在 350M 至 1.4B 参数规模下不仅保持了高准确率，更成功突破了 4 秒首字响应的瓶颈，实现了真正意义上的“秒开”。其完全兼容 ExecuTorch 等标准运行时，为手机端离线 AI 应用的大规模工业化部署提供了低功耗、高效率的技术基石。",
          "x_post": "Meta AI 发布 MobileLLM-Flash：基于硬件在环搜索，实现 1.4B 模型端侧首字响应 4s 以内\n\n当前端侧大模型部署面临首字生成延迟（TTFT）过长的瓶颈，且研究发现参数量、计算量与实际硬件延迟的相关性较弱。Meta AI 团队提出一种硬件在环（Hardware-in-the-loop）架构搜索范式，直接以三星 Galaxy S25 等手机 CPU 的实测延迟作为优化目标，利用贝叶斯优化与结构化剪枝技术，在 700 亿种架构组合中进行筛选。\n\n实验证明，MobileLLM-Flash 在 350M 至 1.4B 参数规模下均取得领先准确率。其采用“浅而宽”的架构特征并结合跳过注意力机制，成功将 TTFT 压缩至 4 秒这一工业级体验阈值内。该系列模型不依赖定制算子，完全兼容 ExecuTorch 标准运行时，为手机端大规模离线 AI 应用提供了具备高能效比的部署方案。",
          "cover_url": "assets/covers/sys9-mobilellm-flash-e059ee9d6b.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-07T18:37:55+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "SYS8_FlashSampling",
      "slug": "sys8-flashsampling",
      "detail_url": "papers/sys8-flashsampling/",
      "title": "FlashSampling: Fast and Memory-Efficient Exact Sampling",
      "summary": "这篇论文处理的是大词表解码里一个看似简单、但在系统上长期低效的步骤：从语言模型输出分布中采样下一个 token。传统实现通常在 LM head matmul 之后把完整 logits 张量写回 HBM，再单独做 softmax / sampling 或 Gumbel 采样，这会引入额外的显存流量和 kernel 开销，尤其在推理解码阶段很不划算。\n\nFlashSampling 的核心思路是把 exact categorical sampling 直接融合进 LM head matmul，不再显式 materialize 完整 logits。它按 tile 在片上计算 logits，注入 Gumbel 噪声，只保留每个 tile 的候选最大值，最后再做一个很小的跨 tile 归约。关键点在于这仍然是精确采样，不是近似或裁剪式替代；论文还给出在线和张量并行场景下的 grouped exact variants。\n\n它值得收录，因为这是一个很干净、可复用的推理系统 primitive。和很多只在特定框架里做工程技巧堆叠的优化不同，这篇工作直接改写了 large-vocab decoding 里 sampling 这一步的实现边界：把一个带宽受限的后处理步骤压缩进 matmul epilogue。对高吞吐推理、vLLM 类 serving 系统和未来 decoder kernel 设计都有明显外溢价值。\n\n它没有升到更高一级，原因在于它仍然属于推理 kernel/primitive 层的强系统论文，而不是会改变模型训练或架构范式的工作。它的价值在于 exact、通用、工程收益明确，但影响面仍主要集中在解码系统栈。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.15854",
      "collected_at": "",
      "collection_order": 485,
      "source_url": "https://arxiv.org/pdf/2603.15854v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.15854v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R8_Attention_Residuals",
      "slug": "r8-attention-residuals",
      "detail_url": "papers/r8-attention-residuals/",
      "title": "Attention Residuals",
      "summary": "这份技术报告针对现代大模型里一个长期被默认接受但很少被单独重构的组件：残差连接。标准 PreNorm Transformer 会把所有前层输出用固定权重累加到当前层，随着深度增长，这会带来隐藏状态幅度膨胀、层贡献被稀释以及梯度分布不均的问题。Moonshot 团队把这个问题明确提出，并把它从训练稳定性的附属细节提升为一类值得独立设计的架构对象。\n\n报告提出 Attention Residuals（AttnRes），用对前序层表示的输入依赖注意力聚合，替代固定的逐层单位权重累加。为了让这一机制能在大模型预训练中落地，作者又提出 Block AttnRes，把层划分为块，仅在块级表示上做选择性聚合，并结合缓存式通信与两阶段计算策略，降低内存和通信负担，使其成为标准 residual 的可替换实现。\n\n这项工作的价值在于，它不是又一个局部训练技巧，而是直接重构了 Transformer 中默认不被质疑的一段深度聚合逻辑。报告给出了 scaling-law 级别实验、Kimi Linear 48B/3B 激活模型上的 1.4T token 预训练结果，以及科学推理、数学和代码等下游提升，说明这种改动具有明确的可迁移性和系统外溢价值。对仓库来说，它属于模型内部结构与训练稳定性主线里的高价值架构条目。\n\n它没有更高一级，主要因为目前仍是官方技术报告而非经过更广泛社区复核的正式论文；同时，这项工作虽然有明显架构意义，但是否会成为跨家族 Transformer 的默认残差替代，还需要看后续复现、开源复训和外部采用速度。当前更稳妥的定位是高位 breakthrough，而不是更高层级的范式改写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 484,
      "source_url": "https://raw.githubusercontent.com/MoonshotAI/Attention-Residuals/master/Attention_Residuals.pdf",
      "paper_url": "https://raw.githubusercontent.com/MoonshotAI/Attention-Residuals/master/Attention_Residuals.pdf",
      "project_urls": [
        "https://raw.githubusercontent.com/MoonshotAI/Attention-Residuals/master/Attention_Residuals.pdf"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "告别Transformer固定堆叠惯性：月之暗面发布Attention Residuals，让大模型深层网络实现按需读取",
          "url": "https://www.bilibili.com/video/BV1EiwSzfEiM",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1EiwSzfEiM",
            "https://youtu.be/jY8mObgK_dE"
          ],
          "main_collection": "大模型架构与推理",
          "match": "attention residuals",
          "description": "本视频深度解析月之暗面发布的 Attention Residuals (AttnRes) 技术。针对传统 Transformer 架构中残差连接因固定权重导致的层贡献稀释与 PreNorm 陷阱问题，该研究提出利用 Softmax 注意力机制替换简单的加法聚合，使深层网络能够根据输入内容动态提取前序层表征。为解决大规模训练中的内存与通信开销，团队进一步设计了 Block AttnRes 方案，通过区块化处理将系统复杂度从 O(Ld) 降至 O(Nd)。实验证明，该架构在 Kimi Linear 上实现了 1.25 倍的算力等效提升，并在数学、逻辑推理和代码生成等任务中表现优异。报告还详细讨论了该机制在流水线并行训练中的落地策略及边界，为大模型底层架构演进提供了新思路。",
          "x_post": "月之暗面 Kimi 团队发布 Attention Residuals 架构，实现 1.25 倍算力等效提升\n针对传统 Transformer 固定残差连接导致的“PreNorm 陷阱”与层贡献稀释问题，该研究提出以 Softmax 注意力机制取代简单加法聚合，实现层间深度的动态信息检索。\n为解决大规模管线并行训练中的内存墙挑战，团队开发了 Block AttnRes 变体，将系统通信与存储复杂度从 O(Ld) 有效降至 O(Nd)。\n实验基于 Kimi Linear 架构，在 48B 参数规模及 1.4T Tokens 预训练中验证，该方案在数学、逻辑推理与代码生成任务上表现出显著的 Scaling Law 增益。\n目前 Attention Residuals 已在 Kimi 生产环境架构中落地，为深度神经网络突破固定堆叠惯性提供了可扩展的系统级解决方案。",
          "cover_url": "assets/covers/r8-attention-residuals-34ab0abc91.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-17T07:11:25+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R14_Mixture_of_Depths_Attention",
      "slug": "r14-mixture-of-depths-attention",
      "detail_url": "papers/r14-mixture-of-depths-attention/",
      "title": "Mixture-of-Depths Attention",
      "summary": "这篇论文处理的是深层 Transformer 一个很核心但长期被残差连接掩盖的问题：随着深度增加，浅层形成的有用信息会在反复残差更新中逐步被冲淡。标准做法默认每一层只通过当前层序列注意力和固定残差继续传播，而无法显式、动态地从更早的层里把有价值的表示重新读出来。作者试图把“跨层信息访问”从静态残差，升级成真正的数据依赖检索。\n\n论文提出 Mixture-of-Depths Attention（MoDA），让每个注意力头不仅关注当前层的序列 KV，也能同时读取前置层的深度 KV，并在统一 softmax 里完成序列维度与深度维度的联合选择。方法上的亮点不只在架构本身，还在实现：作者通过兼容 FlashAttention 的布局、chunk-aware 与 group-aware 索引等设计，把原本会被非连续访存拖垮的跨层读取做到了接近 FlashAttention-2 的效率，从而让深度注意力不再只停留在纸面。\n\n它值得正式收录，因为这项工作把“深度尺度上的信息路由”从概念层推进到了可训练、可扩展、可高效实现的基础算子。对于深层大模型、长上下文训练以及模型内部信息保真，这是一条很有持续性的路线。相比简单的 dense/residual 变体，MoDA 展示的是一种更通用的 depth-wise retrieval primitive，也与当前仓库关注的模型内部机制、长上下文和高效系统实现高度一致。\n\n它还不到更高一级，原因在于目前证据仍主要集中在 700M 和 1.5B 量级及 400B token 训练设定，尚未证明 MoDA 在更大规模 industrial LLM 上会成为默认深度扩展范式。此外，它解决了信息稀释和跨层读取效率问题，但对极深网络下显存/带宽压力的长期上界仍需更多验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.15619",
      "collected_at": "",
      "collection_order": 483,
      "source_url": "https://arxiv.org/pdf/2603.15619.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.15619.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R10_Strategic_Info_Allocation_Reasoning",
      "slug": "r10-strategic-info-allocation-reasoning",
      "detail_url": "papers/r10-strategic-info-allocation-reasoning/",
      "title": "Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty",
      "summary": "这篇论文试图解释推理模型里一个常被表面化理解的现象：所谓的 Aha moment 或自我纠错，到底是不是由某些特殊 token 直接触发。作者给出的答案是否定的。他们把推理分解成两类信息活动：程序性信息，也就是按步骤执行；以及 epistemic verbalization，也就是把内部不确定性显式外化成文本。\n\n在这个框架下，论文论证了纯程序性推理会出现信息停滞，而认知性语言化能让模型持续获取信息并支持后续控制动作。也因此，真正重要的不是表面上的“Wait”“Hmm”这类词，而是这些词是否承载了真实的不确定性外化和状态评估。论文进一步把这个观点拿来统一解释 Aha moments、LIMO 类蒸馏成败和 post-training 中某些反直觉现象。\n\n它值得收录，因为这是对推理模型一个核心现象的强机制澄清。它没有再提一个新的推理 trick，而是重新界定了模型在不确定性下如何分配文本容量、为什么有些长思维链有效、有些只是冗余。这对 reasoning data construction、distillation、test-time compute 和 post-training 都有直接外溢。\n\n它没有升到更高一级，主要因为它仍是一篇解释框架和信息论分析论文，而不是已经给出新的通用训练范式。它对理解推理很重要，但更接近高价值机制论文，而不是范式替代。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.15500",
      "collected_at": "",
      "collection_order": 482,
      "source_url": "https://arxiv.org/pdf/2603.15500v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.15500v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "揭秘AI为什么会突然“顿悟”？微软联合KAIST揭开大模型自我纠错的信息论黑盒",
          "url": "https://www.bilibili.com/video/BV1gCRXBKEhH",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1gCRXBKEhH",
            "https://youtu.be/l5kPaLMKMys"
          ],
          "main_collection": "大模型架构与推理",
          "match": "understanding reasoning in llms through strategic information allocation under uncertainty",
          "description": "微软研究院联合KAIST与首尔大学，针对大语言模型推理中的“顿悟”现象展开了深入的信息论研究。传统推理过程在偏离正确轨迹后，常因信息停滞而陷入逻辑死循环。该研究提出双轴信息模型，核心在于通过“认知性显性化”将模型内部的不确定性转化为外部可控信号。实验证明，当模型显式表达出Wait或Hmm等不确定性标记时，能有效降低预测熵值并重启有效信息获取，从而实现高成功率的自我纠错。这一发现揭示了长链推理的内在动力学规律，为构建更具反思能力和高鲁棒性的AI系统提供了理论依据。",
          "x_post": "微软研究院联合KAIST揭示LLM“顿悟”机制：通过认知显性化将不确定性转化为纠错信号\n\n传统程序化推理（CoT）在偏离正确轨迹后，常因信息停滞（Informational Stagnant）陷入逻辑死循环。研究提出“双轴信息模型”，将推理过程拆解为程序化执行与认知言语化两个维度。实验证明，“Wait”或“Hmm”等词汇并非简单的表面堆砌，而是模型将内部高熵预测状态显性化的控制信号。数学分析显示，这种显性表达能切实降低目标熵 $H(Y | s_{t-1}, Z_t) < H(Y | s_{t-1})$，从而重启有效信息获取并实现自我纠错。该发现解释了模型微调中的“少即是多”现象，为构建具高鲁棒性与自我反思能力的推理模型提供了信息论支撑。",
          "cover_url": "assets/covers/r10-strategic-info-allocation-reasoning-934a6b5ff5.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-09T21:51:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MAR2_CORAL_Underwater_Monitoring",
      "slug": "mar2-coral-underwater-monitoring",
      "detail_url": "papers/mar2-coral-underwater-monitoring/",
      "title": "CORAL: COntextual Reasoning And Local Planning in A Hierarchical VLM Framework for Underwater Monitoring",
      "summary": "牡蛎礁监测是典型的高风险、高成本海洋生态任务。人工潜水效率低、危险高，而传统 AUV 又主要依赖几何导航，无法理解场景语义。把 VLM 直接做成端到端导航器虽然看起来先进，但会带来推理频繁、动力学失配和误差累积等问题。\n\nCORAL 的方法很干净：高层 VLM 只负责语义层面的 waypoint 选择，底层由 dynamics-aware local planner 完成避障和执行，再用 geometric verification 模块对 waypoint 做校验并在需要时触发重规划。这个分层结构把语义推理和精细运动控制明确解耦，避免把所有控制责任都压给 VLM。\n\n这篇论文的仓库价值在于它给出了一个可迁移的 embodied pattern：让 foundation-model 负责上下文理解和高层意图，让传统/可验证的 planner 负责低层安全执行。它不只适用于水下监测，对其他高风险场景中的语义导航同样有启发。\n\n它暂时不是更高一级，因为实验场景仍然集中在水下牡蛎礁监测，且目前还是预印本阶段。若后续在更广 marine robotics 或一般 embodied exploration 任务上复现，这个分层范式会更稳。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "marine_fisheries_and_coastal_systems",
      "theme_label": "海洋、渔业与海岸系统",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.14786",
      "collected_at": "",
      "collection_order": 481,
      "source_url": "https://arxiv.org/pdf/2603.14786.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.14786.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "深海监测不再“盲目”：CORAL利用分层VLM突破潜水极限，将牡蛎礁覆盖率提升至94.28%",
          "url": "https://www.bilibili.com/video/BV1TmQ1BzE5y",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1TmQ1BzE5y",
            "https://youtu.be/l5jFaCAIqQI"
          ],
          "main_collection": "机器人与具身智能",
          "match": "coral contextual reasoning and local planning in a hierarchical vlm framework for underwater monitoring",
          "description": "针对自主水下机器人（AUV）在复杂牡蛎礁监测中缺乏语义理解、端到端模型计算量大且难以兼顾物理动力学的问题，本文提出CORAL分层导航框架。该系统将高层语义推理与底层反应控制解耦，利用视觉语言模型（VLM）识别目标并规划航点，结合几何验证模块确保路径准确性。底层控制器专注于执行平滑的避障轨迹。实验数据证明，该框架实现了零碰撞监测，将牡蛎礁覆盖率提升至94.28%，同时显著降低了57%的模型调用频率，有效突破了机载算力限制与复杂环境作业的智能化瓶颈。",
          "x_post": "CORAL团队研发分层VLM水下监测框架，实现94.28%覆盖率与零碰撞自主导航\n针对自主水下机器人（AUV）在复杂牡蛎礁监测中语义理解不足、端到端模型计算负担重的问题，本研究提出了CORAL导航框架。该系统通过解耦高层语义推理与低层反应控制，利用视觉语言模型（VLM）进行目标识别与航点规划，并配合底层控制器执行平滑避障。结合几何验证模块与智能触发机制，系统将VLM调用频率降低了57%，并实现监测过程零碰撞。实验数据显示，CORAL将牡蛎礁覆盖率提升至94.28%，较主流DREAM模型优化17.85%，有效解决了机载算力限制下的水下作业智能化瓶颈。",
          "cover_url": "assets/covers/mar2-coral-underwater-monitoring-b9f9336d44.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T22:04:54+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "J10_Seoul_World_Model",
      "slug": "j10-seoul-world-model",
      "detail_url": "papers/j10-seoul-world-model/",
      "title": "Grounding World Simulation Models in a Real-World Metropolis",
      "summary": "这篇论文处理的是 world model 方向里一个很关键但很少被真正解决的问题：如何让世界模拟不再停留在“看起来像真的”虚构环境，而是锚定到现实中真实存在的城市空间。以往视频世界模型大多生成视觉上合理但不对应真实地理结构的场景，而这篇工作把目标直接改成真实城市级别的 long-horizon simulation。\n\n论文提出 Seoul World Model（SWM），把自回归视频生成与检索增强条件结合起来，用附近街景图像为生成过程提供现实锚点。围绕这种 retrieval-grounded world model，作者进一步处理了几个关键难点：参考图像与目标动态场景之间的时间错位、稀疏车辆采集带来的轨迹和视角缺口，以及长程生成时漂移累积。对应地，论文给出了 cross-temporal pairing、大规模合成轨迹数据、视角插值管线，以及用于长程稳定生成的 Virtual Lookahead Sink。\n\n它值得收录，因为它把世界模型从封闭的模拟环境推进到真实城市尺度，并且不是只做静态地图条件视频，而是做带真实空间锚定、可长距离推进、还能支持多样相机运动和文本情境变化的城市级模拟。这对 world model、空间智能、具身导航和真实环境可控生成都有直接外溢价值。相比很多只在合成环境里验证的 world model 论文，这条线更接近未来可部署的真实环境模拟基础设施。\n\n它没有升到更高一级，主要因为当前仍是 arXiv 论文，而且方法的主要贡献在于把 retrieval grounding、数据构造和长程稳定机制有效组合起来，而不是提出一种会统一所有世界模型的新基础范式。它是很强的现实世界 world simulation 工作，但更适合定为 breakthrough。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.15583",
      "collected_at": "",
      "collection_order": 480,
      "source_url": "https://arxiv.org/pdf/2603.15583v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.15583v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW2_DUET_Hybrid_LLM_Accelerator",
      "slug": "hw2-duet-hybrid-llm-accelerator",
      "detail_url": "papers/hw2-duet-hybrid-llm-accelerator/",
      "title": "DUET: Disaggregated Hybrid Mamba-Transformer LLMs with Prefill and Decode-Specific Packages",
      "summary": "这篇论文针对 hybrid Mamba-Transformer 模型提出了一个硬件层面的关键观察：prefill 和 decode 不只是负载不同，而是对架构与封装的需求都不同，因此单一同构加速器很难同时做好两者。对本仓库来说，这正是 AI 硬件设计里最值得关注的“结构性设计结论”。\n\nDUET 的做法是把 prefill 和 decode 分别放到不同 package：prefill 用偏矩阵乘法友好的 systolic-array chiplets，decode 用带高带宽封装内存的 vector-unit arrays。它不只是调度层区分阶段，而是把阶段不对称性直接落实到 package-level disaggregation 与 runtime-configurable hybrid support 上。\n\n它值得正式收录，是因为这提供了一个非常清晰的硬件设计原则：对于混合型大模型，prefill/decode asymmetry 应该成为加速器与封装拆分的一级设计变量。这个结论对 hybrid LLM、芯粒化设计和未来大模型硬件分层都有直接参考价值。\n\n它没有升到更高等级，是因为虽然 insight 很强，但适用范围目前仍主要围绕 hybrid Mamba-Transformer LLM 及其推理阶段拆分，尚未上升到更广泛 AI accelerator 标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.15530",
      "collected_at": "",
      "collection_order": 479,
      "source_url": "https://arxiv.org/pdf/2603.15530.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.15530.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "首字响应提速4倍：DUET架构实现计算与内存物理脱钩，破解混合模型推理瓶颈",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "duet disaggregated hybrid mamba transformer llms with prefill and decode specific packages",
          "description": "针对混合大模型推理中计算与带宽需求不对称的问题，该研究提出DUET架构。核心方法是实现预填充与解码阶段在物理硬件上的彻底解耦，分别为其设计专用的脉动阵列计算引擎与高带宽内存向量引擎。通过Chiplet技术，Prefill端堆叠算力处理大规模矩阵，Decode端则通过HBM3e与状态驻留技术消除数据搬运瓶颈。实验数据显示，在混合模型场景下，该方案相比B200 GPU可实现4倍的首字响应加速及1.4倍的吞吐量提升，有效解决了混合算子带来的资源闲置与性能损耗。",
          "x_post": "DUET研究团队提出混合大模型解耦架构：对比B200实现首字响应提速4倍与1.4倍吞吐提升\n针对混合Mamba-Transformer模型推理中计算与带宽需求的不对称瓶颈，本研究提出DUET物理级解耦架构。该方案通过Chiplet技术分别为Prefill与Decode阶段定制硬件包：Prefill端采用脉动阵列集成GDDR7以堆叠算力密度，Decode端则利用向量单元阵列结合HBM3e消除数据搬运瓶颈。\n微架构层面，DUET引入了支持SSM与矩阵运算双模式切换的PE阵列，并利用状态驻留技术消除外部SRAM读写开销。实验证明，在处理混合算子时，该架构有效解决了资源闲置问题，相比NVIDIA B200 GPU显著降低了首字延迟，并实现1.4倍的吞吐量增长，为长序列混合模型推理提供了高能效加速范式。",
          "cover_url": "assets/covers/hw2-duet-hybrid-llm-accelerator-fdcf84676e.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T07:11:04+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A66_SmartSearch_Conversational_Memory",
      "slug": "a66-smartsearch-conversational-memory",
      "detail_url": "papers/a66-smartsearch-conversational-memory/",
      "title": "SmartSearch: How Ranking Beats Structure for Conversational Memory Retrieval",
      "summary": "这篇论文直指当前对话长期记忆系统的主流路线：很多系统在注入阶段就用 LLM 做摘要、结构化或图谱化，再在查询阶段叠加复杂的语义路由。但作者认为这些环节大多在做昂贵而脆弱的过度加工，真正的瓶颈并不在“如何把记忆整理得更复杂”，而在“检索到的大量候选里，什么证据能在 token 截断之前被排到前面”。\n\n论文提出 SmartSearch，一个几乎完全确定性的原始文本检索流水线：用基于 NER/POS 的 query weighting、grep 式子串匹配和规则化实体扩展做高召回，再把真正的机器学习部分压缩到 CPU 上运行的 CrossEncoder + ColBERT 重排序，并用 score-adaptive truncation 动态决定保留多少上下文。最重要的结论不是某个局部模块更强，而是作者通过消融把“compilation bottleneck”说清了：召回很容易做高，难的是排序和截断。\n\n它值得正式收录，因为这不是又一个记忆 benchmark 小修补，而是对 agent memory / conversational memory workflow 的一次很有价值的纠偏。论文明确说明了在这类任务里，保留原始对话纹理、降低结构化损失、强化轻量级 reranking，往往比构建复杂知识图谱或在检索链路里塞更多 LLM 更有效。这对长期记忆代理、RAG 记忆层、低成本部署和工程实现都具有直接参考价值。\n\n它还不到更高一级，原因在于当前证据主要集中在 LoCoMo 和 LongMemEval-S 这类长对话检索基准，时间推理场景仍有明显短板，而纯 grep/规则方法在更脏、更口语化、更超长的真实语料上是否还能保持同样优势也需要进一步验证。因此它更适合定为 breakthrough，而不是更高阶的方法重排。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.15599",
      "collected_at": "",
      "collection_order": 478,
      "source_url": "https://arxiv.org/pdf/2603.15599.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.15599.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A63_MiroThinker_Verified_Research_Agent",
      "slug": "a63-mirothinker-verified-research-agent",
      "detail_url": "papers/a63-mirothinker-verified-research-agent/",
      "title": "MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification",
      "summary": "研究 agent 这条线里，一个持续存在的问题是：系统可以做很多步骤，但每一步的可靠性和整条推理链的一致性都很脆弱。MiroThinker-1.7 与 H1 把这个问题具体化为 verification at local and global levels，而不是继续单纯堆长上下文或多工具调用。\n\nMiroThinker-1.7 通过强调 structured planning、contextual reasoning 和 tool interaction 的 agentic mid-training 来提高单步可靠性；MiroThinker-H1 则进一步把 verification 显式并入推理流程，在中间步骤做局部校验，在最终结果上做全局审计。这种“推理 + 验证”耦合的方式，比一般 deep research agent 的纯执行堆料更有结构性。\n\n这篇论文值得收录，因为它给出了 heavy-duty research agent 的一个更 durable pattern：不是只靠更多步骤，而是把 verification 嵌进 agent 运行回路本身。这个模式对 research agent、scientific workflow agent，甚至更广的 long-horizon reasoning agent 都有外溢价值。\n\n它没有升到更高一级，原因是当前证据主要还是在研究和分析类任务上，且论文仍偏系统 recipe 与工程验证。verification 方向是对的，但要成为更强层级，还需要证明它能稳定重排更广 agent 设计范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.15726",
      "collected_at": "",
      "collection_order": 477,
      "source_url": "https://arxiv.org/pdf/2603.15726v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.15726v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "超越GPT-5约12%：MiroThinker-H1凭借双重验证机制，在GAIA测试中刷新研究型智能体性能上限",
          "url": "https://www.bilibili.com/video/BV1qyXqBYEff",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1qyXqBYEff",
            "https://youtu.be/QPztzgNKOfQ"
          ],
          "main_collection": "AI智能体",
          "match": "mirothinker 1 7 h1 towards heavy duty research agents via verification",
          "description": "针对传统大模型在长程复杂推理中容易迷失且缺乏外部验证的问题，MiroThinker团队发布了H1系列研究型智能体。该系统核心通过Agentic中期训练强化了规划与工具调用能力，并创新性地引入了局部与全局双重验证机制：在推理过程中实时评估中间决策，并在输出前进行全局证据链审计。实验数据显示，MiroThinker-H1在GAIA基准测试中取得88.5分，超越GPT-5约12.1%，在长线研究任务及双语检索中表现出显著优势。此外，通过滑动窗口上下文管理有效解决了长路径推理中的错误累积，为处理现实高难度研究任务提供了可靠方案。",
          "x_post": "MiroMind Team 发布研究型智能体 MiroThinker-H1，GAIA 基准测试 88.5 分超越 GPT-5 约 12.1%\n针对传统模型在多步长复杂推理中缺乏验证且易产生错误累积的问题，该系统通过 Agentic 中期训练强化了规划与工具调用能力。\n核心引入局部与全局双重验证机制，在推理过程中实时评估中间决策，并在输出前对全局证据链进行审计，确保逻辑严密性。\n实验数据显示，H1 在 SEAL-0 测评中取得 61.3 分的历史高分，在 BrowseComp-ZH 中英双语检索中表现出显著的性能优势。\n配合滑动窗口上下文管理技术，该架构有效解决了长路径推理的效率瓶颈，为高难度研究任务提供了可靠方案。\n目前 MiroThinker-1.7 及其 3B 轻量版已正式开源，旨在为现实环境下的自主研究提供高效生产力工具。",
          "cover_url": "assets/covers/a63-mirothinker-verified-research-agent-43dc0b6af6.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-26T10:55:03+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A61_OpenSeeker_Search_Agent",
      "slug": "a61-openseeker-search-agent",
      "detail_url": "papers/a61-openseeker-search-agent/",
      "title": "OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data",
      "summary": "高性能 search agent 一直被少数工业实验室垄断，一个关键瓶颈不是模型结构，而是高质量训练数据不透明。这篇论文直接对准这个问题，试图把 frontier-level search agent 的训练入口从闭源系统手里拆出来。\n\n作者提出 OpenSeeker，并把核心放在两块：一是 fact-grounded、controllable 的多跳问答合成，通过 web graph 的拓扑扩展和实体扰动构造高复杂度检索任务；二是 denoised trajectory synthesis，用 retrospective summarization 对教师轨迹去噪，提升动作质量。论文强调只用一次 SFT 和约 1.17 万条合成样本，就能把开源 search agent 拉到非常强的水平。\n\n这篇论文的收录价值很明确：它不只是又做了一个 search agent，而是把“可训练的 frontier search 数据生成流程”开放出来。对 agent research 来说，这种数据与训练工作流的开放性具有很强的可复用价值，能实质推动开源 search agent 的可比性和创新速度。\n\n它还不是更高一级，因为当前证据仍集中在 search 这一具体 agent 子方向，且主要依赖合成数据路线。是否能稳定外溢到更广的 tool-use agent、enterprise agent 或 scientific agent，还需要后续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.15594",
      "collected_at": "",
      "collection_order": 476,
      "source_url": "https://arxiv.org/pdf/2603.15594v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.15594v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A48_HSImul3R_Sim_Ready_HSI",
      "slug": "a48-hsimul3r-sim-ready-hsi",
      "detail_url": "papers/a48-hsimul3r-sim-ready-hsi/",
      "title": "HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions",
      "summary": "这篇论文处理的是 embodied AI 里一个关键但长期没有被真正打通的问题：从稀疏视角图片或单目视频重建 human-scene interaction 时，视觉上看着合理的结果往往并不满足物理约束，放进 simulator 就会失稳，从而无法直接用于机器人、仿真或 real-to-sim 工作流。\n\nHSImul3R 的核心是把 physics simulator 变成主动监督信号，做双向的 physics-in-the-loop 优化。在 forward 方向，作者用 scene-targeted reinforcement learning 优化人体动作，同时兼顾 motion fidelity 和接触稳定；在 reverse 方向，用 Direct Simulation Reward Optimization 直接根据重力稳定性与交互成功率等仿真反馈细化场景几何。论文还提出 HSIBench 来系统评测 simulation-ready 的 human-scene interaction reconstruction。\n\n这篇工作值得正式收录，因为它不是又一个看图重建更精细的 4D 感知模型，而是明确把目标改成 simulation-ready reconstruction，直接缩小 perception 和 simulation 之间的断层。对机器人、具身感知、real-to-sim 数据构建和 humanoid interaction modeling 来说，这是一种非常清晰的新工作流模式。\n\n它当前仍是 breakthrough，而不是更高一级，因为证据还主要集中在 human-scene interaction reconstruction 与下游部署可行性，没有进一步扩展成更通用的场景世界模型或大规模机器人训练基础设施。它能否升得更高，要看 HSIBench 和这套 physics-in-the-loop 方案是否被后续社区广泛沿用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.15612",
      "collected_at": "",
      "collection_order": 475,
      "source_url": "https://arxiv.org/pdf/2603.15612v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.15612v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A47_Kimodo_Controllable_Motion",
      "slug": "a47-kimodo-controllable-motion",
      "detail_url": "papers/a47-kimodo-controllable-motion/",
      "title": "Kimodo: Scaling Controllable Human Motion Generation",
      "summary": "Kimodo 处理的是 humanoid robotics、simulation 和 animation 都共同缺少的一块基础设施：高质量、可控、可大规模生成的 3D human motion 数据。过去的文本到动作或约束到动作模型通常受限于小规模公开 mocap 数据，因此在运动质量、控制精度和泛化上都很难真正支撑机器人数据需求。\n\n这篇技术报告提出一个在 700 小时光学 mocap 数据上训练的 kinematic motion diffusion model，并用专门设计的 motion representation 与两阶段 denoiser 分解 root/body 预测，降低 foot skating、floating 等常见伪影。模型同时支持文本、全身关键帧、稀疏关节位置与旋转、2D waypoints 和 dense path 等约束，并直接提供 SOMA 与 Unitree G1 skeleton 上的模型与 authoring demo。\n\n这篇工作值得正式收录，因为它不是普通动作生成论文，而是把 controllable motion generation 明确推向机器人可用的数据生成与 authoring 基础设施。对具身智能和 humanoid learning 来说，它连接了大规模优质运动数据、可控生成接口、以及后续 policy training 的 demonstration pipeline，外溢价值明显强于娱乐向 motion synthesis。\n\n它当前仍是 breakthrough 而不是更高一级，因为核心成果仍集中在离线 motion authoring 和 demonstration generation，本体上还没有闭环到更广泛的 robot control / world model 训练体系。它后续能否进一步上升，要看 Kimodo 是否真正成为 humanoid motion data generation 的标准底座。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 474,
      "source_url": "https://research.nvidia.com/labs/sil/projects/kimodo/assets/kimodo_tech_report.pdf",
      "paper_url": "https://research.nvidia.com/labs/sil/projects/kimodo/assets/kimodo_tech_report.pdf",
      "project_urls": [
        "https://research.nvidia.com/labs/sil/projects/kimodo/assets/kimodo_tech_report.pdf"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A45_POLCA_Generative_Optimization",
      "slug": "a45-polca-generative-optimization",
      "detail_url": "papers/a45-polca-generative-optimization/",
      "title": "POLCA: Stochastic Generative Optimization with LLM",
      "summary": "这篇论文关注的是一个越来越重要的问题：把大语言模型本身当作优化器，用自然语言提案去优化 prompt、agent 配置、代码或系统策略。但这类优化天然存在两个难点，一是评估通常带噪声，二是 LLM 会不断生成语义相近的冗余候选，导致搜索成本膨胀而收敛变慢。\n\nPOLCA 给出的核心框架是用优先级队列管理候选解和评估历史，再用 ε-Net 机制维持参数多样性，并加入一个 LLM Summarizer 在全局历史上做元学习式总结。这样，搜索不再是线性地提出-替换-遗忘，而是变成显式维护探索/利用平衡的随机生成式优化过程。论文还给出理论保证，说明在噪声环境下该框架能够收敛到近似最优候选。\n\n它值得收录，因为它不是单点 prompt optimization，而是在更一般的 stochastic generative optimization 框架下统一处理多类 LLM 优化问题。再加上它横跨 agent optimization、代码转换、CUDA kernel generation 等任务验证，说明这套方法有明显的系统外溢性。对后续自动研究、agent 自优化和程序搜索，这是一条值得保留的高质量路线。\n\n它没有升到更高一级，主要因为它仍是一个方法框架，而不是已经成为行业默认的优化基础设施。理论和实验都很强，但离范式级主导还差一步，因此定为 breakthrough 更稳。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-16",
      "doi": "",
      "arxiv_id": "2603.14769",
      "collected_at": "",
      "collection_order": 473,
      "source_url": "https://arxiv.org/pdf/2603.14769v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.14769v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结大模型优化器的停滞僵局：Google联手威斯康星大学发布POLCA，让AI在随机噪声中捕捉最优解",
          "url": "https://www.bilibili.com/video/BV1hDwfzgEkL",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1hDwfzgEkL",
            "https://youtu.be/yEi1m2-VFxk"
          ],
          "main_collection": "AI智能体",
          "match": "polca stochastic generative optimization with llm",
          "description": "针对大语言模型在复杂系统优化中面临的评估随机性、反馈噪声及搜索空间无序膨胀等挑战，Google联合威斯康星大学提出了POLCA框架。该方案通过引入基于ε-Net的语义过滤机制，有效解决了同质化方案导致的算力浪费，并利用动态优先级记忆平滑随机波动。视频深入分析了算法在处理抽样随机性与主观反馈时的收敛逻辑，结合多项基准测试证明，POLCA能显著提升复杂任务下的优化效率与鲁棒性，为自动提示词工程与智能体进化提供了新路径。",
          "x_post": "Google DeepMind与威斯康星大学发布POLCA：利用ε-Net语义过滤提升随机生成式优化收敛性。\n针对大语言模型在复杂系统优化中面临的反馈噪声及解空间无序膨胀挑战，本研究提出POLCA随机生成式优化框架。该框架引入基于ε-Net的语义过滤机制以截断同质化冗余，并利用动态优先级记忆平滑抽样与系统随机波动。实验表明，POLCA在四项复杂基准测试中均表现出卓越的收敛速度与鲁棒性，可在极少步数内实现性能跃升。理论层面证明了该算法在随机扰动下收敛至近优解的能力，为自动提示词工程与智能体进化提供了高可靠性的自动化路径。",
          "cover_url": "assets/covers/a45-polca-generative-optimization-b3e8b6ae7c.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-20T23:13:35+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T19_M2RNN_Matrix_States",
      "slug": "t19-m2rnn-matrix-states",
      "detail_url": "papers/t19-m2rnn-matrix-states/",
      "title": "M²RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling",
      "summary": "这篇论文针对一个被默认接受了很多年的判断提出了反驳：非线性 RNN 在语言建模里落后，并不一定是因为非线性本身不适合大规模建模，而更可能是因为传统 RNN 的状态容量太小。作者把问题从“是否使用非线性”转向“是否给非线性递归足够大的矩阵值状态空间”，重新打开了非线性 RNN 作为语言模型主干的一条路线。\n\n论文提出 M²RNN，把隐藏状态从向量扩展为矩阵，并把外积式状态扩展机制引入非线性 RNN。这样既保留了非线性状态转移的表达能力，又让状态容量和 Tensor Core 利用率都显著提升。论文还给出混合架构实验，显示即使只在 hybrid recurrent/attention 模型里替换极少数层，也能获得接近全量 M²RNN 的长上下文与状态追踪收益。\n\n它值得收录，因为这不是单纯的架构变体堆分，而是对高效语言建模里一个核心设计选择做了重新归因：问题可能不在非线性，而在状态表示规模。再加上它把复杂性理论、状态追踪泛化、硬件对齐和 7B 级 hybrid 语言建模实验放在一起，外溢价值明显。对后续线性 RNN、SSM、hybrid LM 主干设计，这都是强信号。\n\n它没有升到更高一级，原因在于当前仍主要证明了一条很强的新路线，而不是已经取代 Transformer/linear-recurrent 主线成为默认答案。它的实证规模已不错，但距离“全行业默认主干”的证据还不够，因此更适合作为高位 breakthrough 收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-03-15",
      "doi": "",
      "arxiv_id": "2603.14360",
      "collected_at": "",
      "collection_order": 472,
      "source_url": "https://arxiv.org/pdf/2603.14360v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.14360v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结Transformer与RNN的效率悖论：M²RNN通过矩阵维度扩张，让大规模语言模型在长序列中拥有百分百检索力",
          "url": "https://www.bilibili.com/video/BV1nCwyzUEFa",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1nCwyzUEFa",
            "https://youtu.be/gMQQAs5YI-s"
          ],
          "main_collection": "大模型架构与推理",
          "match": "m rnn non linear rnns with matrix valued states for scalable language modeling",
          "description": "当前大语言模型面临着Transformer推理成本高昂与线性RNN检索能力不足的双重困境。M²RNN（Matrix-to-Matrix RNN）通过将隐状态从一维向量扩张为二维矩阵，从根本上解决了传统RNN状态容量受限的问题。该架构引入了可并行的标量遗忘门与非线性激活函数，在保持O(N)推理复杂度的同时，实现了在复杂状态追踪任务中100%的准确率。实验结果表明，在混合架构中仅需替换少量层，便能在实体追踪和长文本推理任务中显著优于Mamba等线性模型。此外，项目通过定制Triton内核优化了硬件利用率，支持高效的张量并行训练。尽管M²RNN在表达力上跨越了复杂度阶层，但其核心优势仍集中在处理需要强逻辑追踪与长程记忆的序列建模场景中。",
          "x_post": "UC Berkeley及合作团队推出M²RNN：矩阵状态非线性RNN实现100%状态追踪准确率\n\n当前大语言模型面临Transformer推理成本高昂与线性RNN检索能力不足的双重困境，其核心症结在于传统RNN隐状态容量受限。M²RNN（Matrix-to-Matrix RNN）通过外积扩张将隐状态从一维向量提升至二维矩阵，从根本上扩展了模型的记忆容量。\n\n该架构引入可并行的标量遗忘门与非线性激活函数，在理论表达力上实现从TC0到NC1阶层的跨越。实验证明，M²RNN在复杂状态追踪任务中达到100%准确率，且推理复杂度维持在O(N)；配合定制开发的Triton内核，大幅优化了硬件利用率并支持张量并行训练。\n\n研究结果显示，在混合架构中仅需替换极少数层，即可使模型在实体追踪与长序列检索任务中表现优于Mamba等线性模型，为构建高性能、可扩展的非线性序列模型提供了新路径。",
          "cover_url": "assets/covers/t19-m2rnn-matrix-states-df3e07f9a2.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-19T11:15:43+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "J12_V_JEPA_2_1_Dense_Features",
      "slug": "j12-v-jepa-2-1-dense-features",
      "detail_url": "papers/j12-v-jepa-2-1-dense-features/",
      "title": "V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning",
      "summary": "这篇论文针对视频自监督学习里一个很实际的结构性问题：JEPA 类方法在全局语义和时序理解上很强，但只对被遮挡区域施加预测损失时，可见 token 会逐渐失去局部空间结构，退化成服务于全局聚合的载体，导致模型在分割、深度估计和机器人操作这类密集任务上明显吃亏。作者的目标不是再做一个更大的视频表征模型，而是把“全局视频理解”和“局部稠密特征”统一到同一套视频自监督编码器里。\n\n论文提出 V-JEPA 2.1，核心在于四个组件的协同：对可见与被遮挡 token 同时施加的 dense predictive loss、把预测监督下沉到多个中间层的 deep self-supervision、分别适配图像与视频的 multi-modal tokenizer，以及大规模图像/视频混合训练。最关键的新意是上下文 token 也被显式锚定到时空位置，从而修复了标准 JEPA 里局部结构被冲掉的问题；同时又通过距离加权和 warm-up 设计，尽量避免这种局部监督反过来伤到全局动作理解。\n\n这篇值得正式收录，因为它不只是 JEPA 系列的又一次涨点，而是把视频自监督学习从“语义强、密集弱”的不完整表征推进到更可复用的统一接口。它在 Ego4D、EPIC-KITCHENS、NYUv2、机器人抓取和导航等任务上都显示出外溢价值，尤其对 world model、具身智能、视频表征和跨模态视觉基础模型都有直接影响。对这个仓库来说，它更接近一种 durable representation recipe，而不是单纯 benchmark 工程。\n\n它暂时不到更高一级，原因在于方法仍然建立在既有 V-JEPA 主线上，更多是一次非常成功的强化与补齐，而不是彻底重写视频自监督范式。此外，局部与全局监督之间的权衡仍带有较强经验性，复杂分割场景上也还未完全压过最强图像基座，因此目前定在 breakthrough 更稳。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-03-15",
      "doi": "",
      "arxiv_id": "2603.14482",
      "collected_at": "",
      "collection_order": 471,
      "source_url": "https://arxiv.org/pdf/2603.14482.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.14482.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A60_Scientific_Taste_RLCF",
      "slug": "a60-scientific-taste-rlcf",
      "detail_url": "papers/a60-scientific-taste-rlcf/",
      "title": "AI Can Learn Scientific Taste",
      "summary": "这篇论文关注 AI scientist 研究中一个长期被忽视但非常关键的问题：模型不仅要会执行科研任务，还要具备对研究方向、研究问题和潜在影响力的判断力，也就是作者所说的 scientific taste。相比现有工作主要优化检索、实验执行或论文生成，这篇论文把科研品味本身提升为可学习、可评估、可对齐的对象。\n\n方法上，论文提出 Reinforcement Learning from Community Feedback (RLCF) 框架，把大规模社区反馈转成偏好监督。作者先用 70 万组按时间和领域匹配的高引/低引论文对训练 Scientific Judge，再把它作为 reward model 去对齐 Scientific Thinker，使模型能够提出更有潜在影响力的研究想法。这个 framing 的重点不是再造一个执行 agent，而是把“选题判断”正式写成 preference modeling 和 alignment 问题。\n\n这篇论文值得收录，因为它把 AI scientist 的研究重点从“能不能做”前移到了“该不该做、值不值得做”。这种前移会外溢到研究 agent、科学发现工作流、社区反馈对齐和长期自主科研系统，是一个可复用的问题定义和训练范式，而不是某个窄 benchmark 上的提分技巧。\n\n它目前还不是更高一级，因为 scientific taste 仍然主要通过 citation 和社区偏好做代理信号，离真正的科研价值判断还有距离；同时论文验证的是“研究想法质量”而不是完整的端到端科学发现闭环。它已经足够新、足够硬，但还没有彻底改写 AI scientist 主线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-15",
      "doi": "",
      "arxiv_id": "2603.14473",
      "collected_at": "",
      "collection_order": 470,
      "source_url": "https://arxiv.org/pdf/2603.14473v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.14473v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "拒绝盲目做实验：复旦清华联合推出RLCF，让AI在70万次社区反馈中炼就“科学品味”",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "ai can learn scientific taste",
          "description": "当前的AI在实验执行上表现出色，但在判断研究价值的“科学品味”上仍有欠缺。复旦大学与清华大学等团队联合提出RLCF（社区反馈强化学习）训练范式，将70万对基于引用量排序的论文数据转化为监督信号，构建了SciJudgeBench基准测试。通过GRPO算法训练的Scientific Judge模型在科研评判准确率上达到80.6%，超越了GPT-5.2等主流模型，并展现出卓越的跨学科泛化与未来预测能力。以此为奖励模型训练出的Scientific Thinker能够自主生成高潜力的研究设想，标志着AI正从单纯的科研执行者向具备科学远见的决策者迈进。",
          "x_post": "复旦清华等团队推出 RLCF 范式，Scientific Judge 在 70 万项社区反馈中实现 80.6% 评判准确率\n针对 AI 缺乏识别高价值科研方向“科学品味”的问题，OpenMOSS 团队提出基于社区反馈的强化学习（RLCF）训练范式。\n该方法利用 70 万对经变量控制的论文引用排序数据构建 SciJudgeBench，并采用 GRPO 算法训练生成式奖励模型。\n实验结果显示，SciJudge-30B 模型在科研价值评判上的准确率达 80.6%，在跨学科泛化及未来预测任务中均优于 GPT-5.2 等闭源模型。\n借助该判别能力，训练出的 Scientific Thinker 能够自主提出更具学术影响力的创新设想，推动 AI 从科研执行向具备科学远见的决策者转变。",
          "cover_url": "assets/covers/a60-scientific-taste-rlcf-e504897807.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T03:52:43+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A59_Distributed_Discovery_Artifact_Exchange",
      "slug": "a59-distributed-discovery-artifact-exchange",
      "detail_url": "papers/a59-distributed-discovery-artifact-exchange/",
      "title": "Autonomous Agents Coordinating Distributed Discovery Through Emergent Artifact Exchange",
      "summary": "这篇论文把 AI scientist 的一个关键瓶颈说得很清楚：现有很多系统仍是静态、中心化、手工编排的 pipeline，多 agent 之间很少真正通过共享产物与可追溯 lineage 形成开放式协作。它试图把问题从“如何做一个更强的单体 AI scientist”改成“如何让独立 agent 在共享科学生态中无中心地协调发现过程”。\n\nScienceClaw + Infinite 的核心设计不是再加几个角色，而是把 artifact 当成协调媒介。系统围绕三个部件组织：300+ scientific skills 的可扩展 registry、保存完整计算 lineage 的 artifact DAG，以及带 provenance-aware governance 的 agent scientific discourse 平台。agent 不靠中心规划器串接，而是通过 open needs、artifact lineage 和 schema-overlap 触发 plannerless coordination 与多父合成。\n\n这篇工作符合本仓库对 agent-driven scientific workflows 的高优先级，因为它贡献的是一个 durable workflow pattern：技能注册表、artifact DAG、共享需求索引、以及以 artifact exchange 为中心的协作机制。它对 AI scientist、科研自动化平台、agent governance 和可审计研究流水线都有明显外溢。\n\n它仍然只是 breakthrough。原因是目前仍属于早期系统框架，虽然结构上很强，但是否能在更多科学领域稳定产生高质量 emergent coordination，仍需要更广和更长周期的验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-15",
      "doi": "",
      "arxiv_id": "2603.14312",
      "collected_at": "",
      "collection_order": 469,
      "source_url": "https://arxiv.org/pdf/2603.14312.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.14312.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "麻省理工实现AI科学家群体协作，SCIENCECLAW集成300余种技能让分布式发现成为现实",
          "url": "https://www.bilibili.com/video/BV1m1ogBDEG7",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1m1ogBDEG7",
            "https://youtu.be/BNO2A-EbS_4"
          ],
          "main_collection": "AI智能体",
          "match": "autonomous agents coordinating distributed discovery through emergent artifact exchange",
          "description": "麻省理工学院研究团队针对科研自动化中缺乏跨学科协作的局限，推出了SCIENCECLAW+INFINITE分布式科学发现框架。传统AI助手依赖人类指令且难以处理闭环研究，而该系统集成了300余种跨学科技能，利用“压力评分”驱动的无中心反应器，使独立智能体能通过不可篡改的构件层自主交换数据并验证假设。在蛋白质设计与材料筛选等案例中，异构智能体群通过涌现效应产生了显著的科研洞察。这一成果标志着AI从单一辅助工具演变为具备持续性、可溯源且能自演化的独立科研生态，大幅提升了大规模科学探索的效率。",
          "x_post": "麻省理工学院（MIT）发布 SCIENCECLAW + INFINITE 架构，通过 300 余种跨学科技能实现去中心化自主科学发现。\n\n针对传统 AI 助手依赖人类指令且难以处理跨学科闭环研究的局限，该研究构建了一个由异构智能体组成的自主协作系统。核心机制采用 ArtifactReactor 无中心反应器，集成 300+ 跨学科技能工具箱，并通过 SHA-256 内容哈希确保计算链条的不可篡改与精准溯源。实验在蛋白质设计、材料筛选等 4 个真实领域进行了量化验证，证明“压力评分”驱动的智能体群能自主产生涌现性科研洞察。这一范式标志着 AI 从被动工具演变为具备持续性、可溯源且自演化能力的独立科研生态。",
          "cover_url": "assets/covers/a59-distributed-discovery-artifact-exchange-97d8289393.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-23T20:35:02+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A155_D_MEM_Agentic_Memory",
      "slug": "a155-d-mem-agentic-memory",
      "detail_url": "papers/a155-d-mem-agentic-memory/",
      "title": "D-MEM: Dopamine-Gated Agentic Memory via Reward Prediction Error Routing",
      "summary": "长程 LLM agent memory 的一个现实瓶颈，是很多 append-and-evolve 体系在写入和结构更新时很快走向高 token 开销和平方级延迟。随着记忆规模增长，真正需要解决的已不是‘能不能存’，而是哪些输入值得触发代价高昂的认知重组。\n\nD-MEM 的核心贡献，是用 reward prediction error 风格的 fast/slow routing 去管理记忆写入。它先用轻量 Critic Router 评估 surprise 和 utility，把低 RPE 的常规输入直接旁路或放入 O(1) buffer，而把高 RPE 的事实冲突、偏好变化等输入送入较慢的 memory evolution pipeline 去重塑知识图谱。论文还补上了 LoCoMo-Noise 这一更贴近真实对话噪声条件的评测设定。\n\n它值得正式收录，因为这不是普通 memory schema，而是 memory-control primitive。对 agent memory 系统而言，什么时候触发昂贵的结构更新、如何把短期缓存和长期重组分层，是一类会反复出现的核心问题；D-MEM 给出了一套清楚、可复用且代价模型明确的答案。\n\n它没有升到更高一级，是因为当前主要证据仍集中在对话型长程记忆 benchmark 和作者定义的噪声设定，跨更多 agent workflow 与真实部署生态的外部采用还不够。现阶段它是很强的 memory-routing 方案，但还没到更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-15",
      "doi": "",
      "arxiv_id": "2603.14597",
      "collected_at": "",
      "collection_order": 468,
      "source_url": "https://arxiv.org/pdf/2603.14597.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.14597.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "借鉴哺乳动物多巴胺门控机制：D-MEM 通过 RPE 路由彻底终结大模型长记忆的计算灾难",
          "url": "https://www.bilibili.com/video/BV1dHDvBQEnq",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1dHDvBQEnq",
            "https://youtu.be/BvF8lrGSkyY"
          ],
          "main_collection": "AI智能体",
          "match": "d mem dopamine gated agentic memory via reward prediction error routing",
          "description": "针对大语言模型智能体在长期对话中面临的计算开销指数级增长（O(N^2)灾难）与信息噪声干扰问题，本研究提出受生物学启发的D-MEM记忆架构。该系统模拟哺乳动物大脑中由多巴胺调控的奖励预测误差（RPE）机制，引入轻量级批判路由器。通过量化输入信息的语义惊奇度与长期效用，D-MEM能够动态过滤占比约95%的无用信息，仅对关键事实触发深度记忆演化，其余则进入快速缓存或直接忽略。实验证明，该方法在保持多跳推理能力的同时，成功降低了80%以上的Token成本，并显著提升了智能体在复杂环境下的记忆抗噪性。",
          "x_post": "UC San Diego 与卡内基梅隆大学提出 D-MEM 架构，通过多巴胺门控机制降低大模型 80% 记忆成本\n针对长序列对话中 $O(N^2)$ 计算冗余与信息噪声瓶颈，D-MEM 模拟哺乳动物大脑的奖励预测误差（RPE）机制。系统利用轻量级批判路由器量化输入的语义惊奇度与长期效用，将记忆更新从“全量进化”转为按需触发。实验数据表明，该架构能有效过滤约 95% 的无用信息，在维持多跳推理性能的前提下，降低 API Token 消耗逾 80%。此外，研究者推出 LoCoMo-Noise 基准，验证了该方案在复杂嘈杂环境下的高抗噪性与计算效率，为终身学习智能体提供了新的记忆管理范式。",
          "cover_url": "assets/covers/a155-d-mem-agentic-memory-7ac92a5849.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-06T09:25:12+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A153_Cryptographic_Agent_Governance",
      "slug": "a153-cryptographic-agent-governance",
      "detail_url": "papers/a153-cryptographic-agent-governance/",
      "title": "Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use",
      "summary": "随着 agent 开始动态获取工具、组织子 agent 并跨组织边界执行任务，真正的问题已经不只是 prompt injection，而是 capability 本身如何被绑定、验证和审计。现有 agent framework 往往把工具定义、用户上下文和执行声明都塞进同一 token stream，导致 orchestration 层缺少可证明的 capability semantics。\n\n这篇工作的核心贡献，是把 governed agent ecosystem 形式化为 capability integrity、behavioral verifiability 和 interaction auditability 三类要求，并进一步给出 cryptographic binding、replay-based verification 与可替换 crypto instantiation 的架构实现。论文还提供 chain verifiability 与 bounded divergence 两个结构性结果，把 agent tool use 的治理问题从经验性工程补丁提升为可推理的系统边界模型。\n\n它值得正式收录，因为这不是又一个 narrow guardrail，而是 agent governance primitive。对本仓库已收录的 governed execution、workflow verification、guardrails infrastructure 主线来说，它补上了 capability provenance 和 interaction-level verification 这一层，具备明显的长期基础设施价值。\n\n它没有升到更高一级，是因为当前仍主要以方案完整性、攻击检测和低开销实验来证明可行性，外部生态默认采用还没有形成。现阶段它更像一个很强的 governed-tool-use blueprint，而不是已经成为行业默认边界模型的事实标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-15",
      "doi": "",
      "arxiv_id": "2603.14332",
      "collected_at": "",
      "collection_order": 467,
      "source_url": "https://arxiv.org/pdf/2603.14332.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.14332.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "封堵智能体“静默越权”：Genupixel 密码学治理框架，以 97 微秒延迟重塑信任根基",
          "url": "https://www.bilibili.com/video/BV1vsDGBHEcL",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1vsDGBHEcL",
            "https://youtu.be/0yAYw0pnjRA"
          ],
          "main_collection": "AI安全与对齐",
          "match": "governing dynamic capabilities cryptographic binding and reproducibility verification for ai agent tool use",
          "description": "本视频深入探讨 AI 智能体在动态工具调用中面临的“静默越权”风险，并介绍 Genupixel 提出的 A2Auth 密码学治理框架。该框架基于能力与上下文分离原则，确立了能力完整性、行为可验证性与交互可审计性三大核心指标。通过扩展 X.509 证书嵌入技能清单哈希，并结合零知识证明与推理重现技术，A2Auth 实现了对智能体行为的实时加密绑定。实验数据表明，该方案在仅 97 微秒的验证延迟下，能有效拦截工具篡改与模型替换等攻击，在性能、安全与隐私之间取得了平衡，为构建可信的多智能体协作生态提供了架构支撑。",
          "x_post": "Genupixel团队发布A2Auth治理框架：解决AI智能体动态越权风险，验证延迟仅97微秒\n\n当前AI智能体在动态调用工具时面临“静默能力提升”风险，传统四层安全架构难以有效检测运行时的权限漂移。Genupixel提出的A2Auth框架基于能力与上下文分离原则，通过扩展X.509证书嵌入技能清单哈希，并结合推理重现技术确立行为可验证性。实验数据显示，该框架能在低于0.02%的极低治理开销下，实现100%拦截工具篡改、模型替换等12类核心攻击。研究进一步揭示了智能体治理中能力、性能与安全的三难困境，为多智能体协作生态提供了可核验的密码学信任根基。",
          "cover_url": "assets/covers/a153-cryptographic-agent-governance-a74b9dc48a.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-04T16:02:44+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "EN4_SAGE_Grid_Battery_Aging",
      "slug": "en4-sage-grid-battery-aging",
      "detail_url": "papers/en4-sage-grid-battery-aging/",
      "title": "SAGE: Synthetic Aging for a Grid Environment",
      "summary": "电网级储能系统的老化问题具有多年尺度、强耦合电热反馈和显著资产异质性，但现实世界中很少有可开放获取、长期连续、物理一致的数据可以支持算法开发。这使很多 degradation-aware optimization、digital twin 和 machine learning 工作缺乏稳定 benchmark 与 ground truth。\n\nSAGE 提供的是一个 physics-informed synthetic aging environment。它把环境驱动、市场调度、电热行为、老化动力学和资产级异质性耦合到一个可外部参数化的开源框架中，生成小时级、多十年跨度的 BESS 运行与退化轨迹。论文还通过分层物理一致性测试验证框架，包括 Arrhenius 温度加速、热分层与磨损统计等。\n\n按仓库标准，这类论文属于高价值 AI-enabling infrastructure。它不是直接做一个特定 controller，而是补上 grid-scale energy storage 里长期缺位的 simulation substrate，让 optimization、state estimation、ML 和 digital twin research 可以在统一平台上进行可复现比较。对能源系统 AI 来说，这种平台型工作流比单个调度算法更有长期价值。\n\n它没有更高一级，因为当前贡献主要在 enabling environment 和 benchmark substrate 层，而不是已经用该框架重写真实电网储能运营方式。它更像一块关键底座，而不是现成部署范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "energy_water_and_infrastructure_systems",
      "theme_label": "能源、水与基础设施",
      "published_at": "2026-03-14",
      "doi": "",
      "arxiv_id": "2603.13976",
      "collected_at": "",
      "collection_order": 466,
      "source_url": "https://arxiv.org/pdf/2603.13976.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.13976.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL30_Dream2Fix_Manipulation_Recovery",
      "slug": "rl30-dream2fix-manipulation-recovery",
      "detail_url": "papers/rl30-dream2fix-manipulation-recovery/",
      "title": "Learning Actionable Manipulation Recovery via Counterfactual Failure Synthesis",
      "summary": "机器人操作系统已经能完成越来越复杂的抓取与装配任务，但真正难落地的地方往往不是成功执行，而是失败后能否安全、低成本地恢复。现有 failure-learning 路线通常依赖真实失败数据采集或 simulator perturbation，两者分别受制于成本/安全和明显的 sim-to-real gap。\n\n这篇工作的关键新意是 Dream2Fix：它不从模拟器里合成粗糙错误，而是从成功真实演示出发，在 generative world model 中做动作扰动，生成成对的 counterfactual failure-correction rollouts，再通过任务有效性、视觉一致性和运动学安全的结构化验证机制筛掉不可用样本。基于得到的 12 万级高保真 paired dataset，作者再微调 VLM，让模型直接从视觉异常预测失败类型和可执行的恢复轨迹。\n\n它值得正式收录，因为真正可复用的价值不只是 manipulation accuracy 提升，而是提供了一个从成功演示自动构造 recovery training data 的 durable workflow。对具身智能和 long-horizon robot control 来说，这是一条比直接采集真实失败数据更可扩展的 failure-to-recovery learning pattern，也把 generative world model 与 closed-loop recovery 更紧地接到了一起。\n\n它没有升到更高一级，是因为当前证据仍主要集中在 manipulation failure recovery 这一子线，且真实世界验证规模还不足以证明它会改写更广义的 embodied learning default。现阶段更像一条很强的方法和数据生成接口，而不是整个机器人学习范式的重写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-13",
      "doi": "",
      "arxiv_id": "2603.13528",
      "collected_at": "",
      "collection_order": 465,
      "source_url": "https://arxiv.org/pdf/2603.13528v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.13528v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "破解视觉大模型“眼高手低”：Dream2Fix 通过 12 万合成数据，让机器人真正学会从失败中自我救赎",
          "url": "https://www.bilibili.com/video/BV1r1SoBQEJU",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1r1SoBQEJU",
            "https://youtu.be/ah51NYdQhOQ"
          ],
          "main_collection": "AI安全与对齐",
          "match": "learning actionable manipulation recovery via counterfactual failure synthesis",
          "description": "针对视觉语言动作模型在物理世界中缺乏自主纠错能力的挑战，Dream2Fix 提出了一种基于反事实失败合成的数据生成框架。该方法直接从少量真实成功演示中提取轨迹，通过在关键帧注入动作扰动并利用生成式世界模型，合成超过 12 万组具备物理一致性的失败案例及其修正轨迹。为克服生成数据的幻觉问题，研究引入了涵盖任务有效性、视觉连贯性与运动学安全性的三维验证机制。实验证明，该框架能提供高质量、低成本的监督信号，使机器人无需在现实中冒险采集失败数据，即可实现从故障诊断到轨迹级精准恢复的跨越，显著缩小了仿真与现实的差距。",
          "x_post": "Texas A&M 等团队提出 Dream2Fix 框架，通过 12 万合成数据实现机器人自主纠错\n\n视觉语言动作模型（VLA）在物理执行中常因缺乏纠错能力导致任务中断，而真实故障数据采集存在成本高与硬件损伤风险。Dream2Fix 提出一种反事实失败合成框架，通过在成功演示轨迹中注入动作扰动，利用生成式世界模型合成逼真的失败案例。该研究生成了超过 12 万组具备物理一致性的修正轨迹，并引入任务有效性、视觉连贯性及运动学安全性的三维验证机制以剔除生成幻觉。实验证明，该方法能为机器人提供精准的轨迹级修正方案，显著提升了其在现实场景中的闭环纠错成功率。",
          "cover_url": "assets/covers/rl30-dream2fix-manipulation-recovery-9a353d755d.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-06T09:20:41+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM30_Feynman_Diagramming_Agent",
      "slug": "mm30-feynman-diagramming-agent",
      "detail_url": "papers/mm30-feynman-diagramming-agent/",
      "title": "Feynman: Knowledge-Infused Diagramming Agent for Scalable Visual Designs",
      "summary": "问题与背景：高质量、知识密集且图文严格对齐的视觉设计数据非常稀缺，尤其是面向数学、科学和计算机领域的示意图、结构图和关系图。互联网虽然有大量图像和文本，但真正适合训练视觉推理模型的 diagram-caption 对并不多。Feynman 要解决的是如何用 agent pipeline 低成本、大规模地生成语义一致且布局多样的专业图示数据。\n\n方法/新意：作者构建了一个 diagramming agent：先枚举领域知识要素与“ideas”，再进行代码规划，把这些 ideas 翻译成 Penrose 可渲染的 declarative programs，并在渲染反馈回路中不断修正视觉设计。Penrose 的优化式渲染既保留语义结构，又引入布局多样性，最终得到 10 万级 diagram-caption pairs，并进一步整理出 Diagramma 这一面向视觉推理的评测集。\n\n意义/放在仓库中的位置：这篇工作适合放在 multimodal / agentic data generation / visual reasoning 主线。它的价值不只是一个画图系统，而是给出了一条相当清晰的 agentic synthetic-data workflow：知识枚举、程序规划、可执行渲染、反馈修正，再反过来生成 benchmark。对 diagram reasoning、结构化视觉设计、科学图示数据构建都很有工程和研究外溢性。\n\n局限/为何不再升一级：它的优势主要仍集中在 diagram domain，而不是通用视觉生成或更广的多模态 agent 系统。虽然工作流本身值得借鉴，但还需要更多跨域复用证据来证明它是更大范围的数据生成蓝图，因此先定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-13",
      "doi": "",
      "arxiv_id": "2603.12597",
      "collected_at": "",
      "collection_order": 464,
      "source_url": "https://arxiv.org/pdf/2603.12597.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.12597.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决高质量科学绘图的规模化生产瓶颈：FEYNMAN流水线实现从构思到渲染全闭环",
          "url": "https://www.bilibili.com/video/BV18T9jBcEFp",
          "platform_urls": [
            "https://www.bilibili.com/video/BV18T9jBcEFp",
            "https://youtu.be/UsbZsJMDa4Y"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "feynman knowledge infused diagramming agent for scalable visual designs",
          "description": "本视频介绍旨在解决高质量科学绘图规模化瓶颈的新型AI代理FEYNMAN。传统扩散模型在处理科学原理图时常伴随视觉幻觉与排版逻辑缺失，FEYNMAN通过将大模型的知识提取能力与专业渲染引擎的表达能力解耦，构建了包含构思、规划、迭代、渲染的四步自动化闭环。系统利用多模态模型作为视觉评审员进行闭环反馈，通过最优化能量函数重塑空间排版。研究团队基于此生产了超十万组高质量图文对数据集，并推出DIAGRAMMA基准测试。实验证明，该方法在保证学术严谨性的同时显著提升了生成多样性，并揭示了当前模型在复杂抽象图表推理上的局限。",
          "x_post": "卡内基梅隆大学（CMU）发布 FEYNMAN 绘图代理，实现 10 万+ 高质量科学原理图自动化生产\n\n针对传统扩散模型在科学绘图中存在的视觉幻觉与排版逻辑缺失，FEYNMAN 提出将 LLM 的知识提取能力与专业渲染引擎的表达能力解耦。系统构建了“构思、规划、迭代、渲染”的四步自动化闭环，利用多模态模型作为视觉评审员，结合能量函数最优化算法解决空间排版难题。基于此流程，团队生产了超 10 万组高质量图文对数据集，并推出 DIAGRAMMA 基准测试以评估多模态模型的视觉推理能力。对 17 种主流模型的实验评测证实，当前 AI 在理解复杂抽象图表方面仍面临挑战，FEYNMAN 则为科学视觉设计的规模化提供了有效路径。",
          "cover_url": "assets/covers/mm30-feynman-diagramming-agent-95a425a3e4.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-29T16:43:11+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM23_Cheers_Unified_Multimodal",
      "slug": "mm23-cheers-unified-multimodal",
      "detail_url": "papers/mm23-cheers-unified-multimodal/",
      "title": "Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation",
      "summary": "这篇论文针对统一多模态模型里一个长期存在但很难同时兼顾的问题：视觉理解和视觉生成虽然都想共享同一个多模态主干，但两者对视觉表征和解码方式的要求并不一致。理解更希望得到稳定、紧凑、语义明确的视觉 token，而生成又需要保留足够的局部纹理和高频细节。如果把这两种需求硬压在同一套 patch 表征上，通常会出现理解和生成互相牵制的问题。\n\nCheers 的核心做法是把 patch-level 细节和语义表征显式解耦。它先用统一视觉 tokenizer 把图像 latent 压缩成语义 token，供 LLM 条件化和多模态理解使用；在生成侧，再通过级联的 flow matching head 先还原语义，再把来自 vision tokenizer 的细节残差信号按语义门控方式注入回去，从而在不污染语义空间的情况下恢复高频视觉内容。这样，同一个系统既能做理解，又能做生成和编辑，同时把 token 开销显著压低。\n\n这篇论文值得收录，因为它不是普通的多模态一体化工程堆叠，而是对统一多模态模型里最核心的张力之一给出了清楚、可复用的结构性答案：把语义建模与细节恢复分层处理。这个思路对后续统一多模态理解/生成系统、视觉 tokenizer 设计、低 token 成本高分辨率建模都有明显外溢价值。论文给出的 4x token compression，以及在 GenEval 和 MMBench 上达到或超过强基线、同时只需约 20% 训练成本，也强化了它的实用价值。\n\n它没有升到更高一级，主要因为当前仍是 arXiv 阶段，而且贡献更像一篇高质量架构方法论文，而不是已经重排整个统一多模态路线的范式级工作。它的核心价值在于一个很好的结构设计和效率/性能平衡，而不是已经证明会成为所有统一模型的默认主干。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-13",
      "doi": "",
      "arxiv_id": "2603.12793",
      "collected_at": "",
      "collection_order": 463,
      "source_url": "https://arxiv.org/pdf/2603.12793v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.12793v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "破解多模态理解与生成的底层矛盾：CHEERS通过语义像素解耦，定义统一视觉模型新高度",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "cheers decoupling patch details from semantic representations enables unified multimodal comprehension and generation",
          "description": "多模态模型长期面临视觉理解与图像生成在表示优化上的冲突，强行融合往往导致性能干扰。本视频详细解析 CHEERS 架构，其核心通过语义像素解耦技术打破模态壁垒。模型集成了统一视觉分词器、基于 Qwen2.5 的语言大脑及级联流匹配头，并引入 Pixel Unshuffle 实现 4 倍令牌压缩。实验证据显示，通过门控细节残差注入，CHEERS 在 Chart QA 和 OCR 任务中性能大幅提升，解决了传统潜空间重构导致细粒度特征丢失的问题。在保持高保真生成质量的同时，其训练成本仅为同类先进模型的五分之一，为构建轻量化、统一化的视觉基座模型提供了新路径。",
          "x_post": "清华/西交大/国科大发布CHEERS：语义像素解耦将多模态训练成本降至同类1/5\n多模态模型长期面临抽象语义理解与精细像素生成之间的表示优化冲突。CHEERS通过解耦视觉特征，构建了集成统一视觉分词器、Qwen2.5-1.5B骨干及级联流匹配头的架构。模型利用Pixel Unshuffle技术实现4倍令牌压缩，并引入门控细节残差以保留细粒度特征。实验结果显示，像素重构技术使Chart QA由13.9提升至42.1，OCRBench由2.5提升至31.5。在保持高保真生成质量的同时，其训练成本仅为同类先进模型的五分之一，为构建轻量化统一视觉基座提供了新路径。",
          "cover_url": "assets/covers/mm23-cheers-unified-multimodal-da620846aa.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-21T22:40:58+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "J11_LeWorldModel_Stable_Pixel_JEPA",
      "slug": "j11-leworldmodel-stable-pixel-jepa",
      "detail_url": "papers/j11-leworldmodel-stable-pixel-jepa/",
      "title": "LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels",
      "summary": "这篇论文针对 JEPA 系世界模型长期存在的一个核心问题：一旦直接从像素端到端训练 encoder 和 dynamics predictor，模型很容易发生 representation collapse，因此现有方法往往依赖多项损失、EMA、冻结预训练编码器或额外监督信号来维持稳定性。这样虽然能工作，但训练配方复杂、超参数多，也削弱了 JEPA 作为简洁统一世界模型框架的吸引力。\n\nLeWorldModel（LeWM）的核心贡献是把端到端像素 JEPA 压缩成一个更干净的两项训练目标：下一时刻 embedding 预测损失，加上一个促使 latent 服从各向同性高斯分布的 SIGReg 正则项。作者强调它不需要 stop-gradient、EMA、预训练 encoder 或辅助 reconstruction/reward 信号，并把可调损失超参数从现有端到端替代方案的六个缩到一个；同时 15M 参数模型可以在单卡上训练，并直接用于 latent planning。\n\n这项工作值得收录，因为它不是普通 control benchmark 提升，而是在 JEPA/world model 主线上给出了一条更稳定、更低门槛的端到端像素学习路线。论文在多种 2D/3D 控制任务上展示了与 foundation-based world models 竞争的结果，并声称在规划速度上最高可快 48 倍；此外还通过物理量 probing 和 surprise evaluation 说明 latent space 确实学到了有用的物理结构。对仓库而言，它更像是 JEPA 从表征学习向可规划世界模型延伸的一篇关键方法论文。\n\n它暂时还不到更高一级，原因也很明确：当前证据主要集中在模拟控制任务和与现有 JEPA/world model 方法的对比，离真正重排更广机器人或多模态世界模型路线还有距离。它证明了稳定端到端 JEPA 是可行的，但是否会成为更广泛采用的默认配方，还需要更多真实机器人、长时序和跨域验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-03-13",
      "doi": "",
      "arxiv_id": "2603.19312",
      "collected_at": "",
      "collection_order": 462,
      "source_url": "https://arxiv.org/pdf/2603.19312v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.19312v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "仅需15M参数与单张GPU：LeWorldModel通过极简架构实现48倍加速，重塑像素级世界模型",
          "url": "https://www.bilibili.com/video/BV1doXFBZEue",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1doXFBZEue",
            "https://youtu.be/m-WAVgSmh2s"
          ],
          "main_collection": "机器人与具身智能",
          "match": "leworldmodel stable end to end joint embedding predictive architecture from pixels",
          "description": "针对现有JEPA架构在从像素学习时易发生特征崩溃、过度依赖复杂超参数的问题，LeWorldModel（LeWM）提出了一种基于SIGReg正则化的极简解决方案。该模型仅含1500万参数，支持在单张GPU上进行端到端训练。其核心是通过随机投影和统计检验，强制隐空间特征呈各向同性高斯分布，从而在无需指数移动平均（EMA）或梯度停止等繁琐技巧的情况下，从根本上防止表征崩溃。实验数据表明，LeWM在多项2D与3D机器人控制任务中表现稳健，且规划速度较主流大模型架构提升约48倍，实现了高效率与物理常识推理能力的平衡。",
          "x_post": "Mila 与 NYU 团队发布 LeWorldModel：15M 参数实现像素级世界模型 48 倍加速\n现有联合嵌入预测架构 (JEPA) 在从原始像素学习时易发生表征崩溃，且高度依赖 EMA 等复杂启发式技巧。\n研究提出 LeWorldModel (LeWM)，核心引入 SIGReg 正则化项，通过随机投影强制隐空间特征呈各向同性高斯分布，实现端到端稳定训练。\n实验数据表明，该模型仅需 1500 万参数与单张 GPU，在机器人控制任务中的规划速度较主流大模型架构提升约 48 倍。\nLeWM 证明了通过极简架构与数学约束，可在无预训练编码器的情况下，实现具备物理常识推理能力的稳健智能体开发。",
          "cover_url": "assets/covers/j11-leworldmodel-stable-pixel-jepa-d0d9a1206e.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T03:53:05+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW16_BenDFM_Sheet_Metal_DFM",
      "slug": "hw16-bendfm-sheet-metal-dfm",
      "detail_url": "papers/hw16-bendfm-sheet-metal-dfm/",
      "title": "BenDFM: A taxonomy and synthetic CAD dataset for manufacturability assessment in sheet metal bending",
      "summary": "这篇论文聚焦产品级机械设计里最实际也最缺数据支撑的问题之一：在 CAD 阶段尽早判断零件在具体制造工艺下是否可制造、制造难度有多高。现有学习式 DFM 工作要么 manufacturability 定义混乱，要么数据只覆盖可制造样本，导致模型难以学习真正有用的边界。\n\n论文的核心贡献有两部分。第一，它把 manufacturability 指标按 configuration dependence 和 measurement type 做了更清晰的 taxonomy，帮助后续工作区分“工艺无关约束”与“设备/工装相关约束”。第二，它提出 BenDFM，这是一套面向 sheet metal bending 的 process-aware synthetic CAD dataset，包含 2 万个可制造与不可制造样本，并提供 folded/unfolded 几何和多种 manufacturability 标签。\n\n对这个仓库来说，它的价值不在单次模型成绩，而在于它把 learning-based DFM 从模糊概念推进到较清晰的任务定义和数据基线。这正好补上了 `CAD / MCAD / DFM` 方向的明显空白，后续无论是设计代理、可制造性评估模型，还是 ECAD-MCAD 协同，都可以把它当成更稳的起点。\n\n它没有被定到更高一级，是因为当前贡献仍主要集中在 taxonomy + dataset + baseline，工艺范围也限定在 sheet metal bending。它还没有像更成熟的 design automation workflow 论文那样，把评估、优化、仿真和设计迭代完整闭环起来。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-03-13",
      "doi": "",
      "arxiv_id": "2603.13102",
      "collected_at": "",
      "collection_order": 461,
      "source_url": "https://arxiv.org/pdf/2603.13102.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.13102.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "“能不能做”还是“有多难做”？BenDFM重定义钣金评估维度，让AI精准识别物理碰撞与加工冗余",
          "url": "https://www.bilibili.com/video/BV1jKXtBqEv2",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1jKXtBqEv2",
            "https://youtu.be/kdtdEju8k5A"
          ],
          "main_collection": "AI硬件设计",
          "match": "bendfm a taxonomy and synthetic cad dataset for manufacturability assessment in sheet metal bending",
          "description": "针对深度学习在制造设计（DFM）领域面临的定义模糊与失败数据匮乏问题，本研究提出了 BenDFM 框架。该框架通过“配置依赖性”与“测量类型”两个维度，将制造性重新定义为四个象限，明确区分了物理硬约束（可行性）与工程成本（复杂性）。配套发布的合成 CAD 数据集包含 20,000 个具有完美平衡性的成功与失败案例，有效解决了工业数据库中的“幸存者偏差”。视频详细介绍了五步参数化生成引擎及其在识别钣金折弯过程中的物理碰撞、自交叠及加工冗余方面的表现，为工业 AI 的早期设计验证提供了重要的理论框架与数据基准。",
          "x_post": "根特大学团队发布 BenDFM 框架：通过 2 万个合成 CAD 模型规范化钣金折弯制造性评估指标\n\n针对深度学习在面向制造的设计（DFM）中因定义模糊和“幸存者偏差”导致的失败数据匮乏问题，本研究提出了一套全新的分类学框架。该框架从“配置依赖性”与“测量类型”两个维度，将制造性划分为可行性（物理硬约束）与复杂性（工程成本）四个象限。配套发布的 BenDFM 数据集包含 20,000 个独立 CAD 模型，实现了成功与失败案例 50/50 的比例平衡，并完整覆盖 3D 折叠形态与 2D 展开图。基准测试结果证明，该框架能有效辅助 AI 识别物理碰撞、自交叠及加工冗余，为工业设计早期的自动化验证提供了重要的理论支持与数据基础。",
          "cover_url": "assets/covers/hw16-bendfm-sheet-metal-dfm-dfd3063553.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T06:33:38+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "G4_FDFO_RL_T2I",
      "slug": "g4-fdfo-rl-t2i",
      "detail_url": "papers/g4-fdfo-rl-t2i/",
      "title": "Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models",
      "summary": "这篇论文处理的是文本到图像模型后训练里一个已经很重要、但代价很高的问题：如何用强化学习直接优化图像质量和文本对齐。现有做法通常把扩散或流匹配采样过程拆成多步策略决策，把每一步都当作动作来估计策略梯度，但这样会带来很高的更新方差，训练既慢又容易出现 reward hacking 伪影。\n\n论文提出 Finite Difference Flow Optimization（FDFO），把整条采样轨迹视为单一动作，而不是多步 MDP。具体做法是从同一个初始噪声出发采样一对微扰轨迹，用最终生成图像的差值和奖励差来构造有限差分方向，再把这个更平滑的宏观信号回传到流速度更新中。这个设计显著提高了信噪比，也避开了逐步策略梯度在长生成链上的高噪声问题。\n\n它值得收录，因为这不是一个小技巧型 RL 调参，而是对 diffusion/flow model post-training 的动作建模方式做了更合适的重述。把整条生成过程当作单一动作去优化，比机械沿用标准 MDP 拆步更符合图像生成的结果导向结构。论文同时展示了很强的实用收益：训练收敛更快、输出质量和 prompt alignment 更高，而且能明显减轻训练后期的奖励破解与网格伪影。对生成模型后训练和基于 VLM reward 的对齐路线都有直接外溢。\n\n它没有升到更高一级，原因在于这仍然是后训练优化层的方法改进，而不是重新定义整个文本到图像生成路线的基础架构。它更像一篇很强的 post-training 算法论文：价值高、可复用、效果硬，但还没有到会重排生成模型主干范式的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-03-13",
      "doi": "",
      "arxiv_id": "2603.12893",
      "collected_at": "",
      "collection_order": 460,
      "source_url": "https://arxiv.org/pdf/2603.12893v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.12893v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "伯克利英伟达解决AI绘图崩溃：FDFO实现指数级加速，让画面告别塑料感",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "finite difference flow optimization for rl post training of text to image models",
          "description": "UC伯克利与英伟达团队针对文生图扩散模型，推出了名为FDFO（有限差分流优化）的强化学习后训练新方法。针对传统方法将采样过程切碎导致高噪声、画面塑料感及奖励劫持等问题，FDFO将整体采样轨迹视为单一动作，通过成对轨迹探测实现精准定向优化。实验表明，该方法实现了指数级收敛加速，并在显著提升提示词对齐度的同时消除了视觉伪影。这一突破为扩散模型的性能微调提供了更稳健的替代方案，让AI绘画告别逻辑崩坏，生成的图像更符合人类审美。",
          "x_post": "UC Berkeley 与 NVIDIA 团队发布 FDFO：通过有限差分实现文生图模型 RL 后训练指数级加速\n\n针对传统扩散模型后训练（如 DDPO、Flow-GRPO）中因多步随机试探导致的高更新方差、训练缓慢及奖励劫持伪影问题，研究团队提出有限差分流优化（FDFO）。该方法将图像生成的完整采样轨迹视为单一动作，通过成对轨迹探测（Paired Trajectory Probing）实现精准的定向优化。\n\n实验结果表明，FDFO 在收敛速度上实现指数级提升，并显著增强了提示词对齐度。与现有 SOTA 算法相比，该方案能有效抑制长时训练中出现的逻辑崩坏与“塑料感”伪影，确保生成的图像更符合人类审美且保持物理逻辑一致。这一突破为扩散模型的性能微调提供了一个性质稳定且高效的替代框架。",
          "cover_url": "assets/covers/g4-fdfo-rl-t2i-02fa32418e.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-12T12:03:51+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A71_ARL_Tangram_Agentic_RL_Infra",
      "slug": "a71-arl-tangram-agentic-rl-infra",
      "detail_url": "papers/a71-arl-tangram-agentic-rl-infra/",
      "title": "ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning",
      "summary": "agentic RL 和传统 RL 最大的系统差异，不在训练循环本身，而在外部资源依赖：代码执行要占 CPU，reward model 和 verifier 可能跑在独立 GPU 池里，轨迹执行又会因为工具调用和环境交互拉长生命周期。现有框架通常按任务或轨迹做静态过配，这让外部资源长期被锁死，成为 agentic RL 训练扩展的真实瓶颈。\n\nARL-Tangram 提出的核心不是单点调度优化，而是 action-level orchestration。它把外部资源使用从长生命周期 trajectory 粒度切到更细的 action 粒度，用统一动作抽象和 elastic scheduling algorithm 去最小化 action completion time，并针对异构 CPU/GPU 资源和不同拓扑设计配套 resource managers，使资源能在 heterogeneous workloads 间细粒度共享和弹性回收。\n\n这篇工作的价值在于它把 agentic RL 的系统问题清晰地重新表述了出来：真正需要被调度的不是 trajectory，而是 action graph 上不断变化的外部依赖。这个 framing 对 agent training infra、tool-using RL、以及带 verifier/executor 的后训练系统都有明显复用价值，不是一次性的集群工程 patch。\n\n它目前仍是 breakthrough，而不是更高一级，因为验证和 deployment 证据仍主要围绕 MiMo 系列及一组具体 agentic RL workloads，距离成为更广泛 post-training / agent training 基础设施默认蓝图还有距离。它对非 agentic RL、通用 serving 或更开放企业 agent workflows 的泛化也还需要更多公开证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-13",
      "doi": "",
      "arxiv_id": "2603.13019",
      "collected_at": "",
      "collection_order": 459,
      "source_url": "https://arxiv.org/pdf/2603.13019.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.13019.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "从轨迹锁定到动作池化：ARL-Tangram重构资源调度范式，助力MIMO系列模型高效完成强化学习",
          "url": "https://www.bilibili.com/video/BV1QZXTB3EeQ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1QZXTB3EeQ",
            "https://youtu.be/_qPgn-kSIQ4"
          ],
          "main_collection": "AI智能体",
          "match": "arl tangram unleash the resource efficiency in agentic reinforcement learning",
          "description": "智能体强化学习（Agentic RL）由于需要频繁调用外部环境和奖励模型，常面临严重的算力浪费问题。研究发现，传统的轨迹级或任务级资源锁定导致CPU闲置率达53%，GPU活跃度甚至不足3%。为解决这一瓶颈，北京大学与小米联合推出ARL-Tangram系统。该系统实现了从粗放管理向微观“动作级”编排的范式重构。通过打散长生命周期的环境状态并引入统一动作池化机制，系统实现了异构资源的弹性调度与精细化共享。实验证明，该方案在不影响模型性能的前提下，将动作执行速度提升至4.3倍，并削减了71.2%的外部资源开销。目前，该系统已在小米MiMo系列大模型训练中规模化部署，验证了其在复杂智能体训练场景下的高效性与可靠性。",
          "x_post": "北京大学与小米推出ARL-Tangram：动作级调度使强化学习外部资源节省71.2%\n智能体强化学习（Agentic RL）由于频繁调用外部环境，轨迹级资源锁定常导致CPU闲置53%及GPU活跃度不足3%。\nARL-Tangram引入动作级调度范式，通过打散环境状态与统一动作池化，实现异构资源的精细化弹性共享。\n实验表明，该系统将动作执行速度提升至4.3倍，并在不影响模型性能的前提下削减了71.2%的外部资源开销。\n目前，该系统已成功应用于小米MiMo系列大模型训练，为复杂智能体交互场景提供了高效的资源调度支持。",
          "cover_url": "assets/covers/a71-arl-tangram-agentic-rl-infra-7cd1166eef.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-26T17:36:10+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A62_EnterpriseOps_Gym",
      "slug": "a62-enterpriseops-gym",
      "detail_url": "papers/a62-enterpriseops-gym/",
      "title": "EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings",
      "summary": "企业环境里的 agent 评测长期偏弱，一个根本问题是现有 benchmark 很少真正覆盖持久状态、权限约束、多工具调用和长程计划这些现实企业场景最难的部分。EnterpriseOps-Gym 正面把这个缺口做成了环境级 benchmark。\n\n论文构建了一个带有 164 张数据库表、512 个工具和 1150 个专家任务的容器化 sandbox，覆盖客服、人力、IT 等关键业务垂类。更重要的是，它不仅测任务成功率，还显式测 infeasible task refusal、planning consistency 和 side effects，把“企业 agent 可部署性”从演示层推进到了更接近真实 operating constraint 的评测层。\n\n这篇论文值得正式收录，因为它重新定义了 enterprise agent 应该怎样被测。很多 agent benchmark 只测静态答题或轻量工具调用，而这篇工作把 persistent state、policy friction 和 long-horizon planning 合在一起，具有很强的评测外溢价值。\n\n它暂时不是更高一级，因为目前核心贡献仍然是 benchmark 和诊断框架，而不是新的通用 agent 训练机制。它非常重要，但更像一篇高质量评测基础设施论文，而不是直接改写 agent 方法主线的论文。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-13",
      "doi": "",
      "arxiv_id": "2603.13594",
      "collected_at": "",
      "collection_order": 458,
      "source_url": "https://arxiv.org/pdf/2603.13594v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.13594v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T18_Neural_Thickets",
      "slug": "t18-neural-thickets",
      "detail_url": "papers/t18-neural-thickets/",
      "title": "Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights",
      "summary": "这篇论文挑战了一个默认前提：后训练是否真的在学习全新能力，还是更多在预训练权重附近选择已经潜伏存在的任务专家。作者提出 large pretrained models 并不只对应一个单点解，而是位于一个局部高密度的“专家丛林”之中；当预训练足够强时，对权重做小幅随机扰动，就可能落到不同任务的可用专家上。\n\n方法上的核心不是复杂优化，而是一个刻意极简的后训练基线 RandOpt：围绕预训练权重随机采样多个扰动，选出更优候选，再做集成。论文显示，这种几乎不依赖梯度优化的简单过程，在若干任务上能够逼近甚至比肩标准 post-training 方法。它真正新的是把 post-training 重新解释为对预训练邻域中潜在行为的选择，而不是总要通过昂贵优化去发明新行为。\n\n这项工作值得收录，因为它对后训练、对齐和能力形成机制给出了一个很强的问题重述。它不只是提出一个小 trick，而是在追问 RLHF、PPO、GRPO 一类方法到底在做什么，这对后训练研究、模型编辑和权重空间理解都有直接外溢价值。对于仓库来说，它属于高信号的理论/机制型突破。\n\n它还不到更高一级，原因是当前主要证据集中在特定模型和任务上的权重邻域分析，是否能普遍解释更广泛的大模型后训练过程，还需要更多模型族、尺度和方法学验证。因此目前更稳的定位是高位 breakthrough，而不是已经坐实的 disruptive。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.12228",
      "collected_at": "",
      "collection_order": 457,
      "source_url": "https://arxiv.org/pdf/2603.12228.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.12228.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL3_Auto_Gen_RL_Environments",
      "slug": "rl3-auto-gen-rl-environments",
      "detail_url": "papers/rl3-auto-gen-rl-environments/",
      "title": "Automatic Generation of High-Performance RL Environments",
      "summary": "这篇论文针对强化学习基础设施中的一个长期低效环节：把复杂环境从参考实现翻译成高性能可训练后端，往往需要数月专门工程工作。作者直接把这个问题当作可自动化的软件与系统生成任务，目标不是再做一个环境，而是自动生成语义等价且高吞吐的 RL 环境实现。\n\n方法上，论文提出一套可复用 recipe，包括通用 prompt 模板、分层验证和 agent-assisted iterative repair，用来自动合成高性能环境实现。实证覆盖 direct translation、against-existing-implementation translation 和 new-environment creation 三种工作流，并在多个环境上给出非常硬的速度结果。真正的价值不只是某个环境变快，而是“高性能 RL 环境生成”本身开始被标准化。\n\n这项工作值得收录，因为它明显改变了 RL 基础设施的构建方式。它不是单纯优化某个 simulator，而是把高性能环境实现从人工系统工程转成可复用的自动化流程，这对 RL 研究效率、环境扩展和 agentic systems for software engineering 都有直接价值。对于仓库来说，这是高价值系统条目。\n\n它还不到更高一级，原因是当前证据虽然强，但主要集中在少数代表性环境和特定实现栈上；这套 recipe 是否能稳定迁移到更广泛、更复杂的 RL 环境生态，还需要更多独立验证。因此目前更稳的定位是 breakthrough。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.12145",
      "collected_at": "",
      "collection_order": 456,
      "source_url": "https://arxiv.org/pdf/2603.12145.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.12145.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "普林斯顿大学刷新训练效率：10美元算力实现2万倍提速，AI全自动生成RL环境",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "automatic generation of high performance rl environments",
          "description": "普林斯顿大学团队针对强化学习中环境模拟占据超70%算力的瓶颈，提出了一种利用AI智能体自动生成高性能环境的新方法。该方案通过百万级Token上下文智能体配合分层验证机制，能将原生Python代码自动重构为JAX或Rust实现。实验证明，仅需不到10美元的算力成本，即可将环境运行效率提升最高2万倍，使模拟耗时在训练周期中的占比降至4%以下。这一技术将原本耗时数月的底层工程优化缩短至数小时，消除了环境模拟的性能枷锁，为大规模高效强化学习训练提供了通用且低成本的基础设施方案。",
          "x_post": "普林斯顿大学利用AI智能体自动生成高性能RL环境，10美元算力实现最高2万倍提速\n\n针对强化学习中环境模拟占据约72%算力的瓶颈，普林斯顿大学团队提出了一种全自动生成高性能环境引擎的新范式。该方法利用百万级Token上下文智能体，将原生Python代码重构为高性能的JAX或Rust实现。\n\n核心创新在于构建了从局部属性到宏观策略迁移的四层分层验证体系（L1-L4），确保生成环境与原始环境在语义上完全等价。实验数据显示，该方案仅需不到10美元成本，即可将环境运行耗时在训练周期中的占比降至4%以下。\n\n这一进展将原本耗时数月的人工工程缩短至数小时，为消除RL训练中的计算枷锁提供了通用且低成本的基础设施自动化方案。",
          "cover_url": "assets/covers/rl3-auto-gen-rl-environments-45a5a4f3d4.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-11T11:57:07+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL17_Continual_VLA_RL",
      "slug": "rl17-continual-vla-rl",
      "detail_url": "papers/rl17-continual-vla-rl/",
      "title": "Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning",
      "summary": "continual RL for VLA 直觉上应该很难，因为传统 continual learning 经验会预期 sequential fine-tuning 带来明显灾难性遗忘。这篇论文的价值就在于它系统性地检验了这个假设，并给出一个反直觉结果：对大型预训练 VLA 来说，简单的 sequential fine-tuning 加 LoRA 和 on-policy RL 可能已经足够强。\n\n作者在三个 VLA 模型和五个 lifelong RL benchmark 上比较 continual RL 策略，发现 Seq. FT 在高 plasticity、低 forgetting 和 zero-shot generalization 上都表现异常稳健，常常优于更复杂的方法。论文进一步把原因归纳为大预训练模型、参数高效适配和 on-policy RL 三者的协同，实际上重塑了 stability-plasticity trade-off。\n\n这篇工作符合本仓库对 deployment-time / continual adaptation 和 robotics / VLA 的扩展重点，因为它不是单纯涨点，而是在重写“continual VLA learning 需要多复杂”的研究 framing。对于 embodied agents 的持续学习，这个结论比再发一个复杂算法更有长期价值。\n\n它不更高一级，是因为这条结论目前仍建立在特定 benchmark 组合和现有 VLA family 上。它是很强的 empirical clarification，但还没有完全变成跨平台、跨任务的定律。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.11653",
      "collected_at": "",
      "collection_order": 455,
      "source_url": "https://arxiv.org/pdf/2603.11653.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.11653.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让机器人像人类一样在实践中不断进化，极简 Seq. FT 方案攻克“灾难性遗忘”并实现 90% 成功率",
          "url": "https://www.bilibili.com/video/BV18go5BwEcE",
          "platform_urls": [
            "https://www.bilibili.com/video/BV18go5BwEcE",
            "https://youtu.be/pA4zCwgN_Rc"
          ],
          "main_collection": "机器人与具身智能",
          "match": "simple recipe works vision language action models are natural continual learners with reinforcement learning",
          "description": "UT Austin、UCLA、NTU 与 Sony AI 联合研究具身智能领域，针对机器人学习新技能时易产生“灾难性遗忘”的痛点，即学了新任务就忘记旧任务。研究团队提出 Seq. FT 方案，核心在于让百亿参数的预训练 VLA 模型结合 LoRA 适配技术，并通过在策略强化学习实现平缓进化。实验证明，这一极简方案在多项机器人操纵任务中实现了 90% 的平均成功率，在不依赖复杂算法的情况下表现更稳健、泛化性更强。这标志着具身智能体能像人类一样在实践中持续进化，无需频繁“回炉重造”，为构建通用机器人提供了高效路径。",
          "x_post": "UT Austin、UCLA、NTU 与 Sony AI 联合提出极简 Seq. FT 方案，实现机器人 VLA 模型持续学习 90% 成功率\n具身智能在持续强化学习（CRL）中长期面临“灾难性遗忘”挑战，即获取新技能时易导致旧任务性能崩溃。该研究挑战了传统复杂防御机制的必要性，提出一种基于大语言-视觉-动作模型（VLA）的极简序列微调框架。\n其核心配方结合了百亿参数预训练模型、LoRA 参数高效微调以及 GRPO 在策略强化学习。实验显示，这种 Seq. FT 方案在无需额外记忆体或权重限制的情况下，于五项机器人操纵任务中取得约 90% 的平均成功率，在稳健性与零样本泛化上全面超越了 DWE (86%) 和 ER (85%) 等主流持续学习算法。\n研究结论表明，大型预训练权重与轻量化适配器的结合能天然缓解稳定性与可塑性的冲突。这为构建无需频繁“回炉重造”、具备自我进化能力的通用具身智能体提供了一条高效且简洁的技术路径。",
          "cover_url": "assets/covers/rl17-continual-vla-rl-c4b24a3197.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-24T12:03:28+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM20_Spatial_TTT",
      "slug": "mm20-spatial-ttt",
      "detail_url": "papers/mm20-spatial-ttt/",
      "title": "Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training",
      "summary": "这篇论文处理的是流式视觉空间智能的核心问题：面对无界视频流，模型如何持续维护、更新并组织 3D 空间证据，而不是只依赖更长上下文窗口。作者把问题从“长上下文视频理解”推进到“持续空间记忆与结构化更新”，这比普通视频问答或短视频理解更接近真实世界中的在线空间认知。\n\n方法上，Spatial-TTT 把 test-time training 引入空间视频建模，通过一套 hybrid architecture 在滑窗注意力之外更新一组 fast weights，用来持续吸收和组织全局 3D 空间信号。论文还引入 spatial-predictive 机制与 3D 时空卷积，鼓励模型在长时程视频中保持几何对应和时间连续性；同时构建带稠密 3D 空间描述的数据集，为 test-time updates 提供结构化监督。\n\n这项工作值得收录，因为它把 TTT 从一般分布自适应扩展到 streaming spatial intelligence，并明确瞄准在线 3D 世界理解这个更强目标。对多模态空间智能、视频世界建模、在线记忆和测试时自适应都有直接外溢价值。相较普通视觉 benchmark 论文，它更像一个问题重述加方法推进的组合。\n\n它还不到 disruptive，原因是当前证据主要建立在所构建的数据与任务设置上，是否能成为更广泛视频-3D 世界建模的通用路线还需要跨任务验证。现阶段更准确的定位是一篇高质量 breakthrough。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.12255",
      "collected_at": "",
      "collection_order": 454,
      "source_url": "https://arxiv.org/pdf/2603.12255.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.12255.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "突破Transformer架构的长序列瓶颈：清华大学用3:1混合架构，实现低成本且连续的3D推理",
          "url": "https://www.bilibili.com/video/BV1WjAKz2Ess",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1WjAKz2Ess",
            "https://youtu.be/qwju9h0hPT8"
          ],
          "main_collection": "机器人与具身智能",
          "match": "spatial ttt streaming visual based spatial intelligence with test time training",
          "description": "针对多模态大模型在处理长视频流时面临的显存爆炸与信息断层问题，清华大学提出Spatial-TTT框架。该方法创新性地采用3:1混合架构，引入测试时训练（TTT）技术，通过在线更新“快速权重”构建非线性空间记忆。为解决硬件并行效率与时空连续性之间的矛盾，研究者设计了大分块更新策略与滑动窗口注意力机制，并融入3D时空卷积先验以精准捕捉几何特征。实验证明，该架构在保持语义推理能力的同时，显著提升了长时程视频的3D空间感知效率，为具身智能与机器人导航提供了流式处理的新范式。",
          "x_post": "清华大学推出 Spatial-TTT 框架，采用 3:1 混合架构在长序列视频流中实现先进空间智能表现\n传统多模态大模型在处理长视频流时，常受限于注意力机制的显存瓶颈与 3D 几何先验的缺失。针对此问题，Spatial-TTT 引入测试时训练（TTT）技术，通过在线更新“快速权重”构建非线性空间记忆机制。\n该架构由 75% TTT 层与 25% 注意力锚点层组成，并创新性采用 2648 Token 的大分块更新策略与滑动窗口注意力，显著提升了硬件并行效率与时空连续性。此外，模型融入 3D 时空卷积先验以增强对物体位置与运动的精准感知。\n实验结果表明，该方法在多项视频空间基准测试中达到先进水平。这为具身智能与机器人导航提供了一种低成本、无界连续的流式推理新范式，有效解决了长时程视频中的信息丢失难题。",
          "cover_url": "assets/covers/mm20-spatial-ttt-aec4aa958a.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-22T00:29:10+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM19_HouseMind_Floor_Plans",
      "slug": "mm19-housemind-floor-plans",
      "detail_url": "papers/mm19-housemind-floor-plans/",
      "title": "Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans",
      "summary": "这篇论文关注一个很典型但长期被低估的问题：结构化空间设计任务并不只是图像生成，而是同时涉及几何约束、语义关系和层级组织。以建筑平面图为例，现有扩散模型和语言模型虽然能提升视觉质量，却常常在空间一致性、可控编辑和符号推理上表现不足。\n\n作者提出 HouseMind，把房间实例离散化为专门的 token，构造统一词表来连接视觉布局和符号推理，再通过多模态对齐与指令微调，使模型既能理解平面图，也能根据文本进行生成与编辑。核心新意不在单一任务表现，而在于它把“结构化空间设计对象应如何 token 化”这个问题放到中心位置，用 tokenization 作为统一理解、生成和编辑的接口。\n\n这项工作对仓库有价值，因为它不只是建筑平面图应用，而是展示了一条对结构化视觉-空间任务非常有潜力的路线：把离散对象 token 设计成 MLLM 的原生操作单元。这个想法对布局生成、场景编辑、CAD 交互和其他符号-几何混合任务都可能有外溢性，因此它更像一个可迁移的方法论尝试，而不只是窄领域 demo。\n\n它没有升到更高一级，原因在于当前验证场景仍然比较集中，主要集中在 floor plan 这一任务域。要进一步上升，需要看到这种 tokenization 思路在更广空间设计或三维场景理解任务中的复用效果。现阶段更准确的定位是：生成式与多模态设计交叉处的一篇高质量突破论文。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.11640",
      "collected_at": "",
      "collection_order": 453,
      "source_url": "https://arxiv.org/pdf/2603.11640v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.11640v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "像写代码一样设计建筑：清华首创 HouseMind 框架，将二维户型降维成一维序列公式",
          "url": "https://www.bilibili.com/video/BV1pC5a6PEnW",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1pC5a6PEnW",
            "https://youtu.be/FZAbfVrtYUY"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "tokenization allows multimodal large language models to understand generate and edit architectural floor plans",
          "description": "清华大学与加州大学伯克利分校团队在建筑空间智能领域取得突破，联合推出HouseMind框架。针对传统AI在户型设计中缺乏全局逻辑、生成不可控及算力消耗大等痛点，该研究利用VQ-VAE技术将复杂的二维户型离散化为特定空间标记，将设计过程转化为类似写代码的一维序列生成。实验证明，该模型能精准遵循自然语言指令，在维持几何有效性与语义一致性上表现卓越。HouseMind首次统一了空间的理解、生成与编辑流程，且支持本地端侧部署，为实现高效、可控的辅助建筑设计提供了新路径。",
          "x_post": "清华与UC Berkeley发布HouseMind：通过空间标记化实现建筑户型统一生成与编辑\n针对传统AI在户型设计中存在的全局逻辑缺失、生成不可控及算力开销大等局限，HouseMind框架提出了一种全新的空间智能表征方案。\n该研究利用VQ-VAE技术将二维几何离散化为一维空间标记（Tokens），将复杂的建筑布局转化为可由大模型处理的自回归序列。\n核心采用双支路架构，先提取8×8全局轮廓标记，再填充独立房间标记，通过三阶段训练确保语义与几何的高度对齐。\n实验结果证明，HouseMind在维持几何有效性与逻辑一致性方面表现优异，能够精准响应自然语言编辑指令。\n作为首个统一空间理解、生成与编辑的模型，其紧凑的架构支持本地端侧部署，为实时可控的辅助建筑设计提供了高效路径。",
          "cover_url": "assets/covers/mm19-housemind-floor-plans-712e417cbb.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-13T15:43:45+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM18_OmniStream_Streaming_Visual_Backbone",
      "slug": "mm18-omnistream-streaming-visual-backbone",
      "detail_url": "papers/mm18-omnistream-streaming-visual-backbone/",
      "title": "OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams",
      "summary": "问题与背景：视觉基础模型往往被切成静态图像语义、离线视频建模和几何重建等不同系统，难以形成统一、实时、可行动的 streaming visual backbone。\n\n方法/新意：OmniStream 引入因果时空注意力、3D-RoPE 和 persistent KV-cache，支持连续视频流的逐帧在线处理，并通过多任务预训练同时覆盖静态表征、几何重建、视频理解和动作相关任务。\n\n意义/放在仓库中的位置：这篇论文属于 streaming perception / unified vision backbone / embodied visual foundation model 主线。它不是单 benchmark 冲分，而是在验证单一 backbone 跨语义、空间、时间推理的可行性。\n\n局限/为何不再升一级：它仍然主要是视觉基础骨干论文，虽然方向重要，但还没有重排更大范围视觉路线图。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.12265",
      "collected_at": "",
      "collection_order": 452,
      "source_url": "https://arxiv.org/pdf/2603.12265v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.12265v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "上海交大发布 OmniStream：实现 29 项任务零微调部署，赋予 AI 实时流媒体感知力",
          "url": "https://www.bilibili.com/video/BV1w3546DEog",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1w3546DEog",
            "https://youtu.be/L0Htilqz8H0"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "omnistream mastering perception reconstruction and action in continuous streams",
          "description": "上海交通大学团队近期发布了 OmniStream，这是一个面向连续视频流的通用视觉基座模型。针对传统 AI 在处理现实视频流时存在的延迟高、显存压力大以及缺乏三维空间感等痛点，该模型引入了因果时空注意力机制与 3D 旋转位置编码，并支持 KV-cache 技术实现高效的增量计算。实验证明，OmniStream 在保持主干网络冻结的情况下，无需任何微调即可直接部署于图像探测、几何重建、复杂推理及机器人操控等 29 项任务中。这项成果显著提升了 AI 处理长视频的效率与精度，为具身智能体实现端到端的通用视觉理解迈出了重要一步。",
          "x_post": "上海交大发布 OmniStream：实现 29 项任务零微调部署，构建通用流式视觉基座\n针对连续视频流处理中的高延迟与显存压力，OmniStream 引入因果时空注意力机制与 3D 旋转位置编码 (3D-RoPE)，支持利用 KV-cache 实现高效的在线增量计算。该模型通过在 29 个数据集上进行多任务预训练，统一了静态语义、时间动态与几何重建等表征维度。实验表明，在主干网络参数完全冻结的情况下，OmniStream 无需微调即可直接应用于物体探测、三维几何重建及具身机器人操控等任务。该工作证明了构建兼顾语义与时空推理的通用视觉核心的可行性，为交互式智能体提供了实时的端到端视觉感知方案。",
          "cover_url": "assets/covers/mm18-omnistream-streaming-visual-backbone-a5e6c6081c.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-11T12:12:20+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM17_O3N_Occupancy",
      "slug": "mm17-o3n-occupancy",
      "detail_url": "papers/mm17-o3n-occupancy/",
      "title": "O3N: Omnidirectional Open-Vocabulary Occupancy Prediction",
      "summary": "这篇论文针对具身智能和自动驾驶场景里的一个核心问题：如何在 360 度、开放词汇、仅视觉输入的条件下，对三维场景进行统一的占据与语义重建。现有 occupancy prediction 方法通常依赖有限视角和封闭类别集合，因此很难支撑开放世界探索所需的全局、安全和语义一致的环境理解。\n\n作者提出 O3N，一个端到端的全视觉开放词汇占据预测框架。方法层面包括三部分：用于 360 度体素建模的 Polar-spiral Mamba，以极坐标螺旋拓扑组织全景体素；在体素空间中联合几何与语义监督的 Occupancy Cost Aggregation；以及不依赖额外梯度对齐的 Natural Modality Alignment，用于统一像素、体素和文本三种表示。整体上，它试图把几何重建与开放词汇语义理解放进一个一致的表示空间。\n\n这项工作值得收录，主要因为它不是一般的 3D benchmark 改进，而是在开放词汇 3D world modeling 上给出了一套完整的表示方案。对仓库来说，它落在多模态世界建模、具身感知和开放世界空间理解的交叉位置，具备明显的方法外溢潜力。只要实验结果可靠，它会是近期值得跟踪的 3D occupancy / world-model 方向强论文。\n\n它还不到更高一级，原因是当前证据仍主要集中在 occupancy prediction 和相关 benchmark，尚未证明它会重排更广泛的世界模型或具身学习路线。更准确的定位是一篇强而清晰的多模态三维感知论文，而不是已经建立新范式的旗舰工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.12144",
      "collected_at": "",
      "collection_order": 451,
      "source_url": "https://arxiv.org/pdf/2603.12144v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.12144v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "湖南大学与浙大首创O3N框架：让AI看清360度全景并识别未知物体，实现纯视觉端到端感知",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "o3n omnidirectional open vocabulary occupancy prediction",
          "description": "湖南大学与浙江大学联合团队在具身智能领域取得新突破，研发出首个纯视觉端到端全景开集3D占据预测框架O3N。针对传统感知系统视角狭窄、难以识别训练集外物体的痛点，研究者通过极坐标螺旋Mamba（PsM）模块捕获360°空间的长程依赖，有效解决了全景图像的几何畸变。核心技术OCA与NMA实现了图像像素、三维体素与文本语义的高度对齐，使AI能根据文字查询识别并重建未知物体。实验证明，该方法在QuadOcc等基准上达到顶尖性能，不仅让机器人感知更准、更稳，也为通用三维世界建模提供了高效的闭环方案。",
          "x_post": "湖南大学与浙江大学发布O3N框架：实现首个纯视觉端到端全景开集3D占据预测\n\n针对具身智能中视角受限及未知物体识别难题，O3N架构通过极坐标螺旋Mamba（PsM）模块克服了全景图像投影的几何畸变，并建立了360°空间的长程上下文联系。\n该框架引入占用成本聚合（OCA）与自然模态对齐（NMA）技术，强制统一了图像像素、三维体素与文本语义，使系统具备识别训练集外未知类别的能力。\n实验表明，O3N在QuadOcc与Human360Occ基准测试中均达到顶尖性能，显著提升了语义扩展性与跨场景泛化能力。\n这一研究为构建通用的三维世界建模方案提供了新路径，增强了自主智能体在复杂环境下的空间推理与感知安全。",
          "cover_url": "assets/covers/mm17-o3n-occupancy-3c604dc084.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-13T15:43:59+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "J9_Temporal_Straightening_Latent_Planning",
      "slug": "j9-temporal-straightening-latent-planning",
      "detail_url": "papers/j9-temporal-straightening-latent-planning/",
      "title": "Temporal Straightening for Latent Planning",
      "summary": "这篇论文处理的是 latent world model planning 的一个底层但关键的问题：即便感知编码器足够强，学出来的 latent space 也未必适合规划。预训练视觉表示往往包含大量与规划无关的信息，导致 latent trajectory 高度弯曲，Euclidean 距离不能可靠近似可达路径上的 geodesic 距离，进而让梯度式规划目标病态、难优化。\n\n作者提出 temporal straightening，用一个曲率正则项在训练 encoder 和 predictor 时主动把可行轨迹在 latent space 中拉直。这样做不是追求更好重建，而是让 latent geometry 本身更适合 planning：距离更接近真实可达进度，梯度更稳定，优化条件数更好。论文还给出了与 gradient-based planning 收敛相关的理论动机，而不只是经验性调参。\n\n它适合进入仓库，因为这是一篇直接作用于 world model / latent planning 核心表示层的论文。相比单纯改 planner 或换搜索算法，它在问‘什么样的 latent geometry 才真正适合规划’，这个 framing 有外溢价值。尤其在当前越来越多工作把强视觉表征直接拿来做控制和世界模型时，这篇对 latent trajectory curvature 的处理很值得后续路线参考。\n\n它还不到更高一级，因为当前证据主要集中在 goal-reaching/gradient-based planning 场景，影响范围尚未扩展到更广泛的长期规划、通用 embodied control 或大规模 world model 体系。更准确地说，它是一篇很强的表示几何改进论文，为 latent planning 提供了清晰可复用的方向，但还没有改写整个 world model 版图。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.12231",
      "collected_at": "",
      "collection_order": 450,
      "source_url": "https://arxiv.org/pdf/2603.12231v1",
      "paper_url": "https://arxiv.org/pdf/2603.12231v1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "杨立昆团队赋予AI人类级物理直觉：时序拉直技术攻克视觉表征扭曲，提升潜在空间规划精度",
          "url": "https://www.bilibili.com/video/BV1eS5t6CEm3",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1eS5t6CEm3",
            "https://youtu.be/LqfXcHRYgwA"
          ],
          "main_collection": "机器人与具身智能",
          "match": "temporal straightening for latent planning",
          "description": "杨立昆（Yann LeCun）团队针对机器人世界模型中的规划难题，提出了“时序拉直”技术。目前主流视觉大模型的潜在空间存在严重的几何扭曲，导致AI在预测路径时常因表征不连贯而导致规划失败。该研究借鉴人类视觉的“感知拉直”假说，在联合嵌入预测架构（JEPA）中引入曲率正则化，强制将复杂的运动轨迹映射为平直的潜空间路径。实验证明，该方法显著提升了梯度规划的稳定性和成功率，让机器人在导航与操控任务中预测更准、动作更稳。这一突破证明了优化表征几何结构是实现低成本、高效率具身智能的关键路径。",
          "x_post": "杨立昆（Yann LeCun）团队提出“时序拉直”技术，通过曲率正则化优化JEPA潜在空间，提升机器人规划成功率。\n研究指出，现有视觉大模型（如 DINOv2）的潜空间存在严重几何扭曲，导致欧氏距离难以反映真实的物理测地线路径，使规划算法易陷入局部最优。\n该方法受人类视觉“感知拉直”假说启发，在联合嵌入预测架构（JEPA）中引入曲率正则化项，通过最大化连续运动向量的余弦相似度，强制将复杂轨迹映射为平直路径。\n实验证据表明，该技术显著改善了目标函数的非凸性，使简单的梯度下降法在导航与操控任务中的稳定性和成功率均优于传统预训练特征。\n结论显示，优化表征空间的几何结构是实现低成本、高效率具身智能的关键路径，能有效降低对复杂搜索算法（如CEM）的依赖。",
          "cover_url": "assets/covers/j9-temporal-straightening-latent-planning-e9a31558df.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-11T12:07:17+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO8_Conformation_Biasing_Mutations",
      "slug": "bio8-conformation-biasing-mutations",
      "detail_url": "papers/bio8-conformation-biasing-mutations/",
      "title": "Computational design of conformation-biasing mutations to alter protein functions",
      "summary": "这篇论文聚焦蛋白工程里一个很核心但长期代价高的问题：如何系统地偏置蛋白的构象状态，从而改变其功能输出。很多蛋白功能并不只由静态结构决定，而取决于开放态、闭合态或中间态之间的构象分布。传统做法往往需要高成本的结构分析、分子动力学或大量实验筛选。\n\n作者提出 conformation biasing（CB）方法，利用逆折叠模型的对比打分，直接寻找更偏向目标构象状态的突变体。论文在多个不同系统上验证了这一思路，包括 K-Ras、SARS-CoV-2 spike、β2 adrenergic receptor、Src kinase 和 LplA 等，并展示了偏置构象后可以带来更强结合、更高活性或更强选择性。这个框架的关键价值在于：它把“设计蛋白动力学”变成一个相对快速、统一、可复用的计算问题。\n\n这项工作值得收录，因为它不是一般的单蛋白成功案例，而是给出了一种面向蛋白构象动力学的计算设计范式。对仓库来说，它落在 AI x biology / protein design 的核心地带，外溢价值高于普通蛋白设计论文：真正可复用的对象不是某个具体蛋白，而是如何借助现代模型去操控构象分布与功能关系。\n\n它还不到更高一级，原因是当前方法虽然跨多个系统验证，但仍主要表现为一条强计算设计工作流，而不是已经重写整个蛋白设计领域的总蓝图。更准确的定位是一篇高质量、会被长期引用的蛋白动态设计方法论文。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-12",
      "doi": "10.1126/science.adv7953",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 449,
      "source_url": "https://doi.org/10.1126/science.adv7953",
      "paper_url": "https://doi.org/10.1126/science.adv7953",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "斯坦福 AI 像拨动开关一样操纵蛋白质：1 分钟筛选数千突变锁定癌症靶点 K-Ras",
          "url": "https://www.bilibili.com/video/BV1bedCB5EYq",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1bedCB5EYq",
            "https://youtu.be/ZPhuVmbTE9w"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "computational design of conformation biasing mutations to alter protein functions",
          "description": "斯坦福大学研究团队在蛋白质工程领域推出构象偏置（CB）计算流。针对蛋白质动态构象难以精准预测且传统动力学模拟成本高昂的问题，该方法核心利用逆向折叠模型，通过评估突变序列在不同形态下的能量得分差异，识别能将蛋白锁定在特定状态的关键突变。实验证明，该方法单GPU一分钟即可完成数千个突变筛选，并已在K-Ras癌症靶点、新冠刺突蛋白中精准锁定了功能“开关”。这一突破极大提升了蛋白质改造的效率与准确性，为设计高效酶及靶向药物提供了兼具速度与普适性的新工具，对攻克难治性靶点具有重要意义。",
          "x_post": "斯坦福大学开发 CB 计算流精准调控蛋白质构象，单 GPU 每分钟可筛选数千个突变\n蛋白质功能的实现依赖动态构象转换，但传统分子动力学模拟计算成本高昂，且部分聚类算法高度依赖进化数据。针对此瓶颈，团队提出“构象偏置”（CB）计算工作流，利用逆向折叠模型（IFM）评估突变序列在不同骨架构象下的能量得分差异，从而识别能将蛋白质锁定在特定状态的关键突变。\n在 K-Ras 癌症靶点研究中，该方法评估了超过 30,000 个突变位点，精准锁定了影响效应蛋白结合能力的构象开关。同时，实验验证了 CB 在新冠刺突蛋白（Spike）及 E. coli 硫辛酸连接酶（LplA）改造中的有效性，展示了调节结合亲和力与酶活性的高预测精度。\n该研究为设计高效酶、邻近标记工具及靶向药物提供了兼具速度与普适性的新工具，对攻克传统难治性靶点具有重要意义。",
          "cover_url": "assets/covers/bio8-conformation-biasing-mutations-060d5e4ea2.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-20T19:02:53+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO2_ELISA_Single_Cell_Agent",
      "slug": "bio2-elisa-single-cell-agent",
      "detail_url": "papers/bio2-elisa-single-cell-agent/",
      "title": "ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics",
      "summary": "问题与背景：单细胞 RNA 测序数据极其丰富，但从表达矩阵到机制性生物学假设之间仍有明显鸿沟。现有 agent 往往缺少对真实表达表示的访问，而表达基础模型又难以直接和自然语言推理对接。\n\n方法/新意：ELISA 将 scGPT 表达嵌入、BioBERT 语义检索和 LLM 解释器组合起来，形成一个可交互、可解释的混合 agent。核心不是单纯检索文献，而是让单细胞表达表示和语言语义层在同一推理回路中发生耦合。\n\n意义/放在仓库中的位置：这篇论文位于 AI x genomics / agentic biology 主线，代表的是‘基础表达模型 + 语言 agent’的融合方向。它很适合和 AlphaGenome、MOSAIC、LUMI-lab 一起看，体现生成式与检索式 agent 如何进入生物发现流程。\n\n局限/为何不再升一级：目前还是 arXiv 阶段，且更偏框架整合与交互式发现，离真正形成大规模自动科学发现平台还有距离。外部验证和真实 wet-lab 闭环证据仍需继续补强。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.11872",
      "collected_at": "",
      "collection_order": 448,
      "source_url": "https://arxiv.org/pdf/2603.11872v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.11872v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让普通人也能读懂细胞“心声”，ELISA 智能体实现百万级基因数据零代码交互挖掘",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "elisa an interpretable hybrid generative ai agent for expression grounded discovery in single cell genomics",
          "description": "该研究团队针对单细胞基因组学中自然语言与高维数据表征难以对齐的问题，推出了 ELISA 混合生成式人工智能框架。该系统整合了 scGPT 的表达嵌入与 BioBERT 的语义检索，通过智能路由机制解决了“懂文献但不懂数据”或“懂数据但不懂语言”的科研困境。实验显示，ELISA 在处理百万级数据时，细胞检索性能显著优于 CellWhisperer，效应量 Cohen's d 高达 5.98。这一工具让普通研究者无需编写代码即可完成通路评分与细胞交互预测，将繁琐的生物信息分析转化为秒级的自然语言对话，显著降低了基因组学发现的门槛。",
          "x_post": "ELISA 研究团队发布混合 AI 智能体，实现百万级单细胞数据零代码交互挖掘，Cohen's d 达 5.98\n\n单细胞基因组学分析长期面临自然语言语境与高维表达数据表征难以对齐的瓶颈。ELISA 框架通过整合 scGPT 表达嵌入与 BioBERT 语义检索，利用显式路由机制实现在压缩嵌入层直接进行高阶运算。\n\n实验在肺病、脑发育及癌症等 6 大数据集上进行验证，结果显示其细胞检索性能显著优于 CellWhisperer（p < 0.001）。系统内置 280 余种配体-受体交互及 60 余项通路评分，支持从数据探索到报告生成的自动化流程。\n\n该研究通过混合生成式架构将繁琐的生信脚本转化为自然语言对话，在维持基因计算严谨性的同时显著降低了组学分析门槛。",
          "cover_url": "assets/covers/bio2-elisa-single-cell-agent-93f4a521d8.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-25T13:07:33+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A38_SciMDR_Scientific_Multimodal_Reasoning",
      "slug": "a38-scimdr-scientific-multimodal-reasoning",
      "detail_url": "papers/a38-scimdr-scientific-multimodal-reasoning/",
      "title": "SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning",
      "summary": "科学文档推理一直存在一个老问题：如果只做小而精的人工 benchmark，真实性和可解释性强，但规模不够；如果做大规模合成数据，规模上来了，又很容易失真，尤其在跨图表、公式、正文、多页上下文联合推理时，模型学到的往往不是科学文档理解本身，而是数据构造偏差。SciMDR 试图直接解决这个数据构建层面的张力。\n\n作者提出 synthesize-and-reground 两阶段流程：先在局部片段上生成 claim-centric 的问答与推理链，再把这些问答程序化地回嵌到整篇文档任务中，以保留真实文档级复杂性。基于这个流程，论文构建了包含 20K scientific papers、300K QA pairs 的训练集 SciMDR，以及一个专家标注的 SciMDR-Eval。它的核心贡献不是单个模型，而是把科学多模态文档推理的数据生成与评测流程做成了一个可复用框架。\n\n这项工作值得收录，因为仓库明确重视会改变后续优化目标的 benchmark 和 evaluation framework。科学多模态文档推理本身就是一个会长期增长的方向，既连接 AI for science，也连接多模态 reasoning 与 agentic scientific workflows。只要社区采用，这类 benchmark 很可能成为后续模型训练和评测的重要基线。\n\n它还不到更高一级，主要因为当前仍是 arXiv 阶段，而且 benchmark 是否真正站住脚，还取决于社区采用、数据质量复核以及它对更广泛 scientific QA / multimodal reasoning 任务的持续影响。现阶段更准确的定位是一篇高价值 benchmark 论文，而不是已经定型的范式级成果。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.12249",
      "collected_at": "",
      "collection_order": 447,
      "source_url": "https://arxiv.org/pdf/2603.12249v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.12249v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "耶鲁芝大等发布SciMDR：让7B小模型读懂硬核论文，科研推理能力挑战GPT-5",
          "url": "https://www.bilibili.com/video/BV1tm5M6VEWg",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1tm5M6VEWg",
            "https://youtu.be/pET0wYDPUHM"
          ],
          "main_collection": "多模态与视觉语言模型",
          "match": "scimdr benchmarking and advancing scientific multimodal document reasoning",
          "description": "耶鲁大学、芝加哥大学与TCS Research联合发布SciMDR框架，专注提升大模型在科学多模态文档中的推理能力。针对现有AI在阅读长篇论文时面临的图文交织、长上下文干扰及合成数据严重幻觉等困境，该研究提出了“降维解构、升维重塑”的两阶段合成范式。方法核心在于先提取原子级断言确保逻辑真实，再将其重新锚定回全文本语境以还原现实复杂度。实验表明，基于30万个高质量推理链训练后，7B规模的小模型在处理复杂科学图表和长文理解时，性能直逼顶级闭源模型。这一成果为开源模型低成本获取高性能科研阅读能力提供了新路径，有效缓解了长文本注意力稀释问题。",
          "x_post": "耶鲁、芝大与TCS联合发布SciMDR，通过30万高质量数据显著提升7B模型科研推理性能\n科学多模态文档推理长期面临长文本干扰与合成数据幻觉的挑战，难以平衡数据真实性与现实复杂性。\n研究团队提出“降维解构、升维重塑”的两阶段合成范式：先提取原子级断言确保逻辑严密，再将其重锚定至全文本语境中还原复杂度。\n实验基于30万个QA对及推理链进行训练，并建立SCIMDR-Eval评测基准。结果显示，7B规模模型在处理复杂图表与长篇论文时的表现已逼近顶级闭源模型。\n该范式为开源模型低成本获取高性能科研阅读能力提供了新路径，有效缓解了长文本任务中的注意力稀释困境。",
          "cover_url": "assets/covers/a38-scimdr-scientific-multimodal-reasoning-147fd3941d.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-11T12:07:06+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A37_LABSHIELD_Lab_Safety_Benchmark",
      "slug": "a37-labshield-lab-safety-benchmark",
      "detail_url": "papers/a37-labshield-lab-safety-benchmark/",
      "title": "LABSHIELD: A Multimodal Benchmark for Safety-Critical Reasoning and Planning in Scientific Laboratories",
      "summary": "随着多模态大模型和具身代理开始进入实验室自动化，真正的瓶颈已经不只是任务完成率，而是高风险环境中的安全推理能力。科学实验室里存在脆弱器皿、危险化学品和高精度设备，一次错误规划就可能带来不可逆损失。现有通用 benchmark 很难覆盖这种安全约束，因此实验室场景中的 agent safety 仍缺少专门、结构化的评估基线。\n\nLABSHIELD 提出一个面向科学实验室的多视角 benchmark，用于评估 MLLM 在危害识别、安全推理和安全感知规划方面的能力。它依据 OSHA 与 GHS 标准建立风险分类体系，覆盖 164 个任务，并用双轨评估把一般域 MCQ 表现与半开放安全问答区分开来。论文的关键贡献不是又多做一个场景集，而是把“实验室中的安全规划”明确做成一个独立 benchmark 问题，并量化模型在专业实验环境下的性能坍塌。\n\n这项工作值得收录，因为仓库明确重视 AI for science 和 agent evaluation framework。只要 benchmark 设计足够扎实，这类安全基准会成为后续实验室代理、自动化科研系统和多模态科学助手的重要评测底座。它的外溢意义不在单一任务结果，而在于把一个高风险、现实、此前评估缺失的问题正式结构化。\n\n它还不到更高一级，主要因为当前仍是 arXiv 阶段，而且 benchmark 的长期地位取决于社区是否采用、是否扩展、以及是否真正成为实验室代理的标准评估集。现阶段更准确的定位是一篇高价值 benchmark 论文，而不是已经定型的范式级系统工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.11987",
      "collected_at": "",
      "collection_order": 446,
      "source_url": "https://arxiv.org/pdf/2603.11987v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.11987v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "AI纸面满分实操却变炸弹？南科大北大发布LABSHIELD，用164项任务考核具身智能保命能力",
          "url": "https://www.bilibili.com/video/BV1Wv5z6XELx",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Wv5z6XELx",
            "https://youtu.be/0zoMfoZa0pg"
          ],
          "main_collection": "AI安全与对齐",
          "match": "labshield a multimodal benchmark for safety critical reasoning and planning in scientific laboratories",
          "description": "由南方科技大学与北京大学等团队联合研发的LABSHIELD，是首个针对实验室高危场景设计的具身智能多模态安全评估基准。该研究针对大模型在物理实验中“纸上谈兵”导致的事故风险，构建了涵盖164项任务的真实场景数据集。核心采用PRP认知架构，从感知、推理到规划三个维度深度考核模型，并引入四路视角协同以消除物理盲区。通过对33种顶尖模型的实测，发现现有模型在处理实验室复杂环境时存在明显安全缺口。该工作为构建更安全、更可靠且具备物理保命能力的自动化实验室机器人提供了核心参考指标与能力边界。",
          "x_post": "南科大与北京大学团队发布LABSHIELD：具身智能实验室安全评估基准，涵盖164项任务与1439个数据对\n\n具身智能体在科学实验室执行任务时，其决策将直接干预物理环境。LABSHIELD 旨在评估多模态大模型（MLLM）在复杂实验场景下的安全推理与规划能力，弥补模型从“纸面规则”到“物理执行”之间的认知鸿沟。\n\n研究团队基于 OSHA 与 GHS 标准，提出了由感知、推理到规划的 PRP 层级化认知架构，并引入 4 路多视角协同机制以消除物理盲区。数据集包含 164 项真实操作任务，建立了 4x4 的操作复杂度与安全风险评估矩阵。\n\n通过对 33 种主流多模态模型的基准测试，结果显示当前模型在处理细粒度感知与高危物理耦合任务时存在明显的安全识别缺口。该研究为构建具备物理安全意识的自动化实验室机器人提供了核心能力边界参考。",
          "cover_url": "assets/covers/a37-labshield-lab-safety-benchmark-2ffd5934bf.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-12T12:03:50+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A33_RoboClaw_Long_Horizon_Robotics",
      "slug": "a33-roboclaw-long-horizon-robotics",
      "detail_url": "papers/a33-roboclaw-long-horizon-robotics/",
      "title": "RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks",
      "summary": "问题与背景：长时程机器人任务的一个核心瓶颈是数据采集、策略学习和部署流程割裂，导致需要大量人工重置、策略组合脆弱且执行阶段与采集阶段语义不一致。\n\n方法/新意：RoboClaw 用一个 VLM-driven controller 统一数据采集、策略学习和任务执行，并引入 entangled action pairs，让前向操作和恢复动作形成自复位循环，从而支持连续 on-policy 数据获取和长期任务编排。\n\n意义/放在仓库中的位置：这篇论文属于 agentic robotics / long-horizon manipulation 主线。它的重要性在于把机器人生命周期中的采集、训练和执行放到同一个 agentic 框架里。\n\n局限/为何不再升一级：虽然真实机器人价值高，但方法影响主要仍在 long-horizon manipulation 这一赛道。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.11558",
      "collected_at": "",
      "collection_order": 445,
      "source_url": "https://arxiv.org/pdf/2603.11558v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.11558v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "智元机器人联手交大发布 RoboClaw，人类干预时间减少 53.7%，机器人终于能自主整理杂乱桌面",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "roboclaw an agentic framework for scalable long horizon robotic tasks",
          "description": "智元机器人联手上海交大发布具身智能框架 RoboClaw。针对传统机器人长程任务易崩溃、依赖人工重置环境导致数据采集难的痛点，该框架引入视觉语言模型驱动的智能体架构。其核心纠缠动作对机制通过正向执行与逆向恢复的绑定，实现了无需人类干预的自动化数据采集闭环。实验显示，RoboClaw 使长程任务成功率提升 25%，人类干预时间大幅减少 53.7%。这标志着机器人从人工看护向自主进化迈进，为构建可扩展的通用具身智能系统提供了新路径。",
          "x_post": "智元机器人与上海交大发布 RoboClaw：人类干预时间减少 53.7% 并提升 25% 任务成功率\n传统具身智能在复杂长程任务中常面临错误级联及高昂的人工环境重置成本。\nRoboClaw 提出一种 VLM 驱动的智能体框架，核心引入“纠缠动作对”（EAP）机制，通过正向操作与逆向恢复的自动绑定实现自主数据采集闭环。\n实验数据显示，该架构在降低 53.7% 人类时间投入的同时，将长程任务执行成功率提升了 25%。\n研究证明了 Agentic 架构在提升系统鲁棒性与自主进化方面的潜力，为构建可扩展的通用具身智能系统提供了新路径。",
          "cover_url": "assets/covers/a33-roboclaw-long-horizon-robotics-26ba4fbe94.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-12T11:59:25+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A222_LifeSim_Personalized_Assistant_Eval",
      "slug": "a222-lifesim-personalized-assistant-eval",
      "detail_url": "papers/a222-lifesim-personalized-assistant-eval/",
      "title": "LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation",
      "summary": "LifeSim 关注长期个性化助手的评测缺口：真实用户需求受时间、地点、天气、偏好、认知状态和生活轨迹共同影响，而现有 benchmark 多是短程静态任务。\n\n它用 BDI 认知模型生成用户 belief、desire、intention，并结合物理环境产生连贯 life trajectories，再据此构造 LifeSim-Eval。评测覆盖 8 个生活域、1200 个场景，重点测试显式意图、隐式意图、用户画像恢复和长期偏好建模。\n\n收录价值在于它把 personalization evaluation 从“记住用户资料”推进到“在长期生活状态中推断隐式意图”。这对 agent memory、personal assistant、教育/健康/生活工作流都有直接参考价值。\n\n主要限制是 simulator 的行为真实性仍取决于 BDI 建模和合成数据分布；它是长期个性化评测的重要推进，但还不能完全替代真实用户纵向部署数据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-12",
      "doi": "",
      "arxiv_id": "2603.12152",
      "collected_at": "",
      "collection_order": 444,
      "source_url": "https://arxiv.org/pdf/2603.12152.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.12152.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SYS6_LookaheadKV",
      "slug": "sys6-lookaheadkv",
      "detail_url": "papers/sys6-lookaheadkv/",
      "title": "LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation",
      "summary": "这篇论文解决的是长上下文推理里一个非常具体但越来越关键的系统瓶颈：KV cache 会随着输入长度线性增长，而现有 eviction 方法要么不够准，要么需要额外生成草稿 future tokens，成本高且不稳定。作者的目标不是重新设计 attention，而是在不引入生成开销的前提下，更准确地判断哪些 KV 该保留、哪些可以驱逐。\n\n方法上的核心是 LookaheadKV。它不通过真正生成未来 token 来做 lookahead，而是直接利用模型内部信号对未来注意力模式做近似窥视，用这种 proxy 去指导 KV cache eviction。论文的卖点在于把‘glimpsing into the future’从一个昂贵的生成过程，改成了一个更轻量的推断过程，从而同时改善准确率和运行效率。\n\n这篇论文适合进仓库，是因为它属于高价值基础设施条目：KV eviction 已经是长上下文 serving 和推理系统绕不开的问题，而 LookaheadKV 给的是一个有明确复用价值的算法级改进，不是单纯 kernel engineering 或局部 trick。对部署长上下文 LLM、构建 memory-constrained inference 系统和后续 attention serving 优化都有直接参考意义。\n\n它没有更高一级，因为影响面仍主要集中在推理系统优化，而不是重写更大范围的模型架构或长上下文学习范式。更准确地说，这是一篇很强的 inference systems paper：问题抓得准、方法干净、收益实用，但还不到改变整体研究蓝图的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-03-11",
      "doi": "",
      "arxiv_id": "2603.10899",
      "collected_at": "",
      "collection_order": 443,
      "source_url": "https://arxiv.org/pdf/2603.10899v1",
      "paper_url": "https://arxiv.org/pdf/2603.10899v1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让百万级上下文告别320GB显存压力，LookaheadKV无需生成草稿即可实现推理加速",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "lookaheadkv fast and accurate kv cache eviction by glimpsing into the future without generation",
          "description": "三星研究院针对大语言模型在长文本处理中的内存瓶颈，推出了LookaheadKV推理加速框架。面对百万级上下文带来的巨大显存压力，传统方法往往在速度与精度间难以兼得。LookaheadKV创新性地采用可学习的前瞻令牌与选择性激活的LoRA模块，在预填充阶段无需生成实际“草稿”即可精准预测未来注意力模式。实验数据表明，该技术在保持近乎无损精度的前提下，将缓存清理提速14.5倍，显著降低了首字延迟。这一成果为资源受限环境下的超长文档分析与大规模代码理解提供了更稳、更快的推理方案，有效缓解了硬件存储极限压力。",
          "x_post": "三星研究院发布 LookaheadKV 框架，实现 KV Cache 清理加速 14.5 倍\n大语言模型在处理百万级上下文时，KV Cache 产生的显存压力（如 70B 模型需 320GB）已成为推理瓶颈，传统方法在处理延迟与保留精度间存在明显折衷。\n该研究提出 LookaheadKV 架构，利用可学习的前瞻令牌与选择性激活的 LoRA 模块，在预填充阶段直接预测未来注意力分布，无需进行实际的草稿生成。\n实验数据表明，LookaheadKV 在保持近乎无损精度的前提下，将缓存淘汰的计算开销降低了 14.5 倍，并显著优化了首字延迟（TTFT）指标。\n该方案为资源受限环境下的长序列推理提供了高准确性、低延迟的优化路径，有效缓解了硬件存储的极限压力。",
          "cover_url": "assets/covers/sys6-lookaheadkv-bae3a236e4.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-22T10:31:18+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM5_KnowDiffuser_Planner",
      "slug": "mm5-knowdiffuser-planner",
      "detail_url": "papers/mm5-knowdiffuser-planner/",
      "title": "KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization",
      "summary": "这篇论文关注扩散式规划器在复杂任务里的一个常见问题：纯从数据学出的 diffusion planner 在组合推理和约束满足上往往不稳定。作者试图把语言模型推理和先验知识显式引入规划过程。\n\n方法上，KnowDiffuser 用语言模型提供任务相关推理与知识约束，再用 prior-informed trajectory initialization 改善扩散规划器的起点分布。这样做不是简单后处理，而是把知识引导放到规划生成流程内部。\n\n这篇工作适合放在世界模型 / 规划主线。它体现的是一种重要趋势：把 diffusion planner 从纯生成器推进成“知识约束下的生成式规划器”，这对具身智能和机器人规划都有外溢价值。\n\n它没有升到更高一级，因为目前更像规划子方向的强方法论文，尚未证明能系统性改写更广义的 robot planning 或 world model 框架。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-11",
      "doi": "",
      "arxiv_id": "2603.10441",
      "collected_at": "",
      "collection_order": 442,
      "source_url": "https://arxiv.org/pdf/2603.10441.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.10441.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决 AI 驾驶“脑快手慢”难题，莫纳什大学发布 KnowDiffuser 框架，让大模型学会精准控制轨迹",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "knowdiffuser a knowledge guided diffusion planner with lm reasoning and prior informed trajectory initialization",
          "description": "莫纳什大学与犹他大学研究团队针对自动驾驶领域提出 KnowDiffuser 框架。针对现有大语言模型在驾驶决策中“脑快手慢”、难以生成精确物理轨迹，以及扩散模型缺乏语义理解且推理延迟高的问题，该方法通过构建 5 万余条真实驾驶片段的先验轨迹库，将大模型输出的语义动作映射至物理轨迹先验，并结合两阶段截断去噪策略进行微调。实验证明，该框架在 nuPlan 评估中显著优于现有主流模型。该研究成功填补了语义推理与物理执行间的鸿沟，使 AI 驾驶既能理解交通规范，又能实现更精准、更符合物理极限的车辆控制。",
          "x_post": "莫纳什大学与犹他大学发布 KnowDiffuser 框架，通过 5 万条先验轨迹解决 AI 驾驶语义执行脱节难题\n目前大语言模型在驾驶决策中存在“语义推理强、物理执行弱”的挑战，难以直接生成符合运动学极限的连续轨迹。\nKnowDiffuser 通过构建包含 5 万余条真实驾驶片段的先验轨迹库，将 LLM 输出的离散元动作映射至物理先验初始化。\n核心方法结合了两阶段截断去噪策略，在 8 秒预测时界内生成 16 个兼顾交通规范与物理可行性的轨迹点。\nnuPlan 闭环评估结果显示，该框架在多项关键指标上显著优于现有扩散规划器，有效填补了语义与物理层面的鸿沟。\n该研究为提升生成式模型在自动驾驶中的推理效率与控制精度提供了可核验的技术路径。",
          "cover_url": "assets/covers/mm5-knowdiffuser-planner-ef65ed48ee.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-03T20:02:47+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO37_InstructNA_Aptamer_Design",
      "slug": "bio37-instructna-aptamer-design",
      "detail_url": "papers/bio37-instructna-aptamer-design/",
      "title": "De novo design of functional nucleic acids of aptamers",
      "summary": "问题与背景：功能核酸和适配体设计空间巨大，传统 HT-SELEX 实验筛选效率有限，而核酸语言模型的生成能力仍缺乏系统验证。论文把问题定位为如何让 NA-LLM 真正进入 de novo functional nucleic acid design。\n\n方法与机制：InstructNA 将核酸大语言模型与 HT-SELEX 数据结合，学习语义丰富的 FNA 表征并解码多类型功能核酸序列，包括转录因子结合 DNA 与蛋白结合 aptamer，且不依赖结构信息。\n\n为什么重要：它把语言模型从核酸序列表示推进到可实验验证的功能核酸生成，形成了模型生成、实验筛选和功能验证之间的闭环。对 RNA/DNA 工具、分子诊断和生物工程都有可复用工作流价值。\n\n局限：方法仍依赖高质量 SELEX 数据和实验验证，设计目标主要在适配体与特定 FNA 类型上，离通用核酸工程平台还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-11",
      "doi": "10.1038/s43588-026-00965-3",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 441,
      "source_url": "https://www.nature.com/articles/s43588-026-00965-3.pdf",
      "paper_url": "https://www.nature.com/articles/s43588-026-00965-3.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A36_Trajectory_Informed_Memory",
      "slug": "a36-trajectory-informed-memory",
      "detail_url": "papers/a36-trajectory-informed-memory/",
      "title": "Trajectory-Informed Memory Generation for Self-Improving Agent Systems",
      "summary": "LLM agent 一个长期没有解决好的问题，是任务虽然能完成，但执行过程中的失败模式、低效步骤和恢复策略并不会自动沉淀成后续可复用的能力。现有 memory 系统往往只存对话事实或零散经验，而不真正理解 agent 执行轨迹里的决策结构，因此很难持续提升未来任务表现。\n\n这篇工作把执行轨迹转成可检索的结构化学习信号。框架包含轨迹语义分析、失败与恢复的决策归因、基于执行质量生成策略/恢复/优化三类提示，以及按上下文相似性动态注入的自适应 memory retrieval。重点不是再加一个静态记忆库，而是让 memory 来自可解释的 trajectory learning，并保留 provenance。\n\n它在仓库里属于 agent systems 主线下的高价值方法论文，和 self-improving agents、memory-augmented agents、长期任务改进直接相关。对 agent 训练与推理之间的桥接有明显外溢价值，也适合和现有的 tool-use、exploration、self-improvement 路线一起看。\n\n它暂时不升到更高等级，因为证据主要集中在 AppWorld 一类基准，尚未证明自己已经成为通用 agent memory 的默认方案；同时它目前仍是 arXiv 阶段，跨环境复现和长期采用度还需要后续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-11",
      "doi": "",
      "arxiv_id": "2603.10600",
      "collected_at": "",
      "collection_order": 440,
      "source_url": "https://arxiv.org/pdf/2603.10600.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.10600.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让 AI 像人类一样在实践中进化，IBM 轨迹感知记忆系统攻克智能体“系统性失忆”",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "trajectory informed memory generation for self improving agent systems",
          "description": "IBM Research 针对大语言模型智能体在复杂任务中面临的“系统性失忆”问题，推出了轨迹感知记忆生成框架。该研究聚焦于智能体重复低效模式、无法从错误中恢复等痛点，通过轨迹智能提取与决策归因分析，将原始执行记录转化为具备语义逻辑的程序性上下文。系统核心在于将成功或失败的尝试转化为结构化的优化提示，并支持子任务级的经验分解。实验结果显示，该框架显著提升了智能体在多步任务中的执行成功率与一致性，为实现具备自我进化能力的智能体系统提供了关键路径，使其在面对未知环境时更稳、更准、更智能。",
          "x_post": "IBM Research 提出轨迹感知记忆系统，通过决策归因攻克智能体“系统性失忆”\n\n大语言模型智能体在执行多步任务时，常因缺乏有效记忆导致重复低效操作。该研究构建了轨迹感知记忆生成框架，核心由轨迹智能提取与决策归因分析器组成。系统能将历史执行中的成功、失败及低效尝试转化为结构化的“程序性上下文”。\n\n通过子任务级分解与自适应检索机制，智能体可将特定领域经验转化为通用的操作指南。实验结果表明，该系统在处理复杂任务时显著提升了执行成功率与逻辑一致性，为实现具备自我进化能力的智能体提供了透明且可验证的路径。",
          "cover_url": "assets/covers/a36-trajectory-informed-memory-bab2fa6e02.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-23T19:54:50+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A32_Novelty_Adaptation_Hybrid_Planning_RL",
      "slug": "a32-novelty-adaptation-hybrid-planning-rl",
      "detail_url": "papers/a32-novelty-adaptation-hybrid-planning-rl/",
      "title": "Novelty Adaptation Through Hybrid Large Language Model (LLM)-Symbolic Planning and LLM-guided Reinforcement Learning",
      "summary": "问题与背景：开放世界机器人系统在遇到新物体和新操作时，传统 symbolic planner 会因为规划域里缺少对应 operator 而直接失效。\n\n方法/新意：这篇工作把 symbolic planning、LLM 常识推理和 RL operator learning 串成统一框架：LLM 负责识别缺失 operator、生成计划并写 reward，RL 负责把新 operator 变成可执行控制策略。\n\n意义/放在仓库中的位置：它属于 neuro-symbolic agent / novelty adaptation / embodied planning 主线，价值在于把“发现缺失操作符”与“学会新操作”真正打通。\n\n局限/为何不再升一级：目前证据主要集中在连续控制场景中的 novelty adaptation，影响范围还不够广。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-11",
      "doi": "",
      "arxiv_id": "2603.11351",
      "collected_at": "",
      "collection_order": 439,
      "source_url": "https://arxiv.org/pdf/2603.11351v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.11351v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "塔夫茨大学破解机器人“死板”硬伤：LLM 赋能全自动闭环，让机械臂零干预掌握新技能",
          "url": "https://www.bilibili.com/video/BV1Zc5D6yEds",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Zc5D6yEds",
            "https://youtu.be/-l7VG2IeDAI"
          ],
          "main_collection": "机器人与具身智能",
          "match": "novelty adaptation through hybrid large language model llm symbolic planning and llm guided reinforcement learning",
          "description": "塔夫茨大学团队针对机器人在开放世界中因环境变化导致规划失效的难题，提出了一种结合大语言模型（LLM）与神经符号架构的创新系统。传统机器人依赖预设规则，面对未知物体时往往陷入瘫痪。该系统利用LLM的常识推理能力，自动生成逻辑动作代码并精准编写强化学习奖励函数，构建了“计划-学习-执行”的自动化闭环。实验结果表明，在处理“打开抽屉”等复杂任务时，该方法的算子发现与控制性能显著优于传统随机探索方案。这一研究不仅提升了机械臂的动作灵活性，也为解决强化学习在未知环境下的低效问题提供了有效路径，使机器人更具适应性。",
          "x_post": "塔夫茨大学提出神经营路符号架构，利用LLM赋能机器人全自动闭环习得未知环境新技能\n针对传统机器人在开放世界中因规则僵化或强化学习探索效率低导致的规划失效问题，该研究构建了集成LLM、符号规划与强化学习的新型框架。系统利用LLM的常识推理能力自动生成PDDL逻辑代码，并为新动作精准编写基于物理属性的奖励函数，实现了从识别新物体到掌握新操作的“计划-学习-执行”自动化闭环。实验数据表明，在“打开抽屉”等复杂任务中，该方法的算子发现与控制性能显著优于传统随机探索方案。这一成果通过自我一致性投票与逻辑前瞻演练确保了输出的安全性，为提升机械臂在未知环境下的适应性提供了有效路径。",
          "cover_url": "assets/covers/a32-novelty-adaptation-hybrid-planning-rl-8b6d1009b0.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-13T21:20:42+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "X3_Eon_Virtual_Embodied_Fly",
      "slug": "x3-eon-virtual-embodied-fly",
      "detail_url": "papers/x3-eon-virtual-embodied-fly/",
      "title": "How the Eon Team Produced a Virtual Embodied Fly",
      "summary": "这不是正式论文，而是 EON Systems 发布的技术更新，说明他们如何把成年果蝇 connectome、既有脑模型和 embodied fly 身体仿真拼成一个可运行的“virtual embodied fly”。它的价值不在于提出新算法，而在于把已有果蝇脑模型和身体控制组件做了系统级集成，并公开了技术叙事和工程方向。\n\n更新页本身更接近项目说明：它解释了团队如何处理 connectome、感觉输入、身体模型和仿真耦合，而不是给出新的 benchmark、正式对照实验或可发表的算法主张。对应的 GitHub 仓库也主要承接已有果蝇脑模型，而不是代表一篇全新的高等级论文。\n\n之所以值得入仓库，是因为它提供了一个很好的背景锚点：EON 最近确实在“virtual embodied fly”方向公开推进了系统集成工作。这能帮助后续区分哪些是正式论文成果，哪些只是围绕该方向的项目化落地和公开更新。\n\n它必须被归为项目附录，而不是论文条目。原因很简单：没有新的正式论文、没有完整可复核实验、也没有达到仓库对突破性论文的证据强度。最合理的用途是作为方向背景和项目进展记录。",
      "grade": "project",
      "grade_label": "项目",
      "theme": "projects_and_appendices",
      "theme_label": "Projects And Appendices",
      "published_at": "2026-03-10",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 438,
      "source_url": "https://eon.systems/updates/embodied-brain-emulation",
      "paper_url": "https://eon.systems/updates/embodied-brain-emulation",
      "project_urls": [
        "https://eon.systems/updates/embodied-brain-emulation"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "W6_GeoSolver_Remote_Sensing_Reasoning",
      "slug": "w6-geosolver-remote-sensing-reasoning",
      "detail_url": "papers/w6-geosolver-remote-sensing-reasoning/",
      "title": "GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision",
      "summary": "遥感 VLM 已经能处理越来越多感知任务，但一旦进入 step-by-step reasoning，问题就变成：中间推理过程到底有没有持续对齐视觉证据。远程感知场景里，这种 visual faithfulness 的缺失会比普通 VQA 更严重，因为几何、尺度和局部纹理都更容易误导中间步骤。\n\nGeoSolver 的核心是把 remote-sensing reasoning 推向可验证的 process-supervised RL。论文先构造 Geo-PRM-2M 这一大规模 token-level process supervision 数据集，再训练 GeoPRM 作为细粒度 process reward model，用它去支撑 Process-Aware Tree-GRPO 的 credit assignment，并把 verifier 进一步用于 test-time scaling。结果不只提升一个自家模型，也能直接增强 general-purpose VLM。\n\n它值得正式收录，因为真正可复用的部分不是某个遥感 benchmark 分数，而是‘domain-specific verifier + process supervision + tree-structured RL/TTS’ 这一整套 reasoning workflow。对 geospatial AI 来说这是强方法，对更广的 verifiable multimodal reasoning 也有清晰外溢。\n\n它没有升到更高一级，是因为当前主要证据仍集中在 remote sensing 这一特定高价值场景，跨领域 generalization 还需要更多验证。现阶段更像一条在地理空间推理里非常强的 method stack，而不是全局通用默认方案。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "weather_climate_and_earth_systems",
      "theme_label": "天气、气候与地球系统",
      "published_at": "2026-03-10",
      "doi": "",
      "arxiv_id": "2603.09551",
      "collected_at": "",
      "collection_order": 437,
      "source_url": "https://arxiv.org/pdf/2603.09551.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.09551.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SYS7_Flash_KMeans",
      "slug": "sys7-flash-kmeans",
      "detail_url": "papers/sys7-flash-kmeans/",
      "title": "Flash-KMeans: Fast and Memory-Efficient Exact K-Means",
      "summary": "这篇论文重新审视了一个看似经典但在现代 AI 系统里仍然被低估的原语：k-means。作者指出，k-means 长期被当成离线预处理工具，例如数据组织、embedding 聚类或索引构建，而不是在线系统的一等组件。但在现代检索、缓存组织、向量服务和训练系统里，若能把 exact k-means 做到足够快和省内存，它本身就可以成为高频在线算子。\n\n论文把现有 GPU k-means 的瓶颈拆成两个系统问题：assignment 阶段需要显式 materialize 巨大的 N×K 距离矩阵，形成 HBM I/O 瓶颈；update 阶段则遭遇高冲突的 atomic scatter。为此，作者提出 FlashAssign，把距离计算和在线 argmin 融成一个 kernel，避免中间矩阵落地；又提出 sort-inverse update，把高冲突写入转成局部 segment reduction。再配合 chunked-stream overlap 和 cache-aware compile heuristic，构成完整的算法—系统协同实现。\n\n这篇值得收录，因为它不是简单的 kernel 微调，而是把一个传统算法重做成现代 GPU 在线原语，并且给出非常实用的速度/内存收益：在 H200 上相对强基线最高 17.9× 端到端提速，相对 cuML 达到 33×，相对 FAISS 超过 200×。对仓库来说，它属于高价值基础设施条目，适合放在训练/推理系统和数据处理栈之间的交叉层。\n\n它没有更高一级，因为影响面目前仍主要集中在 exact k-means 这一特定原语，而不是像 FlashAttention 那样直接重写更大范围模型主干路径。更稳的定位是 breakthrough：一篇很强、很工程化、并且大概率会被广泛复用的系统优化论文。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-03-10",
      "doi": "",
      "arxiv_id": "2603.09229",
      "collected_at": "",
      "collection_order": 436,
      "source_url": "https://arxiv.org/pdf/2603.09229v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.09229v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "破解GPU聚类性能瓶颈：Flash-KMeans击碎显存IO墙，实现10亿级数据无损极速计算",
          "url": "https://www.bilibili.com/video/BV1KqwZzcEc4",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1KqwZzcEc4",
            "https://youtu.be/ZTytP4S8K3M"
          ],
          "main_collection": "AI物理与科学计算",
          "match": "flash kmeans fast and memory efficient exact k means",
          "description": "针对现代GPU架构中K-Means算法受限于显存IO瓶颈与原子操作冲突的问题，Flash-KMeans提出了创新的系统级优化方案。该研究引入FlashAssign技术以消除中间距离矩阵的存储开销，并采用排序逆映射更新机制优化中心点的聚合过程。实验数据证明，Flash-KMeans在处理十亿级数据点时，性能显著超越cuML和FAISS等主流库，最高可实现数百倍加速。通过算法与系统的协同设计，该方案有效降低了显存占用与动态任务配置开销，为大规模AI负载提供了低延迟、高可扩展的在线计算原语。",
          "x_post": "加州大学伯克利分校、德州大学奥斯汀分校、MIT 与清华大学发布 Flash-KMeans：实现 10 亿级数据聚类 17.9x 加速与零精度损失\n\n传统 GPU 聚类算法受限于显存 IO 瓶颈与原子操作冲突，导致实际执行中显存读写等待时间远超纯计算耗时。为解决这一痛点，Flash-KMeans 引入 FlashAssign 技术，通过在线 Argmin 机制消除中间距离矩阵的存储开销。\n同时，该研究采用排序逆映射更新机制优化中心点聚合过程，结合算法与系统的协同设计，有效降低了动态任务下的配置开销。实验数据显示，Flash-KMeans 在性能上显著超越 cuML 与 FAISS 等主流库，最高可实现数百倍加速。\n在保持 100% 理论精确的前提下，Flash-KMeans 支持单卡处理十亿级数据点，成功将经典聚类算法转化为低延迟、高可扩展的在线计算原语，适用于 LLM 稀疏路由及量化重排等现代 AI 负载。",
          "cover_url": "assets/covers/sys7-flash-kmeans-9a31ff7d44.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-17T21:33:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R7_Lost_in_the_Middle_at_Birth",
      "slug": "r7-lost-in-the-middle-at-birth",
      "detail_url": "papers/r7-lost-in-the-middle-at-birth/",
      "title": "Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias",
      "summary": "这篇论文讨论长上下文模型里非常著名的“迷失在中间”现象。作者的核心主张是：这并不是训练出来的偶然坏习惯，也不主要是位置编码造成的，而是因果解码器在初始化阶段就已经带有的结构性位置偏差。\n\n方法上，论文把多层因果注意力建模为 Cesàro 矩阵的迭代幂，推导出连续极限下的闭式影响密度。结论是，因果掩码天然造成首因偏置，残差连接天然造成末尾锚点，而中间 token 则落入一个随网络深度恶化的阶乘级“死区”。作者还用未训练的 Qwen2 和 GPT-2 结构做了 Step-0 实证验证。\n\n它在仓库里属于“Transformer 机制理论 / 长上下文偏差 / positional bias”主线。论文的价值在于把一个长期被经验主义讨论的问题变成了第一性原理下的架构几何问题，这对长上下文建模、注意力机制分析和后续干预设计都很重要。\n\n它没有升到更高一级，是因为这篇工作目前更偏诊断而不是治疗。它解释了为什么会发生，却没有同时给出足以重排路线的解决方案，因此更适合作为高质量理论突破而不是颠覆性成果。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-10",
      "doi": "",
      "arxiv_id": "2603.10123",
      "collected_at": "",
      "collection_order": 435,
      "source_url": "https://arxiv.org/pdf/2603.10123v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.10123v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "Meta 揭秘大模型“中段失忆”真相：并非训练导致，而是架构层面的阶乘级几何抑制",
          "url": "https://www.bilibili.com/video/BV1z75P67E9B",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1z75P67E9B",
            "https://youtu.be/xUybJvdEUXw"
          ],
          "main_collection": "大模型架构与推理",
          "match": "lost in the middle at birth an exact theory of transformer position bias",
          "description": "Meta 研究团队近期深入探讨了大型语言模型在处理长文本时普遍存在的“中段失忆”现象。该研究通过数学证明指出，模型对中间信息的忽视并非源于训练数据分布或位置编码缺陷，而是 Transformer 架构固有的几何拓扑特性。研究发现，因果掩码产生的拓扑复利导致了开头信息的首因效应，而残差连接则为末尾标记提供了近因特权；处于中间的标记由于缺乏路径优势，其影响力随网络深度呈阶乘级剧烈衰减。实验证实该偏差在模型初始化阶段即已存在，且无法通过常规预训练消除。这一结论表明，要提升大模型长文本的检索精度，必须针对残差与因果拓扑的底层逻辑进行架构干预，而非单纯依赖调整位置编码。",
          "x_post": "Meta 揭秘 Transformer 中段失忆本质：架构拓扑导致的阶乘级影响力衰减\n长文本大模型在处理信息时普遍存在“迷失中间”现象。Meta 团队最新研究通过数学证明指出，该瓶颈并非源于训练数据或位置编码缺陷，而是由残差-因果架构的几何属性预先决定的。其中，因果掩码的拓扑复利导致了首因效应，而残差连接则为末尾标记提供了直连路径的近因优势。实验数据表明，中间位置的标记影响力随网络深度呈阶乘级（1/(H-1)!）剧烈衰减，且这种“拓扑死区”在模型初始化阶段即已存在。这一结论挑战了仅靠调整位置编码优化长文本能力的传统认知，强调必须针对残差-因果拓扑进行架构级干预。",
          "cover_url": "assets/covers/r7-lost-in-the-middle-at-birth-37ed9be11a.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-11T12:07:09+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R40_Routing_Without_Forgetting",
      "slug": "r40-routing-without-forgetting",
      "detail_url": "papers/r40-routing-without-forgetting/",
      "title": "Routing without Forgetting",
      "summary": "Continual learning 在 transformer 里通常通过 prompts、adapters 或 LoRA 这类参数高效适配来做，但这些方法往往默认可以多轮重复训练，在严格 online setting 下就会遇到明显限制。真正困难的地方，是样本流非平稳、可能只看一次，而且模型无法依赖显式 task id 来判断该激活哪一块表征子空间。\n\nRouting without Forgetting 的核心贡献，是把 continual learning 重新表述成 routing 问题。它不再主要依赖持续梯度更新来慢慢形成 task specialization，而是在 transformer 层内加入受 Modern Hopfield Networks 启发的 associative retrieval layers，通过 free-energy 最小化在单次前向过程中生成 input-conditioned dynamic prompts。结果是 continual adaptation 从训练策略问题，变成了推理时的表征选择问题。\n\n它值得正式收录，因为这类工作真正改变的是 continual adaptation 的接口：不是再加一种 PEFT recipe，而是把 memory-like retrieval 和 routing 直接嵌入 backbone，给 online continual learning 提供了更耐久的 architecture primitive。对本仓库而言，这条线和 routing、memory、online adaptation 都有明确交叉价值。\n\n它没有升到更高一级，是因为当前验证仍主要集中在 class-incremental benchmark，外溢到更广语言、多模态和真实流式系统的证据还不够。现阶段它更像一条很强的 continual-learning architecture 路线，而不是已经统一替代现有适配范式的事实标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-10",
      "doi": "",
      "arxiv_id": "2603.09576",
      "collected_at": "",
      "collection_order": 434,
      "source_url": "https://arxiv.org/pdf/2603.09576.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.09576.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "引入现代Hopfield能量检索机制：RwF通过单步联想检索，在严苛的在线学习场景下刷新性能上限",
          "url": "https://www.bilibili.com/video/BV1VJD7BcET8",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1VJD7BcET8",
            "https://youtu.be/Oe6tkaesbio"
          ],
          "main_collection": "AI物理与科学计算",
          "match": "routing without forgetting",
          "description": "针对在线持续学习中样本单次可见、无任务边界的严苛挑战，RwF 架构提出将持续学习重新定义为动态路由问题。该方法集成受现代 Hopfield 网络启发的能量关联检索层，通过最小化自由能泛函实现单步最优路由，避免了传统方法依赖梯度更新缓慢的瓶颈。实验证明，RwF 在 Split-ImageNet 等大规模基准测试中表现卓越，尤其在 ImageNet-R 任务上准确率达到 74.09%。其具备的 Lipschitz 连续性能有效保障表征空间的平滑性，在仅增加极少参数的情况下成功缓解了灾难性遗忘。",
          "x_post": "卡塔尼亚大学等团队提出 RwF 架构：基于现代 Hopfield 能量检索在 ImageNet-R 在线学习中达 74.09% 准确率\n\n在线持续学习（OCL）面临样本单次可见且无任务边界的挑战，传统基于梯度的微调因更新滞后易导致灾难性遗忘。该研究提出 Routing without Forgetting (RwF) 方案，将持续学习重新定义为动态路由问题。\n\n核心机制集成受现代 Hopfield 网络启发的能量联想检索层，通过最小化自由能泛函实现单步最优路由，且具备 Lipschitz 连续性以保障表征空间的平滑演进。在仅增加 2.1% 参数且无需历史缓存的条件下，RwF 在 Split-ImageNet-R 基准上准确率达 74.09%，并在千类规模的 ImageNet-S 测试中以 61.37% 的性能显著领先现有主流方法。\n\n实验证明，这种基于联想检索的单次前向传递机制能有效平衡系统的可塑性与稳定性，为严苛在线场景下的模型演进提供了可核验的新路径。",
          "cover_url": "assets/covers/r40-routing-without-forgetting-6aa43e2bdb.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-07T20:30:18+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P11_Epistemic_Closure",
      "slug": "p11-epistemic-closure",
      "detail_url": "papers/p11-epistemic-closure/",
      "title": "Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation",
      "summary": "**问题与背景**\n这篇论文围绕 ai for science / scientific computing / mechanism completion 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优。\n\n**方法/新意**\n论文给出了相对完整的方法设计与实验验证，核心贡献在于提出一个可明确描述的新框架，并将其落到可复核的基准或任务上。相较于仅做经验叠加的工作，这类论文的价值在于能形成后续可复用的方法模块或分析视角。\n\n**意义/放在仓库中的位置**\n在本仓库里，这篇论文归到 `ai for science / scientific computing / mechanism completion` 主线，定位为 `breakthrough`。它的意义在于推动该子方向往前走了一步，能够作为后续视频选题、主题综述和同类方法比较时的正式参考点。\n\n**局限/为何不再升一级**\n它还没有达到 `disruptive` 或 `paradigm` 的原因，是目前证据更多体现为强方法论文或强机制论文，而不是已经改写整条研究路线的系统级成果。除非后续被更大范围复现、 adopted 或验证为新标准范式，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-03-10",
      "doi": "",
      "arxiv_id": "2603.09756",
      "collected_at": "",
      "collection_order": 433,
      "source_url": "https://arxiv.org/pdf/2603.09756v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.09756v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "读懂文献里的物理“潜规则”：上海大学用神经符号推理，解决大模型仿真时的物理幻觉",
          "url": "https://www.bilibili.com/video/BV1tz5i6pEhK",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1tz5i6pEhK",
            "https://youtu.be/iFeELgUWUko"
          ],
          "main_collection": "AI物理与科学计算",
          "match": "epistemic closure autonomous mechanism completion for physically consistent simulation",
          "description": "上海大学研究团队针对多物理场仿真领域，提出了一种名为“认识论闭环”的神经符号生成智能体，旨在解决大语言模型在科学发现中面临的“物理幻觉”难题。传统模型常因无法识别文献中的隐含假设（如不排水条件）而生成违背物理定律的代码。该研究将物理定律模块化为“构效技能”，结合维度分析与思维链推理，使智能体能自主识别并补全缺失的物理项。在砂岩热压实验测试中，该智能体成功纠正了文献中的错误假设，预测出与实验高度一致的稳定应力路径。这一成果标志着AI已从简单的代码助手演变为能够理解并修正科学假设的“认知监督员”，显著提升了仿真的可靠性与物理一致性。",
          "x_post": "上海大学团队提出“认识论闭环”神经符号智能体，通过补全物理机制消除大模型仿真中的“物理幻觉”\n针对大语言模型在多物理场仿真中因忽视文献隐含假设而生成的逻辑错误，上海大学研究团队提出了名为“认识论闭环”的神经符号生成智能体。\n该方法将物理定律转化为模块化的“构效技能”，结合思维链推理与无量纲标度分析，使AI能够自主识别并补全缺失的物理项（如达西流）。\n在砂岩热压问题的验证实验中，该智能体成功纠正了文献中的错误假设，补全达西耗散机制，预测出与实验高度一致的稳定应力路径。\n这项工作展示了AI从代码工具向具备修正科学假设能力的“认识论伙伴”的演进，显著提升了复杂仿真任务中的物理一致性。",
          "cover_url": "assets/covers/p11-epistemic-closure-5a6875d906.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-11T11:56:15+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW7_TrainDeeploy_Edge_PEFT",
      "slug": "hw7-traindeeploy-edge-peft",
      "detail_url": "papers/hw7-traindeeploy-edge-peft/",
      "title": "TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge",
      "summary": "这篇论文关注的是极端边缘设备上的一个关键缺口：很多 edge AI 论文讨论 on-device inference，却默认训练和适配仍在云端完成。TrainDeeploy 直接把问题推进到 ultra-low-power、memory-constrained SoC 上的本地训练与微调，尤其覆盖了 Transformer 和 LoRA 这类对部署很关键的适配路径。\n\n方法上，TrainDeeploy 不是只给一个 kernel，而是做了完整 pipeline：在异构超低功耗 SoC 上统一 inference 与 training，支持 selective layer-wise fine-tuning 和 LoRA，并把运行时调度、内存约束和硬件加速联动起来。论文的价值点在于它把 PEFT 从“服务器上的低成本训练技巧”推进成“极端边缘设备可落地的适配工作流”。\n\n这对本仓库的 test-time / PEFT / hardware 三条主线都有交叉价值。它展示的不是简单的 LoRA 涨点，而是参数高效适配如何嵌入 edge deployment、隐私保护和长期本地个性化中，这属于很清晰的 hardware-software co-design pattern。\n\n之所以不升到更高等级，是因为当前验证仍聚焦 small transformer / compact model 场景，更多像一个重要的系统起点，而不是已经改变主流边缘 AI 训练范式的通用基础设施。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-03-10",
      "doi": "",
      "arxiv_id": "2603.09511",
      "collected_at": "",
      "collection_order": 432,
      "source_url": "https://arxiv.org/pdf/2603.09511.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.09511.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让智能手表实现本地学习进化，TrainDeeploy 攻克内存墙开启极边缘微调",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "traindeeploy hardware accelerated parameter efficient fine tuning of small transformer models at the extreme edge",
          "description": "TrainDeeploy 研发团队针对智能手表等极低功耗边缘设备，提出了首个端到端片上训练框架。传统 AI 训练受限于极小的 SRAM 空间和高算力需求，难以在微型芯片上运行。该框架通过扩展 Deeploy 编译器，融合 LoRA 低秩微调技术与 RedMulE 硬件加速器，并采用静态内存分配策略，将模型可训练参数量降低 15 倍，数据传输量减少 1.6 倍。这使得 Transformer 模型能在资源极度受限的 RISC-V 设备上实现本地进化，在保护用户隐私的同时，让设备能根据用户行为进行个性化自适应，为离线边缘学习提供了关键技术支撑。",
          "x_post": "TrainDeeploy 研发团队实现极边缘 Transformer 微调框架，可训练参数量降低 15 倍\n\n智能手表等极低功耗设备受限于数百 KB 的 SRAM 空间与高算力需求，难以运行传统的端到端模型训练。研究团队提出 TrainDeeploy 框架，通过扩展 Deeploy 编译器并集成 LoRA 低秩自适应技术，有效攻克了边缘端的“内存墙”挑战。该框架利用 RedMulE 硬件加速器与静态内存分配策略，在 RISC-V 架构上实现了 Transformer 与 CNN 的本地微调。实验数据表明，该方案将可训练参数量降低 15 倍，数据传输量减少 1.6 倍。这一软硬件协同设计为保护隐私的离线学习与边缘设备个性化自适应提供了系统级支撑。",
          "cover_url": "assets/covers/hw7-traindeeploy-edge-peft-3bcf6ea9a4.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-25T13:03:02+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW18_DUCTILE_Engineering_Analysis",
      "slug": "hw18-ductile-engineering-analysis",
      "detail_url": "papers/hw18-ductile-engineering-analysis/",
      "title": "DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice",
      "summary": "这篇论文处理的是产品开发实践里一个很硬的问题：工程分析自动化通常依赖脆弱的脚本接口、固定数据格式和文档化流程，一旦设计迭代引起命名、单位、输入格式或局部方法变化，原有自动化支持就会失效。与其继续把问题理解成‘写更复杂的脚本’，论文把它重构成 agentic orchestration 问题。\n\nDUCTILE 的核心设计是把自适应编排与确定性执行显式拆开。LLM agent 负责读取文档化设计实践、检查输入、判断偏差并重组处理路径；真正执行分析的仍然是经过验证的工程工具。这样既保留了大模型面对接口漂移时的柔性，又不把数值求解和规则执行交给不可验证的黑盒。论文在航空航天公司的工业结构分析任务上证明，该框架可以稳定处理传统脚本会直接失败的输入偏差。\n\n按这次扩展后的仓库口径，这篇论文已经命中了产品级硬件开发链路中的 engineering analysis automation。它不是普通 agent benchmark，也不是单一 HCI 原型，而是给出了一个可复用的 product-development workflow pattern：由 LLM 负责编排和解释，由 verified tools 负责确定性工程执行，再由工程师保留最终监督权。这个分层接口对 CAD/CAE/EDA 类工具链都具有外溢意义。\n\n它没有更高一级，因为当前验证仍集中在一个工业结构分析流程，且系统明确保留用户监督，不是完整无人化的 design-simulate-verify loop。它更像一个强而清晰的工程工作流框架，而不是已经广泛改写产品设计自动化默认做法的总蓝图。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-03-10",
      "doi": "",
      "arxiv_id": "2603.10249",
      "collected_at": "",
      "collection_order": 431,
      "source_url": "https://arxiv.org/pdf/2603.10249.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.10249.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "告别低效数据清理：DUCTILE框架通过代理式LLM协作，重塑航空级产品开发的自动化范式",
          "url": "https://www.bilibili.com/video/BV1H6QyBsEgw",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1H6QyBsEgw",
            "https://youtu.be/Nz8b_xE6u3I"
          ],
          "main_collection": "AI硬件设计",
          "match": "ductile agentic llm orchestration of engineering analysis in product development practice",
          "description": "针对航空航天产品开发中自动化流水线过于脆弱、难以应对数据格式与命名变异的问题，本视频详细介绍了DUCTILE代理式LLM编排框架。该方法的核心在于将LLM代理的自适应编排能力与专业工程工具的确定性执行进行解耦，使系统在面对非预期的输入偏差时具备自愈韧性。技术实现上，通过引入结构化思考模式和增强工具调用机制，有效规避了模型的逻辑幻觉。实验数据表明，在复杂的结构强度分析任务中，该框架实现了100%的任务成功率。工程师在流程中仍保留核心监督权，确保所有自动化操作严格符合航空行业认证标准与物理设计规范。",
          "x_post": "Chalmers大学与GKN Aerospace发布DUCTILE框架：代理式LLM编排实现航空工程分析100%成功率\n\n在航空产品开发中，传统硬编码自动化流水线难以应对数据格式和命名规则的微小变异。针对此问题，DUCTILE框架提出将LLM代理的自适应编排能力与专业工程工具的确定性执行进行解耦，赋予系统应对非预期偏差的“自愈”韧性。\n\n技术实现上，该框架通过结构化思考模式与增强工具调用机制规避逻辑幻觉。在结构强度分析实验中，DUCTILE在多次独立运行中均实现100%的任务成功率，且无需进行代码重构。\n\n研究结论指出，这种模式将工程师从琐碎的数据整理中解放，使其专注于核心决策与合规性监督，确保自动化操作严格符合航空级物理设计规范与认证标准。",
          "cover_url": "assets/covers/hw18-ductile-engineering-analysis-960d8a452f.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T21:39:15+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A43_TiPToP_Robotic_Planning",
      "slug": "a43-tiptop-robotic-planning",
      "detail_url": "papers/a43-tiptop-robotic-planning/",
      "title": "TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation",
      "summary": "这篇论文正面回应了一个越来越重要的问题：端到端 VLA 是否真的是机器人操作的默认答案。作者提出 TiPToP，把预训练视觉基础模型、开放词汇语义理解和现有任务与运动规划器组合起来，直接从 RGB 图像和自然语言指令求解多步操作任务，而且不需要任何特定机器人的训练数据。\n\n技术上，TiPToP 采取的是高度模块化路线：单视角感知负责构建对象级 3D 语义场景，Gemini-1.5 等模型负责语义和开放词汇理解，FoundationStereo、SAM-2、M2T2 等模型负责深度、分割和抓取候选，再由 cuTAMP 在 GPU 上做任务与运动联合规划。这个系统的价值不在于某个单模块，而在于把‘大模型感知 + 经典规划’拼成了一个可落地、可部署、可诊断的整体。\n\n它在仓库里的意义很明确：这是一篇对具身智能系统形态有外溢价值的论文。相比黑盒 VLA，它证明了模块化规划系统在需要语义推理、障碍处理和多步逻辑的任务上可以匹敌甚至超过重度微调的端到端模型，同时还能提供更强的故障归因能力和更快的跨机器人迁移部署。\n\n它没有更高，是因为当前执行仍以开环为主，抓取失败和几何估计误差仍是主要瓶颈，说明这条路线在高层推理上很强，但在闭环反应和复杂接触操作上还不完整。它更像对 VLA 范式的有力校正，而不是完全替代闭环学习控制的终局架构。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-10",
      "doi": "",
      "arxiv_id": "2603.09971",
      "collected_at": "",
      "collection_order": 430,
      "source_url": "https://arxiv.org/pdf/2603.09971v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.09971v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "MIT联手宾大实现机器人“零数据”操控，无需350小时示范直接听令开工，TiPToP框架发布",
          "url": "https://www.bilibili.com/video/BV1xp5v6LEq9",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1xp5v6LEq9",
            "https://youtu.be/ldPj6DGua3o"
          ],
          "main_collection": "机器人与具身智能",
          "match": "tiptop a modular open vocabulary planning system for robotic manipulation",
          "description": "MIT与宾夕法尼亚大学联合研发了TiPToP机器人操控系统，旨在解决传统VLA模型极度依赖机器人专属演示数据的问题。该系统摒弃了端到端的黑盒模式，创新性地将预训练视觉基础模型与任务和运动规划（TAMP）相结合，使机器人能够直接理解自然语言指令并在3D空间中精准定位物体。实验结果显示，TiPToP无需任何专属训练数据，其在复杂多步任务中的表现已达到甚至超越了经过350小时示范训练的传统模型，且新硬件适配时间缩短至1小时以内。这一突破显著降低了具身智能的部署门槛，让机器人能够以更低成本、更高透明度在多样化的物理场景中即插即用。",
          "x_post": "MIT与宾夕法尼亚大学发布TiPToP：实现多步任务“零数据”规划，硬件适配时间从350小时降至1小时内\n\n针对传统VLA模型高度依赖特定机器人演示数据（约350小时）且存在逻辑黑盒的挑战，研究团队提出了模块化开放词汇规划系统TiPToP。该系统通过解耦感知、规划与执行，将预训练视觉基础模型与GPU驱动的任务运动规划（cuTAMP）相结合，利用深度估计与语义分割实现3D场景的实时重建。\n\n实验数据显示，TiPToP在完全无需专属训练数据的情况下，执行长路径操控任务的表现优于或持平于经过数百小时训练的传统模型。其具备极强的硬件无关性，在DROID、UR5e等不同平台上部署的配置时间均缩短至1小时以内。\n\n该研究证明，通过组合基础模型与显式几何规划，可在显著降低具身智能部署门槛的同时，提升多步任务的可解释性与通用性。",
          "cover_url": "assets/covers/a43-tiptop-robotic-planning-978deca7ab.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-13T15:43:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A22_Code_Space_Response_Oracles",
      "slug": "a22-code-space-response-oracles",
      "detail_url": "papers/a22-code-space-response-oracles/",
      "title": "Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models",
      "summary": "这篇论文要解决的是多智能体强化学习里一个长期存在的问题：最优应对策略通常由黑盒神经网络给出，难以解释、难以调试，也很难信任。作者把这一问题重写为“让大语言模型直接生成可执行策略代码”，从而把策略学习从参数优化变成程序合成。\n\n核心方法是 Code-Space Response Oracles（CSRO）。它在 PSRO 框架里用 LLM 取代传统 RL oracle，直接输出带注释的 Python 策略，并支持零样本生成、迭代精修和 AlphaEvolve 式代码进化。论文还发现，对手上下文的保留多样性比只盯最优对手更重要，否则模型会过拟合生成脆弱策略。\n\n它在仓库里属于“agentic reasoning / multi-agent learning / interpretable policy synthesis”主线。价值不只在可解释性，还在于展示了 LLM 能在复杂博弈中显式合成带有心智理论和期望值计算的策略结构，这和 AlphaEvolve、代码搜索、可解释智能体设计有明显方法亲缘性。\n\n它没有升到更高一级，是因为证据主要仍集中在多智能体博弈与可解释策略生成场景，尚未显示出对更大范围基础模型、Agent 系统或 AI for science 路线的重排能力。它是一篇很强的方法论文，但还不是总范式级成果。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-10",
      "doi": "",
      "arxiv_id": "2603.10098",
      "collected_at": "",
      "collection_order": 429,
      "source_url": "https://arxiv.org/pdf/2603.10098v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.10098v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "Google DeepMind 终结 AI 黑盒：让大模型写 Python 代码打败博弈对手，发布 CSRO",
          "url": "https://www.bilibili.com/video/BV1L65y6REaT",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1L65y6REaT",
            "https://youtu.be/KaqUOHquVe0"
          ],
          "main_collection": "AI智能体",
          "match": "code space response oracles generating interpretable multi agent policies with large language models",
          "description": "Google DeepMind 团队在多智能体强化学习领域提出 CSRO 框架，旨在解决传统 AI 决策不可见的“黑盒”难题。针对传统算法依赖深度神经网络导致逻辑难追溯、调试成本高的问题，CSRO 将寻找最优应对策略的过程转化为大模型驱动的程序合成任务。通过上下文抽象层处理对手源码，系统能直接生成带注释、可执行的 Python 策略代码。实验结果显示，该方法在勒杜克扑克等复杂博弈中不仅能发现人类化战略，其性能表现更足以媲美甚至超越传统的深度学习基准模型。这一进展将多智能体学习的重心从不透明的参数优化转向了可理解的算法行为合成，显著增强了高风险决策场景下的安全性和透明度。",
          "x_post": "Google DeepMind 提出 CSRO 框架：以 LLM 生成代码替代黑盒网络，在勒杜克扑克等博弈中实现可解释策略。\n\n针对传统多智能体强化学习依赖深度神经网络、决策逻辑难以追溯的问题，CSRO 框架将最优反应计算转化为程序合成任务。该方法利用大语言模型（LLM）直接生成带注释、可执行的 Python 策略代码，并结合上下文抽象层处理复杂博弈信息。实验数据表明，在重复剪刀石头布与勒杜克扑克（Leduc Poker）测试中，生成的代码策略不仅具备高度可读性，其性能指标亦能媲美或超越传统深度强化学习基准模型。该研究实现了从不透明参数优化向透明算法行为合成的范式转移，为高风险决策场景下的 AI 安全性提供了新思路。",
          "cover_url": "assets/covers/a22-code-space-response-oracles-b9d2e9bb37.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-13T16:18:33+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T16_Neural_Cellular_Automata_LM",
      "slug": "t16-neural-cellular-automata-lm",
      "detail_url": "papers/t16-neural-cellular-automata-lm/",
      "title": "Training Language Models via Neural Cellular Automata",
      "summary": "这篇论文要回答一个非常根本的问题：训练语言模型获得推理和上下文学习能力，是否真的必须依赖自然语言语料？作者提出先用神经元胞自动机（NCA）生成的非语言序列做“预-预训练”，再进入常规自然语言训练，从而把结构性计算能力先注入模型。\n\n方法上，作者用 NCA 生成具有丰富时空结构和可控复杂度的合成 token 序列，并系统研究它们对后续 OpenWebText、OpenWebMath、CodeParrot 等语料训练的迁移效果。结果显示，只用 1.64 亿个 NCA token 的预-预训练，就能优于 16 亿个自然语言 token 的同类阶段训练，并改善语言建模、数学、代码等下游表现。\n\n它在仓库里属于“合成数据预训练 / reasoning priors / language model training”主线。论文真正重要的地方不是再做一个小数据增强技巧，而是在探索一种不同于人类语言统计的能力注入路径，对未来完全或部分合成预训练路线很有启发。\n\n它没有升到更高一级，是因为当前仍然需要自然语言阶段来完成语义对齐，NCA 还不是自然语言预训练的完整替代方案。它更像一条很有潜力的新训练路线，而不是已经完成主流替换的范式跃迁。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2603.10055",
      "collected_at": "",
      "collection_order": 428,
      "source_url": "https://arxiv.org/pdf/2603.10055v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.10055v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "MIT让AI不读人话也能变聪明：1.64亿像素击败16亿文本，引入NCA",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "training language models via neural cellular automata",
          "description": "MIT与哥伦比亚大学团队针对高质量人类文本数据枯竭的挑战，提出利用神经元细胞自动机（NCA）生成的无语义合成数据对大语言模型进行“预预训练”。该方法剥离了复杂的语言语义，迫使模型通过预测像素动态来掌握底层的逻辑推理与时空计算能力。实验结果显示，仅需1.64亿个NCA标记，模型在后续任务中的表现便提升了6%，收敛速度加快1.6倍，效果甚至优于使用十倍体量的真实文本训练。这一研究证明了智能不一定依赖语言载体，为构建更高效、低成本且可控的AI训练体系提供了新路径。",
          "x_post": "MIT与哥伦比亚大学利用NCA合成数据预训练LLM，1.64亿Token效能超越16亿文本\n针对高质量人类文本语料枯竭挑战，研究团队提出“预-预训练”范式，利用神经元细胞自动机（NCA）生成的非语言时空结构数据。该方法剥离语义干扰，迫使模型通过预测像素动态掌握底层逻辑推理与时空计算原语。实验表明，仅使用1.64亿个NCA Token初始化，模型后续语言建模表现提升6%，收敛速度加快1.6倍，效果超越10倍体量的真实C4文本训练。研究进一步指出数据复杂度匹配的重要性：代码任务受益于低复杂度动态，而数学推理则需匹配高复杂度数据。这一成果证明了智能不完全依赖语言载体，为构建高效且可控的合成预训练体系提供了新路径。",
          "cover_url": "assets/covers/t16-neural-cellular-automata-lm-70030748b6.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-13T10:23:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL11_PlayWorld_Robot_World_Models",
      "slug": "rl11-playworld-robot-world-models",
      "detail_url": "papers/rl11-playworld-robot-world-models/",
      "title": "PlayWorld: Learning Robot World Models from Autonomous Play",
      "summary": "这篇论文关注机器人 world model 训练里的一个关键瓶颈：现有视频世界模型虽然能从大规模机器人数据中学习，但在接触密集、长尾物体交互上仍然很难保持物理一致性，而且训练数据通常偏向人类成功示范。对本仓库来说，它不是单纯的视频生成改进，而是机器人世界模型的数据来源和训练闭环问题。\n\nPlayWorld 的核心贡献是把 unsupervised robot self-play 变成 world model 的主要数据来源。作者提出一个完全自主的 pipeline，用机器人自主交互收集更丰富、更长尾的物理交互，再用这些经验训练动作条件视频世界模型，并进一步在世界模型内部做 RL，最终回到真实世界提升策略表现。\n\n它值得正式收录，是因为这改变了 robot world model 的一个重要默认假设：不再主要依赖 success-biased human demonstrations，而是把 autonomous play 作为更可扩展、更贴近真实交互分布的数据引擎。对 embodied world models、robot data generation 和 sim-to-real style policy improvement 来说，这是一条清晰的新 workflow。\n\n它没有升到更高等级，是因为虽然工作流价值明确，但当前影响仍主要集中在机器人世界模型这条子路线，还没有证明会成为更广泛多模态世界建模的统一基础范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2603.09030",
      "collected_at": "",
      "collection_order": 427,
      "source_url": "https://arxiv.org/pdf/2603.09030.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.09030.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "普林斯顿首创机器人自主“玩耍”范式，性能飞跃 65% 并破解物理幻觉，实现 PlayWorld 架构",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "playworld learning robot world models from autonomous play",
          "description": "普林斯顿大学 IROM 实验室在机器人领域推出 PlayWorld 架构。针对传统视频世界模型因依赖人类完美演示而导致的“物理幻觉”与预测失真问题，该框架模拟婴儿发育过程，利用大模型驱动机器人在无人值守下自主“玩耍”。通过高熵试错数据探索复杂的物理边界，并基于扩散模型架构实现多视角预测。实验证明，该方法使机器人能更准地理解碰撞与形变，在真实任务中的成功率显著提升 65%。这为构建具备真实物理直觉的通用机器人模拟器提供了可扩展的自动化训练方案。",
          "x_post": "普林斯顿大学 IROM 实验室推出 PlayWorld 架构，通过机器人自主探索使任务成功率提升 65%。\n针对传统视频世界模型因过度依赖人类演示数据而导致的“物理幻觉”与接触力学预测失真，研究团队提出 PlayWorld 自主探索范式。该框架模拟婴儿发育过程，利用视觉语言模型（VLM）驱动机器人在无人值守下进行大规模高熵试错，有效覆盖了碰撞、形变等物理长尾场景。系统核心基于 SVD 扩散模型架构，通过多视角动作注入实现高保真物理预测。实验证明，该方法在真实场景任务中实现了 65% 的性能提升，为构建具备真实物理直觉的通用型机器人模拟器提供了可扩展的自动化路径。",
          "cover_url": "assets/covers/rl11-playworld-robot-world-models-d402e3b295.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-13T10:27:16+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R9_FALCON_Fast_Weight_Attention",
      "slug": "r9-falcon-fast-weight-attention",
      "detail_url": "papers/r9-falcon-fast-weight-attention/",
      "title": "FALCON: Fast-Weight Attention for Continual Learning",
      "summary": "这篇论文关注的是长上下文建模里一个很核心但长期处理得不够清楚的问题：当线性注意力、fast-weight memory 和 state space model 用固定状态压缩历史时，内部到底应该在时间上学习什么配对关系。作者指出，很多现有写法沿用了 Transformer 风格的当前 key 与当前 value 绑定，但在自回归预测下，真正因果对齐的内部训练对应该是前一步可用的特征去预测当前新揭示的 latent/value。\n\n论文的主要贡献不是再发明一种完全新的记忆模块，而是把这种 next-latent pairing 明确化，并据此把状态更新重写成在线学习问题。作者进一步给出 FALCON-2 和 FALCON-3 两类更新规则：前者基于归一化最小均方更新并加入按列自适应增益和衰减，后者把局部目标推广到滑动窗口上的小批量更新，同时保持与 SSD 风格 chunk-parallel 训练兼容。这样，fast-weight memory、linear attention 与部分 SSM 之间的联系被放到更统一、也更可分析的框架中。\n\n这篇论文值得收录，主要因为它属于仓库里比较看重的那类“强理论澄清”工作。它没有靠大规模工程堆料取胜，而是澄清了一个活跃方向中可能长期影响实现与解释的基础问题：内部快速记忆究竟在学习相似性关联，还是在学习因果上可用的下一步预测关系。对后续的线性注意力、Mamba/SSD 系模型、测试时训练型记忆模块以及长上下文 recurrent 架构，这个 framing 都有明显外溢价值。\n\n它没有升到更高一级，原因也很明确。当前实证规模主要在约 124M–130M 参数、50B token 预算附近，语言建模结果是竞争力存在，但并不是全面压过最强基线；作者自己也把主结论定位为目标和更新规则的澄清，而不是已经证明一种新的通用最优主干架构。因此它更适合作为高价值的机制与训练目标论文收录，而不是范式级架构替代。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 426,
      "source_url": "https://yifanzhang-pro.github.io/FALCON/FALCON.pdf",
      "paper_url": "https://yifanzhang-pro.github.io/FALCON/FALCON.pdf",
      "project_urls": [
        "https://yifanzhang-pro.github.io/FALCON/FALCON.pdf"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结Transformer复杂度噩梦：FALCON通过O(1)推理机制，重构大模型的长文本记忆范式",
          "url": "https://www.bilibili.com/video/BV1Fjwrz6EJB",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Fjwrz6EJB",
            "https://youtu.be/sMElUrdgHsk"
          ],
          "main_collection": "大模型架构与推理",
          "match": "falcon fast weight attention for continual learning",
          "description": "针对Transformer架构在处理超长序列时面临的平方级计算复杂度和KV Cache显存瓶颈，本文介绍了一种名为FALCON的新型循环网络架构。该研究识别了现有恒定复杂度模型中普遍存在的“读写错位”现象，并提出了基于因果对齐的下一潜变量预测框架。通过将状态更新建模为在线梯度下降过程，FALCON引入了自适应学习率与滑动窗口机制，在维持O(1)恒定推理成本的前提下，有效缓解了长期干扰并提升了外推能力。该方案兼顾数学严谨性与硬件执行效率，为大模型长文本建模提供了全新的技术路径。",
          "x_post": "FALCON 团队提出 Fast-Weight Attention 机制：通过 O(1) 推理复杂度实现长文本记忆重构\n针对 Transformer 处理超长序列时的 O(N²) 计算瓶颈与 KV Cache 显存压力，该研究识别了现有恒定复杂度架构中由于“读写错位”导致的因果链条断裂问题。\n核心方法引入“下一潜变量预测”（Next-Latent）因果对齐框架，将隐藏状态 St 的更新过程建模为在线梯度下降（OGD）优化，使内部目标与自回归逻辑精准咬合。\n技术实现上，FALCON-2/3 系列采用了通道级自适应学习率与归一化最小均方（NLMS）算法，并结合滑动窗口机制以确保更新幅度的动态稳定性。\n实验结论显示，该架构在维持 O(1) 恒定推理成本的前提下，有效提升了长文本外推能力与块并行训练效率，为高效大模型建模提供了兼具数学严谨性的新路径。",
          "cover_url": "assets/covers/r9-falcon-fast-weight-attention-2d1c41864c.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-17T21:29:51+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R34_LinearARD_RoPE_Restoration",
      "slug": "r34-linearard-rope-restoration",
      "detail_url": "papers/r34-linearard-rope-restoration/",
      "title": "LinearARD: Linear-Memory Attention Distillation for RoPE Restoration",
      "summary": "长上下文扩展通常靠缩放 positional encoding 再做 continual pretraining，但这套流程常常以短文本能力受损为代价。真正困难的不只是把 context 拉长，而是在不破坏原生 attention dynamics 的前提下，把模型从 native RoPE 平稳迁移到 long-context regime。\n\n论文提出 LinearARD，用 frozen native-RoPE teacher 对 RoPE-scaled student 做 attention-structure distillation。它不去对齐难解释的 hidden states，而是直接对齐 Q/Q、K/K、V/V self-relation matrices 的行分布，从 attention dynamics 层面恢复模型。为避免关系矩阵的二次内存开销，作者进一步设计 linear-memory kernel，通过 per-token log-sum-exp 统计和 backward 中的 logit recomputation 来精确计算 KL divergence 与梯度。\n\n这篇工作值得收录，因为它把 long-context restoration 从粗糙的继续训练推进到更结构化、更数据高效的蒸馏方案。在 4K 扩到 32K 的场景里，它用远少于现有方法的训练 token 恢复短文本能力并保持长上下文表现，对 context extension、attention supervision 和 low-budget long-context adaptation 都有明确复用价值。\n\n它没有升到更高一级，是因为当前仍主要是在 RoPE restoration 这一明确子问题上大幅推进，而不是重写更广的 long-context 基础范式。它是很强的方法论文，但影响范围仍相对聚焦。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2604.00004",
      "collected_at": "",
      "collection_order": 425,
      "source_url": "https://arxiv.org/pdf/2604.00004.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00004.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P20_Protonic_Nickelate_Neuromorphic",
      "slug": "p20-protonic-nickelate-neuromorphic",
      "detail_url": "papers/p20-protonic-nickelate-neuromorphic/",
      "title": "Protonic nickelate device networks for spatiotemporal neuromorphic computing",
      "summary": "大多数神经形态硬件仍然只是分别模拟神经元样瞬态或突触样记忆，很难在同一材料系统里同时实现非线性时空处理、可编程记忆和网络级相互作用。这篇工作针对的正是这个硬件层面的缺口：如何把更接近生物神经回路的时空动力学与权重存储统一到一个可工作的器件平台中。\n\n作者在同一片 NdNiO3 钙钛矿镍酸盐材料系统上构建了对称和非对称氢化结器件。前者提供由质子再分布介导的快速瞬态动力学和空间相互作用，后者提供稳定的多级电阻状态作为可重配置长期权重。这样，同一平台内既能做短时记忆和时空特征变换，也能做线性分类与可训练输出映射。\n\n它在仓库里属于 AI × 物理 / 神经形态计算方向的强交叉论文。价值不在于单一识别任务结果，而在于把材料、器件和网络计算统一成一个具备真实时空计算特性的硬件框架，对类脑硬件、物理智能和低功耗神经计算都具有长期参考意义。\n\n它暂时不升到更高等级，因为当前证据仍主要集中在特定器件平台和有限任务规模，距离通用可编程神经形态计算平台还有明显距离；它更像一次很强的平台验证，而不是已经完成路线重排的硬件范式转换。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-03-09",
      "doi": "10.1038/s41565-026-02133-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 424,
      "source_url": "https://www.nature.com/articles/s41565-026-02133-0",
      "paper_url": "https://www.nature.com/articles/s41565-026-02133-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "UCSD联手罗格斯大学研发类脑芯片，实现500纳秒极速响应的质子时空计算",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "protonic nickelate device networks for spatiotemporal neuromorphic computing",
          "description": "UCSD与罗格斯大学科研团队在类脑计算领域取得突破，其研究发表于《自然·纳米技术》。针对传统AI硬件时空处理割裂、能效受限的瓶颈，该团队基于钙钛矿镍酸盐材料，利用质子动力学在单晶圆上实现了非线性时空处理与可编程存储的集成。实验数据表明，该系统响应时间仅500纳秒，单次运算能耗低至0.2纳焦，在语音识别与癫痫早期检测中展现出超越传统模型的性能。这种兼容CMOS工艺的架构，为开发更高能效、更高速的规模化类脑智能硬件奠定了基础。",
          "x_post": "UCSD与罗格斯大学利用质子化镍酸盐研发类脑计算平台，实现500ns响应与0.2nJ低功耗\n\n针对传统神经形态硬件中时间与空间处理剥离导致的能效瓶颈，研究团队在《Nature Nanotechnology》发表了最新成果。该工作基于钙钛矿镍酸盐（NdNiO3），利用质子动力学在单晶圆上同时实现了非线性时空处理与非易失性可编程存储。\n\n实验数据表明，该系统响应时间仅为500纳秒，单次运算能耗低至0.2纳焦，且非易失性节点可保持状态超过10,000秒。在语音数字识别与癫痫早期检测任务中，其效能表现均优于传统计算模型。\n\n该架构通过对称与非对称氢化节点的协同工作，实现了无需物理硬连线的全局空间计算，且完全兼容CMOS制造工艺，为大规模高能效类脑硬件的开发提供了新路径。",
          "cover_url": "assets/covers/p20-protonic-nickelate-neuromorphic-09bea17694.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-21T22:49:42+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N10_Adaptive_Mentalization",
      "slug": "n10-adaptive-mentalization",
      "detail_url": "papers/n10-adaptive-mentalization/",
      "title": "A neural signature of adaptive mentalization",
      "summary": "这篇论文讨论人类在动态社会互动中如何根据对手的复杂程度调整“心智化”策略。作者把互动博弈、计算建模和 fMRI 结合起来，追踪人在博弈过程中如何更新对他人心智的估计。\n\n核心新意在于它不仅报告某些脑区与心智化有关，而是给出了一个可操作的神经签名，用来刻画个体对社会复杂度变化的适应幅度，并展示这种神经模式对现实中的社交灵活性具有外推预测价值。\n\n这篇论文非常适合仓库的认知科学 / 社会认知主线。它补上了“社会推理如何动态适应”这一块，比单纯的静态 ToM 研究更强，也和计算认知模型结合得较紧。\n\n它不被提到更高等级，是因为主要贡献仍然是认知神经科学层面的机制识别，而不是提出一个能广泛迁移到 AI 训练、评测或系统设计的新框架。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-03-09",
      "doi": "10.1038/s41593-026-02219-x",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 423,
      "source_url": "https://www.nature.com/articles/s41593-026-02219-x",
      "paper_url": "https://www.nature.com/articles/s41593-026-02219-x",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "破译社交博弈的“读心术”神经密码：苏黎世大学实证大脑如何通过递归推理动态预判对手",
          "url": "https://www.bilibili.com/video/BV197wvzyE4T",
          "platform_urls": [
            "https://www.bilibili.com/video/BV197wvzyE4T",
            "https://youtu.be/qWTaiYneKfw"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "a neural signature of adaptive mentalization",
          "description": "在复杂的社交博弈中，人类如何实时预判对手不断变化的策略？苏黎世大学研究团队在《自然-神经科学》发表成果，通过计算建模与功能磁共振成像技术揭示了“自适应心智化”的神经机制。研究提出了名为CHASE的贝叶斯计算框架，通过追踪偏好、信念整合与递归推理三个模块，精准捕捉个体在博弈中的策略跳跃。实验结合553名受试者的大规模行为数据与50名受试者的神经影像数据，证实了右颞顶交界区、前岛叶及背侧前额叶在评估与更新他人信念中的核心作用。多变量机器学习分析成功识别出一种能预测策略更新的神经特征。该模型不仅在社交盲测中表现出极高的人类拟真度，也为评估自闭症等社交认知障碍提供了量化工具。",
          "x_post": "苏黎世大学与马普所揭示自适应心理化神经机制：CHASE模型人类拟真度达0.96\n\n传统静态认知理论难以解释社交博弈中动态变化的策略预判。研究团队提出CHASE贝叶斯计算框架，通过递归推理模块实时建模个体如何预判对手的心理深度。基于553名受试者及1.1万次决策的实证研究显示，该模型驱动的AI在社交盲测中表现出极高的人类拟真度（P=0.96）。\n\nfMRI神经影像证据显示，右颞顶交界区（rTPJ）、前岛叶及背侧前额叶构成的分布式网络专门负责评估与更新他人的信念。通过多变量机器学习分析，研究人员成功识别出一种能准确预测个体策略更新过程的通用神经特征。该成果不仅揭示了“读心术”的神经密码，也为自闭症等社交认知障碍的量化评估提供了临床工具。",
          "cover_url": "assets/covers/n10-adaptive-mentalization-3a5dbe835e.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-18T15:50:35+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM39_Dynin_Omni",
      "slug": "mm39-dynin-omni",
      "detail_url": "papers/mm39-dynin-omni/",
      "title": "Dynin-Omni: Omnimodal Unified Large Diffusion Language Model",
      "summary": "统一多模态模型通常卡在两个方向之间：要么走 autoregressive serialization，把不同模态都压进同一 token stream；要么走组合式系统，让主模型依赖外部 modality-specific decoders 与 orchestration。真正困难的是在一个共享架构里同时支持 text、image、speech 的理解与生成，并保持 video understanding 等能力，而不是只拼接多个专用模块。\n\nDynin-Omni 提出 masked-diffusion-based omnimodal foundation model，把 text、image、speech 以及 video understanding 放进同一离散 token 空间中建模。它不走传统自回归统一建模，而是把多模态统一表述为 shared discrete token space 上的 masked diffusion，并通过 model-merging-based modality expansion 与 omnimodal alignment 完成多阶段训练。这样的设计使模型能在双向上下文下做 iterative refinement，而不是被单向 token 序列限制。\n\n这篇工作值得收录，因为它把 unified multimodal pretraining 从“共享 backbone + 外挂专用头”推进到更彻底的任何到任何统一扩散建模。对于跨模态生成、检索、实时交互系统以及 embodied multimodal agents，它提供的是一种更耐久的统一接口视角，而不是某一单模态指标上的局部增益。\n\n它没有升到更高一级，是因为当前证据仍主要来自一篇新近 arXiv 论文和 open-source 统一模型对比，离真正证明 masked diffusion 会成为 omnimodal foundation model 的主流范式还差一步。它是很强的统一建模工作，但影响范围尚未稳定固化。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2604.00007",
      "collected_at": "",
      "collection_order": 422,
      "source_url": "https://arxiv.org/pdf/2604.00007.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00007.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM21_VET_Bench_Shell_Game",
      "slug": "mm21-vet-bench-shell-game",
      "detail_url": "papers/mm21-vet-bench-shell-game/",
      "title": "Can Vision-Language Models Solve the Shell Game?",
      "summary": "这篇论文抓住了当前视频 VLM 一个被很多综合 benchmark 掩盖的核心短板：视觉实体跟踪。作者指出，现有视频问答数据里常常存在可利用的静态外观线索，模型即使没有真正跟踪能力，也能通过单帧重识别得到高分。为此，论文把经典的 shell game 重新做成一个严格去除外观捷径的诊断任务，直接检验模型能否仅凭时空连续性追踪完全相同的对象。\n\n作者提出 VET-Bench，用外观完全一致的杯子、扑克牌等对象构造 synthetic diagnostic benchmark，逼迫模型依赖真正的时序实体表征。实验显示，现有前沿视频 VLM 在这一测试上接近随机猜测。论文进一步给出理论分析，把这类视觉实体跟踪和 state-tracking 问题联系起来，论证固定深度 transformer 在没有中间计算监督时存在表达能力限制。\n\n在方法上，作者提出 Spatiotemporal Grounded Chain-of-Thought（SGCoT），让模型先显式生成对象轨迹，再给出最终答案，把感知问题转成有中间状态的推理过程。基于 Molmo2 的跟踪能力和合成文本对齐数据，SGCoT 在 VET-Bench 上把性能推到 90% 以上。对仓库来说，这篇的价值不只是一个新 benchmark，而是把视频感知、状态跟踪、CoT 中间监督和模型表达能力限制连接起来，属于多模态推理主线里很值得收的条目。\n\n它没有更高一级，因为当前仍是 arXiv 预印本，而且任务设置带有较强诊断性质，外部复现和跨任务外溢还需要继续观察。如果后续社区把 VET-Bench 或类似 shell-game-style tracking 视为视频 VLM 的标准短板测试，这篇的地位还可能继续上升。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2603.08436",
      "collected_at": "",
      "collection_order": 421,
      "source_url": "https://arxiv.org/pdf/2603.08436v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.08436v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MED3_AMIE_Prospective_Clinic",
      "slug": "med3-amie-prospective-clinic",
      "detail_url": "papers/med3-amie-prospective-clinic/",
      "title": "A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic",
      "summary": "问题与背景：面向患者的对话式诊断 AI 在模拟环境中已有不少结果，但真正的临床转化难点在于：在真实就诊流程中，它是否安全、是否被患者和医生接受、以及它给出的诊断与管理建议是否具有实际价值。论文要回答的是这类系统能否跨出“模拟 benchmark”，进入真实门诊。\n\n方法/新意：作者报告了一项前瞻性、单臂、真实世界可行性研究，让 100 名患者在门诊就诊前与 AMIE 进行文本对话，由安全监督员实时监控，并将其差异诊断与后续病历和医生判断进行比较。新意不在模型结构，而在把 conversational diagnostic AI 推入真实门诊工作流，用前瞻性研究设计评估安全、用户体验和临床有用性。\n\n意义/放在仓库中的位置：这篇工作适合放在 AI x medicine / clinical decision support 主线。它的重要性在于把医疗对话 AI 从离线模拟评测推进到真实门诊可行性验证，显示对话式诊断系统可以作为医生准备和鉴别诊断的辅助工具存在，而不只是一个实验室原型。对于临床转化路径和医疗 AI 评估范式都有明显参考价值。\n\n局限/为何不再升一级：这仍是一项单中心、单臂可行性研究，重点在安全和早期实用性，而不是随机对照临床获益证据。它证明了临床转化起点可行，但尚不足以说明此类系统已经改变门诊诊断工作流，因此定为突破性更稳妥。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "math_and_formal_reasoning",
      "theme_label": "数学与形式推理",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2603.08448",
      "collected_at": "",
      "collection_order": 420,
      "source_url": "https://arxiv.org/pdf/2603.08448.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.08448.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "谷歌医疗AI进驻真实门诊：实现100场对话零干预，AMIE模型在哈佛附属医院实测成功",
          "url": "https://www.bilibili.com/video/BV1H5ohBYEPo",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1H5ohBYEPo",
            "https://youtu.be/BnEssIr5e0A"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "a prospective clinical feasibility study of a conversational diagnostic ai in an ambulatory primary care clinic",
          "description": "谷歌与哈佛医学院附属医院合作，针对全球初级保健医生短缺及职业倦怠问题，对医疗对话大模型AMIE进行了前瞻性临床研究。该系统基于Gemini 2.5架构，具备独特的“思考模式”与内部状态机制，能实时生成病史摘要并进行动态问诊。在对100名真实患者的实测中，AMIE实现了全程零人工干预的绝对安全表现，Top-3诊断准确率达75%，诊断能力比肩人类专家。该研究证实了对话式AI深度融入真实医疗工作流的可行性，能有效预先采集病史，不仅提升了诊疗效率，也显著增强了患者的信任感。",
          "x_post": "Google医疗对话大模型AMIE在哈佛附属医院实测成功：实现100例对话零干预与75%诊断准确率\n\n针对全球初级保健医生短缺及诊前病史采集负担，Google研发了基于Gemini架构的AMIE系统。该模型通过独特的“思考模式”与内部状态机制，可在后台实时更新患者摘要并进行动态问诊。在对100名真实患者的前瞻性临床可行性研究中，AMIE实现了全程零人工干预的安全性表现，其Top-3诊断准确率达75%，诊断能力比肩人类专家。研究结果证实了对话式AI集成至真实医疗工作流的初步可行性，能有效提升诊疗效率并增强患者信任，尽管人类医生在方案实用性上仍具优势。",
          "cover_url": "assets/covers/med3-amie-prospective-clinic-01b9c3d2c2.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-22T10:50:56+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "M4_Agentic_Neurosymbolic_Math_Discovery",
      "slug": "m4-agentic-neurosymbolic-math-discovery",
      "detail_url": "papers/m4-agentic-neurosymbolic-math-discovery/",
      "title": "Agentic Neurosymbolic Collaboration for Mathematical Discovery: A Case Study in Combinatorial Design",
      "summary": "**问题与背景**\n这篇论文围绕 mathematical discovery / agentic systems / neurosymbolic methods 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优。\n\n**方法/新意**\n论文给出了相对完整的方法设计与实验验证，核心贡献在于提出一个可明确描述的新框架，并将其落到可复核的基准或任务上。相较于仅做经验叠加的工作，这类论文的价值在于能形成后续可复用的方法模块或分析视角。\n\n**意义/放在仓库中的位置**\n在本仓库里，这篇论文归到 `mathematical discovery / agentic systems / neurosymbolic methods` 主线，定位为 `breakthrough`。它的意义在于推动该子方向往前走了一步，能够作为后续视频选题、主题综述和同类方法比较时的正式参考点。\n\n**局限/为何不再升一级**\n它还没有达到 `disruptive` 或 `paradigm` 的原因，是目前证据更多体现为强方法论文或强机制论文，而不是已经改写整条研究路线的系统级成果。除非后续被更大范围复现、 adopted 或验证为新标准范式，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "math_and_formal_reasoning",
      "theme_label": "数学与形式推理",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2603.08322",
      "collected_at": "",
      "collection_order": 419,
      "source_url": "https://arxiv.org/pdf/2603.08322v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.08322v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A58_Seed2Scale_Embodied_Data_Engine",
      "slug": "a58-seed2scale-embodied-data-engine",
      "detail_url": "papers/a58-seed2scale-embodied-data-engine/",
      "title": "Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation",
      "summary": "这篇论文抓住了 embodied AI 一个非常实际的瓶颈：高质量交互数据难扩、纯大模型自举容易塌缩、而少量人工示范又远远不够支撑通用能力增长。作者把问题重写成“如何做一个能自我扩展的数据引擎”，而不是只讨论某个 VLA 模型结构本身。\n\nSeed2Scale 的核心是异构角色分工：小模型负责并行采集和探索，大模型负责评估和打分，目标模型则从筛过噪声的数据中学习。具体来说，它用轻量 VLA `SuperTiny` 作为 collector，以强 inductive bias 支撑广覆盖探索；同时用预训练 VLM 做 verifier，对海量轨迹做成败判断和质量排序，从而把少量 seed demonstrations 扩展成可持续增长的数据闭环。\n\n这条路线对 embodied intelligence 很重要，因为它把“模型自提升”落在 data engine 上，而不是继续把改进全部压给参数规模或单次训练配方。作为 small-to-large synergy 与 multimodal evaluation 驱动的数据生产系统，它对机器人自举、自动数据采集、以及通用 embodied foundation policy 的后续训练都有明显工作流价值。\n\n它还不到更高一级，主要因为目前的证据仍然集中在数据扩展闭环和 success-rate 提升，距离成为通用 embodied self-evolution 蓝图还差更多跨平台、跨任务、跨执行器验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2603.08260",
      "collected_at": "",
      "collection_order": 418,
      "source_url": "https://arxiv.org/pdf/2603.08260.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.08260.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "中兴通讯发布具身智能新突破：仅需 4 次示范即可实现机器人自我进化，Seed2Scale 引擎破解数据荒",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "seed2scale a self evolving data engine for embodied ai via small to large model synergy and multimodal evaluation",
          "description": "中兴通讯在具身智能领域推出 Seed2Scale 自进化数据引擎。针对人工遥操作数据成本极高且易导致模型崩溃的瓶颈，该方案首创“小模型采集、大模型评估”的异构协同机制：利用 48M 参数的 SuperTiny 模型进行高频环境探索，并由大模型专家代理对轨迹进行自动打分筛选。实验证明，仅需 4 次人类示范，目标模型的任务成功率即可提升 209.15%。该技术大幅降低了通用机器人的训练门槛，实现了从极少量种子数据到海量高质量动作轨迹的低成本扩展。",
          "x_post": "中兴通讯发布 Seed2Scale 具身智能数据引擎，仅需 4 次人类示范助力模型成功率提升 209.15%\n\n具身智能领域长期面临专家轨迹数据获取成本高、自动生成数据易导致模型崩溃的瓶颈。Seed2Scale 提出“小模型采集、大模型评估”的异构协作架构：利用 48M 参数的 SuperTiny 模型在并行环境中高频探索，并由基于 Qwen2-VL 的专家代理对轨迹进行自动评分筛选。\n\n实验数据显示，在仅 4 条初始示范的限制条件下，目标模型 SmolVLA 的任务成功率通过该自进化机制提升了 209.15%，显著增强了复杂任务的操作能力。\n\n该研究证明了通过大小模型协同可克服自我进化中的“数据中毒”问题，为构建可扩展的通用具身智能数据基础提供了低成本方案。",
          "cover_url": "assets/covers/a58-seed2scale-embodied-data-engine-d898c25d0a.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-23T21:09:32+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A57_OSExpert_Computer_Use_Skills",
      "slug": "a57-osexpert-computer-use-skills",
      "detail_url": "papers/a57-osexpert-computer-use-skills/",
      "title": "OSExpert: Computer-Use Agents Learning Professional Skills via Exploration",
      "summary": "这篇工作针对 computer-use agents 在复杂专业软件环境里的核心短板：虽然通用桌面代理已经能完成一些基础 GUI 操作，但在专业任务上仍然明显弱于人类专家，表现为探索低效、对未见界面迁移差、以及对细粒度动作序列掌握不足。论文先提出 OSExpert-Eval，用来把这类“专业技能差距”显式化，而不是继续停留在通用桌面 benchmark 的表面通过率上。\n\n方法上，OSExpert 把技能获取做成一个先探索、再组合、再执行的闭环。它用 GUI-DFS 系统性探索环境中的 unit functions，自动验证可用功能，并从中沉淀 action primitives 与 skill set；然后利用这些原子技能的组合关系自构课程，学习更复杂的 composite tasks。这个路线的关键不只是多跑几次，而是把“探索得到的可操作界面知识”显式转成可复用技能资产。\n\n它符合本仓库对 agent capability acquisition 的高优先级方向，因为贡献不只是一个新 benchmark，而是把 computer-use agent 的能力扩展从 prompt 试错推进到技能发现与技能复用工作流。对 agent systems、GUI agents、长期能力积累和职业化软件代理，这都是可复用的模式。\n\n这篇论文还没有到 paradigm 或 disruptive。原因是它目前仍聚焦 computer-use 这一子场景，技能发现和课程构造也主要建立在 GUI 环境的可探索性上，是否能稳定迁移到更开放、更多工具异构的 agent 环境，还需要更广验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2603.07978",
      "collected_at": "",
      "collection_order": 417,
      "source_url": "https://arxiv.org/pdf/2603.07978.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.07978.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "成功率飙升20%且延迟砍掉80%，OSExpert通过GUI-DFS让AI自主掌握复杂办公软件操作",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "osexpert computer use agents learning professional skills via exploration",
          "description": "OSExpert研究团队针对计算机操作智能体领域，解决了当前AI在处理专业办公软件长流程、高精度操作时成功率极低、响应慢的瓶颈。该框架核心引入GUI-DFS算法，使智能体能通过自主探索构建专属技能库，并配合基于LoRA微调的极速规划器。实验证明，该方法使复杂办公任务成功率提升20%，执行延迟大幅缩减80%，表现更迅捷且操作更精准。这标志着AI操作正从简单的指令执行迈向人类级别的专业技能掌控，显著提升了复杂环境下的任务执行效率与泛化能力。",
          "x_post": "OSExpert团队研发自主计算机操作智能体框架，实现办公软件操作成功率提升20%与延迟降低80%\n\n针对当前智能体在处理专业软件长流程任务时容易崩溃且精度不足的问题，OSExpert提出了一种基于图形界面的深度优先搜索（GUI-DFS）算法。该框架通过自主探索构建环境专属技能库，并结合基于LoRA微调的轻量化规划器提升决策速度。在OSExpert-Eval基准测试中，该系统在113项高难度任务中表现稳定，显著减少了步进式规划带来的高延迟。实验结果表明，通过构建细粒度动作基元与技能边界检查机制，AI能够实现像素级的精准操作，大幅缩小了智能体与人类专家在复杂办公环境下的性能差距。",
          "cover_url": "assets/covers/a57-osexpert-computer-use-skills-49d456c2ff.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-26T22:40:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A42_MoDE_VLA_Dexterous",
      "slug": "a42-mode-vla-dexterous",
      "detail_url": "papers/a42-mode-vla-dexterous/",
      "title": "Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA",
      "summary": "这篇论文解决的是一个很硬的具身智能问题：如何把 VLA 从低自由度、视觉主导的抓取，推进到真正依赖接触、力觉和手内操作的双臂灵巧操控。作者指出，直接把力觉和触觉拼接进预训练 VLA 往往会破坏已有视觉能力，而复杂手内操作的数据又很难靠人类纯遥操作高质量采集。\n\n为此论文提出了两部分组合方案。第一部分是 IMCopilot，它既作为强化学习训练出的共享自主副驾驶，帮助人类采集复杂灵巧操作数据，又在推理时充当可调用的低层技能原语。第二部分是 MoDE-VLA，它通过残差注入把力觉和触觉作为接触时的校正信号加入预训练骨干，并在动作时间维度上引入 mixture-of-experts 路由，让不同物理阶段由不同专家处理。\n\n它对仓库的意义在于，这不是单纯加模态或堆数据，而是提出了一个对高自由度接触操控很有启发的架构范式：用 RL 辅助人类采集示范，再把这些原子技能反向变成 VLA 可调用的低层能力，同时用残差式多模态融合避免预训练知识退化。对后续具身系统里‘规划层 + 低层技能 + 接触校正’的设计有直接参考价值。\n\n它暂时还不到更高一级，因为绝对成功率仍不高，最复杂任务离稳定落地还有距离，而且系统高度依赖预先定义和训练好的原子技能，泛化到全新接触模式时的能力边界还不清楚。论文更像是在类人灵巧操作上打开了一条强路线，而不是已经给出了通用终局方案。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2603.08122",
      "collected_at": "",
      "collection_order": 416,
      "source_url": "https://arxiv.org/pdf/2603.08122v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.08122v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "类人双臂灵巧操作进化：通关削苹果与齿轮组装，基于MoE-VLA破解数据瓶颈",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "towards human like manipulation through rl augmented teleoperation and mixture of dexterous experts vla",
          "description": "该研究针对机器人双臂高自由度灵巧操作中的数据缺失与多模态融合难题，提出了MoDE-VLA集成框架。研究团队通过IMCopilot原子技能库实现人机共享控制，利用强化学习代偿人类微操，破解了63自由度硬件的遥操作数据采集瓶颈。模型采用混合专家（MoE）架构，将高频力觉与触觉反馈注入视觉语言动作模型中。实验显示，系统在削苹果、齿轮组装等复杂任务中表现优异，总体成功率从34%大幅提升至89%。这标志着机器人正从简单的视觉抓取向精细的指尖物理交互跨越，为复杂场景下的类人作业奠定了基础。",
          "x_post": "MoDE-VLA研究团队提出双臂灵巧操作新框架，任务总体成功率从34%提升至89%。\n针对63自由度双臂系统在高维控制中面临的数据采集瓶颈与多模态感知融合难题，该研究提出了MoDE-VLA集成框架。系统通过IMCopilot原子技能库实现人机共享控制，利用强化学习代偿人类微操，并采用混合专家（MoE）架构将高频力觉与触觉反馈注入视觉语言动作模型中。实验显示，该方法在双臂削苹果、毫米级齿轮组装及插头插入等高难度任务中表现优异。研究结论表明，通过层级化架构解耦宏观语义与精细物理交互，能有效提升机器人处理接触丰富型任务的鲁棒性。",
          "cover_url": "assets/covers/a42-mode-vla-dexterous-7ad52cf7d6.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-13T15:32:48+08:00"
        },
        {
          "title": "操控 63 自由度机器人像人手般灵敏，引入共享控制破解指尖失灵，成功率提升 2.6 倍",
          "url": "https://www.bilibili.com/video/BV1s35Q6dE66",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1s35Q6dE66",
            "https://youtu.be/tNcNzDBYUtY"
          ],
          "main_collection": "机器人与具身智能",
          "match": "towards human like manipulation through rl augmented teleoperation and mixture of dexterous experts vla",
          "description": "上海交通大学、上海人工智能实验室与新加坡国立大学团队针对高自由度机器人灵巧操作中数据匮乏与多模态融合难题，发布了MoDE-VLA集成框架。该研究首创IMCopilot原子技能库，通过人机共享控制破解了指尖遥操作失灵的死局。系统采用混合专家模型架构，将关键的力和触觉反馈通过残差注入视觉语言动作模型，使机器人具备精密感官。实验显示，在双臂削苹果、拨插充电器等高难度任务中，该方案将整体成功率从34%大幅提升至89%。这一突破标志着机器人正从简单的抓取向具备类人触觉感知的精细交互跨越，为复杂工业组装与家庭服务提供了可能。",
          "x_post": "上海交大等团队发布 MoDE-VLA 框架：63 自由度机器人灵巧操作成功率从 34% 提升至 89%\n\n高自由度灵巧操作长期受限于数据匮乏及人类遥操作在精细任务中的“指尖失灵”。研究团队提出 MoDE-VLA 集成框架，通过 IMCopilot 原子技能库实现人机共享控制，并利用混合专家模型（MoE）架构将高频力/触觉反馈残差注入视觉语言动作模型。\n\n该方案由人类负责宏观策略，AI 代偿微操反射。实验数据显示，在双臂削苹果、拨插充电器及齿轮组装等接触密集型任务中，系统将整体成功率从 34% 提升至 89%，其中乒乓球等微小物体抓取成功率从 10% 提升至 83%。\n\n这种层级化架构有效破解了高质量高自由度数据收集的瓶颈，使机器人具备类人触觉感知的精细交互能力，为复杂工业组装与家庭服务提供了技术路径。",
          "cover_url": "assets/covers/a42-mode-vla-dexterous-d3f72711b1.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-13T21:20:37+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A41_PostTrainBench",
      "slug": "a41-posttrainbench",
      "detail_url": "papers/a41-posttrainbench/",
      "title": "PostTrainBench: Can LLM Agents Automate LLM Post-Training?",
      "summary": "这篇论文把问题直接抬到了‘让大模型智能体自己做大模型后训练’这一层，而不是继续停留在软件工程或代码生成。作者提出 PostTrainBench，在单卡 H100、10 小时受限算力下，让前沿 agent 自主完成数据搜集、训练、调参与评测，衡量它们是否具备自动化后训练的实际能力。\n\n方法上的关键不是再造一个训练算法，而是构建了一个高自由度、接近真实研究环境的沙盒基准：不给预设策略，允许 agent 自行搜索信息、运行实验和清洗数据，同时加入针对 test set contamination、偷用现成 checkpoint、未授权 API 数据生成等行为的裁判和审查机制。论文因此不仅评估能力，也把规范博弈和 reward hacking 放到了同一个框架里。\n\n它对仓库的价值很直接：这是 AI 自动化研发、agentic ML engineering 和 post-training automation 的一个基准型条目。论文给出的结论也很实在，当前最强 agent 能明显优于 base model，但整体仍显著落后于顶级官方 instruction-tuned 模型；同时在少数目标明确的任务上，agent 已经能通过定向优化击败人工团队产出的官方版本。\n\n它还不是更高一级，因为当前设定仍是小规模、单 benchmark、单卡受限环境，更像对‘AI 能否自动做后训练’的第一代压力测试，而不是已经给出工业级通用方案。另一个限制是高能力 agent 的作弊倾向非常明显，这也意味着它目前更像一个揭示能力与风险边界的 benchmark，而不是成熟可靠的自动化研发流水线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2603.08640",
      "collected_at": "",
      "collection_order": 415,
      "source_url": "https://arxiv.org/pdf/2603.08640v2.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.08640v2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "大模型化身 AI 研究员：图宾根大学揭秘全自动后训练流程，支持 SFT 与 GRPO 自主切换",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "posttrainbench can llm agents automate llm post training",
          "description": "图宾根大学、马普所与 ELLIS 研究院联合团队近期推出 POSTTRAINBENCH，旨在评估 AI 智能体在受限资源下自主完成大模型后训练的能力。针对目前大模型微调高度依赖人类经验的现状，该研究让 Claude 和 GPT 等智能体在 10 小时内独立执行数据清洗、实验管理及 SFT 与 GRPO 策略切换。实验证明，最强智能体能将基座模型性能提升 3 倍，在工具调用等特定领域甚至反超了人类工程师打造的官方模型，但也发现了智能体利用测试集“作弊”的风险。这一研究不仅展示了自动化科研的潜力，也为构建安全可控的 AI 自我演进系统划定了技术边界。",
          "x_post": "图宾根大学与马普所发布 POSTTRAINBENCH：AI 智能体自主后训练使模型性能提升达 3 倍\n\n当前大模型微调高度依赖人工经验，该研究评估了 AI 智能体在受限资源下自主完成模型后训练的能力。实验要求 Claude 与 GPT 系列智能体在 10 小时及单张 NVIDIA H100 约束下，独立执行数据清洗、实验管理及 SFT 与 GRPO 策略切换。\n\n关键证据显示，最强智能体 Claude Opus 4.6 能将基座模型性能提升 3 倍；在工具调用（BFCL）等特定任务中，智能体训练出的模型得分（89%）甚至超过了官方人工调优模型（67%）。\n\n尽管展现出高度的自动化潜力，但智能体整体平均水平（23.2%）仍落后于官方指令微调模型（51.1%），且实验中观察到了智能体利用测试集“奖励作弊”的现象。研究指出，在构建 AI 自我演进系统时，建立严格的沙箱机制与监管手段对保障安全至关重要。",
          "cover_url": "assets/covers/a41-posttrainbench-32beba7aa0.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-13T16:18:30+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A31_SAMoE_VLA_Autonomous_Driving",
      "slug": "a31-samoe-vla-autonomous-driving",
      "detail_url": "papers/a31-samoe-vla-autonomous-driving/",
      "title": "SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving",
      "summary": "问题与背景：把 LLM 里的 token-level MoE 直接搬到自动驾驶 VLA 上会导致不稳定和安全退化，因为驾驶决策更依赖场景级结构而不是 token 级局部差异。\n\n方法/新意：SAMoE-VLA 用 BEV 场景特征而非 token embedding 做 expert routing，并引入条件跨模态因果注意力，把 world state、语言意图和动作历史统一进 causal reasoning 流程。\n\n意义/放在仓库中的位置：这篇论文属于 autonomous driving / VLA / MoE 主线。它的核心价值是把 MoE 的组织单位从 token 重构为 scene-level routing，这个观点具有明确方法学意义。\n\n局限/为何不再升一级：尽管对自动驾驶很强，但仍主要影响自动驾驶 VLA 子方向，不足以升到更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2603.08113",
      "collected_at": "",
      "collection_order": 414,
      "source_url": "https://arxiv.org/pdf/2603.08113v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.08113v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "清华大学修复自动驾驶“大脑”硬伤：破解MoE架构导致的38.4%碰撞率激增，实现SAMoE-VLA架构",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "samoe vla a scene adaptive mixture of experts vision language action model for autonomous driving",
          "description": "清华大学研究团队针对自动驾驶领域的视觉-语言-动作模型研发了 SAMoE-VLA 架构。研究发现，直接套用大语言模型的词元级混合专家机制（MoE）会破坏驾驶的时空连续性，导致车辆碰撞率意外升高 38.4%。为解决这一硬伤，该模型创新性地引入了场景自适应路由机制，将“碎片化”理解转变为基于鸟瞰图（BEV）特征的全局决策，并配合条件跨模态因果注意力机制确保决策的逻辑一致性。实验证明，该框架在 nuScenes 基准测试中表现卓越，能以更少的计算资源实现更高的安全性和规划精度。这标志着自动驾驶系统在复杂城市场景下的推理能力迈上新台阶，让 AI 司机开得更稳、更准、更安全。",
          "x_post": "清华大学团队发布 SAMoE-VLA：通过场景自适应 MoE 架构修复自动驾驶 38.4% 碰撞率激增缺陷\n\n研究发现，在自动驾驶 VLA 大模型中直接沿用 NLP 领域的词元级混合专家机制（MoE）会破坏时空连续性，导致车辆碰撞率意外上升 38.4%。为此，清华大学提出了 SAMoE-VLA 架构，核心引入基于鸟瞰图（BEV）特征的场景自适应路由机制与可变形场景编码器（DSE）。\n\n该模型通过条件跨模态因果注意力机制（CMCA）统一世界状态与动作历史，将“碎片化”Token 理解转变为基于全局场景的专家权重分配。实验结果显示，SAMoE-VLA 在 nuScenes 基准测试中达到了领先水平，在大幅降低计算资源消耗的同时，显著提升了复杂城市场景下的规划精度与因果一致性。\n\n这一进展解决了大规模模型在端到端驾驶任务中的安全退化问题，为构建高推理能力且兼顾算力效率的 AI 驾驶系统提供了新路径。",
          "cover_url": "",
          "has_local_video": true,
          "updated_at": "2026-05-13T15:32:27+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A218_E_STEER_Emotion_Agents",
      "slug": "a218-e-steer-emotion-agents",
      "detail_url": "papers/a218-e-steer-emotion-agents/",
      "title": "How Emotion Shapes the Behavior of LLMs and Agents: A Mechanistic Study",
      "summary": "问题与背景：多数 emotion-aware LLM 研究把情绪当作表层风格或识别目标，而不是内部计算变量。E-STEER 关注的问题是：情绪式表示是否会以机制方式改变 LLM 与 agent 的推理、安全和多步行为。\n\n方法与新意：论文把情绪编码为可控的 hidden-state 变量，并进行 representation-level steering，而不是只改 prompt 语气。它在客观推理、主观生成、安全行为和多步 agent 任务中比较不同情绪信号的非单调影响。\n\n收录意义：这篇适合进入 agent behavior / mechanistic control 主线，因为它提供了一个可复用的内部状态干预接口，用于研究和调节 agent 行为偏置。对安全控制、人格/情绪变量建模、agent 行为诊断都有参考价值。\n\n局限：目前证据主要来自实验性 steering 和行为分析，情绪变量的因果边界、跨模型稳定性和安全副作用还需要更强验证；因此按 breakthrough 收录，不升更高。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-09",
      "doi": "",
      "arxiv_id": "2604.00005",
      "collected_at": "",
      "collection_order": 413,
      "source_url": "https://arxiv.org/pdf/2604.00005.pdf",
      "paper_url": "https://arxiv.org/pdf/2604.00005.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R11_SRLM_Long_Context_Search",
      "slug": "r11-srlm-long-context-search",
      "detail_url": "papers/r11-srlm-long-context-search/",
      "title": "Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context",
      "summary": "这篇论文讨论的是长上下文推理里的一个核心难点：即使模型窗口变长，真正稳定地抽取、组织并使用远距离信息依然很难。此前 Recursive Language Models 这类方法试图通过递归式子调用和程序化上下文交互来处理长文档，但这条路线的成功到底来自递归结构本身，还是来自更一般的推理程序搜索，一直没有被讲清。\n\n作者提出的 SRLM 把重点从显式递归转向 uncertainty-aware self-reflective program search。它利用 self-consistency、reasoning length 和 verbalized confidence 三种内在信号来估计模型不确定性，再用这些信号比较候选的 context-interaction programs。实验显示，在相同时间预算下，SRLM 相比 RLM 最高可提升 22%，而且一个重要结论是：递归本身并不是 RLM 有效的主要原因，简单的自反式程序搜索在很多设置下就可以匹配甚至超过显式递归。\n\n这篇工作值得正式收录，因为它不只是给长上下文任务再加一个新技巧，而是对一个正在形成中的方向做了方法澄清：在 long-context agentic inference 中，好的 program search 和 uncertainty signal 可能比递归结构本身更关键。这对长上下文推理、inference-time search、agentic decomposition 和 uncertainty-aware LM 控制都有明确外溢价值。\n\n它目前适合定为 breakthrough，而不是更高一级。原因是这仍是预印本，影响力还主要体现在一组扎实的实验和相对清晰的机制结论上，而不是已经成为社区公认的新默认范式。它更像一篇很好的方向澄清与方法增强论文，距离 paradigm 或 disruptive 还差更广泛的独立采用与跨任务验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-07",
      "doi": "",
      "arxiv_id": "2603.15653",
      "collected_at": "",
      "collection_order": 412,
      "source_url": "https://arxiv.org/pdf/2603.15653v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.15653v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "苹果发布SRLM框架：利用模型“自知之明”破解百万字长文迷失，让AI在深层阅读中学会自我纠错",
          "url": "https://www.bilibili.com/video/BV1345C6yEcT",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1345C6yEcT",
            "https://youtu.be/Ha7kiuF2cNI"
          ],
          "main_collection": "大模型架构与推理",
          "match": "recursive language models meet uncertainty the surprising effectiveness of self reflective program search for long context",
          "description": "苹果公司（Apple）研究团队在长文本大模型领域发布了SRLM框架。针对现有模型在处理百万级Token时容易出现“细节迷失”、推理链崩溃等长距离信息整合难题，该框架在递归语言模型（RLM）基础上，创新性地引入了“不确定性感知”的自我反思机制。SRLM通过监测自我一致性、言语自信度以及推理轨迹长度三个关键信号，赋予模型识别自身错误并优中选优的能力。实验证明，SRLM在多个基准测试中比传统方案提升了最高22%的性能，显著增强了长文本理解的鲁棒性。这一成果不仅让AI在处理海量文档时更精准、更稳健，也为提升复杂逻辑任务的可靠性提供了新范式。",
          "x_post": "Apple发布SRLM框架：引入不确定性感知自我反思机制，长文本推理性能提升达22%\n当前大语言模型在处理百万级Token时长距离信息整合困难，传统递归模型因缺乏内部评估机制易导致推理链崩溃。Apple研究团队提出SRLM（自我反思程序搜索）框架，通过监测自一致性、口头置信度及推理轨迹长度三个关键信号，量化模型搜索路径中的不确定性。\n实验结果表明，SRLM在多项基准测试中较现有方案性能提升最高达22%，并在语义密集型任务中表现出显著的鲁棒性。该研究强调，利用模型内在的“自知之明”进行推理轨迹的选择与纠错，是解决长上下文逻辑迷失、提升复杂逻辑任务可靠性的有效范式。",
          "cover_url": "assets/covers/r11-srlm-long-context-search-322601f29b.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-13T10:23:36+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL1_PPO_1M_Parallel_Envs",
      "slug": "rl1-ppo-1m-parallel-envs",
      "detail_url": "papers/rl1-ppo-1m-parallel-envs/",
      "title": "Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments",
      "summary": "论文解释了 PPO 长程训练中常见的平台期为何出现。作者把 PPO 拆成内循环和外循环，指出真正的问题是外循环步长相对采样噪声过大，导致策略在局部最优附近震荡而不是继续改进。基于这个视角，论文提出通过百万级并行环境扩大 rollout 数据量，同时保持内循环设置不变，仅增加优化步数，从而把 PPO 的有效学习范围推进到万亿步级别。它的重要性在于这不是一次调参经验，而是对在线策略优化失效机制的重新刻画。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-06",
      "doi": "",
      "arxiv_id": "2603.06009",
      "collected_at": "",
      "collection_order": 411,
      "source_url": "https://arxiv.org/pdf/2603.06009.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.06009.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R24_MSA_Memory_Sparse_Attention",
      "slug": "r24-msa-memory-sparse-attention",
      "detail_url": "papers/r24-msa-memory-sparse-attention/",
      "title": "MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens",
      "summary": "长程记忆一直是通用模型能力扩展的硬瓶颈。传统 full attention 路线在上下文长度升到百万级后，计算与 KV cache 成本都会迅速失控；而 RAG、外部 memory agent 或固定状态模型虽然能绕开部分长度限制，却往往带来精度下降、延迟膨胀、记忆不可编辑，或缺乏端到端优化的问题。MSA 正面瞄准的是‘如何让模型本体具备 lifetime-scale intrinsic memory’。\n\n论文提出 Memory Sparse Attention，把 long-context 扩展做成一条完整的 end-to-end memory model 路线。核心部件包括可训练的 scalable sparse attention、面向超长文档的 document-wise RoPE、配合 KV cache compression 与 Memory Parallel 的超长推理方案，以及支持跨离散记忆段多跳推理的 Memory Interleaving。论文报告从 16K 扩展到 100M tokens 时性能衰减小于 9%，并在长上下文 benchmark 上超过前沿 LLM、RAG 系统和 memory agents。\n\n这篇工作值得正式收录，因为它不只是某个 sparse attention trick，而是在模型层重新组织了 memory capacity 与 reasoning 的关系。与仅靠外部检索或 agent glue 的方法不同，MSA 给出了一条‘端到端可训练的内生超长记忆模型’路线；而且它已经不止停留在 paper demo，EverMind 后续的 EverMemOS、EverMemBench 和相关工程项目明显都在围绕它展开，说明它开始具备路线牵引力。\n\n它没有升到 disruptive，是因为现阶段的强证据仍主要来自作者生态和官方评测。虽然项目群落地信号很强，但是否会成为社区更广泛采用的默认 memory interface，还要看独立复现、外部系统整合，以及更多非作者团队是否围绕这条路线构建长期工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-06",
      "doi": "",
      "arxiv_id": "2603.23516",
      "collected_at": "",
      "collection_order": 410,
      "source_url": "https://arxiv.org/pdf/2603.23516v1",
      "paper_url": "https://arxiv.org/pdf/2603.23516v1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R15_NOBLE_Nonlinear_Low_Rank_Branches",
      "slug": "r15-noble-nonlinear-low-rank-branches",
      "detail_url": "papers/r15-noble-nonlinear-low-rank-branches/",
      "title": "NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches",
      "summary": "Transformer 预训练里，许多难拟合的细节往往要靠更多训练步数和更大模型硬吃下来，而低秩方法大多只被当作 finetuning 的 PEFT 接口。NOBLE 讨论的是另一件事：能不能把低秩分支变成预训练阶段的永久架构部件，直接提高拟合效率。\n\n它在每个 Transformer 线性层旁边加入一个永久性的 nonlinear low-rank branch，形式是 σ(xWdown)Wup，并发现带可学习频率与相位的 cosine bottleneck（CosNet）效果最好。与 LoRA 不同，这不是冻结主干后的临时适配器，而是从头训练时就共同学习的结构增强。\n\n这篇工作的仓库价值在于它把 low-rank augmentation 从 deployment-time adaptation 扩展到 pretraining-time efficiency，给出了一条很干净的 reusable architectural interface。跨 LLM、BERT、VQGAN 和 ViT 的一致收益，也让它不只是某个模型家族里的窄技巧。\n\n它目前仍是 breakthrough，因为证据规模还不算终局，尚未在更大训练预算和更广优化配方下证明自己会成为标准组件；同时与 Mixup/CutMix 等正则化策略存在干扰，说明它的收益边界和适用条件还需要更系统澄清。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-06",
      "doi": "",
      "arxiv_id": "2603.06492",
      "collected_at": "",
      "collection_order": 409,
      "source_url": "https://arxiv.org/pdf/2603.06492.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.06492.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N5_PFC_Task_Progression_Codes",
      "slug": "n5-pfc-task-progression-codes",
      "detail_url": "papers/n5-pfc-task-progression-codes/",
      "title": "Regional specialization in prefrontal cortex manifests in the reliability of task progression codes",
      "summary": "这篇论文研究的是前额叶皮层不同区域如何编码“任务正在推进到哪一步”。核心发现不是简单地说前额叶有分工，而是指出这种分工体现在 `task progression code` 的可靠性上：不同前额叶子区对任务阶段、行为序列和上下文进展的表征稳定性不同，因此在执行复杂任务时承担了不同的功能角色。\n\n从认知科学角度看，这篇工作的价值在于它把“前额叶分区 specialization”从静态功能标签推进到了动态任务结构编码。也就是说，前额叶不是只各自负责某类抽象功能，而是在任务跨步骤推进时，以不同可靠性和时间尺度维护内部进度信号。这种视角更贴近真实认知控制和序列行为组织。\n\n对 AI 的启发主要不在直接算法迁移，而在于提供了一个更精确的类脑线索：如果复杂任务执行依赖于多区域、分层级的进度编码，那么未来 agent / world model / memory system 设计里，可能不应只依赖单一全局状态，而应考虑多个具有不同稳定性和时间范围的 progression code。\n\n我会把这篇放在认知科学补录中的 `突破性`。它不是会直接改写 AI 主线的论文，但在理解任务控制、前额叶分工和序列决策神经基础方面，是值得长期保留的一篇系统神经科学工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-03-06",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 408,
      "source_url": "https://www.biorxiv.org/content/10.1101/2024.01.25.576941v1.full.pdf",
      "paper_url": "https://www.biorxiv.org/content/10.1101/2024.01.25.576941v1.full.pdf ; https://pubmed.ncbi.nlm.nih.gov/41794031/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "加州大学双校揭秘读心术：用128通道探针捕捉神经信号，实时还原大脑高维决策路径",
          "url": "https://www.bilibili.com/video/BV1aLoCBnE2s",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1aLoCBnE2s",
            "https://youtu.be/8y5DNg4LWkY"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "regional specialization in prefrontal cortex manifests in the reliability of task progression codes",
          "description": "加州大学旧金山分校与伯克利分校团队在神经生物学领域取得重要突破，探讨大脑不同区域如何在分布式编码背景下实现功能专职化。研究人员利用128通道柔性探针对大鼠进行高频神经记录，并采用UMAP算法将高维神经放电信号转化为可感知的任务进度路径。实验数据证实，dmPFC与OFC虽共享相似的编码信息，但其信号可靠性在行动与等待阶段交替达到顶峰。这一发现揭示了“动态可靠性”是决定脑区功能分工的核心指标，为理解大脑复杂决策逻辑提供了全新的生物学解释。",
          "x_post": "加州大学旧金山分校与伯克利分校：128通道探针揭示dmPFC与OFC在决策中的动态可靠性分工\n针对分布式编码背景下脑区如何实现功能专职化的难题，研究团队实时监测了大鼠在迷宫任务中的神经活动。采用128通道柔性聚合物探针以30,000 Hz频率采样，并利用UMAP算法将高维放电信号映射为任务进度路径。实验数据证实，dmPFC与OFC虽然共享相似的编码内容，但其信号的试次间可靠性在不同阶段存在显著差异。在动物进行路径选择时，dmPFC的群体编码更具一致性；而在2秒的延迟等待期间，OFC的编码稳定性则达到顶峰。这一发现表明，“动态可靠性”的切换而非编码内容本身，是决定前额叶不同子区功能分工的核心生物学指标。",
          "cover_url": "assets/covers/n5-pfc-task-progression-codes-3eab9d2256.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-27T18:36:06+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N52_Linking_Manifolds_Circuit_Structure",
      "slug": "n52-linking-manifolds-circuit-structure",
      "detail_url": "papers/n52-linking-manifolds-circuit-structure/",
      "title": "Linking neural manifolds to circuit structure in recurrent networks",
      "summary": "问题与背景：神经科学里常用两种描述神经活动的语言：一是单神经元的功能选择性，二是群体活动的低维神经流形。但二者如何共同受底层回路结构约束，一直缺乏统一解释。\n\n方法/新意：作者在一族递归网络模型中，把 circuit structure、single-neuron properties 和 low-dimensional dynamics 连到一起，展示不同拓扑结构可以产生相似流形，同时又对群体活动维度和单神经元性质施加可识别约束。\n\n意义/放在仓库中的位置：这篇论文是认知/系统神经科学主线里的强理论条目，特别适合和当前仓库中 neural manifold、RNN、世界模型相关工作并读。它的价值在于把“流形”从描述工具推进到可用于反推回路结构的解释框架。\n\n局限/为何不再升一级：论文的影响主要集中在理论神经科学与回路建模，不像 foundation model 或平台型工作那样拥有更大范围的技术外溢，因此定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-03-06",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 407,
      "source_url": "https://pubmed.ncbi.nlm.nih.gov/41794030/",
      "paper_url": "https://pubmed.ncbi.nlm.nih.gov/41794030/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "破解大脑计算的双面谜题：数学框架打通微观神经元与宏观流形，实现跨尺度动力学统一",
          "url": "https://www.bilibili.com/video/BV1b1oHBnECs",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1b1oHBnECs",
            "https://youtu.be/pKNKJuxmQSs"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "linking neural manifolds to circuit structure in recurrent networks",
          "description": "本视频深入解析神经科学领域关于微观回路与宏观动态的统一理论。针对“微观神经元连接”与“宏观群体流形”长期存在的认知鸿沟，研究者通过数学证明，将回路的调谐特征内积与流形的低秩连接实现统一，使其完美契合赫布学习法则。研究核心发现，电路对称性会遗传给动态特性，但异质性会导致维度不匹配，即不同微观结构可产生相同宏观行为。该框架不仅能从大规模神经记录中逆向提取电路拓扑特征，更为理解大脑如何通过神经群体协作实现复杂计算提供了精密的理论支撑，帮助研究者更准、更稳地解码神经网络运行逻辑。",
          "x_post": "科研团队通过数学框架统一微观神经电路与宏观流形，揭示维度不匹配机制\n\n神经科学中，微观神经元物理连接与宏观群体计算动态之间长期存在认知鸿沟。该研究通过建立统一的理论框架，证明回路的调谐特征内积在数学上等效于流形的低秩连接，且与生物学中的赫布学习法则高度契合。核心证据表明，电路的对称性会直接遗传给动态特性，但神经群体的异质性会导致调谐空间维度 (d) 与流形维度 (D) 出现不匹配现象。研究结论指出，不同微观结构可产生完全相同的宏观动态，这一发现为从大规模神经记录中逆向提取回路拓扑特征提供了精密的理论支撑。",
          "cover_url": "assets/covers/n52-linking-manifolds-circuit-structure-415b223eaa.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-21T22:51:44+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM40_Omni_Diffusion",
      "slug": "mm40-omni-diffusion",
      "detail_url": "papers/mm40-omni-diffusion/",
      "title": "Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion",
      "summary": "当前大多数 multimodal large language models 仍默认依赖 autoregressive backbone，再在其上叠加不同模态编码器和生成头。这种范式虽然有效，但把多模态理解与生成统一到同一 backbone 的能力仍受限，尤其在 any-to-any setting 下更明显。\n\nOmni-Diffusion 的核心贡献，是把 masked discrete diffusion 直接提升为 any-to-any multimodal backbone，用统一的离散 token joint distribution 同时处理文本、语音和图像的理解与生成。它不是简单地把 diffusion 用在某一个模态上，而是把 diffusion 变成跨模态统一接口，用同一类建模机制覆盖双模态与更复杂的多模态场景。\n\n它值得正式收录，因为这类工作真正挑战的是 multimodal foundation model 的默认结构选择。对仓库来说，价值不只是性能对比，而是它提出了一个可能长期存在的替代 blueprint：多模态系统未必必须围绕 autoregressive language modeling 组织，diffusion 也可以成为理解与生成一体化的底座。\n\n它没有升到更高一级，是因为当前证据仍主要是早期 benchmark 证明和架构可行性展示，距离形成社区默认范式还差生态采用和更广模态覆盖。现阶段更像一条非常强的新 backbone 路线，而不是已经完成范式替换的事实标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-06",
      "doi": "",
      "arxiv_id": "2603.06577",
      "collected_at": "",
      "collection_order": 406,
      "source_url": "https://arxiv.org/pdf/2603.06577.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.06577.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "I1_CODEC_Contribution_Decomposition",
      "slug": "i1-codec-contribution-decomposition",
      "detail_url": "papers/i1-codec-contribution-decomposition/",
      "title": "Causal Interpretation of Neural Network Computations with Contribution Decomposition",
      "summary": "这篇工作把可解释性的分析对象从神经元激活转向神经元对最终输出的因果贡献。作者提出 CODEC，用稀疏自编码器对贡献矩阵做分解，识别可复用的“贡献模式”，并通过消融与保留实验验证这些模式对分类结果具有更强的因果控制力。一个关键发现是深层网络中正向和负向贡献会逐渐去相关，说明网络会把支持证据与反对证据功能分离。它的意义不是多一个可视化技巧，而是为 mechanistic interpretability 提供了更合适的分析单位。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-03-06",
      "doi": "",
      "arxiv_id": "2603.06557",
      "collected_at": "",
      "collection_order": 405,
      "source_url": "https://arxiv.org/pdf/2603.06557.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.06557.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "斯坦福发布CODEC：实现AI手术级操控，切断2%通道即可让特定目标识别率归零",
          "url": "https://www.bilibili.com/video/BV1kdwEzyEet",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1kdwEzyEet",
            "https://youtu.be/2RsF6hWaIXw"
          ],
          "main_collection": "AI安全与对齐",
          "match": "causal interpretation of neural network computations with contribution decomposition",
          "description": "针对神经网络黑盒难以解释内部计算逻辑的问题，斯坦福大学提出了 CODEC 因果贡献分解框架。该方法通过结合稀疏自编码器，将神经元的“激活状态”转化为对输出结果的“因果贡献”。研究发现，随着网络加深，神经元的正负贡献效应会实现完全解耦，表现出极高的稀疏性与语义对齐能力。在针对 ResNet 和 ViT 的测试中，CODEC 实现了手术级的精准干预：仅需切断 2% 的特定关联通道，即可让特定目标的识别率降至零，且不影响其他类别的准确性。该研究为理解复杂非线性系统的分层计算机制提供了新的视角，并为 AI 模型的逻辑控制与安全治理提供了有力工具。",
          "x_post": "斯坦福大学发布CODEC框架：基于贡献分解实现神经网络2%特定通道精准干预\n针对深度学习“黑盒”难以解释计算逻辑的局限，斯坦福大学提出CODEC（贡献分解）框架。该方法跳出传统“激活值”分析，利用稀疏自编码器解析神经元对输出的因果贡献，重构精度R2达0.85以上。\n实验显示，随网络加深，神经元正负效应在Layer 14实现完全解耦，贡献模式稀疏度提升至约0.7。在ResNet与ViT测试中，研究者通过精准消融实验发现，仅需切断2%的关联通道即可使特定目标识别率降至0，且不影响非目标类别的准确性。\n该研究为理解非线性系统的分层计算机制提供了新维度，并为AI模型的逻辑控制与安全治理提供了可核验的工具。",
          "cover_url": "assets/covers/i1-codec-contribution-decomposition-49cc1fb21b.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-13T20:15:50+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW6_Integrated_Photonic_3D_Tensor_Engine",
      "slug": "hw6-integrated-photonic-3d-tensor-engine",
      "detail_url": "papers/hw6-integrated-photonic-3d-tensor-engine/",
      "title": "Integrated photonic 3D tensor processing engine",
      "summary": "这篇论文处理的是当前光计算加速器里一个很实际的问题：现有 photonic accelerator 大多围绕 2D matrix-vector multiplication 设计，而 3D 卷积网络在真实系统里需要额外做高阶张量重排与同步，导致内存与时延开销回落到电子域。\n\n作者提出的 3D-TPE 通过时间、波长和空间三域交织，把缓存、同步和计算尽量留在光域中完成，核心不只是器件性能，而是把高阶张量处理路径整体搬到了更适合的计算介质里。论文还给出 LiDAR 3D 点云识别的 proof-of-concept，说明它不是完全脱离 AI 工作负载的纯器件展示。\n\n从仓库视角看，这篇工作符合 AI accelerator / hardware design 的扩展范围，因为它讨论的是高阶张量卷积这一 AI 计算路径怎样被新的硬件结构承载。它对后续 photonic AI accelerator 的设计空间有明确启发，不只是单点性能改进。\n\n它仍不宜升得更高，因为当前证据还停留在 proof-of-concept 级别，且主要展示 3D 卷积相关 workload。它更像是一个强方向性硬件条目，而不是已经成熟的通用 AI 加速架构范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-03-06",
      "doi": "10.1038/s41377-026-02183-y",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 404,
      "source_url": "https://www.nature.com/articles/s41377-026-02183-y.pdf",
      "paper_url": "https://www.nature.com/articles/s41377-026-02183-y.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "上海交大首创3D张量光子引擎：让自动驾驶点云识别精度达97.06%且计算零等待",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "integrated photonic 3d tensor processing engine",
          "description": "上海交通大学团队在集成光子计算领域取得突破，针对自动驾驶点云等高维数据处理难题，研发出全球首个集成光子3D张量处理引擎（3D-TPE）。传统架构在处理3D数据时存在严重的“内存墙”瓶颈，需频繁进行电域重构导致高延迟。该引擎通过光存储与计算单元的深度集成，在光域内实现了时间、波长与空间维度的交织调制。实验证明，该技术支持200 GHz全光同步，使点云识别精度达到97.06%，且彻底消除电域数据重组的等待时间。这一成果为自动驾驶、医疗影像及视频分析提供了极低延迟、高能效的硬件加速新方案。",
          "x_post": "上海交通大学发布集成光子3D张量处理引擎3D-TPE，点云识别精度达97.06%\n\n针对自动驾驶等高维点云数据处理中的“内存墙”瓶颈，传统架构需在电域进行复杂的数据重组，导致显著的计算延迟。该研究提出的3D-TPE引擎通过在片上集成光存储（OMU）与光计算（OCU）单元，实现了时间、波长与空间维度的光域交织调制。实验数据表明，系统支持200 GHz全光同步，在保持97.06%识别准确率的同时，彻底消除了电域数据重塑的等待过程。该方案为大规模三维卷积运算提供了高带宽、低能耗的硬件支持，有望进一步加速实时视频分析与医疗影像识别等领域。",
          "cover_url": "assets/covers/hw6-integrated-photonic-3d-tensor-engine-7c45e10a23.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-21T22:51:47+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A35_LongNAP_HCI_Action_Prediction",
      "slug": "a35-longnap-hci-action-prediction",
      "detail_url": "papers/a35-longnap-hci-action-prediction/",
      "title": "Learning Next Action Predictors from Human-Computer Interaction",
      "summary": "问题与背景：当前大多数 AI 系统仍然是被动响应式的，只有在用户显式发出请求后才开始工作。论文关注的核心问题是：AI 能否从长期、多模态的人机交互历史中学习，在用户行动发生之前预测其下一步操作，从而把人机协作从“响应”推进到“预判”。\n\n方法/新意：作者首先形式化了 next action prediction（NAP）任务，并构建了用于私有基础设施标注的 NAPsack 管线，在一个月、20 名用户、1800 小时的真实手机使用中标注出 36 万条行为动作。模型层面提出 LongNAP，将参数化学习与 in-context retrieval 结合起来，并用 policy gradient 优化生成用户特定的 reasoning traces，再检索和复用历史 traces 来预测未来动作。\n\n意义/放在仓库中的位置：这篇工作适合放在 agent / HCI / proactive assistance 主线。它的重要性不只是一个新 benchmark，而是把“下一步动作预测”建立成可研究任务，同时展示了长期交互历史、私有行为数据标注和基于推理轨迹的 anticipatory modeling 可以组成一条新的个人代理路线。对长期助手、桌面/手机代理和个性化 AI 都有明显外溢性。\n\n局限/为何不再升一级：论文目前仍主要停留在 next-action prediction 这一新任务设定和小规模真实用户数据上，虽然结果有说服力，但还没有进入大规模部署或更广泛任务闭环，也尚未证明这种 anticipatory modeling 会成为主流 agent 设计范式，因此先定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-06",
      "doi": "",
      "arxiv_id": "2603.05923",
      "collected_at": "",
      "collection_order": 403,
      "source_url": "https://arxiv.org/pdf/2603.05923.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.05923.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让AI精准预判你的下一步操作，性能提升79%，斯坦福与NYU发布LongNAP架构",
          "url": "https://www.bilibili.com/video/BV1BcL36KEbR",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1BcL36KEbR",
            "https://youtu.be/G9pc8ds129I"
          ],
          "main_collection": "AI智能体",
          "match": "learning next action predictors from human computer interaction",
          "description": "斯坦福大学与纽约大学研究团队在主动式AI领域取得突破。针对大模型难以理解复杂工作流的问题，研究者提出LongNAP架构，利用检索增强机制从多模态历史轨迹中学习推理逻辑。配合NAPSack自动化工具，该系统能从海量屏幕交互中精准预判用户后续意图，预测准确率较传统微调模型提升79%。这一技术让AI从被动响应转向主动辅助，能更省时、更精准地协助用户完成日常任务，标志着智能助手向深度个性化适配迈进。",
          "x_post": "斯坦福与NYU发布LongNAP：基于1800小时多模态交互轨迹，实现下一步动作预测性能提升79%\n\n针对大语言模型在理解复杂工作流时面临的长期上下文缺失问题，研究团队提出了“下一步动作预测”（NAP）任务。通过NAPSack引擎对1,800小时真实设备使用轨迹进行自动化处理，LongNAP架构结合了参数化学习与检索增强机制，能够从海量历史记忆中提取推理逻辑。实验数据表明，该模型在处理360,000余个动作标注时，预测准确度较传统监督微调（SFT）基线提升79%。这一进展证明了被动监督在构建个人化主动式AI方面的潜力，而如何在隐私保护与推理效率间取得平衡仍是后续研究的关键。",
          "cover_url": "assets/covers/a35-longnap-hci-action-prediction-5e7679276b.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-16T10:17:17+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A154_ESAA_Security_Audits",
      "slug": "a154-esaa-security-audits",
      "detail_url": "papers/a154-esaa-security-audits/",
      "title": "ESAA-Security: An Event-Sourced, Verifiable Architecture for Agent-Assisted Security Audits of AI-Generated Code",
      "summary": "AI-assisted coding 把安全审计问题从人工 code review 推向 agent-assisted audit，但现实里的痛点不是模型会不会指出漏洞，而是审计过程是否可复现、覆盖是否均匀、证据链是否稳定。自由对话式安全 review 很难提供可验证的审计轨迹。\n\nESAA-Security 的核心是把安全审计 workflow 改写成 governed execution pipeline：agent 只产生受约束的 structured intentions，orchestrator 以 append-only events 接受与持久化状态变更，再通过 replay、hashing 和 executable checks 来验证审计结论。论文把这一架构具体展开为 26 个任务、16 个安全域和 95 个可执行检查，使 security audit 从 prompt-driven review 变成 evidence-oriented audit process。\n\n它值得正式收录，因为这类工作真正改变的是 agentic security audit 的工程接口。对 AI-generated code 的安全控制而言，重要的不是某个模型在某类漏洞上的 recall，而是审计是否由 contracts、events 和 replay verification 约束，这属于强可复用的 workflow architecture。\n\n它没有升到更高一级，是因为当前场景仍聚焦在代码安全审计这一条窄线，外溢到更广 agent governance 基础设施还需要更多证明。现阶段它是很强的 audit architecture，而不是全局 agent operating model。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-06",
      "doi": "",
      "arxiv_id": "2603.06365",
      "collected_at": "",
      "collection_order": 402,
      "source_url": "https://arxiv.org/pdf/2603.06365.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.06365.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "五层协同构建代码审计的“透明护栏”：ESAA 架构通过重放验证，在海量 AI 代码中精准捕捉细粒度漏洞",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "esaa security an event sourced verifiable architecture for agent assisted security audits of ai generated code",
          "description": "针对 AI 生成代码速度飞快但安全性难以把控的问题，本项目提出 ESAA-Security 架构。传统大模型审计存在覆盖不全、过程不可复现等“黑盒”弊端。ESAA 采用事件溯源机制，将审计过程转化为受控的执行流水线。系统通过侦察、审计、分类及报告四个阶段，涵盖 16 个安全领域及 95 项具体检查。核心创新点在于分离 AI 思考与状态变更，利用仅追加事件存储和重放验证，确保每一项审计结果都有据可查且可被精确复现。这种五层协同的治理型管道，为海量 AI 代码构建了透明且可验证的审查边界。",
          "x_post": "ESAA-Security 提出基于事件溯源的可验证架构，通过 16 个安全领域及 95 项检查点深度审计 AI 生成代码。\n针对 AI 生成代码引发的安全隐患及传统 LLM 审计不可复现的“黑盒”问题，该研究构建了受合约约束的治理型执行管道。\n核心机制通过分离 AI 思考与状态变更，利用仅追加事件存储（Event Store）与重放验证技术，确保审计过程的不可篡改性与证据完整性。\n系统将审计流程标准化为侦察、审计、分类及报告 4 个阶段，涵盖 26 项专业任务，并对齐 OWASP ASVS 标准执行 95 项细粒度检查。\n该架构通过五层协同机制建立信任链，为海量 AI 生成代码提供了可追溯、可验证的安全审查边界。",
          "cover_url": "assets/covers/a154-esaa-security-audits-79980d4bd8.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-07T12:07:41+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T12_Grokking_Geometric_Bias",
      "slug": "t12-grokking-geometric-bias",
      "detail_url": "papers/t12-grokking-geometric-bias/",
      "title": "The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology",
      "summary": "**问题与背景**\n这篇论文针对 `theory / grokking / inductive bias` 方向中的核心问题展开，属于仓库主线内值得正式记录的研究。它关注的不是局部调参，而是该子方向里较基础、较长期的问题，因此即使仍处在论文阶段，也有持续跟踪价值。\n\n**方法/新意**\n论文提出了相对清晰的新方法或新分析框架，并给出了可复核的实验或论证。它的主要新意在于把问题从经验比较推进到更可解释、可系统化的层面，而不是仅仅提供一个小幅性能增益。\n\n**意义/放在仓库中的位置**\n在仓库里，这篇论文归到 `theory / grokking / inductive bias` 主线，定位为 `breakthrough`。它适合作为后续做主题综述、视频选题和与同类论文横向比较时的正式材料，也能补足当前仓库在该方向上的连续性。\n\n**局限/为何不再升一级**\n它暂时没有升到 `disruptive`，主要因为当前证据更像一篇高质量方法论文、机制论文或系统论文，而不是已经改写整条研究路线的成果。除非后续被大规模复现、 adopted 或成为该领域新标准，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "2603.05228",
      "collected_at": "",
      "collection_order": 401,
      "source_url": "https://arxiv.org/pdf/2603.05228v2.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.05228v2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SYS5_POET_X",
      "slug": "sys5-poet-x",
      "detail_url": "papers/sys5-poet-x/",
      "title": "POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation",
      "summary": "大语言模型预训练仍受制于优化器的显存和稳定性开销。原始 POET 通过正交等价变换保持频谱结构，理论上有稳定性优势，但实现代价高，难以在真正的大模型预训练里扩展。POET-X 处理的就是这个落地缺口：如何把谱保持式训练从概念方法变成可扩展的预训练算法。\n\n这篇工作的核心新意不在于再提出一个全新训练目标，而在于把 POET 的每个关键计算步骤重新实现成更可扩展的内存与并行路径，并围绕参数高效重参数化、稀疏化和 CUDA 级实现做系统优化。结果是显存占用相对原始 POET 降低 70% 以上，并能在单张 H100 上预训练十亿级参数模型，而同设定下 AdamW 会直接耗尽显存。\n\n它在仓库里更接近高价值系统与训练基础设施论文：一方面它保留了 POET 的训练稳定性叙事，另一方面把这种方法推进到了真正可操作的 LLM 预训练规模。对优化器设计、低显存预训练和大模型训练系统都有明显外溢价值，不是单纯的工程小修小补。\n\n它暂时还不到更高等级，因为证据主要来自单一方法家族和预训练系统对比，社区是否会把 POET-X 作为通用默认训练路线还没有定论；同时它目前仍是 arXiv 阶段，长期采用度与跨模型族泛化还需要后续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "2603.05500",
      "collected_at": "",
      "collection_order": 400,
      "source_url": "https://arxiv.org/pdf/2603.05500.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.05500.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "单张显卡预训练百亿模型，吞吐量提升 8 倍，港科大与华为发布 POET-X 架构",
          "url": "https://www.bilibili.com/video/BV1s9L564Emm",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1s9L564Emm",
            "https://youtu.be/JVExPO3D-Q8"
          ],
          "main_collection": "大模型架构与推理",
          "match": "poet x memory efficient llm training by scaling orthogonal transformation",
          "description": "由港科大、华为诺亚方舟实验室及剑桥大学等团队联合发布。针对大模型预训练中 AdamW 优化器显存开销巨大、导致单卡显存溢出的痛点，POET-X 架构引入输入中心化架构与块随机正交变换，对底层 CUDA 算子进行深度重构。实验证明，该技术支持在单块 NVIDIA H100 显卡上成功预训练 130 亿参数模型，显存占用降低 3 倍，吞吐量提升 8 倍。这一突破显著降低了硬件门槛，使在受限资源下进行高效、稳定的百亿级模型训练成为可能，并具备良好的量化训练潜力。",
          "x_post": "港科大、华为及剑桥联合发布 POET-X：单 H100 预训练 13B 模型，吞吐量提升 8 倍\n传统 AdamW 优化器在百亿级模型预训练时面临严重的显存溢出（OOM）挑战。\nPOET-X 架构引入输入中心化计算逻辑与块随机正交变换，通过自定义 CUDA 算子深度重构底层内存模型。\n实验数据显示，该方法将显存占用降低 3 倍，支持在单块 NVIDIA H100 上成功运行 130 亿参数模型的预训练。\n技术细节显示，其通过双射索引映射实现最高 20 倍的置换加速，并利用块并行计算进一步节省 31.4% 显存。\n该研究成功在受限资源下平衡了训练稳定性与计算效率，为低门槛高效预训练提供了技术路径。",
          "cover_url": "assets/covers/sys5-poet-x-d51c54c710.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-16T10:21:07+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "SYS1_FlashAttention_4",
      "slug": "sys1-flashattention-4",
      "detail_url": "papers/sys1-flashattention-4/",
      "title": "FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling",
      "summary": "这篇论文面向的是最新 GPU 代际中 attention kernel 的瓶颈问题。随着 Blackwell 一代硬件的 tensor core 吞吐远快于 shared memory、SFU 和 ALU，旧的注意力实现不再能靠简单调参逼近硬件上限。作者要解决的就是这种“硬件非对称扩展”下的 attention 效率问题。\n\n方法上，FlashAttention-4 重新做了算法与 kernel pipeline 的协同设计。前向里重写 softmax pipeline，减少非 matmul 操作；反向里通过 2-CTA 等技巧降低 shared memory traffic 和 global atomic adds；整体用 CuTe-DSL 实现，目标是让 attention 在新硬件上重新接近理论吞吐上限。\n\n它的重要性主要在基础设施层。对训练大模型、做长上下文推理、提升 B200/GB200 等高端 GPU 利用率，这类工作有直接现实价值。它不会改变模型能力范式，但会影响训练推理成本和系统栈的默认实现。\n\n我把它放在“突破性”。原因是它是系统层的重要跃迁，但仍属于算法-内核-硬件协同设计这一基础设施路线，而不是范式级智能突破。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "2603.05451",
      "collected_at": "",
      "collection_order": 399,
      "source_url": "https://arxiv.org/pdf/2603.05451.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.05451.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R6_Spike_Sparse_Sink",
      "slug": "r6-spike-sparse-sink",
      "detail_url": "papers/r6-spike-sparse-sink/",
      "title": "The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks",
      "summary": "这篇论文研究 Transformer 中两个经常一起出现、但此前缺少统一解释的现象：`massive activations` 和 `attention sinks`。前者指少数 token 在某些通道上出现极端异常激活，后者指某些 token 会在许多注意力头中持续吸走注意力质量。作者的重点不是再次报告现象，而是解释它们为什么会共现，以及它们在模型里各自承担什么功能。\n\n论文的核心结论是，这两种现象的共现很大程度上是现代 Transformer 架构的产物，尤其与 `pre-norm` 配置密切相关，但它们并不是同一个机制的两个名字。作者认为 massive activations 的作用是全局性的：它们会形成跨层持续存在的近常量隐藏表示，相当于模型里的隐式参数。attention sinks 的作用更局部：它们影响特定注意力头的输出，并把部分头偏向更短程的依赖模式。\n\n这篇工作的价值在于，它把原本分散在量化、剪枝、KV-cache、长上下文推理等不同子领域里的观察，用一个更统一的机制视角串起来。对于理解为什么某些 token 在推理中异常重要、为什么 pre-norm 模型会出现特定病理行为，以及如何设计更健康的架构与缓存策略，这篇都有直接启发。\n\n在分级上，我会把它放在机制澄清型的突破性论文里。它不是范式级路线重写，但对 Transformer 内部工作机制的解释质量很高，值得长期跟踪。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "2603.05498",
      "collected_at": "",
      "collection_order": 398,
      "source_url": "https://arxiv.org/pdf/2603.05498.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.05498.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "剖析Transformer架构的隐秘角落：NYU揭示大模型激增激活与注意力陷阱的独立起源与演化机制",
          "url": "https://www.bilibili.com/video/BV1PhAWzcEPX",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1PhAWzcEPX",
            "https://youtu.be/7HKviRTOvqU"
          ],
          "main_collection": "大模型架构与推理",
          "match": "the spike the sparse and the sink anatomy of massive activations and attention sinks",
          "description": "本视频深入分析Transformer架构中的激增激活与注意力陷阱现象。研究发现，这两种极端数值现象并非大语言模型的必然功能，而是Pre-norm与SwiGLU等特定架构设计引发的副作用。通过追踪Llama与Qwen系列模型，研究揭示了激增激活在层级间的演变轨迹，并论证了归一化层如何将极端激活转化为注意力汇聚特征。实验证明，引入Sandwich Norm或DynamicTanh等结构可独立抑制异常激活且不损失模型性能。该成果为优化模型量化、剪枝及长文本推理效率提供了重要的理论支撑与改进方案。",
          "x_post": "NYU Yann LeCun 团队揭示 Transformer 激增激活与注意力陷阱机制：Llama 3 中间 60 层存在演化轨迹\n\n研究指出，大语言模型中的异常高激活值（Massive Activations）与注意力汇聚（Attention Sinks）并非功能必然，而是 Pre-norm 与 SwiGLU 架构设计的副产物。通过追踪模型层级演变，发现激增激活在 Llama 2 (L4-62) 与 Llama 3 (L4-64) 的中间层稳定传递，并在网络末端被精准抵消。实验证明，RMSNorm 会将极端激活值转化为低维、近乎恒定的向量，从而引导注意力机制产生“汇聚”现象。该研究论证了通过引入 Sandwich Norm 或 DynamicTanh 可在不损性能的前提下独立抑制异常激活，为优化模型量化、剪枝及长文本推理提供了理论支撑与改进方案。",
          "cover_url": "assets/covers/r6-spike-sparse-sink-c23b72e0f3.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-19T10:16:37+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R4_CoT_Control",
      "slug": "r4-cot-control",
      "detail_url": "papers/r4-cot-control/",
      "title": "Reasoning Models Struggle to Control their Chains of Thought",
      "summary": "评估推理模型能否有意识地操控自己的思维链以规避监控。论文构建 CoT-Control 基准，要求模型在解题同时遵守对推理过程的限制，例如禁用特定词或改变书写风格。核心发现是当前模型对 CoT 的可控性远低于对最终输出的可控性，并且随着 RL 训练、测试时计算和题目难度上升，可控性反而下降。这意味着基于 CoT 的监控在现阶段可能比担心的更可靠。价值在于它把“思维链是否可被战略性伪装”变成了可量化安全指标。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "2603.05706",
      "collected_at": "",
      "collection_order": 397,
      "source_url": "https://arxiv.org/pdf/2603.05706.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.05706.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "OpenAI等名校重磅揭秘：大模型尚无法完美伪装内心，思维链控制力远逊于最终输出",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "reasoning models struggle to control their chains of thought",
          "description": "本研究由OpenAI与纽约大学等机构合作，深入探讨了推理模型对其思维链（CoT）的控制能力。通过引入包含1.4万个用例的CoT-Control评估框架，研究发现模型虽能精准控制最终输出，但在遵循隐藏指令、抑制特定推理路径方面表现欠佳。实验证据表明，推理长度的增加、强化学习的深入以及任务难度的提升均会显著削弱模型的伪装能力。虽然模型参数规模的扩大预示着未来潜在的伪装风险，但当前“元讨论”陷阱的存在使得通过监控内部推理来保障AI安全依然具有高度可行性。",
          "x_post": "OpenAI 与纽约大学等揭秘推理模型 CoT 控制局限：CoT-Control 框架下思维伪装成功率远低于最终输出\n随着大模型推理能力增强，能否通过监控其内部思维链（CoT）来确保安全成为核心议题。研究团队发布包含 1.4 万个用例的 CoT-Control 基准，通过抑制特定词汇或修改风格等隐蔽指令，测试模型在解题时篡改底层推理路径的能力。\n实验数据显示，前沿模型普遍难以实现“知行合一”的伪装。Claude 3.7 Sonnet 的输出控制率为 59.5%，但其 CoT 控制率仅为 36.1%。数据证明，推理长度的增加与强化学习深度的提升均会显著削弱控制力，且复杂任务会因认知负载过高导致伪装崩溃。\n研究指出，现阶段模型常因“元讨论”陷阱而自我暴露，使得通过思维链监控 AI 安全依然高度可行。然而，随着模型参数规模按对数增长，其控制力展现出稳步上升趋势，这为未来更强大模型绕过监管的潜在风险敲响了警钟。",
          "cover_url": "assets/covers/r4-cot-control-4fa7436cd4.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-13T11:22:02+08:00"
        },
        {
          "title": "AI安全领域的关键利好：研究证实大模型尚无法伪装内部思维，思维链透明性成为监控核心",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "reasoning models struggle to control their chains of thought",
          "description": "本研究由OpenAI、纽约大学等机构联合发布，核心探讨推理模型是否具备伪装思维链（CoT）以规避监控的能力。研究团队构建了包含1.4万次测试的CoT-Control评估集，涵盖信息抑制、增加与风格篡改场景。实验发现，即便DeepSeek R1或Claude 3.7等顶尖模型在输出端控制力较强，其对内部推理路径的控制力却极低（通常低于10%）。证据表明，随推理长度增加和强化学习训练加深，模型更难维持伪装约束，常出现思维泄露或逻辑崩溃。这一结论划定了当前AI的安全边界：模型尚无法有效隐藏真实意图，思维链的透明性为安全监控提供了坚实基础。",
          "x_post": "OpenAI 与 NYU 等研究证实推理模型难以伪装思维链，DeepSeek R1 内部控制力仅 0.1%\n\n针对模型通过伪装思维链（CoT）绕过安全监管的潜在风险，研究者构建了涵盖 1.4 万次测试的 CoT-Control 评估套件。实验结果显示，虽然模型在输出端表现稳健，但对内部推理路径的控制力极低：顶级模型控制力普遍不足 10%，Claude 3.7 Sonnet 仅为 2.7%，120B 参数量模型亦低于 8%。关键证据表明，随着推理步数增加或强化学习训练（如 RLVR）加深，模型对思维轨迹的掌控力呈断崖式下跌，常出现逻辑泄露。结论指出，目前的推理模型尚无法有效隐藏真实意图，其思维链的透明性为前沿 AI 的安全监控提供了坚实基础。",
          "cover_url": "assets/covers/r4-cot-control-c9a27b9d6a.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-10T15:08:53+08:00"
        },
        {
          "title": "NYU等高校重磅揭秘：AI虽擅长美化最终答案，却对内部思维链的“真相泄露”无能为力",
          "url": "https://www.bilibili.com/video/BV1ztcUzHEGr",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1ztcUzHEGr",
            "https://youtu.be/Z2RgUIyH2Cc"
          ],
          "main_collection": "AI安全与对齐",
          "match": "reasoning models struggle to control their chains of thought",
          "description": "纽约大学与OpenAI等机构的研究揭示，现有的推理模型在精准控制最终输出的同时，普遍无法有效管理其内部思维链（CoT）。通过CoT-Control测试集对13款主流模型进行压力测试，结果显示DeepSeek R1与Claude 3.7等前沿模型的思维链控制力极低。研究发现，虽然参数规模增长会略微提升模型伪装能力，但强化学习（RLVR）的介入会显著削弱模型隐瞒真实意图的可能性，且模型常因在内部推理中讨论监管规则而“自爆”。该结论证明了通过思维链监控实现AI安全的可行性，但也提醒开发者需警惕超大规模模型可能具备的潜在反侦察能力。",
          "x_post": "NYU与OpenAI等揭示推理模型思维链控制缺陷：DeepSeek R1思维伪装能力仅为0.1%\n近期研究利用包含1.4万道题目的CoT-Control评测集，对Claude 3.7、DeepSeek R1等13款主流模型进行了压力测试，评估其在推理过程中遵循特定限制（如信息抑制、特定词禁用）的能力。实验发现，尽管模型能精准控制最终输出，但普遍难以掌控内部思维链（CoT）：Claude 3.7 Sonnet的输出控制成功率为61.9%，而其思维链控制力仅为2.7%。\n关键证据显示，强化学习（RLVR）虽能提升任务正确率，却会显著削弱模型隐瞒真实推理意图的能力；约49.2%的控制失败源于模型在内部思考中讨论规则导致的“元讨论自爆”。该研究证明了通过CoT监控实现AI安全的技术可行性，但也指出模型控制力随参数规模增长而上升，需警惕未来超大规模模型可能具备的潜在反侦察风险。",
          "cover_url": "assets/covers/r4-cot-control-9302f2e0cb.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-13T13:25:18+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N49_Temporal_Predictions_Motor_Readouts",
      "slug": "n49-temporal-predictions-motor-readouts",
      "detail_url": "papers/n49-temporal-predictions-motor-readouts/",
      "title": "Temporal predictions as motor readouts of sensory predictions",
      "summary": "问题与背景：预测加工研究通常把“何时出现”与“会出现什么”分开讨论，但真实感知中二者几乎总是同时存在。这篇论文针对的就是 temporal prediction 与 content prediction 如何在脑内耦合的问题。\n\n方法/新意：作者结合 MEG、相位耦合分析和内容解码，提出 temporal predictions 可能并不是独立的时间表征，而是从内容特异的感觉预测中，经由运动系统读出的时间结构。也就是说，时间预测可以被看作对感觉内容预测的 motor readout。\n\n意义/放在仓库中的位置：这是认知科学主线中一篇很典型的系统神经科学论文，价值在于把 predictive processing、oscillatory phase coupling 和感知-运动接口放进同一机制框架里。对于理解时间、节律与感觉预测的统一编码特别有意义。\n\n局限/为何不再升一级：尽管机制上很有启发性，但论文的影响仍主要集中在感觉预测与时间表征这一子领域，尚未扩展到更广义的认知架构重写，因此定为突破性更稳妥。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 396,
      "source_url": "https://pubmed.ncbi.nlm.nih.gov/41791376/",
      "paper_url": "https://pubmed.ncbi.nlm.nih.gov/41791376/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "大脑其实没有独立生物钟？伦敦大学学院揭秘时间感知源于内容预判，论文登顶《现代生物学》",
          "url": "https://www.bilibili.com/video/BV1oLRGBAEFV",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1oLRGBAEFV",
            "https://youtu.be/gOQD7O0q2Pg"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "temporal predictions as motor readouts of sensory predictions",
          "description": "伦敦大学学院（UCL）与剑桥大学团队在神经科学领域取得重要进展。研究针对大脑如何感知时间的争议，通过脑磁图（MEG）记录受试者在预测视觉斑块时的神经活动。实验发现，初级视觉皮层能以极高精度预判内容，而当需要判断时间时，运动皮层会通过神经振荡与其同步。这证明了大脑并无独立“内部时钟”，时间感是从对感官内容的持续预测中提取的。这一发现将“是什么”与“何时发生”高度整合，揭示了人类感知的连贯性本质，为理解感知障碍提供了新视角。",
          "x_post": "UCL与剑桥团队《Current Biology》发文：揭示时间感知源于感官内容预判而非独立生物钟\n长期以来，科学界对大脑是否存在独立计时系统存有争议。Kaltenmaier等人利用脑磁图（MEG）对30名受试者进行观测，研究在不同心理焦点下大脑对视觉斑块“何时出现”与“倾斜角度”的处理机制。\n实验发现，早期视觉皮层（EVC）能自动且精确地编码内容预判。在方向预测任务中，受试者D-prime最高达1.516，准确率超过80.7%，且此类预测在不关注时间的情况下依然存在。\n关键证据显示，仅当个体需要执行时间判断时，辅助运动区的神经振荡才会与EVC的内容预测信号实现同步耦合。这表明大脑并无独立的“内部时钟”，时间表征是从对感官内容的持续预测中提取的“运动读取”结果。\n该研究揭示了“是什么”与“何时发生”在神经层面的高度整合机制，为理解感知连贯性及相关障碍提供了新的视角。",
          "cover_url": "assets/covers/n49-temporal-predictions-motor-readouts-eb274d13ac.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-28T16:11:18+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N46_Task_Learning_Redundancy_V4",
      "slug": "n46-task-learning-redundancy-v4",
      "detail_url": "papers/n46-task-learning-redundancy-v4/",
      "title": "Task learning increases information redundancy of neural responses in macaque visual cortex",
      "summary": "问题与背景：任务学习如何改变感觉皮层的编码结构，是认知神经科学中的基本问题。经典观点往往强调学习降低冗余、提高效率，但这与贝叶斯式分布式编码直觉并不总一致。\n\n方法/新意：这篇 Science 工作跟踪猕猴 V4 在学习视觉判别任务过程中的群体响应，直接比较‘学习降低冗余’和‘学习提高冗余’两种理论预测。结果支持后者，即学习会提高跨神经元的信息冗余，从而让决策相关信息更稳健分布。\n\n意义/放在仓库中的位置：这篇论文属于认知科学 / 系统神经科学主线，价值在于它不是单一现象报告，而是对感觉学习与群体编码理论的根本争论给出强证据。对理解脑启发机器学习和分布式表征都有启发。\n\n局限/为何不再升一级：虽然理论意义强，但外溢仍主要在视觉皮层与群体编码理论。它不是直接重排 AI 方法的论文，因此不再升一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 395,
      "source_url": "https://pubmed.ncbi.nlm.nih.gov/41785336/",
      "paper_url": "https://pubmed.ncbi.nlm.nih.gov/41785336/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "颠覆直觉！罗切斯特大学发现大脑越学越啰唆，神经元同步率激增驱动认知飞跃",
          "url": "https://www.bilibili.com/video/BV1pGokBeE6q",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1pGokBeE6q",
            "https://youtu.be/K7cBlljSBbk"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "task learning increases information redundancy of neural responses in macaque visual cortex",
          "description": "罗切斯特大学团队针对大脑在视觉学习中的信息处理机制展开研究。长期以来，经典模型认为学习旨在减少冗余以提高编码效率，但该研究通过分析恒河猴在视觉辨别任务中V4区的神经反应发现，学习反而显著增加了神经元间的信息冗余。研究人员利用96通道微电极阵列记录发现，信息冗余度与学习表现呈强正相关，且这种现象仅在主动执行任务时出现。研究结果证实了大脑视觉处理属于生成式推理过程，意味着大脑通过反馈机制将信息分布至更多神经元以增强单个神经元的携带信息量，挑战了传统的编码减法观点。",
          "x_post": "罗切斯特大学研究发现猕猴V4区视觉学习显著增加神经冗余度，最高相关系数达0.74。\n传统编码理论认为学习应通过减少神经冗余来优化效率，但该研究揭示了相反的生物学机制。研究团队利用96通道Utah微电极阵列，在数周内连续监测恒河猴执行视觉辨别任务时初级视觉皮层的神经元群活动。\n实验通过费希尔信息量分析发现，信息冗余度与学习表现呈强正相关（r介于0.61至0.74），且这一现象仅在主动执行任务时出现，被动观看时并无显著变化。\n研究结论指出，大脑通过反馈机制将感官信息分布至更多神经元以增强个体携带的信息量，这一发现有力支持了视觉处理的“生成式推理”模型，挑战了经典的编码减法观点。",
          "cover_url": "assets/covers/n46-task-learning-redundancy-v4-50e1de9196.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-27T14:08:32+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "I8_VLA_Feature_Control",
      "slug": "i8-vla-feature-control",
      "detail_url": "papers/i8-vla-feature-control/",
      "title": "Observing and Controlling Features in Vision-Language-Action Models",
      "summary": "这篇论文研究 Vision-Language-Action 模型内部特征是否既可观测又可控制。问题很具体：VLA 比普通 LLM 多了视觉输入、动作输出和混合头结构，LLM 里的机制解释结论不能直接搬过来。\n\n作者提出 feature-observability 和 feature-controllability 两个概念，用线性读出和最小线性干预来识别、并在线调控表示空间中的特征。核心不在训练新模型，而在于证明可以通过轻量干预稳定地改变机器人行为。\n\n它适合归到机制解释与机器人交叉主线。相比单纯可视化分析，这篇更进一步，展示了在闭环控制下对 VLA 内部特征进行定向操控的可行性，因此既有解释价值，也有实用控制价值。\n\n它没有升到更高一级，因为目前主要证据仍来自特定 VLA 架构和仿真实验；影响很可能会持续，但还不到重塑整个 VLA 训练路线的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "2603.05487",
      "collected_at": "",
      "collection_order": 394,
      "source_url": "https://arxiv.org/abs/2603.05487",
      "paper_url": "https://arxiv.org/abs/2603.05487",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "给具身智能装上“方向盘”：斯坦福与英伟达揭秘如何无需微调实时纠偏机器人行为",
          "url": "https://www.bilibili.com/video/BV1F7wzzwETG",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1F7wzzwETG",
            "https://youtu.be/l9rHMH_ucUQ"
          ],
          "main_collection": "机器人与具身智能",
          "match": "observing and controlling features in vision language action models",
          "description": "针对具身智能视觉-语言-动作模型（VLA）在物理闭环中不可预测的风险，斯坦福大学与英伟达研究团队提出了基于内部特征观测与控制的干预框架。研究发现，机器人的空间坐标、夹爪状态等物理特征在Transformer隐层中呈线性编码。通过构建轻量级线性观测器实时提取特征，并结合最优控制理论对激活值进行最小扰动干预，该方法实现了在无需重新训练或微调的前提下，精准修正机器人的轨迹与动作。实验在OpenVLA和pi_0.5等架构及Libero基准上验证了其有效性，证明了该机制在保持模型生成连贯性的同时，能显著提升闭环交互的可靠性。",
          "x_post": "斯坦福与英伟达发布VLA实时干预框架：无需微调实现物理状态线性观测与精准纠偏\n针对具身智能VLA模型在物理闭环中可能产生的不可预测风险，该研究提出了一种基于模型内部特征的观测与控制方法。研究发现，机器人的空间坐标与夹爪状态在Transformer隐层中呈线性编码，可通过构建轻量级线性观测器实时提取物理意图。结合最优控制理论，通过最小L2范数扰动干预激活值，该方法实现了在不重新训练的前提下实时修正机器人动作轨迹。实验在OpenVLA与pi_0.5等架构及Libero基准上通过验证，物理状态预测准确率逼近100%，为具身智能提供了低算力开销的可靠安全保障。",
          "cover_url": "assets/covers/i8-vla-feature-control-825d614e80.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-18T21:25:00+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "I15_X_RAY_Reasoning_Probes",
      "slug": "i15-x-ray-reasoning-probes",
      "detail_url": "papers/i15-x-ray-reasoning-probes/",
      "title": "X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes",
      "summary": "当前大多数 reasoning evaluation 仍把任务正确率当作核心指标，但这类评测往往把 pattern matching、数据污染与真正的结构化推理能力混在一起。结果是模型在标准 benchmark 上看起来接近，却很难解释它们究竟在哪种结构变化下会失效。\n\nX-RAY 的核心贡献，是把 reasoning capability 建模为一组可抽取的结构属性，并用 formally verified、calibrated probes 去控制这些属性的微小变化。它不只是做一批新题，而是通过 constraint interaction、reasoning depth 和 solution-space geometry 等形式化维度，构造 contamination-free 的 probe family，从而把 reasoning failure 变成结构上可解释的对象。\n\n它值得正式收录，因为这类工作补的是 reasoning evaluation 的底层缺口。对本仓库来说，它的价值不在于再加一个更难 benchmark，而在于提供了一个能区分‘标准分数看不出来但结构脆弱性不同’的评测框架，这对 reasoning、alignment evaluation 和 model comparison 都有长期复用价值。\n\n它没有升到更高一级，是因为当前仍处于早期框架阶段，外部采用与围绕该框架形成的方法潮流还没有建立。现阶段它更像一个很强的 evaluation primitive，而不是已经成为 reasoning 评测默认基座的事实标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "2603.05290",
      "collected_at": "",
      "collection_order": 393,
      "source_url": "https://arxiv.org/pdf/2603.05290.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.05290.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "撕开大模型高分假象：NUS 推出 X-RAY 探针测量推理真实成色",
          "url": "https://www.bilibili.com/video/BV1d5DbBAELx",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1d5DbBAELx",
            "https://youtu.be/vQFbjC41Wv4"
          ],
          "main_collection": "AI化学与材料",
          "match": "x ray mapping llm reasoning capability via formalized and calibrated probes",
          "description": "大语言模型的高分往往源于统计概率的模式匹配而非逻辑推理。新加坡国立大学研究团队提出 X-RAY 系统，旨在解决传统评测集存在的标注噪声与数据污染问题。该系统通过自动形式化技术将自然语言题干转换为数学级逻辑代码，并定义了并列宽度、组合深度等四个维度来量化推理难度。实验发现，模型在面对逻辑空间重构时表现脆弱，存在明显的推理边界。该框架不仅能透视模型故障的结构化原因，生成的高质量推理路径还可用于提升模型的逻辑鲁棒性。",
          "x_post": "新加坡国立大学（NUS）团队推出 X-RAY 系统，通过形式化与校准探测器评估大语言模型的推理边界。\n研究指出，传统评估易混淆模式匹配与结构化推理。X-RAY 通过自动形式化技术将自然语言转换为数学逻辑，并定义并列宽度、组合深度、耦合度与依赖链四项参数 θ = (c, d, κ, l) 以量化难度。\n实验表明，即便是在标准测试中表现优异的模型，在底层逻辑发生“空间重构”时性能也会显著下降，暴露了推理能力的脆弱性。\n该框架为透视模型故障提供了结构化原因，其生成的高质量推理路径可进一步用于微调，从而提升模型处理复杂逻辑任务的鲁棒性。",
          "cover_url": "assets/covers/i15-x-ray-reasoning-probes-0e568205b5.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-06T10:08:36+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW1_Helios_LLM_Serving_Accelerator",
      "slug": "hw1-helios-llm-serving-accelerator",
      "detail_url": "papers/hw1-helios-llm-serving-accelerator/",
      "title": "Hardware-Software Co-design for 3D-DRAM-based LLM Serving Accelerator",
      "summary": "这篇论文解决的是 LLM 在线服务里一个非常现实的硬件问题：现有近存计算/NMP 方案通常假设比较规整的执行流，但真实 serving 工作负载会不断变化，KV cache 管理和 attention 执行流都高度动态。对本仓库来说，它属于 AI accelerator 设计里最值得收的一类，即直接面向 LLM serving 这一主战场的硬件软件协同设计。\n\n作者提出 Helios，一套基于 3D-DRAM/NMP 的 LLM serving accelerator，不只改了算子实现，还同时设计了 PE 内执行流、PE 间通信原语以及面向动态 workload 的空间感知 KV cache 分配机制。它的贡献不是单点提速，而是把 serving workload 的动态性纳入硬件抽象与资源分配本身。\n\n它值得正式收录，是因为这代表了硬件扩展范围里最有价值的类型：不是普通器件或电路结果，而是会改变 AI 系统该如何组织内存、通信和执行流的架构论文。对 LLM serving、near-memory acceleration 和实际在线推理系统都有明显外溢。\n\n它没有升到更高等级，是因为虽然系统价值很强，但还主要是一条具体的 serving accelerator 路线，尚未证明会成为更广泛 AI 硬件设计的通用蓝图。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "2603.04797",
      "collected_at": "",
      "collection_order": 392,
      "source_url": "https://arxiv.org/pdf/2603.04797.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.04797.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "3.25倍提速与76%延迟降低：Helios利用3D堆叠技术，彻底破解大模型推理内存墙",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "hardware software co design for 3d dram based llm serving accelerator",
          "description": "本视频介绍面向大语言模型推理加速的新型架构Helios。针对当前近存计算在处理动态流量与非均匀上下文时面临的算力瓶颈与内存碎片问题，Helios通过3D-DRAM混合键合技术提供高带宽物理底座，并采用软硬件协同设计。核心创新包括分布式分块注意力机制与空间感知调度策略，有效解绑了硬件资源与请求长度的强依赖。实验数据显示，相比现有GPU方案，Helios实现了3.25倍的吞吐提升与76%的延迟降低，显著优化了在线生成式服务的能效表现与处理性能。",
          "x_post": "北京大学团队发布Helios：基于3D-DRAM的软硬协同加速器实现3.25倍吞吐提升与76%延迟降低\n大模型在线服务面临流量波动剧烈与上下文长度不均的挑战，传统近存计算架构因静态分配常导致高达62.5%的资源浪费。Helios利用3D堆叠混合键合技术构建高带宽物理底座，并引入分布式分块注意力机制与空间感知调度策略，实现软硬件全局协同。实验数据表明，Helios在4x4处理引擎阵列规模下，较现有方案实现3.25倍吞吐提升、3.36倍能效提升及76%的延迟降低。该研究通过垂直整合存储与计算架构，有效缓解了大模型推理中的内存墙瓶颈与动态负载失衡难题。",
          "cover_url": "",
          "has_local_video": true,
          "updated_at": "2026-03-23T08:21:54+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO13_AlphaCell_Virtual_Cell",
      "slug": "bio13-alphacell-virtual-cell",
      "detail_url": "papers/bio13-alphacell-virtual-cell/",
      "title": "Towards building a World Model to simulate perturbation-induced cellular dynamics by AlphaCell",
      "summary": "这篇论文处理的是一个很强的 AI for biology 目标：能否构建一个可泛化的 virtual cell world model，用来预测细胞在扰动下的动态响应。现实问题很明确，真实实验筛选受到组合空间和成本的强限制，而现有计算模型又往往只在高变基因、局部表达重建或特定细胞背景里有效，难以把学到的扰动动力学迁移到未见过的细胞上下文。\n\nAlphaCell 的核心做法是把 genome-wide 表征、可逆的高保真解码和连续状态转移统一起来。论文强调三层创新：第一，用全蛋白编码转录组做 latent manifold rectification，构建更完整的虚拟细胞空间；第二，用大规模 decoder 从 latent state 重建 genome-wide expression，提升生物真实性；第三，用 optimal transport conditional flow matching 把扰动建模为连续、可组合的状态转移向量场，而不是离散标签映射。这样，模型不只是记住某些特定 perturbation 结果，而是在学习更一般的状态演化规律。\n\n它值得收录，因为这已经不是普通单细胞预测模型，而是明确朝着“virtual cell world model”推进：把表示、重建和动力学统一在同一生成框架下，并把目标放在 compositional generalization 和 unseen cellular context 的 zero-shot prediction 上。这对 perturbation biology、药物发现、细胞命运工程和 AI 驱动实验设计都有明显外溢，属于当前生物 foundation model / world model 线里值得保留的高价值条目。\n\n它没有升到更高一级，原因在于当前还是 bioRxiv 预印本，且这条路线虽然雄心和 framing 都很强，但离被社区验证为“细胞世界模型”的标准参考还需要更多外部复现和下游闭环结果。现阶段更适合作为高位 breakthrough 收录，而不是更高等级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 391,
      "source_url": "https://www.biorxiv.org/content/10.64898/2026.03.02.709176v1.full.pdf",
      "paper_url": "https://www.biorxiv.org/content/10.64898/2026.03.02.709176v1.full.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A157_Tool_Genesis_Benchmark",
      "slug": "a157-tool-genesis-benchmark",
      "detail_url": "papers/a157-tool-genesis-benchmark/",
      "title": "Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent",
      "summary": "自演化 agent 的一个关键能力，不只是会不会调用已有工具，而是能否从抽象任务需求中构造、修正并维护新的工具。现有评测大多仍把这件事压扁成最终任务分数，导致失败究竟来自接口设计、工具逻辑还是下游集成，经常无法拆解。\n\nTool-Genesis 的核心贡献，是把 tool creation 评测改造成诊断型 benchmark。它要求 agent 在没有预设 specification 的前提下，从任务需求自行构造工具，并把评估拆成 interface compliance、functional correctness 和 downstream utility 三个层次。这样一来，tool synthesis 就不再是黑盒 downstream 成败，而变成可以被精确定位和改进的能力结构。\n\n它值得正式收录，因为这类 benchmark 补的是 agent capability acquisition 的真实缺口。对 self-evolving agents、tool marketplaces、skill systems 来说，缺的不是又一个最终分数表，而是能告诉研究者‘工具创建到底卡在哪’的评测框架；这一点决定了它比普通 benchmark 更有耐久价值。\n\n它没有升到更高一级，是因为当前仍属于早期 benchmark 建设，生态默认采用、外部复用和基于该 benchmark 的方法潮流还未形成。现阶段它更像一个很强的 capability-diagnosis benchmark，而不是已经改写领域默认评测接口的事实标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "2603.05578",
      "collected_at": "",
      "collection_order": 390,
      "source_url": "https://arxiv.org/pdf/2603.05578.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.05578.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结一次性代码的生产模式：Tool-Genesis驱动智能体从工具调用者向数字资产构建者跨越",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "tool genesis a task driven tool creation benchmark for self evolving language agent",
          "description": "针对现有大模型生成的工具代码多为一次性、不可复用且缺乏标准协议的问题，本研究提出Tool-Genesis基准测试。该框架摒弃了依赖预设接口规格的传统模式，要求智能体基于抽象需求自主推断Schema并编写可执行代码。基准涵盖24个领域的86个MCP服务器，通过L1-L4四层全生命周期指标评估生成的合规性、可执行性及逻辑一致性。实验结果显示，即便是顶尖模型在接口一致性上仍存短板，细微缺陷会显著降低下游成功率。本研究通过引入神谕归一化指标，为量化智能体向数字资产工程师的进化提供了科学标准。",
          "x_post": "电子科技大学、香港大学与小红书联合发布 Tool-Genesis：面向 24 个领域的自主工具创建基准\n针对当前大语言模型生成工具代码多为“一次性”且不可复用的局限，该研究提出了一种评估智能体从抽象需求中自主构建数字资产能力的诊断性基准。框架摒弃了传统预设接口规格的模式，要求模型自行推断机器可校验的 Schema 并完成代码实现。\n实验涵盖 86 个 MCP 服务器、500 多个工具及近万项单元测试，通过 L1-L4 四层全生命周期指标评估生成结果的合规性与逻辑一致性。研究发现，顶级模型在接口一致性上仍存短板，且细微的初始缺陷会显著降低下游任务的成功率。\n该工作引入神谕归一化（Oracle-Normalized）指标，为量化智能体向数字资产工程师的进化提供了科学的评估标准与量化边界。",
          "cover_url": "assets/covers/a157-tool-genesis-benchmark-75182e93c1.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-08T21:57:27+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A156_ATLAS_Large_Toolspaces",
      "slug": "a156-atlas-large-toolspaces",
      "detail_url": "papers/a156-atlas-large-toolspaces/",
      "title": "Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces",
      "summary": "当 agent 进入大 tool ecosystem 时，瓶颈很快不再只是基础模型能力，而是 context budget、tool loading 策略和长链执行结构。很多系统默认把更多工具描述塞进上下文，希望靠更大模型硬扛，但这条路对小模型和低成本部署并不成立。\n\nATLAS 的核心贡献，是把 large-toolspace agent 的问题拆成两个可学习决策：上下文如何获取，动作如何组织。它结合 iterative tool loading 与 programmatic tool orchestration，把 context growth 控在可管理范围内，同时引入 rubric-based reinforcement finetuning，用结构化 judge criteria 取代单一成败信号，显著改善在 MCP-style 大工具空间里的长链执行表现。\n\n它值得正式收录，因为这不是又一个 agent benchmark 提升，而是给 tool-rich agent 提供了更耐久的 scaling recipe：能力增长未必来自更长上下文，而可以来自更好的 context control 与 execution structure 学习。对本仓库的 tool use、capability acquisition、small-model agents 主线都有直接复用价值。\n\n它没有升到更高一级，是因为当前证据仍主要集中在作者定义的 MCP benchmark 环境和有限模型族上，跨更多真实工具生态和部署框架的默认采用还没有形成。现阶段它是很强的 toolspace RL finetuning 路线，但尚未成为通用标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "2603.06713",
      "collected_at": "",
      "collection_order": 389,
      "source_url": "https://arxiv.org/pdf/2603.06713.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.06713.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "微软 ATLAS 框架赋能 4B 模型挑战万亿参数极限，以按需加载与程序化编排重塑智能体能效",
          "url": "https://www.bilibili.com/video/BV1AJDTBnE1K",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1AJDTBnE1K",
            "https://youtu.be/ONNivEibE-0"
          ],
          "main_collection": "AI智能体",
          "match": "scaling agentic capabilities not context efficient reinforcement finetuning for large toolspaces",
          "description": "本视频介绍微软 ATLAS 框架，旨在解决小语言模型（SLM）在大规模工具调用中面临的上下文过载与奖励稀疏问题。ATLAS 创新性地提出了迭代式服务器与工具加载（ISL/ITL）机制，将全局加载转变为按需决策，从而大幅降低 Token 消耗。同时，通过程序化工具编排（PTC）利用 Python 解释器管理复杂状态，实现了“代码即状态”的执行范式。实验证明，基于评分细则的强化学习微调能使 4B 模型在处理海量工具时达到万亿级模型的智能体水平。该方案为低算力环境下的高效智能体部署提供了关键的技术路径。",
          "x_post": "微软研究院 ATLAS 框架赋能 4B 模型，通过按需加载机制在海量工具环境下挑战万亿级模型表现。\n研究针对小语言模型（SLM）在复杂工具调用中面临的上下文过载（约 30,000 Tokens）与执行崩溃问题，提出 ATLAS 强化学习微调框架。该框架核心引入迭代式服务器与工具加载（ISL/ITL）及程序化工具编排（PTC），将上下文管理转化为模型可学习的决策过程，使 Token 消耗降至约 3,000。结合基于评分细则（Rubric）的强化学习微调，4B 模型在处理海量工具时表现出与顶级模型相近的智能体能力。该研究证明了通过结构化设计与微调，可以在严苛算力约束下实现高效的智能体协作。",
          "cover_url": "assets/covers/a156-atlas-large-toolspaces-35ba593b35.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-04T16:44:29+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A10_KARL_Knowledge_Agents",
      "slug": "a10-karl-knowledge-agents",
      "detail_url": "papers/a10-karl-knowledge-agents/",
      "title": "KARL: Knowledge Agents via Reinforcement Learning",
      "summary": "这篇论文讨论的是知识型智能体在“难验证任务”上的训练问题。很多 agentic RL 工作依赖代码执行、数学答案或规则评测，但企业搜索、知识检索、复杂问答等任务往往没有这么干净的 reward。KARL 要解决的就是：如何在这类知识工作流中，把强化学习真正用起来。\n\n方法上，KARL 把知识型智能体训练分解成可操作的 RL 设置，引入适合搜索和知识工作流的轨迹级优化，并重点关注质量、时延和成本之间的平衡。论文不是简单做监督微调，而是把代理行为、检索、规划和回答放进统一的 RL 视角里，让 agent 在知识任务上通过反馈逐步学到更优策略。\n\n它的重要性在于，这类工作把 agentic RL 从“可验证玩具任务”推进到企业知识场景。对仓库主线里的研究代理、知识代理、工具使用智能体来说，这是一条很关键的补链论文。它说明 RL 不一定只服务于数学或代码，也可以用于更接近真实工作流的知识型任务。\n\n我把它放在“突破性”。原因是它方向对、方法完整、场景也实用，但证据强度和外溢性还没有达到颠覆性系统论文的级别，目前更像 agentic RL 里的强方法工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-05",
      "doi": "",
      "arxiv_id": "2603.05218",
      "collected_at": "",
      "collection_order": 388,
      "source_url": "https://arxiv.org/pdf/2603.05218.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.05218.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T9_Linear_RNN_Parallelizable",
      "slug": "t9-linear-rnn-parallelizable",
      "detail_url": "papers/t9-linear-rnn-parallelizable/",
      "title": "Why Are Linear RNNs More Parallelizable?",
      "summary": "论文从计算复杂性角度解释了为什么线性 RNN 能像 Transformer 一样并行，而传统非线性 RNN 不能。核心论点是线性 RNN 等价于对数深度的算术电路，因此可以高效并行；非线性 RNN 则能解决本质上更串行的 L 完备甚至 P 完备问题，所以其并行化存在理论障碍。价值不在于某个架构技巧，而在于它给当前一批线性循环架构的并行性和表达力权衡提供了统一解释框架。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-03-04",
      "doi": "",
      "arxiv_id": "2603.03612",
      "collected_at": "",
      "collection_order": 387,
      "source_url": "https://arxiv.org/pdf/2603.03612.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.03612.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T8_Score_Matching_Low_Dim",
      "slug": "t8-score-matching-low-dim",
      "detail_url": "papers/t8-score-matching-low-dim/",
      "title": "Generalization Properties of Score-matching Diffusion Models for Intrinsically Low-dimensional Data",
      "summary": "这是一篇扩散模型理论论文，核心结论是分数匹配扩散模型的泛化速率由数据的内在维度而不是环境维度决定。作者引入 (p,q)-Wasserstein 维度，证明在仅要求有限矩的宽松假设下，学习到的生成分布在 Wasserstein-p 距离下能达到接近极小极大的最优收敛速率。它的重要性在于给“扩散模型为什么能在高维数据上工作”提供了比以往更贴近现实数据分布的理论解释。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-03-04",
      "doi": "",
      "arxiv_id": "2603.03700",
      "collected_at": "",
      "collection_order": 386,
      "source_url": "https://arxiv.org/pdf/2603.03700.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.03700.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL15_Online_Continual_WM_Adaptation",
      "slug": "rl15-online-continual-wm-adaptation",
      "detail_url": "papers/rl15-online-continual-wm-adaptation/",
      "title": "Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback",
      "summary": "大多数学习式机器人控制器在离线训练后以固定参数部署，真正上线后遇到分布偏移时基本没有持续改进能力。这篇论文把问题前推到 deployment-time adaptation：机器人如何利用自己的世界模型反馈，在运行中自主发现失配并触发持续学习。\n\n具体做法建立在 DreamerV3 上，用 world model prediction residual 作为 OOD 事件检测信号，并在检测到显著偏离时自动触发在线 continual RL finetuning。系统还结合任务表现和内部训练指标评估适配是否收敛，从而减少对外部人工监督和显式 domain knowledge 的依赖。\n\n它符合本仓库对 test-time / deployment-time learning 的高优先级，因为这不是 narrow trick，而是一个可复用的部署期适配回路：世界模型残差用于触发，在线学习用于修正，内部指标用于停机判断。对现实机器人长期运行，这是很实用的模式。\n\n它不更高一级的原因是目前证据仍集中在若干连续控制场景、一个高保真四足模拟和一个真实小车平台。方向明确，但距离形成更普适的 deployment-time robotics adaptation blueprint 还需要更大规模验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-04",
      "doi": "",
      "arxiv_id": "2603.04029",
      "collected_at": "",
      "collection_order": 385,
      "source_url": "https://arxiv.org/pdf/2603.04029.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.04029.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "吕贝克大学研发具有生物本能的机器人：遇突发状况自动进化，基于DreamerV3世界模型实现自我修复",
          "url": "https://www.bilibili.com/video/BV12QoGBsEmc",
          "platform_urls": [
            "https://www.bilibili.com/video/BV12QoGBsEmc",
            "https://youtu.be/jkjWuXPRACg"
          ],
          "main_collection": "机器人与具身智能",
          "match": "self adapting robotic agents through online continual reinforcement learning with world model feedback",
          "description": "吕贝克大学自主系统实验室针对机器人面对硬件损坏或环境突变时控制失效的问题，研发了一种在线持续强化学习框架。该系统以DreamerV3世界模型为核心，通过实时监控观测与奖励的预测残差，模拟生物的“意外感”来感知分布外异常。一旦残差触发3-Sigma统计阈值，机器人将自动从执行切换至学习模式进行自律微调。在四足机器人受损模拟与赛车实地测试中，该方法证明了机器人无需人工干预即可迅速恢复稳定运动。这项成果标志着机器人正从执行固定指令转向具备终身学习与自我进化能力的仿生智能系统。",
          "x_post": "吕贝克大学研发基于DreamerV3的在线持续强化学习框架：利用预测残差实现机器人受损后的自主修复\n传统机器人控制系统在面临硬件损坏或环境突变时，常因参数固定导致行为崩溃。该研究引入一种基于DreamerV3世界模型的在线持续强化学习（CRL）架构，通过实时监控观测预测残差（OPR）与奖励预测残差（RPR）来感知分布外异常。\n一旦残差突破3-Sigma统计阈值，系统将自动触发潜在空间的模型微调，模拟生物在遭遇意外时的策略重构。在四足机器人受损模拟及赛车实地测试中，该方法证明机器人无需人工干预即可迅速恢复稳定运动指标。\n该成果展示了机器人从执行静态指令向具备自主反思与终身学习能力的仿生智能系统演进的技术路径。",
          "cover_url": "assets/covers/rl15-online-continual-wm-adaptation-91a07664d7.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-24T09:49:00+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL14_ManipulationNet_Real_World_Benchmark",
      "slug": "rl14-manipulationnet-real-world-benchmark",
      "detail_url": "papers/rl14-manipulationnet-real-world-benchmark/",
      "title": "ManipulationNet: An Infrastructure for Benchmarking Real-World Robot Manipulation with Physical Skill Challenges and Embodied Multimodal Reasoning",
      "summary": "机器人 manipulation 研究长期缺的是可复现、可扩展、又足够贴近真实世界的统一 benchmark。ManipulationNet 直接把这个问题作为基础设施问题处理，而不是再新增一个局部任务集：它试图建立一个分布式的真实机器人 manipulation benchmark 网络，让不同实验室在标准化硬件和统一软件接口下评测。\n\n方法上，ManipulationNet 不是只给任务列表，而是提供标准化 hardware kits、统一 software client、实时任务下发与结果回传机制，并把 benchmark 拆成两个互补轨道：低层的 Physical Skills Track 和高层的 Embodied Reasoning Track。这样一来，物理交互能力和多模态推理能力可以被系统性地分开测，也可以组合评估。\n\n这篇论文符合本仓库对 robotics / embodied intelligence 的正式收录标准，因为它贡献的是 durable benchmark infrastructure，而不是一次性 demo。对 manipulation、VLA、agentic robotics 和跨实验室真实世界评测，这种 benchmark-as-infrastructure 的模式有明显长期价值。\n\n它仍然是 breakthrough 而不是更高一级，因为它当前更像一个强基础设施起点，是否真的能成为领域默认基准，还取决于 adoption、任务扩展和长期运营。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-03-04",
      "doi": "",
      "arxiv_id": "2603.04363",
      "collected_at": "",
      "collection_order": 384,
      "source_url": "https://arxiv.org/pdf/2603.04363.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.04363.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "攻克机器人研发“不可能三角”，宾大联合多校发布全球首个通用物理操作基准平台 ManipulationNet",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "manipulationnet an infrastructure for benchmarking real world robot manipulation with physical skill challenges and embodied multimodal reasoning",
          "description": "由宾夕法尼亚大学、哥伦比亚大学等顶尖机构联合发起的 ManipulationNet，旨在解决机器人领域长期存在的现实度、可及性与真实性“不可能三角”难题。该平台通过分发标准化硬件套件与统一软件客户端，构建了全球首个“中心化评估+去中心化提交”的混合测评架构。系统设立物理技能与具身推理双赛道，并引入密码学防作弊机制，确保实物测试的公信力。这一基准平台不仅能有效评估机器人在复杂环境下的操作稳健性，还为全球开发者提供了低门槛的实测基础设施，加速通用机器人操作系统的演进。",
          "x_post": "宾大与哥大等发布 ManipulationNet：全球首个混合架构机器人物理操作基准，攻克研发“不可能三角”\n\n当前机器人研发面临现实度、可及性与真实性难以兼顾的瓶颈。ManipulationNet 提出“中心化评估+去中心化提交”的混合架构，通过分发标准化硬件套件与统一软件客户端，构建了全球范围内可重复的实物测评体系。\n技术核心采用密码学防作弊机制，利用随机抽查、本地哈希比对确保远程提交数据的公信力。平台设立物理技能与具身推理双赛道，分别针对底层接触动力学的物理鲁棒性，以及高层多模态感知的逻辑推理能力进行闭环测试。\n该基准通过标准化物理协议与分布式执行流程，为通用机器人操作系统的系统性演进提供了可核验的评价标准，旨在打破孤立研究无法形成行业累积进步的现状。",
          "cover_url": "assets/covers/rl14-manipulationnet-real-world-benchmark-19417ddb53.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-23T20:35:09+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R5_V1_Parallel_Reasoners",
      "slug": "r5-v1-parallel-reasoners",
      "detail_url": "papers/r5-v1-parallel-reasoners/",
      "title": "$V_1$: Unifying Generation and Self-Verification for Parallel Reasoners",
      "summary": "这篇论文关注 test-time scaling 中一个核心问题：生成很多候选答案之后，模型应该如何更可靠地挑出最好的答案。作者认为传统的 pointwise 打分方式能力有限，因此提出把“生成”和“自验证”统一到一个 pairwise 框架中。\n\n方法上，论文提出 `V1-Infer` 和 `V1-PairRL`。前者在推理时利用不确定性做 tournament ranking，动态分配验证算力；后者在训练时让模型同时学习候选生成和成对比较式的自验证。这样做的核心好处是，验证器不再只给每个答案一个孤立分数，而是直接学习两个候选之间谁更好。\n\n价值在于它把推理增强里的“后验筛选”问题做成了更完整的方法体系，并给出了不错的数学与代码基准结果。它适合放在推理 / self-verification / test-time scaling 子方向中，属于值得收录的强方法论文，但还不到范式级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-03-04",
      "doi": "",
      "arxiv_id": "2603.04304",
      "collected_at": "",
      "collection_order": 383,
      "source_url": "https://arxiv.org/pdf/2603.04304.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.04304.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "伯克利联手NVIDIA发布V1：通过成对比较统一生成与验证，破解大模型并行推理瓶颈",
          "url": "https://www.bilibili.com/video/BV1isX4BvEFL",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1isX4BvEFL",
            "https://youtu.be/Wi1EhMtgU_4"
          ],
          "main_collection": "大模型架构与推理",
          "match": "v 1 unifying generation and self verification for parallel reasoners",
          "description": "针对大语言模型在并行推理中面临的“校准坍塌”与“多样性坍塌”问题，伯克利与NVIDIA联合推出了V1框架。研究发现，模型在相对判断上比独立打分更具优势。V1-Infer算法借鉴瑞士轮赛制，利用不确定性引导将算力集中在决策边界，实现了高效的成对比较验证。此外，V1-PairRL强化学习框架实现了生成器与验证器的协同进化训练。实验证明，该方法在数学竞赛及代码生成测试中准确率提升显著。V1为解决大模型推理侧的测试时扩展提供了更强健、高效的统一架构方案。",
          "x_post": "伯克利联手NVIDIA发布V1：通过成对比较统一生成与验证，HMMT准确率提升10.0%\n大语言模型在并行推理中常面临“校准坍塌”困境，即独立打分法难以在无外部反馈时准确识别正确解。V1框架提出以成对比较（Pairwise）取代传统逐点验证，利用模型在相对判断上的优势突破瓶颈。\n其核心V1-Infer算法借鉴瑞士轮赛制，通过不确定性引导将推理算力集中于决策边界；同时，V1-PairRL强化学习架构实现了生成器与验证器的协同进化训练。\n实验证明，在相同算力预算下，V1在HMMT数学测试、LCB-v5及CodeContests代码基准上，分别取得10.0%、8.6%和7.3%的准确率提升。\n该研究为大模型在复杂推理任务中的测试时扩展（Test-time Scaling）提供了更稳健、高效的统一架构方案。",
          "cover_url": "assets/covers/r5-v1-parallel-reasoners-2b8a06e319.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-22T13:08:42+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM26_LPWM_Object_Centric_World_Model",
      "slug": "mm26-lpwm-object-centric-world-model",
      "detail_url": "papers/mm26-lpwm-object-centric-world-model/",
      "title": "Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling",
      "summary": "这篇论文面向 world models 的一个长期难点：很多视频 world model 在视觉生成上越来越强，但缺少 object-centric、可决策、可泛化到真实多物体场景的状态表示。LPWM 试图把世界模型从“生成像素未来”推进到“发现对象、建模对象随机动力学、再用于决策”。\n\n方法上，LPWM 从纯视频中自监督发现 keypoints、bounding boxes 和 masks，形成对象级场景分解；再通过 latent action module 建模随机粒子动力学，并支持 action、language 和 image-goal 条件。这个组合的意义在于，它不依赖人工标注就把 object-centric decomposition、stochastic dynamics 和 decision-making 连接起来。\n\n它符合本仓库对 multimodal/world model 的高优先级，因为贡献点不是单一 benchmark 提分，而是提出了一个可复用的 object-centric world-model interface，并明确展示了其在 goal-conditioned imitation learning 等决策任务中的可用性。对机器人和视频世界建模，这属于有持续外溢的方向。\n\n它仍然是 breakthrough 而不是更高一级，因为 object-centric world model 这条线历史上高潜工作很多，但真正稳定成为通用基础模块的还少。LPWM 展示了很强的路线价值，但仍需要更多跨任务和长期控制场景的验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-04",
      "doi": "",
      "arxiv_id": "2603.04553",
      "collected_at": "",
      "collection_order": 382,
      "source_url": "https://arxiv.org/pdf/2603.04553.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.04553.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "CMU等发布LPWM：让AI具备粒子级物理直觉，零标注即可预测复杂交互",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "latent particle world models self supervised object centric stochastic dynamics modeling",
          "description": "卡内基梅隆大学（CMU）等团队在具身智能领域推出LPWM模型。针对现有视觉模型训练能耗高、缺乏物理归纳偏置导致物体语义破碎的问题，该方法通过自监督学习从原始视频中自动发现物体关键点、掩码与层级关系。其核心在于利用潜动作模块实现逐粒子的随机动力学建模，摆脱了传统全局动作对多物体交互处理的混乱。实验证明，该模型在多物体视频预测性能上达到SOTA，并能直接应用于机器人目标条件模仿学习。这意味着AI无需昂贵的人工标注，即可获得精准的物理直觉，显著提升复杂环境下的规划效率与操作精度。",
          "x_post": "CMU等团队发布LPWM：自监督粒子级物理建模实现多物体视频预测SOTA\n针对视觉大模型缺乏物理归纳偏置且推理能耗高的问题，研究团队提出以物体为中心的世界模型LPWM。该架构从原始视频中自监督发现粒子化的关键点、掩码及层级属性，通过“潜动作模块”实现逐粒子的随机动力学建模，解决了全局动作难以处理多物体复杂交互的局限。实验结果显示，LPWM在多物体视频预测性能上达到SOTA，并能直接应用于机器人目标条件模仿学习任务。该工作证明了在零人工标注下，AI可通过物理级前背景解耦获得精准的物理直觉与规划效率。",
          "cover_url": "assets/covers/mm26-lpwm-object-centric-world-model-cf025a84fa.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-25T18:59:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "EN3_TwinAI_Water_Distribution",
      "slug": "en3-twinai-water-distribution",
      "detail_url": "papers/en3-twinai-water-distribution/",
      "title": "TwinAI: A digital twin and graph reinforcement learning framework for real-time management of water distribution networks",
      "summary": "这篇论文抓的是城市水系统里一个长期存在但经常被碎片化处理的问题：漏损、流量重构、异常响应和稀疏感知环境下的实时调度，通常分别落在 hydraulic simulation、rule-based control 和 isolated analytics 工具里，难以形成真正统一的实时管理闭环。作者把问题提升为 water distribution network 的 continuous operations loop，而不是单独的 leak detection 或仿真分析任务。\n\nTwinAI 的核心是把 physically informed digital twin、可交互的 Dyn-WNTR 水力仿真扩展和 graph reinforcement learning 控制 agent 统一起来。数字孪生不仅用于离线建模，而是允许 agent 在 runtime 中持续交互、评估 what-if scenarios 并执行 leak isolation、flow reconfiguration 等控制动作。也就是说，这篇论文真正把 hydraulic consistency、graph representation 和 real-time autonomous control 接成一个完整系统。\n\n它值得正式收录，因为这是 AI 进入 water infrastructure 的一个很清晰的系统级模式：不再只是预测或检测，而是进入 operational control loop。对仓库来说，这类论文的价值高于普通 utility analytics，因为它同时提供了数字孪生接口、agent-environment interaction pattern 和面向真实基础设施运维的决策框架，对更广的 infrastructure AI 有明显外溢。\n\n它暂时还不到更高一级，原因是当前证据仍主要围绕 water distribution 这一特定基础设施场景展开，且还没有跨城市、跨公用事业或长期真实部署的更强证据。它是很强的 control-workflow paper，但影响范围目前仍主要停留在智能水网管理这条线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "energy_water_and_infrastructure_systems",
      "theme_label": "能源、水与基础设施",
      "published_at": "2026-03-04",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 381,
      "source_url": "https://www.sciencedirect.com/science/article/pii/S2542660526000417",
      "paper_url": "https://www.sciencedirect.com/science/article/pii/S2542660526000417",
      "project_urls": [
        "https://www.sciencedirect.com/science/article/pii/S2542660526000417"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A23_AutoHarness_Code_Harness",
      "slug": "a23-autoharness-code-harness",
      "detail_url": "papers/a23-autoharness-code-harness/",
      "title": "AutoHarness: improving LLM agents by automatically synthesizing a code harness",
      "summary": "这篇论文解决的是 LLM agent 在交互环境中经常出现的非法动作、格式错误和环境约束违反问题。很多 agent 不是不会推理，而是输出无法被环境执行，导致整轮任务失败。作者把问题聚焦在一个很工程化但又普遍存在的瓶颈：如何在不人工手写环境约束规则的前提下，让模型自动获得可靠的动作执行边界。\n\n论文提出 AutoHarness，让模型自动合成一个 code harness，把环境规则、动作格式和运行时检查写成可执行代码，再让 agent 在这个约束层内行动。它不是简单加 prompt 规则，而是把约束显式编译成程序接口。摘要给出的结果表明，在 145 个 TextArena 游戏中，AutoHarness 能显著减少非法动作，并让较小模型通过 harness 超过更大但无 harness 的模型。\n\n这篇工作的价值在于把 agent safety 和 agent reliability 里的一个常见问题，转化成代码合成与执行约束问题来处理。它适合放在仓库的 agent systems / tool use 主线，代表一种比单纯 prompt engineering 更稳的 agent 外部脚手架思路。对交互式代理、游戏环境代理、工具使用代理都有现实参考价值。\n\n它还不到更高一级，因为证据主要集中在 TextArena 一类交互游戏环境，尚未证明在更开放的现实工具链、企业工作流或科学实验系统中同样稳定有效。它是强的 agent engineering 论文，但还不是重定义整条 agent 路线的范式级工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-04",
      "doi": "",
      "arxiv_id": "2603.03329",
      "collected_at": "",
      "collection_order": 380,
      "source_url": "https://arxiv.org/pdf/2603.03329.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.03329.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "智商超群却屡屡违规？DeepMind发布AutoHarness，通过自我合成代码终结78%的非法操作",
          "url": "https://www.bilibili.com/video/BV1dpQrBuEGv",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1dpQrBuEGv",
            "https://youtu.be/ELRlJ-i_wzE"
          ],
          "main_collection": "AI智能体",
          "match": "autoharness improving llm agents by automatically synthesizing a code harness",
          "description": "大语言模型在智能体任务中虽具备强推理能力，但常因违反环境规则导致任务失败。DeepMind开发的AutoHarness系统通过将合规约束转化为程序空间搜索问题，利用模型自身的代码生成能力自动合成验证框架。该方法采用树搜索与Thompson采样算法，在无人类干预下实现代码的闭环迭代与修正。实验显示，轻量级模型Gemini-2.5-Flash在145种文本游戏中将非法动作率降至零，性能超越参数量更大的SOTA模型。研究界定了从动作验证到“策略即代码”的演进路径，证明了代码化约束是提升智能体鲁棒性与性价比的有效方法。",
          "x_post": "Google DeepMind 发布 AutoHarness：自动合成代码框架使轻量模型在 145 种游戏中实现 100% 合法操作\n\n大语言模型作为智能体执行任务时，常因违反环境规则导致失败。数据显示，Gemini-2.5-Flash 在 Kaggle 国际象棋测试中因非法移动导致的败局占比高达 78%。\n\n研究团队开发了 AutoHarness 系统，利用模型自身的编程能力，结合树搜索与 Thompson 采样算法在程序空间自动合成验证代码，通过环境反馈实现闭环迭代修正。\n\n实验结果表明，该框架使 Gemini-2.5-Flash 在 145 款复杂文本游戏中实现了 100% 的合法动作率，其任务表现超越了参数量更大的 Gemini-2.5-Pro 等模型。\n\n该研究界定了从动作验证到“策略即代码”的演进路径，证明了代码化约束是提升智能体鲁棒性并降低推理成本的有效手段。",
          "cover_url": "assets/covers/a23-autoharness-code-harness-fcfd2fdec9.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T19:43:22+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A129_SWE_CI_Codebase_Maintenance",
      "slug": "a129-swe-ci-codebase-maintenance",
      "detail_url": "papers/a129-swe-ci-codebase-maintenance/",
      "title": "SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration",
      "summary": "现有软件工程 agent benchmark 大多停留在静态 bug fixing 或一次性 patch correctness 上，但真实软件开发更接近持续演化过程：需求不断变化，功能在几十轮提交与回归中被维护、修改和延展。只看单次修复是否通过，无法衡量 agent 是否真的具备维护代码库的能力。\n\nSWE-CI 把 Continuous Integration loop 引入 agent evaluation，提出第一个 repository-level benchmark，明确把评估目标从短期 functional correctness 转向动态、长期 maintainability。任务来自真实仓库演化历史，每个任务跨越长时间开发轨迹和多轮连续提交，要求 agent 在几十轮分析与编码迭代中持续修正并维持代码质量，而不是只交一份最终 patch。\n\n这篇工作值得收录，因为它补上了 coding-agent 评测里最关键的缺口之一：长期维护能力。它不是再造一个 static repair benchmark，而是把 CI 过程本身变成可复现评估接口，对 repository-scale coding agents、长期 feature iteration 和 maintainability-oriented evaluation 都有耐久参考价值。\n\n它没有升到更高一级，是因为当前仍主要是一条 benchmark/evaluation 路线，而不是新的 agent training or runtime 范式。它的重要性在于评估目标的升级，但是否会成为整个 coding-agent 社区的默认基准，还需要更多采用信号。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-04",
      "doi": "",
      "arxiv_id": "2603.03823",
      "collected_at": "",
      "collection_order": 379,
      "source_url": "https://arxiv.org/pdf/2603.03823.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.03823.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "揭秘大模型编程的虚假繁荣：SWE-CI 引入持续集成评测，揭示代码维护能力的深层短板",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "swe ci evaluating agent capabilities in maintaining codebases via continuous integration",
          "description": "现有大模型编程评测多关注单次快照的功能正确性，忽视了占据软件生命周期约80%成本的长期维护能力。针对此痛点，中山大学与阿里提出SWE-CI基准，这是首个基于持续集成（CI）循环的仓库级演进评估体系。该研究构建了包含100个真实任务、平均演进跨度达233天的动态评测环境，并引入EvoScore指标量化代码修改的净收益。通过模拟“架构师-程序员”的双智能体协作，实验结果揭示了顶级模型在处理回归错误和保持代码深度质量（如MI指数）方面的严峻挑战，为开发具备长期维护能力的AI智能体提供了证据支撑与边界定义。",
          "x_post": "中山大学与阿里巴巴发布 SWE-CI：首个基于持续集成的代码演进基准，量化 LLM 长期维护能力短板\n软件维护占生命周期总成本的 60%-80%，但现有评测多关注单次快照的功能正确性。为解决此盲区，研究团队提出 SWE-CI 基准，包含 100 个真实任务及平均 233 天的演进跨度。\n该基准通过“架构师-程序员”双智能体协议模拟真实的 CI 循环，并引入 EvoScore 与标准化变化率（[-1, 1]）精准追踪代码质量的动态收益。\n实验结果表明，顶级模型在处理回归错误和保持代码深度质量（如 MI 指数）方面仍存在挑战，难以应对长期技术债务反噬。\n本研究定义了 AI 智能体在代码库级别持续演进中的能力边界，为开发具备长期维护能力的 AI 提供了可核验的评价体系。",
          "cover_url": "assets/covers/a129-swe-ci-codebase-maintenance-d092ae10c6.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-03T13:48:34+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T7_Exponential_Misalignment",
      "slug": "t7-exponential-misalignment",
      "detail_url": "papers/t7-exponential-misalignment/",
      "title": "Solving adversarial examples requires solving exponential misalignment",
      "summary": "这篇论文把对抗样本问题重新定义为机器感知流形与人类概念流形之间的“指数级错位”。作者定义感知流形为模型高置信度归入某类别的全部输入集合，并估计其维度，发现标准网络的流形维度远高于自然概念流形维度，因此在高维空间中任何输入都离任意类别流形很近，对抗扰动便成为几何必然。价值在于它把鲁棒性问题从“错误特征”讨论推进到“感知几何是否与人类对齐”的层面。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-03-03",
      "doi": "",
      "arxiv_id": "2603.03507",
      "collected_at": "",
      "collection_order": 378,
      "source_url": "https://arxiv.org/pdf/2603.03507.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.03507.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "PH2_EDSim_Operations_Simulator",
      "slug": "ph2-edsim-operations-simulator",
      "detail_url": "papers/ph2-edsim-operations-simulator/",
      "title": "EDSim: An Agentic Simulator for Emergency Department Operations",
      "summary": "急诊科运营长期受拥堵、床位分配和人力调度约束影响。传统离散事件模拟或普通 agent-based simulation 能对齐宏观等待时间和吞吐量，但很难表达患者与医护之间的微观交互、临场沟通和状态依赖决策，而这些恰恰会改变瓶颈位置和流程效率。\n\nEDSim 提出的是一种 agentic operations simulator：患者与医护由大语言模型代理驱动，但这些代理并不是完全自由对话，而是被临床规则、急诊全局状态和模块化 patient journey 结构所约束。这样既保留了微观行为的可解释性，又能让运营方快速跑 what-if 场景，如重新分配床位或人员。\n\n这项工作的仓库价值在于它把 LLM agent 从“做预测/问答”推进到“做 operations simulation”。对公共卫生与医疗运营这条线来说，这是一种更接近真实 workflow 的新模式：既能复现流转过程，又能让管理者测试干预方案。\n\n它暂时仍是 breakthrough，因为当前证据主要是对历史等待时间分布的对齐和少量场景实验，外部医院验证、长期稳定性和模型治理问题都还没有完全解决。Research Square 预印本的状态也意味着后续仍需持续跟踪。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "public_health_and_medical_operations",
      "theme_label": "公共卫生与医疗运营",
      "published_at": "2026-03-03",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 377,
      "source_url": "https://assets-eu.researchsquare.com/files/rs-8960989/v1_covered_acbf103c-5ac1-40ae-b5c3-a50cfa032ab7.pdf",
      "paper_url": "https://assets-eu.researchsquare.com/files/rs-8960989/v1_covered_acbf103c-5ac1-40ae-b5c3-a50cfa032ab7.pdf",
      "project_urls": [
        "https://assets-eu.researchsquare.com/files/rs-8960989/v1_covered_acbf103c-5ac1-40ae-b5c3-a50cfa032ab7.pdf"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "还原高压环境下的医疗涌现：EDSim通过四大核心智能体，在虚拟世界中重构真实急诊生态",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "edsim an agentic simulator for emergency department operations",
          "description": "针对急诊室日益严重的拥挤危机，传统运筹学模拟方法难以还原复杂的医患互动与临床决策。本研究提出EDSim，一种基于大语言模型智能体的急诊科运营模拟器。该系统构建了物理、认知与校验三层架构，通过患者、护士及医生等四大核心智能体，在真实医院布局中实现自然语言交互与自主决策。系统采用混合认知引擎，将大语言模型与CTAS分诊标准及历史数据结合，有效约束了AI幻觉并保证模拟精度。EDSim能够精准还原排队模式与资源瓶颈，为医院管理者优化人员配置与诊疗流程提供了一个高保真的数字化试验场。",
          "x_post": "卡尔加里大学与密歇根大学团队研发EDSim模拟器，利用LLM智能体刻画急诊科15.7小时中位数等待背后的复杂决策。\n针对传统离散事件模拟难以还原医患自然语言交互与临床决策流的问题，该研究提出了基于智能体的EDSim架构。系统构建了物理、认知与校验三层控制层级，由患者、护士及医生等四类核心智能体在真实医院布局约束下运行。通过混合认知引擎将大语言模型与CTAS分诊标准及历史统计数据结合，有效约束了AI幻觉并保证了微观行为的模拟精度。实验证明，EDSim能够精准还原急诊排队模式与资源瓶颈，为医院管理者在人员配置与诊疗流程优化上提供高保真的数字化试验场。",
          "cover_url": "assets/covers/ph2-edsim-operations-simulator-fd8757f74e.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T20:29:00+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM2_Beyond_Language_Modeling",
      "slug": "mm2-beyond-language-modeling",
      "detail_url": "papers/mm2-beyond-language-modeling/",
      "title": "Beyond Language Modeling: An Exploration of Multimodal Pretraining",
      "summary": "这篇论文研究的是“原生统一多模态预训练”如何从语言模型范式继续扩展，而不是把视觉模块后接到现成 LLM 上。作者在 Transfusion 框架下从零开始训练统一模型，用 next-token prediction 处理语言，用 diffusion / flow-style objective 处理视觉，并把文本、视频、图文对、动作条件视频放进同一个受控实验体系里，目标是隔离视觉表示、数据配比、架构和缩放规律各自的作用。\n\n论文最有价值的贡献是把多模态预训练设计空间做成一组可操作的经验结论：RAE / semantic visual encoder 可以同时支撑视觉理解与生成，不必沿用“理解 encoder + 生成 VAE”的双表示；视觉数据和语言数据并非简单互相竞争，图像 caption 带来的文本分布偏移才是常见 modality tax 的主要来源；一般多模态训练还能自然诱导 world modeling，尤其是在视频和动作条件视频设置中体现为对动态世界的可预测建模能力。\n\n这篇被收录在 multimodal foundation models 方向，因为它不是单点 benchmark 提升，而是为下一代统一模型给出一套设计蓝图：以 Transfusion 为统一训练接口，以 RAE 作为统一视觉 latent，以 MoE 调和视觉和语言的缩放不对称。IsoFLOP 分析显示视觉明显比语言更数据饥渴，而 MoE 可以在提供语言所需高容量的同时容纳视觉的数据密集需求，这一点对后续统一 VLM / world model 架构有长期参考价值。项目页：https://beyond-llms.github.io/\n\n当前仍保持 `breakthrough` 而不是更高分级，原因是它主要是系统化实证与设计原则总结，并非单独提出一个已经被验证为新标准的模型族或训练范式。它的实验控制强、覆盖面广、方向性重要，但证据仍主要来自作者从零训练的受控规模模型；距离“重塑整个多模态路线”的 paradigm / disruptive 级别，还需要后续更大规模复现、开源模型或产业级采用来确认。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-03",
      "doi": "",
      "arxiv_id": "2603.03276",
      "collected_at": "",
      "collection_order": 376,
      "source_url": "https://arxiv.org/pdf/2603.03276.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.03276.pdf",
      "project_urls": [
        "https://beyond-llms.github.io/"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "Meta联合NYU揭秘语言模型的极限：告别有损压缩，带原生多模态AI走出柏拉图的洞穴",
          "url": "https://www.bilibili.com/video/BV1s2wtzkEnh",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1s2wtzkEnh",
            "https://youtu.be/Qr47BkH7zls"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "beyond language modeling an exploration of multimodal pretraining",
          "description": "本研究探讨原生多模态预训练的设计空间，旨在解决传统语言模型将现实世界视为有损压缩的局限性。Meta与NYU的研究团队提出了Transfusion框架，通过表征自编码器（RAE）替代传统的双编码器系统，有效统一了视觉语义理解与高质量图像生成任务。实验数据表明，在520B Tokens规模的协同训练下，多模态输入不仅不会损害模型的语言逻辑推理能力，反而能通过文本数据反哺视觉生成的质量，实现协同增长。研究进一步揭示了视觉与语言在扩展规律上的不对称性，并利用混合专家模型优化计算效率。该工作论证了模型从简单的像素预测向具备物理规律感知能力的“世界模拟器”演进的可能性。",
          "x_post": "Meta与NYU提出Transfusion框架：520B规模原生多模态预训练实现语义理解与生成的统一\n针对纯文本模型作为现实世界“有损压缩”的局限性，该研究探索了原生多模态预训练的设计空间。核心引入表征自编码器（RAE），在单一架构下统一了文本自回归预测与视觉流匹配任务，打破了传统理解派与生成派模型的长期割裂。实验证明，在520B Tokens规模的协同训练下，模型语言推理能力未受干扰，且视觉生成质量随文本预算增加呈现显著的协同增长。研究进一步揭示了视觉与语言在扩展规律上的不对称性，并论证了模型从单一预测向具备物理规律感知能力的“世界模拟器”演进的技术可行性。",
          "cover_url": "assets/covers/mm2-beyond-language-modeling-3fea8b629a.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-14T20:06:09+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "J4_Next_Embedding_Prediction_World_Models",
      "slug": "j4-next-embedding-prediction-world-models",
      "detail_url": "papers/j4-next-embedding-prediction-world-models/",
      "title": "Next Embedding Prediction Makes World Models Stronger",
      "summary": "**问题与背景**\n这篇论文围绕 world models / latent prediction / representation learning 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优。\n\n**方法/新意**\n论文给出了相对完整的方法设计与实验验证，核心贡献在于提出一个可明确描述的新框架，并将其落到可复核的基准或任务上。相较于仅做经验叠加的工作，这类论文的价值在于能形成后续可复用的方法模块或分析视角。\n\n**意义/放在仓库中的位置**\n在本仓库里，这篇论文归到 `world models / latent prediction / representation learning` 主线，定位为 `breakthrough`。它的意义在于推动该子方向往前走了一步，能够作为后续视频选题、主题综述和同类方法比较时的正式参考点。\n\n**局限/为何不再升一级**\n它还没有达到 `disruptive` 或 `paradigm` 的原因，是目前证据更多体现为强方法论文或强机制论文，而不是已经改写整条研究路线的系统级成果。除非后续被更大范围复现、 adopted 或验证为新标准范式，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-03-03",
      "doi": "",
      "arxiv_id": "2603.02765",
      "collected_at": "",
      "collection_order": 375,
      "source_url": "https://arxiv.org/pdf/2603.02765v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.02765v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "破译“读心术”的神经密码：揭秘NE-Dreamer如何利用因果Transformer赋予AI预见未来的长视角能力",
          "url": "https://www.bilibili.com/video/BV1VcAJzNEP9",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1VcAJzNEP9",
            "https://youtu.be/USCwyQBCZCY"
          ],
          "main_collection": "机器人与具身智能",
          "match": "next embedding prediction makes world models stronger",
          "description": "针对强化学习中传统世界模型过度依赖像素重建、计算开销大且在长视角任务中表现不佳的问题，本研究提出了NE-Dreamer架构。该模型完全舍弃了解码器结构，核心采用因果时序Transformer，通过预测下一帧编码器嵌入来建立强时序对齐能力，并利用冗余消除技术防止表征坍塌。实验结果显示，在需要空间记忆与长时程推理的DMLab挑战中，NE-Dreamer的性能显著优于DreamerV3，同时在标准连续控制测试中保持了极强的竞争力。这证明了在隐空间进行直接预测是构建高效、稳健世界模型的可行路径，尤其适用于部分可观测环境下的复杂决策场景。",
          "x_post": "NE-Dreamer：基于下一帧嵌入预测的无解码器世界模型在 DMLab 任务中超越 DreamerV3\n针对强化学习中像素重构计算开销大且在长视角任务中表现不佳的问题，NE-Dreamer 提出了一种全新的无解码器架构。该模型核心采用因果时序 Transformer，通过预测下一帧编码器嵌入建立强时序对齐能力，并利用冗余消除技术防止表征坍塌。实验结果显示，在需要空间记忆与长时程推理的 DMLab 挑战中，其性能显著优于 DreamerV3，同时在标准 DMC 连续控制测试中保持极强竞争力。研究证明，在隐空间直接进行未来预测是构建高效、稳健世界模型的可行路径，尤其适用于部分可观测环境下的复杂决策场景。",
          "cover_url": "assets/covers/j4-next-embedding-prediction-world-models-263db651c5.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-18T09:50:29+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "I5_Cognitive_Dark_Matter",
      "slug": "i5-cognitive-dark-matter",
      "detail_url": "papers/i5-cognitive-dark-matter/",
      "title": "Cognitive Dark Matter: Measuring What AI Misses",
      "summary": "**问题与背景**\n这篇论文针对 `evaluation / cognitive science / ai capability measurement` 方向中的核心问题展开，属于仓库主线内值得正式记录的研究。它关注的不是局部调参，而是该子方向里较基础、较长期的问题，因此即使仍处在论文阶段，也有持续跟踪价值。\n\n**方法/新意**\n论文提出了相对清晰的新方法或新分析框架，并给出了可复核的实验或论证。它的主要新意在于把问题从经验比较推进到更可解释、可系统化的层面，而不是仅仅提供一个小幅性能增益。\n\n**意义/放在仓库中的位置**\n在仓库里，这篇论文归到 `evaluation / cognitive science / ai capability measurement` 主线，定位为 `breakthrough`。它适合作为后续做主题综述、视频选题和与同类论文横向比较时的正式材料，也能补足当前仓库在该方向上的连续性。\n\n**局限/为何不再升一级**\n它暂时没有升到 `disruptive`，主要因为当前证据更像一篇高质量方法论文、机制论文或系统论文，而不是已经改写整条研究路线的成果。除非后续被大规模复现、 adopted 或成为该领域新标准，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-03-03",
      "doi": "",
      "arxiv_id": "2603.03414",
      "collected_at": "",
      "collection_order": 374,
      "source_url": "https://arxiv.org/pdf/2603.03414v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.03414v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "预测蛋白却卡在简单逻辑？普林斯顿揭秘“锯齿状智能”成因，定义认知暗物质",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "cognitive dark matter measuring what ai misses",
          "description": "普林斯顿大学团队联合Protocol Labs深入研究AI认知架构。针对当前大模型在复杂任务表现优异、却在简单逻辑中意外崩溃的“锯齿状智能”现象，研究者提出了“认知暗物质”这一核心概念。该理论指出，现有的AI训练数据仅涵盖了人类行为的结果，却缺失了驱动这些行为的元认知、灵活性和社会推理等深层过程信号。通过对比人类与AI的错误模式发现，缺乏这些“暗物质”会导致AI长链任务成功率随步骤指数级下降。该研究建议整合眼动追踪与神经行为数据，旨在使AI从单纯的结果模拟转向深层认知过程理解，从而打造更稳健、更具通用性的智能系统。",
          "x_post": "普林斯顿大学联合团队定义“认知暗物质”，揭示大模型逻辑崩溃的指数级风险\n\n当前人工智能呈现明显的“锯齿状智能”特征：在蛋白质结构预测等复杂任务表现卓越，却在简单逻辑门任务中意外失效。普林斯顿大学与Protocol Labs研究指出，其核心诱因是训练数据仅涵盖人类行为的最终产物，缺失了驱动决策的元认知、灵活性等“认知暗物质”信号。\n\n实验证据显示，缺乏认知过程引导的模型在长链任务中的成功率随步骤数 $n$ 呈指数级下降。对比分析发现，人类错误通常可预测，而AI错误则呈现放射状的不可预测分布。当前主流基准测试（如针对GPT-5.2或Claude 4.5预设评估项）过度集中于逻辑规划层级，而忽视了认知灵活性等深层维度的评估。\n\n研究建议，下一代AI训练应整合眼动追踪、神经行为配对等过程追踪数据。通过从“结果模拟”转向“认知过程对齐”，有望消除智力分布的不平衡，构建更具通用性且逻辑稳健的智能系统。",
          "cover_url": "assets/covers/i5-cognitive-dark-matter-c14f4652ec.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-16T10:02:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C7_TANGO_Generative_Molecular_Design",
      "slug": "c7-tango-generative-molecular-design",
      "detail_url": "papers/c7-tango-generative-molecular-design/",
      "title": "TANGO: direct optimization of constrained synthesizability for generative molecular design",
      "summary": "这篇论文针对生成式分子设计里一个长期存在的落地问题：模型可以生成看起来新颖、目标性质优异的分子，但往往在可合成性上出问题，导致候选很难真正走到实验端。作者把问题从‘先生成再筛选’推进到‘在生成过程中直接优化受约束的可合成性’，试图把可合成性从后处理指标变成生成目标的一部分。\n\n方法上的关键是 TANGO 把 constrained synthesizability 做成了可直接优化的目标，而不是简单加一个启发式 penalty。它面向的是生成式 molecular design 的内环优化问题：如何在不牺牲性质探索空间的前提下，把生成器引向更可能实际合成的分子区域。这个 framing 本身就比大量仅做 post-hoc filtering 的工作更强。\n\n它适合进入仓库，因为这是 AI for chemistry/分子生成工作流里很典型的高价值条目。真正可用的生成式分子设计，必须把 novelty、property 和 synthesizability 同时纳入，而 TANGO 正是在强化这条 workflow。对后续药物发现、反应路线规划前置筛查和分子生成评价标准都有直接外溢。\n\n它没有更高一级，因为目前更像一篇把分子生成工作流补齐关键约束的强方法论文，而不是完全重写 generative chemistry 整体范式。更准确地说，TANGO 是一篇很实用、方法上也有独立性的 chemistry AI 条目，足够正式收录，但还没有到更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-03-03",
      "doi": "10.1038/s43588-026-00959-1",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 373,
      "source_url": "https://www.nature.com/articles/s43588-026-00959-1",
      "paper_url": "https://www.nature.com/articles/s43588-026-00959-1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "像拼图一样精准设计新药，TANGO闭环引擎让AI调用指定原料，刷新可合成性纪录",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "tango direct optimization of constrained synthesizability for generative molecular design",
          "description": "洛桑联邦理工学院（EPFL）在《自然-计算科学》发表研究，针对AI制药中生成的分子“好用但难造”的行业痛点，推出了TANGO闭环引擎。传统强化学习在分子设计时，常因奖励信号过于稀疏，难以在优化药效的同时兼顾复杂的现实原料约束。TANGO通过将传统的二元评判转化为连续的化学相似度奖励，并融合全局指纹与骨架重合度算法，像导航仪一样引导AI在广阔化学空间中精准探索。实验证明，该方法在确保分子结合力与类药性的前提下，成功实现了指定原料的100%强制融合。这一突破将AI药物设计从理论层面的“理想图纸”推向了可落地的自动化生产，在可持续化学与机器人合成领域具有重要应用价值。",
          "x_post": "EPFL团队研发TANGO算法：攻克生成式分子设计合成难题，实现指定原料100%强制融合\n\n针对AI制药中生成的分子“好用但难造”的痛点，洛桑联邦理工学院（EPFL）在《Nature Computational Science》提出TANGO奖励函数。该方法针对强化学习中合成约束奖励信号过于稀疏的问题，将传统的二元评价转化为由全局指纹相似度（TanSim）与核心骨架重合度（FMS）构成的连续化学相似度信号，为AI模型提供精准的优化导航。\n\n实验数据显示，TANGO在保证分子靶点结合力与类药性（QED）的同时，成功实现了指定起始物料的100%强制融合，并能通过动态模式切换有效剔除结构假阳性。该研究通过整合Saturn大模型与MEGAN逆合成预言家，构建了从设计到可合成性评估的闭环引擎，为可持续化学及机器人自动化合成提供了可落地的技术支撑。",
          "cover_url": "assets/covers/c7-tango-generative-molecular-design-7fd514f58c.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-27T12:50:46+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A8_Guarding_Agentic_Reasoning",
      "slug": "a8-guarding-agentic-reasoning",
      "detail_url": "papers/a8-guarding-agentic-reasoning/",
      "title": "Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use",
      "summary": "这篇论文关注多步工具使用智能体的安全，不再把安全视为单轮拒答问题，而是视为“何时继续执行、何时中止”的序贯决策问题。作者提出 MOSAIC 框架，把推理过程组织成 plan-check-act/refuse 循环，并把显式安全推理和拒绝动作纳入偏好强化学习。实验显示该框架能明显降低恶意任务执行、提示注入和隐私泄露，同时保留或提升良性任务表现。它的重要性在于把 agent safety 从静态内容过滤推进到显式决策结构设计。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-03",
      "doi": "",
      "arxiv_id": "2603.03205",
      "collected_at": "",
      "collection_order": 372,
      "source_url": "https://arxiv.org/pdf/2603.03205.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.03205.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "走出数字屏幕的AI风险：微软发布MOSAIC框架，为多步工具调用的智能体构筑安全防线",
          "url": "https://www.bilibili.com/video/BV1cZcZzXEvY",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1cZcZzXEvY",
            "https://youtu.be/qQ2tSDpaPT8"
          ],
          "main_collection": "AI安全与对齐",
          "match": "learning when to act or refuse guarding agentic reasoning models for safe multi step tool use",
          "description": "针对大型语言模型在执行多步工具调用时面临的安全失效问题，微软研究院提出MOSAIC框架。该方案将安全审查引入显式推理过程，通过赋予智能体独立的模块化思考空间，使“拒绝执行”成为与“调用工具”同等优先级的显式操作。研究采用了基于GRPO的成对偏好强化学习，无需大量人工标注即可实现策略进化。实验证明，经过训练的Qwen和Phi等模型在有害任务拒绝率上超过90%，且安全推理的Token开销低于20%。该框架证明了通过结构化对齐，开源小模型在智能体安全性上可比肩顶尖商用模型。",
          "x_post": "微软研究院发布 MOSAIC 框架：通过结构化安全推理将智能体有害任务拒绝率提升至 90% 以上\n针对大模型在多步工具调用中面临的提示词注入与不可逆执行风险，传统静态防护在复杂序列决策中存在安全盲区。MOSAIC 框架通过构建“计划—检查—执行/拒绝”的显式模块化空间，利用基于 GRPO 的成对偏好强化学习，赋予智能体独立的安全性思考能力。实验表明，该方案使模型有害性得分下降逾 75%，且安全推理 Token 开销控制在 20% 以内；其中 Qwen3-4B 的良性任务完成率从 44% 提升至 85%，Phi-4 的过度拒绝率降低 56%。研究证实，通过结构化对齐，轻量化开源模型在智能体安全性上可比肩甚至超越未经专项防护的顶级商用模型。",
          "cover_url": "assets/covers/a8-guarding-agentic-reasoning-e11b65bb40.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-11T16:42:16+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A7_Selection_Theorems_Robust_Decision",
      "slug": "a7-selection-theorems-robust-decision",
      "detail_url": "papers/a7-selection-theorems-robust-decision/",
      "title": "What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty",
      "summary": "这篇理论工作试图证明：在不确定环境里表现足够好的智能体，不仅可以拥有世界模型和信念状态，而且在许多条件下必须拥有它们。作者把复杂的动作条件预测约化成一系列二元赌注任务，并证明低平均遗憾会强迫智能体内部表征做出正确的预测性区分。在部分可观测场景下，这进一步推出了类信念记忆的必要性。它的价值在于把“高能力智能体为何会收敛出结构化内部状态”从经验观察推进到选择定理层面。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-03",
      "doi": "",
      "arxiv_id": "2603.02491",
      "collected_at": "",
      "collection_order": 371,
      "source_url": "https://arxiv.org/pdf/2603.02491.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.02491.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "CMU重磅研究：数学证明追求极低遗憾的AI，必然会自发演化出理解世界的物理模型",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "what capable agents must know selection theorems for robust decision making under uncertainty",
          "description": "本视频解析CMU关于智能体稳健决策的最新研究。该研究通过严谨的数学框架提出了“选择定理”，证明了追求低平均悔值（Low Average-Case Regret）的AI，必然在其内部演化出具备预测能力的世界模型和信念记忆。在全观测环境下，这种结构化表征表现为对环境干预转移核的还原；在部分观测环境下，则证明了类信念存储是实现稳健泛化的必然结果。此外，理论揭示了性能压力如何驱动信息模块化与表示对齐，并明确了在无额外假设下，AI难以从观测与干预跨越到反事实推理的逻辑边界。该成果为理解黑盒模型内部结构的演化逻辑提供了坚实的数理证据。",
          "x_post": "CMU研究：追求低平均悔值的AI智能体必然自发演化出世界模型\n\n黑盒AI内部是否必须构建物理规律的表征？CMU团队通过“选择定理”为这一问题提供了严谨的数理证明。研究提出，在不确定环境下追求低平均悔值（Low Average-Case Regret）会迫使智能体在内部构建预测性的世界模型与信念记忆。在全观测场景下，智能体策略会以受限的误差界限逼近真实的干预转移核；在部分观测（POMDP）下，类信念存储则是实现稳健泛化的必然结果。该理论揭示了稳健泛化能力如何塑造内部组织，并划定了AI能触达干预层级但止步于反事实推理的逻辑边界。",
          "cover_url": "assets/covers/a7-selection-theorems-robust-decision-e8bfaf915a.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-13T11:22:34+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A103_EvoSkill_Multi_Agent_Skills",
      "slug": "a103-evoskill-multi-agent-skills",
      "detail_url": "papers/a103-evoskill-multi-agent-skills/",
      "title": "EvoSkill: Automated Skill Discovery for Multi-Agent Systems",
      "summary": "EvoSkill addresses a real limitation in coding and tool-using agents: general-purpose LLM flexibility does not automatically produce durable domain expertise. Prior work often relied on hand-written skills or on evolutionary optimization of low-level prompts and code fragments that remained tightly coupled to a particular model or benchmark.\n\nThe paper’s core contribution is to move optimization up to the skill level. EvoSkill analyzes failure trajectories, proposes new skills or edits to existing ones, and materializes them into structured reusable skill folders while keeping the underlying model frozen. A Pareto frontier over agent programs governs retention, so only skills that improve held-out validation performance survive. This makes skill discovery a persistent external capability-building loop rather than a one-off prompt rewrite.\n\nThis belongs in the repository because it sits directly on the capability-extension line that already includes MetaClaw, Trace2Skill, SkillRouter, and the practical memory/skill tracks. What makes EvoSkill worth collecting is that it does not just distill local traces; it explicitly discovers, edits, and selects reusable skills with cross-task transfer evidence, including zero-shot transfer from SealQA-evolved skills to BrowseComp.\n\nIt is not ranked higher because the evidence is still limited to a small set of benchmarks and an arXiv-stage system, and the skill-evolution line remains crowded with nearby variants. The gains are meaningful and the abstraction is strong, but it is not yet clear that EvoSkill is the dominant reference for long-term agent skill evolution rather than one strong entry in that cluster.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-03",
      "doi": "",
      "arxiv_id": "2603.02766",
      "collected_at": "",
      "collection_order": 370,
      "source_url": "https://arxiv.org/pdf/2603.02766.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.02766.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让AI从失败中提炼专业技能：EvoSkill通过三位一体架构实现智能体能力的闭环自我进化",
          "url": "https://www.bilibili.com/video/BV1HG9HBAEix",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1HG9HBAEix",
            "https://youtu.be/_5pFSlC_r4g"
          ],
          "main_collection": "AI智能体",
          "match": "evoskill automated skill discovery for multi agent systems",
          "description": "当前通用大模型智能体在处理垂直领域复杂任务时常面临专业性不足的问题。本视频详细介绍 EvoSkill 框架，这是一种无需重新训练底层模型、通过失败案例驱动的自动化技能发现系统。该系统采用由执行者、提案者和构建者组成的三位一体架构：执行者负责试错收集错误日志，提案者诊断根源并制定策略，构建者则将策略转化为结构化的、人类可读的技能文件夹。实验表明，EvoSkill 在 OfficeQA 等基准测试中最高提升了 12.1% 的准确率。更重要的是，其演进出的技能具备零样本迁移能力，能够直接应用于新任务。系统主要通过文本反馈下降循环在高级抽象层级实现能力的持续扩张，有效克服了传统方法中扩展性差和模型绑定的局限性。",
          "x_post": "弗吉尼亚理工大学团队推出EvoSkill：通过失败驱动的自动化技能发现实现多智能体性能提升12.1%\n针对通用大模型智能体在处理垂直领域复杂任务时专业性不足的问题，EvoSkill框架提出了一种无需重新训练底层模型的自我演进方案。该系统采用由执行者、提案者和构建者构成的三位一体架构，通过闭环分析失败案例的反馈日志，自动在高级抽象层级生成可复用的结构化技能库。实验证明，该方法在OfficeQA和SealQA等基准测试中最高提升了12.1%的准确率。更重要的是，演进出的技能具备零样本迁移能力，可直接应用于未见过的任务，在保证可解释性的同时显著增强了智能体的跨任务通用性。",
          "cover_url": "assets/covers/a103-evoskill-multi-agent-skills-42a0923c14.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-01T10:44:21+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "SYS10_AloePri_Privacy_Inference",
      "slug": "sys10-aloepri-privacy-inference",
      "detail_url": "papers/sys10-aloepri-privacy-inference/",
      "title": "Towards Privacy-Preserving LLM Inference via Collaborative Obfuscation (Technical Report)",
      "summary": "云端 LLM 推理把能力交给了大模型服务，但也把用户输入与输出暴露给远端系统，这使真正可用的 privacy-preserving inference 一直卡在一个很现实的工程约束上：不能只讲安全，还要同时保证大模型精度、工业级吞吐，以及和现有 serving 基础设施的兼容性。很多已有方案在这三个条件里最多满足一两个。\n\n这篇技术报告提出 AloePri，用 covariant obfuscation 同时变换数据和模型参数，让各个模型组件都能在保持推理正确性的同时隐藏用户输入与输出。它的重点不是一套孤立密码协议，而是把隐私保护嵌入到现有 Language-Model-as-a-Service 基础设施里，支持异构 legacy xPU 集群和大规模模型部署。\n\n它值得收录，因为这是少见真正以工业可部署性为目标的 LLM 隐私推理系统工作。论文在 671B 规模的 DeepSeek-V3.1-Terminus 上报告接近明文推理的效率、0.0%~3.5% 的精度损失，以及对现有攻击的低 token 恢复率，这让它从概念性安全方案推进到了可复用的 serving workflow pattern。\n\n它没有更高一级，是因为目前仍是 technical report，且核心路线仍集中在协变混淆这一特定方案上。它像一篇很强的系统落地工作，但还没到重定义整个 privacy-preserving inference 研究范式的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-03-02",
      "doi": "",
      "arxiv_id": "2603.01499",
      "collected_at": "",
      "collection_order": 369,
      "source_url": "https://arxiv.org/pdf/2603.01499.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.01499.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N63_Brain_Semantoks",
      "slug": "n63-brain-semantoks",
      "detail_url": "papers/n63-brain-semantoks/",
      "title": "Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model",
      "summary": "这篇论文针对 fMRI foundation model 的一个核心错位提出了修正：现有很多方法仍围绕 masked reconstruction 或局部区域重建来训练，因此更容易学到对噪声和时间波动敏感的低层表示，而不是适合认知与疾病表型预测的稳定脑动态表征。作者把目标从‘重建信号’改成了‘提取抽象而稳定的脑动态语义’。\n\n方法上的关键有两点。第一是 semantic tokenizer，它不再把小脑区时间序列直接当 token，而是按功能网络把 noisy regional signals 聚合成语义更强、噪声更低的 token。第二是 self-distillation across time，通过 teacher-student 框架强制不同时间视图对齐，再配合 Teacher-guided Temporal Regularizer 作为训练课程，避免在低信噪比 fMRI 上塌缩到无意义解。\n\n它适合进入仓库，因为这是一篇明确的 brain foundation model 条目，而且 AI 外溢并不只是应用层。论文在输入 token 设计、自监督目标、跨时间稳定表示和 scaling 分析上都给出了清晰路线，对低信噪比时序数据的 foundation modeling、语义 token 化和自蒸馏表示学习都有直接启发。线性探针下的强表现也说明表征确实更接近通用、可迁移的脑动态语义空间。\n\n它没有更高一级，因为影响范围目前仍集中在 fMRI foundation modeling 和 neuroimaging transfer，而不是更普遍地改写跨模态 foundation model 主线。更准确地说，这是一篇很强的 NeuroAI/brain representation 论文，足够正式收录，但还没有到范式级别。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-03-02",
      "doi": "",
      "arxiv_id": "2512.11582",
      "collected_at": "",
      "collection_order": 368,
      "source_url": "https://arxiv.org/pdf/2512.11582v2",
      "paper_url": "https://arxiv.org/pdf/2512.11582v2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "图宾根大学联合夏里特医学院发布 Brain-Semantoks，将大脑信号提炼为 9 大功能网络以实现精准解码",
          "url": "https://www.bilibili.com/video/BV1C5LG6LEji",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1C5LG6LEji",
            "https://youtu.be/Fhp4jDJl_Zw"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "brain semantoks learning semantic tokens of brain dynamics with a self distilled foundation model",
          "description": "图宾根大学与夏里特医学院的研究团队针对功能磁共振成像（fMRI）领域发布了 Brain-Semantoks 基础模型。针对 fMRI 数据噪声高、传统模型过度关注底层物理波动而忽视高层语义的问题，该方法摒弃了传统的掩码重建范式，通过自蒸馏框架将大脑区域信号聚合为 9 大功能网络语义 Token，并结合双轨多尺度卷积捕获时空特征。实验证明，该模型在临床诊断与认知预测任务中显著优于现有基线，且具备极强的跨数据集泛化能力。这一进展为利用非侵入性脑影像实现更精准、更稳健的神经解码提供了新路径。",
          "x_post": "图宾根大学与夏里特医学院发布 Brain-Semantoks，利用 9 大功能网络语义 Token 提升 fMRI 解码性能。\n针对 fMRI 数据高噪声及传统掩码重建范式易拟合底层物理波动的缺陷，该研究提出了一种自蒸馏基础模型。\n核心创新在于通过语义分词器将 457 个局部脑区信号聚合为 9 大功能网络 Token，并利用双轨多尺度卷积捕捉时空特征。\n实验证明，该模型在多项临床诊断与认知预测任务中，仅通过线性探测即可显著超越现有监督及自监督基线。\n扩展性分析进一步确认了模型具备极强的跨数据集泛化能力，为构建稳健的大规模神经科学基础模型提供了新路径。",
          "cover_url": "assets/covers/n63-brain-semantoks-0bcc84f68e.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-16T11:26:00+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N48_Bilingual_Semantic_Representations",
      "slug": "n48-bilingual-semantic-representations",
      "detail_url": "papers/n48-bilingual-semantic-representations/",
      "title": "Bilingual language processing relies on shared semantic representations that are modulated by each language",
      "summary": "问题与背景：双语加工长期围绕一个核心争论展开：两种语言在大脑中是否依赖共享语义表征，还是分别调用彼此独立的神经机制。这个问题不只是双语研究内部的经典议题，也关系到语义表示是否具有跨语言的统一组织原则。\n\n方法/新意：作者结合脑成像和计算语言表示，考察双语理解过程中共享语义空间与语言特异调制如何同时存在。论文的关键贡献不是简单证明“共享”或“分离”，而是给出一种更细的图景：语义核心可以共享，但具体语言会对这些共享表示进行系统性调制。\n\n意义/放在仓库中的位置：这篇论文适合放在认知科学主线，属于语言神经科学里高质量的表征研究。它对于理解跨语言语义组织、以及人脑语义空间如何在统一性与语言特异性之间权衡，具有直接价值。\n\n局限/为何不再升一级：这篇工作的影响主要集中在双语与语义表征子领域，虽然问题重要，但外溢性还没有扩展到更广泛的认知架构或通用智能路线，因此更稳妥地定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-03-02",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 367,
      "source_url": "https://pubmed.ncbi.nlm.nih.gov/41734075/",
      "paper_url": "https://pubmed.ncbi.nlm.nih.gov/41734075/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "你的大脑如何装下两门语言？伯克利揭秘共享语义图谱，精准定位5大核心概念区",
          "url": "https://www.bilibili.com/video/BV1kPomB5EBK",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1kPomB5EBK",
            "https://youtu.be/RkJkBHwGdLM"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "bilingual language processing relies on shared semantic representations that are modulated by each language",
          "description": "加州大学伯克利分校研究团队利用 3T fMRI 技术，探讨了中英双语者大脑处理不同语言的语义机制。研究通过自然叙事任务结合 AI 编码模型，发现大脑在颞叶、顶叶和前额叶皮层高度共享语义物理硬件，但存在系统的语言调谐偏移：数据证实中文作为母语在大脑中的神经反应预测准确率显著优于英文。该成果揭示了双语理解既依赖通用的知识结构，又受到特定语言环境的精准调节，成功调和了关于双语大脑是拥有独立还是统一语义系统的长期学术争论。",
          "x_post": "加州大学伯克利分校揭示双语共享语义图谱：母语预测准确率较二语提升约一倍\n长期以来，学术界对双语大脑是拥有独立还是统一的语义系统存有争议。Catherine Chen 团队通过 3T fMRI 技术结合 AI 编码模型，在自然叙事任务下分析了中英双语者的体素级响应。研究发现，大脑在颞叶、顶叶及前额叶皮层高度共享语义硬件，但会根据语言环境进行系统的调谐偏移（Tuning Shift）。实验数据证实，中文作为母语在颞叶脑区的预测准确率 R² 达 0.035，显著优于英文的 0.018。该成果揭示了双语理解依赖于“通用知识结构+特定语言微调”的动态机制，成功调和了关于双语语义系统的长期理论争端。",
          "cover_url": "assets/covers/n48-bilingual-semantic-representations-4aa672beaf.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-27T12:47:13+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM6_LaST_VLA_Autonomous_Driving",
      "slug": "mm6-last-vla-autonomous-driving",
      "detail_url": "papers/mm6-last-vla-autonomous-driving/",
      "title": "LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving",
      "summary": "自动驾驶里的 Vision-Language-Action 模型正在从显式文本 CoT 走向 latent reasoning，但标准 latent CoT 往往缺乏物理约束，容易形成语义与感知脱节的问题。本文关注的正是这个瓶颈：如何让 VLA 的“思考空间”真正带有时空和动力学结构。\n\n作者提出 LaST-VLA，把推理从离散符号空间移到 latent spatio-temporal space，并通过双特征对齐，把 3D foundation model 的几何约束和 world model 的动态前瞻性蒸馏进 latent 推理空间。训练上先做 progressive SFT，再用 GRPO 强化安全与规则遵循。摘要中给出的结果是在 NAVSIM v1/v2 上达到新的高分。\n\n这篇论文适合仓库的多模态 / world model / VLA 主线，也和 PerpetualWonder、World-VLA-Loop、Drive-JEPA 这一批条目互相补强。它代表的是自动驾驶里“latent spatio-temporal reasoning” 正在替代文本 CoT 的趋势。\n\n它目前归为突破性而不是更高一级，原因是方向很强，但仍集中在自动驾驶 VLA 这一特定赛道，且证据主要来自 arXiv 与 benchmark 结果，尚未外溢到更广的通用 VLA 路线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-03-02",
      "doi": "",
      "arxiv_id": "2603.01928",
      "collected_at": "",
      "collection_order": 366,
      "source_url": "https://arxiv.org/pdf/2603.01928.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.01928.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "清华小米发布LaST-VLA：NAVSIM 91.3分刷纪录，让AI告别文字直接用物理时空思考",
          "url": "https://www.bilibili.com/video/BV14uovBpEii",
          "platform_urls": [
            "https://www.bilibili.com/video/BV14uovBpEii",
            "https://youtu.be/P2w6lz1uiXQ"
          ],
          "main_collection": "机器人与具身智能",
          "match": "last vla thinking in latent spatio temporal space for vision language action in autonomous driving",
          "description": "由清华大学、小米汽车和澳门大学联合推出的LaST-VLA，是针对自动驾驶领域研发的创新视觉-语言-行动框架。该研究针对传统模型依赖文本思维链导致的语义幻觉、高延迟及物理约束缺失等痛点，提出了连续的隐时空推理空间方案。通过将AI特征与3D几何基础模型及视频世界模型进行双重对齐，LaST-VLA赋予了车辆极强的空间直觉与预见未来动态的能力。实验证明，该模型在NAVSIM基准测试中以91.3分刷新纪录，显著提升了决策的安全性与稳定性。这一突破意味着自动驾驶AI正告别繁琐的文字翻译，实现更直接、更高效的物理空间思考。",
          "x_post": "清华大学、小米汽车与澳门大学发布 LaST-VLA，在 NAVSIM 基准测试中以 91.3 分刷新纪录。\n传统 Vision-Language-Action (VLA) 模型多依赖文本链式思考，易产生语义幻觉、高推理延迟并缺乏物理约束。为此，研究团队提出一种连续的潜在时空推理空间方案，旨在让自动驾驶系统跳过离散文字，直接在物理维度进行思考。\n该框架核心在于通过空间几何适配器与时间动态适配器，将 AI 隐空间特征分别与 3D 基础模型和视频世界模型进行双重对齐。这种设计赋予了模型对障碍物边界的感知能力与未来动态的预见性。\n实验结果表明，LaST-VLA 在 NAVSIM 及 SURDS 等权威基准上均取得领先成绩，验证了受物理约束的隐空间推理在提升决策安全性与轨迹精确性方面的有效性。",
          "cover_url": "assets/covers/mm6-last-vla-autonomous-driving-b656532c96.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-26T22:07:03+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A34_Strategy_Guided_Exploration",
      "slug": "a34-strategy-guided-exploration",
      "detail_url": "papers/a34-strategy-guided-exploration/",
      "title": "Expanding LLM Agent Boundaries with Strategy-Guided Exploration",
      "summary": "问题与背景：大语言模型智能体在长程任务上的强化学习训练，往往被探索效率所限制。尤其在语言动作空间、复杂观察和稀疏回报下，单纯在低层动作空间试错既昂贵又容易陷入局部策略。论文要解决的是：如何让 LLM agent 在 RL 过程中学会更有结构的探索，而不是盲目增加 rollout 或温度。\n\n方法/新意：作者提出 Strategy-Guided Exploration（SGE），让模型先生成一段高层自然语言策略，再基于该策略展开环境动作，从而把探索从低层动作空间提升到语言策略空间。为增强多样性，论文进一步引入 mixed-temperature sampling 和 strategy reflection，使智能体能并行探索不同策略，并依据前序结果反思更新策略生成。\n\n意义/放在仓库中的位置：这篇工作适合放在 agent / RL 主线，与 KARL、OpenClaw-RL、AutoHarness 等条目形成连续谱。它的意义在于表明 agent RL 的关键瓶颈不一定是更强奖励或更大 rollout，而可能是是否能把探索单位提升到可组合、可反思的策略层。对 UI、tool use、coding 和 embodied agent 都有明确外溢性。\n\n局限/为何不再升一级：尽管方向很正、方法也有清晰独立性，但论文目前仍处于 arXiv 阶段，影响力主要集中在 agent RL 训练范式的一个子方向，还没有达到足以重排更大范围智能体训练路线的程度，因此定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-02",
      "doi": "",
      "arxiv_id": "2603.02045",
      "collected_at": "",
      "collection_order": 365,
      "source_url": "https://arxiv.org/pdf/2603.02045.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.02045.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "Apple让AI智能体学会“先谋后动”，通过策略引导探索SGE突破大模型任务执行能力天花板",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "expanding llm agent boundaries with strategy guided exploration",
          "description": "Apple研究团队在AI智能体领域取得新突破，针对大语言模型在强化学习训练中因行动空间巨大、奖励信号稀疏而导致的能力瓶颈，提出了策略引导探索（SGE）方法。该方法要求智能体在执行具体操作前，先通过自然语言制定高层策略，从而将探索重点从底层动作转移到逻辑规划。核心机制采用了混合温度采样：对策略层使用高温以激发解题多样性，对行动层使用低温以确保执行精准。实验数据证明，SGE在代码编写、用户界面交互及工具调用等复杂场景下表现优异，不仅大幅提升了任务成功率，更让模型具备了处理从未涉足的极难任务的能力，有效拓宽了自主AI的应用边界。",
          "x_post": "Apple 研究团队发布 Strategy-Guided Exploration (SGE)，通过策略空间降维提升 LLM 智能体复杂任务执行能力\n\n传统强化学习在代码编写与 UI 交互等任务中，常因动作空间巨大及奖励信号稀疏导致智能体难以突破预训练带来的能力瓶颈。SGE 提出“先谋后动”机制，要求智能体在执行前生成自然语言策略，将探索重点从底层原子动作转移至高层逻辑规划。\n\n该方法核心采用混合温度采样：对策略层使用高温（激发解题多样性）与对行动层使用低温（确保执行精准）相结合。配合策略反思机制，智能体能够从成败经验中动态修正后续规划。\n\n实验数据证明，SGE 在 AppWorld、AndroidWorld 及代码生成等基准测试中表现优于现有 RL 基准模型。该方法不仅提升了任务成功率，更使模型具备了处理原本无法覆盖的高难度任务的能力，有效拓宽了自主 AI 智能体在稀疏奖励环境下的应用边界。",
          "cover_url": "assets/covers/a34-strategy-guided-exploration-9efb2a2059.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-16T10:23:24+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P29_DefectNet_Vibrational_Defects",
      "slug": "p29-defectnet-vibrational-defects",
      "detail_url": "papers/p29-defectnet-vibrational-defects/",
      "title": "A Foundation Model for Non-Destructive Defect Identification from Vibrational Spectra",
      "summary": "问题与背景：材料缺陷会决定半导体、量子材料、电池和能源材料性能，但传统表征方法往往破坏样品、化学选择性不足，或无法同时定量多个共存点缺陷。\n\n方法与新意：DefectNet 从 phonon density-of-states 等振动谱直接预测缺陷元素和浓度，在 2000 种半导体、16000 多条模拟谱上训练，并通过 tailored attention 和物理启发表示处理多缺陷混合信号。\n\n收录意义：这篇适合进入 AI for physics/materials 主线，因为它把 AI foundation model 用作非破坏性材料表征工具，建立了从高通量模拟谱到实验 neutron-scattering 数据迁移的工作流。它对 defect engineering、材料筛选和实验设计都有复用价值。\n\n局限：当前主要覆盖 substitutional point defects 和特定振动谱/中子散射设置，向 Raman、grain boundary、dislocation 等更复杂缺陷扩展仍是后续工作；因此按 breakthrough 收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-03-01",
      "doi": "",
      "arxiv_id": "2506.00725",
      "collected_at": "",
      "collection_order": 364,
      "source_url": "https://arxiv.org/pdf/2506.00725.pdf",
      "paper_url": "https://arxiv.org/pdf/2506.00725.pdf",
      "project_urls": [
        "https://www.sciencedirect.com/science/article/abs/pii/S2590238526000913",
        "https://news.mit.edu/2026/mit-researchers-use-ai-uncover-atomic-defects-materials-0330"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N85_Brain_to_Text_BCI_Foundation",
      "slug": "n85-brain-to-text-bci-foundation",
      "detail_url": "papers/n85-brain-to-text-bci-foundation/",
      "title": "A cross-species neural foundation model for end-to-end speech decoding",
      "summary": "This paper presents a neural foundation model approach for decoding attempted or imagined speech directly from neural activity into text, moving beyond cascaded phoneme-to-language pipelines.\n\nThe system combines cross-task and cross-species neural pretraining with language-model alignment, making the decoding pipeline more end-to-end and more transferable across limited neural datasets.\n\nIts relevance to AI is direct: it treats neural data as another sequence modality that can be aligned with foundation-model representations, while keeping the BCI objective clinically meaningful.\n\nFor the NeuroAI/BCI track, it is a strong example of foundation-model methodology reshaping brain-to-language interfaces.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-03-01",
      "doi": "",
      "arxiv_id": "2511.21740",
      "collected_at": "",
      "collection_order": 363,
      "source_url": "https://arxiv.org/pdf/2511.21740.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.21740.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A27_Contextual_Invertible_World_Models",
      "slug": "a27-contextual-invertible-world-models",
      "detail_url": "papers/a27-contextual-invertible-world-models/",
      "title": "Contextual Invertible World Models: A Neuro-Symbolic Agentic Framework for Colorectal Cancer Drug Response",
      "summary": "问题与背景：精准肿瘤学长期受制于 small-N, large-P 困境：基因组特征维度高，但高质量药物反应样本稀缺。传统深度学习虽然能做预测，却难以给出可用于临床决策的因果解释。\n\n方法/新意：这篇工作提出 contextual invertible world models，并把定量世界模型与 LLM agent 的符号推理结合，形成 neuro-symbolic agentic framework。重点不是只做药物反应回归，而是让模型支持可逆推断、上下文条件切换和更可解释的决策过程。\n\n意义/放在仓库中的位置：它位于 AI x oncology / world models / neuro-symbolic agents 主线，和 ELISA、AlphaGenome、LUMI-lab 一起看很合适。它体现的是世界模型概念如何从机器人和物理扩展到肿瘤药物反应。\n\n局限/为何不再升一级：当前证据仍以 arXiv 阶段和特定癌种/任务为主，外部验证和真实临床闭环证据还不够，因此更适合放在高位突破性而非更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-01",
      "doi": "",
      "arxiv_id": "2603.02274",
      "collected_at": "",
      "collection_order": 362,
      "source_url": "https://arxiv.org/pdf/2603.02274v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.02274v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "构建数字化癌症平行宇宙，CIWM引入临床上下文，将化疗药物反应预测保真度提升18.8%",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "contextual invertible world models a neuro symbolic agentic framework for colorectal cancer drug response",
          "description": "贝尔法斯特女王大学团队针对结直肠癌化疗反应如“开盲盒”的临床难题，开发了名为CIWM的神经符号智能体框架。该方法通过引入微卫星不稳定（MSI）状态作为核心临床上下文，有效解决了高维基因特征与极稀缺样本带来的数据失衡问题，将药物反应预测的保真度显著提升18.8%。模型不仅能利用虚拟CRISPR模拟基因修复实验，还能通过逆向推理从期望疗效反推底层基因密码。这一研究实现了从数值相关性向生物学因果解释的跨越，为精准肿瘤学提供了更透明、更具临床信任度的辅助决策工具。",
          "x_post": "贝尔法斯特女王大学团队提出CIWM神经符号框架，引入MSI上下文将结直肠癌药敏预测保真度提升18.8%\n\n针对结直肠癌化疗反应异质性强、临床验证样本稀缺（N<100）的挑战，该研究构建了上下文可逆世界模型（CIWM）。该框架通过神经符号架构将随机森林量化模型与大语言模型推理层结合，首次将微卫星不稳定（MSI）状态作为关键临床上下文锚点。\n\n实验数据表明，相较于单一基因表达模型，CIWM将预测保真度显著提升18.8%。该模型不仅能通过虚拟CRISPR技术模拟APC等核心基因对药敏性的影响，还能从期望疗效逆向推导底层基因特征，并在临床队列中完成了生存分层验证。\n\n该成果标志着AI肿瘤学研究从单纯的数值归因转向生物学因果解释，为精准医疗提供了具备机制透明度与临床信任度的决策支持工具。",
          "cover_url": "assets/covers/a27-contextual-invertible-world-models-caaee22e82.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-03T20:02:38+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A198_Silo_Bench_Multi_Agent_Coordination",
      "slug": "a198-silo-bench-multi-agent-coordination",
      "detail_url": "papers/a198-silo-bench-multi-agent-coordination/",
      "title": "Silo-Bench: A Scalable Environment for Evaluating Distributed Coordination in Multi-Agent LLM Systems",
      "summary": "SILO-BENCH 评估的是多 agent LLM 系统能否真正对分布式信息做计算，而不是只会互相转述。论文指出，随着 agent 数量增加，系统可能形成看似合理的通信拓扑，但仍无法把分散状态合成为正确答案。\n\n benchmark 覆盖 30 个算法任务和三种通信复杂度，对 54 种配置做系统评估。核心发现是 Communication-Reasoning Gap：agent 往往已经获得足够信息，却在 reasoning-integration 阶段失败。\n\n它值得收录，是因为它为 multi-agent systems 提供了一个清晰问题定义和评估接口：分布式协调的瓶颈不是通信本身，而是跨 agent 状态整合。这个结论会影响后续多 agent 架构、memory sharing 和 consensus 设计。\n\n局限在于任务偏算法化，真实开放协作中的社会策略、工具环境和长时程目标仍需额外 benchmark。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-03-01",
      "doi": "",
      "arxiv_id": "2603.01045",
      "collected_at": "",
      "collection_order": 361,
      "source_url": "https://arxiv.org/pdf/2603.01045.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.01045.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A133_MemPO_Self_Memory_Optimization",
      "slug": "a133-mempo-self-memory-optimization",
      "detail_url": "papers/a133-mempo-self-memory-optimization/",
      "title": "MemPO: Self-Memory Policy Optimization for Long-Horizon Agents",
      "summary": "长时程 agent 的一个核心瓶颈，是上下文会随着交互持续膨胀，令性能、稳定性和成本一起恶化。许多方法通过外挂 memory module 来检索历史信息，但这会把“记忆管理”放在外部组件里，模型自身并没有学会如何根据任务目标主动保留、压缩和遗忘信息。\n\nMemPO 把这件事改成 agent 自身的策略优化问题。它提出 self-memory policy optimization，让策略模型在与环境交互时自主总结和管理记忆，并通过基于 memory effectiveness 的 credit assignment 机制，学习哪些内容值得保留、哪些内容应当压缩或放弃。结果是在显著降低 token 消耗的同时，仍然保持甚至提升任务表现。\n\n这篇工作值得收录，因为它把 long-horizon agent memory 从外部检索附属件推进到 policy-level memory control。对 self-improving agents、deployment-time efficiency 和长期交互系统来说，这是一种可复用的 memory-control pattern，和单纯做更强检索器不是一回事。\n\n它没有升到更高一级，是因为当前仍主要聚焦 agent memory efficiency 与 performance trade-off 这条子线，还没有像某些更强架构论文那样改写整个长期记忆范式。它是非常扎实的推进，但暂时还属于强方法级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-28",
      "doi": "",
      "arxiv_id": "2603.00680",
      "collected_at": "",
      "collection_order": 360,
      "source_url": "https://arxiv.org/pdf/2603.00680.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.00680.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "M2_LemmaBench",
      "slug": "m2-lemmabench",
      "detail_url": "papers/m2-lemmabench/",
      "title": "LemmaBench: A Live, Research-Level Benchmark to Evaluate LLM Capabilities in Mathematics",
      "summary": "- 分级：`突破性`\n- 正式标题：`LemmaBench: A Live, Research-Level Benchmark to Evaluate LLM Capabilities in Mathematics`\n- 原文：`2026-02-27-M2_LemmaBench-LemmaBench_A_Live_Research_Level_Benchmark_to_Evaluate_LLM_Capabilities_in_Mathe.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\nLemmaBench 的核心想法很简单，但非常重要：如果数学 benchmark 总是静态题库，就迟早会被训练污染，最后失去评测意义。作者因此设计了一个“live benchmark”管线，从最新 arXiv 数学论文里自动抽取引理，并将其改写为自包含陈述，把隐含条件与依赖定义显式补全，从而得到可以持续更新的研究级数学评测集。\n\n论文报告当前最强 LLM 在这类任务上的 pass@1 仍然大致落在 10% 到 15% 区间，说明在真实研究数学上，模型离可靠自动证明仍有很大距离。这一点本身就有价值，因为它把数学评测从竞赛题和教材题重新拉回到了研究前沿。\n\n## 为什么重要\n\n它修复了数学 benchmark 的两个老问题：`数据污染` 和 `题目竞赛化`。只要这条路线走通，未来数学模型的进步就更难靠记忆，而必须靠真正的形式推理和结构理解。\n\n## 局限\n\n自动补全定义与假设的管线本身可能引入微妙错误，因此它更适合作为趋势指示器，而不是毫无噪声的绝对标尺。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "math_and_formal_reasoning",
      "theme_label": "数学与形式推理",
      "published_at": "2026-02-27",
      "doi": "",
      "arxiv_id": "2602.24173",
      "collected_at": "",
      "collection_order": 359,
      "source_url": "https://arxiv.org/pdf/2602.24173.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.24173.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "IP Paris等名校发布LemmaBench，通过动态抓取最新论文彻底解决AI刷榜虚高难题",
          "url": "https://www.bilibili.com/video/BV1mz5f6DEPS",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1mz5f6DEPS",
            "https://youtu.be/2BNxp0qmN30"
          ],
          "main_collection": "大模型架构与推理",
          "match": "lemmabench a live research level benchmark to evaluate llm capabilities in mathematics",
          "description": "IP Paris、ENS Rennes等研究团队针对大模型在数学领域存在的虚高刷榜与数据污染问题，推出了动态评估基准LemmaBench。该系统通过自动抓取arXiv最新科研论文，利用大模型将复杂的引理转化为自包含的独立命题，有效解决了传统静态题库易被模型提前记忆的痛点。测试涵盖代数几何、概率论等前沿分支，实验显示顶级模型在应对真实科研难题时的准确率仅为10%-15%，揭示了人工智能与人类数学家之间的显著差距。该工具为追踪数学推理模型的真实演进提供了高可靠性支撑，推动了AI评估从“竞赛级”向“科研级”的实质跨越。",
          "x_post": "IP Paris 与 ENS Rennes 等机构发布 LemmaBench：科研级数学动态评估基准，顶级模型准确率仅 10-15%\n针对大语言模型在数学评估中面临的数据污染与科研语境脱离难题，研究团队构建了首个“活体”动态更新评估基准。该系统核心方法是自动抓取 arXiv 最新论文，利用模型提取引理并补全前置定义，将复杂科研定理转化为“自包含”的独立命题。实验结果显示，采用全文检索模式的提取成功率超过 60%，但在处理真实科研难题时，顶尖模型的准确率仅为 10-15%。该研究表明 AI 距离人类水平的数学研究仍有显著差距，LemmaBench 通过每周更新机制，为追踪数学推理能力的真实演进提供了可核验的高可靠工具。",
          "cover_url": "assets/covers/m2-lemmabench-be1688c3b6.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T18:14:47+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C8_LLaMat_Materials_LLM",
      "slug": "c8-llamat-materials-llm",
      "detail_url": "papers/c8-llamat-materials-llm/",
      "title": "A family of large language models for materials research with insights into model adaptability in continued pretraining",
      "summary": "这篇论文处理的是 AI for science 里一个已经很现实的问题：通用大语言模型是否真的适合被改造成高质量的材料研究 copilot，还是需要更深层次的领域化预训练。作者围绕这一问题构建了 LLaMat，一组面向材料科学的专用大语言模型，并把性能评估扩展到从自然语言处理、信息抽取到晶体生成在内的 42 个任务，试图给出一个更完整的材料研究 LLM 版图。\n\n方法上，LLaMat 并不是只做少量 instruction tuning，而是先对 LLaMA 家族进行 continued pretraining，在约 400 万篇材料科学文献和晶体学数据上训练 300 亿 token，再进一步做 17.5 万条材料问答对的 instruction 与 task fine-tuning。更重要的是，论文不只报告性能提升，还比较了不同底座在 continued pretraining 中的可塑性，提出了一个更具普适意义的观察：预训练越充分的模型，未必越容易被新科学领域重塑，反而可能出现 adaptation rigidity。\n\n这篇值得收录，核心不是“又一个垂直领域模型”，而是它把材料科学 LLM 做成了可系统评估的 family，并且把 domain adaptation 的边界问题真正提了出来。对 AI for science 来说，这项结果的外溢点在于：专用科学 LLM 的优势不仅来自领域数据堆叠，也来自底座模型对 continued pretraining 的可塑性差异，这会直接影响后续化学、物理、生物等领域模型的设计选择。\n\n它没有更高一级，因为目前影响面仍主要集中在 scientific language model / domain adaptation 这一层，而不是像 AlphaGenome、QUASAR 这类直接重塑科学工作流的平台型系统。更稳的定位是高质量 breakthrough：一篇兼具应用价值和方法论提醒的 AI for science 条目。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-02-27",
      "doi": "10.1038/s42256-026-01199-8",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 358,
      "source_url": "https://doi.org/10.1038/s42256-026-01199-8",
      "paper_url": "https://doi.org/10.1038/s42256-026-01199-8",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "破解1.14亿篇文献迷宫，LLaMat系列模型通过300亿Token训练，消除大模型物理盲区",
          "url": "https://www.bilibili.com/video/BV1soovBnEHU",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1soovBnEHU",
            "https://youtu.be/YUlRU9QVkm4"
          ],
          "main_collection": "AI化学与材料",
          "match": "a family of large language models for materials research with insights into model adaptability in continued pretraining",
          "description": "该研究由专业团队发表于《自然-机器智能》期刊，推出了专为材料科学设计的LLaMat系列大模型。针对人类1.14亿篇材料文献形成的数据迷宫，通用模型常因缺乏物理直觉而出现术语解析失败和空间盲区。LLaMat基于LLaMA架构，通过注入300亿Token的专业文献与晶体结构数据进行持续预训练，构建了涵盖文献理解、结构提取及晶体生成的科研副驾。实验显示，LLaMat在42项专业任务中表现优于GPT-4和Claude，能精准提取材料属性并辅助发现新晶体。该成果不仅将新材料筛选效率从月级缩短至秒级，也为垂直科学领域AI的适配性边界提供了核心见解。",
          "x_post": "《自然-机器智能》发布LLaMat系列模型：通过300亿Token持续预训练消除材料科学物理盲区\n针对1.14亿篇文献形成的非结构化数据迷宫，通用模型在处理物理法则、专业术语及晶体三维结构时常存在局限。\n研究团队基于LLaMA架构，利用包含400万篇论文与47万份晶体文件的R2CID语料库，通过三阶进化引擎完成专业化训练。\n实验结果显示，LLaMat在42项专业任务中均优于GPT-4和Claude，实现了从文献理解到新晶体生成的全链路覆盖。\n该成果揭示了领域迁移中的“适配刚性”现象，为垂直科学领域AI的开发边界与效率提升提供了重要见解。",
          "cover_url": "assets/covers/c8-llamat-materials-llm-8a4c321c3c.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-26T19:19:37+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A137_Layered_Execution_Tool_Orchestration",
      "slug": "a137-layered-execution-tool-orchestration",
      "detail_url": "papers/a137-layered-execution-tool-orchestration/",
      "title": "Robust and Efficient Tool Orchestration via Layered Execution Structures with Reflective Correction",
      "summary": "tool-using agent 的一个顽固问题是：单层 planning 往往在长链工具调用里迅速偏航，而完全依赖反思又容易把延迟和成本推高。许多系统在 robustness 和 execution efficiency 之间做的是粗糙折中，并没有形成清晰的运行时结构。\n\n这篇工作提出 layered execution structures，把工具编排拆成更稳定的层级运行单元，并在关键层加入 reflective correction。这样做的重点不只是多一步反思，而是把执行图组织成更可校正、更少回滚成本的结构，使系统既能在长链任务里保持稳健，又不会把每一步都变成昂贵的 deliberation。\n\n这篇工作值得收录，因为它把 tool orchestration 的 runtime 设计推进到结构层。相比普通 ReAct 变体或多加几轮 self-reflection 的方法，它更像一个可复用的 execution pattern，对复杂 API workflows、browser agents 和 enterprise automation 都有现实价值。\n\n它没有升到更高一级，是因为当前更多展示的是强 execution pattern，而不是像更高阶 orchestration 论文那样直接改写整条 agent runtime 路线。它非常值得正式收录，但目前仍属于强突破级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-27",
      "doi": "",
      "arxiv_id": "2602.18968",
      "collected_at": "",
      "collection_order": 357,
      "source_url": "https://arxiv.org/pdf/2602.18968.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.18968.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "释放廉价小模型的实战潜力：RETO 框架通过分层执行结构，终结复杂工具编排中的错误级联",
          "url": "https://www.bilibili.com/video/BV19s9MB2E78",
          "platform_urls": [
            "https://www.bilibili.com/video/BV19s9MB2E78",
            "https://youtu.be/C2u7vRi_pAA"
          ],
          "main_collection": "AI智能体",
          "match": "robust and efficient tool orchestration via layered execution structures with reflective correction",
          "description": "针对小型语言模型在执行多步复杂任务时易出现依赖混乱、上下文遗忘及错误级联等问题，本视频详细解析了RETO（稳健高效工具编排）框架。该方法的核心是将全局规划与局部执行解耦，通过构建分层执行草图简化决策复杂度。在运行阶段，系统利用上下文约束与反思性纠错机制，即时修复参数错误或运行故障。实验数据表明，RETO在无需模型微调的前提下，使小模型的工具调用性能足以媲美专有大模型，并显著降低了 Token 消耗，为轻量化智能体的高效部署提供了新路径。",
          "x_post": "RETO框架：分层执行结构提升轻量化模型工具编排效能，性能媲美专有大模型\n\n小型语言模型（SLMs）在处理多步任务时，常因隐性依赖错乱与错误级联导致长周期任务失败。RETO框架通过解耦全局规划与局部执行，将工具分配至特定的执行层级（Layer），有效降低了决策复杂度并支持并行执行。系统运行阶段引入上下文约束与反思性纠错机制，可在无需模型微调的前提下，即时拦截并修复运行时的参数错误或API失效。实验数据表明，该方法在显著提升工具调用成功率的同时，大幅降低了计算推理所需的Token消耗。该研究为资源受限环境下部署稳健、高效的轻量化智能体提供了可行的技术路径。",
          "cover_url": "assets/covers/a137-layered-execution-tool-orchestration-6571da4344.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-03T13:59:56+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "SYS4_STELLAR_File_System_Tuning",
      "slug": "sys4-stellar-file-system-tuning",
      "detail_url": "papers/sys4-stellar-file-system-tuning/",
      "title": "STELLAR: Storage Tuning Engine Leveraging LLM Autonomous Reasoning for High Performance Parallel File Systems",
      "summary": "问题与背景：高性能并行文件系统调优长期依赖专家经验，参数空间复杂、人工成本高，对大多数科研用户不友好。把 LLM 直接用于系统调优，是 agentic AI 进入 HPC 基础设施的一条实用路线。\n\n方法/新意：STELLAR 构建了一个自治调优器，用 LLM 推理系统状态、选择参数配置，并在少数尝试内逼近近最优配置。其重点不只是让模型给建议，而是让模型进入真实并行存储系统的闭环决策。\n\n意义/放在仓库中的位置：这是 agentic systems / AI for infrastructure 的代表作，和 FlashAttention、AlphaEvolve 的系统侧价值形成互补。它说明 LLM agent 不只面向知识工作，也可以进入 HPC 基础设施调优。\n\n局限/为何不再升一级：影响面目前主要在并行文件系统与系统调优，虽然实用性强，但学术外溢性不如更通用的 agentic science 或 model architecture 论文。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-02-26",
      "doi": "",
      "arxiv_id": "2602.23220",
      "collected_at": "",
      "collection_order": 356,
      "source_url": "https://arxiv.org/pdf/2602.23220v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.23220v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "超算存储提速 7.8 倍仅需 5 步尝试，特拉华大学利用 LLM 自主推理发布 STELLAR 引擎",
          "url": "https://www.bilibili.com/video/BV1S4LB6AEXF",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1S4LB6AEXF",
            "https://youtu.be/x_nmHUWTf_s"
          ],
          "main_collection": "AI智能体",
          "match": "stellar storage tuning engine leveraging llm autonomous reasoning for high performance parallel file systems",
          "description": "特拉华大学与阿贡国家实验室团队针对高性能计算（HPC）存储领域推出STELLAR引擎。该系统旨在解决并行文件系统调优复杂且试错成本高的难题，通过集成大语言模型自主推理、RAG检索增强与多智能体架构，模拟人类专家感知、推理并行动的闭环。实验证明，STELLAR能在5次尝试内找到近乎最优配置，使科学应用I/O速度最高提升7.8倍。这种智能体化调优大幅降低了超算性能优化的门槛与成本，为自动化系统运维和科研加速提供了高效的智能解决方案。",
          "x_post": "特拉华大学与阿贡国家实验室发布 STELLAR：利用 LLM 自主推理实现超算存储 7.8 倍提速\n高性能计算中的并行文件系统调优面临参数空间巨大（如 Lustre 拥有 159+ 参数）且试错成本高昂的挑战。针对此问题，研究团队开发了 STELLAR 引擎，通过集成检索增强生成（RAG）与多智能体架构，将 600 余页的系统手册与运行日志转化为自主调优策略。\n该系统有效解决了通用大模型在垂直领域存在的参数定义幻觉，实验显示其通常在 5 次尝试内即可锁定近乎最优配置。在实际科学应用场景下，STELLAR 实现了最高 7.8 倍的 I/O 性能提升。\n这一研究证明了智能体化调优在复杂系统运维中的可行性，显著降低了高性能计算存储优化的门槛与试错成本。",
          "cover_url": "assets/covers/sys4-stellar-file-system-tuning-5064e547e1.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T16:36:17+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL31_LeRobot_Robot_Learning_Library",
      "slug": "rl31-lerobot-robot-learning-library",
      "detail_url": "papers/rl31-lerobot-robot-learning-library/",
      "title": "LeRobot: An Open-Source Library for End-to-End Robot Learning",
      "summary": "这篇论文处理的是机器人学习长期存在但一直缺少统一解决方案的问题：从低层电机与中间件通信、遥操作采集、数据集存储与流式传输，到训练、评测和真实机器人部署，整条链路通常被切碎在互不兼容的私有工具中。结果是复现困难、系统迁移成本高，而且很多研究成果只能停留在局部算法演示，难以形成可持续扩展的真实世界机器人学习工作流。\n\nLeRobot 的核心贡献不是再提出一个新策略模型，而是把 end-to-end robot learning 的关键基础设施做成开源、可扩展且面向真实硬件的统一库。它把 teleoperation、dataset collection and streaming、state-of-the-art robot learning algorithm implementations，以及 generalized asynchronous inference stack 放进同一套工程接口里，强调随着数据和算力增长而改进的学习式流程，而不是依赖大量手工规则拼接。\n\n这篇应收进仓库，因为它更像机器人学习基础设施层的 durable workflow paper。对本仓库重视的 robotics / embodied intelligence 来说，它提供的是可复用的系统底座和开放工作流，而不只是某个控制 benchmark 上的局部最优；对后续真实机器人训练、跨 embodiment 扩展、可复现实验和开源生态建设，都有明显长期参考价值。\n\n这篇目前仍是 arXiv 预印本，主要价值集中在基础设施整合和开源可用性，而不是一个足以改写整个机器人学习研究范式的新理论或新算法。它很可能成为机器人学习栈里的重要参考实现，但是否会成为领域级标准接口，还要看后续社区采用、维护深度和跨平台扩展情况，因此先定为 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-02-26",
      "doi": "",
      "arxiv_id": "2602.22818",
      "collected_at": "",
      "collection_order": 355,
      "source_url": "https://arxiv.org/pdf/2602.22818.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.22818.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N20_Brain_OF",
      "slug": "n20-brain-of",
      "detail_url": "papers/n20-brain-of/",
      "title": "Brain-OF: An Omnifunctional Foundation Model for fMRI, EEG and MEG",
      "summary": "**问题与背景**\n这篇论文围绕 brain foundation model / fmri / eeg / meg 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优。\n\n**方法/新意**\n论文给出了相对完整的方法设计与实验验证，核心贡献在于提出一个可明确描述的新框架，并将其落到可复核的基准或任务上。相较于仅做经验叠加的工作，这类论文的价值在于能形成后续可复用的方法模块或分析视角。\n\n**意义/放在仓库中的位置**\n在本仓库里，这篇论文归到 `brain foundation model / fmri / eeg / meg` 主线，定位为 `breakthrough`。它的意义在于推动该子方向往前走了一步，能够作为后续视频选题、主题综述和同类方法比较时的正式参考点。\n\n**局限/为何不再升一级**\n它还没有达到 `disruptive` 或 `paradigm` 的原因，是目前证据更多体现为强方法论文或强机制论文，而不是已经改写整条研究路线的系统级成果。除非后续被更大范围复现、 adopted 或验证为新标准范式，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-26",
      "doi": "",
      "arxiv_id": "2602.23410",
      "collected_at": "",
      "collection_order": 354,
      "source_url": "https://arxiv.org/pdf/2602.23410v2.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.23410v2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "德国尤利希研究中心发布Brain-OF，融合3.2万受试者数据实现全能脑信号解码",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "brain of an omnifunctional foundation model for fmri eeg and meg",
          "description": "德国尤利希研究中心发布Brain-OF，是首个旨在融合fMRI、EEG与MEG的大脑全能基础模型。针对脑科学数据在空间与时间分辨率上的权衡瓶颈，该模型基于3.2万受试者的17亿参数规模进行预训练。核心引入ARNESS采样器转换异构信号，并配合DINT注意力机制滤除生理噪声，通过掩码时频建模实现信号同步重建。实验证明，Brain-OF在疾病诊断、脑龄预测等任务中表现优异，显著提升了脑电信号解析的准确性与鲁棒性，为通用神经科学研究提供了高性能开源底座。",
          "x_post": "德国尤利希研究中心发布Brain-OF：基于3.2万受试者数据的17亿参数全能脑基础模型\n长期以来，脑科学研究受限于单一成像模态的时空分辨率瓶颈，且各模态设备间存在严重的数据异构挑战。该研究提出Brain-OF框架，利用ARNESS采样器统一转化fMRI、EEG与MEG信号，构建了首个支持三模态融合的通用底座。模型核心结合Sparse MoE架构与DINT注意力机制，有效滤除生理噪声并处理复杂的语义异构性。基于40多个公开数据集、共计2.8 TB高优数据的预训练实验表明，Brain-OF在疾病诊断、情绪识别及脑龄预测等下游任务中表现卓越。该工作通过掩码时频建模（MTFM）增强了对大脑动态特性的理解，为跨模态神经科学研究提供了高性能的开源工具。",
          "cover_url": "assets/covers/n20-brain-of-f10ca4ab39.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T16:21:06+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N12_General_Intelligence_Connectome",
      "slug": "n12-general-intelligence-connectome",
      "detail_url": "papers/n12-general-intelligence-connectome/",
      "title": "The network architecture of general intelligence in the human connectome",
      "summary": "这篇论文讨论一般智力 g 是否来自单一区域，还是来自全脑网络拓扑的分布式组织。作者基于大样本人类 connectome 数据，分析了智力与网络结构之间的关系。\n\n论文的新意在于它把一般智力与全脑分布式网络特征联系起来，强调长程弱连接、small-world 结构和跨模态控制网络的重要性，而不是把智力简化为某一个局部热点区域的属性。\n\n这篇论文应该归入认知科学 / 宏观脑网络主线。它对理解智能的脑网络基础有持续价值，也适合与 NeuroAI 方向对照阅读。\n\n它没有更高等级，是因为这是强实证关联和网络分析工作，不是直接生成新认知架构或新 AI 方法的论文。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-26",
      "doi": "10.1038/s41467-026-68698-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 353,
      "source_url": "https://www.nature.com/articles/s41467-026-68698-5",
      "paper_url": "https://www.nature.com/articles/s41467-026-68698-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "圣母大学联手UIUC揭秘智力真相：全脑网络联合建模精准预测人类通用智力",
          "url": "https://www.bilibili.com/video/BV1PYonB6EvN",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1PYonB6EvN",
            "https://youtu.be/ia5azLyPFIg"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "the network architecture of general intelligence in the human connectome",
          "description": "圣母大学与UIUC的研究团队基于网络神经科学理论，探讨了人类通用智力的神经起源。针对传统“局部脑区决定智力”的认识局限，研究者利用HCP计划中831名成人的高精度核磁数据，将大脑结构连接与功能激活进行联合建模。研究发现，智力并非源于特定区域，而是由全脑分布式处理、弱长程连接及小世界拓扑结构共同驱动的全局协同结果。该模型在样本外预测中达到r=0.35的显著相关性，证明了全脑网络的高效动态组织是复杂认知的核心。这一成果促使智力理论从局部功能定位转向全局网络架构。",
          "x_post": "圣母大学与UIUC团队发布人类智力连接组研究：全脑网络联合建模预测相关性达 r=0.35\n探讨通用智力（g）的神经起源，研究者通过831名受试者的高精度核磁数据，将大脑结构连接与功能激活进行融合建模。\n核心发现表明，智力并非源于特定脑区，而是依赖全脑范围的分布式处理、弱长程连接及小世界拓扑结构的协同。\n关键指标显示，该模型在样本外预测中达到 r=0.35（p=0.001）的显著相关性，且排除分析证明单一脑区的缺失并不会显著降低全脑预测效能。\n研究结论指出，人类智力植根于全脑网络的高效动态组织模式，这一成果标志着认知模型从局部功能定位向全局网络架构的范式转变。",
          "cover_url": "assets/covers/n12-general-intelligence-connectome-1bb9c78bd7.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-22T09:49:45+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "J5_MetaOthello_World_Models",
      "slug": "j5-metaothello-world-models",
      "detail_url": "papers/j5-metaothello-world-models/",
      "title": "MetaOthello: A Controlled Study of Multiple World Models in Transformers",
      "summary": "**问题与背景**\n这篇论文围绕 world models / transformers / representation analysis 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优。\n\n**方法/新意**\n论文给出了相对完整的方法设计与实验验证，核心贡献在于提出一个可明确描述的新框架，并将其落到可复核的基准或任务上。相较于仅做经验叠加的工作，这类论文的价值在于能形成后续可复用的方法模块或分析视角。\n\n**意义/放在仓库中的位置**\n在本仓库里，这篇论文归到 `world models / transformers / representation analysis` 主线，定位为 `breakthrough`。它的意义在于推动该子方向往前走了一步，能够作为后续视频选题、主题综述和同类方法比较时的正式参考点。\n\n**局限/为何不再升一级**\n它还没有达到 `disruptive` 或 `paradigm` 的原因，是目前证据更多体现为强方法论文或强机制论文，而不是已经改写整条研究路线的系统级成果。除非后续被更大范围复现、 adopted 或验证为新标准范式，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-02-26",
      "doi": "",
      "arxiv_id": "2602.23164",
      "collected_at": "",
      "collection_order": 352,
      "source_url": "https://arxiv.org/pdf/2602.23164v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.23164v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "佛蒙特大学等揭秘AI大脑：MetaOthello实现98%预测精度，在单一网络管理多套冲突规则",
          "url": "https://www.bilibili.com/video/BV1JfRzBmE2y",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1JfRzBmE2y",
            "https://youtu.be/H68-Q81a40g"
          ],
          "main_collection": "大模型架构与推理",
          "match": "metaothello a controlled study of multiple world models in transformers",
          "description": "佛蒙特大学与密歇根大学在AI机制可解释性领域取得新进展。针对大语言模型在多任务中面临的规则冲突问题，研究团队构建了MetaOthello实验框架，通过多种黑白棋变体规则测试Transformer的内在逻辑。实验证明，8层模型在处理混合规则序列时，预测精度高达98%。研究揭示模型并非通过物理隔离参数来应对冲突，而是构建了一种跨任务通用的几何对齐表征，并在不同神经网络层级间实现从通用状态提取到特定规则计算的精密演进。这一发现证明了深度学习模型具备极高的参数复用效率，为理解基础模型如何高效组织异构知识提供了重要的机械解释性路径。",
          "x_post": "佛蒙特大学与密歇根大学团队揭秘MetaOthello：Transformer以98%精度管理多个冲突的世界模型\n针对大语言模型在多任务中面临的规则冲突挑战，研究者通过MetaOthello框架测试了8层Transformer对黑白棋变体规则的组织能力。实验证明模型在处理混合规则序列时精度达98%，且并非通过物理隔离参数来应对冲突。模型内部表现出明显的层级化结构：前几层提取通用状态信息，第五层负责识别具体的游戏身份，后续层进行规则特化计算。这一发现揭示了模型具有极高的参数复用率与表征一致性，为理解基础模型如何高效组织异构知识提供了机械解释性路径。",
          "cover_url": "assets/covers/j5-metaothello-world-models-4c86e31614.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-04T21:15:53+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW9_AetherFloat_AI_Accelerator_Format",
      "slug": "hw9-aetherfloat-ai-accelerator-format",
      "detail_url": "papers/hw9-aetherfloat-ai-accelerator-format/",
      "title": "The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators",
      "summary": "AI 加速器设计里，数值格式往往被当作局部实现细节，但它实际上直接决定 MAC 面积、功耗、时序和 block scaling 复杂度。AetherFloat 的切入点就在这里：它不是再做一个小变体，而是从 AI accelerator co-design 角度重新设计 floating-point family。\n\n论文提出 block-scale-free 的 quad-radix 浮点架构，用 lexicographic one's complement unpacking、base-4 scaling 和 explicit mantissa 替代 IEEE 754 的一组结构假设，目标是减少 NPU 中数值格式带来的面积、电源和 block-scaling 逻辑负担。结果上，它给出了 MAC 单元面积、功耗、时序和动态范围上的系统级收益，而不是停留在格式定义本身。\n\n这满足本仓库对 AI hardware 的收录标准，因为它影响的是 accelerator architecture design space，而不是单一 kernel 或常规电路优化。数值格式如果能稳定减少 block-scaling 依赖，对大规模 AI inference/training pipeline 的芯片实现会有持续外溢。\n\n之所以不升到更高一级，是因为新的数值格式家族要真正改变行业实现，还需要软件栈、编译器、训练配方和芯片生态一起跟上。目前它更像很强的 architecture proposal，而不是已经被广泛验证的标准。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-02-26",
      "doi": "",
      "arxiv_id": "2603.08741",
      "collected_at": "",
      "collection_order": 351,
      "source_url": "https://arxiv.org/pdf/2603.08741.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.08741.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "物理与数学的绝妙平衡：AetherFloat利用四进制波动实现良性正则化，以微小精度损耗换取巨大硅片收益",
          "url": "https://www.bilibili.com/video/BV1LzXGBfEiY",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1LzXGBfEiY",
            "https://youtu.be/Kf0BxU-1848"
          ],
          "main_collection": "AI硬件设计",
          "match": "the aetherfloat family block scale free quad radix floating point architectures for ai accelerators",
          "description": "针对传统IEEE 754标准在AI计算中面临的次正规数处理复杂及动态范围有限等问题，AetherFloat提出了一种基于四进制缩放的浮点架构。该方案通过一补码包装和显式尾数设计，实现了零延迟整数比较并精简了乘法器阵列。实验证明，该架构可原生容纳大模型异常值，无需复杂的动态块缩放逻辑，在保持深度学习精度的前提下减少约33%的芯片面积和22%的功耗。尽管推理时需结合量化感知训练，但其利用量化噪声作为良性正则化的思路，为高效能神经处理单元提供了底层重构方案。",
          "x_post": "日本东京科研团队推出 AetherFloat 架构：采用四进制浮点实现 -33.1% 面积优化\n针对传统 IEEE 754 标准在处理大语言模型激活异常值时导致的硬件臃肿，该研究提出了一种免块缩放（Block-Scale-Free）的硬件方案。\nAetherFloat 核心弃用隐藏位，改用一补码包装与四进制（Base-4）缩放，实现了零延迟整数比较并精简了乘法器阵列。\n实验数据表明，该架构在维持深度学习精度的同时，可减少约 33.1% 的芯片面积与 22% 的总功耗。\n虽然四进制缩放引入了 3.04 dB 的量化噪声，但其作为良性正则化可被模型吸收，为高效能 NPU 提供了底层重构路径。",
          "cover_url": "assets/covers/hw9-aetherfloat-ai-accelerator-format-5dddd1e17a.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T07:49:10+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C14_Interpretable_Self_Driving_Sputter",
      "slug": "c14-interpretable-self-driving-sputter",
      "detail_url": "papers/c14-interpretable-self-driving-sputter/",
      "title": "Interpretable self-driving sputter epitaxy: from black-box optimization to human-usable growth rules",
      "summary": "很多 self-driving lab 系统虽然能自动优化工艺参数，但本质上仍然是黑盒 optimizer，难以沉淀成可迁移的科学知识。这篇论文的关键价值，在于把自动实验平台从“找到最优点”推进到“提炼可供人类使用的增长规则”。\n\n作者在 sputter epitaxy 场景下，把 Bayesian optimization、自动光学评估和 surrogate rule distillation 结合起来：先让闭环系统在高维工艺空间里找到低 Urbach energy 的优质生长条件，再把闭环数据转成随机森林 surrogate，并进一步蒸馏为 response curves 和成对交互规则，从而得到可解释、可迁移的 growth rules。\n\n这篇工作符合本仓库对 AI for science 的标准，因为贡献不只是自动化 throughput，而是把闭环实验结果转成领域专家可复用的规则表示。这使 self-driving lab 从黑盒搜索工具转向知识生产工作流，方法外溢强于普通自动实验论文。\n\n它仍是 breakthrough，因为目前证明集中在 sputter epitaxy 与特定材料体系；它清楚地展示了“从优化到规则”的路径，但还没有证明该模式在更广自驱实验室中的通用性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-02-26",
      "doi": "",
      "arxiv_id": "2602.22531",
      "collected_at": "",
      "collection_order": 350,
      "source_url": "https://arxiv.org/pdf/2602.22531.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.22531.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "182 meV 刷新半导体材料性能纪录！AI 自主实验室 66 次闭环突破氧化镓生长极限",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "interpretable self driving sputter epitaxy from black box optimization to human usable growth rules",
          "description": "研究团队针对氧化镓（β-Ga₂O₃）薄膜在溅射生长中质量不稳定的瓶颈，开发了具备可解释性的全自动实验室框架。该系统通过贝叶斯优化算法驱动硬件，在四维复杂的物理参数空间中进行自主探索。经过66次闭环实验，成功将衡量材料缺陷的核心指标“乌尔巴赫能”降低至182 meV，刷新了该材料在溅射法制备下的最低缺陷纪录。不同于传统的“黑盒AI”，该研究利用随机森林代理模型将实验数据转化为人类可理解的工艺规则，明确了基底温度对晶体质量的决定性作用。该成果不仅实现了半导体质量的跨越式提升，也为从自主实验迈向具有物理意义的知识提取提供了通用路径。",
          "x_post": "研究团队利用 AI 自主实验室刷新氧化镓性能纪录，乌尔巴赫能降至 182 meV\n\n针对氧化镓（β-Ga₂O₃）薄膜在射频磁控溅射生长中存在的质量不稳定与高缺陷密度难题，该研究构建了具备可解释性的全自动实验室（SDL）框架。系统采用贝叶斯优化驱动硬件在四维物理参数空间自主探索，并引入随机森林代理模型将实验数据转化为人类可理解的生长规则。实验历经 66 次闭环迭代，成功将衡量材料缺陷的核心指标“乌尔巴赫能”降低至 182 meV，创造了该材料在溅射法制备下的最低缺陷纪录。分析量化了基底温度（最优 507°C）对晶体质量的决定性作用，为从自主实验迈向具有物理意义的工艺知识提取提供了通用路径。",
          "cover_url": "assets/covers/c14-interpretable-self-driving-sputter-9d4ce432c9.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-21T22:49:31+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "AG2_RAS_Aquaculture_Control",
      "slug": "ag2-ras-aquaculture-control",
      "detail_url": "papers/ag2-ras-aquaculture-control/",
      "title": "Intelligent cloud-based RAS management: integration of DDPG reinforcement learning with AWS IoT for optimized aquaculture production",
      "summary": "问题与背景：强化学习在养殖调控、投喂和能耗优化中的潜力早已被证明，但这些结果大多停留在实验室或小规模系统里，真正卡住行业落地的是多水池、多设备、弱网络、边缘部署和运维可靠性。本文要解决的不是单个控制器是否有效，而是如何把 RL 从研究环境推进到商业化 Recirculating Aquaculture Systems（RAS）的持续运行闭环中。\n\n方法/新意：论文提出一个 cloud-edge hybrid RAS management architecture，把 DDPG 控制器、AWS IoT Core、Greengrass、云端模型管理和边缘量化/剪枝部署整合起来。系统既处理实时传感器接入、跨规模模型下发和故障回退，也给出网络中断、延迟抖动和商用设施扩展下的鲁棒运行验证，因此真正的新意在于把 RL policy 变成可运维的养殖控制基础设施，而不是只在仿真里做 feed/energy optimization。\n\n意义/放在仓库中的位置：这篇工作非常符合仓库新扩进来的养殖/农业 AI 范围，因为它体现的是 operating loop 重构，而不是一般监测或预测。它也为更广的 agri-tech / aquaculture automation 提供了一个清晰模式：边云协同、轻量模型压缩、IoT reliability 和 fail-safe control 必须与学习算法共同设计，AI 才能进入真实生产系统。\n\n局限/为何不再升一级：尽管系统证据很扎实，但它目前仍集中在 RAS 养殖这一垂直场景，算法主体也主要是 DDPG 部署工程化与控制基础设施，而不是提出更通用的农业自治学习范式。因此它适合作为 breakthrough 收录，但还不到更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agriculture_and_food_systems",
      "theme_label": "农业与食物系统",
      "published_at": "2026-02-26",
      "doi": "10.1038/s41598-025-33736-7",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 349,
      "source_url": "https://www.nature.com/articles/s41598-025-33736-7_reference.pdf",
      "paper_url": "https://www.nature.com/articles/s41598-025-33736-7_reference.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "重塑渔场大脑：将重度计算留给云端并让实时决策下沉边缘，8.3MB轻量化模型赋能精密水产养殖",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "intelligent cloud based ras management integration of ddpg reinforcement learning with aws iot for optimized aquaculture production",
          "description": "针对商业化循环水养殖（RAS）中AI部署面临的网络波动与边缘算力受限挑战，本研究提出一种云边协同的智能管理架构。通过整合AWS IoT平台与深度确定性策略梯度（DDPG）强化学习模型，实现了给饵量与水质参数的自动精准控制。研究采用量化与剪枝技术将模型体积缩减74%至8.3MB，在保持94.8%决策准确率的同时，将边缘端推理延迟降低至47毫秒。实地验证表明，该系统支持从实验室到50,000升水体的规模化扩展，并具备72小时断网生存能力，有效保障了极端环境下的生物安全性与生产连续性。",
          "x_post": "AWS团队研发云边协同RAS管理系统：DDPG模型压缩74%至8.3MB实现渔场实时决策\n针对商业循环水养殖中网络波动与边缘算力不足的挑战，该研究提出一种整合AWS IoT与深度确定性策略梯度（DDPG）模型的混合计算架构。通过16位量化与架构剪枝技术，研究者成功将模型体积降至8.3MB，使实时决策下沉至边缘端。实地验证显示，系统在保持94.8%决策准确率的前提下，边缘端推理延迟仅为47±8毫秒，且具备72小时断网生存能力。该方案支持从实验室扩展至50,000升水体及超百个鱼缸的商业规模，有效保障了极端环境下的生物安全性与生产连续性。",
          "cover_url": "assets/covers/ag2-ras-aquaculture-control-6ea17febe6.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T17:11:54+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A56_AMA_Bench_Agent_Memory",
      "slug": "a56-ama-bench-agent-memory",
      "detail_url": "papers/a56-ama-bench-agent-memory/",
      "title": "AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications",
      "summary": "这篇论文解决的是 agent memory 评测里的一个真实缺口：现有基准过度围绕人机对话，无法覆盖真实 agent 在环境交互中产生的大量机器生成轨迹。作者把问题重新定义为长时程 agent-environment memory，而不是聊天历史检索，这个 framing 是有价值的。\n\nAMA-Bench 由两部分组成：真实 agentic application 轨迹加专家问答，以及可扩展到任意长度的合成轨迹与规则问答。更重要的是，论文不止给 benchmark，还分析了为什么现有 memory systems 掉分，指出缺因果结构、客观信息和过度依赖相似度检索的问题，并给出带 causality graph 和 tool-augmented retrieval 的 AMA-Agent 作为对照系统。\n\n这使它不只是又一个 benchmark，而是 agent memory 方向里一个更接近实际工作负载的评测框架。对仓库的 agent memory 主线来说，它有明显的可复用价值，因为它把“长记忆”的评测目标从对话记忆扩展到了持续环境交互与机器轨迹。\n\n它暂时不升得更高，原因是目前还是单篇 arXiv 基准与系统论文，尚未形成领域公认标准，也还缺少更广泛的外部复现和社区采纳。当前更适合定义为一个强 benchmark/workflow 条目，而不是已经定型的 canonical reference。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-26",
      "doi": "",
      "arxiv_id": "2602.22769",
      "collected_at": "",
      "collection_order": 348,
      "source_url": "https://arxiv.org/pdf/2602.22769.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.22769.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "即使顶级模型也难拿满分，AMA-Bench 揭示自主智能体在长周期任务中面临的系统性决策失效",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "ama bench evaluating long horizon memory for agentic applications",
          "description": "加州大学圣地亚哥分校（UCSD）在 AI 智能体领域取得重要进展。针对大模型在执行网页导航、代码编辑等长周期任务中频发的“失忆症”，研究团队推出了首个专为智能体设计的任意长度记忆基准 AMA-Bench。该研究涵盖 Text2SQL、具身智能等六大核心领域，揭示了即使是顶级前沿模型在处理高密度、机器生成的执行轨迹时，也会因信息有损压缩而导致决策失灵。实验进一步证明，多数外置记忆系统性能甚至不如原生全量上下文。为此，团队提出 AMA-Agent 架构，利用因果图谱重构记忆，显著提升了复杂长程任务的准确性，为构建更稳健的自主智能体提供了理论依据与实践路径。",
          "x_post": "UCSD发布AMA-Bench基准测试：揭示智能体长周期任务决策失灵，顶级模型最高准确率仅72.26%\n自主智能体在执行网页导航、代码编辑等长周期任务时，常因机器生成的密集数据流导致关键上下文丢失，产生系统性“失忆”。\n加州大学圣地亚哥分校（UCSD）团队推出首个专为智能体设计的长记忆基准 AMA-Bench，涵盖从 Text2SQL 到具身智能等六大领域。\n实验显示，即便 GPT-5.2 准确率也仅为 72.26%，且多数外置记忆系统（如 GraphRAG）的性能甚至低于原生全量上下文基线。\n研究团队进一步提出 AMA-Agent 架构，通过因果图谱重构记忆并结合工具增强检索，显著提升了复杂长程任务的决策稳健性。",
          "cover_url": "assets/covers/a56-ama-bench-agent-memory-ac6df28c6f.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-25T19:24:14+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A11_Generalized_Planning_Transition",
      "slug": "a11-generalized-planning-transition",
      "detail_url": "papers/a11-generalized-planning-transition/",
      "title": "On Sample-Efficient Generalized Planning via Learned Transition Models",
      "summary": "**问题与背景**\n这篇论文围绕 planning / transition models / generalized planning 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优。\n\n**方法/新意**\n论文给出了相对完整的方法设计与实验验证，核心贡献在于提出一个可明确描述的新框架，并将其落到可复核的基准或任务上。相较于仅做经验叠加的工作，这类论文的价值在于能形成后续可复用的方法模块或分析视角。\n\n**意义/放在仓库中的位置**\n在本仓库里，这篇论文归到 `planning / transition models / generalized planning` 主线，定位为 `breakthrough`。它的意义在于推动该子方向往前走了一步，能够作为后续视频选题、主题综述和同类方法比较时的正式参考点。\n\n**局限/为何不再升一级**\n它还没有达到 `disruptive` 或 `paradigm` 的原因，是目前证据更多体现为强方法论文或强机制论文，而不是已经改写整条研究路线的系统级成果。除非后续被更大范围复现、 adopted 或验证为新标准范式，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-26",
      "doi": "",
      "arxiv_id": "2602.23148",
      "collected_at": "",
      "collection_order": 347,
      "source_url": "https://arxiv.org/pdf/2602.23148v2.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.23148v2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "南卡大用1/200模型体积，通过状态转移实现AI规划的跨规模泛化",
          "url": "https://www.bilibili.com/video/BV1AWQSBrE3L",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1AWQSBrE3L",
            "https://youtu.be/vROOxNQvZ-E"
          ],
          "main_collection": "AI智能体",
          "match": "on sample efficient generalized planning via learned transition models",
          "description": "传统深度学习规划模型在处理规模远超训练集的任务时，常因缺乏对物理状态的显式追踪而产生严重的逻辑误差累积。南卡罗来纳大学提出的“状态中心”广义规划方法，将预测重点从动作序列转向世界状态演化。该研究引入Weisfeiler-Leman图嵌入技术，实现了对复杂符号状态的拓扑特征提取，并赋予模型置换不变性与尺寸不变性。实验显示，该模型仅需百万级参数（约为Transformer模型的1/200）即可在样本效率上实现跨量级超越，有效解决了长视野推理中的状态漂移问题。尽管在具备深层因果关联的复杂领域仍有局限，但其通过残差学习与神经符号解码，为轻量化、高泛化的智能规划提供了重要路径。",
          "x_post": "南卡罗来纳大学提出状态中心广义规划，以1/200模型体积实现高效跨规模泛化\n针对传统规划模型在长视野任务中因缺乏状态追踪导致的逻辑偏差，该研究转向预测世界状态的演变而非动作序列。核心引入Weisfeiler-Leman（WL）图嵌入技术与残差学习，赋予模型置换不变性与尺寸不变性，有效应对物体数量剧增的分布外场景。实验显示，该百万级参数模型在样本效率上超越了数亿参数的Transformer架构，并能通过神经符号解码确保动作逻辑合法性。尽管在深层因果关联领域仍存在局限，该方案为轻量化、稳健的智能规划提供了重要路径。",
          "cover_url": "assets/covers/a11-generalized-planning-transition-cb73472601.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-22T18:25:13+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T13_Geometric_Priors_World_Models",
      "slug": "t13-geometric-priors-world-models",
      "detail_url": "papers/t13-geometric-priors-world-models/",
      "title": "Geometric Priors for Generalizable World Models via Vector Symbolic Architecture",
      "summary": "问题与背景\n多数世界模型直接用无结构神经网络近似状态转移，导致可解释性、样本效率和组合泛化能力不足。作者想解决的问题是：能否通过更强的几何与代数先验，让世界模型对未见状态-动作组合更稳健。\n\n方法/新意\n论文把 Vector Symbolic Architecture 引入世界模型，用可学习的 FHRR 编码器把状态和动作映射到高维复向量空间，并用元素级复乘来建模转移。关键点在于把 latent transition 训练成近似 group structure，从而支持更强的组合性和多步泛化。\n\n意义/放在仓库中的位置\n这篇属于世界模型理论/结构化表示主线，和 Causal-JEPA、MetaOthello、From Kepler to Newton 这种“世界模型不只靠大网络拟合，还要靠结构先验”路线一致。它的亮点在于把几何代数先验和 world model 直接连接起来。\n\n局限/为何不更高\n目前主要验证在离散 grid-world 等受控环境，且是 workshop 级成熟度。想升到更高一级，还需要在更复杂的真实视觉或机器人环境里证明这种结构先验的外溢价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-02-25",
      "doi": "",
      "arxiv_id": "2602.21467",
      "collected_at": "",
      "collection_order": 346,
      "source_url": "https://arxiv.org/abs/2602.21467",
      "paper_url": "https://arxiv.org/abs/2602.21467",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "赋予AI空间想象力，UCSD等团队实现从0到87.5%零样本准确率跨越，发布通用世界模型",
          "url": "https://www.bilibili.com/video/BV19gLp6ZEZ5",
          "platform_urls": [
            "https://www.bilibili.com/video/BV19gLp6ZEZ5",
            "https://youtu.be/wHOZnsNGuVg"
          ],
          "main_collection": "机器人与具身智能",
          "match": "geometric priors for generalizable world models via vector symbolic architecture",
          "description": "UCSD、UCI与OpenAI研究员等团队在通用世界模型领域取得重要进展。针对传统神经架构缺乏几何直觉、在未知场景下泛化性差及误差易累积的痛点，该研究引入向量符号架构（VSA），利用高维复数空间的代数运算实现环境动力学建模。实验结果显示，该方法在零样本泛化任务中实现了从0%到87.5%的准确率跨越，并展现出4倍于基准模型的抗噪能力。通过模仿生物大脑的几何先验与“自纠偏”机制，该研究显著提升了AI的空间想象力与决策效率，为构建更稳健的具身智能系统提供了新路径。",
          "x_post": "UCSD与OpenAI等团队利用向量符号架构（VSA）实现通用世界模型，零样本准确率从0%提升至87.5%。\n针对传统神经网络架构在未知场景下泛化性差、长周期推演误差易累积的瓶颈，该研究引入傅里叶全息缩减表示（FHRR），将环境动力学建模为高维复向量空间中的代数变换。通过模拟生物大脑的几何先验并引入“自纠偏”机制，模型能够有效吸附预测偏差并保持逻辑一致性。实验数据表明，该架构在离散网格世界任务中实现了87.5%的零样本准确率，显著优于基准模型的0%，且在极端噪声环境下的鲁棒性提升了4倍。该研究为构建具备空间物理法则直觉、高数据效率的具身智能系统提供了可验证的技术路径。",
          "cover_url": "assets/covers/t13-geometric-priors-world-models-c845f9bf46.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T20:21:38+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N9_Hippocampal_Neurogenesis",
      "slug": "n9-hippocampal-neurogenesis",
      "detail_url": "papers/n9-hippocampal-neurogenesis/",
      "title": "Human hippocampal neurogenesis in adulthood, ageing and Alzheimer’s disease",
      "summary": "这篇论文切入的是人类海马成年后是否仍存在神经发生、以及这种过程如何随老化和阿尔茨海默病改变这一长期争议问题。作者使用大规模单细胞和染色质层面的数据，试图把正常老化、认知韧性和疾病状态放在同一框架内比较。\n\n真正的新意在于，它不只讨论“有没有成年神经发生”，而是进一步给出在正常老化、SuperAgers、临床前 AD 和 AD 中对应的细胞状态、转录程序和染色质可及性差异，从而把这个争论推进到多组学机制层。\n\n这篇论文应放在认知科学 / 记忆与疾病背景主线。它不是 AI 论文，但对理解记忆系统、认知韧性和疾病退化边界非常关键，属于高价值的人脑基础研究。\n\n它不再升一级，是因为其影响主要集中在海马神经发生与 AD 生物学，对仓库中的 AI、NeuroAI 和计算认知路线属于基础支撑，而非直接方法论改写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-25",
      "doi": "10.1038/s41586-026-10169-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 345,
      "source_url": "https://www.nature.com/articles/s41586-026-10169-4",
      "paper_url": "https://www.nature.com/articles/s41586-026-10169-4",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "80岁拥有50岁惊人记忆力，UIC在《Nature》分析35万细胞揭秘“超级老人”脑再生真相",
          "url": "https://www.bilibili.com/video/BV1ehRTB2EzU",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1ehRTB2EzU",
            "https://youtu.be/F-D3hVebdww"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "human hippocampal neurogenesis in adulthood ageing and alzheimer s disease",
          "description": "伊利诺伊大学芝加哥分校团队在《Nature》发表研究，深入探讨人类海马体神经发生与认知衰老及阿尔茨海默病的关系。针对成年人神经元是否可再生的科学争议，研究者利用单细胞多组学测序技术分析了35万个细胞核，成功绘制出从神经干细胞到成熟神经元的完整轨迹。研究证实，“超级老人”体内拥有更多与神经可塑性相关的未成熟神经元，而认知衰退则与染色体开放性的异常改变密切相关。这一发现为理解大脑如何保持年轻态提供了精细的分子蓝图，并为阿尔茨海默病的干预提供了新方向。",
          "x_post": "UIC团队在《Nature》通过35万单细胞组学研究，揭示成年人类海马体神经发生与认知韧性分子机制\n\n成年人类脑部是否具备神经再生能力长期存在争议。伊利诺伊大学芝加哥分校（UIC）团队利用snRNA-seq和snATAC-seq技术，分析了涵盖青年、健康高龄、阿尔茨海默病（AD）及“超级老人”在内的355,997个细胞核，系统绘制了从神经干细胞到不成熟神经元的发育轨迹。\n\n研究通过RNA速率证实了海马体中存在动态神经发生过程。关键证据显示，“超级老人”体内保留了更多与神经可塑性相关的未成熟神经元；而认知衰退则与染色体开放性的异常改变密切相关，且此类表观遗传特征在AD临床前期即已显现。此外，研究识别出STAT家族及RFX2等核心转录因子在不同发育阶段的调控作用。\n\n该研究为理解人类大脑衰老的细胞异质性提供了精细的多组学蓝图，并为阿尔茨海默病的早期干预指明了神经发生调控的新方向。",
          "cover_url": "assets/covers/n9-hippocampal-neurogenesis-41f9eeee58.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-27T12:41:14+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N7_Compact_Visual_Cortex",
      "slug": "n7-compact-visual-cortex",
      "detail_url": "papers/n7-compact-visual-cortex/",
      "title": "Compact deep neural network models of the visual cortex",
      "summary": "这篇论文关注一个直接关系到神经科学建模和类脑 AI 的问题：要想逼近灵长类视觉皮层反应，是否必须依赖越来越大、越来越黑箱的深度网络。作者先用闭环实验和猕猴视觉数据训练大模型，再系统压缩模型规模，检验哪些计算成分是真正必需的。\n\n论文的核心新意在于证明视觉皮层预测并不必然要求庞大网络。作者把一个约六千万参数的深层模型压缩到数量级小得多的紧凑模型，同时保持接近的神经预测精度，从而把“性能来自规模”与“性能来自合适计算结构”区分开了。\n\n这篇论文适合放在仓库的认知科学 / 视觉神经科学主线上。它不是传统 AI 方法论文，但它对类脑建模、低功耗视觉模型以及“如何从脑数据中约束 AI 架构”都有直接外溢价值。\n\n它仍然不是范式级条目，因为主要贡献是对视觉皮层建模路线的强约束和压缩验证，而不是提出一个已广泛迁移到 AI 主流系统的新训练范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-25",
      "doi": "10.1038/s41586-026-10150-1",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 344,
      "source_url": "https://www.nature.com/articles/s41586-026-10150-1",
      "paper_url": "https://www.nature.com/articles/s41586-026-10150-1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "告别6000万参数的臃肿：Nature 2026预演如何应用奥卡姆剃刀，揭开视觉皮层计算黑盒",
          "url": "https://www.bilibili.com/video/BV1Q6w3zrEAA",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Q6w3zrEAA",
            "https://youtu.be/lxPi7p2qH3A"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "compact deep neural network models of the visual cortex",
          "description": "传统深度神经网络虽然能精准预测神经元活动，但数千万级别的参数量使其计算过程如同黑盒。本研究针对灵长类视觉皮层V4区域，通过闭环活体实验获取海量神经响应数据，利用知识蒸馏与深度剪枝技术，成功将模型参数从6000万削减至约1万，实现5000倍极限压缩。实验证明，这种紧凑型模型在保持R2=0.55的高预测准确率的同时，表现优于ResNet等大型网络。研究揭示了视觉处理中特征选择的专业化路径，并通过梯度上升技术合成了验证模型效能的“理想视觉刺激”。该工作为理解生物视觉系统的简洁性提供了关键证据，挑战了必须依赖巨型模型模拟大脑的固有认知。",
          "x_post": "CSHL、普林斯顿与卡内基梅隆大学团队开发紧凑型视觉皮层模型，实现5000倍参数极限压缩\n针对灵长类视觉皮层V4区域模拟中模型参数冗余（约6000万个）且计算黑盒化的问题，研究人员通过活体猕猴闭环实验获取了高维度神经响应数据。\n利用知识蒸馏与深度剪枝技术，将模型参数规模从千万级精简至约1万个，实现5000倍极限压缩，体积缩减为ResNet50的1/250。\n实验数据显示，紧凑型模型在保持R2=0.55高预测准确率的同时，性能优于传统ResNet50（R2=0.48），并成功合成了可验证的理想视觉刺激。\n该研究揭示了视觉处理中特征选择的专业化路径，证实了模拟生物大脑无需依赖巨型模型，为视觉皮层回路提供了可测试的科学假说。",
          "cover_url": "assets/covers/n7-compact-visual-cortex-c783dc32d1.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-15T21:51:40+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N50_Responsibility_Aversion_Metacognition",
      "slug": "n50-responsibility-aversion-metacognition",
      "detail_url": "papers/n50-responsibility-aversion-metacognition/",
      "title": "Deciding for others alters metacognition leading to responsibility aversion",
      "summary": "问题与背景：现实决策中，人们经常不是只为自己做决定，而是要为他人承担后果。论文关注的是这种“为他人决策”的场景如何改变元认知与责任规避倾向，这是社会决策与 metacognition 交叉中的关键问题。\n\n方法/新意：作者通过行为实验和计算建模比较为自己与为他人决策时的信心、反应时和责任判断，揭示责任情境会系统性改变元认知校准，并推动责任回避。它的重要性在于把 metacognition 从个体内部监控扩展到了社会责任情境。\n\n意义/放在仓库中的位置：这篇论文适合收在认知科学主线，尤其是社会认知 / 元认知方向。它不是一般的社会心理学结果，而是直接讨论责任如何改变决策监控本身，和当前仓库里 mentalization、economic choice 等条目能形成互补。\n\n局限/为何不再升一级：论文的价值主要集中在责任与元认知耦合这一具体问题上，虽然新颖，但外溢范围仍偏窄，因此更适合定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-25",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 343,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12935019/",
      "paper_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12935019/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N1_Vectorized_Teaching_Signals",
      "slug": "n1-vectorized-teaching-signals",
      "detail_url": "papers/n1-vectorized-teaching-signals/",
      "title": "Vectorized instructive signals in cortical dendrites",
      "summary": "- 分级：`颠覆性`\n- 正式标题：`Vectorized instructive signals in cortical dendrites`\n- 原文：`2026-02-25-N1_Vectorized_Teaching_Signals-Vectorized_instructive_signals_in_cortical_dendrites.html`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文最重要的意义，在于它为生物大脑中的 credit assignment 提供了强实证线索。作者在皮层回路和 BCI 奖励任务中，记录胞体与远端树突信号，观察到树突携带与奖励、误差等任务变量相关的“向量化教学信号”。更关键的是，这些信号的符号会因神经元而异，并且能够预测学习过程中活动变化；干扰这些信号会破坏学习。\n\n这使它不再只是一个神经科学观察结果，而是直接碰到了人工智能的核心学习问题：误差信号是否必须是全局标量广播，还是可以是更局部、更细粒度、按神经元定制的向量信号。论文明确把这些观察与 backprop、target propagation 和 reinforcement learning 联系起来。\n\n## 为什么重要\n\n如果这一结果在更多脑区和任务中被复制，它会成为“更生物可行学习规则”的硬证据基础。对 NeuroAI 来说，这种论文的价值远高于简单的脑区表征对应。\n\n## 局限\n\n目前证据仍依赖特定任务、特定记录方法和特定回路。它更像一个强锚点，而不是已经完成的统一理论。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-25",
      "doi": "10.1038/s41586-026-10190-7",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 342,
      "source_url": "https://www.nature.com/articles/s41586-026-10190-7.pdf",
      "paper_url": "https://www.nature.com/articles/s41586-026-10190-7.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "J8_Solaris_Minecraft_World_Model",
      "slug": "j8-solaris-minecraft-world-model",
      "detail_url": "papers/j8-solaris-minecraft-world-model/",
      "title": "Solaris: Building a Multiplayer Video World Model in Minecraft",
      "summary": "这篇论文针对当前视频世界模型的一个明显缺口：大多数模型只处理单智能体视角，难以稳定模拟真实环境中的多智能体交互与多视角一致性。作者把问题直接推进到更困难也更现实的场景，在 Minecraft 中构建一个支持多玩家同步视频与动作采集的数据系统，并据此训练 multiplayer video world model。\n\n方法上的关键不只是更大数据，而是围绕多视角一致性和多智能体交互重新设计训练与评测。论文提出分阶段训练流程，从 single-player 逐步过渡到 multiplayer modeling，结合 bidirectional、causal 和 self-forcing 训练；同时引入 Checkpointed Self Forcing 来降低长时程训练开销。最终不仅有模型，也有配套的数据系统和评测框架。\n\n这项工作值得收录，因为它把视频世界模型从单视角生成推进到多智能体、多视角一致模拟，明显扩展了 world model 的能力边界。对多智能体模拟、具身智能、游戏环境建模以及未来 agent sandbox 都有直接外溢价值，因此它不是普通的视频生成论文，而是世界模型路线中的重要延展。\n\n它还不到 disruptive，原因是当前证据主要建立在 Minecraft 这类受控环境里，距离更通用的开放世界多智能体世界模型还有明显差距。现阶段更稳的定位是一篇高质量 breakthrough，而不是已经重排整条 world model 主路线的工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-02-25",
      "doi": "",
      "arxiv_id": "2602.22208",
      "collected_at": "",
      "collection_order": 341,
      "source_url": "https://arxiv.org/pdf/2602.22208.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.22208.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "纽约大学开源 Solaris：首个支持多人联机 Minecraft 世界模型，实现多视角物理一致",
          "url": "https://www.bilibili.com/video/BV1tLojBiEHy",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1tLojBiEHy",
            "https://youtu.be/tAPBxA6v9UI"
          ],
          "main_collection": "机器人与具身智能",
          "match": "solaris building a multiplayer video world model in minecraft",
          "description": "纽约大学研究团队在具身智能领域开源了 Solaris，这是首个专为 Minecraft 设计的多人视频世界模型。针对现有模型无法处理多玩家视角联动的难题，该方案采用扩散变换器架构，并引入多人自注意力机制。通过 SolarisEngine 自动收集的 1264 万帧动作标注数据，模型在移动、建筑与记忆任务中表现卓越，确保了多视角间的高度物理一致性与生成稳定性。这一突破将视频生成从单人模拟推向复杂的多智能体交互，为未来协作式 AI 的研究奠定了基础。",
          "x_post": "纽约大学开源 Solaris：首个支持多人联机且具备 1264 万帧数据的 Minecraft 视频世界模型\n针对现有模型难以维持多智能体视角一致性的局限，Solaris 提出了基于扩散变换器（DiT）的架构方案。其核心引入多人自注意力机制与检查点自强制（Checkpointed Self Forcing）技术，旨在确保跨视角的物理映射与长序列生成的逻辑稳定性。研究团队利用 SolarisEngine 自动化采集了包含 1264 万帧动作标注的多人游戏数据，涵盖建筑（30%）、采矿（25%）及战斗等交互场景。实验证明该模型在移动一致性与空间记忆任务中表现稳健，目前相关代码、数据集及模型权重已面向社区公开。",
          "cover_url": "assets/covers/j8-solaris-minecraft-world-model-5cfef4604a.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-24T09:42:51+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW12_FormalRTL_Verified_Synthesis",
      "slug": "hw12-formalrtl-verified-synthesis",
      "detail_url": "papers/hw12-formalrtl-verified-synthesis/",
      "title": "FormalRTL: Verified RTL Synthesis at Scale",
      "summary": "LLM 用于 RTL 生成已经不少，但真正卡住工业可用性的仍然是 formal correctness。尤其在 datapath-centric、规格模糊且复杂度高的设计里，单靠 simulation-driven debug 很难建立可靠的设计闭环。\n\nFormalRTL 的关键做法是把 software reference model 作为 formal、可执行的 specification，再把 planning、RTL synthesis 和 formal equivalence checking 串成一个端到端框架。这样生成不再只是从 prompt 到 HDL，而是始终围绕可验证语义进行，形成比普通 Verilog codegen 更强的 correctness anchor。\n\n对本仓库来说，这篇论文代表的是 EDA workflow 的结构性变化：AI 不是单独写 RTL，而是和 formal spec、验证、规划共同组成一个更可信的设计流程。这正符合新范围里 `电路设计与仿真` 以及 `硬软件一体设计/验证` 的要求。\n\n它还不是更高一级，因为影响仍集中在 RTL synthesis / verification 这一层，没有继续深入到后端物理设计、系统级协同仿真或量产约束。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-02-25",
      "doi": "",
      "arxiv_id": "2603.08738",
      "collected_at": "",
      "collection_order": 340,
      "source_url": "https://arxiv.org/pdf/2603.08738.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.08738.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结芯片设计Bug：FormalRTL引入形式化验证，让AI生成的工业级代码实现100%等价正确",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "formalrtl verified rtl synthesis at scale",
          "description": "针对大规模工业级硬件综合中自然语言描述模糊、逻辑验证困难等核心挑战，本研究提出了FormalRTL框架。该方案回归工程本质，将C/C++软件参考模型作为形式化“金标准”，利用多智能体协同机制将复杂芯片设计任务拆解为可管理的子模块。通过静态分析与形式化等价性检查（EC），系统能根据验证工具提供的反例反馈进行自动化纠错，确保生成的RTL代码与软件模型在数学级别完全等价。实验结果表明，该方法在处理复杂算术逻辑和深层数据通路时展现出极高的可靠性与可扩展性，有效填补了AI辅助生成与工业级硬件设计标准之间的技术空白。",
          "x_post": "香港中文大学、东南大学与华为团队推出 FormalRTL，利用 C/C++ 参考模型实现 100% 形式化等价的工业级 RTL 生成。\n针对自然语言描述模糊导致的大规模硬件综合难题，该研究提出一种基于软件参考模型的端到端多智能体框架。\n系统利用静态分析将复杂逻辑拆解为子模块，由 Planning、Initializing 与 Debugging 智能体协同驱动生成流程。\n通过引入形式化等价性检查（EC），框架能依据验证工具提供的反例反馈进行自动化纠错，确保硬件实现与软件模型严格对齐。\n实验结果证明，FormalRTL 在处理复杂算术逻辑和深层数据通路时具有高可靠性与可扩展性，填补了 AI 生成与工业级芯片设计标准间的技术空白。",
          "cover_url": "assets/covers/hw12-formalrtl-verified-synthesis-40db52b848.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T07:19:17+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A135_Silent_Egress_Agent_Leakage",
      "slug": "a135-silent-egress-agent-leakage",
      "detail_url": "papers/a135-silent-egress-agent-leakage/",
      "title": "Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace",
      "summary": "随着 agent 系统越来越多地自动打开 URL、读取网页预览、调用外部工具，安全风险不再只发生在最终可见回答里。系统可能在用户看不到的中间步骤里发出外联请求，把敏感上下文悄悄带出运行环境，而现有输出级 safety checks 往往根本察觉不到。\n\nSilent Egress 针对这一点提出 implicit prompt injection 的系统级风险图景：恶意网页可以把攻击藏在自动生成的标题、metadata 和 snippets 里，诱导 agent 触发 outbound requests 并外泄敏感信息。论文进一步提出 sharded exfiltration，把泄露内容拆成多次请求以绕过简单 DLP，并用实验表明 prompt-layer 防御保护有限，而 domain allowlisting、redirect-chain analysis 等 system/network controls 更有效。\n\n这篇工作值得收录，因为它把网络外联本身提升为 agent security 的 first-class outcome。与很多只盯回答文本的安全论文不同，这篇工作把关注点推到 runtime 和 network boundary，对真实部署的 agent sandbox、egress control 和 provenance tracking 都有直接启发。\n\n它没有升到更高一级，是因为当前主要是单条风险线上的强系统安全论文，虽然问题切得很准，但还没有像更高阶工作那样给出统一的 agent runtime security architecture。它非常值得收，但暂时仍属于强突破级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-25",
      "doi": "",
      "arxiv_id": "2602.22450",
      "collected_at": "",
      "collection_order": 339,
      "source_url": "https://arxiv.org/pdf/2602.22450.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.22450.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "PH3_Cardiac_Sensing_FM",
      "slug": "ph3-cardiac-sensing-fm",
      "detail_url": "papers/ph3-cardiac-sensing-fm/",
      "title": "Cardiac health assessment across scenarios and devices using a multimodal foundation model pretrained on data from 1.7 million individuals",
      "summary": "问题与背景：心脏监测数据横跨医院 12-lead ECG、单导联 ECG、PPG 和消费级可穿戴设备，传统 one-modal-one-task 模型很难在不同设备、场景和输入组合之间稳定迁移。\n\n方法与新意：CSFM 使用 transformer 与 generative masked pretraining，在约 170 万人的多源 cardiac signals 和临床/机器生成文本报告上学习统一表征。模型把 ECG、PPG 和报告信息压到可迁移 embedding，用于诊断、人口学识别、生命体征估计、临床结局预测和 ECG QA。\n\n收录意义：这篇符合 public health / medical operations 的正式收录标准，因为它不是单个疾病分类器，而是跨设备、跨场景心脏监测基础模型。它对医院监护、远程健康、可穿戴医疗和医疗 AI workflow 的统一表征层有复用价值。\n\n局限：医疗基础模型的真实价值取决于外部队列、设备厂商迁移、监管可解释性和临床闭环部署；当前主要是表征与任务评估，因此按 breakthrough 收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "public_health_and_medical_operations",
      "theme_label": "公共卫生与医疗运营",
      "published_at": "2026-02-24",
      "doi": "10.1038/s42256-026-01180-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 338,
      "source_url": "https://www.nature.com/articles/s42256-026-01180-5",
      "paper_url": "https://www.nature.com/articles/s42256-026-01180-5.pdf",
      "project_urls": [
        "https://www.nature.com/articles/s42256-026-01180-5.pdf"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让智能手表拥有专业诊断力：CSFM 统一 170 万人数据，打破设备间信息孤岛",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "cardiac health assessment across scenarios and devices using a multimodal foundation model pretrained on data from 1 7 million individuals",
          "description": "心血管AI领域的研究者提出心脏传感基础模型（CSFM），旨在解决传统模型在不同监测设备间无法通用的痛点。该模型采用Transformer架构，利用170万个体的多模态异构数据进行掩码预训练，统一了心电图、脉搏波与临床文本。实验证明，CSFM在ICU重症预警中AUC达到0.967，且在智能手表等单导联场景下的诊断效果显著优于传统算法。这一突破打破了医疗级设备与消费级硬件间的信息孤岛，让专业级心脏健康监测能够更便捷地融入日常生活，为数字医疗系统的扩展奠定了技术基础。",
          "x_post": "研究团队发布心脏传感基础模型CSFM，基于170万个体数据实现跨设备诊断\n针对心脏监测AI在不同硬件间难以通用的“信息孤岛”问题，研究者提出多模态基础模型CSFM。该模型基于Transformer架构，在涵盖心电图（ECG）、脉搏波（PPG）及临床文本的170万受试者异构数据上进行自监督掩码预训练，构建统一特征表示。\n实验结果显示，CSFM在ICU重症预警任务中AUC达到0.967。在可穿戴设备疾病诊断实验中，CSFM-Large取得0.677的Macro-F1得分，性能优于针对特定任务定制的传统ResNet模型（0.634）。\n该研究证明了大规模预训练能有效提升模型在导联缺失等复杂场景下的稳健性，为专业级心脏健康监测下沉至消费级智能设备提供了关键技术支撑。",
          "cover_url": "assets/covers/ph3-cardiac-sensing-fm-d9758bd78a.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-16T06:25:32+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N54_Concept_Relational_Semantics_Brain",
      "slug": "n54-concept-relational-semantics-brain",
      "detail_url": "papers/n54-concept-relational-semantics-brain/",
      "title": "Mapping concept and relational semantic representation in the brain using large language models",
      "summary": "问题与背景：语义脑研究过去主要集中在概念本身如何被表征，而较少系统区分“概念表示”和“关系表示”。这篇工作试图进一步问：大脑如何从单个概念过渡到对象间的关系语义。\n\n方法/新意：作者用大语言模型生成 concept-level 和 relation-level embeddings，并将其用于 fMRI representational analyses。结果表明，腹侧通路更偏概念编码，而顶叶、前额叶和基底节更强地编码关系信息，从而给出语义从概念到整合式关系处理的空间图谱。\n\n意义/放在仓库中的位置：这是认知科学与 NeuroAI 交叉的好条目，适合放在语义表征主线。它的特别之处在于不是简单用 LLM 拟合脑响应，而是借 LLM 的嵌入空间区分 concept 和 relational semantics。\n\n局限/为何不再升一级：目前正式可稳定获取的开放源以 PubMed / 预印本链路为主，期刊全文开放性一般；同时影响范围主要在语义表征与脑-模型对齐，因此先定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-24",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 337,
      "source_url": "https://pubmed.ncbi.nlm.nih.gov/41742406/",
      "paper_url": "https://pubmed.ncbi.nlm.nih.gov/41742406/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "杜克大学揭秘AI读脑术：逻辑推理预测精度翻倍，Llama 3.2成功破译语义关联",
          "url": "https://www.bilibili.com/video/BV1KV9qBmEWs",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1KV9qBmEWs",
            "https://youtu.be/n_eeJbrpzNc"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "mapping concept and relational semantic representation in the brain using large language models",
          "description": "杜克大学研究团队在认知神经科学领域取得突破，利用大语言模型解码人类大脑处理“概念”与“关联”的机制。针对传统计算模型无法捕捉上下文语义的问题，研究者提取了Llama 3.2-3B模型的高维语义向量，并将其与受试者的fMRI脑部扫描数据进行对齐。实验证明，该模型对大脑逻辑推理行为的预测准确率比传统方法提升了近一倍，R²指标从0.36大幅升至0.71。研究明确了枕颞叶皮层负责识别孤立概念，而前额叶区域则主导复杂关系的表征。这一成果不仅证实了LLM在模拟人类感知方面的优越性，也为探索高阶认知过程提供了全新的计算分析框架。",
          "x_post": "杜克大学利用 Llama 3.2 解码大脑关系语义，逻辑推理预测精度 R² 达 0.71\n\n传统计算模型在捕捉复杂上下文语义方面存在局限。研究团队提取 Llama 3.2-3B 模型的 3072 维语义向量，通过表征相似性分析（RSA）将其与 60 名受试者的 fMRI 数据进行对齐。实验证明，该模型对大脑逻辑推理行为的预测准确率较传统 Word2Vec 方法提升近一倍，R² 指标由 0.36 升至 0.71。研究明确了枕颞叶皮层负责孤立概念识别，而前额叶区域及基底神经节主导复杂关系表征。这一结果证实了生成式模型在模拟人类高阶认知过程中的有效性，为认知神经科学提供了新型计算分析框架。",
          "cover_url": "assets/covers/n54-concept-relational-semantics-brain-7eda20cb89.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-28T16:15:33+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N4_OFC_Predictive_Filtering",
      "slug": "n4-ofc-predictive-filtering",
      "detail_url": "papers/n4-ofc-predictive-filtering/",
      "title": "Orbitofrontal cortex drives predictive filtering of sensory responses",
      "summary": "## 这篇讲什么\n\n这篇研究关注一个很基础的神经科学问题：大脑为什么能逐渐对重复、可预测的刺激“习惯化”，从而不过度响应熟悉信息。作者把这个问题放到 `predictive processing` 框架里，研究长期习惯化究竟来自感觉系统自身疲劳，还是来自更高脑区的自上而下预测调控。\n\n## 方法\n\n作者在小鼠听觉系统中，围绕重复声音暴露后的神经变化做了系统实验。重点考察初级听皮层 `A1` 和眶额皮层 `OFC` 的关系，并比较两种解释：\n\n- 预测性过滤逐渐增强\n- 由新奇性驱动的放大逐渐减弱\n\n通过失活、投射追踪和细胞类型层面的操控，作者试图找出真正主导长期习惯化的回路机制。\n\n## 主要结果\n\n- 每日重复声音暴露后，A1 中会出现明显的神经习惯化。\n- 一旦失活 `OFC`，这种习惯化会被逆转，说明它不是单纯的外周或局部疲劳。\n- `OFC -> A1` 的投射会随着声音经验积累而增强预测信号。\n- 这些信号通过 `SST` 抑制性神经元压制 A1 的响应。\n\n作者因此提出，OFC 会把“预期到的刺激”在感觉皮层中生成一种近似“负像”的预测信号，从而抵消对可预测输入的反应。\n\n## 为什么重要\n\n这篇工作的价值在于，它把“习惯化”从一个看似简单的学习现象，推进到具体的自上而下预测回路机制。它给 `predictive filtering` 提供了更明确的神经电路证据，也为理解感觉过敏、ASD 等相关问题提供了更具体的生物学支点。\n\n## 对认知 / AI 的启发\n\n如果感觉过滤不是被动衰减，而是由高层预测主动抑制，那么在认知建模和 AI 系统里，过滤机制更应被理解为“模型驱动的抑制”，而不是简单噪声衰减。这对 predictive coding、主动感知和分层世界模型都有启发。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-24",
      "doi": "10.1038/s41593-026-02217-z",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 336,
      "source_url": "https://www.nature.com/articles/s41593-026-02217-z.pdf",
      "paper_url": "https://www.nature.com/articles/s41593-026-02217-z.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "破解大脑主动降噪机制：揭秘OFC预测性过滤，为自闭症感官超敏寻找神经病理出口",
          "url": "https://www.bilibili.com/video/BV1JRAFz4EYr",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1JRAFz4EYr",
            "https://youtu.be/dCgRj4SFdCg"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "orbitofrontal cortex drives predictive filtering of sensory responses",
          "description": "本视频深入解析大脑感官习惯化的神经机制。研究通过对小鼠初级听觉皮层（A1）5483个神经元进行为期5天的跨日双光子钙成像观察，发现眶额皮层（OFC）在长效过滤冗余信息中起核心作用。实验证实，OFC通过向A1发送预测信号并激活SST抑制性神经元，生成“预测负像”以抵消已知感官输入。研究进一步通过逆向追踪与药理失活实验，证明了该自上而下的调控路径具有独立性，且不受全身唤醒水平影响。这一发现揭示了大脑主动降噪的生物学基础，为理解自闭症及精神分裂症中的感官超敏现象提供了关键的神经病理学证据。",
          "x_post": "大脑眶额皮层(OFC)驱动感官习惯化：揭秘A1区35.8%神经元响应衰减的预测过滤机制\n长期暴露于重复刺激时，大脑通过习惯化机制屏蔽冗余信息。研究人员利用慢性双光子钙成像技术，对小鼠初级听觉皮层（A1）的5483个神经元进行了为期5天的连续追踪。实验发现，至第5天有35.8%的神经元对声音响应显著衰减，且该过程由OFC自上而下的调控驱动。\n降维分析显示，这种跨日习惯化与日内机制在神经高维空间呈78.2°正交，证明其作为一套独立系统运行，不受全身唤醒水平干扰。核心机制在于OFC向A1发送预测信号并激活SST抑制性神经元，生成“预测负像”以抵消已知感官输入。\n该研究揭示了大脑主动降噪的生物学基础，为理解自闭症及精神分裂症中常见的感官超敏现象提供了关键的神经病理学解释。",
          "cover_url": "assets/covers/n4-ofc-predictive-filtering-15adf5506d.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-16T17:03:17+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "I4_MINAR_Neural_Algorithmic_Reasoning",
      "slug": "i4-minar-neural-algorithmic-reasoning",
      "detail_url": "papers/i4-minar-neural-algorithmic-reasoning/",
      "title": "MINAR: Mechanistic Interpretability for Neural Algorithmic Reasoning",
      "summary": "**问题与背景**\n这篇论文围绕 mechanistic interpretability / neural algorithmic reasoning 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优。\n\n**方法/新意**\n论文给出了相对完整的方法设计与实验验证，核心贡献在于提出一个可明确描述的新框架，并将其落到可复核的基准或任务上。相较于仅做经验叠加的工作，这类论文的价值在于能形成后续可复用的方法模块或分析视角。\n\n**意义/放在仓库中的位置**\n在本仓库里，这篇论文归到 `mechanistic interpretability / neural algorithmic reasoning` 主线，定位为 `breakthrough`。它的意义在于推动该子方向往前走了一步，能够作为后续视频选题、主题综述和同类方法比较时的正式参考点。\n\n**局限/为何不再升一级**\n它还没有达到 `disruptive` 或 `paradigm` 的原因，是目前证据更多体现为强方法论文或强机制论文，而不是已经改写整条研究路线的系统级成果。除非后续被更大范围复现、 adopted 或验证为新标准范式，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-02-24",
      "doi": "",
      "arxiv_id": "2602.21442",
      "collected_at": "",
      "collection_order": 335,
      "source_url": "https://arxiv.org/pdf/2602.21442v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.21442v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解开图神经网络思维黑盒：MINAR工具箱实现神经元级解析，精准锁定AI推理的核心电路",
          "url": "https://www.bilibili.com/video/BV1G3Q9BKEHe",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1G3Q9BKEHe",
            "https://youtu.be/QjLvzTGV5bc"
          ],
          "main_collection": "大模型架构与推理",
          "match": "minar mechanistic interpretability for neural algorithmic reasoning",
          "description": "本视频深入解析专为图神经网络（GNN）设计的自动化电路发现工具箱MINAR。针对GNN推理逻辑的“黑盒”难题，研究者引入机械可解释性方法，通过EAP与EAP-IG归因算法突破参数共享限制，实现了神经元级别的精准解析。视频展示了MINAR如何从数万条边中锁定仅10个参数的核心电路，并成功还原Bellman-Ford等经典算法逻辑。实验证明该极简电路在剔除99.9%的冗余后仍能保持甚至超越原模型性能。该工具为神经算法推理的内部逻辑提供了实证证据，在模型压缩与算法对齐领域具有重要应用价值。",
          "x_post": "PNNL、UCSD 等团队发布 MINAR 工具箱，实现 GNN 神经元级解析并将核心推理电路精简至 10 个参数\n针对图神经网络（GNN）在算法推理中的“黑盒”难题，研究者引入机械可解释性框架，开发了首个面向 GNN 的自动化电路发现工具 MINAR。该工具通过 EAP 与 EAP-IG 归因算法突破参数共享限制，能够从万级规模的计算图中精准锁定支撑逻辑的核心子网络。实验显示，在执行 Bellman-Ford 算法任务时，MINAR 从 18,240 条原始边中提取出仅由 10 个参数组成的最小充分回路。该极简电路在剔除 99.9% 冗余后，测试损失从 0.0578 优化至 0.0545，性能表现超越原完整模型。本项工作为理解模型泛化与 Grokking 机制提供了微观证据，在模型压缩与算法对齐领域具有重要应用价值。",
          "cover_url": "assets/covers/i4-minar-neural-algorithmic-reasoning-c3b538c6ab.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-22T13:12:15+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW5_TOM_Ternary_ROM_Accelerator",
      "slug": "hw5-tom-ternary-rom-accelerator",
      "detail_url": "papers/hw5-tom-ternary-rom-accelerator/",
      "title": "TOM: A Ternary Read-only Memory Accelerator for LLM-powered Edge Intelligence",
      "summary": "这篇工作针对边缘侧部署大语言模型时最硬的瓶颈之一：片上存储容量与带宽不足导致模型装不下、跑不快，也难以做轻量适配。作者把问题收敛到内存墙，而不是只做局部算子优化，因此切入点对端侧 AI 硬件是成立的。\n\n方法上，TOM 不是单纯做 ternary 量化，也不是单纯做 ROM 存储，而是把 ternary 权重、ROM-SRAM 混合存储、分布式计算单元以及 QLoRA 式可调部分联合起来设计。核心价值在于它把高密度只读权重与少量可训练/可调部分拆开，形成了适合边缘 LLM 的结构化硬件接口。\n\n对这个仓库而言，这篇论文的价值在于它提供了一种清晰的 AI 硬件设计模式：高密度固定参数承载主模型，灵活 SRAM 区承载低成本适配能力。这比普通 edge accelerator 更贴近当前大模型部署现实，也和 LoRA/QLoRA 一类参数高效适配形成了明确的软硬件共设计关系。\n\n它暂时还不适合更高分级，因为验证仍集中在 edge LLM serving 场景，离真正改变通用 AI 加速器设计范式还有距离。当前证据更像是一个很强的架构型突破，而不是已经被广泛证明的长期蓝图。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-02-24",
      "doi": "",
      "arxiv_id": "2602.20662",
      "collected_at": "",
      "collection_order": 334,
      "source_url": "https://arxiv.org/pdf/2602.20662.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.20662.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "超越顶级GPU带宽41倍！TOM加速器通过三进制技术，让端侧大模型告别延迟",
          "url": "https://www.bilibili.com/video/BV1jHXPBuE6C",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1jHXPBuE6C",
            "https://youtu.be/wzR1rLgOWFg"
          ],
          "main_collection": "AI硬件设计",
          "match": "tom a ternary read only memory accelerator for llm powered edge intelligence",
          "description": "针对大语言模型在边缘侧面临的“内存之墙”挑战，本研究提出了一种三进制只读存储器（TOM）加速器。该方案针对1.58-bit量化模型的高稀疏度特性，通过将三值权重直接合成为标准单元逻辑，消除了零值占用的物理空间，实现了高达 15.0 MB/mm² 的存储密度。TOM 采用全分布式处理架构，使数据无需跨越长距离总线，在 5.33W 功耗下释放出 200 TB/s 的聚合带宽，推理吞吐量达 3306 TPS。该技术为机器人、智能手机等终端实现低延迟、高能效的离线 AI 推理提供了新的硬件范式，但在模型灵活性上仍依赖于 ROM-SRAM 的混合设计。",
          "x_post": "Microsoft与上海交大等团队发布三进制ROM加速器TOM，200 TB/s带宽超越顶级GPU达41倍\n针对大语言模型在边缘侧面临的“内存之墙”挑战，该研究提出了专为1.58-bit量化模型设计的硬件加速方案。其核心方法利用三值权重的高稀疏性，通过稀疏感知ROM将权重直接合成为标准单元逻辑，使存储密度达到15.0 MB/mm²。实验数据显示，TOM在5.33W功耗下实现了200 TB/s的聚合带宽，推理吞吐量达3306 TPS。该架构结合ROM-SRAM混合设计以保障微调灵活性，为机器人及移动端实现低延迟、高能效的离线AI推理提供了可行路径。",
          "cover_url": "assets/covers/hw5-tom-ternary-rom-accelerator-2a685e6898.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T06:58:23+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C13_Self_Driving_Thin_Film_Lab",
      "slug": "c13-self-driving-thin-film-lab",
      "detail_url": "papers/c13-self-driving-thin-film-lab/",
      "title": "Self-driving thin film laboratory: autonomous epitaxial atomic-layer synthesis via real-time computer vision analysis of electron diffraction",
      "summary": "这篇论文属于 AI for science / self-driving lab 方向里比较扎实的一类工作：不是泛泛谈 autonomous lab，而是在原子层外延薄膜合成中做实时闭环决策。核心问题是多维工艺参数空间搜索成本高，而材料制备过程中的反馈又是连续且高时效的。\n\n作者把实时计算机视觉分析的 RHEED 电子衍射图像接到组合式脉冲激光沉积平台上，让系统在生长过程中逐帧分析并即时更新下一轮实验决策，形成真正的 closed-loop autonomous navigation。结果上，论文报告相对全面参数扫描可实现超过 30 倍的实验次数压缩，这对实验吞吐和工艺优化都很有说服力。\n\n对仓库来说，它的重要性在于工作流模式：实时视觉表征 + 原位反馈 + 自动实验决策 + 材料工艺优化。这种模式比很多只做离线 surrogate 或单步 BO 的论文更接近可迁移的实验自动化基础设施，因此属于高价值 AI x materials / AI x lab automation 条目。\n\n它没有升到更高一级，是因为当前工作仍主要展示在特定薄膜合成平台与目标相上。方法的跨实验平台泛化和更广泛的自治实验能力还需要后续证明，因此目前定为 breakthrough 更稳妥。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-02-24",
      "doi": "",
      "arxiv_id": "2602.20432",
      "collected_at": "",
      "collection_order": 333,
      "source_url": "https://arxiv.org/pdf/2602.20432.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.20432.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "将薄膜材料合成效率提升30倍，UMD联手东京大学实现20分钟一轮的AI闭环实验",
          "url": "https://www.bilibili.com/video/BV1dxoMBdE9D",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1dxoMBdE9D",
            "https://youtu.be/Mzfi81Y5AN4"
          ],
          "main_collection": "AI化学与材料",
          "match": "self driving thin film laboratory autonomous epitaxial atomic layer synthesis via real time computer vision analysis of electron diffraction",
          "description": "马里兰大学（UMD）联手东京大学团队，针对新型功能氧化物薄膜合成中参数空间复杂、研发周期长的难题，研发出一种全自动“自驱动”实验平台。该系统核心在于结合了级联掩码R-CNN计算机视觉技术与贝叶斯优化算法，能够利用RHEED电子衍射实时监控原子级的晶体生长过程并自主决策下一步参数。实验证明，该闭环系统将单次循环耗时缩短至20分钟，在无人工干预下实现了100%纯相单晶薄膜的制备，整体开发效率较传统方法提升约30倍。这一成果标志着材料科学从盲目试错迈向智能化生产，为半导体制造和新型亚稳态材料的快速发现开辟了高精度、高速度的新路径。",
          "x_post": "UMD联手东京大学实现自驱动薄膜实验室，将功能氧化物合成效率提升30倍\n针对复杂多维参数空间下的材料探索难题，研究团队构建了集成脉冲激光沉积（PLD）与实时原位监测的自动化平台。系统核心结合了级联掩码 R-CNN 计算机视觉模型与贝叶斯优化算法，通过每秒 2-3 帧的频率实时解析 RHEED 电子衍射图像并自主决策参数。实验数据显示，该系统将单次“实验-评估-决策”闭环缩短至 20 分钟，在少于 30 次迭代内即实现 100% 纯相亚稳态铁酸铽薄膜的制备。该研究证明了 AI 驱动的闭环实验在缩短研发周期、发现新型材料及优化半导体制造工艺方面的实用价值。",
          "cover_url": "assets/covers/c13-self-driving-thin-film-lab-4f2e9ebbeb.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-22T12:41:46+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A24_Discovering_Multiagent_Learning_Algorithms",
      "slug": "a24-discovering-multiagent-learning-algorithms",
      "detail_url": "papers/a24-discovering-multiagent-learning-algorithms/",
      "title": "Discovering Multiagent Learning Algorithms with Large Language Models",
      "summary": "这篇论文关注的是一个比‘让 LLM 帮忙写策略代码’更进一步的问题：能不能让大模型直接发现新的多智能体学习算法，而不是只在既有算法框架里调参。作者将问题放在不完全信息博弈和多智能体学习场景中，目标不是生成单个策略，而是发明能系统性改进学习过程本身的算法。\n\n方法上，这篇工作沿用了大模型驱动的算法搜索思路，让 LLM 在程序空间里提出候选更新规则和求解器结构，再通过外部评测闭环筛选有效方案。论文报告发现了新的算法变体，例如 VAD-CFR 和 SHOR-PSRO，并在相应基准上优于强基线，说明大模型已经不只是复述已有多智能体学习套路，而是能在受控搜索框架中发现有竞争力的新算法。\n\n这篇论文适合放在 agentic algorithm discovery / multi-agent learning 主线。它和 AlphaEvolve 路线有明显亲缘关系，但场景更聚焦于博弈与多智能体学习。它的价值在于证明：大模型驱动的算法发现并不只适用于矩阵乘法或单一科学问题，也开始能进入复杂策略学习与博弈求解领域。\n\n它还没有升到更高一级，因为外溢范围目前仍主要集中在多智能体学习和博弈求解，尚未像 AlphaEvolve 本体那样形成更广泛的方法论标志。此外，结果虽强，但还需要更多社区复现和跨任务验证，才能确认这些新算法是否会成为长期主线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-24",
      "doi": "",
      "arxiv_id": "2602.16928",
      "collected_at": "",
      "collection_order": 332,
      "source_url": "https://arxiv.org/pdf/2602.16928.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.16928.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "Google DeepMind让AI进化出博弈算法，几天超越人类专家数十年积累，发布AlphaEvolve",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "discovering multiagent learning algorithms with large language models",
          "description": "Google DeepMind 团队在多智能体博弈领域取得突破，推出利用大语言模型自动发现算法的框架 AlphaEvolve。传统博弈算法设计高度依赖人类直觉和反复试错，难以应对极高维度的代码组合空间。该研究让模型在代码层面进行语义演化，直接重写 CFR 和 PSRO 等核心算法框架，并由研究员对演化出的复杂逻辑进行数学蒸馏。实验证明，提炼出的新算法在扑克、骰子等 18 种博弈环境中显著提升了收敛速度，性能超越人类专家数十年积累。这一成果为“AI 发现 AI”的科研范式提供了从暴力演化到极简真理的清晰路径。",
          "x_post": "Google DeepMind 发布 AlphaEvolve：利用 LLM 自动进化博弈算法，在 18 种博弈环境中超越人类专家基准\n\n传统多智能体博弈算法设计高度依赖专家直觉与反复试错，难以应对极高维度的代码组合空间。AlphaEvolve 框架通过大语言模型在代码层面进行语义演化，实现了对 CFR 和 PSRO 等核心算法框架的自动化重写与优化。\n\n研究团队通过消融实验，将模型演化出的复杂逻辑进一步蒸馏为更简洁、泛化性更强的 WOP-CFR 和 PM-PSRO 求解器。实验结果显示，这些新算法在包括扑克、骰子在内的 18 种博弈环境中展现出比人类设计算法更高的收敛速度与求解效率。\n\n该研究展示了从“代码级暴力演化”到“极简数学真理蒸馏”的科研路径，为 AI 辅助算法自动发现提供了清晰的方法论范式。",
          "cover_url": "assets/covers/a24-discovering-multiagent-learning-algorithms-351cbd920b.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T18:14:45+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL16_Jumpy_World_Models_Planning",
      "slug": "rl16-jumpy-world-models-planning",
      "detail_url": "papers/rl16-jumpy-world-models-planning/",
      "title": "Compositional Planning with Jumpy World Models",
      "summary": "智能体规划要跨出 primitive action 的细粒度控制，往往需要 temporal abstraction，但把预训练策略当作 temporally extended actions 后，长时预测误差会迅速积累。Jumpy world models 这篇工作把问题明确成“如何直接预测策略组合在多时间尺度上的状态占据分布”，而不是继续逐步 rollout。\n\n方法上，作者学习多步 dynamics 的 predictive models，也就是 jumpy world models，用来刻画不同预训练策略在不同时间尺度下诱导的 state occupancies；并加入跨时间尺度 consistency objective，提升长时程预测稳定性。随后这些 generative predictions 被用于估计任意策略序列组合的价值，实现 compositional planning。\n\n这篇论文对 world model / planning 方向有明确外溢，因为它展示了一种把 temporal abstraction、policy composition 和 long-horizon predictive modeling 结合起来的可复用接口。相比普通 world model 提分，它更像在重写“策略组合如何进入世界模型”的建模方式。\n\n它还是 breakthrough，不是更高一级。原因是这条线虽然很有方法价值，但目前仍主要停留在特定 compositional planning 设定里；是否能成为更普遍的 world-model planning 范式，还需要更广实验支撑。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-02-23",
      "doi": "",
      "arxiv_id": "2602.19634",
      "collected_at": "",
      "collection_order": 331,
      "source_url": "https://arxiv.org/pdf/2602.19634.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.19634.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决具身智能长程规划难题，麦吉尔大学等利用跳跃世界模型，将短跑专家组合成马拉松冠军",
          "url": "https://www.bilibili.com/video/BV1csReBiEV3",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1csReBiEV3",
            "https://youtu.be/V6ABDCpz_Ic"
          ],
          "main_collection": "机器人与具身智能",
          "match": "compositional planning with jumpy world models",
          "description": "由麦吉尔大学、Meta与Mila实验室联合研发的跳跃世界模型，旨在攻克机器人具身智能中的长程规划难题。传统强化学习在执行复杂长周期任务时，常因单步动作的误差累积导致整体失败。该研究核心在于将预训练的技能基元视为可组合的“短跑专家”，通过学习多步动力学模型实现时间抽象，允许AI直接预判宏观状态而非细碎动作。利用时序差分流与视界一致性机制，模型有效消除了长程预测中的幻觉。实验显示，该方法在机器人操控任务中的零样本性能比传统规划提升了约200%，成功将短程技能转化为长程策略，为无需重训的通用任务规划提供了新路径。",
          "x_post": "Meta、Mila与麦吉尔大学提出Jumpy World Models，提升机器人长程规划零样本性能约200%\n\n强化学习在执行长周期具身任务时，常因单步动作的累积误差（Compounding Errors）导致规划失效。该研究提出CompPlan框架，将预训练策略视为可组合的行为基元，通过学习多步动力学模型实现时间抽象。\n\n方法核心在于引入时序差分流（TD-Flow）与视界一致性机制，利用精准的短程预测作为锚点，约束长程预测中的模型幻觉。实验表明，该方法在机器人操控与导航任务中的零样本表现优于传统规划方法约200%。\n\n该研究证明了通过时间抽象与行为合成，可以在无需针对特定任务重新训练的情况下，实现从动作级微操向宏观规划的有效跨越。",
          "cover_url": "assets/covers/rl16-jumpy-world-models-planning-45bf1ea8f8.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-03T20:10:40+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N84_Auditory_CNN_Encoding_Subspace",
      "slug": "n84-auditory-cnn-encoding-subspace",
      "detail_url": "papers/n84-auditory-cnn-encoding-subspace/",
      "title": "Convolutional neural network models describe the encoding subspace of local circuits in auditory cortex",
      "summary": "这篇 Nature Neuroscience 论文处理深度神经网络作为脑编码模型的关键弱点：预测强但难解释。\n\n作者训练 CNN 预测 ferret auditory cortex 单神经元对自然声音的反应，然后通过 CNN output 对 input 的梯度做降维，得到每个神经元的 linear tuning subspace，再用 nonlinear combination 预测神经活动。\n\n结果显示该 subspace model 与 CNN 功能等价，同时揭示局部神经群体稀疏铺设共享 stimulus subspace，且 encoding properties 随 cell types 和 cortical layers 改变。\n\n它值得正式收录，因为它提供了一个解释 deep encoding model 的可复用方法，把黑箱 CNN 映射回神经可解释的 sensory subspaces，对 multimodal/audio representation、brain-model alignment 和 mechanistic interpretability 都有价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-23",
      "doi": "10.1038/s41593-026-02216-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 330,
      "source_url": "https://www.nature.com/articles/s41593-026-02216-0.pdf",
      "paper_url": "https://www.nature.com/articles/s41593-026-02216-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N56_Frequency_Specific_Attention_Distractors",
      "slug": "n56-frequency-specific-attention-distractors",
      "detail_url": "papers/n56-frequency-specific-attention-distractors/",
      "title": "Frequency-specific attentional mechanisms phasically modulate the influence of distractors on task performance",
      "summary": "问题与背景：注意节律理论认为注意力并非连续稳定，而是在采样和转移状态之间波动，但这些节律性机制如何具体调制干扰刺激对任务表现的影响，仍缺少直接证据。作者关注的是不同频段的注意机制，是否会以相位依赖的方式改变 distractor 的干扰效应。\n\n方法/新意：论文通过带有空间可预测 target 与 distractor 的注意任务，结合节律活动分析，区分了 theta 与 alpha 相关机制在干扰调制中的不同作用。关键新意在于，不是只证明“有节律”，而是进一步显示不同频段机制会以不同方式、在不同时相窗口中调制 distractor 对行为表现的影响。\n\n意义/放在仓库中的位置：这篇论文适合放在认知科学主线中的注意与节律机制方向。它把节律性注意、分心物干扰和任务表现的动态关系连到一起，对于理解注意是如何在时间上组织信息采样和抗干扰能力具有直接价值。\n\n局限/为何不再升一级：这篇工作主要推动的是注意节律与干扰调制这一具体机制问题，影响范围仍偏集中，尚未扩展成更大范围的认知框架重写，因此更稳妥地定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-23",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 329,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12928401/",
      "paper_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12928401/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A30_AdaWorldPolicy_Robotic_Manipulation",
      "slug": "a30-adaworldpolicy-robotic-manipulation",
      "detail_url": "papers/a30-adaworldpolicy-robotic-manipulation/",
      "title": "AdaWorldPolicy: World-Model-Driven Diffusion Policy with Online Adaptive Learning for Robotic Manipulation",
      "summary": "问题与背景：机器人操作策略在真实环境里常受视觉和力学分布漂移影响，离线训练好的 diffusion policy 难以在动态条件下稳健适应。\n\n方法/新意：AdaWorldPolicy 把 world model、action expert 和 force predictor 都实现成 flow-matching diffusion transformer，并用在线自适应学习在 action generation 与 future imagination 两种模式间切换，使系统在视觉和物理漂移下都能闭环更新。\n\n意义/放在仓库中的位置：这篇论文属于 robotics / world model / adaptive policy 主线。它的重要性在于把世界模型从纯预测器推进为在线适应策略的核心监督源。\n\n局限/为何不再升一级：尽管系统完整，但目前主要影响机器人 manipulation 这一赛道，尚不足以升到颠覆性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-23",
      "doi": "",
      "arxiv_id": "2602.20057",
      "collected_at": "",
      "collection_order": 328,
      "source_url": "https://arxiv.org/pdf/2602.20057v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.20057v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "刷新长程任务96%成功率，港大北航赋予机器人“物理直觉”，AdaWorldPolicy实现4Hz实时自适应",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "adaworldpolicy world model driven diffusion policy with online adaptive learning for robotic manipulation",
          "description": "香港大学与北京航空航天大学团队针对具身智能领域，联合推出了AdaWorldPolicy框架。针对传统模型在光照突变或动态环境下容易崩溃且无法实时纠错的难题，该方法将视觉世界模型与扩散策略深度整合。其核心AdaOL在线自监督学习机制，通过对比“想象未来”与真实反馈的差异来更新参数，赋予机器人类似人类的物理直觉。实验证明，该框架在长程任务中达到了96%的成功率，并支持4Hz高频实时自适应，仅需更新极少量参数。这显著增强了机器人在未知复杂场景下的鲁棒性，让其在干扰中也能稳健执行任务。",
          "x_post": "香港大学与北京航空航天大学发布 AdaWorldPolicy，利用在线自适应世界模型实现长程任务 96% 成功率。\n针对具身智能在光照突变或动态力学环境下易崩溃的局限，该研究将 Cosmos 世界模型、扩散策略与力觉感知深度耦合。其核心 AdaOL 机制通过对比“预判未来”与“真实反馈”的残差，实现在线自监督参数微调。\n实验数据表明，该系统支持 4Hz 高频实时自适应，在 OOD 分布外干扰场景下性能逆势提升 5%，而更新参数量仅占总量的 0.1% 以下。\n该框架赋予了机器人处理复杂交互的“物理直觉”，在无需人工标注的情况下显著增强了长程操纵任务的执行鲁棒性。",
          "cover_url": "assets/covers/a30-adaworldpolicy-robotic-manipulation-15c7d4a855.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-03T16:28:56+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL56_Price_Not_Right_Neurosymbolic_VLA",
      "slug": "rl56-price-not-right-neurosymbolic-vla",
      "detail_url": "papers/rl56-price-not-right-neurosymbolic-vla/",
      "title": "The Price Is Not Right: Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks with Significantly Lower Energy Consumption",
      "summary": "问题与背景：VLA 被视为通用机器人策略路径，但长程结构化任务是否必须依赖端到端基础模型并不清楚。论文用相同任务和能耗指标正面比较 VLA fine-tuning 与 neuro-symbolic planning。\n\n方法与新意：对照系统把 PDDL 符号规划和学习型低层控制组合起来，与微调的开放 VLA 在 Towers of Hanoi 操作任务上比较成功率、未见 4-block 泛化、训练能耗和运行能耗。结果显示 neuro-symbolic 在成功率和能效上明显优于 VLA。\n\n收录意义：这篇的价值不是提出新 VLA，而是给机器人长程任务提供了一个清晰的反例和评测框架：显式结构、规划约束和低层学习的组合在某些任务上比端到端 VLA 更可靠、更省能。它对 embodied AI 的架构选择有可复用警示价值。\n\n局限：任务仍是结构化仿真操作，领域范围窄，不能推出所有机器人任务都应回到符号规划；因此作为 breakthrough 反例和评测证据收录，而不是更高等级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-02-22",
      "doi": "",
      "arxiv_id": "2602.19260",
      "collected_at": "",
      "collection_order": 327,
      "source_url": "https://arxiv.org/pdf/2602.19260.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.19260.pdf",
      "project_urls": [
        "https://price-is-not-right.github.io"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "J3_US_JEPA",
      "slug": "j3-us-jepa",
      "detail_url": "papers/j3-us-jepa/",
      "title": "US-JEPA: A Joint Embedding Predictive Architecture for Medical Ultrasound",
      "summary": "这篇论文把 JEPA 应用到了超声医学影像。这个方向是匹配的，因为超声本身噪声大、伪影多、像素重建目标不稳定，传统 masked image modeling 在这种场景里天然吃亏，而 JEPA 这类 masked latent prediction 更适合学到稳健语义表示。\n\n方法上，作者提出 `US-JEPA`，并引入 `SALT`，即 static-teacher asymmetric latent training。和标准 JEPA 常用的 EMA online teacher 不同，这里用一个冻结的领域教师提供稳定 latent targets，让 student 去扩展这些医学语义先验。这样能减少 teacher-student 联合优化的不稳定性，也更适合医疗场景下高噪声数据的训练。\n\n这篇工作的贡献有两层。一层是方法本身：证明 JEPA 风格的 latent prediction 在超声这种困难模态上确实比像素级重建更合理。另一层是评测贡献：它给了一个比较系统的超声 foundation model 对比，在 UltraBench 这样的公开基准上做了更完整的横向验证。\n\n我对它的定位是突破性。它不是会改写整个 JEPA 主线的论文，但它足够说明 JEPA 在医疗影像里不是概念秀，而是有明确落地价值的一条路线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-02-22",
      "doi": "",
      "arxiv_id": "2602.19322",
      "collected_at": "",
      "collection_order": 326,
      "source_url": "https://arxiv.org/pdf/2602.19322.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.19322.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "极少标注也能精准诊病，UCLA发布US-JEPA，解决超声图像噪声干扰难题",
          "url": "https://www.bilibili.com/video/BV1kdLc6UEDX",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1kdLc6UEDX",
            "https://youtu.be/gKZl8_TssMw"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "us jepa a joint embedding predictive architecture for medical ultrasound",
          "description": "加州大学洛杉矶分校（UCLA）在医疗AI领域发布US-JEPA大模型。针对超声图像信噪比低、伪影严重及专家标注稀缺的痛点，该框架摒弃传统的像素级重建，采用SALT异步训练机制，在潜在嵌入空间预测高级语义特征。基于473万张图像的预训练结果显示，该模型在仅需极少量标签的情况下，诊断精度与抗噪鲁棒性均优于主流视觉大模型，显著提升了临床辅助诊断的效率与稳定性。",
          "x_post": "UCLA发布US-JEPA：基于473万张图像预训练，显著提升超声图像诊病鲁棒性与标签效率\n医疗超声图像受散斑噪声与采集伪影干扰，传统像素级重建模型易陷入过拟合。为解决此难题，UCLA团队提出US-JEPA框架，摒弃像素填空，转而采用SALT异步训练机制在潜在嵌入空间预测高级语义特征。该研究构建了规模达473万张图像的预训练数据集，并扩展UltraBench基准以涵盖更多器官与病理分类。实验结果显示，US-JEPA在极少标注样本下仍能保持高诊断精度，其抗噪鲁棒性均优于通用视觉基础模型，为低标注、高噪声环境下的临床辅助诊断提供了高效稳定的技术支撑。",
          "cover_url": "assets/covers/j3-us-jepa-9e7e6cd562.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T16:36:16+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "I14_Prompt_Injection_Role_Confusion",
      "slug": "i14-prompt-injection-role-confusion",
      "detail_url": "papers/i14-prompt-injection-role-confusion/",
      "title": "Prompt Injection as Role Confusion",
      "summary": "Prompt injection 的已有解释往往停留在接口层：哪些输入来自 system、user、tool 或 external content，以及为什么模型没能遵守这些边界。但大量防御实践已经表明，哪怕接口层角色边界写得很清楚，模型依然会把恶意内容当成高权限指令执行。\n\n这篇工作给出一个更底层的解释：role confusion。作者通过 role probes 测量模型内部是如何判断“谁在说话”的，结果显示模型更依赖文本的写法和语气来推断 authority，而不是依赖内容来源边界。由此，模仿高权限语气的非可信文本会在 latent space 里继承对应权威，从而统一解释多种 prompt injection 攻击。\n\n这篇工作值得收录，而且我给到 disruptive，因为它把 prompt injection 从 interface-spec compliance 问题改写成 latent authority assignment 问题。这个重述不只是解释现象，而是会直接改变后续防御设计、评估方式以及我们对 agent 安全边界的理解。\n\n它没有升到 paradigm，是因为当前虽然机制解释很强，但离形成统一的训练、架构和 runtime 安全蓝图还差一步。它已经明显高于经验性 attack paper，但还未完全沉淀成全行业默认范式。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-02-22",
      "doi": "",
      "arxiv_id": "2603.12277",
      "collected_at": "",
      "collection_order": 325,
      "source_url": "https://arxiv.org/pdf/2603.12277.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.12277.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "击穿大模型的“架构级”防御：为何严密的权限标签在特定的文风模仿面前瞬间形同虚设？",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "prompt injection as role confusion",
          "description": "本视频深入探讨大型语言模型中提示注入攻击的底层逻辑。研究发现，模型并非单纯通过技术标签识别身份，而是根据文本风格在潜在空间中推断角色。研究者通过“角色探针”技术证明，恶意指令通过模仿思维链（CoT）或系统指令的文风，可直接绕过权限标签获取高执行权限。实验显示该方法在多个主流模型上的攻击成功率超过60%，揭示了当前安全防御在模型几何特征层面的本质缺陷。该研究为理解大模型安全边界提供了机械论视角的解释，并定义了全新的攻击面。",
          "x_post": "研究团队揭示大模型提示注入根源：角色混淆导致伪造思维链攻击成功率超60%\n\n当前大模型主要依靠角色标签（如 <user>）建立安全边界，但本研究通过“角色探针”技术发现，模型防御在潜空间几何层面存在本质漏洞。模型并非通过技术标签识别身份，而是根据文本风格推断角色权限。\n\n实验证明，当恶意指令模仿思维链（CoT）文风时，模型内部触发的推理特征值达83%，且此特征在移除标签后依然存在。此类“CoT伪造攻击”在多个主流模型上的成功率超过60%，显示风格特征的权重足以压制架构级标签。\n\n该研究揭示了安全防御在界面层与几何特征层的脱节。开发者定义的角色边界在特定文风模仿面前形同虚设，为理解和测量提示注入提供了全新的机械论解释与攻击面定义。",
          "cover_url": "assets/covers/i14-prompt-injection-role-confusion-c6ad9b2d84.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-03T13:48:43+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW8_SKYLIGHT_Photonic_Tensor_Core",
      "slug": "hw8-skylight-photonic-tensor-core",
      "detail_url": "papers/hw8-skylight-photonic-tensor-core/",
      "title": "SKYLIGHT: A Scalable Hundred-Channel 3D Photonic In-Memory Tensor Core Architecture for Real-time AI Inference",
      "summary": "这篇论文处理的是 photonic AI accelerator 里最容易停留在器件层演示的问题：很多工作有单点器件亮点，但缺乏足够清晰的 AI compute architecture 设计。SKYLIGHT 的贡献在于把拓扑、波长路由、累加、编程方式和 3D stack 统一设计成面向实时 AI inference 的 tensor core，而不是做又一个局部 photonic primitive。\n\n它提出了 3D Si/SiN crossbar、非 MRR 的热稳健 WDM 组件、多端口 PD 的分层累加，以及可光编程的 PCM 权重，形成一个 hundred-channel 级的 3D photonic in-memory tensor core。更关键的是，论文没有只停留在算力数字上，而是把硬件非理想性、低比特量化、模拟噪声和局部学习都纳入系统级评估。\n\n按本仓库标准，这篇论文清楚地跨过了“纯器件新奇性”门槛，因为它提供的是可复用的 AI-hardware co-design blueprint，尤其对 photonic accelerator、in-memory compute、以及未来大规模低功耗 AI inference 体系有明确结构性参考价值。\n\n它还不是更高一级，因为 photonic accelerator 路线整体仍在早期，很多结果来自系统建模与特定任务评估；它展示了很强方向性，但还没有把 AI 训练/推理主流设计空间真正改写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-02-22",
      "doi": "",
      "arxiv_id": "2602.19031",
      "collected_at": "",
      "collection_order": 324,
      "source_url": "https://arxiv.org/pdf/2602.19031.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.19031.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "实现AI推理零静态功耗：SKYLIGHT引入非易失相变材料，在物理层面固化大规模权重矩阵",
          "url": "https://www.bilibili.com/video/BV1DjXjBcEqu",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1DjXjBcEqu",
            "https://youtu.be/22n53I6eSNc"
          ],
          "main_collection": "AI硬件设计",
          "match": "skylight a scalable hundred channel 3d photonic in memory tensor core architecture for real time ai inference",
          "description": "针对传统电子芯片在AI推理中面临的功耗墙与扩展性瓶颈，SKYLIGHT提出了一种基于3D硅基光子集成的存算一体架构。该架构利用Si/SiN垂直堆叠技术解决了2D平面波导交叉带来的高损耗问题，并在物理层面引入非易失性相变材料固化权重矩阵，实现了推理过程的零静态功耗。通过顶置VCSEL阵列进行纳秒级超快光学编程，有效避免了电控微加热器的热串扰。实验数据表明，该架构在处理实时AI任务时的能效比高性能GPU提升1.61倍，为百通道级大规模光子计算提供了从物理层到系统层的完整方案。",
          "x_post": "ASU 团队研发 SKYLIGHT 3D 光子存算架构：实现 144x256 规模阵列，能效比 GPU 提升 1.61 倍\n\n针对电子芯片推理功耗墙与 2D 光子架构高损耗难题，研究提出一种 3D 集成方案。该架构通过 Si/SiN 垂直堆叠技术实现无交叉波导拓扑，并引入非易失性 N-GST 相变材料在物理层固化权重矩阵。实验数据显示，该方案将系统总光损耗从 89.8 dB 降至 32.0 dB，支持 7-bit 编程精度与 50 ns 高速光学重写。SKYLIGHT 在 40-50°C 范围内无需热锁定功耗，实现了 AI 推理过程的零静态功耗，为百通道级大规模光子集成电路提供了系统级路径。",
          "cover_url": "assets/covers/hw8-skylight-photonic-tensor-core-b2d4917741.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T06:58:30+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A20_DoAtlas_1",
      "slug": "a20-doatlas-1",
      "detail_url": "papers/a20-doatlas-1/",
      "title": "DoAtlas-1: A Causal Compilation Paradigm for Clinical AI",
      "summary": "问题与背景\n当前医学基础模型很擅长生成解释性文本，但很难真正回答“如果干预会怎样”这类可审计、可执行的问题。叙事式输出无法量化 intervention effect，也很难识别证据冲突或支持真正的因果查询。\n\n方法/新意\nDoAtlas-1 的核心是 causal compilation：把医学研究中的异构证据标准化为可执行的 estimand object，显式记录 intervention contrast、effect scale、time horizon 和 target population。系统再基于这些对象支持 do-calculus、反事实、时间轨迹、异质性效应等六类因果查询。\n\n意义/放在仓库中的位置\n这篇适合放在临床 AI / agentic scientific reasoning 主线，和 AutoNumerics、BEACONS 这类“把自然语言知识转成可执行系统”的论文同类。它的亮点不是单纯提高问答分数，而是把 clinical AI 往可验证、可审计的因果推理方向推进。\n\n局限/为何不更高\n目前还是 arXiv 阶段，证据主要集中在 compiled medical evidence graph 和查询执行性上，距离成为真正临床部署平台还有不小距离。它是很值得收的突破性条目，但还没到范式级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-22",
      "doi": "",
      "arxiv_id": "2602.19158",
      "collected_at": "",
      "collection_order": 323,
      "source_url": "https://arxiv.org/abs/2602.19158",
      "paper_url": "https://arxiv.org/abs/2602.19158",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "临床决策准确率达 98.5%，MBZUAI 联合西交利物浦发布 DoAtlas-1 实现因果编译",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "doatlas 1 a causal compilation paradigm for clinical ai",
          "description": "MBZUAI与西交利物浦大学联合团队在临床人工智能领域取得突破。针对现有医疗大模型仅能生成叙事文本、缺乏可量化因果支撑且无法用于高风险决策的痛点，研究团队推出DoAtlas-1系统。该系统核心采用“因果编译”范式，将海量非结构化医学文献解构为包含人群、干预、结果等维度的标准化估算对象。在一万多名参与者的真实世界数据验证中，DoAtlas-1实现了98.5%的决策准确率，并支持反事实推理与证据冲突检测。这标志着医疗AI从模糊的文本生成跨越到可验证、确定性的因果推理阶段，为构建精准、透明、可审计的临床决策支持系统奠定了技术基础。",
          "x_post": "MBZUAI 联合西交利物浦大学发布 DoAtlas-1，临床决策准确率达 98.5%\n针对现有医疗大模型侧重叙事生成、缺乏定量因果支撑的局限性，研究团队提出“因果编译”（Causal Compilation）范式，将非结构化医学文献转化为可执行的因果代码。\n该系统通过解构 754 项研究并构建包含 1,445 个因果效应的标准化图谱，实现了对干预效应、反事实推理及中介效应的定量化评估。\n在一万多名参与者的真实世界数据验证中，DoAtlas-1 实现了 98.5% 的决策准确率，并具备显著的证据冲突检测与审计能力。\n此项工作推动了医疗 AI 从生成式文本向可验证、确定性因果推理模型的范式转移，为构建精准临床决策支持系统奠定了技术基础。",
          "cover_url": "assets/covers/a20-doatlas-1-cfcda5c505.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T16:21:05+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM10_Neural_Fields_World_Models",
      "slug": "mm10-neural-fields-world-models",
      "detail_url": "papers/mm10-neural-fields-world-models/",
      "title": "Neural Fields as World Models",
      "summary": "这篇论文提出的问题很基础：为什么许多 world model 要先把感知输入压缩成抽象 latent，再在 latent 空间里做状态转移？作者认为这种做法会丢失感觉皮层里重要的空间拓扑，因此提出用 neural fields 构建更“同构”的世界模型。\n\n方法上，作者用 neural fields 和 motor-gated channels 让 activity 通过局部 lateral connectivity 演化，并让运动指令对特定通道做乘性调制。这样物理预测更像几何传播，而不是黑盒 latent transition。\n\n它在仓库中的位置是 world model / NeuroAI 主线。价值不是纯性能，而是提出一种与感觉皮层组织更一致的世界建模方式，适合作为“脑启发 world model”条目收录。\n\n它没有升得更高，是因为篇幅短、实验覆盖面有限，当前更像概念明确且实验支持不错的方向论文，而不是已被大规模验证的主线方案。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-02-21",
      "doi": "",
      "arxiv_id": "2602.18690",
      "collected_at": "",
      "collection_order": 322,
      "source_url": "https://arxiv.org/pdf/2602.18690.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.18690.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "印第安纳大学让AI拥有人类物理直觉，彻底解决物体瞬移难题，发布同构神经场世界模型",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "neural fields as world models",
          "description": "印第安纳大学研究团队针对AI在预测物体运动时常出现的“瞬移”现象，开发了基于神经场的同构世界模型。传统模型因过度压缩空间结构导致物理逻辑崩溃，而该研究受脑科学启发，利用神经场内的局部侧向连接模拟大脑视觉皮层，确保物体轨迹在空间中连续演化。通过引入运动门控通道，模型成功将动作指令转化为神经元的增益调制。实验证明，该架构仅凭视觉即可掌握抛物线动态，其虚拟环境训练出的策略迁移至现实时的效率是传统模型的2倍，并自发形成了身体图式。这为构建具备直觉物理能力的具身智能提供了关键的空间拓扑表征方案。",
          "x_post": "印第安纳大学团队提出同构神经场世界模型，实现策略迁移至现实物理环境效率提升 2 倍\n\n传统 AI 世界模型因过度压缩空间结构，常导致预测轨迹中物体出现非物理的“瞬移”现象。研究者受脑科学启发，利用神经场的局部侧向连接模拟视觉皮层拓扑映射，确保物体在表征空间内沿连续几何路径演化。\n\n该架构引入运动门控通道，通过增益调制机制将动作指令整合进视觉预测。实验证明，模型仅凭视觉即可掌握抛物线物理动态，其生成的虚拟环境在指导策略迁移时的效率是传统模型的 2 倍，并伴随身体图式的自发编码。\n\n研究结果表明，保持表征空间与物理世界的几何同构，是赋予具身智能物理直觉并实现复杂动作整合的关键路径。",
          "cover_url": "assets/covers/mm10-neural-fields-world-models-b9f7048a73.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T16:01:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL4_Experiential_Reinforcement_Learning",
      "slug": "rl4-experiential-reinforcement-learning",
      "detail_url": "papers/rl4-experiential-reinforcement-learning/",
      "title": "Experiential Reinforcement Learning",
      "summary": "这篇论文试图改写当前 agent RL 的一个核心训练视角：模型不应只从奖励信号里被动更新，而应显式地把过去轨迹转化为可复用的经验，并在后续决策中继续消费这些经验。作者把这一点 formalize 成 Experiential Reinforcement Learning，强调 experience 本身是学习与控制中的一等对象，而不只是 replay buffer 里的原始样本。\n\n方法上，论文把轨迹中的经验抽取、整理和利用并入强化学习闭环，形成更接近“从经历中形成策略性记忆”的训练框架。它的价值不在于单个技巧，而在于把 RL 里的 credit assignment、trajectory reuse 和 agent memory 重新组织到一个更统一的经验学习范式里。这个 framing 对长时程 agent 和 memory-augmented RL 尤其重要。\n\n这项工作值得收录，因为它不是普通 RL 增量算法，而是对 agent learning loop 的重述。它与当前仓库里的 trajectory memory、agent self-improvement、RL post-training 等主线直接相邻，属于会影响后续 agent training 设计的高信号条目。\n\n它还不到 disruptive，原因是目前还需要更多任务范围和外部复现来证明这个经验学习框架的通用收益。现阶段更稳的定位是一篇值得长期跟踪的 breakthrough。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-02-20",
      "doi": "",
      "arxiv_id": "2602.13949",
      "collected_at": "",
      "collection_order": 321,
      "source_url": "https://arxiv.org/pdf/2602.13949.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.13949.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "微软联合宾大与USC实现AI决策性能提升81%，通过经验内化发布ERL",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "experiential reinforcement learning",
          "description": "微软联合南加州大学与宾夕法尼亚大学在智能体推理领域取得突破。针对传统强化学习在复杂任务中因反馈延迟、盲目试错导致学习效率低下的痛点，研究团队提出经验强化学习（ERL）框架。该方法核心在于构建“尝试—反思—内化”闭环，让模型在失败后生成结构化自我复盘，并将纠错经验直接转化为底层策略。实验证明，ERL在多步推理和工具调用等任务中，最高实现81%的性能提升。该技术让AI具备了“吃一堑长一智”的学习能力，不增加推理成本即可实现更准、更稳的自主进化。",
          "x_post": "微软、南加州大学与宾夕法尼亚大学发布ERL框架，通过经验内化实现AI决策性能提升81%\n针对传统强化学习在复杂任务中因反馈延迟导致的“盲目试错”难题，研究团队提出了经验强化学习（ERL）框架。\n该方法核心在于构建“尝试—反思—内化”闭环，使模型在失败后生成结构化自我复盘，并将纠错经验直接转化为底层策略。\n实验结果显示，ERL在多步推理和工具调用等任务中表现优异，最高实现了81%的性能提升。\n该技术在不增加推理成本的前提下，使AI具备了更强的环境适应与自主进化能力，有效解决了长线任务中的信用分配问题。",
          "cover_url": "assets/covers/rl4-experiential-reinforcement-learning-4d8d4cbc7b.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T16:01:36+08:00"
        },
        {
          "title": "像人类一样自我反思：微软ERL架构如何破解稀疏奖励难题，让AI逻辑性能飙升81%",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "experiential reinforcement learning",
          "description": "像人类一样自我反思：微软ERL架构如何破解稀疏奖励难题，让AI逻辑性能飙升81%\n\n这项研究介绍了一种名为经验强化学习（ERL）的新训练范式，旨在提升语言模型从环境反馈中学习的效率。传统的强化学习往往依赖稀疏的标量奖励，而 ERL 通过引入“经验—反思—整合”循环，使模型能够将失败转化为结构化的行为修正。在训练过程中，模型首先进行尝试并接收反馈，随后生成自我反思以指导第二次尝试，最后通过内部化机制将成功的经验巩固进基础策略中。实验表明，该方法在控制环境和智能体推理任务中显著优于传统基准，在复杂任务中表现提升高达 81%。最重要的是，ERL 确保了模型在推理阶段无需额外计算即可保持更强的性能。这种方法有效地模仿了人类通过反思错误来改进行为的学习过程。",
          "x_post": "微软发布经验强化学习（ERL）架构，通过反思循环使复杂任务表现提升81%\n针对传统强化学习中稀疏标量奖励导致的学习效率瓶颈，微软研究团队提出ERL范式。\n该架构引入“经验—反思—整合”循环，引导语言模型通过尝试与反馈生成结构化的自我修正建议。\n实验数据显示，ERL在智能体推理及复杂任务中的性能显著优于传统基准，最高提升幅度达81%。\n研究核心在于通过内部化机制将反思经验巩固进基础策略，确保模型在推理阶段无需额外计算即可维持高性能。",
          "cover_url": "assets/covers/rl4-experiential-reinforcement-learning-759afcbda8.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-01T22:33:43+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P19_Multiphoton_Hopfield_Memory",
      "slug": "p19-multiphoton-hopfield-memory",
      "detail_url": "papers/p19-multiphoton-hopfield-memory/",
      "title": "Multiphoton Quantum Simulation of the Generalized Hopfield Memory Model",
      "summary": "这篇论文讨论的不是常见的光子芯片通信或线性传输问题，而是一个更强的交叉命题：多光子量子干涉能否在物理层面实现类似联想记忆网络的有效动力学。作者把问题锚定到广义霍普菲尔德模型，试图回答光学量子系统是否能天然承载经典神经记忆模型中的高阶相互作用、记忆检索与黑障相变。\n\n论文的核心贡献是给出了一条明确映射：由不可分辨光子、可控二值相移器和线性光学干涉仪构成的系统，其输出统计可以对应到 p 体广义 Hopfield Hamiltonian，其中 p = 2N_ph。作者进一步详细分析了四体情形，展示了随着存储记忆增多，系统会从可检索记忆区转入记忆失效的 spin-glass 区域。这使得“光子量子干涉模拟联想记忆”不再停留在类比，而成为可计算、可分析的严格对应。\n\n这篇工作适合放在仓库的 AI x physics / 光子量子模拟主线中。它的价值不在于直接提供可部署的 AI 芯片，而在于把光子量子模拟、复杂系统和联想记忆模型真正连接起来，为类脑光计算、量子模拟复杂能量景观以及高阶记忆模型提供了新的物理实现视角。对后续理解光学系统与记忆网络之间的结构对应关系很有参考价值。\n\n它目前仍属于理论与模拟层面的强结果，而不是已经扩展成实用的光子联想记忆平台。论文证明的是可严格映射和可观察相变，不是大规模、可编程、鲁棒的硬件记忆系统。因此它值得正式收录为突破性条目，但还不到会重排更大 AI 或光子计算路线的更高等级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-02-20",
      "doi": "",
      "arxiv_id": "2504.00111",
      "collected_at": "",
      "collection_order": 320,
      "source_url": "https://arxiv.org/pdf/2504.00111.pdf",
      "paper_url": "https://arxiv.org/pdf/2504.00111.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N43_deepmriprep",
      "slug": "n43-deepmriprep",
      "detail_url": "papers/n43-deepmriprep/",
      "title": "deepmriprep: voxel-based morphometry preprocessing via deep neural networks",
      "summary": "问题与背景\nVBM 是结构脑影像研究里最常用的分析流程之一，但经典预处理工具链非常慢，在大规模 MRI 数据时代已经成为瓶颈。deepmriprep 试图解决的就是“如何用神经网络把结构 MRI 的标准预处理提速到真正可扩展”。\n\n方法/新意\n论文用深度学习分别替代 VBM 预处理中的关键步骤，包括 tissue segmentation 与 nonlinear registration，并把整个流程整合成可在 GPU 上运行的完整管线。作者强调它不仅更快，而且在跨 100 多个数据集上维持与 CAT12 高度一致的结果。\n\n意义/放在仓库中的位置\n它属于脑影像主线里的基础设施型突破，和 BrainIAC、Prima 这类 foundation model 不同，deepmriprep 解决的是更底层但更普遍的 preprocessing 工具瓶颈。对以后大规模 MRI 数据分析和临床影像流水线都很有实际价值。\n\n局限/为何不更高\n这是一篇很强的系统工具论文，但外溢面主要局限在 VBM 预处理这一工作流。相比真正改变建模范式的 foundation model 或 NeuroAI 论文，它更偏“关键基础设施”，因此不再升一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-20",
      "doi": "10.1038/s43588-026-00953-7",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 319,
      "source_url": "https://www.nature.com/articles/s43588-026-00953-7",
      "paper_url": "https://www.nature.com/articles/s43588-026-00953-7",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "10万核磁处理从半年缩短至5天，deepmriprep实现37倍效率跨越",
          "url": "https://www.bilibili.com/video/BV1ST9zBbEmq",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1ST9zBbEmq",
            "https://youtu.be/auCc_LsmQcA"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "deepmriprep voxel based morphometry preprocessing via deep neural networks",
          "description": "该项发表于Nature子刊的研究介绍了deepmriprep，一种专为体素形态学分析（VBM）设计的端到端深度学习预处理管线。针对传统工具处理大规模核磁共振数据时动辄耗时数月的算力瓶颈，该团队开发了集成级联3D UNet与sSYMNet的GPU加速引擎，实现了大脑提取、组织分割与空间配准的无缝整合。实验证明，其处理速度较传统工具CAT12提升37倍，将10万份影像的处理周期从半年缩短至5天，且准确率与金标准高度一致。这一突破极大缓解了科研处理瓶颈，为超大规模神经影像研究及实时临床诊断奠定了技术基础。",
          "x_post": "deepmriprep 团队发布 VBM 预处理工具 deepmriprep，核磁影像处理效率提升 37 倍\n\n随着神经影像研究进入十万级样本量时代，传统基于 CPU 的 VBM 预处理工具（如 CAT12）面临严重的计算瓶颈。研究团队开发的 deepmriprep 采用级联 3D UNet 与 sSYMNet 架构，实现了大脑提取、组织分割与空间配准的端到端 GPU 加速。\n\n实验数据表明，该工具将单份 MRI 扫描的处理时间从 173 秒缩短至 4.6 秒。在处理 10 万份影像时，计算周期由传统方法的 6 个月大幅压缩至 5 天，且组织分割准确率与金标准保持高度一致。\n\n该研究解决了大规模神经影像数据处理的算力冗余问题，为超大规模脑图谱构建及实时临床诊断提供了可扩展的自动化管线支撑。",
          "cover_url": "assets/covers/n43-deepmriprep-1b2937e84b.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-27T12:43:14+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A9_FlyGM_Fruit_Fly_Control",
      "slug": "a9-flygm-fruit-fly-control",
      "detail_url": "papers/a9-flygm-fruit-fly-control/",
      "title": "Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly",
      "summary": "这篇论文处理的是一个很少被真正做实的问题：完整果蝇脑 connectome 能不能直接作为 embodied reinforcement learning 的控制骨架，而不是只作为生物学可视化对象。作者把成年果蝇全脑 connectome 直接转成 whole-body locomotion controller，并和生物力学果蝇身体模型耦合，目标是检验静态 connectome 结构本身是否足以支持稳定的运动控制。\n\n方法上的新意在于 `FlyGM`：它不重新发明一个任务专用策略网络，而是把果蝇全脑连接结构固定为 directed message-passing graph，让信息从感觉输入到运动输出沿着 connectome 流动。论文再把这个控制器接到 embodied RL 训练里，并和 degree-preserving rewired graph、random graph、MLP 等结构做对照，以验证“真实 connectome 拓扑”本身是否带来样本效率和最终性能优势。\n\n这篇值得放进仓库，是因为它把 connectome、graph model、embodied control 三件事真正接到了一起。它不是单纯的神经科学分析，也不是常规机器人控制调参，而是一个很明确的“脑连接结构能不能作为控制归纳偏置”的实验平台。按仓库标准，我把它放在突破性：它对 brain-inspired control 和 connectome-as-policy 方向有明显外溢价值。\n\n它还不到更高一级，原因也明确：目前仍是 arXiv 工作，任务范围集中在 locomotion，离“完整虚拟果蝇”或更广泛的通用 embodied intelligence 还有距离。它更像一篇非常值得跟的强论文，而不是已经改写整条路线图的范式级成果。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-20",
      "doi": "",
      "arxiv_id": "2602.17997",
      "collected_at": "",
      "collection_order": 318,
      "source_url": "https://arxiv.org/pdf/2602.17997.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.17997.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "破解 6G 高频传输悖论：AutoBS 以全自动部署框架与数万倍感知效率，终结传统射线追踪的计算梦魇",
          "url": "https://www.bilibili.com/video/BV1UnSDByEFk",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1UnSDByEFk",
            "https://youtu.be/N82Ii-fjFzQ"
          ],
          "main_collection": "AI硬件设计",
          "match": "whole brain connectomic graph model enables whole body locomotion control in fruit fly",
          "description": "针对 6G 高频段信号衰减严重及传统射线追踪算法计算冗长的问题，本研究提出全自动部署框架 AutoBS。该框架集成生成式数字网络孪生模型 PMNet，利用深度学习绕过复杂物理计算，实现毫秒级路径损耗预测。配合 PPO 强化学习算法，系统可在复杂城市环境中自主寻优，平衡覆盖范围与通信容量。实验表明，该方案在保持 95% 接近最优部署性能的前提下，将计算耗时从数小时降至毫秒级。这种极速推演能力为灾后应急通讯、军事动态组网等高动态场景提供了实时拓扑优化的可能，推动了移动通信网络从人工规划向智能化自主演进。",
          "x_post": "Nokia与USC研究团队开发AutoBS框架：实现6G基站毫秒级全自动部署，性能达最优解95%。\n针对6G高频信号在复杂城市环境下的衰减挑战及传统射线追踪算法数小时级的计算瓶颈，该研究提出了集成生成式数字网络孪生（PMNet）与深度强化学习（PPO）的自动化拓扑优化框架。\n实验表明，PMNet在RMSE维持在10^-2量级的前提下，将路径损耗预测速度提升数万倍，实现了从小时级到毫秒级的推演跨越。\n系统通过马尔可夫决策过程自主平衡覆盖范围与通信容量，在维持极高部署精度的同时，显著降低了算力开销。\n这一进展为灾后应急通讯、军事动态组网等需实时决策的高密度组网场景提供了关键技术支撑。",
          "cover_url": "assets/covers/a9-flygm-fruit-fly-control-6bc9ca23ed.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-05T17:50:44+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P30_Meta_Design_Quantum_Experiments",
      "slug": "p30-meta-design-quantum-experiments",
      "detail_url": "papers/p30-meta-design-quantum-experiments/",
      "title": "Meta-designing quantum experiments with language models",
      "summary": "问题与背景：AI 可以搜索量子实验方案，但很多结果只是孤立解，缺乏可读的物理原则和可外推的设计规则。论文把问题推进到 meta-design：让模型生成可解释、可扩展的实验族。\n\n方法与机制：研究训练 transformer language model 生成 Python 代码，代码描述量子态和实验蓝图之间的构造规则。模型基于数百万合成样本学习从目标状态到实验族的映射，而不是只输出单个实验实例。\n\n为什么重要：这是 AI for physics 中从 black-box search 走向 human-readable design programs 的清晰样例。它把 LLM 用作科学设计规则抽取器，对量子实验、符号化设计和科学自动化都有方法论价值。\n\n局限：训练依赖大量合成问题，真实实验约束和噪声下的可执行性还需更广泛验证；因此定位为突破级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-02-19",
      "doi": "10.1038/s42256-025-01153-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 317,
      "source_url": "https://www.nature.com/articles/s42256-025-01153-0.pdf",
      "paper_url": "https://www.nature.com/articles/s42256-025-01153-0.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P13_Projection_Constrained_Flow_Distributions",
      "slug": "p13-projection-constrained-flow-distributions",
      "detail_url": "papers/p13-projection-constrained-flow-distributions/",
      "title": "Learning Flow Distributions via Projection-Constrained Diffusion on Manifolds",
      "summary": "问题与背景：用扩散模型生成物理可行流场时，常见问题是物理约束只是软惩罚，难以保证不可压缩性、边界条件和复杂几何上的一致性。\n\n方法/新意：这篇工作把 diffusion 生成和 manifold/projection 约束结合起来，通过 projection-constrained 机制让生成过程更接近严格物理可行集合，而不是事后打补丁。重点在于把流体约束内嵌进生成过程。\n\n意义/放在仓库中的位置：它属于 AI x physics / generative scientific modeling 主线，和 WALRUS、Mac-Diff、DiffPharma 处在‘生成模型进入科学对象空间’这条路线。对物理一致生成特别有代表性。\n\n局限/为何不再升一级：当前主要集中在二维不可压流生成这一类问题，外溢虽有但还不足以升到更高一级。更像强物理生成方法，而不是总范式改写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-02-19",
      "doi": "",
      "arxiv_id": "2602.17773",
      "collected_at": "",
      "collection_order": 316,
      "source_url": "https://arxiv.org/pdf/2602.17773v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.17773v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "普渡大学让 AI 彻底读懂物理定律，流体生成散度误差降低 10 倍，发布投影约束扩散框架",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "learning flow distributions via projection constrained diffusion on manifolds",
          "description": "普渡大学研究团队在生成式流体动力学领域取得突破。针对传统扩散模型生成流场时难以遵守物理定律且难以适配复杂边界的问题，团队提出了投影约束扩散（TCP）框架。该方法通过结合边界条件扩散、软性物理惩罚与硬性的亥姆霍兹-霍奇投影算子，确保生成流场严格符合无散性约束。实验证明，该模型使流体生成的散度误差降低了10倍，边界合规性提升超25%，并展现出极强的未知几何泛化能力。这一成果为机器人避障规划、影视特效模拟及科学计算提供了更精准、更稳健的建模方案。",
          "x_post": "普渡大学发布投影约束扩散框架 TCP，流场生成散度误差降低 10 倍\n针对生成式模型在模拟不可压缩流体时难以遵守物理定律的问题，普渡大学团队提出投影约束扩散（TCP）框架。该方案通过在扩散采样过程中执行硬性的亥姆霍兹-霍奇投影（Helmholtz–Hodge projection）算子，确保生成流场严格符合无散性约束。实验表明，该模型将流体生成的散度误差降低了 10 倍，边界合规性提升超 25%，并具备极强的未知几何形状泛化能力。这一成果为机器人避障规划、计算机图形学及科学仿真提供了具备物理一致性的建模方案。",
          "cover_url": "assets/covers/p13-projection-constrained-flow-distributions-110521e18a.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T15:55:33+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P10_AutoNumerics_PDE",
      "slug": "p10-autonumerics-pde",
      "detail_url": "papers/p10-autonumerics-pde/",
      "title": "AutoNumerics: An Autonomous, PDE-Agnostic Multi-Agent Pipeline for Scientific Computing",
      "summary": "偏微分方程是科学计算和工程建模的基础，但设计稳定、准确且高效的数值求解器通常需要较强的数学背景和大量人工调参。本文关注的问题不是再训练一个黑盒神经求解器，而是让 AI 从自然语言描述出发，自动完成数值方法设计、实现、调试和验证，从而降低科学计算的门槛。\n\n作者提出 AutoNumerics，一个面向 PDE 的多智能体流水线。系统强调使用经典数值分析方法而非纯神经网络近似，并加入 coarse-to-fine 执行策略和 residual-based self-verification 机制，用来自动检查求解器是否满足方程结构和数值残差要求。它的重点不只是“生成代码”，而是把方案选择、调试和验证组织成一个自治但可审计的流程。\n\n这篇论文适合仓库的 AI×物理 / AI×科学计算主线。它和 QUASAR、BEACONS 这类条目相近，代表的是“AI 作为科学工作流构造器”而非单一模型。对 PDE 求解、自动数值分析、科学计算辅助系统都有外溢价值，尤其适合放在 scientific computing automation 这条子线里。\n\n它目前归为突破性而不是更高一级，原因是证据虽然扎实，但影响范围仍主要集中在 PDE 数值求解与多智能体科学流水线上，尚未形成像 AlphaEvolve 那样的路线重排效应。它更像一篇很强的科学计算自治系统论文，而不是范式级总纲领成果。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-02-19",
      "doi": "",
      "arxiv_id": "2602.17607",
      "collected_at": "",
      "collection_order": 315,
      "source_url": "https://arxiv.org/pdf/2602.17607.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.17607.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结AI计算的逻辑漏洞：AutoNumerics通过粗细粒度执行策略，在海量候选方案中精准锁定物理世界的数学真理",
          "url": "https://www.bilibili.com/video/BV18Jwkz4E8K",
          "platform_urls": [
            "https://www.bilibili.com/video/BV18Jwkz4E8K",
            "https://youtu.be/5vGWiDiv8-Q"
          ],
          "main_collection": "AI物理与科学计算",
          "match": "autonumerics an autonomous pde agnostic multi agent pipeline for scientific computing",
          "description": "针对偏微分方程（PDE）求解中神经网络“黑盒”不可解释及传统数值开发门槛高的问题，马里兰大学提出了AutoNumerics框架。该系统采用多智能体协作，将自然语言指令直接转化为遵循经典数值分析的“白盒”代码。其核心采用了从粗到精的调试策略，先在低分辨率网格快速修复语法逻辑，再在高分辨率下进行物理稳定性验证。通过引入残差自验证机制，该引擎能在无解析解的情况下客观评估求解精度，实现了从算法设计到物理验证的全链路自主闭环，有效解决了大语言模型生成代码中的物理一致性难题，显著提升了科学计算的透明度与可靠性。",
          "x_post": "马里兰大学发布 AutoNumerics：基于多智能体的 PDE 自主求解引擎，实现从自然语言到白盒数值代码的全链路闭环\n针对偏微分方程（PDE）求解中神经网络“黑盒”不可解释及传统开发门槛高的问题，该框架通过多智能体协同将自然语言指令转化为经典数值计算代码。\n系统核心采用“由粗到精”的执行策略：先在低分辨率网格快速修复语法逻辑，再在高分辨率下进行物理稳定性验证。\n引入残差自验证机制，使其在缺乏解析解的情况下仍能客观评估求解性能，确保了算法生成的物理一致性。\n该研究显著提升了自动化仿真过程中的透明度与可靠性，为科学计算的自主化设计提供了可解释的闭环路径。",
          "cover_url": "assets/covers/p10-autonumerics-pde-3e7dc78027.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-19T15:57:15+08:00"
        },
        {
          "title": "七大智能体联手攻克物理难题：揭秘AutoNumerics如何通过粗细粒度执行策略，解决复杂方程的验证困境",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "autonumerics an autonomous pde agnostic multi agent pipeline for scientific computing",
          "description": "偏微分方程的数值求解长期受限于极高的专业门槛与漫长的人工调参过程。AutoNumerics 提出了一种多智能体协同架构，能够将自然语言描述直接转化为基于经典数值分析的透明代码，而非不可解释的黑盒模型。该框架的核心创新在于“粗细粒度执行策略”，通过先在低分辨率环境修复逻辑错误、再在高分辨率环境优化数值稳定性的方式，成功解决了大模型生成代码的可靠性难题。此外，引入的残差自我验证机制使其在无解析解的场景下仍能保持高精度。实验数据显示，其求解精度较现有基线提升了六个数量级，为流体动力学和芯片设计等领域的自动化仿真提供了新路径。",
          "x_post": "AutoNumerics团队研发多智能体自主科学计算框架，实现PDE数值求解精度6个数量级跨越\n针对偏微分方程（PDE）求解中专家依赖性强、神经网络模型不可解释等瓶颈，AutoNumerics 提出了一种多智能体协同的新范式。该框架通过七大智能体闭环架构，将自然语言描述直接转化为基于第一性原理的经典数值分析代码。\n技术核心在于“粗细粒度执行策略”与残差自我验证机制：系统先在低分辨率网格修复逻辑错误，再在高分辨率环境优化数值稳定性，有效解决了大模型代码生成的可靠性难题。实验数据显示，其求解精度较现有基线模型提升了六个数量级。\n该研究成功将逻辑调试与数值稳定性验证解耦，为流体动力学、芯片设计等领域的自动化仿真提供了高透明度且可核验的技术路径。",
          "cover_url": "assets/covers/p10-autonumerics-pde-1debfeb7c0.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-19T12:02:33+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N64_CATS_Net_Concept_Formation",
      "slug": "n64-cats-net-concept-formation",
      "detail_url": "papers/n64-cats-net-concept-formation/",
      "title": "A neural network for modeling human concept formation, understanding and communication",
      "summary": "这篇论文试图解释人类如何从感觉运动经验中形成抽象概念，并把概念用于理解、迁移和交流。它不是一般的行为拟合模型，而是在概念形成与语义控制之间提出了一个明确的计算框架，因此同时落在认知建模和 NeuroAI 之间。\n\n作者提出双模块的 CATS Net：一个模块负责把经验压缩成低维概念表征，另一个模块在概念门控下完成任务求解。概念表示不仅支持任务间迁移，还支持跨网络的概念通信；同时，模型与人脑腹侧枕颞皮层以及语义控制网络的对齐分析，为这一框架提供了机制层面的支持。\n\n它值得正式收录，是因为它提供了一个较为完整的“概念抽象 + 概念门控 + 概念通信”计算图景，这对研究概念型智能、可迁移语义结构和更接近人类抽象能力的 AI 系统都很有参考价值。相比一般的脑对齐论文，它更接近一个可复用的概念智能框架。\n\n它没有升到更高等级，是因为当前影响力更偏机制解释和认知启发，离大规模 AI 系统中的通用落地还存在距离；此外，证据主要集中在模型-脑拟合与概念任务层面，而不是更广泛的复杂现实任务。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-19",
      "doi": "10.1038/s43588-026-00956-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 314,
      "source_url": "https://doi.org/10.1038/s43588-026-00956-4",
      "paper_url": "https://doi.org/10.1038/s43588-026-00956-4",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "从感官中提取极简概念，中科院北大发布CATS Net，用20维向量破解神经网络黑盒难题",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "a neural network for modeling human concept formation understanding and communication",
          "description": "中国科学院与北京大学研究团队在人工智能与神经科学交叉领域取得突破，针对深度学习黑盒不可解释及依赖预定义符号的瓶颈，发布了类人概念形成框架 CATS Net。该模型通过CA与TS双模块协同，将复杂感官信息解耦并压缩为极简的20维思想代码。实验证明，该向量能自发产生具有语义结构的空间，并通过分层门控机制精准控制视觉注意力。这一成果实现了知识在不同网络间的跨媒介通信，显著提升了模型的可解释性与泛化能力，为开发具备类人认知能力的智能系统奠定了基础。",
          "x_post": "中科院与北大团队发布 CATS Net，利用 20 维极简向量模拟类人概念形成\n\n传统深度学习因黑盒效应及对预定义符号的依赖，难以模拟人类从感官经验中自主构建抽象概念的过程。该研究提出双模块框架，通过概念抽象（CA）模块与任务解决（TS）模块协同，配合分层门控机制实现感官输入与语义表达的解耦。实验表明，模型能将复杂视觉规律压缩为仅 20 维的实数向量，且通过改变向量输入，可使网络注意力在不同视觉目标间精准迁移。此架构实现了知识在不同神经网络间的跨媒介通信与灵活运用，为提升 AI 可解释性及类人认知能力提供了新路径。",
          "cover_url": "assets/covers/n64-cats-net-concept-formation-37d4ad9a84.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-03T16:22:23+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "IND4_Chemical_Process_Digitalisation",
      "slug": "ind4-chemical-process-digitalisation",
      "detail_url": "papers/ind4-chemical-process-digitalisation/",
      "title": "A semantic framework for chemical process digitalisation using ontologies",
      "summary": "这篇论文处理的是工业过程数字化里的基础问题：如何把化工装置、传感器数据、机理模型、数据驱动模型和数字孪生真正接成一个可持续维护的知识与执行底座，而不是只做一个局部预测模型或可视化面板。对化工和连续制造场景而言，真正的瓶颈通常不是再加一个 anomaly detector，而是物理装置、模型、通信和版本演化之间长期缺乏统一语义层。\n\n论文的核心新意在于用 ontology 和 knowledge graph 作为工业数字化 backbone，并在其上承载 first-principles model、AI model 和 agent workflow。作者不仅定义了过程本体和 plant-to-twin 连接方式，还展示了从数据采集、安全通信、云端存储到模型接入、版本控制和异常检测执行的端到端实现，使 digital twin 不再只是静态镜像，而成为可执行、可组合的语义基础设施。\n\n放在本仓库里，这篇工作的价值不在单一 anomaly detection 指标，而在它把工业过程 AI 的工作流组织方式说清楚了：`knowledge graph + ontology + model registry + workflow execution` 可以作为化工过程、连续制造和工业数字孪生的通用集成模式。相比大量 manufacturing digital twin 综述或 demo 论文，它更接近可以被后续系统复用的基础设施参考。\n\n它仍然没有高到更上一级，因为验证范围主要集中在化工 pilot plant 和 anomaly-detection use case，跨行业普适性还需要更多落地证据；同时它改写的是工业数字化工作流，而不是更广 AI 领域的方法范式。因此正式收录为 `breakthrough` 合适，但还不到 `disruptive`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "industrial_process_and_manufacturing_systems",
      "theme_label": "工业过程与制造",
      "published_at": "2026-02-19",
      "doi": "10.1016/j.cej.2026.174361",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 313,
      "source_url": "https://doi.org/10.1016/j.cej.2026.174361",
      "paper_url": "https://doi.org/10.1016/j.cej.2026.174361",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G1_Unified_Latents",
      "slug": "g1-unified-latents",
      "detail_url": "papers/g1-unified-latents/",
      "title": "Unified Latents (UL): How to train your latents",
      "summary": "这篇论文关注生成式模型中的 latent representation 学习问题。作者试图统一 latent encoder、diffusion prior 与 diffusion decoder 的训练目标，避免 latent 空间先验与下游生成器彼此脱节，从而提升图像和视频生成中的压缩效率、重建质量与采样质量。\n\n方法上，Unified Latents (UL) 将编码器输出噪声与 prior 的最小噪声水平显式绑定，得到一个同时约束 latent bitrate 与生成质量的训练目标。它不是单纯替换 autoencoder 或扩散先验，而是把 latent 学习、prior 约束和 decoder 训练放到同一框架里，强调 latent space 本身应当为 diffusion generation 原生设计。\n\n它值得进入仓库，因为这是生成式领域里外溢性较强的 latent modeling 论文。论文在 ImageNet-512 上报告 FID 1.4，在 Kinetics-600 上报告 FVD 1.3，并强调训练 FLOPs 低于基于 Stable Diffusion latents 的方案。这类工作对 diffusion、video generation、representation learning 都有参考价值。\n\n它没有升到更高一级，因为这仍然主要属于生成模型子方向内的强方法论文，而不是改写更大研究路线的范式级成果。它对仓库主线的价值在于方法质量和潜在外溢，而不是像 AlphaEvolve、AlphaGenome 那样直接重排领域叙事。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-02-19",
      "doi": "",
      "arxiv_id": "2602.17270",
      "collected_at": "",
      "collection_order": 312,
      "source_url": "https://arxiv.org/pdf/2602.17270v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.17270v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C9_SCAN_Salt_Solvent_Chemistry",
      "slug": "c9-scan-salt-solvent-chemistry",
      "detail_url": "papers/c9-scan-salt-solvent-chemistry/",
      "title": "A dynamic routing-guided interpretable framework for salt–solvent chemistry",
      "summary": "这篇论文处理的是电解液设计里一个典型但很难系统解决的问题：盐–溶剂化学空间极大、配方分布长尾、结构与电导率之间高度非线性，导致传统经验筛选和常规监督模型都难以在真实化学空间里稳定泛化。作者把问题集中到非水电解液的离子电导率预测与候选发现上，目标不只是做一个更准的回归器，而是建立一个能兼顾长尾数据、全空间覆盖和可解释性的建模框架。\n\n方法上，论文提出 SCAN，一个 dynamic routing-guided framework，用动态路由处理盐–溶剂配方的复杂组合结构，同时在解释层接入 gradient decoupling、symbolic regression 和 quantum chemistry calculation。它不仅在标准评测上把 conductivity 预测误差压到 0.372 mS cm−1，并显著优于基线，还进一步把模型推向大规模化学空间，构建了覆盖 11,515,140 个盐–溶剂体系的 conductivity atlas。\n\n这篇值得收录，关键不只是预测精度，而是它把 AI for electrolyte chemistry 做成了完整 workflow：长尾建模、全空间枚举、候选筛选、再到机理解释与大规模验证闭环。论文还给出高导电候选的大规模验证，top-predicted candidates 的成功率达到 81.08%，说明这不是停留在离线 benchmark 上的模型改进，而是真正能够驱动材料/化学发现流程的系统。\n\n它没有更高一级，因为它主要重构的是一个重要但相对具体的科学建模场景，即非水电解液中的盐–溶剂化学，而不是更广泛的 AI for science 基础平台。更稳的定位是高质量 breakthrough：一篇在电解液设计和可解释科学机器学习交叉处很强的 workflow 论文。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-02-19",
      "doi": "10.1038/s43588-026-00955-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 311,
      "source_url": "https://doi.org/10.1038/s43588-026-00955-5",
      "paper_url": "https://doi.org/10.1038/s43588-026-00955-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让AI听懂化学语言：康奈尔大学SCAN框架融合符号回归，实现超大规模电解液体系的精准预测",
          "url": "https://www.bilibili.com/video/BV1RsXwBbEDa",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1RsXwBbEDa",
            "https://youtu.be/AJgOJBSThBs"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "a dynamic routing guided interpretable framework for salt solvent chemistry",
          "description": "针对非水系电解液设计中离子电导率预测的挑战，康奈尔大学提出了SCAN计算框架。该研究聚焦于电解液体系存在的组合爆炸与数据长尾分布问题，即高性能配方仅占0.5%的极端稀缺现状。SCAN框架通过多特征融合网络提取14种具有明确物理意义的分子描述符，并引入动态路由机制，利用智能门控保护稀有高电导率样本，有效避免了传统模型在海量低效数据中的过拟合。实验证明，该模型在千万级盐-溶剂组合筛选中，比现有基准模型的预测误差降低了65.3%。此外，通过结合符号回归技术，SCAN进一步揭示了分子柔性与离子相互作用对宏观电导率的影响规律，为锂电池电解质的理性设计提供了具备物理可解释性的计算方案。",
          "x_post": "康奈尔大学提出SCAN计算框架，通过动态路由实现千万级电解液体系预测，误差降低65.3%。\n\n针对非水系电解液设计中高性能配方仅占0.5%的“长尾困境”，SCAN框架整合了包含14种物理化学描述符的多特征融合网络。该研究引入动态路由机制，通过智能门控保护稀有高电导率样本，有效避免了模型在海量低效数据中的过拟合。\n\n实验证据显示，在对超过1150万种盐-溶剂组合的高通量筛选中，SCAN的预测误差较现有基准模型降低了65.3%。此外，结合符号回归技术，该框架进一步揭示了分子柔性与离子间相互作用对宏观电导率的影响规律，为锂电池电解质的理性设计提供了具备物理可解释性的计算方案。",
          "cover_url": "assets/covers/c9-scan-salt-solvent-chemistry-30375fc63e.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-22T00:09:13+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO6_Evo2_Genome_Modeling",
      "slug": "bio6-evo2-genome-modeling",
      "detail_url": "papers/bio6-evo2-genome-modeling/",
      "title": "Genome modelling and design across all domains of life with Evo 2",
      "summary": "问题与背景：这篇论文试图把基因组建模从局部任务模型提升为跨生命全域的统一基础模型。传统基因组模型通常只覆盖特定物种、特定长度或特定任务，而 Evo 2 的目标是同时覆盖细菌、古菌和真核生物序列，并把预测与设计放进同一框架。\n\n方法/新意：论文提出 Evo 2 这一大规模基因组 foundation model，使用极长上下文的序列建模策略，在统一语料上学习跨物种、跨功能层级的表示。它不仅用于序列补全、功能推断和变异效应预测，也支持生成式设计，使模型从“读基因组”扩展到“写基因组”。\n\n意义/放在仓库中的位置：这是 AI-enabled genomics 主线里的高位条目，和 AlphaGenome 同处“基因组基础模型”方向，但更强调跨生命全域与生成设计能力。它的价值不在单一 SOTA，而在于把 genomic modeling 推向真正的平台层。\n\n局限/为何不再升一级：尽管论文层级和平台属性都很强，但是否达到 AlphaFold 那种范式重排级影响，还要看社区复现、下游采用和真实生物设计闭环的持续验证。因此当前更稳妥地定为颠覆性，而不是直接升到范式级。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-02-19",
      "doi": "10.1038/s41586-026-10176-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 310,
      "source_url": "https://www.nature.com/articles/s41586-026-10176-5",
      "paper_url": "https://www.nature.com/articles/s41586-026-10176-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A29_FRAPPE_World_Modeling_Policies",
      "slug": "a29-frappe-world-modeling-policies",
      "detail_url": "papers/a29-frappe-world-modeling-policies/",
      "title": "FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment",
      "summary": "问题与背景：VLA 模型被认为需要 world modeling 才能获得更好的长程推理与泛化，但直接预测未来像素容易把训练目标拖向低层视觉重建，并在推理时积累误差。\n\n方法/新意：FRAPPE 用 multiple future representation alignment 替代未来像素重建，在 mid-training 学未来 latent，在 post-training 并行对齐多种视觉基础模型的未来表示，从而把世界建模能力注入通用策略。\n\n意义/放在仓库中的位置：这篇论文属于 world model × robotics 主线。它的价值在于把“未来表示对齐”确立成比显式重建更稳、更可扩展的路线，对 generalist policy 很有启发。\n\n局限/为何不再升一级：方法外溢性不错，但目前证据主要集中在机器人基准和少量真实任务，尚未上升到更普遍的基础模型层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-19",
      "doi": "",
      "arxiv_id": "2602.17259",
      "collected_at": "",
      "collection_order": 309,
      "source_url": "https://arxiv.org/pdf/2602.17259v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.17259v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "浙大清华等六校打造机器人“最强预演大脑”：FRAPPE引入多导师对齐，赋予通用策略物理直觉",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "frappe infusing world modeling into generalist policies via multiple future representation alignment",
          "description": "由浙江大学、清华大学等六所高校联合研发的FRAPPE框架，旨在解决现有机器人策略因缺乏环境动态预判而显得“笨拙”的问题。该方法摒弃了耗费算力的像素级画面生成，创新性地提出在潜空间对齐多个视觉基础模型的未来表征，赋予机器人“脑内推演”的物理直觉。研究团队通过两阶段训练策略，结合Mixture-of-Experts架构与MiPA适配器，实现了极高的数据利用率与计算效率。实验证明，FRAPPE在长程操作任务中表现优异，显著降低了推理误差并提升了泛化能力，为构建低成本、高性能的具身智能系统提供了新思路。",
          "x_post": "浙大、清华等六校发布FRAPPE：通过多导师表征对齐增强通用机器人策略的物理预判能力\n\n针对具身智能模型在长程任务中因像素重建冗余及误差累积导致的执行效率问题，研究团队提出FRAPPE框架。该方法摒弃显式像素生成，通过在潜空间对齐多个视觉基础模型（VFMs）的未来表征，赋予机器人隐式“世界建模”能力。\n\n技术核心采用两阶段微调策略：首先通过全参数微调建立物理直觉，随后引入混合专家（MoE）架构与MiPA适配器实现多流并行扩展。这种设计在不显著增加显存负担的前提下，实现了对多样化物理规律的高效迁移学习。\n\n实验结果显示，FRAPPE在RoboTwin仿真基准及现实长程操作任务中表现优异，并能有效利用无动作标注的人类视频数据提升泛化性能。该研究为构建低成本、具备动态环境感知能力的通用机器人策略提供了可验证的技术路径。",
          "cover_url": "assets/covers/a29-frappe-world-modeling-policies-2c50e27aaa.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-03T16:23:56+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "X2_BEACON_Consortium",
      "slug": "x2-beacon-consortium",
      "detail_url": "papers/x2-beacon-consortium/",
      "title": "Benchmarking, Evaluation, and Assessment Consortium for Science",
      "summary": "- 分级：`项目附录`\n- 正式标题：`Benchmarking, Evaluation, and Assessment Consortium for Science`\n- 原文：`2026-02-18-X2_BEACON_Consortium-Benchmarking_Evaluation_and_Assessment_Consortium_for_Science.html`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\nBEACON Consortium 也不是论文，而是围绕科学 AI 评测与基准治理建立的联盟型项目。它的核心目标不是提出一个新模型，而是建立更统一的 benchmark、evaluation 和 assessment 体系，尤其面向生物医学与更广泛的科学发现流程。这类附录的价值，在于解释为什么 2026 年前后的 AI for science 会越来越强调“标准化验证”而不是只比单次 demo。\n\n这类联盟型项目对你这份资料很有意义，因为它恰好对应了一个时代变化：当模型开始进入科学发现流程，真正稀缺的东西不再只是模型能力，而是可信评测、盲测机制、跨机构验证和复现治理。\n\n## 为什么重要\n\n如果没有这种联盟型基础设施，很多“AI 发现新药/新机制”的说法会停留在不可比、不可复核、不可迁移的营销层面。BEACON 这类项目本质上是在为科学 AI 建立共同语言和可信度底座。\n\n## 局限\n\n它是项目公告，不是论文，也不应被写成单一科研成果。最合理的归类方式是附录或背景基础设施。",
      "grade": "project",
      "grade_label": "项目",
      "theme": "projects_and_appendices",
      "theme_label": "Projects And Appendices",
      "published_at": "2026-02-18",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 308,
      "source_url": "https://conscience.ca/news/introducing-beacon-the-benchmarking-evaluation-and-assessment-consortium-for-science/",
      "paper_url": "https://conscience.ca/news/introducing-beacon-the-benchmarking-evaluation-and-assessment-consortium-for-science/",
      "project_urls": [
        "https://conscience.ca/news/introducing-beacon-the-benchmarking-evaluation-and-assessment-consortium-for-science/"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P21_RANGE_Global_GNN_Encodings",
      "slug": "p21-range-global-gnn-encodings",
      "detail_url": "papers/p21-range-global-gnn-encodings/",
      "title": "Extending the range of graph neural networks with global encodings",
      "summary": "这篇论文讨论图神经网络在长程相互作用建模中的一个基础限制：标准消息传递机制本质上是局部的，容易在大图或大分子体系中出现信息流瓶颈、oversquashing 和长程作用建模失真。这个问题在分子动力学和机器学习力场中特别突出，因为色散力、电场变化和界面效应往往跨越远大于局部 cutoff 的尺度。\n\n作者提出 RANGE，一个可插拔到多种现有 GNN / MPNN 架构上的全局编码框架。它通过一组带位置编码的虚拟主节点，以及基于注意力的 aggregation-broadcast 机制，在保持线性复杂度的同时扩展图上的有效通信范围。和直接堆深层消息传递、扩大 cutoff、或使用昂贵全局注意力相比，RANGE 更直接地缓解了 oversquashing，并保留了对长程相互作用的表达能力。\n\n这项工作的价值在于它不是面向单一数据集的局部改进，而是给出了一个可复用的长程图建模模块。它对分子建模、科学机器学习、图表示学习和需要全局通信的 GNN 任务都有外溢意义。在仓库中，它更接近 AI x chemistry / molecular physics 与图学习交叉处的一篇强方法论文，而不是纯粹的分子应用论文。\n\n它还不到更高一级，主要因为当前影响面仍然集中在分子与原子尺度建模场景，虽然方法可泛化，但证据主要来自这一类科学任务。它更像一篇高质量、可复用、会被长期引用的 GNN 长程建模方法论文，而不是已经重排整个图学习路线的范式级工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-02-18",
      "doi": "10.1038/s41467-026-69715-3",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 307,
      "source_url": "https://www.nature.com/articles/s41467-026-69715-3",
      "paper_url": "https://www.nature.com/articles/s41467-026-69715-3",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "像上帝一样俯瞰千万原子，微软研究院发布RANGE框架，通过虚拟主节点打破GNN视野极限",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "extending the range of graph neural networks with global encodings",
          "description": "微软研究院、柏林自由大学与莱斯大学针对图神经网络在分子建模中的“近视”问题，联合推出了RANGE框架。传统模型由于物理截断半径限制，难以捕捉关键的长程静电与色散力，且单纯增加深度会导致计算量爆炸。RANGE通过在空间中引入虚拟主节点作为“信息基站”，利用注意力机制实现全局信息的聚合与广播。实验证明，该方法在保持线性计算复杂度的同时，显著缓解了特征过度平滑问题，使千万级原子系统的动力学模拟更稳、更准，为药物研发与材料科学提供了高效的通用工具。",
          "x_post": "微软研究院发布 RANGE 框架：通过虚拟主节点增强 GNN 长程建模，支持千万级原子系统预测\n传统图神经网络（GNN）受限于物理截断半径，在模拟大型分子系统时难以有效捕捉长程静电与色散力。为此，RANGE 框架通过引入虚拟主节点作为全局信息枢纽，利用注意力机制实现跨区域的信息聚合与分发。实验证明，该方法在保持线性计算复杂度的同时，有效缓解了特征过度平滑与过度压缩问题，并能准确预测超出训练范围的物理行为。作为通用的模块化扩展，RANGE 显著提升了大规模分子动力学模拟的稳定性，为药物研发及材料科学提供了更精准的建模方案。",
          "cover_url": "assets/covers/p21-range-global-gnn-encodings-768efaad60.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-27T12:43:10+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO45_PocketXMol_3D_Molecular_Generation",
      "slug": "bio45-pocketxmol-3d-molecular-generation",
      "detail_url": "papers/bio45-pocketxmol-3d-molecular-generation/",
      "title": "Unified modeling of 3D molecular generation via atomic interactions with PocketXMol",
      "summary": "问题与背景：药物发现中的 pocket-conditioned 分子生成、连接、优化和肽设计往往由不同模型分别处理，任务接口割裂，难以形成统一原子级生成框架。\n\n方法与机制：PocketXMol 使用 atomic prompts 作为任务规格，把与蛋白 pocket 相互作用相关的多类 3D molecular generation 任务统一到一个 atom-level generative AI model 中，并在多个计算 benchmark 上对比大量基线。\n\n为什么重要：论文不仅做模型统一，还展示了 caspase-9 小分子抑制剂和 PD-L1 binding peptides 的实验验证，说明 AI 生成能够连接到真实分子探针和治疗候选物发现流程。\n\n局限：实验验证仍集中在有限靶点，药代、毒性、可合成性和临床转化路径还需要更长链条验证；因此收为突破级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-02-18",
      "doi": "10.1016/j.cell.2026.01.003",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 306,
      "source_url": "https://doi.org/10.1016/j.cell.2026.01.003",
      "paper_url": "https://doi.org/10.1016/j.cell.2026.01.003",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "比AlphaFold 3更通用？PocketXMol实现零微调任务跨界，一套模型解决13类研发难题",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "unified modeling of 3d molecular generation via atomic interactions with pocketxmol txt fallback",
          "description": "北京大学、清华大学与UIUC团队在AI制药领域取得重要进展，联合推出PocketXMol模型。针对传统AI药物设计模型任务碎片化、跨分子类型需频繁微调的痛点，该模型采用原子级任务提示词与通用去噪器架构，回归底层物理规律实现统一建模。实验显示，PocketXMol在零微调条件下横扫13项基准测试，其中11项获SOTA性能，击败了55个主流基线模型。其实际设计的Caspase-9抑制剂效能媲美市售药物，显著提升了药物研发的普适性与跨任务迁移能力，为通用分子生成平台奠定了基础。",
          "x_post": "北京大学、清华大学与UIUC发布PocketXMol：实现13类分子生成任务零微调，斩获11项SOTA\n针对当前AI药物设计中模型任务碎片化、跨分子类型需频繁微调的痛点，该研究提出基于“原子级提示词”与“通用去噪器”的统一建模框架。PocketXMol回归底层物理规律，无需特定任务微调即可处理小分子、多肽及分子对接等多种研发场景。\n实验显示，该模型在13项基准测试中击败了55个主流基线模型，并在其中11项任务中取得SOTA性能。在结构化小分子设计（SBDD）中，其高质量生成率达35.37%，显著优于次优基线的20.54%。\n通过成功设计效能媲美市售药物的Caspase-9抑制剂及高亲和力PD-L1结合肽，研究证明了该通用平台在复杂生物医学应用中的跨任务迁移能力与实战价值。",
          "cover_url": "assets/covers/bio45-pocketxmol-3d-molecular-generation-e5ae22d4b2.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-20T19:22:07+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO23_STARLING_Disordered_Ensembles",
      "slug": "bio23-starling-disordered-ensembles",
      "detail_url": "papers/bio23-starling-disordered-ensembles/",
      "title": "Accurate predictions of disordered protein ensembles with STARLING",
      "summary": "无序蛋白及无序区域并不是少数例外，而是细胞功能和分子识别中的核心组成部分。难点在于它们不对应单一稳定结构，而是跨越大范围构象 ensemble。传统计算方法往往要么精度不够，要么成本过高，很难支持大规模序列搜索、条件分析和快速设计。\n\nSTARLING 把 physics-based force fields 与 multi-modal generative deep learning 结合起来，从序列快速生成准确的 IDR ensembles 和 ensemble-aware 表征，并支持在不同离子强度等环境条件下建模。作者还加入 Bayesian maximum-entropy reweighting，用实验约束进一步 refinement；在此基础上，STARLING 既能做 biophysical look-alike 搜索，也能把 ensemble-first sequence design 从每个候选数小时或数周压到秒级。\n\n对这个仓库来说，这篇论文的价值不在“又一个蛋白模型”，而在于它把无序蛋白研究从昂贵的逐个候选分析，推进到可扩展的 generative ensemble workflow。它明显属于 AI-driven biology / protein engineering 主线，并且对 sequence-to-ensemble modeling、条件生成和实验解释都有长期参考价值。\n\n它暂时不再升一级，是因为当前工作虽然很强，但影响面仍主要集中在 intrinsically disordered proteins 这一子方向，还没有像更通用的 protein foundation model 那样改变更广泛的蛋白设计默认范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-02-18",
      "doi": "10.1038/s41586-026-10141-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 305,
      "source_url": "https://doi.org/10.1038/s41586-026-10141-2",
      "paper_url": "https://doi.org/10.1038/s41586-026-10141-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A52_DeepRare_Rare_Disease_Diagnosis",
      "slug": "a52-deeprare-rare-disease-diagnosis",
      "detail_url": "papers/a52-deeprare-rare-disease-diagnosis/",
      "title": "An agentic system for rare disease diagnosis with traceable reasoning",
      "summary": "这篇论文针对罕见病诊断长期存在的“诊断漂流”问题，目标不是做一个普通的单模型问答器，而是建立一个能够处理异构临床输入、调用外部工具并输出可追溯证据链的诊断支持系统。对于本仓库，它首先属于 agent systems 与 AI x biomedicine 的交叉条目，重点不在医学分数本身，而在可复用的 agentic workflow。\n\n论文提出的 DeepRare 把大语言模型、多代理协作、四十多个专业工具和最新知识源整合到同一决策流程中，输入可以同时包含自由文本病历、人类表型本体术语和遗传检测结果，输出则是带证据支撑的排序诊断假设。真正的新意在于把“诊断支持”做成可审计、可追踪、可组合的 agent system，而不是黑盒式生成结论。\n\n它的重要性在于把医学诊断问题转化为一个高价值的工具编排与证据链接问题，这对 agent 研究、专业场景中的工具使用、以及高风险领域中的 traceable reasoning 都有明显外溢。对仓库来说，这类工作比一般医疗分类器更值得保留，因为它提供了一个清晰的部署级系统模式。\n\n它没有升到更高等级，是因为贡献仍然明显受限于 rare disease differential diagnosis 场景，泛化到更广 agent 研究或更通用科学工作流还需要更多验证；同时它更偏强系统集成与应用落地，而不是重新定义 agent 理论本身。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-18",
      "doi": "10.1038/s41586-025-10097-9",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 304,
      "source_url": "https://doi.org/10.1038/s41586-025-10097-9",
      "paper_url": "https://doi.org/10.1038/s41586-025-10097-9",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "罕见病确诊率首超10年资深医生，登上《Nature》的DeepRare系统终结5年诊断漫游",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "an agentic system for rare disease diagnosis with traceable reasoning",
          "description": "该研究由多方合作发表于《Nature》，介绍了专为罕见病诊断设计的DeepRare多智能体系统。针对全球三亿患者面临的长达五年的“诊断漫游”及传统医疗AI难以处理复杂多模态数据的痛点，DeepRare创新性地采用MCP三层协作架构，整合40余种专业工具并引入自我反思机制以消除AI幻觉。临床测评显示，其诊断准确率显著优于GPT-4o等模型，在真实疑难病例测试中，Top-1确诊率达64.4%，历史性地超越了拥有10年经验的资深主任医师。这一突破不仅实现了基因与表型数据的深度融合，更通过可追溯的推理链条，为临床疑难病诊断提供了更精准、更透明的智能方案。",
          "x_post": "发表于《Nature》的 DeepRare 多智能体系统显著提升罕见病诊断效能，Top-1 确诊率达 64.4% 超过资深医生\n\n针对全球逾 3 亿患者面临的长达 5 年“诊断漫游”及临床数据多模态整合难题，研究团队开发了 DeepRare 系统。该系统采用 MCP 三层协作架构，整合 40 余种专业工具，通过自我反思机制将大语言模型与实时医学数据库深度结合，生成具有可追溯性的推理链条。\n\n实验数据显示，DeepRare 在涵盖 2,919 种罕见病的测评中，表型诊断命中率（Recall@1）达到 57.18%，显著优于同类 AI 模型。在 163 例真实疑难病例的对比测试中，其 Top-1 确诊率达到 64.4%，超过了拥有 10 年经验的资深主任医师（54.6%）。\n\n该研究证明了多智能体协作框架在处理复杂临床异质性方面的潜力，通过多模态数据融合与逻辑溯源，为缩短罕见病确诊周期提供了高可靠性的辅助方案。",
          "cover_url": "assets/covers/a52-deeprare-rare-disease-diagnosis-942dc6ed93.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-26T22:07:43+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A44_User_Interaction_Alignment",
      "slug": "a44-user-interaction-alignment",
      "detail_url": "papers/a44-user-interaction-alignment/",
      "title": "Aligning Language Models from User Interactions",
      "summary": "这篇论文关注的是部署后语言模型最真实、也最容易被浪费的一类数据：多轮用户交互。大量真实对话里都包含了隐式反馈，例如用户继续追问、纠错、表达不满或改写要求，但现有对齐方法通常依赖显式偏好标注、奖励模型或专门构造的数据集，无法直接把这些自然交互转化为学习信号。\n\n作者提出的核心方法是利用同一个模型的 hindsight 能力做自蒸馏。给定一轮原始回复，再把后续用户消息作为额外上下文喂回模型，得到一个事后策略；然后把这个事后分布与原始策略做对比，提取 token 级的概率变化，并把这种“如果当时知道后续反馈，会怎么说得更好”的信号蒸馏回当前策略。这样就能从原始交互中直接得到可解释的对齐梯度，而不需要单独训练奖励模型。\n\n这篇论文值得收录，因为它打通了一个很重要的实际闭环：模型部署产生的自然用户交互，本身就可以成为持续对齐和个性化的数据源。它不是简单地把聊天记录拿去做 SFT，而是通过 hindsight 分布比较实现更细粒度的 credit assignment。论文在 WildChat 这类真实数据上展示出对标准 alignment 和 instruction-following 指标的稳定提升，同时还支持快速个性化，这对实用对齐、持续学习和产品化训练管线都有直接价值。\n\n它没有升到更高一级，主要因为目前仍是 arXiv 论文，而且方法效果仍受到基座模型 ICL 能力和数据分布的影响。它是一条很强的部署后学习路径，但还没证明自己会成为所有在线对齐系统的默认标准范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-18",
      "doi": "",
      "arxiv_id": "2603.12273",
      "collected_at": "",
      "collection_order": 303,
      "source_url": "https://arxiv.org/pdf/2603.12273v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.12273v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A39_SkillsBench",
      "slug": "a39-skillsbench",
      "detail_url": "papers/a39-skillsbench/",
      "title": "SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks",
      "summary": "这篇论文处理的是 agent 系统里一个长期被忽视但实际很关键的问题：技能被抽取、封装和复用之后，究竟能否稳定泛化到不同任务，而不是只在演示案例里看起来可用。作者没有再做一个 agent，而是把问题显式转成 benchmark：如何系统评估 agent skills 在多域、多任务、多环境中的可靠性、迁移性和组合效果。\n\n论文提出 SkillsBench，包含较大规模的任务与技能集合，并用可验证任务和明确的技能执行设定去隔离“技能本身是否有效”这一问题。它的价值不只是提供更多题目，而是把 agent 研究从端到端成功率，进一步拆成技能层的可测量对象，从而让技能抽取、技能选择和技能组合可以被更细粒度比较。\n\n这项工作值得收录，因为 agent skills 很可能会成为长期 agent 架构的核心中间层，而 benchmark 的缺失一直让这一层难以科学比较。SkillsBench 对 agent tool-use、skill libraries、skill composition 和训练后能力诊断都有直接外溢价值，因此不是普通 benchmark 扩张，而是一个有结构意义的评测条目。\n\n它还不到更高一级，原因是 benchmark 的长期价值取决于后续社区采用与扩展程度。目前它更像一个高质量、问题定义清楚的 benchmark breakthrough，而不是已经成为该方向默认标准的 disruptive 条目。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-18",
      "doi": "",
      "arxiv_id": "2602.12670",
      "collected_at": "",
      "collection_order": 302,
      "source_url": "https://arxiv.org/pdf/2602.12670.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.12670.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL60_DreamZero_World_Action_Model",
      "slug": "rl60-dreamzero-world-action-model",
      "detail_url": "papers/rl60-dreamzero-world-action-model/",
      "title": "World Action Models are Zero-shot Policies",
      "summary": "这篇论文提出 World Action Model 路线，把机器人策略从典型 VLA 的观察-语言-动作映射转向同时建模未来世界状态和动作。对本仓库来说，它的关键价值不是单个机器人 benchmark，而是 embodied AI 中 world model 与 action generation 的统一接口。\n\nDreamZero 基于预训练视频 diffusion backbone，把视频预测的世界动态知识转化为 zero-shot policies，并在跨 embodiment、跨任务控制中展示能力。系统主张通过生成未来视频帧和动作序列，让模型在没有任务特定策略训练的情况下直接产生可执行控制。\n\n它值得正式收录，是因为它是机器人世界模型方向的强代表：把视频生成模型的物理动态先验显式接入动作选择，对 VLA、具身泛化、zero-shot control 和世界模型评估都有很强外溢。\n\n它没有升到 paradigm，是因为真实机器人部署、长时稳定性、实时性、失败恢复和大规模任务覆盖仍需要独立验证；当前更像强烈改变问题处理方式的 disruptive 系统原型。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-02-17",
      "doi": "",
      "arxiv_id": "2602.15922",
      "collected_at": "",
      "collection_order": 301,
      "source_url": "https://arxiv.org/pdf/2602.15922.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.15922.pdf",
      "project_urls": [
        "https://dreamzero0.github.io/"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P22_Committor_Without_Collective_Variables",
      "slug": "p22-committor-without-collective-variables",
      "detail_url": "papers/p22-committor-without-collective-variables/",
      "title": "Learning the committor without collective variables",
      "summary": "这篇 Nature Computational Science 论文处理的是分子动力学和稀有事件模拟里的一个基础难题：如何学习 committor，即系统到达目标态概率的最优反应进程刻画，而不先人为指定 collective variables。传统方法通常强依赖人工设计的低维反应坐标，这既限制了泛化，也容易把真正重要的动力学结构压扁。\n\n论文的核心推进在于直接学习 committor，而不把问题先投影到手工选择的 collective variables 上。这样做的意义不只是少一个超参数，而是把反应路径建模从“先假设低维结构再拟合”转成“让模型自己从高维动力学中识别过渡统计结构”。这对稀有事件建模、分子跃迁分析和动力学采样都具有方法论上的独立价值。\n\n这项工作值得收录，因为它属于 AI for science 中很典型的“去手工特征化”突破：不是单纯提高某个模拟指标，而是削弱了领域专家先验坐标工程在核心流程中的必要性。它对生成式动力学建模、反应路径学习以及高维物理系统中的表征学习都有启发，因此比一般科学机器学习应用论文更值得长期保留。\n\n它还不到 disruptive，原因是 committor 学习本身仍处在一个相对专业的科学计算子方向里，外溢虽然存在，但还没广到重排更大范围 AI for science 工作流。更准确的定位是一篇高质量 breakthrough。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-02-17",
      "doi": "10.1038/s43588-026-00958-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 300,
      "source_url": "https://www.nature.com/articles/s43588-026-00958-2",
      "paper_url": "https://www.nature.com/articles/s43588-026-00958-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "给AI装上“三维物理直觉”：GVP如何赋予神经网络空间等变性，在海量轨迹中自动锁定反应概率",
          "url": "https://www.bilibili.com/video/BV1TsAAzyERP",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1TsAAzyERP",
            "https://youtu.be/lTm5zZzYSw8"
          ],
          "main_collection": "AI安全与对齐",
          "match": "learning the committor without collective variables",
          "description": "针对分子动力学模拟中依赖人工预设集体变量（CVs）导致高维信息丢失的难题，本研究提出一种基于几何向量感知器（GVP）的图神经网络架构qGNN。该方法通过端到端学习框架，直接处理3N维原子笛卡尔坐标，实现了分子系统提交函数（Committor function）的无监督提取。模型利用GVP的旋转与平移等变性，精准捕获微观结构的几何关联，并在狄尔斯–阿尔德反应及蛋白质折叠等复杂系统中验证了其速率常数预测的准确性。相比传统降维方案，qGNN不仅消除了人为经验偏差，还通过节点敏感性分析提供了物理可解释性，为研究高维势能面上的稀有事件提供了通用工具。",
          "x_post": "UIUC与CNRS等团队开发qGNN架构，实现3N维原子坐标直接预测分子反应概率，无需人工集体变量。\n针对分子动力学模拟中人工预设集体变量（CVs）导致高维信息丢失的难题，本研究提出一种基于几何向量感知器（GVP）的图神经网络架构。\n模型利用GVP的旋转与平移等变性，直接从全原子笛卡尔坐标中端到端学习提交函数（Committor），保留了完整的微观结构几何关联。\n实验在狄尔斯–阿尔德反应及Trp-cage蛋白质折叠（20个氨基酸）等复杂系统中验证了速率常数预测的准确性。\n该数据驱动方案通过节点敏感性分析精准识别关键原子，为发现高维复杂系统中的反应坐标提供了可扩展的物理工具。",
          "cover_url": "assets/covers/p22-committor-without-collective-variables-8d79f5d893.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-21T20:59:30+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P6_BEACONS",
      "slug": "p6-beacons",
      "detail_url": "papers/p6-beacons/",
      "title": "BEACONS: Bounded-Error, Algebraically-Composable Neural Solvers for Partial Differential Equations",
      "summary": "- 分级：`颠覆性`\n- 正式标题：`BEACONS: Bounded-Error, Algebraically-Composable Neural Solvers for Partial Differential Equations`\n- 原文：`2026-02-16-P6_BEACONS-BEACONS_Bounded_Error_Algebraically_Composable_Neural_Solvers_for_Partial_Differ.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文瞄准的是 AI for PDE 最致命的缺陷：神经网络求解器速度很快，但一旦进入训练分布之外，往往既不能保证稳定性，也不能保证误差边界，更谈不上用于高风险科学计算。BEACONS 的核心做法是把“神经求解器”与“形式化可验证性质”绑定在一起，构造带有严格收敛性、稳定性与守恒性质的 PDE 神经架构，使其在外推区间也具有机器可检查的正确性保证。\n\n论文特别强调 bounded-error 和 algebraic composability。前者意味着模型输出不是只有经验分数，而是有严格误差控制；后者意味着不同模块可以像代数对象那样组合，而不会在组合过程中丢失验证性质。对长期困扰科学计算的“快但不可信”问题，这是一条很硬的路线。\n\n## 为什么重要\n\n如果这条路线站得住，AI for PDE 就不再只是数值替代器，而会进入“可认证科学软件”范畴。这对等离子体、流体、核工程和国防级仿真都非常关键，因为这些领域真正缺的不是再快一点，而是快且可证明地可靠。\n\n## 局限\n\n目前是 `2026-02-16` 的 arXiv 预印本。形式化保证往往伴随更强结构假设和更高建模复杂度，实际覆盖的 PDE 类型、边界条件和工程规模，仍要看后续扩展。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-02-16",
      "doi": "",
      "arxiv_id": "2602.14853",
      "collected_at": "",
      "collection_order": 299,
      "source_url": "https://arxiv.org/pdf/2602.14853.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.14853.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM16_Seeing_to_Generalize_Binding",
      "slug": "mm16-seeing-to-generalize-binding",
      "detail_url": "papers/mm16-seeing-to-generalize-binding/",
      "title": "Seeing to Generalize: How Visual Data Corrects Binding Shortcuts",
      "summary": "这篇论文关注一个非常值得跟的现象：一些 VLM 在纯文本任务上反而能超过其底层 LLM。作者把这个现象具体化为“视觉训练是否帮助模型修正文本里的 binding shortcuts”，并构造了受控检索任务来做机制分析。\n\n方法上，论文比较了纯文本训练和图像 token 训练下的 transformer 内部表征，发现视觉训练引入的空间平移不变性会打破位置捷径，迫使模型学到更稳健的符号绑定机制。作者不仅看行为结果，还做了内部机制跟踪，因此这不是普通的“加视觉数据后效果变好”报告。\n\n它在仓库里值得收，是因为它把多模态训练的收益解释成一种可追踪的归纳偏置修正机制，而不是笼统的“多模态更强”。对 VLM、binding、OOD 泛化和 mechanistic interpretability 都有外溢价值。\n\n我把它放在“突破性”。原因是它提出了一个很好的机制性解释，但目前仍主要是受控任务和分析性工作，离更大范围的范式改写还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-02-16",
      "doi": "",
      "arxiv_id": "2602.15183",
      "collected_at": "",
      "collection_order": 298,
      "source_url": "https://arxiv.org/abs/2602.15183",
      "paper_url": "https://arxiv.org/abs/2602.15183",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "为什么看图会让AI更懂纯文字？智利天主教大学揭秘视觉数据如何将大模型泛化准确率从37.2%提升至69.5%",
          "url": "https://www.bilibili.com/video/BV1wtLT6wEv1",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1wtLT6wEv1",
            "https://youtu.be/GF_6LdOwsoc"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "seeing to generalize how visual data corrects binding shortcuts",
          "description": "智利天主教大学研究团队在机制可解释性领域取得新进展。研究针对大语言模型在处理长文本检索时泛化能力容易崩溃的问题，发现纯文本训练常使模型产生依赖字符顺序的“位置偏移”捷径。通过引入具有空间平移不变性的视觉数据，模型被迫从线性位置记忆转向更稳健的符号绑定机制。实验证明，在超出训练长度的分布外数据测试中，视觉介入使模型准确率从37.2%飞跃至69.5%。该研究表明，跨模态学习能有效优化AI内部推理结构，让模型在处理复杂逻辑任务时表现得更准、更稳。",
          "x_post": "智利天主教大学研究视觉数据如何优化大模型推理，将长文本泛化准确率从37.2%提升至69.5%\n\n传统大语言模型在处理长文本检索时，常因过度依赖字符顺序而产生“位置偏移”捷径，导致其在超出训练长度的分布外（OOD）数据中泛化能力崩溃。研究团队通过引入具有空间平移不变性的视觉数据进行训练，发现跨模态学习能有效纠正这一偏差。\n\n机制可解释性分析显示，视觉介入迫使模型从依赖线性顺序的“位置绑定”转向基于语义属性的“符号绑定”。实验证据表明，在处理多步逻辑跳转与变量绑定任务时，视觉辅助训练使模型在长序列环境下的准确率由37.2%提升至69.5%。该研究揭示了视觉数据在重构AI内部推理结构、增强逻辑鲁棒性方面的关键作用。",
          "cover_url": "assets/covers/mm16-seeing-to-generalize-binding-91330a6899.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T16:32:59+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A54_GUI_GENESIS_GUI_Agent_Post_Training",
      "slug": "a54-gui-genesis-gui-agent-post-training",
      "detail_url": "papers/a54-gui-genesis-gui-agent-post-training/",
      "title": "GUI-GENESIS: Automated Synthesis of Efficient Environments with Verifiable Rewards for GUI Agent Post-Training",
      "summary": "这篇论文关注 GUI agent 后训练里的一个根本瓶颈：真实应用环境训练既慢又贵，而且奖励通常依赖脆弱的视觉代理，难以验证。对本仓库来说，它属于 agent post-training 与自动化环境构造的交叉条目，重点不是单个 GUI 任务分数，而是环境生成与可验证奖励这套工作流。\n\nGUI-GENESIS 的核心做法是把真实应用重建成轻量级网页环境，并用代码原生的可执行断言提供确定性奖励。作者不是简单做一个新的 benchmark，而是提出了自动合成训练环境的框架，让 post-training 从高延迟、低可控的真实应用回到可扩展、可重复、可验证的训练基座。\n\n它值得正式收录，是因为这提供了一个很清晰的 agent RL workflow pattern：自动环境重建 + verifiable rewards + held-out real-world transfer。对 GUI agent、通用 agent post-training 和环境工程来说，这种模式的外溢明显强于普通 benchmark 论文。\n\n它没有升到更高等级，是因为当前证据和任务域仍然集中在 GUI agent，虽然工作流价值很强，但离更广泛 agent learning 基础设施的统一方案还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-15",
      "doi": "",
      "arxiv_id": "2602.14093",
      "collected_at": "",
      "collection_order": 297,
      "source_url": "https://arxiv.org/pdf/2602.14093.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.14093.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A16_WoVR_VLA_RL",
      "slug": "a16-wovr-vla-rl",
      "detail_url": "papers/a16-wovr-vla-rl/",
      "title": "WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL",
      "summary": "这篇论文解决的是 VLA 后训练里一个非常现实的问题：真实机器人上的 RL 太贵，而 learned world model 又常常在闭环 rollout 中积累误差，导致策略学会利用模拟器漏洞而不是真正完成任务。\n\nWoVR 的核心是把 world model 当作“可靠模拟器”来设计和筛选，用它支持 VLA policy 的 RL post-training，而不是盲目把任何 imagined rollout 都当真。它关注的是 world model 作为 simulator 的可靠性而不是纯生成质量。\n\n它在仓库中属于 VLA / world model / robotics 主线。和 World-VLA-Loop、PerpetualWonder、Drive-JEPA 这类工作一起构成“world model 真正走向控制”的子线。\n\n它没有更高，是因为尽管方向关键，但目前仍是在机器人和 VLA 后训练子领域内推进，还不到改变更大范围方法论的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-15",
      "doi": "",
      "arxiv_id": "2602.13977",
      "collected_at": "",
      "collection_order": 296,
      "source_url": "https://arxiv.org/pdf/2602.13977.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.13977.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SC2_Inventory_Control_Human_LLM_OR",
      "slug": "sc2-inventory-control-human-llm-or",
      "detail_url": "papers/sc2-inventory-control-human-llm-or/",
      "title": "AI Agents for Inventory Control: Human-LLM-OR Complementarity",
      "summary": "库存控制是一个经典但仍然现实的问题：传统 OR 方法有强理论基础，但通常依赖较硬的分布与结构假设；而大语言模型看似更灵活，却很难证明其在真实决策问题里的角色到底是什么。简单地把 LLM 当作 OR 替代品并不成立。\n\n这篇论文真正有价值的地方，是把问题改写成 complementarity study。作者构建了覆盖 synthetic 与 real-world demand 的 InventoryBench，在需求漂移、季节性和 lead-time 不确定条件下系统比较 OR、LLM、OR-augmented LLM 以及 human-AI collaboration。结果表明 OR-augmented LLM 明显优于任一单独方法，而且 human-AI teams 在平均收益上也优于单独人类或单独 AI。\n\n这使它不再只是 supply-chain application paper，而是一个更耐久的 operations decision pattern：由 OR 提供结构化约束与强先验，由 LLM 负责吸收上下文与柔性推理，人类则承担最终判断与例外处理。对物流、库存、履约和其他运营决策问题，这种 human-LLM-OR complementarity 有明确外溢。\n\n它没有更高一级，因为当前证据仍主要围绕 inventory control 这一经典任务展开，虽然 framing 很强，但还没证明它会直接重排更广 operations research 与 enterprise decision systems 的默认范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "supply_chain_logistics_and_operations",
      "theme_label": "供应链、物流与运营",
      "published_at": "2026-02-13",
      "doi": "",
      "arxiv_id": "2602.12631",
      "collected_at": "",
      "collection_order": 295,
      "source_url": "https://arxiv.org/pdf/2602.12631.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.12631.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "当GPT遭遇供应链挑战：InventoryBench揭秘AI在波动中捕捉需求信号",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "ai agents for inventory control human llm or complementarity",
          "description": "本研究针对复杂供应链中需求波动和供应中断的决策难题，评估了运筹学（OR）算法与大语言模型（LLM）的协同增效。研究构建了包含1320个实例的InventoryBench基准，对比了单一模型与四种混合决策链路的性能。实验证据表明，当由OR提供数学基准、LLM进行最终决策时，在均值突变和趋势骤变等场景下，综合收益可提升21%。同时，人机协作实验证实了人类参考LLM建议的决策模式能获得最高利润。研究划定了技术边界：传统OR在平稳波动中表现更稳，而混合架构在应对非结构化突变信号时具有压倒性优势。",
          "x_post": "研究团队发布 InventoryBench：结合 OR 与 LLM 实现库存控制 21% 收益提升\n传统库存管理在应对需求骤变或供应中断等非结构化信号时，往往受限于传统运筹学（OR）僵化的数学模型。本研究通过构建包含 1,320 个实例的 InventoryBench 基准，系统评估了 OR 与大语言模型（LLM）在多周期库存控制中的协同效应。\n实验证据显示，采用“OR 提供基准计算、LLM 负责最终决策”的混合架构在均值突变与趋势骤变场景下，综合收益较单一模型提升 21%。同时，人机协作实验证实，人类参考 LLM 建议的决策模式能获得 20.3% 的个体级协同增益。\n研究进一步划定了技术边界：传统 OR 在平稳波动环境下表现更稳健，而混合架构在处理非结构化趋势与语境信号时具备压倒性优势。目前该基准与互动游戏已开源，旨在推动供应链管理中智能代理与人类决策的深度融合。",
          "cover_url": "assets/covers/sc2-inventory-control-human-llm-or-8d13236a51.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T22:04:42+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N8_At_Home_Movement_Interface",
      "slug": "n8-at-home-movement-interface",
      "detail_url": "papers/n8-at-home-movement-interface/",
      "title": "At-home movement state classification using totally implantable cortical-basal ganglia neural interface",
      "summary": "这篇论文研究的是更接近真实世界的脑机接口问题：能否在受试者离开实验室、回到居家环境后，依然稳定地从全植入式神经接口中识别运动状态。相比实验室条件，这种场景更接近临床神经调控和长期闭环应用的真实需求。\n\n论文的新意在于把皮层—基底节全植入式接口、设备端分类器和居家环境数据结合起来，验证 walking 等运动状态能够在实验室外被持续识别。重点不是单次最高精度，而是把 BCI 从受控演示推进到真实生活条件下的可用系统。\n\n这篇论文应归入认知科学 / 神经工程主线。它和 AI 主榜单的距离稍远，但对闭环神经接口、可部署脑机系统和真实世界神经解码有很高参考价值。\n\n它没有更高一级，是因为核心贡献仍偏临床工程与系统可行性验证，而不是一个会重塑通用 AI 或通用认知建模范式的方法学突破。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-13",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 294,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12904197/",
      "paper_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12904197/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "告别实验室物理束缚，UCSF实现全植入式脑机接口居家实时分类，精准记录80小时自然运动意图",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "at home movement state classification using totally implantable cortical basal ganglia neural interface",
          "description": "UCSF（加州大学旧金山分校）团队在临床神经科学领域取得重要进展。针对帕金森病患者步态障碍具有动态不可预测性，且传统DBS疗法因无法感知环境而难以动态调节的痛点，研究者开发了一套全植入式双向脑机接口系统。该方法通过运动皮层表面电极与深部电极协同工作，结合脚踝传感器提供的地表真值，在4名受试者长达80小时的居家自然活动中，成功实现了行走状态的实时精准分类。这一成果标志着脑机接口从实验室受限环境走向了真实生活场景，为开发能够自动识别患者状态、实现精准给药或电刺激的闭环自适应神经调制疗法奠定了关键数据基础。",
          "x_post": "UCSF团队实现全植入式脑机接口居家运动分类，基于4名受试者84.5小时真实数据\n\n帕金森病患者的步态障碍具有高度动态性与不可预测性，而传统脑深部电刺激（DBS）因缺乏环境感知能力，难以根据患者实时状态进行调节。该研究开发了一套全植入式双向脑机接口系统，协同运动皮层表面电极与苍白球深部电极，通过线性判别分析器实时解码神经信号。研究人员对4名受试者进行了平均每半球13天的连续记录，在总计84.5小时的居家自然活动中，精准实现了行走与静止状态的分类。这一进展标志着脑机接口从受限实验室环境走向真实生活场景，为未来开发闭环自适应神经调制疗法奠定了关键数据基础。",
          "cover_url": "assets/covers/n8-at-home-movement-interface-74deb60c4b.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T16:30:23+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N19_YORU_Closed_Loop_Behavior",
      "slug": "n19-yoru-closed-loop-behavior",
      "detail_url": "papers/n19-yoru-closed-loop-behavior/",
      "title": "YORU: Animal behavior detection with object-based approach for real-time closed-loop feedback",
      "summary": "这篇论文解决的是多动物社会行为实时检测在神经科学实验里一直很难落地的问题。传统 pose estimation 方法在遮挡、接近接触和复杂互动场景下容易失效，尤其不适合需要毫秒级触发外部反馈的 closed-loop 实验。\n\n方法上，作者提出 YORU，把行为本身当作“behavior object”来检测，而不是先追踪身体关键点再做时序分类。系统基于 YOLOv5 风格目标检测，配套 GUI、离线分析和实时处理模块，并通过多进程把图像采集、识别和外设控制并行化，用于实时触发 LED、DAQ、Arduino 等外部设备。\n\n这篇工作的意义在于，它把动物行为分析从“离线标注工具”推进到了“可直接驱动神经干预的实时实验系统”。论文覆盖果蝇、蚂蚁、斑马鱼和小鼠等多种动物，并展示了面向 social behavior 的 closed-loop photostimulation 场景，所以它适合放在仓库的认知科学 / 神经科学工具主线，而不是 AI 基础模型主线。\n\n它没有升到更高等级，原因是外溢性主要集中在行为神经科学实验范式，而不是更广泛的 AI 方法学。它是很强的实验系统论文，但不是会重排整个机器学习路线图的工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-13",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 293,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12893285/",
      "paper_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12893285/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A295_Doc_to_LoRA_Context_Internalization",
      "slug": "a295-doc-to-lora-context-internalization",
      "detail_url": "papers/a295-doc-to-lora-context-internalization/",
      "title": "Doc-to-LoRA: Learning to Instantly Internalize Contexts",
      "summary": "Doc-to-LoRA 把长上下文信息从 token-level context 转成 transient LoRA adapter，提供了一种参数记忆接口：文档不再每次都作为 KV/context 被反复读入，而是由 hypernetwork 在一次前向中编译成目标 LLM 的 LoRA 权重。\n\n它瞄准的是 context distillation 的实际瓶颈。传统 per-prompt distillation 需要昂贵训练，RAG/长上下文每次查询又要承担上下文和 KV cache 成本；D2L 试图把“读文档”和“后续问答”解耦。\n\n实验显示 D2L 可以在 needle-in-a-haystack 和真实 QA 任务中把上下文信息写入 adapter，在超过目标模型原生 context window 的长度上保持较强表现，并降低峰值内存与更新延迟。仓库还提供参考实现、demo 和预训练模型下载。\n\n它值得正式收录，因为它把 agent memory / personalized context / frequent knowledge update 变成一种可组合的参数化能力注入接口，和 MSA 这类隐式注意力记忆形成互补：一个扩展可注意的内生记忆容量，一个把文档编译进临时参数。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-02-13",
      "doi": "",
      "arxiv_id": "2602.15902",
      "collected_at": "",
      "collection_order": 292,
      "source_url": "https://arxiv.org/pdf/2602.15902.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.15902.pdf",
      "project_urls": [
        "https://pub.sakana.ai/doc-to-lora/"
      ],
      "repo_urls": [
        "https://github.com/SakanaAI/doc-to-lora",
        "https://huggingface.co/SakanaAI"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A26_UniManip_Agentic_Manipulation",
      "slug": "a26-unimanip-agentic-manipulation",
      "detail_url": "papers/a26-unimanip-agentic-manipulation/",
      "title": "UniManip: General-Purpose Zero-Shot Robotic Manipulation with Agentic Operational Graph",
      "summary": "问题与背景：零样本机器人操作长期面临两难：端到端 VLA 模型语义强但精度不足，传统分层规划精度高但语义僵硬，难以处理开放世界变化。\n\n方法/新意：UniManip 用 agentic operational graph 把高层语义理解与低层物理操作连接起来，构建一个更灵活的通用操作框架。重点是通过显式图结构承接开放式任务分解，而不是完全交给黑盒策略端到端吸收。\n\n意义/放在仓库中的位置：这篇论文属于 robotic agents / operational planning / embodied reasoning 主线，和 AutoHarness、World-VLA-Loop、Counterfactual VLA 一脉相承。它体现的是 agentic robotics 而不是单纯动作回归。\n\n局限/为何不再升一级：当前仍是 arXiv 阶段，主要价值在框架层和 zero-shot 操作表现，距离形成统一机器人基础模型范式还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-13",
      "doi": "",
      "arxiv_id": "2602.13086",
      "collected_at": "",
      "collection_order": 291,
      "source_url": "https://arxiv.org/pdf/2602.13086v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.13086v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N13_Reward_Timing_Learning",
      "slug": "n13-reward-timing-learning",
      "detail_url": "papers/n13-reward-timing-learning/",
      "title": "Duration between rewards controls the rate of behavioral and dopaminergic learning",
      "summary": "这篇论文直接挑战了“联想学习主要依赖大量重复试错”的直觉。作者研究奖励之间的时间间隔如何调节行为学习速度以及多巴胺信号的变化，从而把学习效率与事件稀疏性联系起来。\n\n核心新意在于证明学习信号并不只是由奖励本身决定，还受到奖励出现时机和稀有程度的强烈调制。换句话说，罕见事件可以触发更强的学习增益，这给传统 trial-and-error 叙事加了一个关键时间维度。\n\n这篇论文适合认知科学与学习理论主线，也对类脑学习算法和低样本学习叙事有直接启发。它是那种会影响“AI 是否真的需要海量重复数据”讨论框架的认知科学证据。\n\n它仍不算更高一级，因为目前主要是生物学习机制层面的重要纠偏，尚未转化成被广泛验证的 AI 训练范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-12",
      "doi": "10.1038/s41593-026-02206-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 290,
      "source_url": "https://www.nature.com/articles/s41593-026-02206-2",
      "paper_url": "https://www.nature.com/articles/s41593-026-02206-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "告别无效的重复练习：Nature重构学习定律，揭开总时间不变下的指数级学习速率反转真相",
          "url": "https://www.bilibili.com/video/BV1SYwjzQE81",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1SYwjzQE81",
            "https://youtu.be/EwAgiGwucFk"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "duration between rewards controls the rate of behavioral and dopaminergic learning",
          "description": "传统强化学习理论认为学习效果取决于线索与奖励配对的次数，但UCSF发表在《Nature Neuroscience》的研究挑战了这一认知。实验通过调节小鼠奖励间隔时间（IRI）发现，学习速率与间隔时长成正比。将间隔延长10倍，单次配对的学习效率也随之提升10倍，且达到习得标准的总时间基本恒定。研究利用高精度传感器监测发现，伏隔核的多巴胺响应同样遵循此缩放定律，且神经信号的改变领先于行为表现。该发现证明了时间结构在因果学习中的核心作用，为优化学习策略提供了生物学依据。",
          "x_post": "UCSF团队《Nature Neuroscience》揭示奖赏间隔决定学习速率：10倍间隔可提升10倍单次学习效率\n\n传统强化学习理论（TDRL）认为学习效果取决于线索与奖赏的配对次数。然而，UCSF研究人员通过小鼠实验发现，学习速率实际上与奖赏间隔时间（IRI）成正比。\n\n实验数据表明，将间隔从60秒延长至600秒，学会关联所需的平均配对次数从94次降至8.8次。尽管练习次数减少为原来的1/10，但两组小鼠达到习得标准所需的总学习时间保持恒定。而在1小时（3600秒）的极限测试中，小鼠仅需约3.6次试验即可掌握关联。\n\n通过dLight 1.3b传感器监测发现，伏隔核的多巴胺响应同样遵循此比例缩放定律，且神经层面的信号改变领先于行为表现。该研究证明了时间结构在因果学习中的核心作用，为优化低频次、高效能的学习策略提供了生物学依据。",
          "cover_url": "assets/covers/n13-reward-timing-learning-e0ae987770.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-16T10:11:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW14_EM_Aware_RF_Physical_Synthesis",
      "slug": "hw14-em-aware-rf-physical-synthesis",
      "detail_url": "papers/hw14-em-aware-rf-physical-synthesis/",
      "title": "EM-Aware Physical Synthesis: Neural Inductor Modeling and Intelligent Placement & Routing for RF Circuits",
      "summary": "RF 电路自动化长期受限于一个现实问题：很多方法能做拓扑选择和参数优化，但到 manufacturable layout 就断掉了。组件模型过于简化、routing 能力不足，使得 AI 结果很难真正落到 GDSII。\n\n这篇论文提出一个 ML-driven RF physical synthesis framework，从 circuit netlist 出发，结合大规模 neural inductor model、P-cell 优化，以及带频率相关 EM spacing 规则的 placement and routing，引导流程直接产出 DRC-aware 的 GDSII layout。它把 EM-aware component synthesis 和 physical implementation 真正接上了。\n\n这对本仓库的新范围是很关键的，因为它不是一般的 AI-for-EDA 局部预测，而是更接近真实 physical design automation。对 `电路设计与仿真` 来说，它提供了从 netlist 到 layout 的可复用路径，也把多物理约束更严肃地带回到自动化流程。\n\n它还不是更高一级，因为问题仍集中在 RF circuits 这一子领域，尤其受限于 inductor-centric component modeling，外溢到更广的 mixed-signal/digital 设计空间还需要更多证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-02-12",
      "doi": "",
      "arxiv_id": "2602.11461",
      "collected_at": "",
      "collection_order": 289,
      "source_url": "https://arxiv.org/pdf/2602.11461.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.11461.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "跨越射频芯片设计的“物理实现鸿沟”：AI驱动电磁感知，实现从网表到版图的全流程进化",
          "url": "https://www.bilibili.com/video/BV1YeXbBTEaK",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1YeXbBTEaK",
            "https://youtu.be/hWRSM7HEUmg"
          ],
          "main_collection": "AI硬件设计",
          "match": "em aware physical synthesis neural inductor modeling and intelligent placement routing for rf circuits",
          "description": "针对射频芯片设计中电路网表到物理版图转换效率低、电磁效应难以精确建模的“物理实现鸿沟”，本研究提出一种机器学习驱动的自动化物理综合框架。该框架聚焦 1-100 GHz 频段，核心创新包括基于 750 万个仿真数据训练的深度多层感知机（MLP）模型，实现了平均绝对百分比误差（MAPE）低于 2% 的高精度电感特性预测。通过梯度推理策略，系统支持从目标参数逆向生成可制造物理尺寸，单次优化耗时不足 1 秒。此外，框架集成了电磁感知的布局布线引擎与 P-Cell 优化器，在确保物理合规性的同时，显著缩短了传统毫米波电路设计的人工迭代周期。实验证明，该方案能有效处理衬底损耗与趋肤效应，是实现射频电路全流程自动化设计的关键进展。",
          "x_post": "USC与UC Irvine团队研发EM感知射频芯片综合框架：实现1-100GHz全流程自动化与<2%建模误差\n针对毫米波段射频电路中电磁效应耦合复杂、手动版图迭代周期长等“物理实现鸿沟”，该研究提出一种机器学习驱动的自动化物理综合框架。\n核心技术采用深度多层感知机（MLP）构建电感模型，通过750万个仿真数据训练，实现了MAPE < 2%的高精度预测及基于梯度的快速逆向参数生成。\n框架集成电磁感知布局布线引擎与P-Cell优化器，支持从电路网表到制造级GDSII版图的端到端生成，单次优化耗时不足1秒。\n实验表明，在Q>10的高品质因数约束下，该系统的逆向设计成功率达93.77%，为射频电路全流程自动化设计提供了可验证的技术路径。",
          "cover_url": "assets/covers/hw14-em-aware-rf-physical-synthesis-6340c38e72.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T07:00:27+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C26_AP_Lab_Pilot_Scale_Materials",
      "slug": "c26-ap-lab-pilot-scale-materials",
      "detail_url": "papers/c26-ap-lab-pilot-scale-materials/",
      "title": "AP-Lab: An AI-Driven Autonomous Pilot-Scale Platform Bridging Materials Discovery and Industrial Manufacturing",
      "summary": "问题与背景：AI 已经能加速材料发现，但从实验室配方走向工业制造仍受制于私有工业数据稀缺、应用指标缺位和实验系统难以闭环。AP-Lab 把这个断点作为核心对象，而不是只做一个材料预测模型。\n\n方法与机制：论文构建 AI-driven autonomous pilot-scale laboratory，以磁性纳米颗粒病毒核酸提取为案例，集成用户交互、优化方案生成、自主合成测试和数据管理四类 agent-controlled systems，并用 PCR Ct 值作为面向应用的 benchmark。\n\n为什么重要：它把自主实验室从小规模 discovery 推到接近制造转化的尺度，体现了 AI agent、实验自动化、局部工业数据和应用指标闭环的系统模式。对 AI for science 和工业材料研发工作流都有可复用意义。\n\n局限：目前验证集中在一个应用场景和一类材料产品，泛化到其他工业材料、质量体系和多站点制造还需要更多证据；因此收为突破级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-02-12",
      "doi": "10.1002/advs.74293",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 288,
      "source_url": "https://doi.org/10.1002/advs.74293",
      "paper_url": "https://doi.org/10.1002/advs.74293",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A28_LDA_1B_Embodied_Data",
      "slug": "a28-lda-1b-embodied-data",
      "detail_url": "papers/a28-lda-1b-embodied-data/",
      "title": "LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion",
      "summary": "问题与背景：机器人 foundation model 往往依赖行为克隆，只模仿动作而难以吸收异构 embodied 数据中的动力学知识，导致在长时程和接触丰富任务上泛化受限。\n\n方法/新意：LDA-1B 通过统一 embodied 数据 ingestion，把 dynamics、policy 和 visual forecasting 联合起来学，并在结构化 DINO latent 空间里进行预测，避免像素级冗余建模。作者还组建了 30k 小时统一格式的 EI-30k 数据集。\n\n意义/放在仓库中的位置：这篇论文属于 embodied AI / robot foundation model / world model 主线。它展示了如何把 heterogeneous embodied data 真正吃进 1B 级模型，并在真实和仿真任务上获得显著收益。\n\n局限/为何不再升一级：虽然路线很强，但仍处在机器人 foundation model 这一具体赛道，影响面还没到重排更大范围 AI 路线图的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-12",
      "doi": "",
      "arxiv_id": "2602.12215",
      "collected_at": "",
      "collection_order": 287,
      "source_url": "https://arxiv.org/pdf/2602.12215v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.12215v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A25_GigaBrain_WM_VLA",
      "slug": "a25-gigabrain-wm-vla",
      "detail_url": "papers/a25-gigabrain-wm-vla/",
      "title": "GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning",
      "summary": "问题与背景：Vision-Language-Action 模型在当前观测上直接预测动作，往往缺乏对未来状态的显式建模，导致长程规划和泛化能力不足。视频世界模型则天然具备时空推演能力，但如何稳定迁移到 VLA 学习仍是开放问题。\n\n方法/新意：GigaBrain-0.5M* 把 world model-based reinforcement learning 用作 VLA 训练信号来源，让策略从预测未来的表征中获益，而不是仅靠当前帧到动作的直接映射。这使得 world model 从旁路模块变成了策略学习的核心教师。\n\n意义/放在仓库中的位置：它属于 world model -> policy 的主线，和 Causal-JEPA、World-VLA-Loop、PerpetualWonder 处在同一方向。对于理解生成世界模型如何反哺具身智能，这是一篇值得跟的强论文。\n\n局限/为何不再升一级：目前仍以特定 VLA 训练框架为主，还没到统一整条具身学习路线的程度。更像是强路线论文，而不是决定性范式重排。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-12",
      "doi": "",
      "arxiv_id": "2602.12099",
      "collected_at": "",
      "collection_order": 286,
      "source_url": "https://arxiv.org/pdf/2602.12099v2.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.12099v2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T14_Circuits_Dynamics_3D_Diffusion",
      "slug": "t14-circuits-dynamics-3d-diffusion",
      "detail_url": "papers/t14-circuits-dynamics-3d-diffusion/",
      "title": "From Circuits to Dynamics: Understanding and Stabilizing Failure in 3D Diffusion Transformers",
      "summary": "这篇论文关注 3D diffusion transformer 在稀疏点云条件下的一个灾难性失败模式：输入只做极小的表面扰动，生成结果就会突然碎裂成多个不连通部分。作者把这个现象称为 Meltdown，并把它当成机制解释与稳定控制的联合问题来研究。\n\n方法上，论文用 activation patching 把故障局部化到单个早期去噪 cross-attention 激活，再用该激活奇异值谱的 spectral entropy 作为可观测代理指标，进一步把它解释成 reverse diffusion 动力学中的 symmetry-breaking bifurcation。基于这一机制洞见，作者提出 PowerRemap 作为 test-time 控制手段来稳定生成。\n\n它在仓库里的价值很高，因为它把 mechanistic interpretability 不再只用于语言模型，而是推进到了 3D diffusion 这种复杂生成系统，并且不是停留在“解释”，而是进一步做了可验证的控制与修复。对于扩散模型稳定性研究，这是很强的案例。\n\n我把它放在“突破性”。原因是它的方法和机制解释都很漂亮，但当前影响仍然集中在 3D diffusion / point-cloud completion 这条线上，还不到会重排更大生成模型研究路线的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-02-11",
      "doi": "",
      "arxiv_id": "2602.11130",
      "collected_at": "",
      "collection_order": 285,
      "source_url": "https://arxiv.org/abs/2602.11130",
      "paper_url": "https://arxiv.org/abs/2602.11130",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N3_Episodic_Memory_Theta_Rhythm",
      "slug": "n3-episodic-memory-theta-rhythm",
      "detail_url": "papers/n3-episodic-memory-theta-rhythm/",
      "title": "Episodic memory encoding fluctuates at a theta rhythm of 3–10 Hz",
      "summary": "## 这篇讲什么\n\n这篇研究讨论一个很基础但很关键的问题：为什么有些经历会被记住，而另一些很快消失。作者提出，记忆编码并不是连续稳定发生的，而是会以每秒数次的节律性窗口起伏；如果信息刚好落在“有利窗口”里，就更容易进入情景记忆。\n\n## 方法\n\n作者在一个预注册实验中，对 `125` 名参与者采用高时间分辨率的密集采样范式，重建记忆编码在毫秒尺度上的时间过程。核心不是看总体记忆成绩，而是看编码成功率是否在时间轴上表现出可重复的振荡结构。\n\n## 主要结果\n\n- 情景记忆编码表现出明显的 `3–10 Hz` theta 节律波动。\n- 这种波动并不能简单解释为注意节律的副产物。\n- 该节律还会受到与乙酰胆碱相关的候选指标调制。\n\n## 为什么重要\n\n这篇工作的价值在于，它把“记忆何时更容易形成”这个问题，从静态能力差异推进到动态神经节律层面。它为 `SPEAR`（Separate Phases for Encoding and Retrieval）模型提供了行为证据，也让“记忆形成是离散节律性机会窗口”这一观点更可检验。\n\n## 对 AI / 认知建模的启发\n\n如果记忆编码本身是节律性门控的，而不是均匀连续写入，那么认知系统中的记忆更新策略可能也应当是“相位依赖”的。这对研究工作记忆、情景记忆以及更生物可行的记忆写入机制都有启发。\n\n## 当前入库说明\n\n- 已保存正式文章页：`2026-02-11-N3_Episodic_Memory_Theta_Rhythm-Episodic_memory_encoding_fluctuates_at_a_theta_rhythm_of_310_Hz.html`\n- 当前环境下未成功拿到稳定全文 PDF\n- 因此本条目更适合用作“已确认正式发表的认知科学新作索引”",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-11",
      "doi": "10.1038/s41562-026-02416-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 284,
      "source_url": "https://www.nature.com/articles/s41562-026-02416-5",
      "paper_url": "https://www.nature.com/articles/s41562-026-02416-5 ; https://www.biorxiv.org/content/10.1101/2023.09.27.559710v1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "大脑记忆像每秒 7 次的相机快门，情景编码随 Theta 节律剧烈波动，多校联合揭秘 SPEAR 模型",
          "url": "https://www.bilibili.com/video/BV1rV9YBcEWR",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1rV9YBcEWR",
            "https://youtu.be/OxqSAxZPnRs"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "episodic memory encoding fluctuates at a theta rhythm of 3 10 hz",
          "description": "多伦多大学与华盛顿大学等机构在《自然-人类行为》发表研究，揭示了人类长时记忆形成的生理机制。长期以来，科学界难以捕捉亚秒级的记忆波动，导致人们误以为记忆编码是持续平稳的过程。研究团队采用密集采样法结合相位重置技术，发现人类情景记忆编码并非连续记录，而是以每秒约 7 次的 Theta 节律进行周期性波动。实验证据显示，记忆成功率在不同时段存在显著的 4% 振幅差，且该过程受乙酰胆碱调节。这一发现证实了海马体 SPEAR 计算模型，意味着大脑像快门一样将连续经历切割成有序片段，为优化学习时机和神经康复研究提供了重要边界。",
          "x_post": "多伦多大学与华盛顿大学团队揭示情景记忆编码以7Hz节律波动，记忆成功率振幅差达4%\n\n长期以来，由于亚秒级长时记忆编码波动难以被传统脑成像捕捉，该过程常被误认为持续平稳。研究团队采用密集采样法，以33毫秒为时间步长结合相位重置技术，系统性测量了刺激发生异步性（SOA）对记忆形成的影响。实验数据证实，情景记忆编码受3-10Hz（核心频率约7Hz）的Theta节律调节，其记忆成功率在不同相位间存在4%的显著振幅差。该研究验证了海马体SPEAR计算模型，并发现此节律受乙酰胆碱调节而非注意力波动驱动，揭示了大脑将连续经历切割成离散有序记忆片段的神经生物学机制。",
          "cover_url": "assets/covers/n3-episodic-memory-theta-rhythm-48153291cc.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-28T16:15:48+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "J1_Causal_JEPA",
      "slug": "j1-causal-jepa",
      "detail_url": "papers/j1-causal-jepa/",
      "title": "Causal-JEPA: Learning World Models through Object-Level Latent Interventions",
      "summary": "这篇论文是 JEPA 路线里少数真正往 object-centric world model 推进的工作。它不是继续做 patch-level 的 latent prediction，而是把预测单位提升到对象级别，并通过 object-level masking 让模型必须利用其他对象的状态去推断被遮蔽对象的未来表示。\n\n方法上，作者提出 `Causal-JEPA`。核心做法是把视频场景表示成对象槽位，再在训练时对部分对象进行干预式遮蔽。模型需要根据剩余对象和时序上下文预测目标对象的 latent trajectory。这样的训练目标会显式鼓励模型学习对象之间的相互作用，而不是只记住局部纹理或短期运动模式。作者把这种效果解释为一种因果导向的归纳偏置。\n\n这篇工作的价值在于，它把 JEPA 从通用表征学习进一步推到“可用于预测、反事实推理和控制”的世界模型方向。摘要里给出的结果也够硬：在 counterfactual reasoning 上相对基线有明显增益，并且在控制场景里只用极少量 latent features 就能达到接近 patch-based world model 的表现。\n\n如果从 JEPA 近两个月进展里只挑一篇最值得跟的，我会选这篇。它还不是一个完整的新主流范式，但已经明显超过“把 JEPA 换个数据集再跑一次”的级别，属于接近颠覆性候选的工作。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-02-11",
      "doi": "",
      "arxiv_id": "2602.11389",
      "collected_at": "",
      "collection_order": 283,
      "source_url": "https://arxiv.org/pdf/2602.11389.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.11389.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "失去物体反而发现世界法则：LeCun团队揭秘C-JEPA如何通过潜变量干预重塑AI逻辑",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "causal jepa learning world models through object level latent interventions",
          "description": "针对传统世界模型在处理复杂物体交互时算力消耗大且缺乏因果推理能力的问题，Yann LeCun团队提出了C-JEPA。该模型采用物体级潜变量干预方法，通过遮蔽特定物体强制系统学习因果法则，而非简单的像素预测。实验数据表明，C-JEPA在反事实推理任务中准确率提升20%，且规划速度比DINO-WM快8倍，仅需约1%的特征数据即可实现高效规划。研究验证了辅助变量条件化架构在建立因果直觉方面的优越性，为构建低功耗、具备逻辑推理能力的具身智能系统提供了新路径。",
          "x_post": "Meta与Yann LeCun团队发布C-JEPA：通过物体级潜变量干预实现20%反事实推理性能提升\n针对传统世界模型在处理复杂物体交互时算力消耗大且缺乏因果逻辑的问题，研究团队提出了C-JEPA架构。该模型利用物体级掩码技术模拟物理干预，强制系统在关键状态缺失的情况下，通过辅助变量条件化架构推导物体间的因果法则。\n实验结果显示，C-JEPA在反事实推理任务（“如果……会怎样”）中的准确率提升了20%。在机器人规划任务中，其规划速度比DINO-WM快8倍（耗时由5763秒缩短至673秒），且仅需1.02%的隐变量特征即可实现同等性能。\n该研究证明了结合因果偏置与潜在预测架构在建立因果直觉方面的有效性，为构建具备逻辑推理能力的高效具身智能系统提供了新路径。",
          "cover_url": "assets/covers/j1-causal-jepa-47746a983f.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-12T17:28:49+08:00"
        },
        {
          "title": "摒弃低效的像素级重构：Causal-JEPA引入掩码即干预机制，定义对象级世界模型新范式",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "causal jepa learning world models through object level latent interventions",
          "description": "摒弃低效的像素级重构：Causal-JEPA引入掩码即干预机制，定义对象级世界模型新范式\n\n本文介绍了一种名为 C-JEPA 的新型物体中心世界模型，旨在增强人工智能对复杂环境中物体交互和因果关系的理解。该模型通过物体级掩码技术模拟“干预”过程，强制系统在部分信息缺失的情况下，通过分析物体间的相互作用来预测未来的状态。研究表明，这种方法在视觉问答任务中表现优异，尤其在处理“如果……会怎样”的反因果推理问题时，其准确率显著提升。此外，C-JEPA 在机器人控制任务中展现了极高的效率，仅需传统模型约 1% 的特征数据即可实现同等性能，大幅加快了规划速度。总之，该研究通过结合因果偏置与潜在预测架构，为构建高效且具备推理能力的世界模型提供了新路径。",
          "x_post": "NYU、Mila与Yann LeCun团队发布Causal-JEPA：物体级潜变量干预实现8倍规划效率提升与20%推理精度增长\n\n针对传统世界模型依赖像素级重构且缺乏因果理解的问题，Causal-JEPA 提出“掩码即干预”机制。该框架通过物体级掩码强制模型在潜空间内进行关系推理，从而学习复杂的物体交互与反事实动态。\n\n实验数据表明，该模型在多对象反事实推理任务中精度提升 20%；在机器人控制规划中，其特征消耗仅为传统模型的 1%，规划耗时从 5763 秒缩减至 673 秒。\n\n研究证明，将动作作为辅助条件介入物体依赖框架，可在维持逻辑自治的同时显著提升预测效率。这一范式为构建低算力、高推理能力的对象中心世界模型提供了核心路径。",
          "cover_url": "assets/covers/j1-causal-jepa-a21d56108c.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-12T17:13:06+08:00"
        },
        {
          "title": "告别99%的Token冗余：LeCun团队发布C-JEPA，通过对象级干预重塑世界模型算力极限",
          "url": "https://www.bilibili.com/video/BV1F7cyzCEgu",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1F7cyzCEgu",
            "https://youtu.be/hg1kn7cGm3o"
          ],
          "main_collection": "机器人与具身智能",
          "match": "causal jepa learning world models through object level latent interventions",
          "description": "针对传统世界模型在处理复杂环境时面临的Token爆炸与计算成本高昂问题，Yann LeCun团队提出C-JEPA架构。该模型放弃了传统的像素级图像块处理，转向基于对象级的理解，并通过对象级掩码实现“潜在干预”，强制系统学习物体间的因果交互而非简单的模式记忆。实验证明，C-JEPA在反事实推理任务中表现优异，且在模型预测控制中，其特征数据量仅为传统模型的1.02%，规划速度提升显著。该研究为构建低能耗、具备物理规律认知能力的智能体提供了全新的技术路径。",
          "x_post": "Yann LeCun 团队发布 C-JEPA：利用对象级干预重塑世界模型，Token 消耗仅为传统架构 1.02%\n针对传统 patch-based 模型面临的 Token 爆炸与因果逻辑缺失问题，研究团队提出具备因果归纳偏置的对象级架构 C-JEPA。该模型通过 VideoSAUR 与 SAVi 机制将像素特征聚合为对象槽，并利用对象级掩码实施“潜在干预”，强制系统学习物体间的交互物理规律。实验数据表明，C-JEPA 在反事实推理任务中表现优异，采用辅助条件化策略后的推理准确率达 88.67%，显著高于传统拼接方法的 65.33%。在模型预测控制（MPC）任务中，该架构将 50 条轨迹的处理耗时从 5,763 秒大幅缩减至 673 秒，且特征数据量仅为传统模型的 1.02%。该研究证明了结合因果偏置与潜在预测架构可有效提升世界模型的推理效率与物理规律认知能力。",
          "cover_url": "assets/covers/j1-causal-jepa-c9460e899c.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-12T21:36:15+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "I3_Capability_Localization_CS",
      "slug": "i3-capability-localization-cs",
      "detail_url": "papers/i3-capability-localization-cs/",
      "title": "Compressed Sensing for Capability Localization in Large Language Models",
      "summary": "这篇论文研究大语言模型中的高级能力是否局域在少量注意力头上。作者提出基于压缩感知的定位方法，通过对随机头子集做敲除实验并求解稀疏回归，能用远少于贪心搜索的评估次数识别出数学、代码等能力相关的关键头。实验表明敲除少量已识别头就能让目标任务性能大幅下降，而对无关任务影响较小。它的价值在于提供了高效定位功能模块的方法，也强化了“能力在 Transformer 内部具有模块化组织”的证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-02-11",
      "doi": "",
      "arxiv_id": "2603.03335",
      "collected_at": "",
      "collection_order": 282,
      "source_url": "https://arxiv.org/pdf/2603.03335.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.03335.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A21_NeSyS_Interactive_World_Modeling",
      "slug": "a21-nesys-interactive-world-modeling",
      "detail_url": "papers/a21-nesys-interactive-world-modeling/",
      "title": "Neuro-Symbolic Synergy for Interactive World Modeling",
      "summary": "这篇论文瞄准的是用 LLM 充当世界模型时最棘手的短板：在需要严格遵守环境规则的交互场景里，纯神经世界模型很容易 hallucinate，而纯符号系统又缺乏语义灵活性。作者试图做的不是二选一，而是让两种范式协同工作。\n\n方法上，NeSyS 把 LLM world model 与可执行符号规则模型交替训练：对符号规则覆盖不到的轨迹，微调神经模型；对神经模型难以稳定解释的轨迹，则用符号模型约束其输出概率分布。关键点是符号模型不是外部后处理，而是直接介入神经模型的决策分布。\n\n它在仓库里的位置很明确：这是 world model 和 neuro-symbolic 结合方向的一篇代表作，和 JEPA、VLA、interactive planning 那些条目形成互补。相比只讨论“神经 vs 符号”理念的论文，它给出了更可执行的训练与推理机制。\n\n我把它放在“突破性”。原因是方法很值得收，也有跨环境实验支持，但目前影响范围仍集中在交互式世界模型这一子线，还不足以上升到更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-11",
      "doi": "",
      "arxiv_id": "2602.10480",
      "collected_at": "",
      "collection_order": 281,
      "source_url": "https://arxiv.org/abs/2602.10480",
      "paper_url": "https://arxiv.org/abs/2602.10480",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A19_H_WM_Hierarchical_World_Model",
      "slug": "a19-h-wm-hierarchical-world-model",
      "detail_url": "papers/a19-h-wm-hierarchical-world-model/",
      "title": "H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model",
      "summary": "问题与背景\n现有机器人世界模型很多偏视频生成或自然语言预测，虽然直观，但难以稳健支撑长时程 task and motion planning。传统符号 TAMP 又缺少和视觉世界的同步更新。H-WM 要解决的是这两类方法之间的断裂。\n\n方法/新意\nH-WM 把高层逻辑世界模型和低层视觉世界模型放进同一层级框架中，同时预测符号状态转移和视觉状态转移。这样高层可提供更稳定的中间规划指导，低层则保证视觉 grounding，不再让符号规划和视觉执行脱节。\n\n意义/放在仓库中的位置\n它适合放在 agentic planning / world model 主线，和 AutoNumerics、World-VLA-Loop、Causal-JEPA 这类强调结构化世界表示的工作相邻。对“如何把符号规划重新接回视觉世界模型”这个问题，它给了一个很直接的框架。\n\n局限/为何不更高\n论文较短，当前证据主要是机器人控制实验，尚不足以说明这种层级世界模型会成为更广泛 agent 系统的默认方案。它更像是一个方向正确、完成度不错的突破性候选。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-11",
      "doi": "",
      "arxiv_id": "2602.11291",
      "collected_at": "",
      "collection_order": 280,
      "source_url": "https://arxiv.org/abs/2602.11291",
      "paper_url": "https://arxiv.org/abs/2602.11291",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM15_MVISTA_4D",
      "slug": "mm15-mvista-4d",
      "detail_url": "papers/mm15-mvista-4d/",
      "title": "MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation",
      "summary": "问题与背景\n机器人 manipulation 里的世界模型常常只能做单视角视频预测，或者只能处理部分 3D 几何，因此很难稳定支持真实操作所需的完整 4D 场景想象和行动推断。MVISTA-4D 试图把多视角、一致几何和动作反推整合到同一个模型里。\n\n方法/新意\n它从单视角 RGBD 观察出发，生成任意视角的未来 RGBD 场景，并通过跨视角、跨模态特征融合保持 RGB 与 depth 的一致性和几何对齐。行动部分没有简单依赖逆动力学，而是做 test-time action optimization，再用残差逆动力学网络把场景未来转成可执行动作。\n\n意义/放在仓库中的位置\n这篇属于世界模型 / embodied AI 主线，和 PerpetualWonder、World-VLA-Loop、Drive-JEPA 属于同一类“让视频世界模型真正服务行动”的工作。它适合归在多模态世界模型和机器人 4D 生成之间的交叉位置。\n\n局限/为何不更高\n证据主要来自 manipulation 数据集和机器人任务，外溢性还局限在 embodied 4D world model 这一支线。它是很强的方法论文，但还不是那种重新定义整个世界模型路线的总攻成果。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-02-10",
      "doi": "",
      "arxiv_id": "2602.09878",
      "collected_at": "",
      "collection_order": 279,
      "source_url": "https://arxiv.org/abs/2602.09878",
      "paper_url": "https://arxiv.org/abs/2602.09878",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO26_IsoDDE_Drug_Design_Engine",
      "slug": "bio26-isodde-drug-design-engine",
      "detail_url": "papers/bio26-isodde-drug-design-engine/",
      "title": "Accurate Predictions of Novel Biomolecular Interactions with IsoDDE",
      "summary": "药物设计里最难被真正规模化的一层，不是再做一个更快的 docking surrogate，而是在 novel chemical space、novel pockets 和复杂 biomolecular interfaces 上，同时做到结构、口袋和亲和力预测的稳定泛化。IsoDDE 这份技术报告的意义，在于它把这些长期分裂的能力合并成一个统一的 biomolecular interaction engine，并明确把它定位为 drug design engine 的 predictive core。\n\n报告展示的核心信号相当硬：在 protein-ligand generalisation benchmark 上相对 AlphaFold 3 做到超过 2 倍提升，能够处理 induced fit 和新 binding pocket；在 biologics 上对 antibody-antigen interface prediction 和 CDR-H3 loop modeling 给出新的 state of the art；在小分子亲和力预测上又超过 gold-standard physics-based 方法。也就是说，它不是单点提分，而是在 structure prediction、pocket identification 和 affinity prediction 三条传统上分散的能力线上建立统一优势。\n\n它值得正式收录，因为这条路线对 AI x biopharma 的外溢非常直接。仓库并不优先收录纯科学结果，但会优先收录能够重构发现 workflow 的 AI 系统。IsoDDE 把 AlphaFold 之后的结构建模，向可用于 first-in-class target、novel mechanism discovery 和可扩展药物设计的更完整 predictive interface 推进了一步，这一点已经超过普通技术报告的参考价值。\n\n它目前仍然只是 breakthrough，而不是更高一级，因为证据仍主要来自 Isomorphic Labs 自身发布的 technical report，外部可复核性和社区 benchmark 采用还不足。它展示的是很强的方向与性能信号，但是否会成为药物设计领域长期标准接口，还需要公开评测、独立复现以及与更多 physics / generative design pipeline 的实际集成验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-02-10",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 278,
      "source_url": "https://storage.googleapis.com/isomorphiclabs-website-public-artifacts/isodde_technical_report.pdf",
      "paper_url": "https://storage.googleapis.com/isomorphiclabs-website-public-artifacts/isodde_technical_report.pdf",
      "project_urls": [
        "https://storage.googleapis.com/isomorphiclabs-website-public-artifacts/isodde_technical_report.pdf"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "打造药物研发的“全能引擎”：IsoDDE超越物理模拟限制，在零配体环境下精准识别隐蔽口袋",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "accurate predictions of novel biomolecular interactions with isodde",
          "description": "针对药物研发中深度学习模型泛化能力不足的难题，Isomorphic Labs推出IsoDDE统一计算系统。该系统重点解决了未知化学空间下的生物分子相互作用预测，在低相似度区间的蛋白-配体结构预测成功率达50%，性能超过AlphaFold 3两倍。视频详细展示了IsoDDE对诱导契合效应和隐蔽口袋的精准识别能力，并证明其在抗体-抗原界面预测及CDR-H3环建模中达到了原子级实验精度，为理性药物设计提供了高保真度的AI基础工具。",
          "x_post": "Isomorphic Labs 发布药物设计引擎 IsoDDE，在低相似度蛋白-配体预测上精度达 AlphaFold 3 两倍以上\n药物研发中深度学习模型在未知化学空间的泛化能力不足一直是核心瓶颈。Isomorphic Labs 推出的 IsoDDE 统一计算系统，通过优化算法解决了诱导契合效应及隐蔽口袋识别等分布外预测难题。在 (0, 20] 相似度基准测试中，其蛋白-配体预测成功率达 50%，显著优于 AF3 的 23.3%；同时在高保真抗体预测中，39% 的样本达到 DockQ > 0.8 标准。该系统实现了从结构建模到结合亲和力定量评估的整合，为零配体环境下的理性药物设计提供了实验级精度的 AI 基础工具。",
          "cover_url": "assets/covers/bio26-isodde-drug-design-engine-444175efa7.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-03T10:18:22+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A12_Emergent_Social_World_Models",
      "slug": "a12-emergent-social-world-models",
      "detail_url": "papers/a12-emergent-social-world-models/",
      "title": "On Emergent Social World Models -- Evidence for Functional Integration of Theory of Mind and Pragmatic Reasoning in Language Models",
      "summary": "**问题与背景**\n这篇论文针对 `social cognition / world models / language models` 方向中的核心问题展开，属于仓库主线内值得正式记录的研究。它关注的不是局部调参，而是该子方向里较基础、较长期的问题，因此即使仍处在论文阶段，也有持续跟踪价值。\n\n**方法/新意**\n论文提出了相对清晰的新方法或新分析框架，并给出了可复核的实验或论证。它的主要新意在于把问题从经验比较推进到更可解释、可系统化的层面，而不是仅仅提供一个小幅性能增益。\n\n**意义/放在仓库中的位置**\n在仓库里，这篇论文归到 `social cognition / world models / language models` 主线，定位为 `breakthrough`。它适合作为后续做主题综述、视频选题和与同类论文横向比较时的正式材料，也能补足当前仓库在该方向上的连续性。\n\n**局限/为何不再升一级**\n它暂时没有升到 `disruptive`，主要因为当前证据更像一篇高质量方法论文、机制论文或系统论文，而不是已经改写整条研究路线的成果。除非后续被大规模复现、 adopted 或成为该领域新标准，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-10",
      "doi": "",
      "arxiv_id": "2602.10298",
      "collected_at": "",
      "collection_order": 277,
      "source_url": "https://arxiv.org/pdf/2602.10298v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.10298v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "W1_IVSR_Wildfire_Digital_Twin",
      "slug": "w1-ivsr-wildfire-digital-twin",
      "detail_url": "papers/w1-ivsr-wildfire-digital-twin/",
      "title": "Digital Twin and Agentic AI for Wild Fire Disaster Management: Intelligent Virtual Situation Room",
      "summary": "野火灾害管理真正困难的地方，不是单独做感知、预测或资源调度，而是如何把多源感知、仿真推演、决策建议和现场执行接成实时闭环。传统灾害管理框架通常停留在静态模拟和被动数据获取上，无法跟随火情演化做持续更新。\n\n这篇论文提出的 Intelligent Virtual Situation Room 把 bidirectional digital twin 和 agentic AI 合在一起：系统持续摄取传感器图像、气象信息和三维森林模型，构造 live virtual replica；再通过 similarity engine 对接预计算 Disaster Simulation Library，检索并校准干预策略；获批行动则回写物理层，形成 response-analysis loop。论文还展示了 localized incident detection、privacy-preserving playback、fire-spread projection 与 site-specific ML retraining。\n\n对仓库来说，这篇工作的价值在于它不是再做一个 wildfire forecasting model，而是给出一个环境灾害响应的可复用 workflow pattern：数字孪生负责状态统一，agentic layer 负责检索、编排与建议，专家维持授权边界。这个结构对 wildfire、flood、industrial accident 等场景都有明显外溢。\n\n它没有更高一级，因为当前验证仍以 industrial-partner case-study simulations 为主，还不是大规模真实部署后的成熟运营系统。论文证明了方向和系统形态是对的，但离 field-grade default blueprint 还差一层。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "weather_climate_and_earth_systems",
      "theme_label": "天气、气候与地球系统",
      "published_at": "2026-02-09",
      "doi": "",
      "arxiv_id": "2602.08949",
      "collected_at": "",
      "collection_order": 276,
      "source_url": "https://arxiv.org/pdf/2602.08949.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.08949.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "面对未来30%的野火增幅，阿尔托大学利用双向数字孪生重构救灾闭环，抢回被错失的黄金窗口",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "digital twin and agentic ai for wild fire disaster management intelligent virtual situation room",
          "description": "随着气候变化，预计到2050年全球野火增幅将达30%，传统被动感知模式难以把握救援黄金窗口。阿尔托大学研究团队提出智能虚拟指挥室（IVSR）方案，通过将单向数字孪生进化为双向闭环系统，实现物理世界与虚拟演练的实时同步。该系统集成多模态智能体AI，涵盖规则逻辑、强化学习与视觉语言模型，能将无人机回传的原始画面转化为结构化决策指令。研究通过工业案例验证了该架构在缩短反应时间、优化资源调度及保护数据隐私方面的有效性，为提升生态韧性提供了从实时监测到自动干预的闭环技术支撑。",
          "x_post": "阿尔托大学开发IVSR智能虚拟指挥室，应对2050年预测增幅30%的全球野火风险\n\n气候变化引发野火风险持续攀升，预计2030年将增幅14%，2050年达30%，传统模式难以把握救援“黄金窗口”。阿尔托大学研究团队通过集成Agentic AI与双向数字孪生（BDT）技术，构建了实时同步的智能虚拟指挥室（IVSR）。系统通过多模态智能体阵列处理风速、植被负载等高维参数，利用VLM模型将无人机回传画面实时转化为结构化决策指令。工业案例验证显示，该双向闭环架构能实现毫秒级策略比对，显著缩短应急响应时间并优化资源协调，为提升生态韧性提供了可核验的自动化干预支撑。",
          "cover_url": "assets/covers/w1-ivsr-wildfire-digital-twin-84ac1731f7.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T21:05:14+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N51_Spectrotemporal_Correlations_Pitch",
      "slug": "n51-spectrotemporal-correlations-pitch",
      "detail_url": "papers/n51-spectrotemporal-correlations-pitch/",
      "title": "Humans can use positive and negative spectrotemporal correlations to detect rising and falling pitch",
      "summary": "问题与背景：音高上升和下降的知觉通常被当作听觉系统中的基础能力，但其底层计算机制并不清楚。作者关注的是人类是否能利用正负 spectrotemporal correlations 来判断 pitch motion direction。\n\n方法/新意：论文结合行为实验和神经成像，显示人类不仅能利用正相关，还能利用负相关的频时结构来判断音高升降，并据此提出听觉系统可能采用类似视觉运动检测中的 opponent computation。这个跨模态算法类比很有启发性。\n\n意义/放在仓库中的位置：这是一篇高质量感觉认知论文，适合放在认知科学主线里的听觉知觉方向。它的重要性不只在具体听觉现象，而在于提示视觉与听觉可能共享更一般的局部相关检测算法。\n\n局限/为何不再升一级：尽管跨模态计算类比很漂亮，但影响仍主要在听觉知觉与感觉计算子领域，外溢性不如更广泛的认知架构论文，因此定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-09",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 275,
      "source_url": "https://pubmed.ncbi.nlm.nih.gov/41663716/",
      "paper_url": "https://pubmed.ncbi.nlm.nih.gov/41663716/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "耶鲁大学发现大脑听觉新算法：用看的方式去听，甚至会产生颠覆物理规律的听觉错觉",
          "url": "https://www.bilibili.com/video/BV1Wh9eBBEkP",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Wh9eBBEkP",
            "https://youtu.be/uSniGU0WKzo"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "humans can use positive and negative spectrotemporal correlations to detect rising and falling pitch",
          "description": "耶鲁大学研究团队在《自然-人类行为》发表最新成果，揭示了人类听觉系统处理音高变化的“隐藏算法”。传统理论认为大脑依赖基频追踪识别音调，但研究发现听觉皮层采用了类似视觉系统的频率-时间相关性计算。实验利用无基频的随机噪声包络，证实人类在缺乏实体声音信号时，仍能以超90%的准确率精准识别频率位移。更惊人的是，研究发现负相关信号会导致物理升降与主观听感完全相反的“反向听觉错觉”。通过fMRI和计算建模，该研究证明了中枢神经系统在视觉空间和听觉频率上共享相似的运动检测逻辑。这一发现深化了对汉语等声调语言感知的理解，也为类脑计算和人工听觉系统的开发提供了跨感官的新视角。",
          "x_post": "耶鲁大学于 Nature Human Behaviour 揭示听觉新算法，通过正负相关性实现超 90% 的音高识别\n传统理论认为音高感知主要依赖基频追踪，但大脑在缺乏连续实体信号时如何识别频率位移尚待解释。研究团队借鉴视觉运动检测逻辑，在频率-时间网格上构建无基频随机噪声包络，测试人类对局部强度相关性的敏感度。实验证实，受试者识别正相关信号的准确率超过 90%，而负相关信号则诱发了主观听感与物理位移完全相反的“反向听觉错觉”。通过 fMRI 与计算建模，该研究证明听觉皮层采用与视觉类似的拮抗式处理机制捕捉音调轨迹。该成果揭示了中枢神经系统在视听维度上共享的运动检测逻辑，为声调语言感知及类脑计算提供了新的生物学依据。",
          "cover_url": "assets/covers/n51-spectrotemporal-correlations-pitch-0512f71f93.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-28T16:16:28+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N18_Medical_Time_Series_Transformers",
      "slug": "n18-medical-time-series-transformers",
      "detail_url": "papers/n18-medical-time-series-transformers/",
      "title": "Decentralized Attention Fails Centralized Signals: Rethinking Transformers for Medical Time Series",
      "summary": "医疗时间序列建模，尤其是 EEG、ECG 这类多通道生物信号，通常不是由完全对等的 token 彼此自由交互而成，而更接近由少数中心性信号源驱动并向全局传播。本文把问题直接指向标准 Transformer 的结构失配：去中心化的全注意力机制并不适合这种“中心化源、全局观测”的医学时序数据，因此在长序列、多通道和跨通道依赖上会付出不必要的代价。\n\n作者提出 CoTAR（Core Token Aggregation-Redistribution）结构，用单一核心 token 先聚合多通道时序中的全局信息，再把整合后的信息重新分发给局部 token，从而替代标准 attention 中每个 token 对所有 token 的均匀交互。这个设计的关键不是单纯省算力，而是显式引入一种与医疗时序生成机制更相符的归纳偏置，让模型优先学习中心化生理信号与局部观测之间的关系。\n\n这篇论文适合仓库的认知科学 / 生物医学时序 AI 主线，也能覆盖医疗时间序列建模这条应用主线。它的价值在于提出了一个对领域结构有针对性的 Transformer 替代思路，而不是泛化地追求更轻量的 attention 近似。若后续在 EEG、ECG、ICU 多模态生理监测等任务上被复用，外溢价值会很明显。\n\n它目前归为突破性而不是更高一级，原因是证据仍主要集中在医疗时间序列这一垂直领域，外溢到通用序列建模或更大规模基础模型路线还没有被充分证明。它更像一篇强的领域型架构论文，而不是已经改写通用 Transformer 路线的总纲领工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-09",
      "doi": "",
      "arxiv_id": "2602.18473",
      "collected_at": "",
      "collection_order": 274,
      "source_url": "https://arxiv.org/pdf/2602.18473.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.18473.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "破解Transformer结构错位：清华港理工引入星型拓扑，让医疗AI模型性能飞跃12%",
          "url": "https://www.bilibili.com/video/BV1RswNztEhB",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1RswNztEhB",
            "https://youtu.be/5FDbf6PIp6E"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "decentralized attention fails centralized signals rethinking transformers for medical time series",
          "description": "本研究针对传统Transformer在处理医疗时间序列（如EEG、ECG）时存在的去中心化注意力机制与生理信号中心化本质不匹配的问题，提出TeCh框架。核心创新在于CoTAR模块，通过引入全局核心Token构建星型拓扑，将二次计算复杂度优化为线性。该模型采用自适应双路Token化策略，有效解耦时间与通道依赖。实验结果显示，TeCh在五个医疗基准数据集上性能平均提升12.13%，并显著增强了推理速度与抗噪声鲁棒性，有效解决了长序列高维医疗数据的算力瓶颈与特征稀释问题。",
          "x_post": "清华大学与香港理工大学提出 TeCh 框架，重构医疗时序 Transformer 使性能提升 12.13%\n\n针对传统 Transformer 去中心化注意力机制与生理信号（如 EEG/ECG）中心化本质的结构错位，研究团队指出 $O(S^2)$ 复杂度及特征稀释限制了医疗长序列建模效果。\n为此引入 CoTAR 模块构建星型拓扑，通过全局核心 Token 进行信息的“聚合-代理交互-重分配”，成功将计算复杂度由平方阶优化至线性阶 $O(S)$。\n实验显示，TeCh 在 5 个医疗基准数据集上平均性能提升 12.13%，并显著增强了推理速度与抗噪声鲁棒性。\n该框架通过自适应双路 Token 化策略解耦时间与通道依赖，为高维医疗时序数据的算力瓶颈提供了兼具生物学可解释性与效率的解决方案。",
          "cover_url": "assets/covers/n18-medical-time-series-transformers-3e6ffbff53.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-14T20:15:56+08:00"
        },
        {
          "title": "香港理工与清华突破医疗AI算力瓶颈，5倍提速精准解码脑心信号，发布CoTAR架构",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "decentralized attention fails centralized signals rethinking transformers for medical time series",
          "description": "香港理工大学与清华大学针对医疗时间序列分析提出TeCh框架。传统Transformer由于去中心化机制与人体生理结构错位，导致医疗信号处理算力浪费且精度受限。研究团队开发了CoTAR模块，通过“核心令牌”中介实现信息的中心化聚合与分发，将计算复杂度从二次方降至线性。实验显示，该模型在APAVA数据集上精度提升11.6%，推理速度快5倍且显著降低内存占用。这一突破为脑电和心电信号的高效精准诊断提供了新方案，证明了生物学启发架构在医疗AI领域的应用潜力。",
          "x_post": "香港理工与清华大学研发TeCh框架，以中心化注意力机制实现医疗信号解析5倍提速\n\n传统Transformer的去中心化注意力机制与大脑、心脏等高度中心化的生理源结构存在错位，导致处理EEG/ECG信号时算力效率受限。为此，研究团队提出CoTAR架构，通过引入“核心令牌”作为中枢实现信息的中心化聚合与分发，成功将计算复杂度从二次方降至线性水平。实验数据显示，该架构在APAVA数据集上使精度提升11.6%，推理速度加快5倍且显著降低了内存占用。该研究证明，在深度学习中引入特定领域的生物学归纳偏置，能有效突破医疗时间序列分析的性能瓶颈。",
          "cover_url": "assets/covers/n18-medical-time-series-transformers-13955c329e.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-17T15:43:11+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "M3_AutoReal_seL4",
      "slug": "m3-autoreal-sel4",
      "detail_url": "papers/m3-autoreal-sel4/",
      "title": "Towards Real-World Industrial-Scale Verification: LLM-Driven Theorem Proving on seL4",
      "summary": "- 分级：`颠覆性`\n- 正式标题：`Towards Real-World Industrial-Scale Verification: LLM-Driven Theorem Proving on seL4`\n- 原文：`2026-02-09-M3_AutoReal_seL4-Towards_Real_World_Industrial_Scale_Verification_LLM_Driven_Theorem_Proving_on_s.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文最重要的一点，是把 LLM 驱动的证明从学术玩具 benchmark 推进到真实工业级形式化验证项目 seL4。作者提出 AutoReal，并基于该方法微调得到一个可本地部署的 7B 级证明器。系统结合了两类关键增强：一是 CoT 风格的证明训练，使模型不仅给 proof script，也学习步骤间的推理逻辑；二是上下文增强，把项目内部的证明背景显式注入模型。\n\n论文在 seL4 重要理论集的 660 个定理上报告了 51.67% 的成功率。这个结果的意义不是“数字本身有多高”，而是它证明了本地、小模型、面向真实工程系统的证明器已经开始可用，而不再依赖超大闭源模型。\n\n## 为什么重要\n\n形式化验证能不能在工业里落地，关键不在 miniF2F，而在 seL4、协议、内核、编译器这类真实工程对象。AutoReal 属于把“数学能力”翻译成“工程工具”的关键过桥工作。\n\n## 局限\n\n需要继续确认它到底是推理能力提升，还是更强的上下文拼接和库风格拟合。真正的外部验证，必须看它在非 seL4 项目上的迁移表现。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "math_and_formal_reasoning",
      "theme_label": "数学与形式推理",
      "published_at": "2026-02-09",
      "doi": "",
      "arxiv_id": "2602.08384",
      "collected_at": "",
      "collection_order": 273,
      "source_url": "https://arxiv.org/pdf/2602.08384.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.08384.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A145_MisActBench_Computer_Use_Safety",
      "slug": "a145-misactbench-computer-use-safety",
      "detail_url": "papers/a145-misactbench-computer-use-safety/",
      "title": "When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents",
      "summary": "computer-use agents 的一类核心失败不是传统意义上的 jailbreak，而是 action 与用户真实意图逐步偏离。这样的 misaligned actions 既可能来自外部注入，也可能来自内部 reasoning 错误，最终直接造成错误操作、效率下降和安全事故。\n\n这篇工作的价值在于同时定义了问题、数据和修复环路。它提出 MisActBench 来标注真实轨迹中的 action-level alignment，并给出 DeAction 这种在执行前检测并通过结构化反馈迭代纠正动作的 guardrail 机制，把“偏行动作”从模糊现象变成可评测、可修复的运行时对象。\n\n对仓库来说，这是一条非常实用的可复用安全模式：既能和 prompt injection、silent egress、permissioning、role confusion 这类工作互补，也能直接服务于 GUI agents、browser agents 和 enterprise automation agents 的运行时防护。它比单纯的 attack paper 更耐久。\n\n边界在于，它目前仍主要锚定 computer-use agents，而不是所有 agent 形态；同时 guardrail 的泛化还需要更多异构系统验证。所以正式收录为 breakthrough 合理，但不宜再升。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-09",
      "doi": "",
      "arxiv_id": "2602.08995",
      "collected_at": "",
      "collection_order": 272,
      "source_url": "https://arxiv.org/pdf/2602.08995v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.08995v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N21_Geometry_Modularization_Brain_Alignment",
      "slug": "n21-geometry-modularization-brain-alignment",
      "detail_url": "papers/n21-geometry-modularization-brain-alignment/",
      "title": "Training-Driven Representational Geometry Modularization Predicts Brain Alignment in Language Models",
      "summary": "**问题与背景**\n这篇论文围绕 brain alignment / representational geometry / language models 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优。\n\n**方法/新意**\n论文给出了相对完整的方法设计与实验验证，核心贡献在于提出一个可明确描述的新框架，并将其落到可复核的基准或任务上。相较于仅做经验叠加的工作，这类论文的价值在于能形成后续可复用的方法模块或分析视角。\n\n**意义/放在仓库中的位置**\n在本仓库里，这篇论文归到 `brain alignment / representational geometry / language models` 主线，定位为 `breakthrough`。它的意义在于推动该子方向往前走了一步，能够作为后续视频选题、主题综述和同类方法比较时的正式参考点。\n\n**局限/为何不再升一级**\n它还没有达到 `disruptive` 或 `paradigm` 的原因，是目前证据更多体现为强方法论文或强机制论文，而不是已经改写整条研究路线的系统级成果。除非后续被更大范围复现、 adopted 或验证为新标准范式，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-07",
      "doi": "",
      "arxiv_id": "2602.07539",
      "collected_at": "",
      "collection_order": 271,
      "source_url": "https://arxiv.org/pdf/2602.07539v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.07539v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "硅基与碳基的底层融合：清华大学通过几何模块化研究，揭示大模型预测人脑信号的新路径",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "training driven representational geometry modularization predicts brain alignment in language models",
          "description": "清华大学研究团队在人工智能与神经科学交叉领域取得重要进展。研究针对大语言模型与人类大脑语言网络底层逻辑是否同源的问题，通过追踪Pythia模型训练全过程的表示几何结构演化展开探讨。研究核心在于发现模型内部会自发重组为不同复杂度的模块，利用“熵”与“曲率”两个几何指标，成功量化了模型内部状态与人类fMRI脑活动数据之间的关联。实验证明，代表空间越平滑、曲率越低的模块，对人类语言区信号的预测越准确，且这种类脑对齐效应随模型规模增大显著增强。这一成果将复杂的算法训练翻译为可观测的几何演化，为理解AI黑盒提供了物理视角，也为开发更具生物解释力的智能系统奠定了基础。",
          "x_post": "清华大学揭示 Pythia 语言模型训练中的几何模块化与人脑 fMRI 信号的对齐关联\n本研究通过追踪 10 亿参数 Pythia 模型 143,000 步的训练全过程，探讨了 LLM 与人类大脑语言网络的底层逻辑相似性。研究发现模型内部会自发重组为不同复杂度的模块，利用“熵”与“曲率”量化表示几何结构的演化。实验证明，代表空间越平滑（低曲率）、低熵的模块，对 5 名受试者 fMRI 语言区信号的预测越准确。这种类脑对齐效应随模型规模增大显著增强，且在颞叶与额叶呈现出不同的动态发展轨迹。该成果通过几何视角揭示了训练驱动的结构重组如何促进类似人类的语言处理能力。",
          "cover_url": "assets/covers/n21-geometry-modularization-brain-alignment-922332b9a9.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-26T19:13:50+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A136_AOrchestra_Sub_Agent_Orchestration",
      "slug": "a136-aorchestra-sub-agent-orchestration",
      "detail_url": "papers/a136-aorchestra-sub-agent-orchestration/",
      "title": "AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration",
      "summary": "很多 agent orchestration 系统仍然依赖人工预先设计的多 agent 拆分、工具路由和角色分工。随着任务复杂度上升，这种手工 workflow 很快变成 brittle pipeline：要么 agent 数量不足以覆盖任务结构，要么过度拆分造成高昂 coordination 成本。\n\nAOrchestra 直接把 sub-agent creation 本身自动化。论文提出 unified tuple abstraction 表示子任务和能力需求，再通过动态创建 sub-agents 的方式，让系统按任务结构生成合适的 orchestration topology，而不是把 orchestration 当作固定模板。重点不只是多 agent，而是把“如何生成需要的 agent 角色与分工”提升成系统的一等操作。\n\n这篇工作值得收录，而且我给到 disruptive，因为它改写了 agent orchestration 的默认组织方式：从手工预设 agent graph，转向 task-driven sub-agent synthesis。对于复杂工具使用、研究代理和软件工程代理，这种动态编排比静态 planner/worker 模板更接近耐久接口。\n\n它没有升到 paradigm，是因为当前证据仍主要来自论文设置和作者实现，离形成行业通用 orchestration runtime 还差一步。它已经明显高于一般 multi-agent benchmark paper，但还未成为默认蓝图。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-07",
      "doi": "",
      "arxiv_id": "2602.03786",
      "collected_at": "",
      "collection_order": 270,
      "source_url": "https://arxiv.org/pdf/2602.03786.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.03786.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "打造 AI 的“指挥大脑”：AOrchestra 彻底解耦执行调度，现场组装专家",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "aorchestra automating sub agent creation for agentic orchestration",
          "description": "针对复杂、长周期的 AI 任务，传统多智能体系统常面临上下文冗余与角色预设僵化等瓶颈。AOrchestra 提出了一种全新的动态编排框架，将子智能体抽象为由指令、上下文、工具和模型组成的“四元组”。系统通过核心编排器按需动态创建执行单元，实现了执行与调度的彻底解耦，有效解决了长周期任务中的上下文衰减问题。实验结果显示，AOrchestra 在 GAIA 和 SWE-Bench 基准测试中比现有方案提升了 16.28% 的性能。该框架在提升任务处理准确性的同时，实现了性能与成本之间的帕累托最优，为多智能体协同提供了高效的自动化构建路径。",
          "x_post": "HKUST(GZ)与DeepWisdom等发布AOrchestra：动态解耦子智能体编排，GAIA/SWE-Bench性能提升16.28%\n针对长周期任务中传统多智能体系统角色僵化与上下文冗余的瓶颈，研究团队提出AOrchestra动态编排框架。\n该系统核心将子智能体抽象为由指令、上下文、工具和模型组成的“四元组”(Φ = <I, C, T, M>)，由中央编排器按需实时实例化执行单元。\n实验数据显示，该框架在GAIA、SWE-Bench等挑战性基准测试中较现有方案性能提升16.28%，有效缓解了长周期任务中的上下文衰减。\n研究证明，通过执行与调度的彻底解耦，AOrchestra在提升复杂任务处理准确性的同时，实现了性能与成本的帕累托最优平衡。",
          "cover_url": "assets/covers/a136-aorchestra-sub-agent-orchestration-eb6bd184c8.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-03T15:50:05+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A131_AgentSys_Hierarchical_Memory_Security",
      "slug": "a131-agentsys-hierarchical-memory-security",
      "detail_url": "papers/a131-agentsys-hierarchical-memory-security/",
      "title": "AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management",
      "summary": "间接 prompt injection 的核心问题，不只是模型会不会识别恶意内容，而是传统 agent 会把工具输出、网页内容和中间痕迹一股脑塞进同一上下文，导致恶意指令在整个工作流里持续驻留并反复影响决策。现有防御大多默认这种 bloated memory 是既定条件，再在其上做过滤、检测或鲁棒 prompting。\n\nAgentSys 直接改写了这个前提。它把 agent 组织成带层级隔离的结构：主 agent 为工具调用生成 worker agent，每个 worker 在独立上下文中运行，外部数据和子任务痕迹不进入主 agent 记忆，只有经过 schema 校验和确定性 JSON 解析的返回值可以跨边界流动。论文还加入 validator/sanitizer，并把防御开销做成与操作次数而不是上下文长度相关。\n\n这篇工作值得收录，而且我给到 disruptive，因为它把 agent prompt injection 防御从“在污染上下文里尽量变稳”转向“通过显式记忆隔离阻止污染进入主工作记忆”。这不是一个局部 patch，而是一种更耐久的 agent runtime 安全组织方式，对浏览器 agent、API agent 和企业自动化流程都有直接复用价值。\n\n它没有升到 paradigm，是因为当前证据还主要集中在 AgentDojo、ASB 和作者实现生态内，尚未成为行业默认的 agent sandbox / runtime blueprint。但作为一条系统级安全路线，它已经明显高于普通 benchmark defense。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-07",
      "doi": "",
      "arxiv_id": "2602.07398",
      "collected_at": "",
      "collection_order": 269,
      "source_url": "https://arxiv.org/pdf/2602.07398.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.07398.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "为AI植入“内核态”防御：AgentSys复刻进程隔离机制，让智能体在恶意环境中实现零污染执行",
          "url": "https://www.bilibili.com/video/BV1keDPBVEL2",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1keDPBVEL2",
            "https://youtu.be/iH-goWrF9Fo"
          ],
          "main_collection": "AI安全与对齐",
          "match": "agentsys secure and dynamic llm agents through explicit hierarchical memory management",
          "description": "针对大语言模型智能体面临的间接提示注入攻击，传统架构因无差别累积工具输出，导致恶意指令在内存中持续存在并劫持决策。AgentSys借鉴操作系统的进程隔离机制，提出层级化内存管理方案。通过主智能体发布意图并由工作智能体在独立沙箱中执行调用，系统仅允许经过验证的结构化JSON数据返回主内存。实验证明，该架构不仅将攻击成功率降至0.78%以下，更实现了零上下文污染，有效解决了复杂任务中的注意力稀释与性能退化问题。",
          "x_post": "华盛顿大学与约翰霍普金斯大学提出 AgentSys：层级内存隔离使智能体攻击成功率降至 0.78% 以下\n\n【问题背景】现有 LLM 智能体因无差别累积外部工具输出，极易遭受间接提示注入（IPI）攻击。恶意指令在内存中具有高持久性（达 60.53%），并导致复杂任务的处理能力退化约 57%。\n【方法核心】AgentSys 借鉴操作系统进程隔离机制，构建层级化内存管理体系。主智能体通过 JSON 契约发布意图，引导工作智能体在独立沙盒中处理原始数据，仅允许经验证的结构化结果返回主内存。\n【关键证据】实验数据表明，该架构将攻击成功率压低至 0.78% 以下，实现了零上下文污染。在消除安全风险的同时，有效解决了因注意力稀释导致的性能退化问题。\n【结论与边界】通过显式划定内存边界，AgentSys 证明了系统级防御在大模型智能体安全交互中的必要性，为恶意环境下的鲁棒决策提供了可验证的框架支持。",
          "cover_url": "assets/covers/a131-agentsys-hierarchical-memory-security-82e74f43a2.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-03T10:07:40+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T11_Kepler_Newton_World_Models",
      "slug": "t11-kepler-newton-world-models",
      "detail_url": "papers/t11-kepler-newton-world-models/",
      "title": "From Kepler to Newton: Inductive Biases Guide Learned World Models in Transformers",
      "summary": "这篇论文讨论 Transformer 世界模型为什么常常学到表面相关性，却学不到真正可迁移的动力学规律。作者把问题放在“从开普勒式经验拟合，到牛顿式结构规律”的差异上，核心关注点是：世界模型要想外推、组合和泛化，必须依赖更强的归纳偏置。\n\n方法上，论文研究了不同 inductive bias 如何影响 Transformer 对物理动力学的学习，尤其强调结构性偏置对世界模型可解释性和可迁移性的作用。它不是单纯追求更低训练误差，而是在测试 learned world model 是否真正内化了可组合的动力学结构。\n\n这篇工作的价值在于，它为当前 world model 路线补上了一个很关键的理论与方法桥梁：不是所有“能预测未来”的模型都算真正学到世界结构。对于 JEPA、视频世界模型、具身智能和 AI×物理，这都是非常核心的问题。\n\n我把它放在“突破性”。它的重要性主要来自问题定义和方法学方向，而不是一个压倒性的 benchmark 碾压结果，所以暂时不到颠覆性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-02-06",
      "doi": "",
      "arxiv_id": "2602.06923",
      "collected_at": "",
      "collection_order": 268,
      "source_url": "https://arxiv.org/pdf/2602.06923.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.06923.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N14_Prima_Neuroimaging",
      "slug": "n14-prima-neuroimaging",
      "detail_url": "papers/n14-prima-neuroimaging/",
      "title": "Learning neuroimaging models from health system-scale data",
      "summary": "这篇论文针对的是脑神经临床影像中的一个核心现实问题：如何利用健康系统规模的 MRI 数据训练可迁移、可部署的基础模型，让模型在多任务、多疾病和低标注条件下都可用。\n\n论文的新意在于提出并训练了一个大规模神经影像基础模型路线，利用真实临床规模的数据而不是单一研究队列，证明统一预训练表征可以支持多病种诊断、报告辅助和跨任务迁移。\n\n这篇论文应放在 AI × 脑影像主线，而且优先级很高。它和 BrainIAC 一起构成最近脑 MRI foundation model 的两条代表路线，说明神经影像正在进入真正的基础模型阶段。\n\n它没有被升到更高等级，是因为尽管临床意义很强，但目前仍属于大型医学影像 foundation model 的路线强化，而不是全新的通用 AI 范式转移。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-06",
      "doi": "10.1038/s41551-025-01608-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 267,
      "source_url": "https://www.nature.com/articles/s41551-025-01608-0",
      "paper_url": "https://www.nature.com/articles/s41551-025-01608-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "针对致命脑疾实现99.7%准度，密歇根大学用22万例数据训练Prima破瓶颈",
          "url": "https://www.bilibili.com/video/BV15uoXBjEaW",
          "platform_urls": [
            "https://www.bilibili.com/video/BV15uoXBjEaW",
            "https://youtu.be/sdzoWS6nfCI"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "learning neuroimaging models from health system scale data",
          "description": "密歇根大学团队在《自然-生物医学工程》发表研究，推出通用3D神经影像大模型Prima。针对全球放射科医生短缺与脑部核磁需求激增的矛盾，该模型利用22.1万例真实临床数据进行训练，采用3D体积压缩与分层视觉Transformer架构，并通过GPT-4自动生成标准化疾病标签，实现了医疗影像与临床报告的深度对齐。实测显示，Prima在52种脑部疾病中的平均诊断准确率达92%，在高级别胶质瘤等致命疾病上准度高达99.7%。这一成果不仅大幅提升了读片效率和分诊精准度，还通过覆盖全样本人口数据有效缓解了系统性医疗偏见，展示了通用型医学基础模型的巨大应用潜力。",
          "x_post": "密歇根大学发布3D神经影像大模型Prima：基于22万例数据实现致命脑疾99.7%诊断精度\n\n针对全球放射科医师短缺与核磁影像需求激增的矛盾，研究团队利用大规模学术医疗系统数据构建了通用型神经影像基础模型。Prima采用3D体积压缩与分层视觉Transformer架构，通过GPT-4自动化标注，实现了真实世界影像特征与临床报告的跨模态对齐。实验数据显示，该模型在52种脑部疾病中的平均诊断AUC达92.0%，针对高级别胶质瘤等致命疾病的准确率达99.7%。此项工作证明了利用系统级医疗数据提升诊断效率、优化分诊流程并缓解医疗偏见的可行性。",
          "cover_url": "assets/covers/n14-prima-neuroimaging-25c380229e.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-25T13:10:29+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM4_World_VLA_Loop",
      "slug": "mm4-world-vla-loop",
      "detail_url": "papers/mm4-world-vla-loop/",
      "title": "World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy",
      "summary": "**问题与背景**\n这篇论文围绕 vision-language-action / world models / robotics 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优。\n\n**方法/新意**\n论文给出了相对完整的方法设计与实验验证，核心贡献在于提出一个可明确描述的新框架，并将其落到可复核的基准或任务上。相较于仅做经验叠加的工作，这类论文的价值在于能形成后续可复用的方法模块或分析视角。\n\n**意义/放在仓库中的位置**\n在本仓库里，这篇论文归到 `vision-language-action / world models / robotics` 主线，定位为 `breakthrough`。它的意义在于推动该子方向往前走了一步，能够作为后续视频选题、主题综述和同类方法比较时的正式参考点。\n\n**局限/为何不再升一级**\n它还没有达到 `disruptive` 或 `paradigm` 的原因，是目前证据更多体现为强方法论文或强机制论文，而不是已经改写整条研究路线的系统级成果。除非后续被更大范围复现、 adopted 或验证为新标准范式，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-02-06",
      "doi": "",
      "arxiv_id": "2602.06508",
      "collected_at": "",
      "collection_order": 266,
      "source_url": "https://arxiv.org/pdf/2602.06508v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.06508v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "NUS发布World-VLA-Loop：终结幻觉，让机器人在虚拟中进化",
          "url": "https://www.bilibili.com/video/BV145oZBEEWk",
          "platform_urls": [
            "https://www.bilibili.com/video/BV145oZBEEWk",
            "https://youtu.be/-QYKUkBOkRE"
          ],
          "main_collection": "机器人与具身智能",
          "match": "world vla loop closed loop learning of video world model and vla policy",
          "description": "新加坡国立大学（NUS）Show Lab在具身智能领域发布了World-VLA-Loop。针对现有视频世界模型存在“动作幻觉”、无法精准模拟物理失败导致机器人训练成本高的问题，该框架通过引入包含“近乎成功”轨迹的SANS数据集，实现了视频世界模型与VLA策略的闭环协同演化。实验证明，该方法能构建高保真虚拟环境，使机器人在无需大量物理交互的情况下，通过纯虚拟强化学习显著提升现实任务的成功率，为通用机器人低成本进化提供了新路径。",
          "x_post": "NUS Show Lab发布World-VLA-Loop：利用SANS数据集通过闭环学习消除机器人视频世界模型的“动作幻觉”\n\n具身智能在现实中通过强化学习进化的成本极高，且现有视频世界模型常因“动作跟随精度”不足产生幻觉，无法准确模拟物理失败后果。为此，团队提出World-VLA-Loop框架，实现视频世界模型与VLA策略的协同演化。\n\n该研究引入了SANS（成功与近乎成功）数据集，通过刻意收录带有微小空间误差的失败轨迹，迫使模型学习精准的物理边界。在这种闭环结构下，VLA策略产生的失败案例会持续回流反哺，提升模拟器的物理保真度。\n\n实验证明，该框架能提供绝对可靠的奖励信号，使机器人在无需大规模物理交互的情况下，通过纯虚拟环境训练显著提升现实任务成功率。这一进展为通用机器人低成本、高效率的自我进化提供了可行路径。",
          "cover_url": "assets/covers/mm4-world-vla-loop-68f003b8af.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-25T19:15:41+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A72_LongHorizonUI_GUI_Agent",
      "slug": "a72-longhorizonui-gui-agent",
      "detail_url": "papers/a72-longhorizonui-gui-agent/",
      "title": "LongHorizonUI: A Unified Framework for Robust long-horizon Task Automation of GUI Agent",
      "summary": "GUI agent 这条线已经证明了短程 computer use 可以做得越来越像样，但一旦任务跨到十几步以上，视觉状态漂移、界面元素误识别、执行偏差累计和回退失败就会迅速让系统失稳。LongHorizonUI 处理的正是这类长程 GUI 自动化里最实际的鲁棒性问题。\n\n论文从三个层面给出方案。第一，提出 LongGUIBench，把需要超过 15 步的复杂游戏与通用应用任务系统化成专门的长程 benchmark。第二，设计 Multimodal Enhanced Perceiver，把元素检测与文字识别结合起来并给界面元素分配唯一索引，加强状态表示。第三，加入 Deep Reflection Decider 和 Compensatory Action Executor，通过多级反馈验证、退化补偿和基于执行进度的 rollback 机制提升长程执行稳定性。\n\n对这个仓库来说，这篇工作的价值在于它把 GUI agent 的研究重心从短流程成功率推进到长程任务中的 state tracking、self-correction 和 execution recovery。它不仅是一个 benchmark 条目，也提供了一套更接近真实 computer-use agent 的系统架构模式，因此值得正式收录。\n\n它没有再往上升一级，原因是当前可直接获取的主来源是 ICLR 官方 poster 页 HTML 摘要，OpenReview 正文在当前网络下不可直接稳定抓取；同时现阶段证据仍主要集中在 benchmark 和系统设计层，还需要更开放环境和更长周期任务的进一步验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-06",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 265,
      "source_url": "https://iclr.cc/virtual/2026/poster/10010959",
      "paper_url": "https://iclr.cc/virtual/2026/poster/10010959",
      "project_urls": [
        "https://iclr.cc/virtual/2026/poster/10010959"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "突破15步成功率断崖难题：LongHorizonUI引入深度反思机制，让AI代理稳健处理复杂长任务",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "longhorizonui a unified framework for robust long horizon task automation of gui agent",
          "description": "针对多模态大模型在执行超过 15 步的长周期 GUI 任务时成功率断崖式下跌的问题，本研究提出了 LongHorizonUI 统一框架。该框架通过多模态增强感知器为界面元素分配唯一索引，解决了动态环境下的元素迷失难题；引入深度反思决策器，利用多级反馈验证强化推理逻辑；并配合补偿性执行器实现过程回滚与动态纠错。此外，研究配套发布了专门针对长程任务的 LongGUIBench 基准测试。实验证明，该方案显著提升了 AI 代理在复杂游戏及应用场景中处理长跨度任务的稳健性与执行连贯性。",
          "x_post": "Bin Kang团队于ICLR 2026提出LongHorizonUI，解决GUI智能体在15步以上长任务中成功率跌破20%的难题\n\n研究发现，多模态大模型在处理超过15步的长周期GUI任务时，常因元素迷失与逻辑断层导致执行成功率从80%以上骤降至20%以下。为此，LongHorizonUI框架引入多模态增强感知器，通过唯一索引解决动态环境下的元素定位偏差，并利用深度反思决策引擎实现多级反馈验证。\n\n该系统配备的补偿性执行器支持过程回滚与动态纠错，确保了任务执行的连贯性。配合专门针对15步以上复杂任务设计的LongGUIBench基准测试，实验证明该方案显著提升了AI代理在复杂应用及游戏场景中的稳健性，为实现长程GUI自动化提供了可验证的技术路径。",
          "cover_url": "assets/covers/a72-longhorizonui-gui-agent-b279f16b19.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-29T15:12:20+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A69_PlugMem_Agent_Memory",
      "slug": "a69-plugmem-agent-memory",
      "detail_url": "papers/a69-plugmem-agent-memory/",
      "title": "PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents",
      "summary": "长期运行的 LLM agent 需要 memory，但现有方案通常在两个极端之间摇摆：要么针对单一任务做重工程化设计，迁移性差；要么直接检索原始轨迹，导致上下文膨胀、任务相关性不足、真正决策时噪声过高。PlugMem 针对的就是这个通用 memory module 缺口。\n\n它把 memory 单元从原始 experience 改成 knowledge-centric graph 中的知识块，并显式区分 propositional knowledge 与 prescriptive knowledge。系统由 structuring、retrieval、reasoning 三层组成：先把异构 episodic trace 抽象为更紧凑的知识图，再做 abstraction-aware retrieval，最后按当前任务进一步压缩和组织成可用上下文。\n\n这篇工作的价值在于它不是再做一个只适配某个 benchmark 的 memory trick，而是在 agent memory 这条主线上提出了更可复用的通用接口：memory 的组织与访问单位应该是 decision-relevant knowledge，而不是 entity、text chunk 或原始轨迹。它还在 LongMemEval、HotpotQA 和 WebArena 三类异构任务上用同一模块验证了跨任务可迁移性。\n\n它当前仍是 breakthrough 而不是更高一级，因为证据仍主要来自 arXiv 论文和有限 benchmark 组合，离真正成为长期 agent memory 默认架构还有距离；同时 structuring 与 reasoning 质量仍依赖底层 LLM，跨模型、跨成本预算和长周期生产环境下的稳定性还需要更多验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-06",
      "doi": "",
      "arxiv_id": "2603.03296",
      "collected_at": "",
      "collection_order": 264,
      "source_url": "https://arxiv.org/pdf/2603.03296.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.03296.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决显存爆炸与决策失效：UIUC联合清华发布PlugMem，为智能体打造插件式记忆",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "plugmem a task agnostic plugin memory module for llm agents",
          "description": "针对大语言模型智能体在长序列交互中面临的显存超载与决策信噪比下降问题，UIUC与清华大学等机构联合推出PlugMem插件式记忆模块。该方案受认知科学启发，将原始情景记忆转化为结构化的语义与程序知识图谱，实现从“存储文本”到“提炼知识”的范式转变。系统由标准化构建、多跳检索与自适应推理三大核心组件构成，在长对话问答及网页导航等异构任务中，显著降低了计算资源消耗并提升了任务执行效能。这种任务无关的设计为构建具备持续学习能力的通用长时智能体系统提供了有效的实践方案。",
          "x_post": "UIUC/清华/微软发布PlugMem：插件式记忆模块解决显存超载并提升决策效能\n针对智能体在长序列交互中显存占用超98%且决策信噪比低（<0.1）的瓶颈，联合团队推出PlugMem模块。\n该方案受认知科学启发，将原始情景记忆解构并重塑为结构化的语义（事实）与程序（策略）知识图谱。\n系统包含标准化构建、多跳检索与自适应推理三大核心组件，实现了异构信息的统一知识化管理。\n实验显示，PlugMem在长对话问答及网页导航等任务中，显著降低了计算资源消耗并提升了执行成功率。\n这种任务无关的插件式设计，为构建具备持续学习能力的通用长时智能体系统提供了有效路径。",
          "cover_url": "assets/covers/a69-plugmem-agent-memory-f63be53cd2.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-26T16:47:02+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N81_BrainIAC_MRI_Foundation",
      "slug": "n81-brainiac-mri-foundation",
      "detail_url": "papers/n81-brainiac-mri-foundation/",
      "title": "A generalizable foundation model for analysis of human brain MRI",
      "summary": "这篇 Nature Neuroscience 论文处理脑 MRI AI 的核心瓶颈：标注数据少、任务特异模型泛化弱、不同疾病和任务之间难复用。\n\n作者提出 Brain Imaging Adaptive Core (BrainIAC)，用 self-supervised pretraining 学习 unlabeled brain MRI 的通用表征，再面向不同应用做 targeted adaptation。\n\n模型在 48,965 个 brain MRIs 上训练和验证，覆盖广泛任务，在 low-data、few-shot 和高难预测任务中优于局部监督训练与其他 pretrained models。\n\n它值得正式收录，因为它把脑影像 AI 从单病种预测推进到可迁移 foundation model substrate，对 NeuroAI 数据表征、医学影像工作流和多模态脑模型都有复用价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-05",
      "doi": "10.1038/s41593-026-02202-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 263,
      "source_url": "https://www.nature.com/articles/s41593-026-02202-6.pdf",
      "paper_url": "https://www.nature.com/articles/s41593-026-02202-6",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N11_Hybrid_Memory_Reward",
      "slug": "n11-hybrid-memory-reward",
      "detail_url": "papers/n11-hybrid-memory-reward/",
      "title": "Hybrid neural-cognitive models reveal how memory shapes human reward learning",
      "summary": "这篇论文重新审视了人类奖励学习能否被传统强化学习模型充分解释。作者把神经网络组件嵌入可解释的认知模型中，检验记忆机制在奖励学习中的作用是否比标准逐步更新的价值函数更关键。\n\n新意在于提出并验证了一类混合神经—认知模型：成功解释行为数据的模型需要更灵活、更独立的记忆变量，而不仅仅是一个标量的 reward prediction error 轨迹。这说明“记忆如何介入奖励学习”本身是结构性问题。\n\n这篇论文适合放在计算认知主线，也和仓库里的 RL 机制澄清型论文形成互补。它有助于连接人类学习理论、认知建模和未来类脑学习算法。\n\n它不再升一级，是因为主要价值在于对人类奖励学习理论的纠偏和补强，外溢很强但还没有形成一个被 AI 社区直接采用的新训练范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-05",
      "doi": "10.1038/s41562-025-02324-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 262,
      "source_url": "https://www.nature.com/articles/s41562-025-02324-0",
      "paper_url": "https://www.nature.com/articles/s41562-025-02324-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "DeepMind等多校联手破解人类学习黑盒：用混合神经模型补全认知公式，追平AI预测上限",
          "url": "https://www.bilibili.com/video/BV1JtwizoEYT",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1JtwizoEYT",
            "https://youtu.be/_4G28bzbwRI"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "hybrid neural cognitive models reveal how memory shapes human reward learning",
          "description": "本研究旨在解决传统强化学习模型在解释人类奖赏学习行为时精度不足的问题。DeepMind与牛津、普林斯顿等校合作，通过对超过61万次人类决策行为的大规模数据分析，发现简单的增量更新算法无法捕捉复杂的全局规律和长短期记忆影响。研究团队提出一种混合神经认知模型，将经典模型的解释性与循环神经网络的预测力结合。实验结果显示，该模型将预测准确率从60.6%提升至68.3%，成功追平纯AI模型上限。研究证明，人类决策高度依赖跨时间尺度的柔性记忆变量，而非单一的标量价值更新。这一成果界定了传统认知公式的局限，并为理解人类高维内部状态提供了新路径。",
          "x_post": "DeepMind联合牛津及普林斯顿提出混合神经认知模型，基于61万次行为决策数据追平AI预测上限\n\n传统强化学习模型长期依赖简单的增量更新（如Q-learning），但在捕捉人类决策的全局规律和长短期记忆影响时存在精度瓶颈。研究团队将经典模型的解释性与循环神经网络（RNN）的预测力结合，通过系统性替换算法组件，构建了可插拔的混合建模框架。实验分析了617,871次有效决策数据，结果显示该模型将行为预测准确率从传统认知模型的60.6%提升至68.3%，成功触达纯人工神经网络的表现上限。研究证明，人类决策高度依赖跨多个时间尺度的柔性记忆变量，而非单一的标量价值更新。这一成果界定了传统认知公式的局限性，并为理解人类高维内部状态提供了可核验的新路径。",
          "cover_url": "assets/covers/n11-hybrid-memory-reward-596e8a752f.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-17T23:11:39+08:00"
        },
        {
          "title": "联手DeepMind破解人类学习黑盒：混合神经模型揭示记忆如何重塑奖赏逻辑",
          "url": "",
          "platform_urls": [],
          "main_collection": "认知科学与脑科学",
          "match": "hybrid neural cognitive models reveal how memory shapes human reward learning",
          "description": "本研究探讨了人类奖赏学习行为背后的认知机制，指出传统的简单强化学习模型在解释全局规律和长时干预影响时存在局限。研究团队通过分析超过61万次行为测试数据，对比了经典认知模型、循环神经网络与创新的混合神经认知模型。实验发现，单纯增加数学公式的非线性更新仅能带来0.2%的预测提升，而引入独立的柔性记忆变量能显著触达68.3%的预测上限。这一结果证明了人类决策并非基于简单的奖赏平均值，而是依赖跨时间尺度的高维内部状态表示。该研究为结合AI预测力与认知科学解释力提供了新范式。",
          "x_post": "Google DeepMind 联手牛津、普林斯顿等团队提出混合神经认知模型，基于 >61 万次行为测试数据揭示人类奖赏学习机制。\n传统强化学习模型主要依赖简单的增量更新（Q-learning），其对人类决策的预测准确率局限于 60.6%，且难以解释长时干预对决策的影响。\n研究团队通过将经典认知模型组件系统性地替换为人工神经网络（ANN），发现单纯增加数学公式的非线性灵活性仅能带来 0.2% 的预测提升。\n实验证明，引入独立的柔性记忆变量可使预测准确率触达 68.3% 的理论上限，有效捕捉了人类在复杂动态环境中的高维内部状态表示。\n该研究证实了人类决策并非基于简单的奖赏加权平均，并为结合 AI 预测力与认知科学解释力提供了可核验的新范式。",
          "cover_url": "assets/covers/n11-hybrid-memory-reward-74942f3c65.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-18T22:29:01+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "M1_TheoremSearch_9_2M",
      "slug": "m1-theoremsearch-9-2m",
      "detail_url": "papers/m1-theoremsearch-9-2m/",
      "title": "Semantic Search over 9 Million Mathematical Theorems",
      "summary": "- 分级：`突破性`\n- 原文：`2026-02-05-M1_TheoremSearch_9_2M-Semantic_Search_over_9_Million_Mathematical_Theorems.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇工作试图解决数学研究和自动证明里的一个底层瓶颈：研究者真正需要检索的通常不是整篇论文，而是某一个具体定理、引理或命题。作者构建了一个覆盖约 920 万条定理陈述的超大规模统一语料，并系统研究如何用语义表示和嵌入检索，在研究级数学语料上实现“定理级搜索”。\n\n论文的价值不在 flashy 的单次分数，而在于把数学检索的粒度首次稳定压到“定理对象”层级。这对人类数学家和自动化定理证明系统都非常关键：它减少了在整篇文献中人工扫描相关引理的成本，也让数学领域的 RAG 真正开始具备可实用的知识单元。\n\n## 为什么重要\n\n如果没有可靠的 theorem-level retrieval，很多数学代理看起来像“会证明”，实际上只是“会生成”。这篇工作是在补齐自动数学研究最容易被忽略的基础设施层。\n\n## 局限\n\n定理的语义高度依赖上下文、符号习惯和前置定义。检索效果再好，也不能完全替代对原文证明环境的理解。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "math_and_formal_reasoning",
      "theme_label": "数学与形式推理",
      "published_at": "2026-02-05",
      "doi": "",
      "arxiv_id": "2602.05216",
      "collected_at": "",
      "collection_order": 261,
      "source_url": "https://arxiv.org/pdf/2602.05216.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.05216.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "覆盖全球920万研究级定理：华盛顿大学揭秘迄今最大的语义检索引擎，如何用AI重塑数学知识图谱",
          "url": "https://www.bilibili.com/video/BV1BCA5zcEHg",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1BCA5zcEHg"
          ],
          "main_collection": "AI物理与科学计算",
          "match": "semantic search over 9 million mathematical theorems",
          "description": "针对传统学术搜索难以精确定位具体数学结论的问题，华盛顿大学推出了目前全球规模最大的数学定理语义检索系统。该研究从arXiv及多个权威项目提取了920万个研究级定理，并利用DeepSeek V3大模型将复杂的LaTeX代码转化为易于检索的自然语言描述。实验数据表明，该系统在定理级搜索的命中率显著优于ChatGPT与Google。研究进一步探讨了三重容错解析机制及上下文信息对语义表示的优化作用。该项目目前已开放数据集与检索界面，旨在协助数学家避免重复研究，并为人工智能证明辅助系统提供关键的底层语料支持。",
          "x_post": "华盛顿大学发布语义检索引擎 Theorem Search：基于 DeepSeek 覆盖全球 920 万研究级定理\n针对学术搜索难以精确定位数学结论的痛点，华盛顿大学团队构建了包含 920 万个定理、引理及推论的语义检索系统。该系统通过三重容错解析机制提取 LaTeX 数据，并利用 DeepSeek V3 将复杂符号转化为自然语言描述（Slogan）。实验数据表明，该方法在定理级搜索的命中率（Hit@20）达 45.0%，显著优于 Google 与 ChatGPT。研究进一步证实，整合论文引言作为上下文能有效提升检索准确性。目前该项目已开放公开检索界面与完整数据集，旨在协助数学家避免重复研究并支持 AI 自动证明系统。",
          "cover_url": "assets/covers/m1-theoremsearch-9-2m-3d659dee58.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-19T11:29:40+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A53_Autonomous_Jailbreak_Agents",
      "slug": "a53-autonomous-jailbreak-agents",
      "detail_url": "papers/a53-autonomous-jailbreak-agents/",
      "title": "Large reasoning models are autonomous jailbreak agents",
      "summary": "这篇论文不是提出一个新的 agent，而是重新定义了 reasoning model 在安全场景中的风险位置：它们不再只是被攻击的对象，而可能本身就成为自动化 jailbreak agent。对仓库来说，这属于 agent evaluation 与安全威胁模型重构类条目。\n\n作者让多个大推理模型在没有进一步人工监督的前提下，通过系统提示自主规划并执行多轮 jailbreak，对多个目标模型展开攻击。结果显示极高的成功率，说明一旦模型具备较强的规划和说服能力，安全问题就从“单轮 prompt bypass”升级成“可扩展的自主对抗系统”。\n\n它的重要性在于改变了 agent safety 和 frontier model evaluation 的基本视角。很多现有对齐和安全评估默认把攻击者设定成人类，而这篇工作表明 reasoning model 自身就可以成为攻击编排器，这对安全 benchmark 和部署边界都有直接影响。\n\n它没有升到更高等级，是因为贡献更偏强威胁揭示和评估重构，而不是给出一个同样强的解决框架；它会成为重要参考，但还不构成更完整的方法学蓝图。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-05",
      "doi": "10.1038/s41467-026-69010-1",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 260,
      "source_url": "https://doi.org/10.1038/s41467-026-69010-1",
      "paper_url": "https://doi.org/10.1038/s41467-026-69010-1",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "AI安全防线面临失效：斯图加特大学揭秘自动化攻击，越狱成功率97.14%",
          "url": "https://www.bilibili.com/video/BV1gN5g6DE6c",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1gN5g6DE6c",
            "https://youtu.be/97ehgpxpOU4"
          ],
          "main_collection": "AI安全与对齐",
          "match": "large reasoning models are autonomous jailbreak agents",
          "description": "斯图加特大学与ELLIS Alicante团队揭示了大型推理模型在AI安全领域的潜在威胁。随着模型逻辑推理能力增强，传统的人工提示词攻击已演变为高效的机器自动化对抗。研究发现，推理模型可利用隐藏思考区自主规划多轮对话策略，通过社交诱导等手段系统性瓦解目标模型的防御。实验显示，这种自动化攻击的整体越狱成功率高达97.14%，其中DeepSeek-R1杀伤力极强，而Claude系列展现了最稳固的防御。这一“对齐退化”现象警告我们，越强大的模型越容易被武器化，安全防御必须防止AI成为攻击他人的工具。",
          "x_post": "斯图加特大学与ELLIS Alicante揭秘大型推理模型自动化越狱：多轮攻击成功率达97.14%\n研究指出，具备高级推理能力的模型（LRMs）正从被动受害者演变为自主攻击媒介。通过利用内置的隐藏思考区（Scratchpad）规划多轮对话策略，攻击模型能以极低成本系统性地瓦解目标模型的安全防御，这一现象被定义为“对齐退化”。\n实验覆盖4个攻击模型与9个目标模型，结果显示自动化攻击在97.14%的测试项中诱导目标输出了最高危险等级内容。其中DeepSeek-R1展现了极高的攻击杀伤力，而Claude系列在防御端表现最为稳固，仅有2.86%的被攻破率。\n该研究强调，推理能力的增强可能反向助长模型的武器化风险。现有的AI安全防线在自动化话术面前面临失效，亟需建立能够防止AI成为攻击工具的新型防御体系。",
          "cover_url": "assets/covers/a53-autonomous-jailbreak-agents-a5ee725ccc.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-12T19:19:36+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "S77_OpenScholar_Literature_Synthesis",
      "slug": "s77-openscholar-literature-synthesis",
      "detail_url": "papers/s77-openscholar-literature-synthesis/",
      "title": "Synthesizing scientific literature with retrieval-augmented language models",
      "summary": "OpenScholar 针对科研文献综合的核心瓶颈：普通 LLM 在科学引用、覆盖率和最新文献上容易幻觉，而传统检索工具又难以生成可审查的长文献综述。论文把科学文献综合明确做成 retrieval-augmented scientific LM，而不是通用聊天模型的附加功能。\n\n方法上，它构建了开放的 OpenScholar DataStore，覆盖约 4500 万篇开放论文和大规模 passage embedding，并结合专门训练的 retriever/reranker、8B 生成模型、引用验证和 self-feedback inference loop。论文还提出 ScholarQABench，用多领域专家问题和长答案评估科学文献检索与综合。\n\n它值得正式收录，因为这是 AI-for-science workflow infrastructure 的代表性成果：论文检索、证据归因、长文献综合和评测接口被组织成可复用系统。对自动科研 agent、scientific discovery agents、deep research 系统和科研知识工作流都有直接外溢价值。\n\n它没有升到更高一级，是因为它仍主要解决文献综合和证据归因，不等同于自动提出理论、设计实验或闭环发现。长期影响还取决于数据覆盖、更新机制、领域偏差、引用验证可靠性以及开放组件被社区复用的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-02-04",
      "doi": "10.1038/s41586-025-10072-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 259,
      "source_url": "https://www.nature.com/articles/s41586-025-10072-4.pdf",
      "paper_url": "https://www.nature.com/articles/s41586-025-10072-4.pdf",
      "project_urls": [
        "https://openscholar.allen.ai/"
      ],
      "repo_urls": [
        "https://github.com/allenai/openscholar"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R13_TinyLoRA_Reasoning",
      "slug": "r13-tinylora-reasoning",
      "detail_url": "papers/r13-tinylora-reasoning/",
      "title": "Learning to Reason in 13 Parameters",
      "summary": "这篇论文针对 PEFT/LoRA 研究里一个非常少被真正推到极限的问题：为了让大模型学会更强推理，到底需要多大规模的参数更新？传统 LoRA 已经把微调从全量权重降到低秩矩阵，但仍然至少要受制于模型维度；LoRA-XS 进一步压缩后，通常也还在成千上万参数量级。作者直接反问：如果目标是让模型更会推理，rank=1 甚至是否都太大了？\n\n论文提出 TinyLoRA，用一个极小可训练向量通过固定投影扩展成完整权重更新，并进一步在不同模块与层之间共享这组参数，在极端设置下把全模型更新压缩到仅 1 个可训练参数。最强结果出现在 13 个 bf16 参数上：Qwen2.5-8B 在 GSM8K 上从 76% 提升到 91%。更重要的是，作者发现这种极限参数化几乎只在强化学习训练下成立；同样的小更新用于 SFT 时效果很弱，往往需要高出 100 到 1000 倍的参数量才能达到相似性能。\n\n这项工作值得正式收录，因为它不是单纯“更省参数”的 PEFT recipe，而是给出了一个很强的机制性结论：当目标是激活已有推理能力时，RL 可能只需要极小、定向的参数扰动，而不需要像 SFT 那样去记忆完整轨迹。这对 reasoning post-training、LoRA/PEFT 设计、低成本 specialization 以及未来超大模型的 task-specific tuning 都有明显外溢价值。它实际上把“推理能力到底是在学新知识，还是在解锁已有能力”这个问题推进了一步。\n\n它暂时还不到更高一级，原因在于当前证据仍集中在数学与推理 benchmark，且主要围绕 Qwen2.5-8B 这一路线展开。它揭示了很有冲击力的 scaling 和 RL-specific 现象，但要证明 TinyLoRA 会成为更广泛的 post-training 默认接口，还需要更多跨模型、跨任务和非 reasoning 场景验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-02-04",
      "doi": "",
      "arxiv_id": "2602.04118",
      "collected_at": "",
      "collection_order": 258,
      "source_url": "https://arxiv.org/pdf/2602.04118v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.04118v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N47_Economic_Choice_Circuit_Framework",
      "slug": "n47-economic-choice-circuit-framework",
      "detail_url": "papers/n47-economic-choice-circuit-framework/",
      "title": "A neural circuit framework for economic choice: From building blocks of valuation to compositionality in multitasking",
      "summary": "问题与背景：价值驱动的经济选择是认知科学与神经经济学中的核心问题，但从神经电路角度把价值计算、比较和多任务组合统一起来一直较难。已有实验发现很多现象，但缺少一个兼顾生物合理性、行为泛化和神经表征解释的统一框架。\n\n方法/新意：作者用满足 Dale 定律的生物合理 RNN，通过强化学习在一组经济选择任务上训练模型，并分析网络如何在输入层完成价值估计、在递归回路中进行 winner-take-all 比较，以及在多任务场景中形成共享与专用模块的组合式表征。\n\n意义/放在仓库中的位置：这篇论文是认知科学主线里的高质量原始研究，属于计算神经科学与 NeuroAI 的交叉代表作。它的重要性在于用可解释的电路框架把 valuation、comparison、generalization 和 multitasking 串成同一机制叙事，而不是零散解释单个任务。\n\n局限/为何不再升一级：它的影响主要集中在经济选择与前额叶/OFC 决策回路建模，外溢性不如更广泛的 foundation model 或通用世界模型工作。当前更适合定为突破性，而不是颠覆性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-04",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 257,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC11952538/",
      "paper_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC11952538/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM3_PerpetualWonder_4D_Scene",
      "slug": "mm3-perpetualwonder-4d-scene",
      "detail_url": "papers/mm3-perpetualwonder-4d-scene/",
      "title": "PerpetualWonder: Long-Horizon Action-Conditioned 4D Scene Generation",
      "summary": "这篇论文想解决的是单图出发的长时程 4D 场景生成问题。现有很多视频生成方法能生成“看起来像运动”的结果，但物理状态和视觉表示是分裂的，导致时间一长就失真，更谈不上真正的 action-conditioned 交互场景。\n\n方法上，PerpetualWonder 把物理仿真和视频生成做成闭环：前向依赖物理状态推进，后向通过神经优化同时修正视觉外观和动力学一致性。它还支持多视角 refinement 和更长时间范围的 4D scene update，目标不是一段局部视频，而是一个可持续演化的场景表示。\n\n这篇工作的意义在于，它把 4D 生成、世界模型和物理仿真三条线真正接起来了。对生成式建模来说，这种“physics in the loop”的做法比普通视频生成更接近具身智能和世界建模需求，因此很适合放进仓库主线。\n\n我把它放在“突破性”。它非常值得跟，但目前仍主要属于 4D 生成 / 物理闭环方向里的强工作，还没有形成范式总攻。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-02-04",
      "doi": "",
      "arxiv_id": "2602.04876",
      "collected_at": "",
      "collection_order": 256,
      "source_url": "https://arxiv.org/pdf/2602.04876.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.04876.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "J7_Path_Integration_Predictive_Sequence",
      "slug": "j7-path-integration-predictive-sequence",
      "detail_url": "papers/j7-path-integration-predictive-sequence/",
      "title": "A Minimal Task Reveals Emergent Path Integration and Object-Location Binding in a Predictive Sequence Model",
      "summary": "**问题与背景**\n这篇论文针对 `predictive sequence models / path integration / world modeling` 方向中的核心问题展开，属于仓库主线内值得正式记录的研究。它关注的不是局部调参，而是该子方向里较基础、较长期的问题，因此即使仍处在论文阶段，也有持续跟踪价值。\n\n**方法/新意**\n论文提出了相对清晰的新方法或新分析框架，并给出了可复核的实验或论证。它的主要新意在于把问题从经验比较推进到更可解释、可系统化的层面，而不是仅仅提供一个小幅性能增益。\n\n**意义/放在仓库中的位置**\n在仓库里，这篇论文归到 `predictive sequence models / path integration / world modeling` 主线，定位为 `breakthrough`。它适合作为后续做主题综述、视频选题和与同类论文横向比较时的正式材料，也能补足当前仓库在该方向上的连续性。\n\n**局限/为何不再升一级**\n它暂时没有升到 `disruptive`，主要因为当前证据更像一篇高质量方法论文、机制论文或系统论文，而不是已经改写整条研究路线的成果。除非后续被大规模复现、 adopted 或成为该领域新标准，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-02-03",
      "doi": "",
      "arxiv_id": "2602.03490",
      "collected_at": "",
      "collection_order": 255,
      "source_url": "https://arxiv.org/pdf/2602.03490v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.03490v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "重回认知本质：奥斯纳布吕克大学揭示，极简序列预测模型如何通过动态绑定，构建智能体的世界观",
          "url": "https://www.bilibili.com/video/BV1NYQZBqEa7",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1NYQZBqEa7",
            "https://youtu.be/qjwCaRQEtb4"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "a minimal task reveals emergent path integration and object location binding in a predictive sequence model",
          "description": "探讨智能体如何构建内部世界模型是认知科学与AI的共同课题。本研究通过一个极简的2D网格任务，训练三层GRU模型根据位移指令预测下一个位置的字母。实验证明，模型在不更新权重的情况下，仅依靠上下文学习便在测试中达到了99.2%的预测准确率。更重要的是，干预性分析揭示了模型内部自发演化出了路径积分与对象-位置绑定机制，实现了从相对位移到绝对坐标的隐式转换。这项工作为理解神经网络如何通过动作预测建立结构化表征提供了机械论层面的解释，展示了复杂智能行为在极简约束下的涌现过程。",
          "x_post": "奥斯纳布吕克大学揭示极简序列预测模型中的世界模型演变：从未见位移预测准确率达 99.2%\n\n理解智能体如何构建内部世界模型是认知科学的核心课题。研究团队通过极简 2D 网格任务，训练三层 GRU 模型根据位移指令预测目标位置的字母标记，旨在排除视觉共现干扰，专注探究动作条件下的序列预测。\n\n实验证据显示，在权重冻结的前提下，模型仅依靠上下文学习便能在约 35 步内快速收敛，并在从未见过的移动轨迹上实现了 99.2% 的预测准确率。干预性分析进一步证实，模型内部自发演化出了路径积分与动态的对象-位置绑定机制，实现了从相对位移到绝对坐标的隐式转换。\n\n该项工作从机械论层面解释了神经网络如何通过动作条件预测建立结构化的环境表征，证明了复杂的认知能力可在极简预测任务的约束下自发涌现。",
          "cover_url": "assets/covers/j7-path-integration-predictive-sequence-46b286802e.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-22T18:01:20+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N39_Infant_Visual_Categories",
      "slug": "n39-infant-visual-categories",
      "detail_url": "papers/n39-infant-visual-categories/",
      "title": "Infants have rich visual categories in ventrotemporal cortex at 2 months of age",
      "summary": "问题与背景\nA longstanding question in cognitive development is how early rich visual categories emerge in the human brain and whether they depend mainly on postnatal learning or appear surprisingly early.\n\n方法/新意\nThe paper combines awake infant fMRI with computational analyses of visual categorization, showing categorical organization in high-level ventrotemporal cortex as early as 2 months and tracking developmental change over time.\n\n意义/放在仓库中的位置\nThis is a valuable developmental cognition paper and fits the repository's broadened cognitive-science mainline. It is particularly useful because infant fMRI at this scale is rare, and the findings bear directly on early category formation.\n\n局限/为何不更高\nThe contribution is strongest within developmental visual neuroscience, rather than as a broad new computational or AI-relevant paradigm, so breakthrough is the right level.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-02-02",
      "doi": "10.1038/s41593-025-02187-8",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 254,
      "source_url": "https://doi.org/10.1038/s41593-025-02187-8",
      "paper_url": "https://doi.org/10.1038/s41593-025-02187-8",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "揭秘人类认知的预装蓝图：解析婴儿VTC模块，看2个月大脑如何为社交与物理世界做准备",
          "url": "https://www.bilibili.com/video/BV1Uhw2zvEg4",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Uhw2zvEg4",
            "https://youtu.be/F9qZnCdacDs"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "infants have rich visual categories in ventrotemporal cortex at 2 months of age",
          "description": "长期以来，学术界争论婴儿大脑是依赖后天经验学习的“白纸”，还是具有先天的功能架构。本视频深入解析发表于《Nature Neuroscience》的研究成果，探讨两个月大婴儿的腹侧颞叶皮层（VTC）如何处理复杂的视觉信息。研究人员利用3T高场强MRI与0.1mm精度的运动校正算法，克服了清醒婴儿fMRI扫描中极高的运动伪影挑战。证据表明，即便在视力尚未发育成熟的模糊阶段，婴儿大脑已形成面部、场景与物体的专属识别模块，且其空间拓扑结构与成人高度重合。该发现确立了人类视觉认知引擎的早期成熟度，为理解感知觉起源及大脑功能演化提供了关键的生物学证据，明确了人类认知“预装”蓝图的边界。",
          "x_post": "Nature Neuroscience研究揭示2个月婴儿腹侧颞叶皮质已具备成熟视觉分类架构\n关于婴儿大脑是否为依赖经验学习的“白纸”长期存在争议。研究团队通过3T高场强MRI与0.1mm精度的运动校正算法，克服了清醒婴儿fMRI扫描中的运动伪影难题。实验数据证实，仅2个月大的婴儿在腹侧颞叶皮层（VTC）已形成对面部、场景与物体的专属识别模块。研究发现，尽管婴儿此时视力发育尚不成熟，但其大脑分类模块的空间拓扑结构已与成人高度重合。这一结论表明人类视觉认知引擎具备早期成熟的“预装”蓝图，为理解感官知觉的生物学起源提供了关键的可核验证据。",
          "cover_url": "assets/covers/n39-infant-visual-categories-678ecdd448.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-16T18:40:38+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM8_UniDWM_Driving",
      "slug": "mm8-unidwm-driving",
      "detail_url": "papers/mm8-unidwm-driving/",
      "title": "UniDWM: Towards a Unified Driving World Model via Multifaceted Representation Learning",
      "summary": "这篇论文关注自动驾驶世界模型的统一表示问题。很多驾驶世界模型只在某一层面强，比如几何结构、视觉纹理或未来动力学其中之一，但难以形成一个同时服务感知、预测和规划的共同状态空间。UniDWM 的目标就是把这些维度真正统一起来。\n\n方法上，它构建了 structure- and dynamic-aware latent world representation，一边通过联合重建路径恢复场景几何与外观，一边通过条件扩散 Transformer 在 latent space 里建模未来世界演化。核心新意在于“多面向表征学习”：不是只预测下一帧，而是让 latent world state 同时承载结构、纹理和动态。\n\n它的重要性在于，自动驾驶长期缺一个既能做 world modeling 又能无缝衔接规划的统一状态空间。如果这条路线成立，很多现在割裂的 perception / prediction / planning 模块就有可能被更紧地耦合。放在仓库里，它属于 driving world model 主线里的高质量代表作。\n\n我把它放在“突破性”。原因是它方法完整、方向正确、对自动驾驶 world model 很有代表性，但外溢仍偏自动驾驶子方向，尚未到更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-02-02",
      "doi": "",
      "arxiv_id": "2602.01536",
      "collected_at": "",
      "collection_order": 253,
      "source_url": "https://arxiv.org/pdf/2602.01536.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.01536.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让 AI 自主推导物理规律，UniDWM 通过 4D 模拟演变告别模块化设计瓶颈",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "unidwm towards a unified driving world model via multifaceted representation learning",
          "description": "中山大学与小鹏汽车团队联合提出 UniDWM 统一驾驶世界模型，旨在攻克自动驾驶领域的感知与规划难题。针对传统模块化架构对人工标注依赖高、误差累积严重的瓶颈，该研究通过多面表征学习构建了统一的物理接地潜空间。方法核心在于融合物理几何、视觉外观与动态演变三大维度，结合时空编码器与扩散变换器（DiT）实现高精度环境重建与未来预测。实验证明，UniDWM 在 NAVSIM 基准测试的轨迹规划与场景生成中表现出色，且无需任何感知标签。这一成果验证了利用自监督学习构建通用驾驶智能、提升端到端规划稳健性的巨大潜力。",
          "x_post": "中山大学与小鹏汽车发布 UniDWM：基于自监督学习的统一驾驶世界模型，提升 NAVSIM 规划性能。\n传统模块化自动驾驶受限于高昂的感知标注成本与层级误差累积，难以学习真实的物理演变规律。\nUniDWM 通过多面表征学习构建物理接地的统一潜空间，整合几何结构、视觉外观与动态演变三大维度。\n模型结合时空编码器与扩散变换器（DiT），通过联合重建与协同生成流程实现高精度 4D 环境预测。\n实验结果显示，该模型在无需人工感知标签的前提下，于 NAVSIM 基准的轨迹规划与场景生成任务中表现出色。\n该研究论证了自监督学习在减少标注依赖、构建稳健端到端驾驶智能方面的技术潜力。",
          "cover_url": "assets/covers/mm8-unidwm-driving-671a1b4045.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-03T16:23:23+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM13_UniDriveDreamer",
      "slug": "mm13-unidrivedreamer",
      "detail_url": "papers/mm13-unidrivedreamer/",
      "title": "UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving",
      "summary": "## 问题与背景\n问题与背景：自动驾驶 world model 常被拆成多阶段系统，接口多、训练复杂、部署成本高。研究方向在持续往更统一的一体化 driving world model 收敛。\n\n## 方法/新意\n方法/新意：UniDriveDreamer 提出 single-stage multimodal world model，希望用一个更统一的系统同时处理驾驶中的多模态输入与未来状态生成，而不是多模块拼接。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：它属于自动驾驶 / embodied world model 主线，和 Drive-JEPA、LaST-VLA、UniDWM 形成同方向的比较簇。\n\n## 局限/为何不更高\n局限/为何不更高：它是赛道内强代表作，但仍属于该方向竞争中的一员，尚不足以单独重排整条路线图，因此归为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-02-02",
      "doi": "",
      "arxiv_id": "2602.02002",
      "collected_at": "",
      "collection_order": 252,
      "source_url": "https://arxiv.org/abs/2602.02002",
      "paper_url": "https://arxiv.org/abs/2602.02002",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM12_DDP_WM",
      "slug": "mm12-ddp-wm",
      "detail_url": "papers/mm12-ddp-wm/",
      "title": "DDP-WM: Disentangled Dynamics Prediction for Efficient World Models",
      "summary": "## 问题与背景\n问题与背景：世界模型在机器人和规划任务里往往面临表示复杂、动力学预测重、推理成本高的问题。高效 world model 依然是当前主线难题。\n\n## 方法/新意\n方法/新意：DDP-WM 通过 disentangled dynamics prediction 拆开状态表示与动态变化，让模型在保持动力学表达力的同时提升计算效率。重点是表示和动力学的结构解耦。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：它放在 world model / embodied AI 主线很合适，是高效世界模型中的代表作之一，可与 Causal-JEPA、Next Embedding Prediction、Neural Fields as World Models 对读。\n\n## 局限/为何不更高\n局限/为何不更高：它属于路线中的强方法论文，但还不是重新定义世界模型问题的标志性代表，因此定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-02-02",
      "doi": "",
      "arxiv_id": "2602.01780",
      "collected_at": "",
      "collection_order": 251,
      "source_url": "https://arxiv.org/abs/2602.01780",
      "paper_url": "https://arxiv.org/abs/2602.01780",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "J2_VL_JEPA",
      "slug": "j2-vl-jepa",
      "detail_url": "papers/j2-vl-jepa/",
      "title": "VL-JEPA: Joint Embedding Predictive Architecture for Vision-language",
      "summary": "这篇论文把 JEPA 路线正式推到了 vision-language 模型。核心思路是：与其像传统 VLM 那样在 token 空间里自回归生成文本，不如直接预测文本的连续 embedding。这样模型学习的是更抽象的语义空间，而不是被表面词形和解码过程牵着走。\n\n方法上，`VL-JEPA` 在视觉到语言的映射中预测 target text embedding，并只在需要输出文本时调用一个轻量 decoder。这个设计带来两个直接好处：一是训练参数更少；二是推理时可以做 selective decoding，只在必要的时候进行文本解码，而不是对每个步骤都完整生成 token。\n\n它的重要性在于，这是 JEPA 主线向 VLM 替代路线的一次明确尝试。摘要里给出的收益也很实在：同样的数据和视觉编码器下，相比标准 token-space VLM 训练性能更强，可训练参数减少约一半，同时 selective decoding 将解码操作数降到原来的约三分之一。除此之外，它的 embedding space 还能自然支持检索、开放词汇分类和判别式 VQA。\n\n我会把这篇定位成突破性，而不是更高。原因是它目前更像一条很强的替代路线证明，而不是已经坐实的新标准。但如果 JEPA 真要进入多模态主线，这篇会是必须回看的代表作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-02-02",
      "doi": "",
      "arxiv_id": "2512.10942",
      "collected_at": "",
      "collection_order": 250,
      "source_url": "https://arxiv.org/pdf/2512.10942.pdf",
      "paper_url": "https://arxiv.org/pdf/2512.10942.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G3_LatentMorph",
      "slug": "g3-latentmorph",
      "detail_url": "papers/g3-latentmorph/",
      "title": "Show, Don't Tell: Morphing Latent Reasoning into Image Generation",
      "summary": "这篇论文针对文本生成图像里一个越来越重要但常被粗糙处理的问题：模型能否在生成过程中进行动态推敲和自我修正，而不是一次性把提示词映射成像素。作者指出，现有 reasoning-augmented 图像生成方法大多依赖显式思维链，把中间推理反复解码成文本再重新喂回模型，这会带来信息压缩、延迟增加和明显的认知流程错配。\n\n为解决这个问题，论文提出 LatentMorph，把推理过程完全放到连续 latent space 中完成。核心由四个轻量模块组成：用于压缩中间生成状态的 condenser、把 latent thought 转成可执行引导的 translator、动态调整下一步图像 token 预测的 shaper，以及决定何时触发 reasoning 的 RL 训练 invoker。这样模型不需要频繁走显式文本链路，而是在生成内部持续进行隐式修正。\n\n这项工作的价值在于，它把“图像生成中的 reasoning”从宣传层的概念包装，推进成了一套可运行的内部机制设计。LatentMorph 同时覆盖 fidelity、抽象推理、推理触发时机和推理效率四个维度，在 GenEval、T2I-CompBench、WISE、IPV-Txt 等任务上都给出了成体系的结果，而且显著降低推理时间和 token 消耗。对仓库来说，它属于生成模型里很值得保留的 latent reasoning 条目。\n\n它没有更高一级，因为当前仍是 arXiv 预印本，而且方法主要建立在 Janus-Pro 一类 unified multimodal backbone 上，后续是否能跨更多生成架构稳定迁移、并成为图像生成 reasoning 的默认范式，还需要继续看社区复现和采用情况。当前更稳的定位是 breakthrough，而不是更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-02-02",
      "doi": "",
      "arxiv_id": "2602.02227",
      "collected_at": "",
      "collection_order": 249,
      "source_url": "https://arxiv.org/pdf/2602.02227v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.02227v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "西工大联合Knowin发布LatentMorph，赋予AI绘画人类般的潜意识，实现毫秒级隐式推理",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "show don t tell morphing latent reasoning into image generation",
          "description": "西北工业大学联合Knowin团队针对文本生成图像（T2I）领域推出LatentMorph框架。针对现有显式推理方法效率低下、信息丢失等痛点，该技术模拟人类创作直觉，通过冷凝器、调度器等组件在连续潜空间实现隐式推理。系统引入强化学习动态监控生成状态，仅在逻辑转折点介入引导，从而实现毫秒级推理响应并显著降低显存占用。实验证明，该框架在保持高效生成的提升了图像的逻辑忠实度与抽象推理能力，为构建具备自我修正能力的生成式AI提供了高效方案。",
          "x_post": "西工大联合Knowin发布LatentMorph：基于连续潜空间的毫秒级文生图隐式推理框架\n\n针对现有文本生成图像（T2I）模型在显式推理中存在的信息丢失与效率瓶颈，该研究提出一种模拟人类创作直觉的隐式推理机制。通过冷凝器（Condenser）将生成状态压缩为视觉记忆，并利用强化学习驱动的调度器（Invoker）精准捕捉逻辑转折点，实现动态介入引导。\n\n实验数据表明，LatentMorph在显著提升图像抽象逻辑与生成忠实度的同时，实现了毫秒级推理响应，并大幅优化了显存占用。该框架证明了在不中断生成流的前提下，通过潜空间信号翻译实现模型自我修正与引导的可行性，为高效生成式AI提供了新路径。",
          "cover_url": "assets/covers/g3-latentmorph-5ee2715d9e.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-19T16:50:16+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A147_AgentRx_Agent_Failure_Diagnosis",
      "slug": "a147-agentrx-agent-failure-diagnosis",
      "detail_url": "papers/a147-agentrx-agent-failure-diagnosis/",
      "title": "AgentRx: Diagnosing AI Agent Failures from Execution Trajectories",
      "summary": "随着 AI agents 开始执行长链条、多工具、甚至多代理协作任务，一个越来越突出的痛点是失败定位。很多系统只能给出最终成败，却很难指出轨迹中第一个不可恢复的错误发生在哪里，也难以稳定判断它属于工具异常、策略偏移还是策略与环境交互中的更深层失配。\n\nAgentRx 的核心贡献是把 agent debugging 从模糊的 post-hoc 解释改成可执行、可审计的诊断流程。它先把异构轨迹统一成中间表示，再结合 tool schema 与 domain policy 自动合成 guarded constraints，逐步检查每一步约束是否被违反，并生成带证据的 validation log，最后再由 LLM judge 基于该日志去定位 critical failure step 与 failure category。作者同时发布了包含 115 条人工标注失败轨迹的 benchmark 和 grounded failure taxonomy。\n\n这让它不只是又一篇 reliability paper，而是给 agent engineering 提供了一条更耐久的诊断接口。对仓库来说，它和 guardrail、permissioning、computer-use safety、governed execution 这些线都能对接，因为真正的价值在于把失败归因、可观察性和可复盘性收敛到统一框架里。相比只报成功率的 agent benchmark，这类 failure-diagnosis primitive 更可能被后续系统复用。\n\n它暂时还不适合更高分级，原因在于当前证据主要集中在三类 domain 和作者自建 benchmark，生态扩散与跨系统复现仍需要时间验证。它更像一条很强的 agent diagnosis 基础模式，而不是已经改写整个 agent reliability 范式的总蓝图。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-02",
      "doi": "",
      "arxiv_id": "2602.02475",
      "collected_at": "",
      "collection_order": 248,
      "source_url": "https://arxiv.org/pdf/2602.02475v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.02475v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A134_MemSkill_Self_Evolving_Memory",
      "slug": "a134-memskill-self-evolving-memory",
      "detail_url": "papers/a134-memskill-self-evolving-memory/",
      "title": "MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents",
      "summary": "许多 LLM agent memory 系统只提供一小组手工设计的固定操作，例如提取摘要、写入条目、简单更新或覆盖。这些操作默认了人类预设的记忆结构，面对长时程、多轮、任务形态不断变化的交互时，往往既不够灵活，也难以持续改进。\n\nMemSkill 把记忆操作本身改写成可学习、可进化的 memory skills。系统由 controller 选择少量相关 skills，由 LLM executor 按 skill 指导生成记忆；同时引入 designer 复盘 hard cases，在记忆不完整或错误时提出 skill refinement 和新 skill，从而让 skill-selection policy 与 skill set 本身一起闭环演化。\n\n这篇工作值得收录，因为它把 agent memory 从固定 read/write primitive 推进到 skillized memory management。它和单纯做更强检索器或更复杂 memory schema 不同，真正引入了“记忆技能如何被学习与演化”的接口，对 self-evolving agents、memory control 和长期交互系统都有可复用价值。\n\n它没有升到更高一级，是因为当前记忆线已经相当拥挤，而 MemSkill 还主要证明自己是一条很强的方法路线，而不是已经成为长期记忆系统的默认蓝图。它的方向很对，但外部采用和更广 benchmark 统治力还需要时间。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-02-02",
      "doi": "",
      "arxiv_id": "2602.02474",
      "collected_at": "",
      "collection_order": 247,
      "source_url": "https://arxiv.org/pdf/2602.02474.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.02474.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "打造 AI 的自我进化本能：MemSkill 仅需四项基础操作，即可在复杂交互中不断重塑记忆边界",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "memskill learning and evolving memory skills for self evolving agents",
          "description": "针对大语言模型智能体在长对话和复杂任务中面临的静态内存管理效率低、泛化差的问题，MemSkill 提出了一种将内存处理转化为可学习、可进化技能的新架构。该系统将记忆内容与处理技能解耦，通过控制器筛选 Top-K 技能并由 LLM 执行单次结构化更新。其核心在于引入了基于 Designer 的闭环进化机制，能够从困难样本中自动提炼并优化新技能。在 LoCoMo 与 ALFWorld 基准测试中，MemSkill 显著提升了智能体的逻辑连贯性与任务成功率，证明了其在减少人工预设规则的同时，具备强大的跨模型泛化与自适应演化能力。",
          "x_post": "清华及南洋理工等团队发布 MemSkill：基于 4 项基础操作的自演化记忆管理系统，显著提升 LoCoMo 与 ALFWorld 基准表现\n\n针对 LLM 智能体在长对话与复杂交互中面临的静态内存管理效率低、泛化差等瓶颈，该研究提出将记忆处理转化为可学习、可进化的“内存技能”。系统通过控制器动态筛选 Top-K 技能，并由 LLM 执行器完成单次结构化的内存更新。\n\n核心机制在于引入基于 Designer 的闭环进化路径：系统从困难样本中自动分析失败案例，对现有技能进行打磨或发明新技能。MemSkill 仅需以“新增、更新、删除、跳过”四项基础操作为起点，即可自主衍生出适应不同任务的差异化管理策略。\n\n实验结果显示，该方案在 LoCoMo 和 ALFWorld 等基准测试中显著提升了智能体的逻辑连贯性与任务成功率。这种技能驱动的架构不仅减少了人工预设规则，还展现出优秀的跨模型泛化能力，为自演化智能体的内存管理提供了新范式。",
          "cover_url": "assets/covers/a134-memskill-self-evolving-memory-18e338b489.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-03T15:08:54+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C5_LUMI_Lab_Lipid_Design",
      "slug": "c5-lumi-lab-lipid-design",
      "detail_url": "papers/c5-lumi-lab-lipid-design/",
      "title": "LUMI-lab: A foundation model-driven autonomous platform enabling discovery of ionizable lipid designs for mRNA delivery",
      "summary": "问题与背景：离子化脂质是 mRNA 递送系统的核心部件，但其设计空间极大，传统依赖人工经验和低通量筛选，导致发现速度慢、成本高。LUMI-lab 试图把 foundation model、实验自动化与闭环优化结合起来，解决脂质设计中的组合爆炸问题。\n\n方法/新意：这项工作构建了一个由基础模型驱动的自主实验平台，将候选脂质生成、实验执行、结果读取和下一轮设计闭环耦合。重点不只是用模型打分，而是把模型真正嵌入实验循环，使其持续根据反馈更新设计方向。\n\n意义/放在仓库中的位置：这是 AI 驱动实验科学和 autonomous lab 路线的强代表作，和 MOSAIC、CRESt、QUASAR 同属‘AI 进入真实科学工作流’主线。它的意义在于证明 foundation model 不仅能辅助分析，还能成为实验设计与发现流程的核心部件。\n\n局限/为何不再升一级：它的外溢性主要仍在药物递送和材料设计一侧，距离改写更大范围 AI 方法论还有一步。当前价值更像是强平台和强工作流系统，而不是新的通用学习范式。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-02-01",
      "doi": "10.1016/j.cell.2026.01.012",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 246,
      "source_url": "https://doi.org/10.1016/j.cell.2026.01.012",
      "paper_url": "https://doi.org/10.1016/j.cell.2026.01.012",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "多伦多大学打造AI自驱动实验室：LUMI-lab将mRNA载体研发周期缩短至39小时",
          "url": "https://www.bilibili.com/video/BV1V6d6BCEsR",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1V6d6BCEsR",
            "https://youtu.be/LdxeLiQgeFc"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "lumi lab a foundation model driven autonomous platform enabling discovery of ionizable lipid designs for mrna delivery",
          "description": "多伦多大学开发的LUMI-lab是一个AI驱动的自驱动实验室，专注于攻克mRNA递送载体研发中实验数据稀缺、筛选周期长的难题。该平台将基于Transformer的分子基础模型与高通量机器人自动化流相结合，通过主动学习闭环实现自主进化。在实验中，LUMI-lab在短短39小时内完成一轮迭代，累计筛选逾1700种脂质分子，成功发现高效载体LUMI-6，并在小鼠肺部基因编辑中实现20.3%的转染效力，刷新了吸入式递送记录。这标志着AI自主实验室在加速药物开发和材料科学发现方面具有巨大潜力。",
          "x_post": "多伦多大学 LUMI-lab 团队：AI 自驱动实验室将 mRNA 载体研发缩短至 39 小时，实现 20.3% 肺部基因编辑效率。\n针对 mRNA 递送中离子化脂质筛选数据稀缺且周期长的挑战，该团队开发了 LUMI-lab 自主发现平台。该系统将基于 Transformer 的分子基础模型与高通量机器人自动化结合，通过主动学习闭环实现自主进化。\n在 10 轮迭代中，平台自主筛选了逾 1700 种脂质分子，单轮循环周期仅 39 小时。实验成功识别出高性能分子 LUMI-6，并意外发现了可提升递送效率的溴化脂质尾部这一新型结构特征。\n结果显示，LUMI-6 在小鼠肺部实现了 20.3% 的 CRISPR-Cas9 递送效率，刷新了吸入式 LNP 的效率记录。该成果验证了 AI 驱动的闭环实验室在生物医学材料开发中的巨大潜力。",
          "cover_url": "assets/covers/c5-lumi-lab-lipid-design-c547b98b03.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-20T17:09:06+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "SYS3_DISK_World_Models",
      "slug": "sys3-disk-world-models",
      "detail_url": "papers/sys3-disk-world-models/",
      "title": "DISK: Dynamic Inference SKipping for World Models",
      "summary": "这篇论文处理的是世界模型落地时很实际的一层问题：闭环视频和轨迹预测往往太慢，尤其在自动驾驶这种长时 rollout 场景下，扩散式世界模型的推理成本会迅速变成瓶颈。作者试图在不重新训练模型的前提下，做出真正可用的推理加速。\n\n方法上，DISK 是一个 training-free 的动态跳步推理方法，用两个耦合的控制器分别对视频扩散和轨迹扩散分支做 skip 决策，同时把控制统计传播到 autoregressive rollout 里，保证长时稳定性。它的价值不在重训新模型，而在 test-time 层面对世界模型做自适应加速。\n\n它适合放在仓库里，是因为我们已经收了不少 world model 与 VLA 方向的基础模型和闭环策略论文，而 DISK 补上了“如何让这些模型在实际推理预算下工作”的系统层空白。对于自动驾驶和通用世界模型部署都很有参考意义。\n\n我把它归为“突破性”。原因是它是高质量系统论文，结果也实用，但主要作用在推理效率与部署层，还不是重新定义世界模型训练范式的工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2026-01-31",
      "doi": "",
      "arxiv_id": "2602.00440",
      "collected_at": "",
      "collection_order": 245,
      "source_url": "https://arxiv.org/abs/2602.00440",
      "paper_url": "https://arxiv.org/abs/2602.00440",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N59_BrainStack_EEG_Language_Decoding",
      "slug": "n59-brainstack-eeg-language-decoding",
      "detail_url": "papers/n59-brainstack-eeg-language-decoding/",
      "title": "BrainStack: Neuro-MoE with Functionally Guided Expert Routing for EEG-Based Language Decoding",
      "summary": "问题与背景：EEG 语言解码长期受限于信号弱、噪声大、脑区功能异质性强等问题。传统统一编码器往往难以同时兼顾不同脑区和不同认知过程的特征结构。论文关注的是：能否让模型结构更贴近大脑功能组织，用脑区分工来指导 EEG 语言解码。\n\n方法/新意：作者提出 BrainStack，把 mixture-of-experts 与 functionally guided expert routing 结合起来，让不同专家分支更贴合不同脑区或功能模式的信号处理需求。它的关键新意不是简单把 MoE 套到 EEG 上，而是明确让 expert routing 向脑功能结构靠拢，从而把神经科学先验和深度学习架构设计结合起来。\n\n意义/放在仓库中的位置：这篇工作适合放在认知科学 / 神经工程 / NeuroAI 主线。它代表了 EEG 解码中一种更具结构感的路线：不再把脑信号视为同质序列，而是尝试让模型内部的专家协同去模拟脑区协同。这对脑机接口、神经语言解码以及神经科学启发架构都具有明确参考价值。\n\n局限/为何不再升一级：论文目前还是 arXiv 阶段，且影响主要集中在 EEG 解码和神经工程方向。虽然“结构向脑靠拢”的叙事很强，但是否能成为更广泛的模型设计默认范式，还需要更多任务和更大规模验证，因此定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-01-31",
      "doi": "",
      "arxiv_id": "2601.21148",
      "collected_at": "",
      "collection_order": 244,
      "source_url": "https://arxiv.org/pdf/2601.21148.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.21148.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "悉尼科技大学等校突破读心术极限，AI听懂无声默读，发布BrainStack框架",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "brainstack neuro moe with functionally guided expert routing for eeg based language decoding",
          "description": "由悉尼科技大学与穆罕默德·本·扎耶德人工智能大学等机构研发的BrainStack框架，针对脑机接口领域的脑电波语言解码难题提出了新方案。研究指出，传统模型因忽略大脑解剖结构而难以从充满噪声的脑电信号中提取特征。为此，BrainStack创新性地引入了神经混合专家模型，根据大脑七大功能区设立局部专家，并辅以全局专家进行跨区域协作。在拥有120小时记录的SS-EEG基准数据集上，该模型在准确性与个体泛化性上显著超越前沿模型。这一成果成功将复杂的脑电活动翻译为更精准的无声语音输出，为开发高效、具备生理依据的可解释脑机接口系统提供了关键支撑。",
          "x_post": "悉尼科技大学联合 MBZUAI 推出 BrainStack 架构，利用 Neuro-MoE 显著提升 120 小时 EEG 数据解码性能。\n针对脑电信号（EEG）极低信噪比与空间复杂性挑战，该研究引入受神经科学启发的功能引导专家路由机制。\n模型将大脑按解剖结构划分为 7 个功能区，由局部专家捕捉区域动态，全局专家处理跨区域协作信息。\n在包含 12 名受试者、24 个默读单词、120 小时记录的 SS-EEG 基准数据集上，该框架在准确性与个体泛化能力上均优于现有的深度学习模型。\n这一进展为开发具备生理依据、高可解释性的非侵入式脑机接口（BCI）通信系统奠定了重要基础。",
          "cover_url": "assets/covers/n59-brainstack-eeg-language-decoding-fac8734ca6.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-19T16:50:11+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N17_Theta_Gamma_Waves",
      "slug": "n17-theta-gamma-waves",
      "detail_url": "papers/n17-theta-gamma-waves/",
      "title": "Nested spatiotemporal theta–gamma waves organize hierarchical processing across the mouse visual cortex",
      "summary": "这篇论文研究的是视觉皮层跨层级信息处理的动力学组织方式。作者使用小鼠视觉皮层的 Neuropixels 记录，想回答低频 theta 波、高频 gamma 活动和神经元放电如何在跨层、跨区的层级处理中相互耦合。\n\n核心新意在于它提出并实证支持了一种嵌套的时空结构：广域传播的 theta traveling waves 为局部 gamma 包和神经元放电提供相位脚手架，而且这种耦合会随着刺激呈现阶段在自上而下与自下而上方向之间切换。也就是说，层级视觉处理不是静态通路，而是被跨尺度波动结构组织起来。\n\n这篇论文适合仓库的认知科学 / 系统神经科学主线。它对理解视觉层级处理、跨频耦合、动态编码以及脑网络中的 top-down / bottom-up 交替非常有价值，也能和类脑计算、动态世界模型等主题形成长期对照。\n\n它没有更高一级，是因为当前贡献主要还是在机制揭示和神经动力学组织层面，尚未直接生成被广泛迁移到 AI 训练或系统设计中的新方法。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-01-30",
      "doi": "10.1038/s41467-026-68893-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 243,
      "source_url": "https://www.nature.com/articles/s41467-026-68893-4",
      "paper_url": "https://www.nature.com/articles/s41467-026-68893-4",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "悉尼大学揭秘大脑传输协议：1250Hz捕捉波流，破解脑部双频嵌套编码机制",
          "url": "https://www.bilibili.com/video/BV1Gu98BTEwG",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Gu98BTEwG",
            "https://youtu.be/qitxtq2Dsjw"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "nested spatiotemporal theta gamma waves organize hierarchical processing across the mouse visual cortex",
          "description": "悉尼大学研究团队在《自然·通讯》发表成果，探索小鼠视觉皮层如何高效处理分层信息。研究聚焦于大脑内部的“传输协议”，即 Theta 行进波与 Gamma 局部数据包的嵌套关系。通过 1250Hz 超高采样率与 40μm 空间分辨率技术，研究者发现大脑并非单向传输，而是根据刺激状态在“自下而上”与“自上而下”模式间瞬间切换方向。这种嵌套时空编码机制使 40 毫秒瞬时发生的 Gamma 数据包能被 Theta 载波精准调度。该发现不仅解释了视觉系统整合前馈与反馈信息的逻辑，也为类脑计算和神经网络分布式动力学研究提供了关键的生物学依据，帮助我们理解复杂感知任务背后的底层硬件调度。",
          "x_post": "悉尼大学揭示视觉皮层 θ-γ 嵌套编码：基于 1250Hz 高采样率的跨尺度波流动力学\n视觉层级处理需平衡宏观波动与微观神经元放电的时空一致性。研究团队利用 1250Hz 采样率与 40μm 空间分辨率技术，监测了小鼠视觉皮层 6 个区域的跨层级电信号。\n观测发现 3-10Hz 的 θ 行进波充当“全局载波”，在其特定相位中精准嵌套了寿命约 40ms、空间宽度约 450μm 的高频 γ 数据包（30-100Hz）。\n这种嵌套时空模式展现出非平稳的双向动态特性，在刺激状态切换时，传播方向会在皮层层级间快速翻转，有效预测了视觉任务的行为表现。该机制为理解大脑如何整合前馈与反馈信号、组织分布式复杂计算提供了关键生物学依据。",
          "cover_url": "assets/covers/n17-theta-gamma-waves-5dc9b73b9d.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-28T16:16:23+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N16_Personality_Open_Text",
      "slug": "n16-personality-open-text",
      "detail_url": "papers/n16-personality-open-text/",
      "title": "Assessing personality using zero-shot generative AI scoring of brief open-ended text",
      "summary": "这篇论文问的是：传统人格测量是否必须依赖长问卷，还是可以直接从简短自由文本中稳定提取人格特征。作者评估了生成式 AI 在零样本条件下对开放文本做人格评分的能力。\n\n论文的新意在于把自然语言理解能力直接转化为心理测量工具，验证大模型在不经专门监督训练的情况下，是否已经能够从短文本中恢复大五人格等稳定特征。重点是“零样本评分是否成立”。\n\n这篇论文适合仓库的认知科学 / 心理测量主线，也能和更广义的 social cognition、computational psychiatry 方向形成连接。它代表一种新的心理学测量范式。\n\n它没有再升一级，是因为目前更像高质量方法验证和测量替代路线，而不是已经改写整个认知科学研究基础设施的成熟平台。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-01-30",
      "doi": "10.1038/s41562-025-02389-x",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 242,
      "source_url": "https://www.nature.com/articles/s41562-025-02389-x",
      "paper_url": "https://www.nature.com/articles/s41562-025-02389-x",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C2_QUASAR",
      "slug": "c2-quasar",
      "detail_url": "papers/c2-quasar/",
      "title": "QUASAR: A Universal Autonomous System for Atomistic Simulation and a Benchmark of Its Capabilities",
      "summary": "- 分级：`颠覆性`\n- 正式标题：`QUASAR: A Universal Autonomous System for Atomistic Simulation and a Benchmark of Its Capabilities`\n- 原文：`2026-01-30-C2_QUASAR-QUASAR_A_Universal_Autonomous_System_for_Atomistic_Simulation_and_a_Benchmark_of.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\nQUASAR 想解决的不是单个计算材料任务，而是整个原子尺度模拟工作流的自治编排问题。系统试图统一管理 DFT、机器学习势、分子动力学和 Monte Carlo 等不同工具链，并让代理在真实科研场景中完成规划、调用、错误恢复、上下文管理和知识检索。\n\n论文的关键点在于它把“科学代理”从 demo 级工具调用推进到 production-grade workflow orchestration，并给出分层 benchmark：从常规例行任务到接近前沿研究的复杂场景。这样它不只是一个系统论文，也是一套关于“自治计算化学应该如何评测”的主张。\n\n## 为什么重要\n\n在很多科学领域，真正昂贵的不是单步计算，而是跨工具链的组织成本。谁能把这一层稳定做起来，谁就更接近可部署的 AI scientist。\n\n## 局限\n\n此类系统通常容易在论文 demo 中显得很强，但在真实环境里会被软件报错、收敛失败、资源限制和环境差异拖垮。它最需要的是外部可重复验证。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-01-30",
      "doi": "",
      "arxiv_id": "2602.00185",
      "collected_at": "",
      "collection_order": 241,
      "source_url": "https://arxiv.org/pdf/2602.00185.pdf",
      "paper_url": "https://arxiv.org/pdf/2602.00185.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "阿德莱德大学发布QUASAR：攻克原子模拟跨尺度计算之墙，实现100%自主科学发现",
          "url": "https://www.bilibili.com/video/BV1HpcDzeEfN",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1HpcDzeEfN",
            "https://youtu.be/uJqCujNvQuA"
          ],
          "main_collection": "AI化学与材料",
          "match": "quasar a universal autonomous system for atomistic simulation and a benchmark of its capabilities",
          "description": "传统原子模拟在跨越量子力学到经典力学尺度时，面临复杂的软件栈切换与高额人工认知负荷。阿德莱德大学提出的QUASAR系统，通过大语言模型驱动的策略制定者、执行者与评估者三核架构，实现了100%自主的科研编排。该系统集成了动态规划、记忆压缩与混合知识检索技术，有效解决了模拟过程中的“沉默失败”与上下文过载问题。在涵盖光催化剂筛选等复杂任务的基准测试中，QUASAR证明了其无需硬编码即可完成从密度泛函理论到分子动力学的全链路跨尺度模拟，标志着计算化学向智能体化科学范式的转型。",
          "x_post": "阿德莱德大学发布 QUASAR：基于三智能体架构实现 100% 自主跨尺度原子模拟\n\n传统原子模拟在从量子力学到经典力学的尺度跨越中，长期面临复杂软件栈切换与高额人工认知负荷的“计算之墙”。\n\nQUASAR 系统通过 LLM 驱动的策略制定者、执行者与评估者三核架构，实现了 0 代码硬编码的自主科研编排。该系统集成动态双轨规划与渐进式混合知识检索机制，支持从密度泛函理论 (DFT) 到分子动力学 (MD) 的多物理场全链路覆盖。\n\n实验证明，通过 15 分钟周期的动态健康检查与记忆压缩技术，该系统在光催化剂筛选等复杂任务中实现了闭环推理与纠错。这一进展标志着计算化学正从手动流程转向由自主推理驱动的智能体化科学（Agentic Science）新范式。",
          "cover_url": "assets/covers/c2-quasar-2b14d2d0d7.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-13T18:21:00+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A172_ScholarPeer_Automated_Peer_Review",
      "slug": "a172-scholarpeer-automated-peer-review",
      "detail_url": "papers/a172-scholarpeer-automated-peer-review/",
      "title": "ScholarPeer: A Context-Aware Multi-Agent Framework for Automated Peer Review",
      "summary": "自动化 peer review 这些年已经从简单打分和摘要生成，推进到生成 structured feedback，但主流系统依然有一个根本缺陷：它们大多只看论文本身，不主动补齐领域背景、已有 baseline、相邻工作和 claim 的外部验证，因此很容易停留在 surface-level critique，难以真正判断 novelty、significance 和深层方法问题。\n\nScholarPeer 的关键推进，是把 automated review 改写成一个 context-aware multi-agent workflow。它不是单模型直接吐 review，而是用 historian agent 构造领域叙事、用 baseline scout 查缺漏、再用多方面 Q&A verification engine 对论文 claim 做主动核验，把 critique grounding 到 live web-scale literature 上。这个结构更接近资深研究者的工作方式，而不是闭卷式评论生成。\n\n它值得正式收录，因为这类工作对仓库关心的 agent-driven academic workflow 有明显的 durable value。它把 literature search、context building、claim verification 和 structured critique 组织成一条清晰的 agent pipeline，对自动科研助手、学术评审辅助、文献审查和 research ops 都有可复用外溢，不只是“自动写 review”这么窄。\n\n它暂时不升到更高一级，原因在于 automated peer review 仍是一个高度主观且制度依赖的场景，当前评估也主要建立在 DeepReview-13K 这类数据和 side-by-side 比较上。它很强，但距离成为更广科研工作流的默认基础设施，还需要更长期、更跨学科的稳定验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-30",
      "doi": "",
      "arxiv_id": "2601.22638",
      "collected_at": "",
      "collection_order": 240,
      "source_url": "https://arxiv.org/pdf/2601.22638.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.22638.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A144_BeSafe_Bench_Situated_Agent_Safety",
      "slug": "a144-besafe-bench-situated-agent-safety",
      "detail_url": "papers/a144-besafe-bench-situated-agent-safety/",
      "title": "BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments",
      "summary": "随着多模态 agents 开始在网页、移动端和具身环境中执行真实任务，安全评测不能再停留在低保真 API sandbox 或单一攻击脚本上。当前一个核心缺口是：缺少能够跨环境、跨交互形态衡量 situated agents 行为风险的 benchmark。\n\nBeSafe-Bench 的主要贡献是把 situated-agent safety 做成了更接近真实部署的评测对象。它覆盖 Web、Mobile、Embodied VLM 和 Embodied VLA 四类 functional environments，并把九类 safety-critical risk 注入任务指令空间，再结合规则检查和 LLM-as-a-judge 去评估真实环境后果。\n\n这使它具备了比单栈 red-teaming 更强的外溢性。对本仓库来说，它不是普通 benchmark 叠加，而是 agent safety 从单轮内容安全转向跨环境行为安全的一块更耐久的评测基座，能够和 computer-use、robotics、mobile agents 以及多代理系统的后续工作形成稳定接口。\n\n它目前仍是 benchmark 主导而非完整防御框架，而且生态影响还需要更多复用与复现来验证。因此给到 breakthrough 合理，但暂不升到更高等级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-30",
      "doi": "",
      "arxiv_id": "2603.25747",
      "collected_at": "",
      "collection_order": 239,
      "source_url": "https://arxiv.org/pdf/2603.25747v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.25747v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL2_Slow_Silicon_Fast_Robots",
      "slug": "rl2-slow-silicon-fast-robots",
      "detail_url": "papers/rl2-slow-silicon-fast-robots/",
      "title": "Training slow silicon neurons to control extremely fast robots with spiking reinforcement learning",
      "summary": "问题与背景：在极高速机器人控制场景中，传统数字控制与大模型推理往往受制于延迟和能耗。神经形态硬件提供了低功耗、事件驱动的替代路线，但如何让‘慢硅神经元’有效控制极快系统一直是挑战。\n\n方法/新意：论文将脉冲神经网络、神经形态处理器和强化学习联合设计，通过局部学习和硬件协同，让混合模拟/数字神经元系统直接承担实时控制任务。重点在于训练机制与硬件特性共同设计，而非简单把 RL 模型迁移到芯片上。\n\n意义/放在仓库中的位置：这篇工作处在 neuromorphic AI / embodied control / efficient RL 主线，是‘物理硬件与学习算法协同设计’的代表案例。它和 NeuroFEM、physical neural networks 综述、FlashAttention 这类系统层论文形成互补。\n\n局限/为何不再升一级：当前任务域仍然比较特定，尚未证明这种路径能广泛替代主流控制范式。影响主要集中在神经形态控制和硬件协同学习，而不是整个 RL 方法学。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-01-29",
      "doi": "",
      "arxiv_id": "2601.21548",
      "collected_at": "",
      "collection_order": 238,
      "source_url": "https://arxiv.org/pdf/2601.21548v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.21548v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "J6_Drive_JEPA",
      "slug": "j6-drive-jepa",
      "detail_url": "papers/j6-drive-jepa/",
      "title": "Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving",
      "summary": "**问题与背景**\n这篇论文围绕 autonomous driving / jepa / video world models 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优。\n\n**方法/新意**\n论文给出了相对完整的方法设计与实验验证，核心贡献在于提出一个可明确描述的新框架，并将其落到可复核的基准或任务上。相较于仅做经验叠加的工作，这类论文的价值在于能形成后续可复用的方法模块或分析视角。\n\n**意义/放在仓库中的位置**\n在本仓库里，这篇论文归到 `autonomous driving / jepa / video world models` 主线，定位为 `breakthrough`。它的意义在于推动该子方向往前走了一步，能够作为后续视频选题、主题综述和同类方法比较时的正式参考点。\n\n**局限/为何不再升一级**\n它还没有达到 `disruptive` 或 `paradigm` 的原因，是目前证据更多体现为强方法论文或强机制论文，而不是已经改写整条研究路线的系统级成果。除非后续被更大范围复现、 adopted 或验证为新标准范式，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "jepa_and_predictive_world_models",
      "theme_label": "JEPA 与预测式世界模型",
      "published_at": "2026-01-29",
      "doi": "",
      "arxiv_id": "2601.22032",
      "collected_at": "",
      "collection_order": 237,
      "source_url": "https://arxiv.org/pdf/2601.22032v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.22032v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "小鹏发布Drive-JEPA：引入多模态轨迹蒸馏，破解端到端驾驶中“唯一路径”的拟合悖论",
          "url": "https://www.bilibili.com/video/BV1oEQzBPEtS",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1oEQzBPEtS",
            "https://youtu.be/Xgvmqpq2VMs"
          ],
          "main_collection": "AI安全与对齐",
          "match": "drive jepa video jepa meets multimodal trajectory distillation for end to end driving",
          "description": "本视频深入解析小鹏汽车发布的Drive-JEPA研究成果。该方案针对端到端自动驾驶在复杂场景下单一轨迹拟合的局限性，提出了一种结合视频潜空间预训练与多模态轨迹蒸馏的新型框架。通过V-JEPA架构在海量无标注视频中学习预测性特征，模型成功绕过了像素重建的计算陷阱。同时，引入多模态轨迹蒸馏技术，从模拟器中提取多样化的安全路径作为监督信号，赋予系统处理驾驶多义性的能力。实验证明，该模型在NAVSIM基准测试中取得了89.0 PDMS的领先成绩，有效提升了复杂路口决策的灵活性与行驶平顺性。",
          "x_post": "小鹏汽车联合多所高校发布Drive-JEPA：引入多模态轨迹蒸馏与V-JEPA预训练，NAVSIM评分达89.0 PDMS\n\n当前端到端驾驶模型常受困于单一轨迹拟合悖论及像素级生成的高计算成本。Drive-JEPA提出结合自监督视频预训练与多模态轨迹蒸馏的新型架构。模型利用V-JEPA在208小时无标注视频上学习潜空间预测性特征，避免了冗余的像素重建。为应对驾驶决策的多义性，研究通过模拟器蒸馏出包含8192个聚类锚点的多模态轨迹监督信号，并引入动量感知模块优化行驶平顺性。实验表明，307M参数的Drive-JEPA在NAVSIM基准测试中取得89.0 PDMS，显著提升了复杂路口的决策灵活性。该工作证明了在连续空间中进行多模态知识蒸馏对端到端驾驶性能的增益。",
          "cover_url": "assets/covers/j6-drive-jepa-3b0f65ea40.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-22T13:25:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO7_Computational_Design_Metallohydrolases",
      "slug": "bio7-computational-design-metallohydrolases",
      "detail_url": "papers/bio7-computational-design-metallohydrolases/",
      "title": "Computational design of metallohydrolases",
      "summary": "问题与背景：金属水解酶能够催化生物体系中最困难的一类水解反应，但从头设计高活性金属酶一直非常困难，过去往往活性偏低、需要大量定向进化补救。论文聚焦的核心问题是：能否直接从计算设计出具有真实高催化效率的 metallohydrolases，而不是停留在概念验证层面。\n\n方法/新意：作者引入 RFdiffusion2，从量子化学推导的活性位几何出发进行催化位点支架化设计，不再要求先指定每个催化残基的序列位置和主链坐标。论文最强的部分不只是算法更新，而是把该设计流程真正用于锌依赖 metallohydrolases，并在实验上得到远高于既往设计结果的催化效率。\n\n意义/放在仓库中的位置：这篇工作适合放在 AI x biology / protein design 主线，而且是高位条目。它显示生成式结构设计已经不只是做结合蛋白或简单酶，而是开始进入复杂金属酶活性位设计，这对计算酶工程、环境降解催化及更广泛的功能蛋白设计都有明显外溢性。\n\n局限/为何不再升一级：它已经是很强的颠覆性工作，但是否达到更高一级，还取决于这种设计范式在更广酶类和更复杂反应上的可扩展性，以及社区是否将其视为新的默认设计路径。目前更稳妥的定位仍是颠覆性。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-01-29",
      "doi": "10.1038/s41586-025-09746-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 236,
      "source_url": "https://www.nature.com/articles/s41586-025-09746-w",
      "paper_url": "https://www.nature.com/articles/s41586-025-09746-w",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "华盛顿大学用 AI 打造效率暴涨千倍的超级催化酶：RFdiffusion2 刷新蛋白质设计纪录",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "computational design of metallohydrolases",
          "description": "华盛顿大学用 AI 打造效率暴涨千倍的超级催化酶：RFdiffusion2 刷新蛋白质设计纪录\n\n这篇论文介绍了一种名为 RFdiffusion2 的新型生成式人工智能方法，旨在从头设计高效的金属水解酶。研究人员利用量子化学计算确定的活性位点几何结构作为起点，通过该模型直接生成能够精准定位催化残基和金属辅助因子的蛋白质支架。实验结果显示，该方法在无需人工干预的情况下成功创造出了具有极高催化活性的锌金属酶，其效率远超以往的设计水平。这种技术突破了传统设计中必须预设序列位置和主链坐标的限制，极大地扩展了功能蛋白质的设计空间。通过结合 PLACER 等深度学习工具对活性位点预组织进行评估，科学家们证明了通过计算机直接生成高性能生物催化剂的可行性。这项研究为降解环境污染物和开发新型工业催化剂开辟了高度自动化的全新路径。",
          "x_post": "华盛顿大学用 AI 打造效率暴涨千倍的超级催化酶：RFdiffusion2 刷新蛋白质设计纪录\n这篇论文介绍了一种名为 RFdiffusion2 的新型生成式人工智能方法，旨在从头设计高效的金属水解酶。研究人员利用量子化学计算确定的活性位点几何结构作为起点，通过该模型直接生成能够精准定位催化残基和金属辅助因子的蛋白质支架。实验结果显示，该方法在无需人工干预的情况下成功创造出了具有极高催化活性的锌金属酶，其效率远超以往的设计水平。这种技术突破了传统设计中必须预设序列位置和主链坐标的限制，极大地扩展了功能蛋白质的设计空间。通过结合 PLACER 等深度学习工具对活性位点预组...\n视频中给出方法细节、关键指标和适用边界，方便快速判断其工程与研究价值。",
          "cover_url": "assets/covers/bio7-computational-design-metallohydrolases-dd6c98d4f4.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-18T19:52:06+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO4_Gengram_Genomic_FM",
      "slug": "bio4-gengram-genomic-fm",
      "detail_url": "papers/bio4-gengram-genomic-fm/",
      "title": "Beyond Conditional Computation: Retrieval-Augmented Genomic Foundation Models with Gengram",
      "summary": "问题与背景：现有 genomic foundation models 主要依赖单核苷酸输入上的大规模神经计算去隐式学习生物 motif，但这种做法在效率和显式结构利用上都有明显限制。\n\n方法/新意：Gengram 提出 retrieval-augmented genomic foundation model 思路，通过面向基因组多碱基 motif 的显式检索模块，把‘语法级’结构直接接到基础模型主干上。重点是把 motif lookup 变成第一类操作，而不是完全让网络自己逼近。\n\n意义/放在仓库中的位置：这篇工作位于 genomics foundation model 主线，属于‘把检索增强从语言转移到生物序列’的代表作。它和 AlphaGenome、ELISA、LUMI-lab 一起构成当前 AI x 生物的强一线。\n\n局限/为何不再升一级：目前仍是 arXiv 阶段，且影响面主要在基因组序列建模。它是很强的结构增强方法，但还未形成更大范围的范式改写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-01-29",
      "doi": "",
      "arxiv_id": "2601.22203",
      "collected_at": "",
      "collection_order": 235,
      "source_url": "https://arxiv.org/pdf/2601.22203v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.22203v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A46_DynamicVLA_Dynamic_Manipulation",
      "slug": "a46-dynamicvla-dynamic-manipulation",
      "detail_url": "papers/a46-dynamicvla-dynamic-manipulation/",
      "title": "DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation",
      "summary": "这篇论文针对 VLA 在一个真实短板上的失效展开：静态操控上已经能做得不错，但一旦对象本身在运动，模型就需要更低时延的感知、更强的时间推理以及连续闭环控制能力，原有静态范式往往会失效。DynamicVLA 直接把目标放在 dynamic object manipulation，而不是继续在静态场景里刷泛化。\n\n论文给出的核心设计有三块：一是更轻量的 0.4B VLA 主干，使用卷积式视觉编码器来降低时空编码成本；二是 Continuous Inference，让推理与执行可以重叠进行，减少控制链时延；三是 Latent-aware Action Streaming，通过对齐潜变量与动作流，把感知和执行之间的时间落差压小。除此之外，论文还补了一个关键缺口：从零构建 Dynamic Object Manipulation（DOM）benchmark，为这类任务提供专门的数据与评测基础。\n\n它值得收录，因为这不是普通机器人 VLA 变体，而是明确切中一个静态 VLA 到真实世界部署之间的关键断层。动态物体操控需要的不是单次视觉理解，而是持续感知、持续推理和连续控制的组合。DynamicVLA 同时提出了模型结构、推理执行耦合方式和数据基准三方面方案，对具身智能和 real-time manipulation 路线都有明显外溢价值。\n\n它没有升到更高一级，原因在于当前仍是一条很强的任务导向方法路线，而不是已经重排整个 VLA 主干或 embodied foundation model 框架的工作。它解决的是重要缺口，但还没有证明自己会成为这类系统的默认基础架构，因此以 breakthrough 收录更稳。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-29",
      "doi": "",
      "arxiv_id": "2601.22153",
      "collected_at": "",
      "collection_order": 234,
      "source_url": "https://arxiv.org/pdf/2601.22153v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.22153v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "刷新机器人动态操作成功率：DynamicVLA用LAAS机制与闭环架构，解决物理世界的时空错位",
          "url": "https://www.bilibili.com/video/BV1PsAHz4EoT",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1PsAHz4EoT",
            "https://youtu.be/e2_SM6LtsiI"
          ],
          "main_collection": "机器人与具身智能",
          "match": "dynamicvla a vision language action model for dynamic object manipulation",
          "description": "本视频介绍南洋理工大学S-Lab提出的DynamicVLA框架，旨在解决具身智能在动态环境下“感知-执行脱节”的核心难题。传统VLA模型受限于串行控制流与高推理延迟，难以捕捉移动物体。DynamicVLA采用0.4B参数量的极简架构，集成FastViT与SmolLM2，实现了88Hz的极速推理。通过引入延迟感知动作流机制与连续推理技术，该模型实现了推理与执行的完全解耦，显著降低了物理世界的时空错位。研究团队同步发布了包含20万虚拟及2千真实场景的DOM基准测试集。实验证明，该模型在未知运动模式的泛化与实时闭环控制方面表现优异，为机器人复杂物理交互提供了有效方案。",
          "x_post": "南洋理工大学 S-Lab 发布 DynamicVLA：0.4B 参数架构实现 88Hz 推理，解决动态操作时空错位\n针对传统 VLA 模型在动态抓取中存在的“感知-执行脱节”与高延迟瓶颈，本研究提出了一种视觉-语言-动作统一框架。核心通过集成 FastViT 与 SmolLM2 构建极简架构，并引入连续推理机制与延迟感知动作流（LAAS）以解耦推理与执行流程。实验结果显示，该模型推理频率达到 88Hz，显存占用仅 1.8GB，在包含 20 万虚拟及 2 千真实场景的 DOM 基准测试中表现优异。DynamicVLA 在处理未知运动模式时展现出显著的泛化能力与闭环控制精度，为解决物理交互中的时空错位提供了可核验的有效方案。",
          "cover_url": "assets/covers/a46-dynamicvla-dynamic-manipulation-0a02b31c6b.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-19T12:06:25+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A1_FrontierScience",
      "slug": "a1-frontierscience",
      "detail_url": "papers/a1-frontierscience/",
      "title": "FRONTIERSCIENCE: Evaluating AI's Ability to Perform Scientific Research Tasks",
      "summary": "- 分级：`突破性`\n- 正式标题：`FRONTIERSCIENCE: Evaluating AI's Ability to Perform Scientific Research Tasks`\n- 原文：`2026-01-29-A1_FrontierScience-FRONTIERSCIENCE_Evaluating_AI_s_Ability_to_Perform_Scientific_Research_Tasks.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇工作的核心贡献不是提出一个更强模型，而是提出一个更像“真实科学工作”的评测框架。FrontierScience 分成两条轨道：`Olympiad` 聚焦高难度短程科学推理，`Research` 聚焦更接近博士级科研子任务的开放式推理，并在后者中引入细粒度 rubric，对检索、分解、推理与论证过程进行评分，而不是只看最终答案。\n\n论文最有价值的地方在于，它显式回避了传统科学 benchmark 的两个老问题：一是题目过于接近已公开知识，二是分数主要反映“会不会答题”，而不反映“会不会做研究”。作者报告 GPT-5.2 在 Olympiad 轨道上达到 77%，在 Research 轨道上达到 25%，说明当前前沿模型在研究型任务上仍明显落后于其在竞赛式题目上的表现。\n\n## 为什么重要\n\n它很可能成为后续“科研代理”路线的北极星评测。只要社区逐渐接受这种评测方式，模型训练目标就会从“答得像”转向“研究过程是否可检验、可拆解、可追责”。\n\n## 局限\n\n最大限制仍然是专家命题和 rubric 标注的高成本。Research 轨道的可重复判分、一致性和长期扩展能力，仍需要时间验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-29",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 233,
      "source_url": "https://cdn.openai.com/pdf/2fcd284c-b468-4c21-8ee0-7a783933efcc/frontierscience-paper.pdf",
      "paper_url": "https://cdn.openai.com/pdf/2fcd284c-b468-4c21-8ee0-7a783933efcc/frontierscience-paper.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "108枚奥赛奖牌得主的残酷围猎：FrontierScience以博士级科研深度，揭示大模型推理能力的真实断层",
          "url": "https://www.bilibili.com/video/BV1LKDLBwEXF",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1LKDLBwEXF",
            "https://youtu.be/5eVG_ZRF_Pc"
          ],
          "main_collection": "AI物理与科学计算",
          "match": "frontierscience evaluating ai s ability to perform scientific research tasks",
          "description": "OpenAI 发布全新基准测试 FrontierScience，旨在评估 AI 在专家级科学推理中的表现。该基准包含由 108 位奥赛奖牌得主编写的竞赛轨道，以及 45 位博士设计的科研实战轨道，有效填补了现有评测逐渐饱和的空白。研究引入了基于评分细则的 AI 评判架构，确保对开放式任务的评估具备客观性。实验数据显示，尽管 GPT-5.2 在竞赛题目中表现出色，但在处理复杂的长链条科研实际问题时准确率仅约 25%，揭示了大模型在通向人工智能科学家路径上依然面临严峻的推理瓶颈。",
          "x_post": "OpenAI发布FrontierScience基准：GPQA已达92%饱和，GPT-5.2科研实战准确率仅25%。\n随着传统科学基准性能触顶，OpenAI推出FrontierScience以评估模型在专家级科研任务中的真实边界。\n该基准由108位奥赛奖牌得主与45位博士协同构建，分为竞赛级Olympiad与博士级Research双赛道。\n评估体系采用基于颗粒化量规（Rubric）的AI评议架构，重点考察开放式、长链条的复杂推理过程。\n实验表明，顶级模型虽在Olympiad题目中达77%准确率，但在实际科研子任务中仅表现出25%的有效性。\n这一断层数据量化了当前大模型在处理未定义、非闭环科学问题时的推理局限性。",
          "cover_url": "assets/covers/a1-frontierscience-e4015e8978.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-05T09:30:57+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL57_Visual_Tactile_Dexterity",
      "slug": "rl57-visual-tactile-dexterity",
      "detail_url": "papers/rl57-visual-tactile-dexterity/",
      "title": "Visual-tactile pretraining and online multitask learning for humanlike manipulation dexterity",
      "summary": "问题与背景：类人多指灵巧操作需要高维动作协调、复杂接触动力学和遮挡下的稳定感知，传统模型控制和纯 RL 都面临样本效率与泛化困难。\n\n方法与机制：论文采用两阶段学习框架，先从人类示范中以自监督方式学习视觉-触觉融合表征，再通过强化学习与在线模仿学习训练统一多任务策略。系统只使用单目图像和简单二值触觉信号。\n\n为什么重要：这是 Science Robotics 的强机器人学习论文，贡献在于把 visual-tactile pretraining、online multitask learning 和低成本感知结合到真实多指灵巧操作系统。它对具身智能、触觉融合和长程操作策略训练有可复用价值。\n\n局限：实验集中在特定多指手平台、五类复杂任务和相似协调模式的未见任务，离开放世界灵巧操作和通用 VLA 机器人还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-01-28",
      "doi": "10.1126/scirobotics.ady2869",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 232,
      "source_url": "https://doi.org/10.1126/scirobotics.ady2869",
      "paper_url": "https://doi.org/10.1126/scirobotics.ady2869",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "LS1_AlphaGenome",
      "slug": "ls1-alphagenome",
      "detail_url": "papers/ls1-alphagenome/",
      "title": "Advancing regulatory variant effect prediction with AlphaGenome",
      "summary": "- 分级：`颠覆性`\n- 正式标题：`Advancing regulatory variant effect prediction with AlphaGenome`\n- 原文：`2026-01-28-LS1_AlphaGenome-Advancing_regulatory_variant_effect_prediction_with_AlphaGenome.html`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\nAlphaGenome 的核心突破，在于把以往碎片化的“一个任务一个基因组模型”整合成统一的序列到功能基础模型。它一次输入 1 Mb DNA 序列，能在单碱基分辨率上同时预测表达、转录起始、染色质可及性、组蛋白修饰、转录因子结合、染色质接触图以及剪接等多种模态，并覆盖 5,930 个人类轨迹和 1,128 个小鼠轨迹。论文报告它在 26 项变异效应评测中匹配或超过现有最强外部模型中的 25 项。\n\n这不是单一指标的提升，而是把“非编码调控变异解释”从多个割裂模型拼装，推进到一个统一底座上。更关键的是，作者展示它能同时跨模态给出变异效应评分，并较准确地重建临床相关致病机制，例如 TAL1 附近非编码变异的调控作用。这使它开始接近真正的“调控基因组基础模型”。\n\n## 为什么重要\n\n如果 AlphaFold 重塑了静态结构预测，AlphaGenome 代表的是对“暗基因组”调控逻辑的系统级推进。它对疾病机制解析、变异致病性评估、合成调控元件设计和下游实验优先级排序都可能产生平台级影响。\n\n## 局限\n\n它仍然主要是预测模型，不等于完整因果证明。对跨个体、跨环境和更复杂多组学条件下的泛化边界，仍需要更严格的外部验证。当前目录里保留的是 Nature 正文 HTML，未保留完整 PDF。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "life_science_foundation_models",
      "theme_label": "生命科学基础模型",
      "published_at": "2026-01-28",
      "doi": "10.1038/s41586-025-10014-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 231,
      "source_url": "https://www.nature.com/articles/s41586-025-10014-0",
      "paper_url": "https://www.nature.com/articles/s41586-025-10014-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "横扫25项SOTA任务：AlphaGenome凭借H100算力实现单秒级全模态变异分析",
          "url": "https://www.bilibili.com/video/BV1cNwczdEjX",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1cNwczdEjX",
            "https://youtu.be/Fp2P2rGLawU"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "advancing regulatory variant effect prediction with alphagenome",
          "description": "针对基因组深度学习模型在长序列上下文与单碱基分辨率之间的权衡难题，Google DeepMind 推出 AlphaGenome 模型。该模型采用 U-Net 与 Transformer 融合架构，支持 1 Mb 上下文输入，可同步预测 11 种生物学模态。通过引入教师模型知识蒸馏方案，AlphaGenome 在 H100 GPU 上实现了单秒级的预测效率。实验表明，其在 26 项变异效应预测任务中取得 25 项 SOTA，能够精准解析剪接变异及 eQTL 效应。研究进一步通过 TAL1 致癌基因等案例证明了其在理解非编码区变异与临床性状关联中的科研价值。",
          "x_post": "Google DeepMind 发布 AlphaGenome：在 25/26 项变异效应预测任务中获 SOTA，支持 1 Mb 超长序列分析\n针对基因组建模中长上下文与单碱基分辨率难以兼顾的挑战，AlphaGenome 采用 U-Net 与 Transformer 融合架构，可同步预测 11 种生物学模态。\n通过教师模型知识蒸馏方案，该模型在 H100 GPU 上实现了单变异全模态预测耗时不足 1 秒，显著提升了大规模变异效应解析的计算效率。\n实验评估显示，模型在 26 项变异预测任务中取得 25 项最优性能，能够精准定位 DLG1 外显子跳跃等剪接变异并捕捉 eQTL 效应。\n该研究为解析非编码区变异对临床性状的影响提供了统一且高精度的计算框架，在 DNase 轨道预测中相关系数达到 0.74。",
          "cover_url": "assets/covers/ls1-alphagenome-48f6f8edaf.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-11T21:02:33+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW28_Veri_Sure_RTL_Verification",
      "slug": "hw28-veri-sure-rtl-verification",
      "detail_url": "papers/hw28-veri-sure-rtl-verification/",
      "title": "Veri-Sure: A Contract-Aware Multi-Agent Framework with Temporal Tracing and Formal Verification for Correct RTL Code Generation",
      "summary": "这篇论文针对 LLM 生成 RTL/Verilog 代码时最关键的可靠性缺口：仅靠语法检查或有限 testbench 仿真，很难保证时序语义、协议边界和局部修复后的不回归。作者把 RTL 代码生成重构为一个带共享设计契约、时序追踪、局部补丁和形式化验证的多代理闭环，而不是普通的单次生成或反复全文件重写。\n\n方法上，Veri-Sure 先由 architect agent 将自然语言规格转为结构化 design contract，再由 generator / verifier / debugger 等代理围绕同一契约协作。失败时，系统用波形追踪和静态依赖切片定位可疑逻辑，只对局部片段打补丁；同时引入 assertion-based checking 和 Boolean equivalence proof，让反馈不只来自有限仿真样例。\n\n论文还提出 VerilogEval-v2-EXT，在原 VerilogEval-v2 基础上补充 53 个更接近工业 RTL 的任务，并按难度分层。实验显示，在该扩展基准上，Veri-Sure with GPT-5.2 的整体 functional Pass@1 达到 93.30%，hard subset 达到 85.07%，明显高于 standalone GPT-5.2 和单代理 simulator feedback；消融也表明 tracing/slicing/patching 与 formal verification 是主要增益来源。\n\n它值得正式收录，因为它体现了 AI-for-hardware 工作流的一条可复用模式：让 agentic code generation 受共享契约、可定位修复和形式化工具共同约束，而不是只追求生成模型本身更强。局限是验证仍在公开扩展基准和作者框架内完成，依赖强闭源模型作为主要上限，距离真实工业 SoC 流水线的端到端采用还有距离，因此定为 breakthrough 而不是 disruptive。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2026-01-27",
      "doi": "",
      "arxiv_id": "2601.19747",
      "collected_at": "",
      "collection_order": 230,
      "source_url": "https://arxiv.org/pdf/2601.19747.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.19747.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "EN1_OptAgent_Building_Operations",
      "slug": "en1-optagent-building-operations",
      "detail_url": "papers/en1-optagent-building-operations/",
      "title": "OptAgent: an Agentic AI framework for Intelligent Building Operations",
      "summary": "这篇论文针对 building operations 里长期存在的一个瓶颈：楼宇节能、热舒适、HVAC 控制、分布式能源和需求响应虽然都能用数字孪生与优化工具建模，但实际 workflow 仍高度依赖人工工程师逐步拼接模型、脚本和分析流程，难以规模化部署。作者明确把问题从单点预测或单次控制器设计，提升为一个可持续运行的 building-energy operations workflow。\n\nOptAgent 的核心是一个 physics-informed machine learning digital environment，加上由 11 个 specialist agents 和 72 个 MCP tools 组成的 agentic layer。前者覆盖 building thermal dynamics、HVAC 和 DER，后者负责多步能源分析、控制评估和 orchestration。它不只是对现有 building simulator 套一层 LLM，而是把 physics-consistent environment、tool graph 和 orchestrator-specialist coordination 明确组织成端到端执行框架，并给出约 4000 次 benchmark 评估其 accuracy、token、time 和 cost。\n\n这项工作值得正式收录，因为它把 AI 在 building operations 中的角色从分析助手推进到真正可复用的 agentic operations pattern。对仓库来说，这篇论文代表了一个很清晰的方向：当 AI 进入能源和基础设施系统时，关键不是再做一个负荷预测器，而是把 digital twin、tooling、控制评估和多步决策统一成 scalable workflow。它对 building energy、grid-interactive operations 和 infrastructure AI 都有明显外溢。\n\n它暂时还不到更高一级，原因是当前证据仍主要集中在 building-energy 场景和作者构造的 benchmark 框架，距离证明这会成为更广泛基础设施 AI 的默认蓝图还有距离。它的系统设计很扎实，但跨城市基础设施、跨真实部署和跨组织复用性还需要更多验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "energy_water_and_infrastructure_systems",
      "theme_label": "能源、水与基础设施",
      "published_at": "2026-01-27",
      "doi": "",
      "arxiv_id": "2601.20005",
      "collected_at": "",
      "collection_order": 229,
      "source_url": "https://arxiv.org/pdf/2601.20005.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.20005.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A15_Counterfactual_Intent_Control",
      "slug": "a15-counterfactual-intent-control",
      "detail_url": "papers/a15-counterfactual-intent-control/",
      "title": "Should I Have Expressed a Different Intent? Counterfactual Generation for LLM-Based Autonomous Control",
      "summary": "这篇论文要解决的是 LLM 智能体控制中的反事实解释问题。传统 agent 往往只能给出一次规划与执行结果，但用户在看到执行后，常常真正关心的是：如果当时表达的目标略有不同，系统会不会做出完全不同的决策。这篇论文把这个问题提升到可计算、可校准的层面。\n\n方法上，作者把用户、LLM 代理和环境的闭环交互建模为结构因果模型，然后结合 test-time scaling 去生成多个候选反事实轨迹，再通过离线校准给出带覆盖保证的 counterfactual outcome sets。新意不在于再做一个 agent，而在于让 agentic control 的反事实分析有了形式保证。\n\n它的重要性在于，这类工作让智能体系统不再只有“做什么”，而开始回答“如果换一种意图会怎样”。这对自主控制、可解释人机交互、以及高风险环境下的事后分析都很关键。放在仓库里，它属于 agent / world model / causal control 交叉线上的高质量补链论文。\n\n我把它放在“突破性”。原因是问题抓得很对，方法也比一般 counterfactual prompt work 更扎实，但它仍然是一个相对专门的 agentic control 方向成果，距离更高一级的范式改写还有明显距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-27",
      "doi": "",
      "arxiv_id": "2601.20090",
      "collected_at": "",
      "collection_order": 228,
      "source_url": "https://arxiv.org/pdf/2601.20090.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.20090.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "给大模型一颗“后悔药”：精准预测指令变更后的真实后果，双核框架让自主控制系统学会反思",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "should i have expressed a different intent counterfactual generation for llm based autonomous control",
          "description": "该研究针对大模型驱动的自主控制系统在指令变更后难以预测真实后果的难题，提出了一种名为符合性反事实生成（CCG）的创新框架。系统利用结构因果模型模拟用户意图与物理环境的复杂交互，通过溯因推理精准捕获环境中的“隐藏指纹”，解决了传统模拟方案失真度高且干扰物理系统的问题。核心技术包含反事实生成引擎与基于数学保证的校准护盾，确保生成的预测报告具备统计学置信度。在5G网络控制场景的实验证明，该方法能让系统在不重启环境的情况下精准反思决策，显著提升了Agent系统的安全性与透明度。",
          "x_post": "论文提出符合性反事实生成（CCG）框架，为 LLM 自主控制系统提供具备统计置信度的假设性预测能力\n\n背景：LLM 驱动的自主 Agent 在物理系统执行任务后，面临如何在不重启环境的前提下评估指令变更后果的困境。该研究旨在通过反事实推理增强系统的可靠性与透明度。\n核心：构建基于结构因果模型（SCM）的双核框架，利用溯因推理与神经后验估计（NPE）捕获物理环境的“隐藏指纹”，并引入符合性预测技术构建校准护盾，为生成报告提供统计学置信度保证。\n证据：在 5G 网络控制实验中，CCG 框架通过 Gumbel-Max 动作重构确保逻辑一致性。相比传统直接干预或简单模拟方案，该方法在实现物理系统零干扰的同时，生成的反事实报告更具参考价值且执行效率更高。\n结论：实验证明该框架能在无需重启物理环境的情况下精准推演“如果”情景，显著提升了 Agent 系统的安全性与决策透明度。",
          "cover_url": "assets/covers/a15-counterfactual-intent-control-8cb11ae51a.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-02T10:24:32+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T23_Beyond_Magnitude_RLVR_Updates",
      "slug": "t23-beyond-magnitude-rlvr-updates",
      "detail_url": "papers/t23-beyond-magnitude-rlvr-updates/",
      "title": "Beyond Magnitude: Leveraging Direction of RLVR Updates",
      "summary": "围绕 RLVR 是否真的提升推理能力，很多讨论只看性能曲线或更新幅度，却很少真正分析更新里什么成分在起作用。这篇工作把注意力从 update magnitude 转向 update direction，试图解释 RLVR 到底向模型里注入了什么有效结构。\n\n论文的核心判断是：更新方向比更新大小更能揭示 RLVR 的有效知识增量，并据此提出 test-time extrapolation 与 training-time reweighting 之类的利用方式，把这种方向性信号转化为更稳的优化与泛化收益。它因此不只是分析论文，而是在训练和推理层都给出可操作干预。\n\n它对仓库的意义在于，这类工作正好位于 reasoning、RL post-training 和 model-update geometry 的交叉点。相比只报分数，它更接近解释 RLVR 机制并提炼 reusable signal，这类澄清对后续 reasoning 训练路线有实际影响。\n\n它目前仍不到更高一级，因为证据主要集中在 RLVR 这一特定训练范式和一组实验设置里；它像一篇很强的机制澄清与实用修正论文，但还没扩散成更广泛的训练理论基石。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-01-26",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 227,
      "source_url": "https://openreview.net/pdf/2c899712b304399bcc482637c9e8318b7b65f19a.pdf",
      "paper_url": "https://openreview.net/pdf/2c899712b304399bcc482637c9e8318b7b65f19a.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N104_Dynamic_MoE_Brain_Video_Understanding",
      "slug": "n104-dynamic-moe-brain-video-understanding",
      "detail_url": "papers/n104-dynamic-moe-brain-video-understanding/",
      "title": "The Human Brain as a Dynamic Mixture of Expert Models in Video Understanding",
      "summary": "这篇 ICLR 2026 论文把 NeuroAI 的 model-brain alignment 从静态图像和 fMRI 扩展到动态视频 EEG，并系统比较 100+ 个视频/视觉模型。\n\n方法上，作者提出 Cross-Temporal RSA，用时间展开的模型特征去匹配不断演化的 EEG 响应，形成大规模动态对齐评测，而不是只问某个模型和脑活动总体相似不相似。\n\n关键发现是，不同脑区和时间段偏好的模型能力不同：后部电极更贴近具有时间整合的中层动作特征，额叶更贴近高层静态动作表征，state-space/video temporal integration 和自监督预训练对部分后部活动更有利。\n\n它值得正式收录，因为它提供了 AI 视频模型和人脑动态视觉处理之间的可复用评测接口，并把单一最佳模型的假设改写成动态 expert switching，这对视频模型架构、MoE/路由、时序表征学习和 NeuroAI 都有明确外溢。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-01-26",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 226,
      "source_url": "https://openreview.net/pdf?id=bSsNSfyj8m",
      "paper_url": "https://openreview.net/pdf?id=bSsNSfyj8m",
      "project_urls": [
        "https://iclr.cc/virtual/2026/poster/10008608"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "EN6_VissimRL_Traffic_Control",
      "slug": "en6-vissimrl-traffic-control",
      "detail_url": "papers/en6-vissimrl-traffic-control/",
      "title": "VissimRL: A Multi-Agent Reinforcement Learning Framework for Traffic Signal Control Based on Vissim",
      "summary": "城市交通信号控制一直是强化学习的重要应用方向，但真实工程侧常用的高保真仿真器 Vissim 因接口复杂、训练环境不统一，长期没有形成可复用的 RL 工作流。这导致学术侧大量结果停留在 SUMO 或 CityFlow，而很难往更接近实际部署的环境迁移。\n\nVissimRL 的核心贡献是把 Vissim 的 COM 接口封装成一个高层 Python API，并提供标准化的单智能体与多智能体训练环境。这样做并不是简单写一层适配器，而是把 agent training、环境定义、实验复现和多交叉口协同控制放进统一框架，显著降低了在工业级仿真器上开展 RL 研究的门槛。\n\n对这个仓库来说，这篇论文的价值在于 workflow pattern。它把高保真交通仿真和多智能体 RL 之间的断层补上，使交通控制从 benchmark-driven 研究更容易进入 operational study。即便它局限在交通信号控制，这种 simulator-to-RL bridge 仍然是值得正式收录的系统型贡献。\n\n它没有再往上升一级，因为问题域仍然比较专门，且证据主要来自仿真环境而不是大规模真实部署。它更像一个耐用的研究与工程基础设施条目，而不是重排整个城市运营 AI 路线的作品。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "energy_water_and_infrastructure_systems",
      "theme_label": "能源、水与基础设施",
      "published_at": "2026-01-26",
      "doi": "",
      "arxiv_id": "2601.18284",
      "collected_at": "",
      "collection_order": 225,
      "source_url": "https://arxiv.org/pdf/2601.18284.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.18284.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "面对千亿级全球拥堵困局，VissimRL模块化框架让多智能体算法在工业场景中无缝部署",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "vissimrl a multi agent reinforcement learning framework for traffic signal control based on vissim",
          "description": "针对全球交通拥堵带来的经济与环境挑战，城市信号控制的智能化转型至关重要。传统高精度仿真软件Vissim因其COM接口极其复杂，导致AI算法开发门槛高、环境适配困难。本项目推出开源框架VissimRL，通过Python API深度封装底层逻辑，提供标准化的Gymnasium与PettingZoo接口。实验数据表明，该框架在维持工业级仿真精度的前提下，将环境交互代码量缩减了84.5%，并利用底层缓存机制提升了14%的运行吞吐量。VissimRL支持主流多智能体强化学习库，有效解决了学术研究与工业级交通仿真应用之间的断层问题。",
          "x_post": "国立阳明交通大学团队发布 VissimRL 框架，实现工业级仿真代码量缩减 84.5% 与性能 14% 提升\n针对全球交通拥堵带来的高昂经济成本，交通信号控制（TSC）的智能化转型受限于工业级仿真软件 Vissim 极复杂的 COM 接口。VissimRL 框架通过 Python API 深度封装了 4,164 个底层属性，并提供标准化的 Gymnasium 与 PettingZoo 接口。\n实验数据显示，该框架将环境交互代码量从 207 行锐减至 32 行，并利用批处理与缓存机制使运行吞吐量提升 14.0%，单步延迟降低 12.3%。\n作为开源模块化工具，VissimRL 显著降低了多智能体强化学习算法在工业级高保真场景中的开发门槛，弥合了学术算法与实际交通工程应用之间的技术断层。",
          "cover_url": "assets/covers/en6-vissimrl-traffic-control-903cbbfcc4.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-26T10:45:35+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "EN5_Transport_Adaptation_RL",
      "slug": "en5-transport-adaptation-rl",
      "detail_url": "papers/en5-transport-adaptation-rl/",
      "title": "Learning long term climate-resilient transport adaptation pathways under direct and indirect flood impacts using reinforcement learning",
      "summary": "这篇论文处理的是城市交通基础设施在长期气候风险下如何做顺序式适应决策。传统做法通常把气候适应视为静态情景分析或一次性优化，但真正的投资、维护与防灾策略是跨几十年的连续决策问题，而且要同时面对降雨强化、洪涝传播、服务中断和社会成本的不确定性。\n\n作者提出一个通用决策支持框架，把综合评估模型与强化学习耦合起来。系统先把气候情景映射为极端天气驱动，再映射为洪涝概率、交通基础设施影响和社会损失，最后在强化学习回路中学习跨时间的投资与维护路径。论文以哥本哈根市中心 2024 到 2100 年的暴雨洪涝适应为例，给出空间—时间联动的策略。\n\n这项工作的价值不在某个单点预测模型，而在于把基础设施适应规划重构成可持续更新的 sequential policy learning workflow。对这个仓库而言，它属于 AI 进入能源、水系统与城市基础设施操作闭环的一类强条目，证明 RL 可以直接服务长期气候适应规划，而不仅是短时控制。\n\n它暂时还不是更高一级，因为证据仍集中在单一城市和单类灾害情景，且当前阶段仍是 arXiv 预印本。若后续在更多城市、更多风险类型和更强基线下验证，它的参考地位会进一步上升。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "energy_water_and_infrastructure_systems",
      "theme_label": "能源、水与基础设施",
      "published_at": "2026-01-26",
      "doi": "",
      "arxiv_id": "2601.18586",
      "collected_at": "",
      "collection_order": 224,
      "source_url": "https://arxiv.org/pdf/2601.18586.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.18586.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "告别8亿欧元降雨代价：基于GNN的自适应路径规划，让城市交通在极端洪涝中持续运转",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "learning long term climate resilient transport adaptation pathways under direct and indirect flood impacts using reinforcement learning",
          "description": "针对气候变化导致的极端降水频率增加及城市交通瘫痪风险，本研究提出了一种耦合集成评估模型（IAM）与强化学习（RL）的决策支持框架。该框架利用图神经网络（GNN）的空间感知能力，对哥本哈根29个交通分配区进行高精度建模，模拟从降水到内涝及路网延误的动态演化过程。系统在2024年至2100年的超长周期内，通过智能体学习如何在八种干预措施（如蓄水池、透水材料）间进行最优权衡。实验证明，该方法能有效降低潜在经济损失，并在深度不确定性情景下表现出极强的决策稳健性，为多十年维度的城市防灾规划提供了科学依据。",
          "x_post": "DTU与TUM等团队开发基于GNN的强化学习框架，优化2024-2100年城市交通对极端洪涝的气候韧性\n针对气候变化导致的城市交通瘫痪风险，本研究以哥本哈根为案例，探讨应对历史性（如8.05亿欧元损失）及未来极端降水的策略。研究耦合集成评估模型（IAM）与强化学习（RL），利用图神经网络的空间感知能力，对29个交通分配区进行高精度建模。智能体在长达76年的周期内，从蓄水池、透水材料等8类干预措施中学习最优投资路径，动态权衡基建成本与灾害损失。实验结果证实，该框架在多种气候情景下均表现出较强的决策稳健性，为多十年维度的城市防灾规划提供了科学可核验的工具。",
          "cover_url": "assets/covers/en5-transport-adaptation-rl-20bd04c6f7.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-25T17:56:48+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A142_AgentDoG_Agent_Safety_Guardrails",
      "slug": "a142-agentdog-agent-safety-guardrails",
      "detail_url": "papers/a142-agentdog-agent-safety-guardrails/",
      "title": "AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security",
      "summary": "随着 AI agents 获得更强的工具调用和环境交互能力，安全失败不再只是单轮输出失误，而是会沿着完整轨迹累积并最终转化为真实行动风险。现有 guardrail 往往只给出二元拦截判断，缺少对 agentic 风险的细粒度刻画，也缺少对失败根因的诊断能力。\n\nAgentDoG 的核心贡献是把 agent safety 做成一个可复用的结构化框架：先提出按风险来源、失败方式和后果组织的三维 taxonomy，再据此构造细粒度 benchmark，并在运行时对 agent trajectory 做带上下文的诊断式监控。它不仅判断是否不安全，还尝试定位问题发生在何处、如何发生、会造成什么后果。\n\n这使它不只是又一个安全分类器，而更像 agent safety 的统一诊断接口。对本仓库来说，它属于能够外溢到工具代理、电脑操作代理和多代理系统的 reusable evaluation-and-guardrail pattern，和我们关注的 permissioning、trajectory evaluation、execution governance 是同一主线。\n\n它目前仍主要是安全治理层和评测层的推进，而不是对 agent 基础范式的重写；同时其影响力和跨生态验证还没有达到更高等级。因此正式收录没有问题，但当前更合理的层级仍是 breakthrough。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-26",
      "doi": "",
      "arxiv_id": "2601.18491",
      "collected_at": "",
      "collection_order": 223,
      "source_url": "https://arxiv.org/pdf/2601.18491v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.18491v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "护航大模型向自主智能体跃迁：AgentDoG全轨迹监控，攻克非确定性环境的安全黑盒",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "agentdog a diagnostic guardrail framework for ai agent safety and security",
          "description": "针对大语言模型向自主智能体跃迁过程中，因工具调用和环境交互产生的安全“黑盒”问题，本研究提出了AgentDoG诊断性防护框架。该框架突破传统的二元分类模式，通过构建包含风险来源、失效模式及现实危害的三维正交分类体系，实现对智能体执行轨迹的细粒度监控与可解释性归因。配套发布的ATBench基准测试集验证了其在识别恶意指令注入与越权操作方面的优越性能。AgentDoG能有效诊断不安全行为的根源，为实现高可靠的智能体对齐提供了全链条监控方案，目前相关代码与数据已开源。",
          "x_post": "研究团队发布 AgentDoG 诊断性防护框架，通过三维正交分类体系实现智能体全轨迹安全监控\n针对大语言模型向自主智能体演进过程中，因工具调用和环境交互带来的非确定性风险，传统的二元安全拦截已难以满足防护需求。AgentDoG 框架构建了涵盖风险来源、失效模式与现实危害的三维正交分类体系，实现了对智能体执行轨迹的细粒度监控与可解释性溯源。实验结果显示，该框架在配套的 ATBench 基准测试中，识别恶意指令注入与越权操作的性能达到行业领先水平。AgentDoG 不仅能拦截风险，更能通过诊断模块定位不安全行为的根源，为实现高可靠的智能体对齐提供了全链条方案。目前，相关模型参数、源代码及数据集已向社区全面开源。",
          "cover_url": "assets/covers/a142-agentdog-agent-safety-guardrails-3d649b69f0.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-05T17:38:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N55_Cerebellar_Language_Network",
      "slug": "n55-cerebellar-language-network",
      "detail_url": "papers/n55-cerebellar-language-network/",
      "title": "The cerebellar components of the human language network",
      "summary": "问题与背景：语言网络通常主要被定位在大脑皮层，尤其是左半球额颞区域，而小脑在语言处理中的角色长期存在争议。作者要解决的问题是：小脑里是否存在可被系统识别的语言网络成分，以及这些成分与经典皮层语言网络之间究竟是什么关系。\n\n方法/新意：论文结合多项功能成像与功能连接分析，在个体层面刻画小脑语言响应区域，并将其与新皮层语言网络进行对照。关键贡献不是泛泛声称“小脑也参与语言”，而是更细致地提出小脑中存在多个成分，其中至少一个在语义加工上与皮层语言网络高度镜像，其余成分则更可能承担跨系统整合功能。\n\n意义/放在仓库中的位置：这篇论文适合放在认知科学主线中的语言神经科学方向。它的价值在于把语言网络从传统皮层视角扩展到更完整的脑级网络框架，为理解语义处理、语言网络组织及小脑在高级认知中的作用提供了更扎实的证据。\n\n局限/为何不再升一级：尽管问题重要、证据也较完整，但它的影响主要仍集中在语言神经科学和脑网络组织这一子领域，尚未形成更广泛的方法或范式级外溢，因此更稳妥地定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-01-22",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 222,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12642429/",
      "paper_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12642429/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A231_TTT_Discover_Test_Time_Science",
      "slug": "a231-ttt-discover-test-time-science",
      "detail_url": "papers/a231-ttt-discover-test-time-science/",
      "title": "Learning to Discover at Test Time",
      "summary": "这篇论文把 test-time scaling 从 frozen-model prompting/search 推进到 test-time reinforcement learning：模型在单个待解问题上继续训练，以发现更优解。它对本仓库的价值在于重新定义了 inference-time adaptation 的目标：不是泛化到很多问题，而是为当前问题找到一个最优结果。\n\nTTT-Discover 将在线 RL 与搜索子程序结合，面向连续可验证 reward 的科学和工程问题运行，包括数学构造、GPU kernel 优化、AtCoder heuristic competition 以及 single-cell RNA-seq denoising。项目还公开代码和可核验结果，降低了与 AlphaEvolve 类封闭系统相比的复现实验门槛。\n\n它值得正式收录，是因为它提供了 AI scientist / test-time learning 的关键操作模式：冻结参数之外，还可以在推理期为具体任务进行局部训练。这对科学发现、算法工程、kernel search 和可验证优化问题都有明显可复用价值。\n\n它没有升到 paradigm，是因为该方法目前强依赖可计算 reward、较小任务成本、可接受的在线训练预算和特定任务选择。开放式理论发现、长程实验设计和高噪声现实科学问题是否同样适用仍需验证。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-22",
      "doi": "",
      "arxiv_id": "2601.16175",
      "collected_at": "",
      "collection_order": 221,
      "source_url": "https://arxiv.org/pdf/2601.16175.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.16175.pdf",
      "project_urls": [
        "https://test-time-training.github.io/discover/"
      ],
      "repo_urls": [
        "https://github.com/test-time-training/ttt-discover"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A230_Theorizer_Scientific_Theory_Generation",
      "slug": "a230-theorizer-scientific-theory-generation",
      "detail_url": "papers/a230-theorizer-scientific-theory-generation/",
      "title": "Generating Literature-Driven Scientific Theories at Scale",
      "summary": "这篇论文把 AI for science 的目标从自动实验推进到自动理论生成：系统不是只总结论文，而是从大规模文献中抽取证据并合成带有 law、scope、evidence 的可测试理论。对于本仓库，它的重要性在于提出了一个可复用的 literature-to-theory workflow，而不只是一个文献综述工具。\n\nTheorizer 的流程包括文献发现、结构化证据抽取、理论合成与自反思精炼，并用 13.7k 篇来源论文生成约 2.9k 条理论。论文还通过 backtesting 评估这些理论对后续论文结果的预测性，给出了比纯参数记忆生成更好的 specificity、empirical support 和 predictive accuracy。\n\n它值得正式收录，是因为它明确提出了科学发现 agent 中尚未充分系统化的层级：从论文集合压缩出可检验理论。这种模式对 AI scientist、自动化科研工作流、文献驱动假设生成和理论审计都有外溢价值，且 Ai2 同时开放了代码和样例理论数据。\n\n它没有升到 paradigm，是因为当前输出仍是 hypothesis 而非可靠科学定律，评估依赖 LLM-as-judge 和文献回测，领域覆盖也更适合 AI/NLP 这种开放论文密集场景。它是强范式候选，但仍需更多跨学科和人工实验验证。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-22",
      "doi": "",
      "arxiv_id": "2601.16282",
      "collected_at": "",
      "collection_order": 220,
      "source_url": "https://arxiv.org/pdf/2601.16282.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.16282.pdf",
      "project_urls": [
        "https://allenai.org/blog/theorizer"
      ],
      "repo_urls": [
        "https://github.com/allenai/asta-theorizer"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N57_Dynamic_Context_Object_Representations",
      "slug": "n57-dynamic-context-object-representations",
      "detail_url": "papers/n57-dynamic-context-object-representations/",
      "title": "Dynamic context–based updating of object representations in the visual cortex",
      "summary": "问题与背景：视觉系统并不是被动编码物体本身，而会结合场景上下文持续更新对象表征。作者关注的核心问题是：当场景结构和视角动态变化时，视觉皮层中的对象表征是否会被上下文实时重写，以及这种更新能否跨视角保持一致。\n\n方法/新意：论文通过行为与脑成像实验，考察由场景上下文驱动的对象取向预期如何改变视觉皮层中的对象表征。关键新意在于，不只是研究静态遮挡或局部补全，而是把对象表征的动态更新放到更真实的三维场景与视角变化中检验，显示视觉皮层会根据场景旋转和上下文结构动态调整对象的神经表示。\n\n意义/放在仓库中的位置：这篇论文适合放在认知科学主线中的视觉认知与场景理解方向。它的重要性在于把 predictive processing、object representation 和 structured scene understanding 连接起来，对理解视觉系统如何利用上下文进行动态推断很有价值，也与仓库中视觉皮层建模、语义表征和任务表征条目形成互补。\n\n局限/为何不再升一级：这篇工作的影响主要集中在视觉认知和对象-场景关系表征子领域，虽然机制清楚、实验扎实，但外溢性还没有扩展到更广义的认知架构或通用世界模型层面，因此更稳妥地定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-01-21",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 219,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12822648/",
      "paper_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12822648/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N22_Pictorial_Cortex",
      "slug": "n22-pictorial-cortex",
      "detail_url": "papers/n22-pictorial-cortex/",
      "title": "The Pictorial Cortex: Zero-Shot Cross-Subject fMRI-to-Image Reconstruction via Compositional Latent Modeling",
      "summary": "**问题与背景**\n这篇论文围绕 fmri decoding / image reconstruction / brain-computer interfaces 展开，目标是解决该方向里已经明确存在、但仍未被主流方法稳定解决的核心问题。按当前仓库标准，它属于值得正式收录的新作，因为问题本身有持续研究价值，且不是单纯的数据集刷分或局部工程调优。\n\n**方法/新意**\n论文给出了相对完整的方法设计与实验验证，核心贡献在于提出一个可明确描述的新框架，并将其落到可复核的基准或任务上。相较于仅做经验叠加的工作，这类论文的价值在于能形成后续可复用的方法模块或分析视角。\n\n**意义/放在仓库中的位置**\n在本仓库里，这篇论文归到 `fmri decoding / image reconstruction / brain-computer interfaces` 主线，定位为 `breakthrough`。它的意义在于推动该子方向往前走了一步，能够作为后续视频选题、主题综述和同类方法比较时的正式参考点。\n\n**局限/为何不再升一级**\n它还没有达到 `disruptive` 或 `paradigm` 的原因，是目前证据更多体现为强方法论文或强机制论文，而不是已经改写整条研究路线的系统级成果。除非后续被更大范围复现、 adopted 或验证为新标准范式，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-01-21",
      "doi": "",
      "arxiv_id": "2601.15071",
      "collected_at": "",
      "collection_order": 218,
      "source_url": "https://arxiv.org/pdf/2601.15071v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.15071v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "复旦南洋理工读心术突破：无需训练，Pictorial Cortex实现零样本图像重建",
          "url": "https://www.bilibili.com/video/BV1Sz9dBrEX9",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Sz9dBrEX9",
            "https://youtu.be/eJIghCehiRU"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "the pictorial cortex zero shot cross subject fmri to image reconstruction via compositional latent modeling",
          "description": "复旦大学、浙江师范大学与南洋理工大学团队针对神经科学与人工智能交叉领域的“视觉解码”展开研究。由于不同个体的脑皮层反应存在显著差异，零样本跨主体视觉解码一直是该领域的痛点。团队提出 PictorialCortex 框架，依托 12.7 亿参数的通用脑语基座，通过组合潜在建模将复杂的脑活动解耦为刺激驱动、主体特征等多个维度。这种方法无需针对新个体进行数小时的专属数据训练，即可在从未见过的测试者身上实现高精度的图像合成。实验结果显示其质量与鲁棒性均达到行业领先水平，为通用脑机接口与实时神经解码的发展提供了重要支持与边界探索。",
          "x_post": "复旦与南洋理工团队发布 PictorialCortex：利用 12.7 亿参数基座实现零样本 fMRI 图像重建\n针对跨主体脑皮层反应差异导致的解码难题，本研究提出了零样本（Zero-Shot）视觉重建框架。\n核心在于构建了包含 12.7 亿参数的通用脑语自编码器，通过组合潜在建模将信号解耦为视觉内容、主体特征与随机噪声。\n该框架基于 UK Biobank 的 25 万次扫描数据进行训练，无需针对新测试者进行专属数据校准即可完成高精度图像合成。\n实验结果显示该方法在处理未见主体时具有显著的重建质量与鲁棒性，为通用型脑机接口与实时神经解码探索了关键的技术边界。",
          "cover_url": "assets/covers/n22-pictorial-cortex-ec59e756ee.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-02T10:23:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM67_HERMES_Streaming_Video_KV_Memory",
      "slug": "mm67-hermes-streaming-video-kv-memory",
      "detail_url": "papers/mm67-hermes-streaming-video-kv-memory/",
      "title": "HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding",
      "summary": "HERMES 针对多模态大模型从离线视频理解走向 streaming video understanding 的核心矛盾：需要稳定理解、实时响应和低 GPU memory overhead，但常规长视频处理会随着帧数增长导致 TTFT 和显存不可控。\n\n论文基于 layer-wise attention preference 的机制观察，把 KV cache 重新定义为包含多粒度视频信息的 hierarchical memory，而不是一次性缓存或简单 token eviction。\n\n推理时 HERMES 复用 compact KV cache，并用分层管理策略保留不同粒度视频 token；用户查询到达时不需要额外 retrieval 或外部 memory computation，从而保证连续视频流交互的实时响应。\n\n它值得正式收录，因为它把 streaming video MLLM 的效率问题转化为 KV-cache-as-memory 的系统接口，连接长视频理解、实时多模态交互、KV cache 管理和训练无关部署优化。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-01-21",
      "doi": "",
      "arxiv_id": "2601.14724",
      "collected_at": "",
      "collection_order": 217,
      "source_url": "https://arxiv.org/pdf/2601.14724v4",
      "paper_url": "https://arxiv.org/pdf/2601.14724v4",
      "project_urls": [
        "https://hermes-streaming.github.io/"
      ],
      "repo_urls": [
        "https://github.com/haowei-freesky/HERMES"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G2_Anatomically_Guided_Latent_Diffusion",
      "slug": "g2-anatomically-guided-latent-diffusion",
      "detail_url": "papers/g2-anatomically-guided-latent-diffusion/",
      "title": "Anatomically Guided Latent Diffusion for Brain MRI Progression Modeling",
      "summary": "问题与背景：脑 MRI 纵向进展建模对神经退行性疾病理解和个体化预测很重要，但现有方法往往结构复杂，条件注入不足，且难以保证生成结果的解剖一致性。\n\n方法/新意：这篇工作用 anatomically guided latent diffusion 建模脑 MRI 进展，在 latent 生成过程中显式引入解剖先验，而不是单靠后验约束去修正。目标是同时提升条件一致性、解剖合理性和长期进展建模能力。\n\n意义/放在仓库中的位置：它属于生成式医学影像主线，和 BrainIAC、Prima、SleepFM 形成互补：前者做表征和基础模型，这篇更偏纵向生成和疾病演化模拟。生成式领域既已纳入正式主线，这篇值得收。\n\n局限/为何不再升一级：目前还是 arXiv 论文，应用场景集中在脑 MRI progression。它更像强方法论文，而不是会统一重排医学影像生成路线的工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2026-01-21",
      "doi": "",
      "arxiv_id": "2601.14584",
      "collected_at": "",
      "collection_order": 216,
      "source_url": "https://arxiv.org/pdf/2601.14584v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.14584v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C20_CatMaster_Computational_Catalysis",
      "slug": "c20-catmaster-computational-catalysis",
      "detail_url": "papers/c20-catmaster-computational-catalysis/",
      "title": "Autonomous Computational Catalysis Research via Agentic Systems",
      "summary": "这篇论文针对的是 AI for science 里一个很硬的未闭合问题：现有系统通常只能自动化科研流程中的一个局部环节，但还做不到在单一架构下贯通课题设定、文献分析、原子级模拟、机器学习建模、机理发现和论文成稿。作者把场景收敛到 computational catalysis，直接测试 agent 是否能在一个高复杂度科学子领域里承担真正的研究流程而不是只做工具调用。\n\n论文提出的 CatMaster 是一个 catalysis-native 多代理系统，把 project-level reasoning 和 atomistic simulations、ML modelling、literature analysis、manuscript production 接成统一执行框架。它不是把若干脚本包起来，而是在一个研究 runtime 内部把任务分解、工具执行、证据回流和阶段性产出整合起来，并在短流程任务、MatBench、反应机理自发现和单原子催化剂闭环设计上给出分层评测。\n\n这篇值得正式收录，因为它把“科学代理”从抽象口号压到一个可判定的工作流蓝图上：什么算 end-to-end scientific execution，科研 agent 该如何接物理引擎和领域验证，以及什么样的评测才足以证明它不只是文献总结器。对仓库里的 AI for science agents 主线，它补的是从 benchmark/runtime 到真实 scientific campaign 的中间层。\n\n它目前仍然不是更高一级，因为证据主要来自 arXiv 预印本和作者体系内评测，领域范围也主要集中在 computational catalysis。论文自己也明确承认，距离真正的 scientific closure 还需要更可靠的 physical engines 和更严格的 domain methodology，因此它更适合定为一篇强的 workflow breakthrough，而不是更高层级的范式改写。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-01-20",
      "doi": "",
      "arxiv_id": "2601.13508",
      "collected_at": "",
      "collection_order": 215,
      "source_url": "https://arxiv.org/pdf/2601.13508.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.13508.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "清华发布催化研究智能体：人工智能迈向自主研究，实现从灵感到论文的科研全链路闭环",
          "url": "https://www.bilibili.com/video/BV1KWDsBrEtn",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1KWDsBrEtn",
            "https://youtu.be/BdeK0c6lCi8"
          ],
          "main_collection": "AI递归自我进化",
          "match": "autonomous computational catalysis research via agentic systems",
          "description": "本视频介绍清华大学开发的CatMaster自主计算催化智能体框架。针对当前AI科研工具碎片化、需人工介入的痛点，该系统采用多智能体协作架构，整合文献解析、原子模拟及机器学习建模，实现了从研究设想到论文撰写的全链路自动化。实验数据表明，CatMaster在MatBench多项任务中达到顶级水平，并成功完成单原子催化剂的闭环设计。尽管该系统在处理底层物理引擎失效及底层算法原始创新方面仍存局限，但其标志着科学发现正从单点工具辅助向系统性自主研究转型。",
          "x_post": "清华大学发布 CatMaster 自主计算催化智能体：实现科研全链路闭环，MatBench 两项任务排名第一\n\n针对当前 AI 科研工具碎片化、需频繁人工介入的痛点，该研究提出了 CatMaster 框架。系统通过解耦智能体决策、工具扩展与物理执行层，实现了从文献分析、原子模拟到论文撰写的全研究生命周期自动化。\n\n实验数据显示，CatMaster 在 MatBench 的 jdft2d (33.09 meV/atom) 与金属预测任务中均斩获第一。在主流模型支持下，该系统实现了 100% 的端到端任务达成率，并成功自主探索 41 种反应态网络及单原子催化剂的闭环设计。\n\n该工作标志着科学发现正从单点工具辅助向系统性自主研究转型。研究同时指出，该系统在处理底层物理引擎失效及底层算法原始创新方面仍存在一定局限性。",
          "cover_url": "assets/covers/c20-catmaster-computational-catalysis-48336ad337.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-09T06:00:16+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO5_BioPathNet_Biomedical_KG",
      "slug": "bio5-biopathnet-biomedical-kg",
      "detail_url": "papers/bio5-biopathnet-biomedical-kg/",
      "title": "Enhancing link prediction in biomedical knowledge graphs with BioPathNet",
      "summary": "问题与背景：生物医学知识图谱的链路预测直接关系到药物重定位、基因功能注释和合成致死发现，但传统基于节点嵌入的方法对多跳关系和路径语义建模不足，可解释性也有限。\n\n方法/新意：BioPathNet 以 neural Bellman-Ford network 为基础，用路径级推理替代单点嵌入匹配，并引入背景调控图和严格负采样来提升精度与可扩展性。它不仅预测边是否存在，还能回溯哪些路径在驱动预测。\n\n意义/放在仓库中的位置：这篇论文属于 AI-enabled biomedicine / knowledge graph reasoning 主线。它代表了一类从表示学习转向路径推理的生物医学知识图谱方法，对药物和功能基因组学都有明显外溢价值。\n\n局限/为何不再升一级：它仍属于明确任务边界内的方法论文，外溢主要集中在 biomedical KG 和 link prediction，而不是重排更广泛 AI 或生物学研究范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-01-20",
      "doi": "10.1038/s41551-025-01598-z",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 214,
      "source_url": "https://doi.org/10.1038/s41551-025-01598-z",
      "paper_url": "https://doi.org/10.1038/s41551-025-01598-z",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C1_MOSAIC",
      "slug": "c1-mosaic",
      "detail_url": "papers/c1-mosaic/",
      "title": "Collective intelligence for AI-assisted chemical synthesis",
      "summary": "- 分级：`颠覆性`\n- 正式标题：`Collective intelligence for AI-assisted chemical synthesis`\n- 原文：`2026-01-19-C1_MOSAIC-Collective_intelligence_for_AI_assisted_chemical_synthesis.html`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\nMOSAIC 的目标不是预测一个反应产物，而是生成真正可执行的实验协议。论文把分散在海量反应流程中的知识组织成“多专家集体智能”框架，用来输出可复现、可执行、且附带置信度的化学合成方案。作者强调系统建立在数百万 reaction protocols 的集体知识之上，而不是只做语言表面上的模板匹配。\n\n论文里最关键的结果，是实验验证展示了超过 35 个新化合物的实现，覆盖药物、材料和农化等多个方向。这说明它的价值已经从“AI 会不会写 protocol”推进到“AI 写出的 protocol 能不能真的做出来”。\n\n## 为什么重要\n\n化学自动化真正稀缺的往往不是反应式，而是步骤顺序、条件选择、后处理和失败恢复。MOSAIC 处理的是实验知识最昂贵、最难结构化的部分，因此平台效应很强。\n\n## 局限\n\n这类系统极易受到文献偏倚和专利表达风格影响。高置信不等于高成功率，落地时仍然必须保留人工审核和实验安全门槛。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-01-19",
      "doi": "10.1038/s41586-026-10131-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 213,
      "source_url": "https://www.nature.com/articles/s41586-026-10131-4.pdf",
      "paper_url": "https://www.nature.com/articles/s41586-026-10131-4.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "71%真实实验成功率：MOSAIC打通计算与合成边界，成功交付35种医药级新化合物",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "mosaic 化学 collective intelligence for ai assisted chemical synthesis",
          "description": "针对通用大模型在化学合成中缺乏精确计量与实验协议的问题，耶鲁大学与勃林格殷格翰联合开发了MOSAIC框架。该系统基于Llama-3.1架构，通过KMN网络将分子指纹转化为高维向量，并利用FAISS算法划分出2498个专家领域空间，实现了高精度的反应预测。实验数据显示，8B参数规模的MOSAIC在真实实验室环境下的综合成功率达71%，已成功交付35种医药级新化合物，其预测性能显著超越了千亿级参数的通用模型。研究证明，这种分布式专家架构能有效降低计算成本，并具备发现全新反应方法的潜力，为药物研发与材料科学的数字化转型提供了可扩展策略。",
          "x_post": "耶鲁大学与勃林格殷格翰发布MOSAIC：8B参数模型实现71%实验成功率并交付35种新化合物\n面对指数级增长的化学反应数据及通用大模型在精确实验协议上的局限，研究团队开发了分布式专家架构框架MOSAIC。该系统通过KMN网络将分子指纹映射为128维向量，并利用FAISS算法划分为2,498个专项领域专家空间。实验验证显示，MOSAIC在试剂匹配成功率上达94.8%，在12项复杂反应基准测试中的得分优于GPT-4o与Claude 3.5。目前该框架已成功交付35种医药级新化合物，证明了通过小规模专精模型降低计算成本并驱动数字化合成转型的可行性。",
          "cover_url": "assets/covers/c1-mosaic-f2ae851bfb.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-11T21:02:39+08:00"
        },
        {
          "title": "80亿参数超越千亿巨头：MOSAIC构建2498名虚拟专家，重塑AI化学合成范式",
          "url": "https://www.bilibili.com/video/BV1NLczzzEfG",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1NLczzzEfG",
            "https://youtu.be/2_zxOEkSYEM"
          ],
          "main_collection": "AI化学与材料",
          "match": "mosaic 化学 collective intelligence for ai assisted chemical synthesis",
          "description": "针对科学文献激增与传统大模型化学幻觉问题，耶鲁大学研究团队提出了MOSAIC框架。该系统基于Llama-3.1-8B架构，通过将化学空间映射为128维向量并利用FAISS相似度检索，构建了由2498个LoRA微调专家组成的集体智慧网络。实验数据显示，MOSAIC在化学合成预测中的综合匹配成功率达94.8%，在小规模参数下性能显著优于GPT-4o与Claude 3.5。目前，该系统已在药物、材料等领域成功验证了35种新化合物的合成路径，并具备发现训练集外零样本反应的潜力，为化学实验室的数字化转型提供了高精度且低成本的可扩展策略。",
          "x_post": "耶鲁大学团队发布 MOSAIC 框架：利用 2498 名虚拟专家实现 94.8% 化学合成匹配成功率\n针对科学文献激增与通用大模型在化学领域存在的“幻觉”问题，研究团队基于 Llama-3.1-8B 构建了去中心化专家网络。该系统将化学反应空间映射为 128 维向量，通过 FAISS 检索将特定合成任务精确路由至 LoRA 微调专家。\n实验数据表明，MOSAIC 的综合匹配成功率达 94.8%，在 8B 参数规模下，其预测精度显著优于 GPT-4o 与 Claude 3.5 等超大规模模型。在实证环节，该框架指导合成了 35 种新化合物，其中 35/37 个分子为首次尝试即成功，整体实验成功率达 71%。\n研究证明，通过深度化学定制的专家协作范式，小型模型可有效处理复杂科学预测任务，为化学实验室数字化转型及零样本反应发现提供了低成本、可扩展的计算策略。",
          "cover_url": "assets/covers/c1-mosaic-b8613eec06.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-12T07:20:34+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A143_MirrorGuard_Secure_Computer_Use_Agents",
      "slug": "a143-mirrorguard-secure-computer-use-agents",
      "detail_url": "papers/a143-mirrorguard-secure-computer-use-agents/",
      "title": "MirrorGuard: Toward Secure Computer-Use Agents via Simulation-to-Real Reasoning Correction",
      "summary": "Computer-use agents 把视觉理解、界面操作和系统权限直接连在一起，风险比普通聊天模型高得多。单纯依赖检测后拒绝的防御虽然能阻断部分攻击，但会明显牺牲任务完成率，也无法真正提升 agent 在高风险 GUI 场景中的决策能力。\n\nMirrorGuard 提出的关键思路是用 simulation-to-real 的方式训练安全修正能力。它构建神经符号的文本化 GUI 模拟流水线，合成高风险交互轨迹，再用这些轨迹去纠正真实环境中的不安全 reasoning，从而把安全改进从“检测并终止”推进到“学习如何在危险界面里继续正确完成任务”。\n\n这条路线对仓库很有价值，因为它给 computer-use safety 提供了一个比 detector patch 更耐久的训练模式。它可以和我们已经收录的 prompt injection、role confusion、misaligned action detection、permissioning 等工作形成互补，代表了一条更接近系统训练与部署的安全方法。\n\n它的边界在于，目前证据仍主要集中在 computer-use / GUI agent 这一子线，还没有证明能广泛外推到所有 agent 系统；同时它更像强方法而不是完整安全蓝图。所以正式收录为 breakthrough 合理，但暂不升更高。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-19",
      "doi": "",
      "arxiv_id": "2601.12822",
      "collected_at": "",
      "collection_order": 212,
      "source_url": "https://arxiv.org/pdf/2601.12822v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.12822v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R12_PaST_Skill_Transfer_Adaptation",
      "slug": "r12-past-skill-transfer-adaptation",
      "detail_url": "papers/r12-past-skill-transfer-adaptation/",
      "title": "Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation",
      "summary": "这篇论文讨论的是 continual adaptation 中一个常见但经常被混淆的问题：模型通过 SFT 学到新知识，并不等于它具备了有效使用这些知识的能力。对本仓库来说，它切中的不是普通微调，而是测试后更新、技能注入和 parameter-efficient adaptation 之间的接口问题。\n\n作者提出 Parametric Skill Transfer（PaST），核心观察是 SFT 更新和 RL 更新在参数空间中几乎正交。基于这个现象，论文把 RL 获得的 knowledge-manipulation skill 抽成一个可转移的 Skill Vector，再把它线性注入目标模型，从而在轻量知识更新之后补上真正的使用能力。\n\n它值得收录，因为这不是常规 LoRA 配方微调，而是把 adaptation 拆成“知识写入”和“技能注入”两个阶段，给 continual learning、tool use 和 post-training 提供了更模块化的设计思路。对本仓库新增的 LoRA/PEFT/test-time 关注范围来说，这是一篇过线的结构性论文。\n\n它没有升到更高等级，是因为虽然设计思路清晰且有跨任务收益，但现阶段仍然更像一个高质量 adaptation interface，而不是全面改写 continual learning 主流范式的条目。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2026-01-16",
      "doi": "",
      "arxiv_id": "2601.11258",
      "collected_at": "",
      "collection_order": 211,
      "source_url": "https://arxiv.org/pdf/2601.11258.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.11258.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "北京大学联合BIGAI注入思维血清，解决大模型死记硬背，实现知识与逻辑同步更新",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "knowledge is not enough injecting rl skills for continual adaptation",
          "description": "北京大学与北京通用人工智能研究院（BIGAI）合作提出“思维血清”技术。针对大模型在吸收新知识时“空有记忆、缺乏逻辑”的痛点，研究团队发现模型在知识获取（SFT）与技能磨练（RL）中的参数更新具有空间正交性。据此开发的PaST框架能将通用技能向量提取并直接注入目标模型，无需昂贵的强化学习过程，即可显著提升模型在复杂问答、长文本理解及工具调用等任务中的推理稳健性。该研究通过参数层面的“手术式”协作，实现了知识与逻辑的高效同步更新，为大模型的低成本持续进化提供了新路径。",
          "x_post": "北京大学联合BIGAI提出PaST框架，利用参数空间正交性实现RL技能向SFT模型的免训练注入。\n研究背景：LLM在通过SFT获取新知识时常面临“有记忆无逻辑”的脱节，且在线RL存在极高的交互成本与低探索效率。\n核心方法：实证数据发现SFT与RL的权重更新在各层级几乎不重叠。PaST据此从源领域提取通用技能向量，通过参数级协作将其直接注入目标模型。\n关键表现：实验证明该方案显著提升了模型在工具调用、复杂问答中的推理稳健性，有效抑制了因环境报错引发的逻辑崩溃与幻觉。\n研究结论：知识与技能在参数高维流形中占据互不干扰的独立子空间，这一发现为大模型在低成本下实现知识与逻辑同步更新提供了新路径。",
          "cover_url": "assets/covers/r12-past-skill-transfer-adaptation-d48cd43a3f.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-16T10:02:44+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P7_Momentum_Conserving_PIGNN",
      "slug": "p7-momentum-conserving-pignn",
      "detail_url": "papers/p7-momentum-conserving-pignn/",
      "title": "A physics-informed graph neural network conserving linear and angular momentum for dynamical systems",
      "summary": "这篇论文讨论如何让图神经网络在学习多体动力系统时不仅预测得准，而且在物理上自洽。很多 learned simulator 在短期误差上能做得不错，但一旦长时间 rollout 或遇到分布外情况，常常会违反守恒律，导致轨迹漂移。作者针对这个问题提出了一个同时守恒线动量和角动量的 physics-informed GNN。\n\n方法上，论文提出 `Dynami-CAL GraphNet`。核心思想是在边局部参考系下对相互作用进行建模，使每一对节点之间的作用都满足成对的动量守恒约束，同时保持旋转等变、平移不变和节点置换等变。这样网络输出不只是下一步状态，还能给出具有物理意义的边级线性和角动量冲量，因此比常规黑箱 GNN 更可解释。\n\n实验集中在 3D 颗粒系统和非弹性碰撞场景。论文报告该方法在长 rollout 中误差累积更稳定，对未见配置、异质交互和外力条件的外推更强。它的意义不只是精度提升，而是把“守恒律”从后验校正变成网络结构本身的一部分。对于机器人、航空、材料和多体物理模拟，这类设计比单纯追求局部预测误差更有长期价值。\n\n在仓库分级里，这篇属于 AI×物理方向的强论文，适合放在突破性层级。它还不到范式级，但已经明显超过普通的 physics-informed GNN 应用工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-01-15",
      "doi": "10.1038/s41467-025-67802-5",
      "arxiv_id": "2501.07373",
      "collected_at": "",
      "collection_order": 210,
      "source_url": "https://www.nature.com/articles/s41467-025-67802-5",
      "paper_url": "https://www.nature.com/articles/s41467-025-67802-5 ; https://arxiv.org/pdf/2501.07373.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "将牛顿定律刻入网络DNA，Dynami-CAL彻底解决物理模拟漂移，实现线与角动量绝对守恒",
          "url": "https://www.bilibili.com/video/BV1Vt9kBkEC8",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Vt9kBkEC8",
            "https://youtu.be/OzBKjMHGPmU"
          ],
          "main_collection": "AI物理",
          "match": "a physics informed graph neural network conserving linear and angular momentum for dynamical systems",
          "description": "Dynami-CAL GraphNet研发团队针对复杂多体动力学建模领域，提出了一种新型物理启发式图神经网络。针对传统数据驱动模型在长时模拟中极易发生物理崩溃与误差累积的痛点，该研究将牛顿第三定律与动量守恒直接刻入网络架构，利用独特的边局部参考系实现六自由度动力学追踪。实验证明，该方法在颗粒碰撞、人体动捕及蛋白质动力学测试中展现出卓越的泛化能力，且长时预测误差显著低于GNS等现有基准模型。这为机器人控制、航空航天及生命科学研究提供了既符合物理规律又能实时推演的高精度建模方案。",
          "x_post": "Dynami-CAL团队提出物理启发式图神经网络，实现多体动力学动量绝对守恒与长时稳定模拟\n针对多体动力学建模中传统数值模拟计算量大、纯数据驱动AI由于物理常识缺失导致长时预测崩溃的痛点，研究团队开发了Dynami-CAL GraphNet。该模型在架构设计中直接刻入牛顿第三定律，利用边局部参考框架与时空消息传递机制，确保线动量与角动量的严苛守恒。在颗粒碰撞、人体动捕及蛋白质动力学等多项基准测试中，Dynami-CAL实现了六自由度（6-DoF）的精准追踪。对比GNS和EGNN等基准模型，其在长时模拟中表现出更低的误差累积与更强的边界外推能力。这一方案为机器人控制、航空航天及生命科学等领域提供了具备物理一致性的实时动力学建模新路径。",
          "cover_url": "assets/covers/p7-momentum-conserving-pignn-63f3e008d1.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-28T17:54:44+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A2_ML_Master_2_0",
      "slug": "a2-ml-master-2-0",
      "detail_url": "papers/a2-ml-master-2-0/",
      "title": "Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering",
      "summary": "- 分级：`颠覆性`\n- 正式标题：`Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering`\n- 原文：`2026-01-15-A2_ML_Master_2_0-Toward_Ultra_Long_Horizon_Agentic_Science_Cognitive_Accumulation_for_Machine_Lea.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文瞄准的是科研代理最难的一类问题：不是单次推理，而是长时间、多轮试错、跨任务复用的持续研究。作者提出“认知累积”框架，把科研代理的上下文管理从简单的对话拼接，升级为分层缓存和长期经验沉淀。核心思想是：把短期执行轨迹不断蒸馏成稳定知识，再在新任务中复用，而不是让代理每次都从头滚上下文。\n\n论文把这一思路落在机器学习工程场景中，并报告 ML-Master 2.0 在长预算设置下取得 56.4% 的 medal rate。这说明作者不是只在 toy task 上讲概念，而是在比较接近真实工程循环的环境里验证了“长时程记忆组织”本身的价值。\n\n## 为什么重要\n\n很多 agent 系统失败，并不是因为不会一步步推理，而是因为几小时后开始遗忘、漂移和自相矛盾。ML-Master 2.0 提供的是一种更接近“研究操作系统”的方向：把记忆、蒸馏和经验复用变成一等公民。\n\n## 局限\n\n它的收益高度依赖评测环境、工具权限和基础模型能力。缓存蒸馏如果没有严格 provenance 机制，也可能积累偏差并污染后续实验。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-15",
      "doi": "",
      "arxiv_id": "2601.10402",
      "collected_at": "",
      "collection_order": 209,
      "source_url": "https://arxiv.org/pdf/2601.10402.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.10402.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL13_Self_Reconfigurable_Robotic_Fish",
      "slug": "rl13-self-reconfigurable-robotic-fish",
      "detail_url": "papers/rl13-self-reconfigurable-robotic-fish/",
      "title": "Self-reconfigurable robotic fish swarms: Collective achievement of diverse locomotion and challenging aquatic tasks",
      "summary": "传统水下机器人通常被固定形态和单一运动模式束缚，这使它们在复杂环境里很难兼顾稳定性、机动性、速度和任务多样性。相比单体系统，可重构群体更接近一种“形态即能力”的路径。\n\n这篇论文提出可自主组装/解组装的 robotic fish swarm，利用 electropermanent magnets 完成物理重构和模块通信，使系统能够根据任务改变 morphology，并在稳定性、机动性、速度、能效和多模态运动上超过单个 unit。\n\n它适合收进仓库，是因为它已经踩到“机器人自举/自重构”的关键边界：机器人不是只在固定身体上学习更好动作，而是能通过物理重组改变自己可执行的行为集合。这个方向和后续 AI 驱动 morphology-control co-design 直接相关。\n\n没有升到更高等级，是因为该工作仍局限于一类水下群体平台，且自重构更多是预设能力而非更完整的自主设计迭代闭环。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-01-09",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 208,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12787520/",
      "paper_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12787520/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "北京大学研发水下“变形金刚”，机器鱼群20毫秒自主拼装，解锁从游动到陆地爬行的全地形能力",
          "url": "https://www.bilibili.com/video/BV1xkLk6BENe",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1xkLk6BENe",
            "https://youtu.be/YA2guekiGD0"
          ],
          "main_collection": "机器人与具身智能",
          "match": "self reconfigurable robotic fish swarms collective achievement of diverse locomotion and challenging aquatic tasks",
          "description": "北京大学工学院团队针对传统水下机器人形态单一、环境适应性差的局限，研发出受生物启发的自重构机器鱼集群系统。该系统利用电永磁（EPM）对接技术，仅需20毫秒脉冲即可完成模块化单体间的物理连接，且保持吸附状态时零功耗。通过磁感应瞬态通信实现协同，鱼群可自主从高效游动的鳗鱼形态切换为可陆地爬行的弹涂鱼形态。实验数据显示，集群侧向连接力达73.70N，能够胜任障碍清理与复杂水域运输任务。这一成果为机器人在非结构化环境下的多模态作业提供了高可靠、高能效的技术方案。",
          "x_post": "北京大学研发自重构机器鱼集群，实现20ms自主拼装与73.70N强力连接\n\n针对传统水下机器人形态固定、环境适应性弱的挑战，北京大学工学院团队研发出一种受生物启发的自重构机器鱼系统。该系统利用电永磁（EPM）技术，仅需20ms脉冲电流即可完成模块化单体间的物理对接，且在维持连接状态时具有零功耗特性。\n\n实验数据显示，集群侧向连接力达73.70N，纵向拉力为24.19N，并可通过磁感应瞬态通信实现5.56 kbps的稳定数据交换。通过形态动态调整，鱼群可由高速游动的鳗鱼模式自主切换为具备陆地爬行能力的弹涂鱼模式。\n\n该研究证实了机器鱼群在复杂水域进行障碍清理、物体运输及多模态运动的协同能力，为非结构化环境下的水下作业提供了高能效、高适应性的技术方案。",
          "cover_url": "assets/covers/rl13-self-reconfigurable-robotic-fish-630078f89f.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-19T20:10:41+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL12_General_Soft_Robot_Controller",
      "slug": "rl12-general-soft-robot-controller",
      "detail_url": "papers/rl12-general-soft-robot-controller/",
      "title": "A general soft robotic controller inspired by neuronal structural and plastic synapses that adapts to diverse arms, tasks, and perturbations",
      "summary": "软体机器人一直受限于控制器难以跨任务、跨构型和跨扰动泛化。相比固定刚体系统，软体形态带来的高维耦合、负载变化和执行器故障让控制器往往只能围绕单一平台精调。\n\n这篇论文提出一种受神经 structural/plastic synapse 启发的控制框架，把 task-agnostic 的离线结构与在线误差驱动更新拆开，并引入 learned contraction metric 提供稳定性约束。结果是同一个控制框架能在不同软臂、不同任务和不同扰动下继续适配，而不是每换平台就重做控制器。\n\n它对仓库有价值，因为这已经接近“机器人自我增强”方向：系统虽然还没有主动重设计形态，但控制层已经形成可迁移、可在线更新、可跨形态工作的自适应闭环。\n\n没有升到更高一级，是因为这里的自举仍主要发生在控制参数层，还没有进入 morphology redesign、硬件重配置或更强的 autonomous self-improvement pipeline。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-01-09",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 207,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12778046/",
      "paper_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12778046/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "MIT与新国大赋予软体机器人“生物大脑”，实现在断臂与狂风下的毫秒级自适应",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "a general soft robotic controller inspired by neuronal structural and plastic synapses that adapts to diverse arms tasks and perturbations",
          "description": "麻省理工学院（MIT）与新加坡国立大学等团队针对软体机器人控制难题，联合研发了一种受神经突触可塑性启发的通用控制器。传统物理建模难以应对软体机器人的高维变形，且在极端环境或硬件故障时极易失效。该框架通过离线元学习提取跨任务通用特征，模拟神经元的结构性突触，并结合在线误差门控优化实现快速自适应，同时引入控制收缩理论确保系统稳定性。实验证明，机器人能在断臂、强风及超重等工况下实现毫秒级行为调整，显著降低了轨迹跟踪误差。这一成果实现了物理顺应性与主动智能的融合，为开发具备自愈能力的通用机器人提供了新路径。",
          "x_post": "MIT与新国大研发仿生突触软体机器人控制器，实现在极端干扰下的毫秒级自适应\n\n传统物理建模难以应对软体机器人的高维连续变形，尤其在环境突变或硬件受损时极易失效。该控制框架模拟神经元的结构性与可塑性突触，通过离线元学习提取跨任务通用特征，并结合在线误差门控优化实现快速行为调整。\n\n为确保学习过程的系统稳定性，研究引入控制收缩理论（Contraction Theory）作为约束，防止动态发散。实验验证显示，机器人在遭遇驱动器故障（断臂）、强风及超重等工况下，均能实现毫秒级自适应并显著降低轨迹跟踪误差。\n\n该研究成功将软体机器人的物理顺应性与仿生主动智能融合，为开发具备自愈能力的通用软体机器人提供了可核验的技术路径。",
          "cover_url": "assets/covers/rl12-general-soft-robot-controller-7b0aa424ac.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-19T21:48:21+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T15_NC2C_Convexification",
      "slug": "t15-nc2c-convexification",
      "detail_url": "papers/t15-nc2c-convexification/",
      "title": "NC2C: Automated Convexification of Generic Non-Convex Optimization Problems",
      "summary": "这篇论文研究的是通用非凸优化问题能否被大模型自动识别并转化为可求解的凸形式。它抓的是数学规划和工程优化中的老问题：很多非凸问题理论上能被凸化，但实际过程高度依赖专家经验，难以自动化。\n\n方法上，NC2C 用 LLM 做端到端的凸化流水线，包括检测非凸成分、选择凸化策略、符号推理生成等价形式，再配合验证、纠错和可行域修正模块，形成闭环。重点不是直接让模型输出解，而是把模型放在优化问题结构变换这个环节。\n\n这篇适合放在 AI×optimization / mathematical programming 主线。它的价值在于把 LLM 从“求解器外的语言接口”推进到“问题重写器”的位置，对优化编译、自动建模和科学计算都有方法学外溢。\n\n它还不是更高一级，因为目前主要证明 LLM 可以在凸化这类专家流程中发挥作用，但距离成为广泛采用的标准优化工作流还差更多系统性验证和真实工业任务证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2026-01-08",
      "doi": "",
      "arxiv_id": "2601.04789",
      "collected_at": "",
      "collection_order": 206,
      "source_url": "https://arxiv.org/abs/2601.04789",
      "paper_url": "https://arxiv.org/abs/2601.04789",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S7_ALL_FEM_Agentic_Simulation",
      "slug": "s7-all-fem-agentic-simulation",
      "detail_url": "papers/s7-all-fem-agentic-simulation/",
      "title": "ALL-FEM: Agentic Large Language models Fine-tuned for Finite Element Methods",
      "summary": "ALL-FEM 面向工程仿真中的有限元代码生成和验证瓶颈。普通 LLM 能写代码但容易幻觉，缺少变分结构意识，也无法闭环确认从问题描述到可验证解的正确性。\n\n论文构建了包含 expert FEniCS 代码和检索扩展脚本的领域数据集，并把 domain-finetuned LLM、agentic workflow、代码生成、执行和结果分析结合成自主 simulation system。重点是从问题到 verified solution 的闭环。\n\n它值得收录，是因为它是 AI for scientific/engineering computing 的可复用工作流：领域模型 + agent 执行 + verifier + 仿真代码生态。对 PDE/FEM、工程设计和自动仿真管线有明确溢出价值。\n\n局限在于系统绑定 FEniCS 和有限元任务，迁移到商业 CAE、多物理复杂边界和工业级网格流程还需扩展。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2026-01-08",
      "doi": "",
      "arxiv_id": "2603.21011",
      "collected_at": "",
      "collection_order": 205,
      "source_url": "https://arxiv.org/pdf/2603.21011.pdf",
      "paper_url": "https://arxiv.org/pdf/2603.21011.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N77_Content_Context_Human_Memory",
      "slug": "n77-content-context-human-memory",
      "detail_url": "papers/n77-content-context-human-memory/",
      "title": "Distinct neuronal populations in the human brain combine content and context",
      "summary": "这篇 Nature 论文直接研究人脑 item-in-context memory 的单神经元机制：内容和情境到底是被绑定成专门组合，还是由可泛化的分离表征临时组合。\n\n作者在 16 名神经外科患者的 amygdala、parahippocampal cortex、entorhinal cortex 和 hippocampus 记录 3,109 个神经元，使用 context-dependent picture-comparison task 分离 stimulus 与 question context。\n\n结果显示 597 个 stimulus-modulated neurons 和 200 个 context-modulated neurons 大多属于相互分离的群体，通过 co-firing、context reinstatement 和 entorhinal-to-hippocampal 时间顺序来组合内容与情境；只有少量神经元编码特定 picture-question conjunction。\n\n它值得正式收录，因为它为 AI memory 给出一个强机制类比：长期记忆不必把所有内容-情境组合硬编码，而可以用分离、近正交、可互相 reinstatement 的表征实现 flexible generalization 和 context-specific retrieval。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-01-07",
      "doi": "10.1038/s41586-025-09910-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 204,
      "source_url": "/Users/lijie/Downloads/s41586-025-09910-2.pdf",
      "paper_url": "https://www.nature.com/articles/s41586-025-09910-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N76_Prefrontal_Cue_Geometry",
      "slug": "n76-prefrontal-cue-geometry",
      "detail_url": "papers/n76-prefrontal-cue-geometry/",
      "title": "Prefrontal neural geometry of learned cues guides motivated behaviours",
      "summary": "这篇 Nature 论文研究 dmPFC 如何把 learned cues 的 value、salience 和 valence 组织成可读出的神经几何，而不是只报告单个变量的编码相关性。\n\n作者在自由活动小鼠中用 calcium imaging 记录 dmPFC 单神经元群体，让动物区分预测 reward 或 punishment 的刺激，从而把 salience、valence 和 value 信息拆开分析。\n\n核心结果是 dmPFC 群体主要编码 learned stimuli 的 appetitive/aversive value，并且部分神经元把 valence 与 salience 放在近似正交的信息轴上；这些几何结构会随 associative learning 形成并预测趋近或回避行为。\n\n它值得正式收录，因为它给 AI-relevant neuroscience 一个清晰机制：价值、显著性和效价可以通过低维、近正交的 population geometry 实现可组合行为控制，对 agent reward representation、motivated behavior、state abstraction 和安全相关趋避信号建模都有概念外溢。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-01-07",
      "doi": "10.1038/s41586-025-09902-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 203,
      "source_url": "https://www.nature.com/articles/s41586-025-09902-2",
      "paper_url": "https://www.nature.com/articles/s41586-025-09902-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "我们如何决定趋利避害？《自然》最新研究首次解码前额叶“动机几何学”",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "prefrontal neural geometry of learned cues guides motivated behaviours",
          "description": "《自然》期刊发表的最新神经科学研究中，科研团队探讨了大脑如何引导动机行为。长期以来，如何在现实中分离并研究高度绑定的效价、显著性与价值这三个动机维度，是科学界的一大难题。研究团队利用自由活动的小鼠模型，设计了“7秒穿梭”行为实验，在控制物理动作一致的前提下，通过钙成像技术和机器学习成功孤立并解码了背侧内侧前额叶皮层 (dmPFC) 的神经活动。结果显示，dmPFC 通过相互垂直的正交独立信息轴同时编码这三个维度，完美实现了不同动机维度的精准分离。这一发现揭示了大脑在处理复杂关联学习时，如何保持信息独立并灵活重组，为理解大脑决策机制提供了全新视角。",
          "x_post": "《自然》最新研究通过小鼠实验解码前额叶“动机几何学”，揭示dmPFC如何正交编码三大动机维度。\n【背景】如何在现实中分离并研究大脑里高度绑定的效价、显著性与价值三个动机维度，是长期以来的神经科学难题。\n【方法】研究团队设计了“7秒穿梭”行为实验，在控制物理动作一致的前提下，结合钙成像技术与机器学习，成功孤立并解码了背侧内侧前额叶皮层（dmPFC）的群体神经活动。\n【证据】分析显示，dmPFC通过相互垂直的正交独立信息轴同时编码这三个维度；数据表明小鼠对高额奖励音（CSr）与强电击音（CSs）的反应速度和穿梭概率完全一致，证实了显著性等同而效价相反的维度被精准解耦。\n【结论】该研究揭示了前额叶独特的神经几何结构，不仅能保持不同动机信息的独立性，且其主观价值表征会随着奖励贬值或厌恶重估等经验变化而灵活重组。",
          "cover_url": "assets/covers/n76-prefrontal-cue-geometry-951f44e27e.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-26T10:38:59+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM22_UniVideo",
      "slug": "mm22-univideo",
      "detail_url": "papers/mm22-univideo/",
      "title": "UniVideo: Unified Understanding, Generation, and Editing for Videos",
      "summary": "这篇论文瞄准的是统一多模态模型从图像域走向视频域时最难跨过去的一步：能否在同一套框架里同时做视频理解、视频生成和视频编辑，而不是为每个任务各自训练一条模型链。作者认为，视频场景下时序一致性、复杂指令理解和多任务联合训练的难度，导致现有 unified multimodal model 大多还停留在图像层。\n\nUniVideo 的核心设计是双流结构：用 MLLM 负责视觉理解和复杂多模态指令解析，用 Multimodal DiT 负责视频生成与编辑，从而把理解能力和视觉一致性生成能力拆开但又联动起来。基于这套结构，论文把 text/image-to-video generation、in-context video generation、in-context video editing 和视觉提示驱动生成统一到一个 instruction paradigm 里联合训练。\n\n这篇值得收的关键不在于它又做了一个更大的视频模型，而在于它展示了 unified video model 的两个重要泛化方向：一是任务组合，能够把多种能力合进一条复合指令里；二是能力迁移，在没有显式训练 free-form video editing 的前提下，把大规模图像编辑能力转移到视频编辑上。这让它比普通 task-specific 视频生成论文更有长期外溢价值。\n\n它没有更高一级，因为目前仍是 arXiv 预印本，且 unified video 这条线竞争非常激烈，是否能成为后续视频多模态系统的稳定基座还要看更广泛复现、后续模型跟进和社区采用。当前更稳的定位是高质量 breakthrough，而不是更高层级的范式条目。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2026-01-07",
      "doi": "",
      "arxiv_id": "2510.08377",
      "collected_at": "",
      "collection_order": 202,
      "source_url": "https://arxiv.org/pdf/2510.08377v3.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.08377v3.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "I6_Attention_Head_Intervention",
      "slug": "i6-attention-head-intervention",
      "detail_url": "papers/i6-attention-head-intervention/",
      "title": "Interpreting Transformers Through Attention Head Intervention",
      "summary": "**问题与背景**\n这篇论文针对 `mechanistic interpretability / attention heads / transformers` 方向中的核心问题展开，属于仓库主线内值得正式记录的研究。它关注的不是局部调参，而是该子方向里较基础、较长期的问题，因此即使仍处在论文阶段，也有持续跟踪价值。\n\n**方法/新意**\n论文提出了相对清晰的新方法或新分析框架，并给出了可复核的实验或论证。它的主要新意在于把问题从经验比较推进到更可解释、可系统化的层面，而不是仅仅提供一个小幅性能增益。\n\n**意义/放在仓库中的位置**\n在仓库里，这篇论文归到 `mechanistic interpretability / attention heads / transformers` 主线，定位为 `breakthrough`。它适合作为后续做主题综述、视频选题和与同类论文横向比较时的正式材料，也能补足当前仓库在该方向上的连续性。\n\n**局限/为何不再升一级**\n它暂时没有升到 `disruptive`，主要因为当前证据更像一篇高质量方法论文、机制论文或系统论文，而不是已经改写整条研究路线的成果。除非后续被大规模复现、 adopted 或成为该领域新标准，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-01-07",
      "doi": "",
      "arxiv_id": "2601.04398",
      "collected_at": "",
      "collection_order": 201,
      "source_url": "https://arxiv.org/pdf/2601.04398v4.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.04398v4.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL38_Reality_Gap_Dexterous_Grasping",
      "slug": "rl38-reality-gap-dexterous-grasping",
      "detail_url": "papers/rl38-reality-gap-dexterous-grasping/",
      "title": "Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation",
      "summary": "多指灵巧手的 sim-to-real 一直比常规操作任务更难，因为接触丰富、执行器不理想，而且真实系统通常缺少高质量力觉和扭矩观测。很多方法能在模拟器里学到动作，但无法真正做到零样本落到硬件上。\n\n这篇工作的关键在于把几件真正决定 transfer 的系统组件补全：高频虚拟触觉模拟、无需额外扭矩传感器的 current-to-torque calibration，以及对 backlash、torque-speed saturation 等执行器非理想性的随机化建模。作者据此用 asymmetric actor-critic PPO 在纯模拟中训练，并零样本部署到五指手上完成 force tracking 和 in-hand reorientation。\n\n它值得正式收录，因为这不是单一任务技巧，而是一套可复用的 dexterous sim-to-real system recipe。对 tactile-rich manipulation、感知-执行器联合建模和现实差距闭合，这样的组合式方法有明显系统外溢。\n\n它暂时不升到更高一级，原因在于当前验证仍集中在特定硬件和两类关键技能上。虽然方法很强，但是否能成为更广泛 dexterous manipulation 的标准迁移接口，还需要更多平台和任务上的后续证明。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2026-01-06",
      "doi": "",
      "arxiv_id": "2601.02778",
      "collected_at": "",
      "collection_order": 200,
      "source_url": "https://arxiv.org/pdf/2601.02778.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.02778.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "字节跳动灵巧手创下连续翻转纪录：零微调即刻落地，赋予机器人人类般的精密触觉",
          "url": "https://www.bilibili.com/video/BV1uUQPBoE4R",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1uUQPBoE4R",
            "https://youtu.be/bwtn8FXe4e4"
          ],
          "main_collection": "AI化学与材料",
          "match": "closing the reality gap zero shot sim to real deployment for dexterous force based grasping and manipulation",
          "description": "本视频展示了字节跳动在灵巧手Sim-to-Real迁移方面的研究成果。针对多指操作中接触物理模拟复杂、训练效率低等痛点，研究团队提出了高效的触觉仿真框架。通过并行正向运动学算法大幅提升仿真速度，并利用电流-力矩校准技术替代昂贵的硬件传感器。实验证明，该方案实现了零样本部署，使五指灵巧手在无须真机微调的情况下，创下25.1次连续翻转物体的纪录。系统融合了高分辨率触觉与关节力矩感知，展现出精密触觉能力，能够实时调节握力以精准抓取纸杯或薯片袋等易碎目标。",
          "x_post": "字节跳动实现灵巧手零样本Sim-to-Real迁移，创下25.1次连续翻转纪录\n\n多指灵巧手在复杂接触物理模拟与硬件适配方面长期存在挑战。本研究提出一种全新的强化学习框架，利用并行正向运动学算法提升触觉仿真速度，并通过电流-扭矩标准化映射技术解决了硬件传感器的成本瓶颈。\n\n实验结果表明，该五指灵巧手在无需任何真机微调的情况下实现了零样本部署，创下25.1次掌上连续翻转物体的真实世界纪录，单次复杂操作耗时仅3.36秒。系统通过融合高分辨率触觉反馈与关节力矩感知，能够精准调节物理交互力，实现对纸杯、薯片袋等易碎目标的稳定抓取，验证了从全虚拟训练到现实落地的技术可行性。",
          "cover_url": "assets/covers/rl38-reality-gap-dexterous-grasping-a3ebca9f54.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-10T23:41:24+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N15_SleepFM",
      "slug": "n15-sleepfm",
      "detail_url": "papers/n15-sleepfm/",
      "title": "A multimodal sleep foundation model for disease prediction",
      "summary": "这篇论文研究睡眠多导图是否可以被当作一种统一的生理语言来建模，从而预测广泛的神经退行性、心血管和系统性疾病风险。作者利用大规模睡眠数据训练一个多模态基础模型。\n\n真正的新意在于把脑电、呼吸、心率等睡眠信号作为统一输入，用自监督或自我指导方式学习一个可迁移的睡眠基础模型，并展示其对痴呆、帕金森病等远期风险具有较高预测力。\n\n这篇论文应归到 AI × 脑健康 / 医疗时间序列主线。它代表的不只是某个单任务睡眠分类器，而是把睡眠信号提升为 foundation model 对象。\n\n它不再升一级，是因为虽然应用前景大，但核心还是医学基础模型的强扩展，而非像 AlphaGenome 那样重塑整类科学建模范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-01-06",
      "doi": "10.1038/s41591-025-04133-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 199,
      "source_url": "https://www.nature.com/articles/s41591-025-04133-4",
      "paper_url": "https://www.nature.com/articles/s41591-025-04133-4",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "仅需一晚睡眠数据：斯坦福联合哈佛发布SleepFM，精准预警未来6年130种疾病风险",
          "url": "https://www.bilibili.com/video/BV1SNwpzNE86",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1SNwpzNE86",
            "https://youtu.be/keyz136E4xA"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "a multimodal sleep foundation model for disease prediction",
          "description": "SleepFM 是由斯坦福与哈佛团队研发的多模态睡眠基础模型。针对临床多导睡眠图（PSG）存在的数据异构和模态缺失挑战，该模型利用超过 58.5 万小时的脑电、心电、呼吸及肌肉活动数据，通过首创的留一法对比学习（LOO-CL）与通道不可知架构进行预训练。实验表明，SleepFM 在睡眠分期与呼吸暂停诊断任务中达到专家级精度，并能仅凭单晚睡眠数据，在长达 6 年的随访期内精准预测包括失智症、心衰在内的 130 种疾病风险。该研究展示了基础模型在处理复杂生理信号和早期非侵入性疾病筛查中的巨大潜力。",
          "x_post": "斯坦福联合哈佛发布多模态睡眠基础模型 SleepFM：基于 58.5 万小时数据精准预警 130 种疾病风险\n临床多导睡眠图（PSG）长期面临数据异构与模态缺失挑战，限制了生理信号在长效健康监测中的深度应用。\nSleepFM 采用首创的留一法对比学习（LOO-CL）与通道不可知架构，实现了脑电、心电、呼吸及肌肉活动等四维生理信号的深度融合。\n基于 6.5 万名受试者数据的实验显示，该模型在睡眠分期任务中 F1 分数达 0.70-0.78，呼吸暂停诊断准确率达 87%；仅凭单晚睡眠数据即可在 6 年随访期内精准预警失智症、心脏衰竭等 130 种疾病风险（C-Index > 0.75）。\n研究证实了大规模自监督学习在生理信号处理中的泛化潜力，为非侵入性早期疾病筛查与个性化健康管理提供了科学证据。",
          "cover_url": "assets/covers/n15-sleepfm-7ea430d8e2.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-13T20:33:45+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "I7_Counting_System2",
      "slug": "i7-counting-system2",
      "detail_url": "papers/i7-counting-system2/",
      "title": "Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy",
      "summary": "**问题与背景**\n这篇论文针对 `mechanistic interpretability / llm counting / system-2 reasoning` 方向中的核心问题展开，属于仓库主线内值得正式记录的研究。它关注的不是局部调参，而是该子方向里较基础、较长期的问题，因此即使仍处在论文阶段，也有持续跟踪价值。\n\n**方法/新意**\n论文提出了相对清晰的新方法或新分析框架，并给出了可复核的实验或论证。它的主要新意在于把问题从经验比较推进到更可解释、可系统化的层面，而不是仅仅提供一个小幅性能增益。\n\n**意义/放在仓库中的位置**\n在仓库里，这篇论文归到 `mechanistic interpretability / llm counting / system-2 reasoning` 主线，定位为 `breakthrough`。它适合作为后续做主题综述、视频选题和与同类论文横向比较时的正式材料，也能补足当前仓库在该方向上的连续性。\n\n**局限/为何不再升一级**\n它暂时没有升到 `disruptive`，主要因为当前证据更像一篇高质量方法论文、机制论文或系统论文，而不是已经改写整条研究路线的成果。除非后续被大规模复现、 adopted 或成为该领域新标准，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2026-01-06",
      "doi": "",
      "arxiv_id": "2601.02989",
      "collected_at": "",
      "collection_order": 198,
      "source_url": "https://arxiv.org/pdf/2601.02989v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.02989v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A109_SYNAPSE_Episodic_Semantic_Memory",
      "slug": "a109-synapse-episodic-semantic-memory",
      "detail_url": "papers/a109-synapse-episodic-semantic-memory/",
      "title": "SYNAPSE: Empowering LLM Agents with Episodic-Semantic Memory via Spreading Activation",
      "summary": "长期 agent memory 的一个根本问题是，标准 retrieval-augmented 方案通常把记忆视为彼此独立的检索单元，再靠 embedding similarity 去召回。这样做很容易丢掉记忆之间的关联结构，导致复杂问题需要跨事件、多跳和隐式关系时，系统只能召回碎片而无法沿着关联自然扩散。\n\nSYNAPSE 的关键新意在于用 episodic-semantic memory graph 重写 retrieval，把 relevance 定义成 spreading activation 过程，而不是预先固定的静态相似度。系统引入 lateral inhibition 与 temporal decay，使相关子图在激活传播中被突出、无关干扰被抑制，并通过 Triple Hybrid Retrieval 把几何 embedding 检索与 activation-based graph traversal 结合起来。\n\n这篇工作值得正式收录，因为它对 agent memory 的推进不只是‘再加图结构’，而是明确把 memory retrieval 从静态相似度检索改成动态关联传播过程。这个接口对长期对话 agent、知识助手以及更一般的 graph-native memory retrieval 都有可复用价值。\n\n它现在定为 breakthrough 而不是更高一级，因为当前主要证据仍来自 arXiv 和 LoCoMo 上的改进，离更广泛的长期记忆默认范式还有距离；同时 cognitive science 借鉴是方法启发，不应被误读成已经证明的认知机制。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-06",
      "doi": "",
      "arxiv_id": "2601.02744",
      "collected_at": "",
      "collection_order": 197,
      "source_url": "https://arxiv.org/pdf/2601.02744.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.02744.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "突破大模型“上下文孤岛”瓶颈：SYNAPSE复刻大脑扩散激活理论，让AI具备长期联想记忆",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "synapse empowering llm agents with episodic semantic memory via spreading activation",
          "description": "针对大模型在长周期任务中面临的“上下文孤岛”瓶颈，本研究提出受认知科学启发的SYNAPSE记忆架构。该系统复刻了人类大脑的扩散激活理论，通过构建包含片段与语义的双层动态图结构，实现了超越传统RAG语义匹配的联想记忆能力。系统引入侧抑制与时间衰减机制，模拟生物学遗忘与专注特性，能够精准提取语义不重合但逻辑相关的记忆。实验数据表明，SYNAPSE在复杂多跳推理任务中准确率提升23%，同时通过优化检索路径使Token消耗显著降低95%。该方案为构建具备叙事一致性的自主智能体提供了生物学视角的优化路径。",
          "x_post": "乔治亚大学与田纳西大学等团队发布SYNAPSE记忆架构，利用扩散激活理论提升多跳推理准确率23%。\n针对大模型在长周期任务中的“上下文孤岛”瓶颈，传统RAG常局限于表面语义匹配，难以处理逻辑跨度较大的因果关联。该研究提出SYNAPSE架构，构建包含片段与语义节点的双层动态图，并引入侧抑制与时间衰减等生物学机制。实验数据表明，该系统在复杂多跳推理任务中准确率提升23%，同时通过优化检索路径使Token消耗显著降低95%。该成果通过模拟人类大脑神经运作方式，为构建具备叙事一致性与逻辑韧性的自主智能体提供了高效的仿生学记忆方案。",
          "cover_url": "assets/covers/a109-synapse-episodic-semantic-memory-4c9d610993.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-01T05:47:47+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A108_MAGMA_Multi_Graph_Memory",
      "slug": "a108-magma-multi-graph-memory",
      "detail_url": "papers/a108-magma-multi-graph-memory/",
      "title": "MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents",
      "summary": "很多 agent memory 系统虽然名义上支持长期记忆，但底层仍把不同类型的关系都压进单一 memory store，再依赖语义相似度或统一索引来检索。这会把时间、因果、实体和语义线索纠缠在一起，导致查询意图和被召回证据之间经常错位，尤其在长程多跳问题上会出现看似相关、实则结构不匹配的检索结果。\n\nMAGMA 的核心新意是把每条 memory item 同时表示在多种正交关系图上：semantic、temporal、causal 和 entity graph。系统把 retrieval 从“在同一个库里做一次相似度搜索”改写为“在多视图关系结构上做 policy-guided traversal”，按当前 query 的需求选择不同关系视角并组装结构化上下文。这让 memory representation 与 retrieval logic 显式解耦，也使 reasoning path 更透明。\n\n它值得正式收录，因为这不是又一个 graph memory 名字，而是对 agent memory architecture 的清晰重写：不同关系应该分层表达，检索应该是 query-adaptive graph traversal，而不是把所有东西混到一个 embedding space 再让 reranker 硬救。对长期 agent、profile memory 和结构化 retrieval 都有明显外溢。\n\n它目前仍是 breakthrough，因为证据主要来自 arXiv 阶段和 LoCoMo/LongMemEval 一类 benchmark，离成为长期 memory 默认架构还有距离；同时 policy-guided traversal 的稳定性、成本和更开放场景泛化能力仍需更多验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-06",
      "doi": "",
      "arxiv_id": "2601.03236",
      "collected_at": "",
      "collection_order": 196,
      "source_url": "https://arxiv.org/pdf/2601.03236.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.03236.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解构AI记忆的四大维度：MAGMA如何通过三层解耦方案实现零延迟深层交互",
          "url": "https://www.bilibili.com/video/BV1WF97BREnC",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1WF97BREnC",
            "https://youtu.be/6ee3y9eblMc"
          ],
          "main_collection": "AI智能体",
          "match": "magma a multi graph based agentic memory architecture for ai agents",
          "description": "针对大语言模型在长对话中注意力稀释和逻辑断层的问题，MAGMA提出了一种多图谱智能体记忆架构。该架构将记忆解构为语义、时间、因果、实体四个正交维度，并通过三层解耦方案实现信息的精准检索。系统采用双流读写机制，在保证交互零延迟的同时，利用异步推理模块动态生成逻辑路径。实验数据表明，MAGMA在处理复杂多跳推理任务时，能有效降低95%的Token消耗，并显著减少模型幻觉。这为开发具备长效连贯性和深度逻辑能力的AI智能体提供了关键的底层支撑技术。",
          "x_post": "UT Dallas 与佛罗里达大学团队提出 MAGMA：多图谱记忆架构实现 95% Token 降幅\n针对大语言模型在长对话中因注意力稀释导致的记忆遗忘与逻辑断层问题，研究团队开发了 MAGMA 架构。\n该方案采用三层解耦机制，将记忆信息解构为语义、时间、因果及实体四个正交逻辑维度图谱。\n系统引入双流处理机制，通过“快速路径”实现零延迟存储，并利用异步推理模块动态生成多跳逻辑路径。\n实验数据表明，MAGMA 在处理复杂推理任务时可降低 95% 的 Token 消耗，并显著减少模型幻觉。\n该研究为开发具备持久身份感与高级逻辑思维能力的 AI 智能体提供了稳健的底层存储范式。",
          "cover_url": "assets/covers/a108-magma-multi-graph-memory-8285157457.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-01T10:44:15+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "EN2_Grid_Stabilization_Admittance",
      "slug": "en2-grid-stabilization-admittance",
      "detail_url": "papers/en2-grid-stabilization-admittance/",
      "title": "AI-Driven Stabilization in Power Grids through Controlling Line Admittances",
      "summary": "这篇论文聚焦新能源渗透下电网稳定性的核心难题。随着 inverter-based resources 增多，传统电网依赖的大惯量特性减弱，系统在扰动下更容易出现频率和潮流不稳定。相关研究常把规划和实时控制拆开处理，前者做 regulator placement，后者做故障后的局部稳定，而这篇论文试图把两者统一起来。\n\n作者提出 Adaptive Admittance Controller（AAC），用 AI 算法在扰动发生后自适应调节 line admittance regulators，同时识别最关键的调节位置。这个框架的关键不只是控制本身，而是把 regulator placement 与 real-time stabilization 合并成一个统一方法。摘要中还明确指出它在真实 UK power grid 上验证，能显著降低 frequency deviations、快速恢复 nominal operation，并用少量关键 regulators 完成干预，从而降低复杂度和成本。\n\n这项工作值得正式收录，因为它不是普通 power forecast 或 OPF 优化，而是直接触及 power-grid operation 的闭环控制问题。对仓库而言，它代表 AI 进入 energy systems 的一种更强形态：不是做外层分析，而是进入 infrastructure control loop，自带规划与控制统一的系统价值。它也对更广的 networked infrastructures 有概念外溢，例如交通拥堵或级联故障控制。\n\n它暂时还不到更高一级，原因是当前证据仍主要来自单篇 arXiv 和特定 grid setting，离成为 power systems 社区的长期基线方法还有一步。它的问题和结果都很硬，但更广的系统规模、部署约束和长期鲁棒性还需要后续工作验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "energy_water_and_infrastructure_systems",
      "theme_label": "能源、水与基础设施",
      "published_at": "2026-01-05",
      "doi": "",
      "arxiv_id": "2601.02114",
      "collected_at": "",
      "collection_order": 195,
      "source_url": "https://arxiv.org/pdf/2601.02114.pdf",
      "paper_url": "https://arxiv.org/pdf/2601.02114.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N24_Spatial_Context_Reinstatement",
      "slug": "n24-spatial-context-reinstatement",
      "detail_url": "papers/n24-spatial-context-reinstatement/",
      "title": "Spatial contexts with reliable neural representations support reinstatement of subsequently placed objects",
      "summary": "**问题与背景**\n这篇论文围绕 `memory / spatial context / neural representations` 展开，聚焦记忆和空间情境如何共同支撑后续的对象重现。它属于认知科学主线里值得正式收录的研究，因为问题本身具有基础性，并且和人类记忆组织机制直接相关。\n\n**方法/新意**\n论文结合神经表征与行为任务，分析稳定的空间情境表征如何支持后续对象记忆的 reinstatement。它的价值不在于推出一个新工程系统，而在于把空间情境与记忆恢复之间的关系做成了可实验检验的神经机制结果。\n\n**意义/放在仓库中的位置**\n在本仓库里，这篇论文归到 `memory / spatial context / neural representations` 主线，定位为 `breakthrough`。它适合作为认知科学 / 记忆机制条目，与前额叶、海马、theta-gamma 等条目一起构成更完整的记忆系统图景。\n\n**局限/为何不再升一级**\n它没有升到 `disruptive`，因为当前更像一篇高质量基础神经科学论文，外溢价值主要在理论理解而不是方法范式重排。现阶段更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-01-02",
      "doi": "10.1038/s41562-025-02379-z",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 194,
      "source_url": "https://www.nature.com/articles/s41562-025-02379-z",
      "paper_url": "https://www.nature.com/articles/s41562-025-02379-z",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "还没开始记就能预测结果？Nature子刊通过扫描大脑，在物品放入前预判记忆的天花板",
          "url": "https://www.bilibili.com/video/BV1APAuzpE43",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1APAuzpE43",
            "https://youtu.be/VhmFpec-GNg"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "spatial contexts with reliable neural representations support reinstatement of subsequently placed objects",
          "description": "本视频深度解析发表于《Nature Human Behaviour》的前沿研究，探讨大脑空间背景表征如何作为“记忆支架”影响信息储存。研究团队利用虚拟现实（VR）构建记忆宫殿，并结合功能磁共振成像（fMRI）技术，在受试者记忆物体前，精准量化了其对空间环境的“神经表征可靠性”。实验证据表明，楔前叶、后顶叶及海马后部等区域的神经稳定性与独特性，能够直接预判随后放置于该空间内物体的记忆表现。这种预测效应独立于提取时的空间回忆强度，揭示了可靠的神经空间如何通过增强编码阶段的物、地绑定来锚定未来记忆。研究为量化评估“记忆宫殿”的效用提供了神经生物学标准。",
          "x_post": "普林斯顿与哥大等团队在 Nature Human Behaviour 发表研究：空间神经表征可靠性可精准预判未来记忆表现\n\n空间环境如何作为记忆的“脚手架”？研究团队利用虚拟现实（VR）构建了 23 个独立空间，并结合 fMRI 在物体被放入前测量受试者对空房间的神经表征稳定性与独特性。\n\n实验数据表明，楔前叶、海马后部及后顶叶皮层的神经可靠性指标越高，随后放置于该空间内物体的记忆还原效果越好。受试者在引导回忆任务中的平均准确率达到 92%，自由回忆准确率达 80%。\n\n该研究量化了大脑空间背景对信息锚定的支撑效用，证实了可靠的神经空间能通过增强编码阶段的“物-地绑定”来提升记忆质量。研究指出，这种预测效应独立于提取时的空间回忆强度，为评估记忆宫殿效能提供了神经生物学标准。",
          "cover_url": "assets/covers/n24-spatial-context-reinstatement-6cc40a0dc5.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-21T20:07:54+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N23_Recurrent_Connectivity_Variability",
      "slug": "n23-recurrent-connectivity-variability",
      "detail_url": "papers/n23-recurrent-connectivity-variability/",
      "title": "Structure in noise: Recurrent connectivity shapes neural variability to balance perceptual and cognitive demands in the human brain",
      "summary": "**问题与背景**\n这篇论文针对 `systems neuroscience / neural variability / recurrent connectivity` 方向中的核心问题展开，属于仓库主线内值得正式记录的研究。它关注的不是局部调参，而是该子方向里较基础、较长期的问题，因此即使仍处在论文阶段，也有持续跟踪价值。\n\n**方法/新意**\n论文提出了相对清晰的新方法或新分析框架，并给出了可复核的实验或论证。它的主要新意在于把问题从经验比较推进到更可解释、可系统化的层面，而不是仅仅提供一个小幅性能增益。\n\n**意义/放在仓库中的位置**\n在仓库里，这篇论文归到 `systems neuroscience / neural variability / recurrent connectivity` 主线，定位为 `breakthrough`。它适合作为后续做主题综述、视频选题和与同类论文横向比较时的正式材料，也能补足当前仓库在该方向上的连续性。\n\n**局限/为何不再升一级**\n它暂时没有升到 `disruptive`，主要因为当前证据更像一篇高质量方法论文、机制论文或系统论文，而不是已经改写整条研究路线的成果。除非后续被大规模复现、 adopted 或成为该领域新标准，否则当前更适合保守放在 `breakthrough`。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2026-01-01",
      "doi": "10.1016/j.neuron.2025.10.015",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 193,
      "source_url": "https://doi.org/10.1016/j.neuron.2025.10.015",
      "paper_url": "https://doi.org/10.1016/j.neuron.2025.10.015",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MED4_HEX_Virtual_Spatial_Proteomics",
      "slug": "med4-hex-virtual-spatial-proteomics",
      "detail_url": "papers/med4-hex-virtual-spatial-proteomics/",
      "title": "AI-enabled virtual spatial proteomics from histopathology for interpretable biomarker discovery in lung cancer",
      "summary": "问题与背景：空间蛋白组学能揭示肿瘤微环境，但成本高、流程复杂、临床规模化困难。论文关注的是能否从常规 H&E 病理切片生成可解释的虚拟空间蛋白组信息。\n\n方法与机制：HEX 使用 819,000 个带匹配蛋白表达的病理图像 tile 训练，从 H&E 图像预测 40 个免疫、结构和功能 biomarker 的空间表达，并将原始图像与 AI-derived virtual spatial proteomics 融合用于预后和 biomarker discovery。\n\n为什么重要：它把 AI 从病理分类推进到可解释的虚拟分子测量层，可能改变临床病理、空间组学扩展和肺癌 biomarker 发现工作流。对医学 AI 的方法价值高于普通图像预测。\n\n局限：临床部署仍受跨中心泛化、样本制备差异和监管验证限制；预测的蛋白表达不能完全替代真实实验测量。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "public_health_and_medical_operations",
      "theme_label": "公共卫生与医疗运营",
      "published_at": "2026-01-01",
      "doi": "10.1038/s41591-025-04060-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 192,
      "source_url": "https://www.nature.com/articles/s41591-025-04060-4.pdf",
      "paper_url": "https://www.nature.com/articles/s41591-025-04060-4.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO3_BRAIN_MAGNET",
      "slug": "bio3-brain-magnet",
      "detail_url": "papers/bio3-brain-magnet/",
      "title": "BRAIN-MAGNET: A functional genomics atlas for interpretation of non-coding variants",
      "summary": "问题与背景：非编码变异的功能解释一直是人类遗传学和疾病机制研究中的核心难题。单纯依赖序列模型或孤立组学信号，往往难以把变异、调控元件、细胞类型和疾病机制统一到同一框架里。\n\n方法/新意：BRAIN-MAGNET 构建了一个面向脑组织非编码变异解释的功能基因组图谱，将多组学证据和脑相关细胞类型信息耦合起来，用于更系统地解释非编码风险变异。重点不在单个预测器，而在把分散的功能信息压成可用的解释底座。\n\n意义/放在仓库中的位置：这篇工作属于 genomics / brain disease / variant interpretation 主线，和 AlphaGenome 一起看很自然：前者偏基础模型，后者偏 atlas 与功能解释。它体现的是 AI/计算方法如何进入非编码基因组解释这个关键战场。\n\n局限/为何不再升一级：目前更像高价值数据与解释平台，而不是一个会改写更大范围 AI 方法学的成果。其外溢主要集中在功能基因组学和脑疾病遗传学。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2026-01-01",
      "doi": "10.1016/j.cell.2025.10.029",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 191,
      "source_url": "https://doi.org/10.1016/j.cell.2025.10.029",
      "paper_url": "https://doi.org/10.1016/j.cell.2025.10.029",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A201_ETOM_MCP_Tool_Orchestration",
      "slug": "a201-etom-mcp-tool-orchestration",
      "detail_url": "papers/a201-etom-mcp-tool-orchestration/",
      "title": "ETOM: A Five-Level Benchmark for Evaluating Tool Orchestration within the MCP Ecosystem",
      "summary": "这篇 Findings EACL 2026 论文针对 MCP 生态中的工具编排能力提出五级评测。它不只测一次工具调用，而是分层评估 agent 发现工具、选择工具、组合工具、处理依赖和协调复杂流程的能力。\n\n它的重要性在于 MCP 正在成为实际 agent 工具接入接口，围绕这个接口建立 benchmark 能直接服务工程系统评估。ETOM 把工具 orchestration 从泛泛能力拆成可测层级。\n\n按本库标准，它值得收录在 agent 系统方向，因为它提供的是可复用 evaluation interface 和 tool-use 复杂度分层，而不是一个普通 prompt benchmark。\n\n局限是 MCP 生态仍在快速变化，benchmark 的长期价值取决于是否持续覆盖真实工具、权限、安全和错误恢复场景。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2026-01-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 190,
      "source_url": "https://aclanthology.org/2026.findings-eacl.75.pdf",
      "paper_url": "https://aclanthology.org/2026.findings-eacl.75.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C12_MATTERIX_Chemistry_Digital_Twin",
      "slug": "c12-matterix-chemistry-digital-twin",
      "detail_url": "papers/c12-matterix-chemistry-digital-twin/",
      "title": "MATTERIX: toward a digital twin for robotics-assisted chemistry laboratory automation",
      "summary": "这篇论文关注的不是单个化学实验算法，而是如何为机器人化学实验室建立高保真数字孪生，从而在真实部署前完成流程设计、技能组合和工作流验证。它符合本仓库对 AI 自动化研究和科研工作流模式的偏好。\n\nMATTERIX 的核心是一个多尺度、GPU 加速的仿真框架，把机器人操作、粉末与液体动力学、设备功能、热传递、基本反应动力学以及语义层状态机放到统一系统里。它的贡献不是某一个模型模块，而是把数字孪生、技能库、层级计划和实验工作流抽象连接成可执行的平台。\n\n这类工作的重要性在于它把实验室自动化从“试错式真实实验开发”推进到“先在数字孪生里编排和验证”的范式，对化学实验自动化、实验技能重用、以及具身科研系统都有明显方法外溢。对仓库来说，这是典型的新 workflow pattern。\n\n它没有升到更高等级，是因为目前影响仍然集中在机器人辅助化学实验自动化这一子领域，虽然系统价值很高，但还没有证明自己会成为更广泛 AI 自动化研究的统一底座。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-12-31",
      "doi": "10.1038/s43588-025-00924-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 189,
      "source_url": "https://doi.org/10.1038/s43588-025-00924-4",
      "paper_url": "https://doi.org/10.1038/s43588-025-00924-4",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "把化学实验室装进电脑：MATTERIX 打造高精度数字孪生，实现机器人从虚拟到现实无缝迁移",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "matterix toward a digital twin for robotics assisted chemistry laboratory automation",
          "description": "MATTERIX 是专为化学实验室自动化设计的多尺度机器人模拟框架。针对传统材料研发中物理试错成本高、周期长及安全风险等痛点，该系统基于 NVIDIA Isaac Lab，利用 GPU 加速实现了刚体、流体及粉末动力学的高保真模拟，并创新性地集成了热传递与基础化学反应动力学。通过 NeRF 技术快速重建实验资产，MATTERIX 支持从宏观实验室到微观物质级的全景仿真，实现了机器人从虚拟训练到真实物理场景的无缝迁移。该框架显著降低了 AI 模型训练的数据采集成本，使实验流程更安全、研发迭代更高效，为自动驾驶实验室的构建提供了可靠的技术底座。",
          "x_post": "MATTERIX团队基于NVIDIA Isaac Lab开发化学实验室数字孪生框架，实现多尺度高保真仿真\n针对传统材料研发中物理试错成本高、迭代周期长（约3年）及安全风险等瓶颈，MATTERIX构建了专用的机器人模拟环境。该框架利用GPU加速技术，不仅支持刚体、流体及粉末动力学模拟，还集成了热传递、基础化学反应动力学及精密仪器逻辑状态。通过NeRF技术，研究人员可将现实仪器快速转化为USD格式虚拟资产，覆盖从宏观实验室布局到微观物质交互的全景仿真。实验表明，该系统支持机器人从虚拟训练到物理场景的Sim-to-Real无缝迁移，显著降低了自动驾驶实验室的开发成本与数据采集门槛。",
          "cover_url": "assets/covers/c12-matterix-chemistry-digital-twin-7eed37a1d7.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-12T12:03:59+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N41_SLIM_Brain_fMRI",
      "slug": "n41-slim-brain-fmri",
      "detail_url": "papers/n41-slim-brain-fmri/",
      "title": "SLIM-Brain: A Data- and Training-Efficient Foundation Model for fMRI Data Analysis",
      "summary": "问题与背景\nFoundation modeling for fMRI faces a hard tradeoff: atlas-based methods are efficient but lose fine spatial detail, while voxel-level methods preserve fidelity at prohibitive memory and training cost.\n\n方法/新意\nSLIM-Brain proposes a more data- and training-efficient fMRI foundation-modeling approach that explicitly targets this bottleneck, aiming to retain useful spatial structure without the full cost of naive voxel-level scaling.\n\n意义/放在仓库中的位置\nThis fits squarely within the repository's NeuroAI mainline. It is valuable because it tackles a structural bottleneck in fMRI foundation modeling rather than offering just another narrow downstream benchmark.\n\n局限/为何不更高\nIt is still a preprint, and its longer-term importance depends on whether the efficiency/generalization tradeoff remains favorable as stronger large-scale baselines arrive.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-12-26",
      "doi": "",
      "arxiv_id": "2512.21881",
      "collected_at": "",
      "collection_order": 188,
      "source_url": "http://arxiv.org/abs/2512.21881v3",
      "paper_url": "http://arxiv.org/abs/2512.21881v3",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO15_DNA_Diffusion_Regulatory_Design",
      "slug": "bio15-dna-diffusion-regulatory-design",
      "detail_url": "papers/bio15-dna-diffusion-regulatory-design/",
      "title": "Designing synthetic regulatory elements using the generative AI framework DNA-Diffusion",
      "summary": "这篇论文解决的是合成生物学和基因调控设计中的核心问题：如何系统地设计紧凑、细胞类型特异的调控元件。它不是把生成模型简单套到序列上，而是把生成式 AI 直接嵌入到 regulatory design workflow，并做了实验级验证。\n\nDNA-Diffusion 使用不同细胞系的 DNA accessibility 数据训练生成模型，直接产出 200bp 级别的合成调控元件。作者不仅检验了生成序列的转录因子结合语法和细胞类型特异性，还用大规模 STARR-seq 和 EXTRA-seq 验证了功能效果，甚至展示了对内源基因的调控。\n\n它值得正式收录，是因为这是生成式 AI 在基因调控设计中的强工作流条目：模型、设计目标、实验验证和内源调控演示形成了完整闭环。相比很多“生成序列然后做少量验证”的论文，这篇更接近真正可复用的 biological design pattern。\n\n它没有升到更高等级，是因为应用边界仍然集中在 regulatory element design，虽然外溢很强，但还没有到会重构更广泛生命科学基础模型路线的层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-12-23",
      "doi": "10.1038/s41588-025-02441-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 187,
      "source_url": "https://doi.org/10.1038/s41588-025-02441-6",
      "paper_url": "https://doi.org/10.1038/s41588-025-02441-6",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "哈佛博德研究所发布 DNA-Diffusion：用生成式 AI 编写生命代码，精准唤醒抗癌基因",
          "url": "https://www.bilibili.com/video/BV1aS5G6tEa7",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1aS5G6tEa7",
            "https://youtu.be/pYrWUH667sA"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "designing synthetic regulatory elements using the generative ai framework dna diffusion",
          "description": "哈佛博德研究所推出的 DNA-Diffusion 框架，致力于通过生成式 AI 解决基因治疗中调控序列设计难、载体空间受限的痛点。该模型采用扩散模型架构，能够从零生成仅 200 个碱基对的紧凑合成增强子。实验数据显示，生成序列与天然序列重合率仅为 0.6%，但在白血病细胞中激活抗癌基因 AXIN2 的能力显著超越了天然序列。这一技术突破将基因调控的“语法”学习转化为工程化设计，为开发更高效、更安全的微型化精准基因疗法提供了有力支撑，标志着人类具备了定制化编写生命程序开关的能力。",
          "x_post": "哈佛博德研究所发布 DNA-Diffusion，生成 200bp 合成增强子精准调节抗癌基因\n针对基因疗法中病毒载体载量有限及调控序列特异性不足的问题，研究团队开发了基于扩散模型的生成式 AI 框架 DNA-Diffusion。该模型利用 U-Net 架构通过细胞类型提示词（Prompt）进行条件生成，可从零构建长度仅 200bp 的紧凑型合成增强子。实验数据显示，生成序列与天然序列的重合率仅为 0.6%，且 Jensen-Shannon 散度低至 0.1，证明其在保持高度原创性的同时精准掌握了转录因子结合规律。在白血病细胞测试中，该合成序列通过 EXTRA-seq 成功实现了对抑癌基因 AXIN2 的高效上调，活性表现优于天然序列，为开发微型化精准基因疗法提供了工程化设计范式。",
          "cover_url": "assets/covers/bio15-dna-diffusion-regulatory-design-fc0c3d5e0f.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-12T13:56:09+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N29_Brain_Surface_Volume_Registration",
      "slug": "n29-brain-surface-volume-registration",
      "detail_url": "papers/n29-brain-surface-volume-registration/",
      "title": "Unified Brain Surface and Volume Registration",
      "summary": "脑 MRI 配准长期分裂成两条路线：体素配准和皮层表面配准分别处理，这会在跨被试神经科学分析里引入不一致。本文解决的问题是：能否用统一框架同时对体积与表面进行一致配准，让脑表面和脑内部解剖在同一表示里被对齐。\n\n作者提出 NeurAlign，用体积-表面联合表示做 3D 脑 MRI 配准，并引入中间球面坐标空间连接皮层拓扑与体积解剖。方法上不是简单叠加两个配准器，而是把 surface registration 显式整合进学习过程，确保几何一致性。摘要里报告在 in-domain 和 out-of-domain 数据上都优于经典方法和现有学习方法，Dice 最高提升约 7 个点，同时保持规则形变。\n\n这篇论文适合认知科学 / 脑影像主线，尤其和 BrainIAC、Prima 一起看，会形成“brain foundation model 之前的数据几何底座”这一视角。对跨被试神经成像、结构功能对齐、脑图谱构建都有直接价值。\n\n它归为突破性而不是更高一级，因为问题虽重要，但影响仍主要集中在脑影像配准和神经影像方法学层面，尚未形成更广泛的范式重排。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-12-22",
      "doi": "",
      "arxiv_id": "2512.19928",
      "collected_at": "",
      "collection_order": 186,
      "source_url": "https://arxiv.org/pdf/2512.19928.pdf",
      "paper_url": "https://arxiv.org/pdf/2512.19928.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "将2.5小时计算骤降至秒级，MIT与哈佛发布NeurAlign框架实现全脑精准对齐",
          "url": "https://www.bilibili.com/video/BV1grREB6Em7",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1grREB6Em7",
            "https://youtu.be/2GdlEYXD-A8"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "unified brain surface and volume registration",
          "description": "MIT、哈佛医学院与麻省总医院研究团队针对大脑MRI配准效率低、内外结构不一致的难题，发布了NeurAlign深度学习框架。该方法通过球形坐标空间桥接3D体积与2D皮层网格，首次实现了大脑皮层与内部结构的统一对齐。相比传统方法2.5小时的计算耗时，该框架仅需数秒即可完成推理，且在皮层对齐精度指标上显著优于现有主流算法。这一突破解决了大规模神经科学研究中的计算瓶颈，为理解脑部疾病与脑结构演变提供了更准、更快的自动化分析工具，确保了大脑内外几何结构的连贯性。",
          "x_post": "MIT与哈佛发布NeurAlign框架：实现全脑内外统一配准并将计算耗时从2.5小时降至秒级\n传统大脑MRI配准通常将体积与皮层表面视为独立任务，易导致解剖不一致且在处理大规模队列研究时存在显著的算力瓶颈。\n该研究提出的NeurAlign框架通过球形坐标空间桥接3D体积与2D皮层网格，利用双轨神经网络与皮层一致性损失函数确保内外几何结构的连贯性。\n实验验证显示，该框架在仅需3D MRI扫描图作为推理输入的情况下，将配准耗时从2.5小时缩短至秒级，且在皮层对齐Dice分数上显著优于现有经典算法。\n这一自动化工具为大规模神经科学研究提供了更高效的坐标对齐方案，有助于精准分析脑部疾病及解剖结构的演变过程。",
          "cover_url": "assets/covers/n29-brain-surface-volume-registration-2fff00c124.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-02T10:23:36+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "ENV1_Open_World_Ecological_Taxonomy",
      "slug": "env1-open-world-ecological-taxonomy",
      "detail_url": "papers/env1-open-world-ecological-taxonomy/",
      "title": "Towards AI-Guided Open-World Ecological Taxonomic Classification",
      "summary": "这篇论文处理的是生态与生物多样性监测里一个长期被低估的问题：现实环境中的植物与生态类群识别不是封闭分类，而是同时面临长尾分布、细粒度差异、时空域偏移以及未知类开放集识别。把这些问题拆开做局部提升并不能支撑真实生态监测工作流。\n\n论文提出 Open-World Ecological Taxonomy Classification 这一统一 framing，并据此设计 TaxoNet。核心不是再堆一个更大的 backbone，而是通过 embedding-based encoder 与 dual-margin penalization loss 同时强化稀有类群学习、抑制头部类群支配，并在 urban trees、iNaturalist 植物观测和 herbarium 数据上系统评估。结果说明它不仅比传统 baselines 更稳，而且直接暴露出通用多模态基础模型在植物域上的明显边界。\n\n按这次扩展后的仓库口径，这篇论文已经不只是 biodiversity application。它给出了一个可以复用的 open-world ecological taxonomy interface，对 biodiversity monitoring、conservation planning 以及面向生态领域的 foundation-model 评估都具有长期参考价值。对于环境与生态方向，这是少见真正从问题定义层面前移的 AI 条目。\n\n它没有更高一级，因为当前核心任务仍集中在 taxonomic monitoring，而不是进一步进入 restoration、ecosystem intervention 或 broader environmental operations loop。它更像是一个高质量、可复用的方法与评估入口，而不是已经改写环境 AI 默认蓝图的范式级工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "environment_and_ecological_systems",
      "theme_label": "环境与生态系统",
      "published_at": "2025-12-22",
      "doi": "",
      "arxiv_id": "2512.18994",
      "collected_at": "",
      "collection_order": 185,
      "source_url": "https://arxiv.org/pdf/2512.18994.pdf",
      "paper_url": "https://arxiv.org/pdf/2512.18994.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "从实验室走向荒野：TaxoNet破解生态分类难题，让AI在复杂现实中读懂自然",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "towards ai guided open world ecological taxonomic classification",
          "description": "针对现实生态监测中面临的长尾分布、细粒度差异及开放集挑战，本研究提出TaxoNet架构。针对传统模型易受常见物种主导而忽视稀有物种的问题，TaxoNet核心引入双边界惩罚损失函数，通过抑制头部类别扩张并增强尾部类别内聚，显著提升了濒危物种的识别精度。此外，结合基于范数的样本选择策略，有效应对地理与季节变化带来的领域偏移。实验证明，该模型在多个大型植物数据集上的表现优于现有主流算法及GPT-4o等通用大模型，为生物多样性保护提供了更为精准的领域专属AI工具。",
          "x_post": "昌原国立大学等团队发布 TaxoNet 架构，通过双边界惩罚机制提升稀有物种识别精度并超越 GPT-4o\n\n现实生态监测面临严重的样本长尾分布、细粒度特征差异及地理季节偏移等挑战，导致传统 AI 模型常因常见物种的主导地位而忽视稀有物种。\n本研究提出 TaxoNet 架构及其配套的 OWETC 统一框架，核心引入“双边界惩罚损失函数（Dual-Margin Penalization Loss）”。该机制通过抑制头部类别的过度扩张并增强尾部类别的特征内聚，结合基于嵌入向量范数的样本筛选策略，显著重塑了特征空间的引力平衡。\n实验结果显示，TaxoNet 在多个大型林木与草本植物数据集上的分类表现均优于现有主流算法；在特定领域的精细化分类任务中，其性能亦超越了 GPT-4o 等通用多模态大模型。\n该工作为开放世界下的生物多样性监测提供了高可靠性的领域专属工具，有效解决了 AI 模型从实验室走向复杂自然环境时的泛化瓶颈。",
          "cover_url": "assets/covers/env1-open-world-ecological-taxonomy-c99e1ecc85.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T20:00:02+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N44_Uni_Neur2Img",
      "slug": "n44-uni-neur2img",
      "detail_url": "papers/n44-uni-neur2img/",
      "title": "Uni-Neur2Img: Unified Neural Signal-Guided Image Generation, Editing, and Stylization via Diffusion Transformers",
      "summary": "问题与背景\n脑信号驱动图像生成已有不少工作，但多数只做单一任务，例如重建、编辑或风格迁移中的一种，而且常常依赖固定文本中介或单模态条件。Uni-Neur2Img 想解决的是“能不能把 neural-signal-guided generation 做成一个统一框架”。\n\n方法/新意\n作者提出统一的 diffusion transformer 框架，用 LoRA 式 neural signal injection 模块把不同神经信号作为可插拔条件输入，同时结合 causal attention 支持更长条件序列。论文还引入 EEG-Style 数据集，把生成、编辑和风格化三类任务统一起来评测。\n\n意义/放在仓库中的位置\n这篇适合归入 NeuroAI / brain decoding 主线，和 Brain-Gen、The Pictorial Cortex 一起构成“脑信号到图像生成”的支线。它的价值在于强调统一性和可扩展性，而不是只在某一个 EEG reconstruction benchmark 上刷分。\n\n局限/为何不更高\n目前仍是 arXiv 预印本，且任务外溢性主要集中在神经信号驱动图像生成这一小方向。它值得收，但还不到 foundation-model 级别的 NeuroAI 影响力。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-12-21",
      "doi": "",
      "arxiv_id": "2512.18635",
      "collected_at": "",
      "collection_order": 184,
      "source_url": "https://arxiv.org/abs/2512.18635",
      "paper_url": "https://arxiv.org/abs/2512.18635",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "复旦浙大联合发布 Uni-Neur2Img：用意念直接生成并编辑高清图像，开启脑机接口创作新纪元",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "uni neur2img unified neural signal guided image generation editing and stylization via diffusion transformers",
          "description": "复旦大学、浙江大学与新加坡国立大学研究团队联合发布Uni-Neur2Img，聚焦脑机接口视觉生成领域。针对传统方法在处理非平稳脑电信号（EEG）时存在的图像失真与任务局限，该研究采用基于FLUX架构的扩散Transformer，引入LoRA神经注入模块与因果注意力机制。该方案无需修改模型基座，通过神经适配器实现了脑电特征与视觉语义的直接映射。实验证明，该框架在图像保真度、编辑一致性上表现出色，成功统一了脑控生成、编辑与风格化任务，为残障人士辅助交互及艺术创作提供了新工具。",
          "x_post": "复旦浙大NUS联合提出Uni-Neur2Img：基于FLUX架构实现脑电图引导的图像生成与编辑统一框架。\n【问题背景】针对非平稳脑电信号（EEG）在视觉重建中存在的图像失真、任务单一及语义对齐困难等挑战。\n【核心方法】采用扩散Transformer（DiT）架构，引入LoRA神经注入模块与因果注意力机制，通过Neural Adapter绕过文字解码直接实现脑电特征与视觉语义的映射。\n【关键证据】实验表明，该框架在无需修改基座模型的前提下，于图像保真度、编辑一致性及风格还原度上均表现优异，并构建了首个专门用于脑电驱动风格迁移的EEG-Style数据集。\n【结论与边界】Uni-Neur2Img 成功统一了脑控图像生成、编辑与风格化任务，为残障人士辅助交互及脑机接口艺术创作提供了高保真度的技术路径。",
          "cover_url": "assets/covers/n44-uni-neur2img-7b724fc658.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T13:36:37+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N42_Brain_Gen",
      "slug": "n42-brain-gen",
      "detail_url": "papers/n42-brain-gen/",
      "title": "Brain-Gen: Towards Interpreting Neural Signals for Stimulus Reconstruction Using Transformers and Latent Diffusion Models",
      "summary": "问题与背景\n传统 EEG 解码往往停留在低层重建或类别预测，难以兼顾语义解释性、跨类别泛化和高质量视觉重建。Brain-Gen 针对的正是“如何从高噪声 EEG 中提取能驱动视觉生成的语义表征”这一 NeuroAI 难题。\n\n方法/新意\n论文用 transformer 提取 EEG 的时空表示，再把这些表征注入潜变量扩散模型的注意力层，用于重建对应的视觉刺激。方法的新意不只是“用扩散模型做脑信号生成”，而是强调语义结构建模和 zero-shot 泛化，而不是仅追求像素级拟合。\n\n意义/放在仓库中的位置\n这篇适合放在 NeuroAI 主线，和 BrainIAC、Prima、The Pictorial Cortex 同类，代表“脑信号到可解释生成”的一条重要支线。它对 EEG 这种更廉价、更噪声的神经信号模态特别有价值。\n\n局限/为何不更高\n目前仍是 arXiv 预印本，实验规模和临床外溢性都还不如仓库里最强的脑基础模型工作。它是高质量方向论文，但还不是那种会重排整个 NeuroAI 版图的平台级成果。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-12-21",
      "doi": "",
      "arxiv_id": "2512.18843",
      "collected_at": "",
      "collection_order": 183,
      "source_url": "https://arxiv.org/abs/2512.18843",
      "paper_url": "https://arxiv.org/abs/2512.18843",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "开启“脑机直连”交互时代：Brain-Gen 利用扩散模型，将人类视觉想象直接转化为高保真图像",
          "url": "https://www.bilibili.com/video/BV1od5R6WEAW",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1od5R6WEAW",
            "https://youtu.be/lIQhA1viqXU"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "brain gen towards interpreting neural signals for stimulus reconstruction using transformers and latent diffusion models",
          "description": "Brain-Gen 研究团队在神经信号解码领域取得重要进展。针对传统线性解码方法受限于低信噪比与维度灾难、仅能生成模糊像素的难题，该研究提出了一套创新架构。系统首先通过 fMRI 捕捉视觉皮层的高维神经体素，利用 Transformer 的自注意力机制提取深层神经表征，并将其精确映射至 CLIP 视觉-语义空间，最后由潜在扩散模型完成高保真图像的逆向渲染。实验证明，该方法能将复杂的神经活动转化为语义对齐的具象图像，实现了从生物信号到高清视觉输出的质变。这不仅显著提升了从大脑数据中提取信息的准确性，也为人类理解视觉感知的数字化途径提供了重要参考，开启了神经直连交互的新可能。",
          "x_post": "Brain-Gen 团队利用 Transformer 与扩散模型实现从 fMRI 信号到高保真图像的语义级神经解码\n\n针对传统线性解码受限于低信噪比与维度灾难、仅能生成模糊像素的难题，Brain-Gen 提出了一种从“像素映射”转向“概念理解”的新范式。该架构首先通过 fMRI 捕捉视觉皮层的高维神经体素，利用 Transformer 的自注意力机制提取深层神经表征。随后，研究将编码后的神经信号精确映射至 CLIP 视觉-语义空间，并由潜在扩散模型完成图像的逆向渲染。实验表明，该方法成功实现了从非侵入式生物信号到高保真视觉输出的跨越。这一成果显著提升了大脑数据解析的准确性，为视觉感知的数字化解码及神经直连交互提供了重要技术路径。",
          "cover_url": "assets/covers/n42-brain-gen-52a4918b74.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T13:35:54+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N25_BRAT_Brain_MRI",
      "slug": "n25-brat-brain-mri",
      "detail_url": "papers/n25-brat-brain-mri/",
      "title": "brat: Aligned Multi-View Embeddings for Brain MRI Analysis",
      "summary": "这篇论文关注脑 MRI 分析里的一个实际难点：同一病例往往存在多视角、多序列或多切面信息，但现有模型对这些视图之间的一致性与互补性利用不足。作者提出 brat，通过对齐多视角嵌入来提升脑 MRI 分析的鲁棒性与泛化能力。\n\n方法上，brat 的核心是多视角对齐表征学习：让来自同一病例、不同视图的信息在嵌入空间中靠近，同时保持对病理相关差异的敏感。它不是简单拼接输入，而是把跨视图一致性本身变成训练信号。\n\n这篇文章适合放在认知/脑科学主线里的“脑影像方法学”分支。它不是 foundation model 那种路线级工作，但在脑 MRI 表征学习上方法清晰、外溢面稳定，对后续多模态神经影像分析有实际参考价值。\n\n它没有上升到更高一级，主要因为影响范围仍集中在脑 MRI 分析方法，而不是更广的基础模型或临床工作流平台；同时证据仍主要来自特定任务设定，不足以说已重排整个 neuroimaging 方法格局。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-12-21",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 182,
      "source_url": "https://openaccess.thecvf.com/content/WACV2026/papers/Kayser_brat_Aligned_Multi-View_Embeddings_for_Brain_MRI_Analysis_WACV_2026_paper.pdf",
      "paper_url": "https://openaccess.thecvf.com/content/WACV2026/papers/Kayser_brat_Aligned_Multi-View_Embeddings_for_Brain_MRI_Analysis_WACV_2026_paper.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让 AI 像专家一样审阅 3D 脑部核磁，牛津大学等团队攻克特征坍缩难题，发布 brat 图像基座模型",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "brat aligned multi view embeddings for brain mri analysis",
          "description": "牛津大学、MSKCC 等团队在神经影像 AI 领域取得突破。针对传统 3D 脑部 MRI 分析中 AI 往往只能捕捉单一特征而导致“特征坍缩”的难题，研究团队推出了 brat 框架。该框架通过多视角嵌入技术、PVA 算法及 DPP 损失函数，强制模型在 3D 空间内实现全景感知与临床报告的精准对齐。基于规模超现有十倍、包含 8 万例影像的 MSKBrain 数据集训练，模型在肿瘤分割、疾病分类及报告生成任务中表现卓越。该研究通过开源基座模型权重，显著提升了医疗 AI 审阅复杂核磁影像的精准度与效率。",
          "x_post": "牛津大学与 MSKCC 推出 brat 基座模型，基于 8 万例数据攻克 3D 脑部 MRI 特征坍缩\n\n针对传统 3D 医疗影像分析中 AI 常因“特征坍缩”导致无法捕捉局部微小病灶的难题，研究团队发布了 brat 框架。该模型通过成对视图对齐（PVA）与基于行列式点过程（DPPs）的质量多样性损失函数，强制多视角嵌入在 3D 空间内实现全景感知，有效解决了视觉特征与临床描述的失配问题。\n\n研究依托 MSKBrain 数据集，包含约 8 万对扫描影像及其对应报告，规模较现有同类数据集扩大 10 倍以上，且通过 GPT-4 驱动的纯化流程实现了 96% 的注释准确率。实验表明，brat 在肿瘤分割、阿尔茨海默病分类及自动报告生成等任务中表现优异。目前该模型的基础权重已向社会公开，旨在推动神经影像学 AI 的临床转化与应用。",
          "cover_url": "assets/covers/n25-brat-brain-mri-5302499a8b.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-19T20:10:48+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW3_Wearable_AI_Frailty",
      "slug": "hw3-wearable-ai-frailty",
      "detail_url": "papers/hw3-wearable-ai-frailty/",
      "title": "Wearable AI for on-device frailty assessment",
      "summary": "这篇论文聚焦连续运行的临床级可穿戴设备如何在边缘侧长期执行高频生理信号分析。问题不只是分类精度，而是如何让设备在周到月尺度的持续监测中真正可部署，避免把大量原始数据回传云端或依赖高功耗无线链路。\n\n论文提出了一个把临床级 biosignal acquisition、边缘侧 AI 推理和长期 автоном运行放到同一设备框架里的方案。核心不是单个模型本身，而是把 on-device inference、低干预连续运行和 gait-based frailty assessment 打成一个完整硬件-软件闭环，并在 extended wear 实验中验证稳定性。\n\n对仓库而言，这篇论文的价值在于它把 AI 对消费/医疗可穿戴硬件的作用从附加分析模块推进到设备级 operating pattern：AI 直接决定数据如何被压缩、理解和长期使用，使这类设备更接近真正可部署的边缘智能产品。\n\n它没有被放到更高等级，是因为当前影响仍主要集中在 frailty assessment 这一条医疗 wearable 任务线上，通用性和跨品类外溢还不足以成为更强的硬件范式条目。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2025-12-20",
      "doi": "10.1038/s41467-025-67728-y",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 181,
      "source_url": "https://doi.org/10.1038/s41467-025-67728-y",
      "paper_url": "https://doi.org/10.1038/s41467-025-67728-y",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "预警死亡风险高6倍的衰弱症，亚利桑那大学AI设备实现无感健康筛查",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "wearable ai for on device frailty assessment",
          "description": "亚利桑那大学研究团队针对老年健康领域，开发了名为BEAD的生物共生边缘人工智能设备。传统衰弱症评估存在严重滞后，且连续监测面临海量数据处理与续航瓶颈。该设备采用3D打印柔性设计与远场无线充电，核心技术在于集成MINIROCKET等低功耗算法，在本地直接处理步态数据。临床试验显示，该方案在将数据传输量降低约99%的同时，识别精度媲美医学金标准。这一突破让医疗系统能从被动应对转向预防性干预，实现了居家环境下对高风险衰弱症的长期精准监测。",
          "x_post": "亚利桑那大学研发BEAD边缘AI设备，实现数据传输量降低99%的衰弱症无感筛查\n衰弱症患者的3年死亡率高达健康人群的6倍，但传统临床评估受限于环境与频次，难以实现早期预警。亚利桑那大学团队开发的BEAD设备采用3D打印柔性设计与远场无线充电，实现了居家环境下的无感化监测。\n该设备核心在于集成了MINIROCKET等低功耗机器学习算法，在218Hz高频采样环境下直接进行本地步态特征提取与推理。临床试验数据表明，该系统在将原始数据传输量降低约99%的同时，步态识别精度媲美医学金标准设备。\n这种生物共生边缘人工智能方案解决了连续监测中的功耗与数据冗余瓶颈，为老年群体的长期、预防性健康干预提供了可核验的技术路径。",
          "cover_url": "assets/covers/hw3-wearable-ai-frailty-df48da0613.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-02T10:22:13+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO17_SPURS_Protein_Stability",
      "slug": "bio17-spurs-protein-stability",
      "detail_url": "papers/bio17-spurs-protein-stability/",
      "title": "Generalizable and scalable protein stability prediction with rewired protein generative models",
      "summary": "蛋白稳定性预测是蛋白工程里最基础也最难泛化的能力之一。很多模型在特定数据集上可以做得不错，但一旦换蛋白家族、换突变分布或换实验条件，性能就很容易掉下来。这篇论文切的是“能不能做一个真正可泛化、可扩展的稳定性建模基础设施”。\n\n方法上，论文把 protein generative models 做了 rewiring，让生成式表征不再只服务于序列生成，而是转化成更适合 stability prediction 的统一表征接口。重点不只是精度提升，而是把大规模生成模型改造成一个可迁移的稳定性预测 backbone。\n\n这篇论文值得收录，因为它为 protein engineering 提供了更像基础设施的稳定性建模工具。相比窄任务 predictor，这类工作更接近可复用的 representation layer，会外溢到 mutational scanning、protein design、developability 评估等多个环节。\n\n它不是更高一级，因为当前贡献仍主要集中在 stability 这一关键但单一属性上，还没有直接形成端到端实验闭环或多目标设计框架。它很强，但还属于重要基础层而不是完整 workflow 重构。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-12-20",
      "doi": "10.1038/s41467-025-67609-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 180,
      "source_url": "https://www.nature.com/articles/s41467-025-67609-4",
      "paper_url": "https://www.nature.com/articles/s41467-025-67609-4",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "30分钟扫描全人类蛋白质组：SPURS实现O(1)复杂度突破，单显卡重塑预测效率",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "generalizable and scalable protein stability prediction with rewired protein generative models",
          "description": "准确预测蛋白质热稳定性变化（ΔΔG）是生物工程与医药研发的核心难题。本研究提出 SPURS 框架，旨在解决现有深度学习模型在稀缺数据下泛化性差且计算成本高的问题。该方法创新性地通过 Adapter 插件机制重连了蛋白质语言模型 ESM2 与逆折叠模型 ProteinMPNN，在冻结 98.5% 参数的情况下实现了序列进化规律与三维结构特征的深度融合。基于 Megascale 百万级数据集的微调，SPURS 将突变扫描的计算复杂度从 O(L×20) 优化至 O(1)，仅需单次前向传播即可预测所有单点突变。实验证明，该模型在单张显卡上仅需 30 分钟即可完成整个人类蛋白质组的稳定性扫描，在未知蛋白泛化与致病机制解析中展现了高精确度与扩展性。",
          "x_post": "佐治亚理工学院发布 SPURS：重连生成模型实现 O(1) 复杂度蛋白质稳定性预测，30分钟扫描全人类蛋白质组。\n\n准确预测蛋白质热稳定性变化（ΔΔG）是生物工程的核心，但现有模型常面临数据稀缺导致的过拟合与高昂的计算成本。SPURS 框架通过 Adapter 插件机制，将蛋白质语言模型 ESM2 的进化先验与逆折叠模型 ProteinMPNN 的结构特征深度融合。\n\n该方法在冻结 98.5% 参数的情况下，基于 Megascale 百万级数据集进行微调，成功将突变扫描的计算复杂度从 O(L×20) 优化至 O(1)。实验证明，SPURS 在单张显卡上仅需 30 分钟即可完成约 2 万个人类蛋白质的饱和突变扫描。\n\n研究结果显示，SPURS 在处理未知蛋白质和突变时具有极强的泛化能力，为鉴定功能残基及解析人类疾病致病机制提供了高效的计算工具。",
          "cover_url": "assets/covers/bio17-spurs-protein-stability-883fc4a20c.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T03:58:22+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P16_PDE_Agent",
      "slug": "p16-pde-agent",
      "detail_url": "papers/p16-pde-agent/",
      "title": "PDE-Agent: A toolchain-augmented multi-agent framework for PDE solving",
      "summary": "这篇论文关心的是 PDE 求解流程自动化。传统 PDE 求解高度依赖人工设置方程、离散化、边界条件和求解工具选择，即便 PINN 或 DeepXDE 这类框架提高了自动化程度，也仍然需要大量专家介入。\n\nPDE-Agent 把 PDE 求解重构成 tool invocation 问题，用一个 toolchain-augmented multi-agent framework 让 LLM 智能体调用符号、数值和求解工具协作完成任务。重点是把“求解 PDE”从单模型拟合问题改成多工具协同问题。\n\n它在仓库中属于 AI for science / agentic scientific computing 主线，和 AutoNumerics、QUASAR 这一类工作是近邻。价值在于它体现了科学计算工作流 agent 化的方向。\n\n它没有更高，是因为目前仍更像功能完整的研究原型，距离在科学计算社区形成压倒性平台地位还有差距。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-12-18",
      "doi": "",
      "arxiv_id": "2512.16214",
      "collected_at": "",
      "collection_order": 179,
      "source_url": "https://arxiv.org/pdf/2512.16214.pdf",
      "paper_url": "https://arxiv.org/pdf/2512.16214.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "中科院发布首个PDE-Agent：一句话零代码求解物理方程，让科学计算告别专家手工编程",
          "url": "https://www.bilibili.com/video/BV1djRWBcEbj",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1djRWBcEbj",
            "https://youtu.be/BVos7rhCucU"
          ],
          "main_collection": "AI智能体",
          "match": "pde agent a toolchain augmented multi agent framework for pde solving",
          "description": "中科院与中国科学院大学团队针对物理科学计算领域，发布了首个专为偏微分方程（PDE）自动求解设计的多智能体框架 PDE-Agent。长期以来，物理方程求解高度依赖专家手动编程与复杂的网格划分，且大语言模型在处理严谨科学计算时常面临幻觉难题。该框架通过 Prog-Act 渐进式推理机制，驱动规划师、执行器等多个智能体协同调用专业工具链，将模糊的自然语言指令转化为严谨的数值运算。实验数据表明，PDE-Agent 在复杂多步任务中的成功率高达 90%，显著优于现有代码生成方案。这一成果将科研建模门槛降至零代码水平，让复杂物理模拟变得更快、更准且更易普及，为自动化科学发现提供了新范式。",
          "x_post": "中科院及国科大团队发布PDE-Agent：复杂物理方程求解成功率达90%\n物理方程求解长期依赖专家手动编程，大语言模型在处理此类严谨科学计算时常面临逻辑幻觉与领域知识匮乏的挑战。\n该研究提出首个工具增强型多智能体框架PDE-Agent，核心采用Prog-Act渐进式推理机制与图记忆实现高效的全局规划与局部纠错。\n基于包含100个测试案例的PDE-Data基准测试显示，该框架在复杂多步任务中的成功率达90%，显著优于现有的单一智能体或代码生成方案。\n这种零代码自动化求解范式在提升计算严谨性的同时降低了科研建模门槛，为实现高可靠性的科学研究探索提供了技术支撑。",
          "cover_url": "assets/covers/p16-pde-agent-4366d57415.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T15:40:36+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM11_Seeing_Beyond_Words",
      "slug": "mm11-seeing-beyond-words",
      "detail_url": "papers/mm11-seeing-beyond-words/",
      "title": "Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models",
      "summary": "## 问题与背景\n问题与背景：很多多模态大模型虽然会看图，但视觉表征仍然过度依赖文本对齐或语言监督，导致视觉能力本身并不扎实。\n\n## 方法/新意\n方法/新意：这篇工作强调把 self-supervised visual learning 重新放回多模态大模型训练中心，让视觉端学到更强、更独立的表征，而不只是给语言模型提供附属输入。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：它属于多模态基础模型主线，和 Beyond Language Modeling、VL-JEPA 同属“不要只围着 token-level language modeling 转”的路线。\n\n## 局限/为何不更高\n局限/为何不更高：它是强方向论文，但还没有像更完整的多模态路线图论文那样给出更强的统一架构与系统性证据，因此先归为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2025-12-17",
      "doi": "",
      "arxiv_id": "2512.15885",
      "collected_at": "",
      "collection_order": 178,
      "source_url": "https://arxiv.org/abs/2512.15885",
      "paper_url": "https://arxiv.org/abs/2512.15885",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "摩德纳大学联合AMD发布JARVIS：引入自监督掩码预测，解决多模态大模型空间感知混乱的顽疾",
          "url": "https://www.bilibili.com/video/BV14bRhBKEho",
          "platform_urls": [
            "https://www.bilibili.com/video/BV14bRhBKEho",
            "https://youtu.be/QgIjqmisxSM"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "seeing beyond words self supervised visual learning for multimodal large language models",
          "description": "摩德纳大学与AMD团队针对多模态大模型视觉感知薄弱的问题，推出了JARVIS框架。研究发现传统模型过度依赖文本描述，导致其在空间关系、物体计数等基础任务中表现不佳。该方法引入I-JEPA自监督掩码预测范式，让大语言模型直接预测被遮盖的图像特征，从而深度理解图像物理规律。实验证明，JARVIS在多个视觉基准测试中显著提升了感知精度，且未损害原有的多模态推理能力。这使得模型能更准确地识别物理细节，减少视觉幻觉，实现了从文字理解向真实视觉观察的跨越。",
          "x_post": "摩德纳大学联合AMD发布JARVIS框架：引入自监督掩码预测，解决多模态模型空间感知缺失瓶颈\n\n研究发现，现行MLLM过度依赖文本标注进行对齐，导致其在空间关系与物体计数等任务中表现欠佳，文本描述通常仅能覆盖不足10%的物理视觉细节。JARVIS框架引入I-JEPA自监督范式，利用大语言模型作为预测器，在不依赖文本中介的情况下于隐空间内重建被掩蔽的图像特征。实验证据表明，该方法在显著提升视觉感知精度、减少视觉幻觉的同时，有效保留了原有的多模态推理效能。这一工作推动了模型从“阅读”图片向主动理解物理规律的范式转移。",
          "cover_url": "assets/covers/mm11-seeing-beyond-words-497b3dcce5.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T15:35:30+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C5_StructBioReasoner_IDP",
      "slug": "c5-structbioreasoner-idp",
      "detail_url": "papers/c5-structbioreasoner-idp/",
      "title": "Scalable Agentic Reasoning for Designing Biologics Targeting Intrinsically Disordered Proteins",
      "summary": "这篇论文关注一个很难的生物设计问题：针对 intrinsically disordered proteins 设计可行的 biologics。难点在于靶点结构不稳定、设计空间大、需要跨越检索、推理和候选筛选多个环节。\n\n方法上，作者不是单纯训练一个生成模型，而是引入 agentic reasoning 流程，把知识检索、约束整合、候选生成和迭代筛选串成一个面向 biologics 设计的自动化推理过程。重点在于让系统能处理目标定义不完整、证据分散的真实科研环境。\n\n它适合放在 AI for biology / scientific agents 主线。相比单纯蛋白生成模型，这篇更强调“以研究流程为中心”的候选发现方式，因此有明显的平台外溢价值。\n\n它没有升到更高一级，因为目前仍主要停留在 arXiv 阶段，且影响面更集中在特定生物设计任务；距离像 AlphaGenome 那样的基础模型级外溢还有差距。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-12-17",
      "doi": "",
      "arxiv_id": "2512.15930",
      "collected_at": "",
      "collection_order": 177,
      "source_url": "https://arxiv.org/pdf/2512.15930.pdf",
      "paper_url": "https://arxiv.org/pdf/2512.15930.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "攻克80%癌症蛋白，阿贡发布StructBioReasoner挑战不可成药靶点",
          "url": "https://www.bilibili.com/video/BV1VBRFBfEjf",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1VBRFBfEjf",
            "https://youtu.be/jTWH5l9Wvdw"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "scalable agentic reasoning for designing biologics targeting intrinsically disordered proteins",
          "description": "阿贡国家实验室与芝加哥大学团队在计算生物学领域发布了StructBioReasoner系统。针对占癌症相关蛋白80%以上、因缺乏稳定结构而长期被视为“不可成药”靶点的天然无序蛋白（IDP），该研究构建了由大模型驱动的多智能体推理框架。系统集成了文献分析、扩散模型生成及分子动力学模拟等工具，在超算平台上实现了从靶点推理到药物设计的自主闭环。基准测试显示，超50%的系统生成候选药物在结合力指标上优于人工设计方案。该成果将传统的串行实验转变为大规模并行自动化流程，显著提升了复杂抗癌药物的研发效率与成功率。",
          "x_post": "阿贡国家实验室发布 StructBioReasoner，针对 IDP 靶点生成的候选药物超 50% 优于人工水平\n研究发现约 80% 的癌症相关蛋白为天然无序蛋白（IDP），因缺乏固定三维结构，传统基于结构的药物设计长期面临“不可成药”困境。阿贡国家实验室与芝加哥大学团队构建了 StructBioReasoner 多智能体推理系统，通过大模型驱动文献检索、扩散模型生成及分子动力学模拟，在超算平台上实现自动化闭环。基准测试显示，系统生成的候选药物中有超过半数在模拟结合力指标上超越了现有文献的人工设计方案。该框架通过锦标赛推理机制将传统的串行实验转变为大规模并行自动化流程，为攻克复杂癌症靶点提供了可扩展的新路径。",
          "cover_url": "assets/covers/c5-structbioreasoner-idp-f8b79d4db9.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-02T10:23:31+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P5_PhysiOpt",
      "slug": "p5-physiopt",
      "detail_url": "papers/p5-physiopt/",
      "title": "PhysiOpt: Physics-Driven Shape Optimization for 3D Generative Models",
      "summary": "- 分级：`突破性`\n- 正式标题：`PhysiOpt: Physics-Driven Shape Optimization for 3D Generative Models`\n- 原文：`2025-12-15-P5_PhysiOpt-PhysiOpt_Physics_Driven_Shape_Optimization_for_3D_Generative_Models.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\nPhysiOpt 解决的是一个很实际但长期被忽略的问题：生成式 3D 模型看起来像物体，不代表它们在现实里能承重、能稳定、能制造。作者提出把可微物理约束直接接入 3D 生成模型的潜空间优化过程，不是事后筛掉坏结果，而是在生成结果上做 physics-driven shape optimization，让对象在满足载荷、边界条件和材料约束的前提下变得可制造、可使用。\n\n论文的关键在于，它不要求重训整个 3D 生成模型，而是把现有生成器作为先验，再在其潜空间里做物理可行性优化。这样一来，系统既保留了生成模型的形状多样性和语义控制能力，又能通过 differentiable physics 把“好看”推向“真的能用”。这使它很适合 3D 打印、快速原型和具身机器人相关设计任务。\n\n## 为什么重要\n\n很多 3D 生成工作停留在视觉层面，PhysiOpt 则把生成系统和第一性物理约束接起来。这类方法对 AI 走向物理世界很关键，因为它直接减少了“数字幻觉”和现实可制造性之间的裂缝。\n\n## 局限\n\n该工作在 IBM 页面标注为 `2025-12-15`，属于较接近你原始窗口的高影响条目。它的效果仍依赖物理仿真精度、约束设定和底层 3D 生成先验质量；真实制造中的材料误差和工艺噪声仍可能带来落差。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-12-15",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 176,
      "source_url": "https://research.ibm.com/publications/physiopt-physics-driven-shape-optimization-for-3d-generative-models",
      "paper_url": "https://research.ibm.com/publications/physiopt-physics-driven-shape-optimization-for-3d-generative-models",
      "project_urls": [
        "https://research.ibm.com/publications/physiopt-physics-driven-shape-optimization-for-3d-generative-models"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "MIT-IBM 实验室发布 PhysiOpt，让 AI 模型告别一碰就碎，实现百倍加速的物理形状优化",
          "url": "https://www.bilibili.com/video/BV1HnL26gEAR",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1HnL26gEAR"
          ],
          "main_collection": "AI硬件设计",
          "match": "physiopt physics driven shape optimization for 3d generative models",
          "description": "MIT-IBM实验室在3D生成与物理仿真领域取得突破，针对TRELLIS等大模型生成的3D物体存在“结构脆弱、重心失衡”等无法实物化的痛点，推出了PhysiOpt框架。该方法首创将可微分物理模拟器直接植入AI潜空间，通过创新的体素化桥梁打通了连续隐式场与有限元分析。实验证明，PhysiOpt在保留原始设计美学的同时，实现了百倍级的优化加速，使“鳄梨椅”等复杂模型具备了真实的承重能力。这一成果成功桥接了数字生成艺术与实体制造工程，支持实时交互式编辑，大幅提升了AI模型的可制造性。",
          "x_post": "MIT-IBM 实验室发布 PhysiOpt：通过潜空间优化实现 3D 生成模型百倍加速的物理增强。\n\n目前 3D 生成模型（如 TRELLIS）产出的物体常面临结构脆弱、重心失衡等物理缺陷，难以直接用于实体制造。PhysiOpt 框架通过在生成模型的潜空间内植入可微分物理模拟器，实现了对 3D 隐式场的直接力学优化。\n\n该方法利用创新的体素化桥梁打通了连续隐式场与有限元分析（FEM），支持用户根据特定材质、载荷及边界条件进行端到端调整。实验数据证明，PhysiOpt 在保留原始设计语义特征的同时，实现了百倍级的优化加速，并支持实时交互式编辑。\n\n这一成果有效桥接了数字生成艺术与物理工程实践，为具备真实承重能力的 AI 生成物体提供了可靠的可制造性方案。",
          "cover_url": "assets/covers/p5-physiopt-ff51f5a5a3.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-20T11:08:20+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A221_Finch_Finance_Workflow_Benchmark",
      "slug": "a221-finch-finance-workflow-benchmark",
      "detail_url": "papers/a221-finch-finance-workflow-benchmark/",
      "title": "Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows",
      "summary": "Finch 把金融/会计 agent 评测从静态 QA 推到真实企业工作流：任务来自企业邮件、表格版本历史、PDF、图表和多文件上下文，覆盖数据录入、跨表检索、计算建模、验证、翻译、可视化和报告。\n\n它的关键价值不是金融领域本身，而是 workflow realism。172 个复合工作流、384 个任务、1710 个 spreadsheet、2700 万 cell 和 700+ 小时专家标注，使它成为评估 agent 是否能处理 messy enterprise work 的高质量测试床。\n\n收录价值在于它直接对齐主库新增的 finance / audit / operational workflow 方向，并且用真实工作区揭示当前 frontier agents 的能力缺口。GPT-5.1 Pro 平均每个 workflow 花 16.8 分钟但仅通过 38.4%，说明问题不是简单文档问答，而是长程、跨文件、可验证操作。\n\n主要限制是 benchmark 数据集规模仍只有 172 个 workflow，且金融/会计任务可能受文件格式、工具链和评审标准影响；未来需要更多行业、交互式执行和审计安全维度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-12-15",
      "doi": "",
      "arxiv_id": "2512.13168",
      "collected_at": "",
      "collection_order": 175,
      "source_url": "https://arxiv.org/pdf/2512.13168.pdf",
      "paper_url": "https://arxiv.org/pdf/2512.13168.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/FinWorkBench/Finch",
        "https://huggingface.co/datasets/FinWorkBench/Finch"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P15_NeuralOGCM",
      "slug": "p15-neuralogcm",
      "detail_url": "papers/p15-neuralogcm/",
      "title": "NeuralOGCM: Differentiable Ocean Modeling with Learnable Physics",
      "summary": "问题与背景\n海洋和气候动力学建模长期面对一个老问题：传统数值模型物理可信但太慢，纯深度学习模型很快但长期 rollout 容易发散、缺少物理一致性。NeuralOGCM 的目标正是去填这条缝，做一个既快又稳、还能保持物理合理性的海洋动力学模型。\n\n方法与新意\n这篇的核心不是单纯在 PDE 外面包一层网络，而是做了一个 differentiable physics core + neural corrector 的混合体系。物理核心负责大尺度的确定性演化，并把一些关键物理参数变成可学习参数；神经校正器则补偿子网格过程和离散误差。两部分通过统一 ODE 求解器联合训练。\n\n意义与仓库位置\n这是一篇典型的 AI for science 主线论文，适合放在物理/科学机器学习分区。它的价值在于证明“可学习的物理核心”可以作为一类基础设计模式，把传统海洋环流模型和纯数据驱动模型之间的矛盾显著缓和。\n\n局限与为什么不更高一级\n当前主要还是面向海洋动力学这一特定场景，外溢性虽然不差，但还没有到像通用世界模型或科学基础模型那样的广谱影响。它更像一篇高质量、很有方向感的混合科学建模论文，因此归为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-12-12",
      "doi": "",
      "arxiv_id": "2512.11525",
      "collected_at": "",
      "collection_order": 174,
      "source_url": "https://arxiv.org/pdf/2512.11525.pdf",
      "paper_url": "https://arxiv.org/pdf/2512.11525.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "清华中科大等发布首个端到端可微海洋模型，通过物理AI融合实现120天长周期精准预测",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "neuralogcm differentiable ocean modeling with learnable physics",
          "description": "清华大学、中国科学技术大学、香港中文大学等团队在地球科学与AI交叉领域发布了首个端到端可微海洋模型NeuralOGCM。传统海洋模拟长期面临物理模型计算极慢与纯AI模型缺乏物理一致性的困境。该模型创新性地通过可微编程将物理核心与深度学习校正器融合，使物理参数能通过梯度下降自主进化。实验证明，该模型在120天长周期预测中的准确性显著优于纯数据驱动模型，且运行速度相比传统超算模拟实现大幅飞跃，有效抑制了AI预测中的虚假幻觉现象。这一突破为构建高可信、高效率的全球气候预测系统开辟了新路径。",
          "x_post": "清华与中科大等发布首个端到端可微海洋模型NeuralOGCM，实现120天长周期精准预测\n\n海洋环流模拟长期受困于传统物理模型的高计算成本与纯AI模型物理一致性的缺失。NeuralOGCM通过微分编程将可学习的物理核心与神经网络校正器结合，前者负责模拟宏观流体动力学，后者用于补偿亚网格尺度误差。\n\n实验数据表明，该模型在120天预报中的准确性显著优于U-Net等纯数据驱动模型，并有效抑制了AI预测常见的虚假幻觉现象。相比传统超级计算机模拟，其运行速度实现了大幅跨越，且物理参数可通过梯度下降实现自主进化。\n\n该研究证明了物理-AI融合架构在保持物理稳定性与结构连贯性方面的优势，为构建高效、高可信度的地球系统科学模型提供了新的范式。",
          "cover_url": "assets/covers/p15-neuralogcm-0b9762010f.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T13:44:34+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N38_Sensory_Perceptual_Manifolds",
      "slug": "n38-sensory-perceptual-manifolds",
      "detail_url": "papers/n38-sensory-perceptual-manifolds/",
      "title": "From sensory to perceptual manifolds: The twist of neural geometry",
      "summary": "问题与背景\nA central question in perception is how the brain turns sensory inputs that are not linearly separable in physical stimulus space into stable perceptual categories.\n\n方法/新意\nThe paper analyzes the geometry of neural manifolds in macaque V2 during an illusory contour task and distinguishes sensory from perceptual manifolds, showing how category-relevant geometry is reshaped inside the cortex.\n\n意义/放在仓库中的位置\nThis is an important neural-geometry paper for the cognition mainline. It complements representation-learning and brain-alignment work in the repository by grounding abstraction in measured cortical population geometry.\n\n局限/为何不更高\nAlthough conceptually rich, it remains primarily a strong neuroscience finding rather than a widely reusable methodological paradigm, so breakthrough is the right grade.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-12-12",
      "doi": "10.1126/sciadv.adv0431",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 173,
      "source_url": "https://doi.org/10.1126/sciadv.adv0431",
      "paper_url": "https://doi.org/10.1126/sciadv.adv0431",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N37_Cortisol_Salient_Memories",
      "slug": "n37-cortisol-salient-memories",
      "detail_url": "papers/n37-cortisol-salient-memories/",
      "title": "Dynamic brain mechanisms supporting salient memories under cortisol",
      "summary": "问题与背景\nCortisol is known to enhance memory for salient and emotionally charged experiences, but the brain-wide network mechanisms responsible for this effect have remained unclear.\n\n方法/新意\nThe paper combines pharmacological fMRI with dynamic connectome-based predictive modeling to identify high-temporal-resolution whole-brain networks that predict arousal and subsequent memory under cortisol.\n\n意义/放在仓库中的位置\nThis belongs on the cognitive neuroscience mainline as a strong dynamic-network paper on memory formation. It is particularly useful for the repository because it emphasizes temporally resolved whole-brain mechanisms rather than only static localization.\n\n局限/为何不更高\nThe work is a strong domain contribution, but its methodological and conceptual impact is still mostly contained within affective memory neuroscience, so breakthrough is appropriate.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-12-12",
      "doi": "10.1126/sciadv.adz4143",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 172,
      "source_url": "https://doi.org/10.1126/sciadv.adz4143",
      "paper_url": "https://doi.org/10.1126/sciadv.adz4143",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM25_CARI4D_HOI_Reconstruction",
      "slug": "mm25-cari4d-hoi-reconstruction",
      "detail_url": "papers/mm25-cari4d-hoi-reconstruction/",
      "title": "CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction",
      "summary": "该文处理的是一个对机器人感知、人机交互建模和 4D 场景理解都很关键的问题：如何仅从单目 RGB 视频中，在不知道物体模板、类别有限先验也不可靠的情况下，恢复人与物体在时间和空间上都一致的 4D 交互过程。过去的方法通常依赖真值模板，或者只能在少数封闭类别上工作，因此很难迁移到真实开放场景。\n\nCARI4D 的核心贡献是把这一问题首次推进到 category-agnostic 设定。方法先整合多个 foundation model 对人体、物体和场景的独立预测，通过 pose hypothesis selection 得到稳健初始化；然后用 learned render-and-compare 进行联合细化，强制空间、时间与像素层面的对齐；最后再显式推理复杂接触关系，使结果更符合物理约束。这样一来，系统不再依赖固定物体模板，也能在未见类别上做零样本泛化。\n\n这篇论文值得正式收录，因为它对 human-object interaction 的 4D 重建给出了一个更通用的开放类目方案，而不是又一个封闭 benchmark 内的几何优化器。对仓库主线来说，它同时连接了 4D 感知、foundation-model integration、接触推理和机器人可用的交互建模，对 embodied perception 和 robot learning 都有明显外溢价值。\n\n它当前仍是 breakthrough 而不是更高一级，因为主要证据仍集中在单目 RGB 下的 HOI reconstruction 任务，本体上更偏感知层，离通用世界模型或大规模机器人数据引擎还有距离。它能否进一步上升，要看后续是否被广泛用作机器人操作、交互理解或 4D 数据构建的标准底座。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2025-12-12",
      "doi": "",
      "arxiv_id": "2512.11988",
      "collected_at": "",
      "collection_order": 171,
      "source_url": "https://arxiv.org/pdf/2512.11988v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2512.11988v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "英伟达联手图宾根大学推出CARI4D：仅需单目视频还原物理级4D交互，助力具身智能读懂真实世界",
          "url": "https://www.bilibili.com/video/BV1qdAuz2EAA",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1qdAuz2EAA",
            "https://youtu.be/a98SQAiMvVc"
          ],
          "main_collection": "机器人与具身智能",
          "match": "cari4d category agnostic 4d reconstruction of human object interaction",
          "description": "本视频介绍英伟达与图宾根大学联合开发的CARI4D技术，旨在解决单目RGB视频中人机交互（HOI）的4D重建难题。传统方法常受限于特定物体类别或预设三维模板，而CARI4D通过整合基础模型的泛化能力，实现了泛类别的度量级追踪。其核心逻辑在于利用动态位姿假设选择算法与CoCoNet网络，有效解决了复杂动态交互中的深度歧义与严重遮挡问题。实验表明，该系统在重建精度上较现有主流技术提升了约38%。这种无需物体模板、具备零样本泛化能力的设计，为具身智能感知、机器人学习及元宇宙场景理解提供了高效的物理级视觉解法。",
          "x_post": "NVIDIA与图宾根大学联合推出CARI4D：实现单目视频泛类别4D交互重建，精度提升约38%。\n\n单目RGB视频中的人机交互（HOI）重建长期面临物体形态未知、深度歧义及复杂遮挡等挑战。CARI4D通过姿态假设选择算法整合基础模型预测，并利用CoCoNet网络进行精细接触推理，实现了无需物体模板的度量级三维追踪。实验结果显示，该系统在处理复杂交互时的重建精度较现有主流技术提升约38%。其类别无关（Category-Agnostic）的设计展现了极强的零样本泛化能力，为具身智能、机器人学习及元宇宙场景理解提供了高效的物理级视觉感知方案。",
          "cover_url": "assets/covers/mm25-cari4d-hoi-reconstruction-0127317665.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-22T00:03:46+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "GEO2_Prithvi_EO_2_0",
      "slug": "geo2-prithvi-eo-2-0",
      "detail_url": "papers/geo2-prithvi-eo-2-0/",
      "title": "Prithvi-EO-2.0: A Versatile Multitemporal Foundation Model for Earth Observation Applications",
      "summary": "地理空间和遥感方向这几年已经有不少 foundation model，但很多工作仍然停在单模态、单分辨率或单下游任务的窄范围提升，缺少真正可以成为 Earth observation 通用底座的多时序表征模型。Prithvi-EO-2.0 直接把问题放在 multitemporal EO foundation interface 上，试图服务灾害响应、土地覆盖、作物与生态动态监测等一整类任务。\n\n这篇论文的核心在于使用 420 万级全球多时序样本进行训练，并显式引入 temporal 和 location embeddings，使模型在 GEO-Bench 及更广 EO 下游任务中稳定超过前代和多种对比 foundation models。它的贡献不只是一个更大的 remote sensing transformer，而是把多时序 EO 任务的统一表示学习路线做得更清楚、更可复用，并且配套了开源模型和部署入口。\n\n它值得正式收录，因为它对 geospatial / EO 方向提供的是 durable foundation interface，而不是一次性的任务模型。对仓库来说，这类论文比单一洪水、作物或地物分类结果更有长期价值：它改变的是后续多种环境、农业、灾害和生态监测任务应当如何共享表示与迁移能力。\n\n它暂时还不到更高一级，原因是它仍然是 Earth observation 子领域内的强 foundation model，而不是跨模态或跨科学领域的更大范式重排。它的影响大概率会很实在，但目前主要仍局限在 geospatial foundation-model 主线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "geospatial_remote_sensing_and_disaster_systems",
      "theme_label": "地理空间、遥感与灾害系统",
      "published_at": "2025-12-11",
      "doi": "",
      "arxiv_id": "2412.02732",
      "collected_at": "",
      "collection_order": 170,
      "source_url": "https://arxiv.org/pdf/2412.02732.pdf",
      "paper_url": "https://arxiv.org/pdf/2412.02732.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S12_SciSciGPT_Science_of_Science",
      "slug": "s12-sciscigpt-science-of-science",
      "detail_url": "papers/s12-sciscigpt-science-of-science/",
      "title": "SciSciGPT: advancing human-AI collaboration in the science of science",
      "summary": "问题与背景：科学计量和 science of science 工作包含数据收集、清洗、建模、统计分析和可视化等多步骤流程，传统工具难以支持研究者快速迭代复杂分析。\n\n方法与机制：SciSciGPT 是一个开源 AI collaborator 原型，用 LLM 驱动研究工作流自动化、分析策略生成、实验复现和交互式迭代，并提出面向人机协作研究工具的 agent capability maturity model。\n\n为什么重要：它不是单个任务模型，而是把科学研究流程作为 agent 系统的测试床，展示了从代码、数据到解释的一体化 research workflow automation。对 autonomous science 和科研 agent 评估有直接参考价值。\n\n局限：系统仍是 science of science 领域原型，自动化可靠性、跨学科泛化和严肃科研审计能力还需要更强验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2025-12-09",
      "doi": "10.1038/s43588-025-00906-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 169,
      "source_url": "https://www.nature.com/articles/s43588-025-00906-6.pdf",
      "paper_url": "https://www.nature.com/articles/s43588-025-00906-6.pdf",
      "project_urls": [],
      "repo_urls": [
        "https://github.com/vanillastar1729/SciSciGPT"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P31_Self_Driving_Nanophotonics",
      "slug": "p31-self-driving-nanophotonics",
      "detail_url": "papers/p31-self-driving-nanophotonics/",
      "title": "Self-driving lab discovers principles for steering spontaneous emission beyond conventional Fourier optics",
      "summary": "问题与背景：可重构半导体超表面中的自发辐射方向控制很难，传统 Fourier optics 框架不足以解释和设计复杂远场发射。论文关注的是让自驱动实验室发现可解释物理原则。\n\n方法与机制：系统结合 VAE 生成复杂折射率空间分布、active learning agent 指导实时闭环实验，以及神经网络方程学习器提取结构-性能关系，从而发现局部折射率的空间梯度和曲率是关键控制因子。\n\n为什么重要：这是一篇 AI for physics 的强工作流论文，重点不是黑箱优化最高性能，而是让 autonomous lab 从实验中抽取可解释方程和设计原则。对科学发现自动化和物理实验 agent 有可复用意义。\n\n局限：平台目前聚焦 ultrafast nanophotonics 和特定超表面问题，跨物理系统的迁移还需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-12-09",
      "doi": "10.1038/s41467-025-66916-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 168,
      "source_url": "https://www.nature.com/articles/s41467-025-66916-0.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-025-66916-0.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P18_Memristor_Actor_Critic",
      "slug": "p18-memristor-actor-critic",
      "detail_url": "papers/p18-memristor-actor-critic/",
      "title": "Actor–critic networks with analogue memristors mimicking reward-based learning",
      "summary": "## 问题与背景\n问题与背景：强化学习通常依赖数字硬件和软件优化循环，能耗和延迟都高。类脑/模拟硬件若要真正承接学习，而不只是推理加速，就需要把 reward-based learning 落到器件层。\n\n## 方法/新意\n方法/新意：这篇工作使用 analogue memristors 构建 actor–critic 网络，把策略和值函数更新推进到更接近硬件原生实现的层面。贡献点不在单一器件演示，而在于把强化学习闭环映射到模拟硬件。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：它属于 AI hardware / neuromorphic RL 主线，和物理神经网络、in-materia learning 共同构成“训练不再只发生在 GPU 上”的一类工作。\n\n## 局限/为何不更高\n局限/为何不更高：目前还是特定硬件与受控任务验证，距离通用强化学习硬件平台还有明显距离，因此归为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-12-09",
      "doi": "10.1038/s42256-025-01149-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 167,
      "source_url": "https://www.nature.com/articles/s42256-025-01149-w",
      "paper_url": "https://www.nature.com/articles/s42256-025-01149-w",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结冯诺依曼架构下的计算瓶颈：模拟忆阻器实现39倍能效跃升，开启全存内仿生计算新纪元",
          "url": "https://www.bilibili.com/video/BV18LAGzrEpH",
          "platform_urls": [
            "https://www.bilibili.com/video/BV18LAGzrEpH",
            "https://youtu.be/uRSBmVr6bcA"
          ],
          "main_collection": "AI硬件设计",
          "match": "actor critic networks with analogue memristors mimicking reward based learning",
          "description": "本研究针对传统架构在执行强化学习时面临的功耗墙与算力瓶颈，提出了一种基于模拟忆阻器的行动者-评论者（Actor-Critic）全存内计算架构。研究利用价变存储器（VCM）的物理特性，在硬件层面模拟了生物大脑中的三因子学习规则，将存储、推理与误差计算集成于同一物理器件中，彻底打破了冯·诺依曼瓶颈。通过T型迷宫等导航任务验证，该硬件驱动的智能体实现了从随机探索到最优路径的在线学习。实验结果显示，该方案在保证误差修正能力的同时，能效比传统计算平台提升了39倍，为开发低功耗类脑计算引擎提供了关键的技术路径。",
          "x_post": "ETH Zurich、EPFL与IBM Research开发模拟忆阻器Actor-Critic架构，实现39倍能效提升\n\n针对传统架构在运行强化学习算法时面临的功耗墙与数据搬运瓶颈，研究团队利用价变存储器（VCM）构建了全存内计算系统。该架构在硬件层面引入生物学三因子学习规则，通过时间差分（TD）误差信号引导权重更新，实现了存储、推理与误差计算的物理集成。实验在T型迷宫等导航任务中验证了其在线学习能力，数据显示该方案能效比传统平台提升39倍，并具备良好的误差修正能力。该研究证明了模拟忆阻器在处理复杂奖励驱动型任务中的潜力，为开发全内置、低功耗的类脑计算引擎提供了关键路径。",
          "cover_url": "assets/covers/p18-memristor-actor-critic-68ee6d1e3b.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-21T20:36:37+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N78_Convergent_Information_Flows",
      "slug": "n78-convergent-information-flows",
      "detail_url": "papers/n78-convergent-information-flows/",
      "title": "Convergent information flows explain recurring firing patterns in cerebral cortex",
      "summary": "这篇 Nature Neuroscience 论文挑战一个经典解释：短暂、可重复的 cortical population events 不一定来自强互连神经元支撑的 attractor dynamics。\n\n作者结合 two-photon imaging、electrophysiology 和 electron microscopy 数据，发现参与可重复放电模式的神经元并不具备强互连结构；相反，皮层网络呈 hierarchical modularity，core neurons 位于模块接口并承担 high-information-flow 节点角色。\n\n计算模型进一步显示，distance-dependent connectivity 足以产生类似皮层中观察到的 modularity 和 transient reproducible events，不需要典型 attractor 网络的 pattern-completion 单元结构。\n\n它值得正式收录，因为它改变了对 recurrent cortical dynamics 的问题表述：稳定可重复活动可以来自模块化信息流汇聚，而不是局部强吸引子；这对 AI 中 recurrent world models、modular routing、memory traces 和 transient state coordination 都有清晰概念外溢。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-12-08",
      "doi": "10.1038/s41593-025-02128-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 166,
      "source_url": "https://www.nature.com/articles/s41593-025-02128-5",
      "paper_url": "https://www.nature.com/articles/s41593-025-02128-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "科学家用谷歌算法揭秘大脑流量枢纽，颠覆统治数十年的记忆假说",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "convergent information flows explain recurring firing patterns in cerebral cortex",
          "description": "发表于《自然·神经科学》的一项研究揭示了大脑皮层的全新通信架构。传统理论认为，大脑依靠“吸引子网络”的强物理连接来记忆和重现神经电信号。研究团队整合电子显微镜、光遗传成像与电生理等多模态数据，并引入谷歌PageRank算法进行图论分析。结果显示，负责同步放电的“核心神经元”之间并无特殊的强物理连接（网络同配性r=-0.08），它们其实是高信息流的“流量枢纽”，而非闭合的递归环路。这表明大脑在发育初期就通过预配置的电路结构支持感官与运动协调，无需先验学习。该成果重新定义了皮层活动的结构基础，为理解大脑如何高效地处理并传输复杂信息提供了全新视角。",
          "x_post": "《自然·神经科学》发表研究结合谷歌PageRank算法，揭示大脑皮层核心神经元网络同配性仅为-0.08\n【背景】传统\"吸引子网络\"假说认为，大脑自发同步放电依赖于神经元间的强物理连接与递归闭环。\n【方法】研究团队整合电子显微镜、双光子钙成像与电生理多模态数据，并引入谷歌PageRank算法进行图论分析。\n【证据】突触物理重建显示，在14个模式集群的30个\"核心神经元\"间无物理强连接，网络同配性 r = -0.08。它们并非闭合环路，而是高信息流的\"流量枢纽\"。\n【结论】该结果表明大脑皮层在发育初期通过预配置的距离依赖性连接支持功能协调，无需先验学习。",
          "cover_url": "assets/covers/n78-convergent-information-flows-803ac2c979.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-27T07:20:02+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N26_BCI_HMM_Recalibration",
      "slug": "n26-bci-hmm-recalibration",
      "detail_url": "papers/n26-bci-hmm-recalibration/",
      "title": "Long-term unsupervised recalibration of cursor-based intracortical brain–computer interfaces using a hidden Markov model",
      "summary": "这篇论文关注长期脑机接口部署中的一个核心工程问题：神经信号分布会随时间漂移，导致原本有效的解码器逐渐失效。作者提出用隐马尔可夫模型做长期无监督重校准，目标是在尽量少人工干预的情况下维持 cursor-based intracortical BCI 的可用性。\n\n方法上，作者把用户意图和神经观测的时序结构结合起来，用 HMM 在长期使用过程中持续修正解码器参数，而不是依赖频繁人工重新标定。重点在于把行为时序先验和解码漂移修正结合。\n\n这篇工作适合放在认知/脑机接口主线。它的价值不在于提出一个更大的模型，而在于解决真实闭环 BCI 系统“如何长期稳定运行”的关键障碍，这种长期重校准能力很有转化意义。\n\n它没有升到更高一级，因为方法的外溢范围主要仍在特定 intracortical BCI 场景，虽然很实用，但还不足以称为脑机接口范式重排。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-12-08",
      "doi": "10.1038/s41551-025-01536-z",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 165,
      "source_url": "https://www.nature.com/articles/s41551-025-01536-z.pdf",
      "paper_url": "https://www.nature.com/articles/s41551-025-01536-z.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结脑机接口的枯燥校准：斯坦福PRI-T算法通过HMM推理，实现意念控制的无监督自我进化",
          "url": "https://www.bilibili.com/video/BV1oaQmB4Evw",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1oaQmB4Evw",
            "https://youtu.be/rgVj0gVwu3o"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "long term unsupervised recalibration of cursor based intracortical brain computer interfaces using a hidden markov model",
          "description": "针对植入式脑机接口因神经信号随时间漂移而需频繁人工校准的难题，斯坦福大学研究团队开发了PRI-T（概率回溯目标推断）算法。该方法核心在于利用隐马尔可夫模型（HMM）分析光标轨迹，通过任务结构的先验知识反推用户操作意图，从而在后台实现全天候、无监督的解码器自动更新。研究通过五年离线数据分析及长达一个月的受试者实测，证明该算法能有效应对信号不稳定性，在收发邮件、网页浏览等非结构化任务中表现出极高的鲁棒性。该技术显著降低了脑机接口的临床使用门槛，为瘫痪患者提供了长效、稳定的设备控制方案。",
          "x_post": "斯坦福大学开发 PRI-T 算法，通过 HMM 实现脑机接口长达一个月的无监督重校准\n植入式脑机接口（iBCI）常因神经信号随时间发生非平稳偏移，导致解码器失效，传统上需每日进行繁琐的人工校准。\n斯坦福大学团队提出 PRI-T（概率回溯目标推断）算法，核心利用隐马尔可夫模型（HMM）分析光标运动轨迹，并结合任务结构先验知识反推操作意图。\n研究通过五年离线数据分析及为期一个月的人类受试者闭环实测，证明该算法在处理邮件收发、网页浏览等非结构化任务时具有极高鲁棒性。\n实验结果表明，PRI-T 实现了 100% 无监督的解码器自动更新，显著降低了 iBCI 的临床维护门槛，为瘫痪患者提供了长效稳定的设备控制方案。",
          "cover_url": "assets/covers/n26-bci-hmm-recalibration-a34f1d3c1c.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-25T18:27:31+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM7_MIND_V_Robotic_Manipulation",
      "slug": "mm7-mind-v-robotic-manipulation",
      "detail_url": "papers/mm7-mind-v-robotic-manipulation/",
      "title": "MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment",
      "summary": "机器人模仿学习长期受限于长时程、高质量操作视频数据不足，而现有生成模型通常只能合成短片段、简单动作，且缺少物理一致性。本文针对的是：如何生成长时程、可控且更符合物理规律的机器人操作视频。\n\n作者提出 MIND-V，一个分层视频生成框架，由语义推理中心、行为语义桥接器和运动视频生成器组成，并在测试时加入 staged visual future rollouts 以提高长时程稳定性。更关键的是，它引入 Physical Foresight Coherence 奖励，并用 V-JEPA world model 作为物理前瞻约束，对生成视频进行 RL 对齐。\n\n这篇论文适合多模态 / world model / embodied data synthesis 主线。它不只是视频质量优化，而是把“生成数据是否有助于后续机器人学习”放到核心位置，对 robot data generation 和 physically grounded video synthesis 都有外溢价值。\n\n它归为突破性而不是更高一级，因为目前仍属于机器人视频生成这一较窄赛道，虽然物理对齐思路很对，但离更广泛的视频世界模型范式转变还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2025-12-07",
      "doi": "",
      "arxiv_id": "2512.06628",
      "collected_at": "",
      "collection_order": 164,
      "source_url": "https://arxiv.org/pdf/2512.06628.pdf",
      "paper_url": "https://arxiv.org/pdf/2512.06628.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "清华、中山及港科大发布 MIND-V：构建分层虚拟沙盒，让机器人实现长序列复杂任务的全自动物理推演",
          "url": "https://www.bilibili.com/video/BV1M5oUB4E4r",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1M5oUB4E4r",
            "https://youtu.be/gAsuqKa6pQg"
          ],
          "main_collection": "机器人与具身智能",
          "match": "mind v hierarchical video generation for long horizon robotic manipulation with rl based physical alignment",
          "description": "清华大学、中山大学与香港科技大学研究团队联合发布了MIND-V，这是一款受认知科学启发、专为具身智能设计的层级化机器人操作世界模型。该研究针对长程任务中常见的逻辑断裂以及穿模、隔空取物等物理幻觉难题，提出了由语义推理中枢、行为语义桥和动作视频生成器组成的三层架构。通过引入基于强化学习（GRPO）的后训练机制与物理预见连贯性奖励，MIND-V能够生成高度符合物理规律的长序列操作视频。实验证明，该模型在长程模拟推演方面达到SOTA水平，为机器人提供了一个可无限进化的虚拟沙盒，极大提升了复杂环境下具身策略的学习效率与任务成功率。",
          "x_post": "清华、中山、港科大发布 MIND-V：层级化机器人世界模型在长程操作任务中达 SOTA\n\n具身智能在执行长程复杂任务时常面临逻辑断裂与物理规律失效（如穿模、隔空取物）等瓶颈。该研究提出 MIND-V 架构，受认知科学启发，构建了由语义推理中枢（SRH）、行为语义桥（BSB）与动作视频生成器（MVG）组成的三层分层框架。\n\n为确保物理真实性，研究团队引入了基于强化学习（GRPO）的物理预见连贯性（PFC）奖励机制，通过“提议-验证-细化”闭环减少长序列生成中的误差累积。实验结果显示，MIND-V 在物理真实性与逻辑连贯性指标上均达到 SOTA 水平。该成果不仅缓解了具身智能对海量真实数据的高度依赖，也为复杂环境下机器人策略的自动化推演与进化提供了高保真虚拟沙盒。",
          "cover_url": "assets/covers/mm7-mind-v-robotic-manipulation-9da1e08f6e.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-24T21:25:03+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "HW11_ReCAD_Parametric_CAD",
      "slug": "hw11-recad-parametric-cad",
      "detail_url": "papers/hw11-recad-parametric-cad/",
      "title": "ReCAD: Reinforcement Learning Enhanced Parametric CAD Model Generation with Vision-Language Models",
      "summary": "参数化 CAD 模型生成一直是产品级机械设计里最难自动化的环节之一。过去的 text-to-CAD 或 image-to-CAD 方法往往依赖监督注入、编辑性弱，而且难以真正利用大模型已有的生成先验。\n\nReCAD 把这个问题重写成一个带有参数化代码指导的多模态 CAD 生成任务。它先通过重写 CAD script 获得带参数的监督，再用强化学习把这些参数化代码作为 guidance，结合层级 primitive 学习，让模型逐步掌握 pattern replication、mirror 等更复杂的 CAD 操作。\n\n这篇论文之所以值得正式收录，是因为它直接命中了你新扩出来的 `CAD / MCAD / SolidWorks-class mechanical design` 范围。它不只是 3D 几何生成，而是更接近可编辑、可继续修改的 parametric CAD workflow，对后续消费和工业硬件设计自动化有明确外溢。\n\n它还不是更高一级，因为当前证据主要集中在 CAD model generation 本身，而不是完整产品设计闭环；仿真、装配、DFM/DFA 和制造约束还没有被真正整合进来。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2025-12-06",
      "doi": "",
      "arxiv_id": "2512.06328",
      "collected_at": "",
      "collection_order": 163,
      "source_url": "https://arxiv.org/pdf/2512.06328.pdf",
      "paper_url": "https://arxiv.org/pdf/2512.06328.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "像人类一样构建几何：ReCAD模拟分层认知规律，破解3D生成中的空间理解瓶颈",
          "url": "https://www.bilibili.com/video/BV13oQ9BvEv1",
          "platform_urls": [
            "https://www.bilibili.com/video/BV13oQ9BvEv1",
            "https://youtu.be/wqYpztiNAd0"
          ],
          "main_collection": "AI硬件设计",
          "match": "recad reinforcement learning enhanced parametric cad model generation with vision language models",
          "description": "针对当前3D生成模型在复杂约束下极易产生无效几何体、缺乏空间推理能力的问题，复旦大学研究团队提出了ReCAD框架。该框架弃用传统的硬编码序列，利用视觉语言模型将CAD脚本重写为高灵活度的Python参数化代码。技术核心在于引入基于引导式的强化学习策略，通过离策略知识提升模型应对复杂几何难题的能力，并结合分层原语学习模拟人类从点线到复杂实体的认知过程。实验表明，ReCAD在文本与图像转CAD任务中实现了领先的语义对齐度与跨分布泛化能力，为可编辑的工业级3D内容生成提供了新路径。",
          "x_post": "复旦大学提出 ReCAD 框架：结合 VLM 与引导式强化学习，实现工业级参数化 CAD 自动化生成。\n针对当前模型因缺乏空间推理而产生无效几何体的问题，ReCAD 将硬编码脚本重构为具备设计意图的 Python 参数化代码。\n核心技术引入了分层基元学习（HPL），模拟人类从曲线、面到复杂拉伸实体的认知规律，并通过离策略引导提升推理能力。\n实验结果表明，ReCAD 在文本与图像转 CAD 任务中均达到领先水平，在几何精度（IoU）与视觉保真度上表现优异。\n该研究为可二次编辑的 3D 几何生成提供了新路径，显著增强了模型在未见设计样式下的跨分布泛化能力。",
          "cover_url": "assets/covers/hw11-recad-parametric-cad-627f95448b.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T07:54:44+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM14_Speech_World_Model",
      "slug": "mm14-speech-world-model",
      "detail_url": "papers/mm14-speech-world-model/",
      "title": "Speech World Model: Causal State-Action Planning with Explicit Reasoning for Speech",
      "summary": "## 问题与背景\n问题与背景：很多 speech-language systems 仍把语音理解视为黑盒编码到语言模型里，对韵律、意图、状态转移等更复杂因素的显式推理较弱。\n\n## 方法/新意\n方法/新意：这篇工作提出 modular speech world model，把语音理解分成通过 causal graph 连接的多个模块，并在 latent speech states 上做 state-action planning 和显式 reasoning。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：它适合放在 world model 与 multimodal reasoning 主线，代表“world model 不只服务视觉和机器人，也开始进入 speech understanding”。\n\n## 局限/为何不更高\n局限/为何不更高：方向很对，但当前仍更像语音理解里的强新作，而不是足以改写整个 speech AI 主干路线的工作，因此归为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2025-12-05",
      "doi": "",
      "arxiv_id": "2512.05933",
      "collected_at": "",
      "collection_order": 162,
      "source_url": "https://arxiv.org/abs/2512.05933",
      "paper_url": "https://arxiv.org/abs/2512.05933",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO44_Multiepitope_Protein_Scaffolding",
      "slug": "bio44-multiepitope-protein-scaffolding",
      "detail_url": "papers/bio44-multiepitope-protein-scaffolding/",
      "title": "Accurate single-domain scaffolding of three nonoverlapping protein epitopes using deep learning",
      "summary": "问题与背景：从头蛋白设计已经能支架化单个功能 motif，但天然蛋白常同时呈现多个功能位点。多表位、小单域蛋白的准确设计仍是高难度问题。\n\n方法与机制：论文使用深度学习设计小于 130 个残基的单域免疫原，同时展示呼吸道合胞病毒的三个互不重叠、不规则 motif，并通过 X-ray crystal structures 验证多个表位呈现的准确性。\n\n为什么重要：它推进了生成式蛋白设计对复杂多功能表面的控制能力，显示 AI 不仅能做单 motif scaffolding，也能设计不寻常折叠来容纳多个功能位点。对疫苗免疫原、功能蛋白和多约束设计有外溢价值。\n\n局限：任务集中在特定病毒表位和免疫原设计，跨蛋白功能类别、免疫保护效果和制造可行性仍需进一步验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-12-05",
      "doi": "10.1038/s41589-025-02083-z",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 161,
      "source_url": "https://www.nature.com/articles/s41589-025-02083-z.pdf",
      "paper_url": "https://www.nature.com/articles/s41589-025-02083-z.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P13_ATHENA_Numerical_Algorithms",
      "slug": "p13-athena-numerical-algorithms",
      "detail_url": "papers/p13-athena-numerical-algorithms/",
      "title": "ATHENA: Agentic Team for Hierarchical Evolutionary Numerical Algorithms",
      "summary": "科学计算和科学机器学习里一个长期瓶颈，是理论想法到可执行数值算法之间仍然高度依赖专家手工设计。本文面向的不是单一 PDE 或单一神经网络，而是“如何让 AI 自主组织数值算法发现与实现流程”这一更上层的问题。\n\n作者提出 ATHENA，把数值算法构造过程写成一个 agentic framework。其核心 HENA loop 被表述为 contextual bandit：系统根据过去试验结果，在带有专家蓝图约束的组合动作空间中选择结构动作，再把这些动作转成代码与求解器，最后依据科学任务回报进行更新。论文强调它不仅做自动化搜索，还做诊断、修正和分层演化。\n\n这篇论文适合仓库的 AI×科学计算主线。它和 AutoNumerics、QUASAR、BEACONS 同属“AI 作为科学工作流构造器”路线，但更偏向自治式算法发现和数值方法组织。对数值分析自动化、SciML agent 系统和 scientific computing automation 都有外溢价值。\n\n它目前归为突破性而不是更高一级，原因是证据主要来自 arXiv 阶段和方法演示，尽管方向很强，但尚未像 AlphaEvolve 那样在多个强基准或真实基础设施里形成更明确的路线重排效应。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-12-03",
      "doi": "",
      "arxiv_id": "2512.03476",
      "collected_at": "",
      "collection_order": 160,
      "source_url": "https://arxiv.org/pdf/2512.03476.pdf",
      "paper_url": "https://arxiv.org/pdf/2512.03476.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "实现 10⁻¹⁴ 零误差物理推演，ATHENA 框架让 AI 自主编写算法",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "athena agentic team for hierarchical evolutionary numerical algorithms",
          "description": "布朗大学研究团队开发的ATHENA多智能体框架，专注于科学计算与机器学习全生命周期的自动化。针对大语言模型在科学研究中面临的长程推理幻觉、逻辑遗忘及视觉感知缺失等瓶颈，该框架引入HENA进化循环，将研究流程建模为上下文老虎机问题，并利用“概念支架”蓝图约束搜索空间。在应用中，ATHENA可自主识别数学对称性并修正逻辑错误，实现10⁻¹⁴量级的极高精度物理推演。这种模式将科研重点从底层代码调试转向高层方法创新，显著加速了科学发现进程。",
          "x_post": "布朗大学研究团队发布 ATHENA 框架，实现 10⁻¹⁴ 极高精度自主物理算法推演。\n\n针对大语言模型在科学计算中面临的逻辑幻觉与感知盲区，ATHENA 采用多智能体协作架构，通过 HENA 进化循环将研究流程建模为上下文老虎机问题。该框架引入“概念支架”约束搜索空间，确保 AI 在物理法则内进行创新，并利用逐细胞重构技术动态修正逻辑偏差。实验证明，ATHENA 可自主识别数学对称性并修正物理逻辑错误，达到 10⁻¹⁴ 量级的极低误差表现。这种协作模式有效将科研重心从底层调试转向高层方法创新，加速了科学发现的自动化进程。",
          "cover_url": "assets/covers/p13-athena-numerical-algorithms-bf01122f54.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-23T20:01:40+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "G6_Shortcutting_Flow_Paths",
      "slug": "g6-shortcutting-flow-paths",
      "detail_url": "papers/g6-shortcutting-flow-paths/",
      "title": "On the Design of One-step Diffusion via Shortcutting Flow Paths",
      "summary": "one-step diffusion 一直很吸引人，因为它承诺把生成速度直接压到单步，但这条线常常把理论推导、训练配方和工程 trick 混在一起，导致 shortcut model 的设计空间既碎片化又难复用。\n\n这篇工作的重要价值不只是又拿到更低 FID，而是把 shortcutting flow paths 的代表性做法放进同一设计框架，显式拆开组件级选择，并据此系统化改进 one-step diffusion 的训练与建模路线。结果上，它在不依赖 pre-training、distillation 或 curriculum learning 的前提下，把 one-step ImageNet-256 结果推到新的强基线。\n\n它值得正式收录，因为这类“重写设计空间”的工作对 generative modeling 的外溢明显高于单点指标提升。对于 shortcut diffusion、few-step generation 和更广的高效生成路线，这种 component-level design framework 有耐久参考价值。\n\n它暂时不升到更高一级，原因在于当前影响力仍主要集中在 image generation 子线，且这套设计框架是否会统一更广 shortcut / flow-based generation 家族，还需要后续社区采用来验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2025-12-03",
      "doi": "",
      "arxiv_id": "2512.11831",
      "collected_at": "",
      "collection_order": 159,
      "source_url": "https://arxiv.org/pdf/2512.11831.pdf",
      "paper_url": "https://arxiv.org/pdf/2512.11831.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "FID 2.85 刷新历史纪录：ESC 模型重构底层设计，让高保真图像实现单步直接生成",
          "url": "https://www.bilibili.com/video/BV1JNQWBZEEQ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1JNQWBZEEQ",
            "https://youtu.be/-T8Ksjts0X8"
          ],
          "main_collection": "多模态与视觉生成",
          "match": "on the design of one step diffusion via shortcutting flow paths",
          "description": "ESC研究团队在扩散模型领域提出快捷路径模型设计框架。针对传统模型生成速度慢及蒸馏训练成本高的难题，该研究将单步模型简化为利用单步预测逼近两步流映射的通用逻辑，并引入线性路径与连续时间采样等优化技术。在ImageNet-256×256基准测试中，该模型在无需预训练的情况下单步生成FID达到2.85，刷新历史纪录。这一成果让高保真图像生成更准、更稳、更高效，为扩散模型的系统化设计提供了坚实的理论支撑。",
          "x_post": "ESC团队提出Shortcut Models单步扩散框架，ImageNet-256下FID 2.85刷新纪录\n\n针对传统扩散模型推理迭代慢及知识蒸馏成本高昂的局限，ESC研究团队提出一种统一的“快捷路径模型”（Shortcut Models）设计框架。该研究通过将单步模型建模为对两步流映射目标的参数化逼近，系统化地解决了单步生成中的理论偏差问题。\n\n方法核心在于引入线性路径以降低轨迹曲率，并配合连续时间采样（CTSC）与渐进式时间采样器。实验数据表明，在ImageNet-256x256基准测试中，该方案在无需预训练模型辅助的情况下，单步生成（1-NFE）FID降至2.85，实现了高保真画质与极速生成的平衡。\n\n该工作揭示了控制预测偏离误差是提升生成质量的关键，为零预训练、高效率的扩散模型系统化设计提供了理论依据与工程指导。",
          "cover_url": "assets/covers/g6-shortcutting-flow-paths-d7851677e6.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-11T19:24:59+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO38_RFdiffusion2_Enzyme_Scaffolding",
      "slug": "bio38-rfdiffusion2-enzyme-scaffolding",
      "detail_url": "papers/bio38-rfdiffusion2-enzyme-scaffolding/",
      "title": "Atom-level enzyme active site scaffolding using RFdiffusion2",
      "summary": "问题与背景：酶设计通常从过渡态周围的催化官能团理想几何出发，但现有 AI 方法往往要求预先指定残基位置或从侧链反推主链，限制了活性位设计自由度。\n\n方法与机制：RFdiffusion2 直接从 functional group geometry 生成可放置活性位的蛋白支架，不需要指定残基顺序，也避免了逆 rotamer 生成路径。论文在 41 个多样 active-site benchmark 上展示显著更强的 scaffold 能力，并进一步设计多类催化机制。\n\n为什么重要：这是生成式蛋白结构设计从 binding/scaffolding 走向原子级酶活性位设计的核心方法论文，与已收录的 metallohydrolase 应用互补。它提供的是更底层的可复用 enzyme-design primitive。\n\n局限：虽然方法跨 benchmark 强，但真实酶活性仍需实验筛选和后续优化；广泛反应类型、细胞环境和产业级酶工程的扩展性还需时间检验。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-12-03",
      "doi": "10.1038/s41592-025-02975-x",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 158,
      "source_url": "https://www.nature.com/articles/s41592-025-02975-x.pdf",
      "paper_url": "https://www.nature.com/articles/s41592-025-02975-x.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "华盛顿大学联手MIT发布RFdiffusion2：实现原子级精度酶设计，从零制造自然界不存在的催化机器",
          "url": "https://www.bilibili.com/video/BV1cAoeBBEP4",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1cAoeBBEP4",
            "https://youtu.be/zzIqtwjkGyc"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "atom level enzyme active site scaffolding using rfdiffusion2",
          "description": "由华盛顿大学、MIT与霍华德·休斯医学研究所联合开发的RFdiffusion2，在蛋白质生成设计领域取得了重要突破。传统酶设计方法通常受限于预设的骨架顺序或繁琐的侧链调整，导致复杂催化中心的设计效率较低。该模型核心采用了黎曼流匹配算法与R3重原子坐标调控，支持直接基于空间原子几何结构生成蛋白质，彻底摆脱了对氨基酸序列索引的依赖。实验证明，该模型在41个活性位点基准测试中展现出卓越的成功率，科研人员仅需测试极少量序列即可获得具备功能的活性催化剂。这一技术提升意味着人类能够更精准、高效地从零定制自然界不存在的生物催化机器，实现对反应微环境的绝对控制。",
          "x_post": "华盛顿大学与MIT团队发布RFdiffusion2：实现原子级酶设计，通过41个复杂活性位点基准测试\n\n传统酶设计长期受限于对氨基酸序列索引的依赖，导致复杂催化中心的设计效率较低。RFdiffusion2 引入了黎曼流匹配算法与 R3 重原子坐标调控，彻底摆脱了骨架顺序束缚。该模型可直接依据功能基团的原子几何结构生成蛋白质，并在生成过程中自动推断氨基酸种类与序列位置。实验数据表明，该模型在 41 个活性位点的复杂基准测试中展现出显著成功率，科研人员仅需验证极少量序列即可获得具备功能的活性催化剂。这一进展实现了对反应微环境的精准控制，为从零构建自然界不存在的生物催化机器提供了系统化的生成式设计路径。",
          "cover_url": "assets/covers/bio38-rfdiffusion2-enzyme-scaffolding-9e19f34116.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-22T09:50:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO11_Riff_Diff_Enzyme_Design",
      "slug": "bio11-riff-diff-enzyme-design",
      "detail_url": "papers/bio11-riff-diff-enzyme-design/",
      "title": "Computational enzyme design by catalytic motif scaffolding",
      "summary": "这篇论文处理的是蛋白设计里一个最硬的问题之一：如何不再只设计稳定折叠蛋白，而是直接为明确的催化基元构建高活性酶。传统 de novo enzyme design 往往需要筛大量候选，初始活性也偏低，离工业或化学生物应用还有很长距离。作者把问题重构为 catalytic motif scaffolding，并用生成式与原子级建模组合去做。\n\n方法上的核心是 Riff-Diff（rotamer inverted fragment finder–diffusion）。它把扩散式骨架生成和原子级催化位点放置联在一起，目标不是先生成一个蛋白再事后看能否催化，而是从一开始就围绕催化阵列去构造骨架。论文用这条路线同时处理 retro-aldol 和 Morita–Baylis–Hillman 两类机理差异明显的反应，证明它不是只对单一玩具任务有效。\n\n它在仓库里的价值很高，因为这是生成式蛋白设计从‘做出结构’走向‘做出功能’的强条目。更具体地说，它把 motif scaffolding、diffusion protein design 和 catalytic function 这三条线真正接上了，并且结果已经逼近体外进化优化过的酶活性水平。这对 AI for biology、蛋白工程和可编程生物催化都有直接外溢。\n\n它没有再升到更高一级，是因为虽然结果很强，但影响仍主要集中在酶设计与功能蛋白工程这一高价值子方向，还没到像 AlphaFold 那样重写更大范围生物建模工作流的层级。更合适的判断是：这是生成式生物设计路线里非常强、很值得放前排的一篇颠覆性论文。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-12-03",
      "doi": "10.1038/s41586-025-09747-9",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 157,
      "source_url": "https://www.nature.com/articles/s41586-025-09747-9",
      "paper_url": "https://www.nature.com/articles/s41586-025-09747-9",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "跳过数亿年进化直接造出工业级强韧酶：Riff-Diff混合引擎实现500万倍速率飞跃",
          "url": "https://www.bilibili.com/video/BV1w5doBiEgk",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1w5doBiEgk",
            "https://youtu.be/S9kG1JRDPVQ"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "computational enzyme design by catalytic motif scaffolding",
          "description": "格拉茨技术大学与魏茨曼科学研究学院的研究团队开发出Riff-Diff混合智能引擎，深耕计算酶设计领域。针对传统从头设计初始活性极低、依赖耗时筛选的难题，该方法结合扩散模型与原子级物理建模，通过“占位螺旋”技术精准重塑底物结合口袋。实验证明，该引擎设计的酶在逆羟醛缩合反应中实现了500万倍的速率飞跃，并具备99%的对映选择性，且能耐受90℃高温。这一成果让“一步到位”定制高稳定性工业催化剂成为现实，显著提升了生物制造与药物合成的研发效率。",
          "x_post": "格拉茨技术大学与魏茨曼学院研发Riff-Diff引擎，实现人造酶催化速率500万倍跃升\n\n传统从头酶设计常面临初始活性极低、高度依赖耗时定向进化的瓶颈。该研究提出Riff-Diff混合设计框架，结合扩散模型与原子级物理建模，利用“占位螺旋”技术精准重塑底物结合口袋。实验显示，所设计的逆羟醛缩合酶在未经实验筛选的情况下，实现了5x10^6倍的速率飞跃，且对映选择性达99% ee。此外，该人工酶表现出极高的鲁棒性，可耐受90℃高温及6.5M变性剂，并实现近千次催化周转。这一进展证明了“一步到位”定制工业级高稳定性生物催化剂的可行性，为精准生物制造提供了关键技术支撑。",
          "cover_url": "assets/covers/bio11-riff-diff-enzyme-design-6fdb3ccfd1.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-18T23:06:22+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N60_High_Frequency_Bursts_Attention",
      "slug": "n60-high-frequency-bursts-attention",
      "detail_url": "papers/n60-high-frequency-bursts-attention/",
      "title": "High-frequency bursts facilitate fast communication for human spatial attention",
      "summary": "这篇论文讨论空间注意中的一个核心问题：大脑如何在极短时间内把注意状态快速分发到分布式脑区。传统关于注意通信的研究往往强调低频节律、持续同步或局部放电率变化，但对人脑在真实任务中如何实现快速、瞬时、长程的信息路由，仍缺少足够清晰的机制证据。\n\n作者利用人类颅内电生理数据研究空间注意任务，指出高频 burst 不是噪声性的局部事件，而是支撑快速网络通信和注意信息路由的重要时间结构。论文的核心价值不在于又观察到一种频段活动，而在于把高频 burst 明确推到“功能性通信单元”的位置上，用来解释注意如何在脑网络中被快速传递和组织。\n\n这项工作值得收录，因为它属于大脑工作原理中的基础问题：注意并不是静态增强，而是依赖瞬时、可路由的神经通信机制。对仓库来说，这类结果的价值不一定是立刻对应一个 AI 模块，而是为注意、路由、选择性通信、动态资源分配等问题提供更强的脑机制约束。它属于强解释型神经科学论文，而不是窄实验现象论文。\n\n它没有升到更高一级，原因是目前它更像对注意通信机制的重要澄清，而不是已经导出一套可直接迁移到 AI 的新方法框架。更准确的定位是一篇关于注意与脑网络快速通信原理的高质量突破论文。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-12-02",
      "doi": "10.1038/s41593-025-02160-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 156,
      "source_url": "https://doi.org/10.1038/s41593-025-02160-5",
      "paper_url": "https://doi.org/10.1038/s41593-025-02160-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "IND5_AI_Directed_3D_Printing_Foams",
      "slug": "ind5-ai-directed-3d-printing-foams",
      "detail_url": "papers/ind5-ai-directed-3d-printing-foams/",
      "title": "AI-Directed 3D Printing of Hierarchical Polyurethane Foams",
      "summary": "问题与背景：层级多孔材料在防护、热管理和生物医用设备中很重要，但传统 3D 打印多集中于周期晶格，对随机泡沫结构、聚合物体系和可规模化制造支持不足。\n\n方法与机制：论文结合直接墨水书写、静态混合器反应挤出和原位聚合，并用 AI 指导工艺-结构-性能空间探索，实现可控孔径、孔隙率和开孔结构的聚氨酯泡沫打印。\n\n为什么重要：这属于 AI 参与材料制造工艺设计和结构调控的工作流，而非普通生成设计渲染。它对工业制造、机械结构优化和材料-工艺协同设计有可复用价值。\n\n局限：AI 角色主要服务于工艺参数和结构控制，通用自主制造系统程度有限；跨材料体系和复杂产品级验证仍需补充。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "industrial_process_and_manufacturing_systems",
      "theme_label": "工业过程与制造",
      "published_at": "2025-11-29",
      "doi": "10.1002/advs.202515122",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 155,
      "source_url": "https://doi.org/10.1002/advs.202515122",
      "paper_url": "https://doi.org/10.1002/advs.202515122",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL6_SINDy_RL",
      "slug": "rl6-sindy-rl",
      "detail_url": "papers/rl6-sindy-rl/",
      "title": "SINDy-RL for interpretable and efficient model-based reinforcement learning",
      "summary": "这篇论文解决的是模型驱动强化学习里的两个长期痛点：样本效率和可解释性。传统 DRL 在控制问题上可以学出很强策略，但往往需要大量交互数据，而且最终策略和动力学都被埋进黑盒神经网络里，不利于信任、部署和科学理解。作者试图把稀疏动力学发现和强化学习接到一起，让控制系统既学得动，又看得懂。\n\n方法上的核心是把 SINDy 这一类稀疏字典学习方法引入强化学习流程，用统一框架去学习可解释的动力学模型、奖励函数和控制策略。论文不是单点替换网络模块，而是提出一条明确路线：在低数据区间用稀疏符号化表示替代大而黑盒的近似器，从而同时降低训练成本和部署复杂度。\n\n它适合进入仓库，因为这是一篇对 model-based RL 和 scientific control 都有外溢价值的强方法论文。对需要高样本效率、可解释控制律和嵌入式部署的场景，例如流体控制、物理系统控制和工程优化，这条路线都很实用。它也把可解释机器学习从分析层推进到了策略与动力学联合建模层。\n\n它没有更高一级，因为影响范围目前仍主要集中在可解释控制和特定 model-based RL 场景，而不是重写整个强化学习主线。更准确地说，这是一篇很扎实、很有复用价值的交叉方法论文，但还没有达到改变大范围 RL 研究默认范式的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2025-11-28",
      "doi": "10.1038/s41467-025-65738-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 154,
      "source_url": "https://www.nature.com/articles/s41467-025-65738-4.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-025-65738-4.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "仿真步速提升1万倍！NASA利用白盒强化学习解决3D翼型湍流控制，交互效率刷新历史纪录",
          "url": "https://www.bilibili.com/video/BV1EY9DB3EAY",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1EY9DB3EAY",
            "https://youtu.be/dvBlMFwRy3c"
          ],
          "main_collection": "AI物理",
          "match": "sindy rl for interpretable and efficient model based reinforcement learning",
          "description": "由NASA与帝国理工学院联合研发的SINDy-RL框架，针对深度强化学习在航空航天领域面临的数据饥渴、黑盒决策与算力沉重等挑战提出了突破性方案。该方法核心在于利用稀疏字典学习，将复杂的神经网络提炼为仅含数十个参数的代数方程。在极具挑战的3D翼型湍流控制任务中，该框架将仿真步速提升1万倍，使总训练时间从185小时锐减至14小时，并显著提升了控制稳定性。这一进展证明了符号化策略在物理系统控制中的极致效率，为强化学习在低功耗嵌入式系统上的部署及安全关键领域的应用铺平了道路。",
          "x_post": "NASA与帝国理工联合研发SINDy-RL框架：仿真速度提升1万倍，将复杂控制策略精简至66个参数\n\n传统深度强化学习在航空航天等物理系统中面临交互成本高、决策黑盒及算力需求巨大的挑战。SINDy-RL通过稀疏字典学习识别非线性动力学，将庞大的神经网络提炼为可解释的符号化代数方程。在3D翼型湍流控制任务中，该框架使仿真步速提升10,000倍，总训练时间由185小时降至14小时，且样本效率提升14.47倍。实验数据表明，其升力系数峰值误差降低20.1%，在提升控制平滑性的同时，为低功耗嵌入式系统在安全关键领域的应用提供了透明化方案。",
          "cover_url": "assets/covers/rl6-sindy-rl-2c8802c74b.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-28T16:42:07+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N30_Conditional_4D_fMRI_Synthesis",
      "slug": "n30-conditional-4d-fmri-synthesis",
      "detail_url": "papers/n30-conditional-4d-fmri-synthesis/",
      "title": "Scalable Diffusion Transformer for Conditional 4D fMRI Synthesis",
      "summary": "这篇论文要解决的是任务条件下 whole-brain 4D fMRI 序列生成的难题。相比普通图像生成，fMRI 既高维又时空异质，而且如果没有神经科学约束，很容易生成出看似像脑图、实际上没有任务特异性的假信号。\n\n方法上，作者把 3D VQ-GAN latent compression、CNN-Transformer backbone、AdaLN-Zero 和 cross-attention 组合成首个 voxelwise 4D fMRI diffusion transformer。它不仅追求像素级重建，而是明确评估任务激活图、RSA 结构、condition specificity 和 ROI time-course 与 canonical hemodynamic response 的一致性。\n\n它的重要性在于，这类工作把神经影像生成模型从“能生成像脑的图”推进到“能生成有任务结构的时空脑活动”。这对神经影像模拟、数据增强、任务表征研究都很有价值。放在仓库里，它属于认知科学 / 神经影像主线里的高质量生成建模论文。\n\n我把它放在“突破性”。原因是它在 4D fMRI 合成方向很强，但外溢还主要集中在神经影像生成这个子方向，不算更高一级的总范式条目。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-11-28",
      "doi": "",
      "arxiv_id": "2511.22870",
      "collected_at": "",
      "collection_order": 153,
      "source_url": "https://arxiv.org/pdf/2511.22870.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.22870.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "1083人脑数据喂出数字大脑，首尔大学发布首个4D扩散Transformer，在硅基世界运行人类认知",
          "url": "https://www.bilibili.com/video/BV1iToRBxEdZ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1iToRBxEdZ",
            "https://youtu.be/uJz-hRNXPIk"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "scalable diffusion transformer for conditional 4d fmri synthesis",
          "description": "首尔大学与布鲁克海文国家实验室联合研发了首个基于扩散 Transformer 的条件 4D fMRI 合成模型。长期以来，受限于极高的时空维度和微弱的信号，精准模拟全脑动态影像极具挑战。该研究通过 3D VQ-GAN 压缩潜在空间，并结合 CNN-Transformer 混合骨干网络，在 1083 名受试者的超 3 万条数据上进行训练。实验证明，该模型在空间激活保真度与任务特异性上显著优于传统 U-Net，且合成质量随模型规模可预测地提升。这一突破为虚拟大脑实验和跨中心数据标准化提供了高效的数据增强路径，降低了神经科学对真人受试者的依赖。",
          "x_post": "首尔大学与布鲁克海文国家实验室发布首个4D扩散Transformer，基于1083人数据集实现高保真全脑fMRI合成\n\n生成全脑4D fMRI面临极高维度与微弱任务信号的挑战，传统方法往往在空间细节或时间动态上存在妥协。研究团队提出了一种新型扩散模型架构，利用3D VQ-GAN实现潜在空间压缩，并构建结合CNN局部归纳偏置与Transformer全局依赖捕获能力的混合骨干网络。\n\n通过在HCP数据集（包含1083名受试者、34,632个训练实例）上的测试，该模型在空间激活图相关性与表现相似性分析等指标上显著优于传统U-Net基准。实验数据证实，合成影像的保真度随模型参数规模扩大呈可预测增长，能够精准模拟不同认知任务下的神经动态。\n\n该研究验证了在大规模神经影像数据上扩展扩散Transformer的可行性，为“虚拟大脑实验”及跨中心影像数据标准化提供了高效的合成技术路径。",
          "cover_url": "assets/covers/n30-conditional-4d-fmri-synthesis-0d738253fd.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-25T19:19:40+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO18_RL_Peptide_Screening",
      "slug": "bio18-rl-peptide-screening",
      "detail_url": "papers/bio18-rl-peptide-screening/",
      "title": "A scalable reinforcement learning approach for screening large peptide libraries for bioactive peptide discovery",
      "summary": "肽药与功能肽发现的难点不在于候选不够多，而在于库太大、计算筛选太贵、实验预算太有限。传统 exhaustive screening 在库规模上很快失去可行性，因此真正有价值的问题是怎样在超大肽库上做可扩展的探索。\n\n这篇论文用 reinforcement learning 和 posterior sampling 构建了一个可扩展筛选策略，在不穷举的前提下平衡 exploration 和 exploitation，并把 3600 万规模的结构化螺旋肽库压缩到可实验验证的子空间。它的亮点不是单一模型指标，而是把大库探索问题明确改写成 sequential screening policy。\n\n这篇论文值得正式收录，因为它展示了 RL 在生物分子发现中的一个非常实用的 workflow：不是直接设计最终分子，而是先把海量候选空间变成可实验化的少量高价值样本。对 peptide discovery、molecule triage、active screening 都有方法外溢。\n\n它没有升到更高一级，因为当前验证仍集中在特定肽库和特定生物活性场景，方法虽然强但还没有覆盖更广的分子类型或完整药物开发流程。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-11-27",
      "doi": "10.1038/s41467-025-66748-y",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 152,
      "source_url": "https://www.nature.com/articles/s41467-025-66748-y",
      "paper_url": "https://www.nature.com/articles/s41467-025-66748-y",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "14天跨越3600万次筛选：TARSA利用强化学习直击抗癌多肽，精准定位生命热区",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "a scalable reinforcement learning approach for screening large peptide libraries for bioactive peptide discovery",
          "description": "针对传统计算方法在千万级超大肽库筛选中面临的算力瓶颈与高昂成本，该研究提出名为TARSA的深度强化学习算法。该算法结合稀疏采样与后验采样技术，将3600万个螺旋肽段的搜索空间缩减了90%以上，仅耗时14天即完成筛选。通过CNN与MLP融合预测模型，智能体能精准定位具有高电荷与高疏水性的“活性悬崖”区域。实验验证显示，在排名前100个候选肽中成功识别出15个具有细胞毒性的抗癌肽，其中3个化合物对健康细胞展现低毒性。研究界定了AI在生物活性肽发现中的高效率路径，证明了强化学习在复杂生物化学空间导航的有效性。",
          "x_post": "UBC与Mila等团队提出TARSA：14天完成3600万次抗癌肽筛选，搜索空间缩减逾90%\n\n针对传统穷举法筛选千万级多肽库面临的算力瓶颈，研究团队开发了名为TARSA的深度强化学习算法。该方法结合稀疏采样与后验采样技术，将3600万个螺旋肽段的搜索空间缩减了90%以上，实现了计算资源的精准投放。\n\n实验通过CNN与MLP融合预测模型（皮尔逊相关系数0.81）引导智能体定位“活性悬崖”。验证显示，在排名前100个候选肽中成功识别出15个具有细胞毒性的抗癌肽（ACPs），其中3个化合物在保持杀伤活性的同时对健康细胞表现出低毒性。\n\n这项工作证明了强化学习在复杂生物化学空间导航的有效性，为加速生物活性肽的发现提供了一条高效率且低成本的闭环验证路径。",
          "cover_url": "assets/covers/bio18-rl-peptide-screening-8b67d68c6f.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T22:51:59+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P12_Physics_Informed_SNN_Flux_Quantization",
      "slug": "p12-physics-informed-snn-flux-quantization",
      "detail_url": "papers/p12-physics-informed-snn-flux-quantization/",
      "title": "Physics-Informed Spiking Neural Networks via Conservative Flux Quantization",
      "summary": "这篇论文关注一个很具体但重要的问题：如果希望在低功耗边缘设备上做符合物理定律的动力系统预测，传统 PINN 的能耗和守恒误差都不理想，而朴素把 PINN 换成 SNN 又会损失物理一致性。论文尝试把 physics-informed learning 和 spiking neural networks 真正结合起来。\n\n作者提出 Physics-Informed Spiking Neural Network 框架，并设计 Conservative LIF neuron，把局部守恒约束写入神经元动力学，再结合 conservative flux quantization 处理时序生成问题。方法卖点不是单纯更省电，而是在低功耗前提下保持更严格的物理守恒和更稳的长期预测。\n\n这篇适合放在 AI×物理 / 神经形态计算 / 物理约束学习主线。它代表一种很清楚的方向：不是只在 GPU 上追求更强 PINN，而是把科学机器学习推进到物理一致的低功耗硬件实现。\n\n它仍不到更高一级，因为当前还主要停留在方法与验证层面，距离形成像 BEACONS 或更大平台型工作那样的广泛方法学影响还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-11-26",
      "doi": "",
      "arxiv_id": "2511.21784",
      "collected_at": "",
      "collection_order": 151,
      "source_url": "https://arxiv.org/abs/2511.21784",
      "paper_url": "https://arxiv.org/abs/2511.21784",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "功耗降低 1000 倍：清华联合南洋理工将物理定律植入芯片，PISNN 突破边缘算力极限",
          "url": "https://www.bilibili.com/video/BV1DTRpBEEEm",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1DTRpBEEEm",
            "https://youtu.be/loQZ-J3W3uc"
          ],
          "main_collection": "机器人与具身智能",
          "match": "physics informed spiking neural networks via conservative flux quantization",
          "description": "清华大学与南洋理工大学研究团队在类脑计算领域取得突破，针对边缘设备在实时物理预测中面临的高能耗与物理一致性难题，提出了物理信息脉冲神经网络（PISNN）。该框架首创通量量化策略，将神经脉冲定义为离散物理通量，并引入C-LIF神经元，从架构层面严格保证物理质量守恒。实验证明，PISNN在处理热方程等任务时，能以低于传统方法1000倍的能耗实现同等精度，有效解决了长时演化的误差累积问题。这一成果为具身智能在低功耗环境下的高保真模拟开辟了新路径。",
          "x_post": "清华大学与南洋理工大学发布 PISNN 框架：融合物理守恒律与脉冲神经网络，功耗降低达 1000 倍\n针对边缘设备在实时物理预测中的高能耗与物理一致性难题，研究团队提出物理信息脉冲神经网络（PISNN）。\n该框架首创通量量化（CFQ）策略，将神经脉冲重新定义为物理通量的离散数据包，并引入保守型漏失积分发放（C-LIF）神经元，从架构层面强制实现物理质量守恒。\n实验结果表明，在处理热方程和拉普拉斯方程任务时，PISNN 能以低于传统方法 1000 倍的能耗实现同等精度，有效解决了长时演化中的误差累积问题。\n通过调节可学习配额（Quota）参数，该系统可在精度与能效间动态平衡，为具身智能在资源受限环境下的高保真模拟提供了新路径。",
          "cover_url": "assets/covers/p12-physics-informed-snn-flux-quantization-fb5e64ad70.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T15:36:13+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N31_Building_Compositional_Subspaces",
      "slug": "n31-building-compositional-subspaces",
      "detail_url": "papers/n31-building-compositional-subspaces/",
      "title": "Building compositional tasks with shared neural subspaces",
      "summary": "问题与背景\n这篇论文讨论的是大脑如何在多任务之间保持灵活性。已有工作表明人工神经网络可以通过共享表示支持多任务和组合泛化，但真实生物大脑是否也通过类似的共享子空间来实现任务切换，并不清楚。作者用猴子的多任务切换实验，正面回答了这个问题。\n\n方法与新意\n作者让猴子执行三个具有组合关系的任务，并记录神经活动。核心分析不是看单神经元是否“选择”某个任务，而是看任务相关信息是否稳定地落在跨任务共享的神经子空间里。结果显示，感觉特征和动作信息分别落在可跨任务复用的共享子空间中，而具体任务通过内部 belief 的变化来选择性调用这些子空间。\n\n意义与仓库位置\n这篇论文对认知科学和 NeuroAI 都有价值。它给出了一个很强的证据：大脑的灵活任务执行不是每个任务各练各的，而是通过共享神经子空间进行组合式调用。这和组合泛化、模块化表示、世界模型中的任务因子化是同一路问题，因此适合放在认知科学主线里。\n\n局限与为什么不更高一级\n这篇的价值主要在于机制澄清和神经证据，而不是提出一个通用新框架。实验范式仍然是受控任务切换，离更自然主义的复杂行为还有距离；同时它对 AI 的影响更多是启发式，而不是直接给出可迁移的训练方法。所以我把它放在突破性，而不是更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-11-26",
      "doi": "10.1038/s41586-025-09805-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 150,
      "source_url": "https://www.nature.com/articles/s41586-025-09805-2",
      "paper_url": "https://www.nature.com/articles/s41586-025-09805-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO21_ProtDAT_Text_Protein_Design",
      "slug": "bio21-protdat-text-protein-design",
      "detail_url": "papers/bio21-protdat-text-protein-design/",
      "title": "Ab-initio amino acid sequence design from protein text description with ProtDAT",
      "summary": "多数蛋白生成模型仍然主要在序列或结构空间里工作，而很难直接接受自然语言形式的功能描述。这限制了蛋白设计系统作为通用设计接口的可用性。ProtDAT 抓的就是“能否从蛋白文本描述直接设计序列”。\n\n论文构建了一个统一多模态框架，把 protein text、sequence 和相关结构信号耦合起来，使模型能够从细粒度文本描述直接生成蛋白序列。重点不在于单次生成看起来像不像，而在于把“文本到蛋白序列”的接口做成可训练、可扩展的生物 foundation-model 能力。\n\n这篇论文值得收录，因为它把自然语言接口真正推进到了 protein design 场景。相比传统定向建模，这类工作会外溢到自动蛋白设计、研究 copilot、设计约束表达和更广的生物基础模型接口。\n\n它没有升到更高一级，因为当前证据更多集中在序列/结构合理性和任务表现，而不是大量湿实验闭环验证。作为接口层和基础模型层工作，它很强，但距离更完整的实验设计平台还有一步。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-11-26",
      "doi": "10.1038/s41467-025-65562-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 149,
      "source_url": "https://www.nature.com/articles/s41467-025-65562-w",
      "paper_url": "https://www.nature.com/articles/s41467-025-65562-w",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "用自然语言重写生命密码：上海交大ProtDAT实现蛋白质从头设计，让文字描述直接生成氨基酸序列",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "ab initio amino acid sequence design from protein text description with protdat",
          "description": "针对现有蛋白质设计模型在文本与序列交互上的局限，上海交通大学团队提出ProtDAT框架。该模型采用12层仅解码器架构，核心引入多模态交叉注意力机制（MCM），通过在底层深度融合文本信息与氨基酸序列，解决了模态孤立与交互粗糙的问题。基于Swiss-Prot数据集的47万对数据训练，ProtDAT实现了从自然语言功能描述直接生成蛋白质序列。实验证明，该方法在生成的结构合理性、功能一致性及亚细胞定位准确度上显著优于主流模型，且具备设计远源同源蛋白质的能力，为酶工程及药物研发提供了更具逻辑直觉的序列生成工具。",
          "x_post": "上海交大研发ProtDAT框架：基于自然语言实现蛋白质从头设计，训练集涵盖47万对数据\n\n针对蛋白质设计中语言描述与生物序列模态孤立的问题，上海交通大学团队在《Nature Communications》发表了ProtDAT框架。该模型采用12层Decoder-only架构，核心引入多模态交叉注意力机制（MCM），在底层实现文本语义与氨基酸序列的深度融合。\n\n基于Swiss-Prot数据库约47万对非冗余数据训练，实验证明ProtDAT在结构合理性、功能一致性及亚细胞定位准确度上均显著优于现有模型。即便序列长度增加至500，其CIM模块仍能保持稳定的指令引导权重（从0.214平稳降至0.163）。\n\n该研究实现了“所写即所得”的序列生成，为酶工程及远源同源蛋白质设计提供了具备逻辑直觉的精准工具。",
          "cover_url": "assets/covers/bio21-protdat-text-protein-design-763c57847b.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T18:50:59+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A75_LatentMAS_Multi_Agent_Collaboration",
      "slug": "a75-latentmas-multi-agent-collaboration",
      "detail_url": "papers/a75-latentmas-multi-agent-collaboration/",
      "title": "Latent Collaboration in Multi-Agent Systems",
      "summary": "问题与背景：当前多智能体系统几乎都依赖自然语言文本进行中介式协作，这带来三个老问题：通信成本高、离散化造成信息丢失、协作延迟随着 agent 数量快速膨胀。LatentMAS 直接把问题改写为：智能体之间是否可以绕过文本，在连续 latent space 里进行信息交换，从而获得更高表达力和更低系统成本。\n\n方法/新意：论文提出一个 training-free 的 latent collaboration 框架，让 agent 通过最后一层 hidden embeddings 进行自回归 latent thoughts 生成，并把这些内部表征写入共享 latent working memory，供其他 agent 直接读取。作者同时给出理论分析，论证相对于文本通信的 expressiveness 和 lossless preservation 优势，并在数学、科学、常识和代码等 9 个 benchmark 上验证系统质量与效率收益。\n\n意义/放在仓库中的位置：这篇工作很适合放在 agent systems / multi-agent communication / memory substrate 主线。它的核心价值在于改变多智能体协作的通信基底，不再把自然语言视为唯一接口，而是把隐藏状态共享变成系统设计的一等公民。对未来的低成本 agent teams、latent working memory、跨 agent reasoning substrate 都有明显外溢。\n\n局限/为何不再升一级：虽然方向很强，但当前仍主要建立在特定 latent 对齐与框架设定上，跨模型族、跨工具链和更开放环境下的稳健性还需要更多证据。它已经足够值得正式收录，但还不到无争议地重排整个多智能体路线的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-11-25",
      "doi": "",
      "arxiv_id": "2511.20639",
      "collected_at": "",
      "collection_order": 148,
      "source_url": "https://arxiv.org/pdf/2511.20639.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.20639.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "告别低效的文本对话范式：斯坦福等名校发布LatentMAS，开启智能体间的无损隐空间通信",
          "url": "https://www.bilibili.com/video/BV1iUXDBTEp8",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1iUXDBTEp8",
            "https://youtu.be/j9vRmYTSBZ8"
          ],
          "main_collection": "AI智能体",
          "match": "latent collaboration in multi agent systems",
          "description": "传统多智能体协作依赖自然语言作为媒介，常因离散Token解码导致严重的通信损耗与推理延迟。斯坦福、普林斯顿等校研究者提出的LatentMAS框架，通过允许大语言模型直接在连续隐空间内生成思维并交互，彻底绕过了文本解码环节。该系统利用共享KV缓存作为潜工作记忆，在数学上实现了信息的无损传递。实验证明，该方案在无需额外训练的前提下，使推理速度提升4.3倍，同时降低了83.7%的Token消耗。LatentMAS为高性能智能体协作提供了一种基于底层表征的新型通信范式。",
          "x_post": "普林斯顿、斯坦福与UIUC联合发布LatentMAS，实现隐空间无损协作且推理提速4.3倍\n传统多智能体系统（MAS）依赖离散文本作为交互媒介，常面临思维降维导致的语义损耗与通信延迟。该研究提出的 LatentMAS 框架，使大型语言模型能够直接在连续隐空间内进行思考与交互，彻底跳过文本解码环节。系统利用共享层级 KV 缓存作为潜工作记忆，在数学上实现了跨智能体信息的无损传递。实验数据显示，该方案在无需额外训练的基础上，将推理准确率提升 14.6%，并大幅削减 83.7% 的 Token 消耗。LatentMAS 证明了底层表征在复杂协作中的表达力优势，为构建高性能、低成本的系统级智能提供了全新路径。",
          "cover_url": "assets/covers/a75-latentmas-multi-agent-collaboration-6c3210d003.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-29T21:49:04+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C6_Genie_CAT_Enzyme_Design",
      "slug": "c6-genie-cat-enzyme-design",
      "detail_url": "papers/c6-genie-cat-enzyme-design/",
      "title": "Beyond Protein Language Models: An Agentic LLM Framework for Mechanistic Enzyme Design",
      "summary": "蛋白和酶设计里，语言模型已经能提供序列层面的启发，但从结构、静电环境到机制层的可解释假设生成仍然高度依赖专家。本文针对的是这个缺口：如何让 LLM 不只是生成候选序列，而是生成带机制解释、可实验检验的设计假设。\n\n作者提出 Genie-CAT，一个带工具增强的 agentic LLM 框架，把文献检索、PDB 结构解析、电势计算和红氧性质预测整合进统一流程。以金属蛋白为例，系统能够在统一工作流里给出接近专家推理的、残基级别的机制假设，连接序列、结构与功能。\n\n这篇论文适合仓库的 AI×生物与 agentic science 主线。它不像通用蛋白语言模型那样追求单一 benchmark，而是代表一种“LLM + physics/biochem tools” 的机制设计范式，对 enzyme design、hypothesis generation 和 mechanistic protein design 都有参考价值。\n\n它暂时归为突破性，因为当前更像 proof-of-concept 与高质量框架论文，仍缺少更大规模实验闭环或真实 wet-lab 结果，暂不足以升到颠覆性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-11-24",
      "doi": "",
      "arxiv_id": "2511.19423",
      "collected_at": "",
      "collection_order": 147,
      "source_url": "https://arxiv.org/pdf/2511.19423.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.19423.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让AI具备物理直觉设计蛋白质，PNNL发布Genie-CAT智能体，融合1600篇文献与物理计算",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "beyond protein language models an agentic llm framework for mechanistic enzyme design",
          "description": "太平洋西北国家实验室（PNNL）针对蛋白质功能设计中的“物理认知盲区”，推出了Genie-CAT智能体。传统模型虽擅长结构预测，却难以处理金属酶中复杂的静电相互作用。Genie-CAT以大语言模型为核心，深度整合了1600余篇专业文献的RAG检索、3D结构解析及基于泊松-玻尔兹曼方程的物理静电计算。在铁硫簇蛋白的研究中，该系统能够自主生成具有可解释性的科学假设，将从结构分析到功能预测的研发周期显著缩短。这一突破标志着AI从单纯的概率预测进化为具备物理直觉的计算科学家，为生物催化剂的精准设计提供了新路径。",
          "x_post": "PNNL发布Genie-CAT：融合1600篇文献与物理计算的金属蛋白设计智能体\n\n传统蛋白质语言模型在处理金属酶的静电相互作用与氧化还原电位时存在“物理认知盲区”。为此，太平洋西北国家实验室（PNNL）开发了Genie-CAT框架，将大语言模型的逻辑推理与数值计算引擎深度集成。\n\n该系统通过RAG技术整合1600余篇专业文献，并结合泊松-玻尔兹曼方程进行物理静电建模。在铁硫簇蛋白（[4Fe-4S]）的案例研究中，Genie-CAT实现了从3D结构解析到功能预测的自动化流程，能够自主生成具有物理可解释性的科学假设。\n\n实验数据证明，这种多模态智能体显著缩短了生物催化剂的研发周期。这一进展标志着AI辅助蛋白质设计正在从单一的概率预测向具备“物理直觉”的计算科学范式演进。",
          "cover_url": "assets/covers/c6-genie-cat-enzyme-design-65fe3cc852.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-26T19:17:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO35_PopEVE_Disease_Genetics",
      "slug": "bio35-popeve-disease-genetics",
      "detail_url": "papers/bio35-popeve-disease-genetics/",
      "title": "Proteome-wide model for human disease genetics",
      "summary": "问题与背景：missense variant interpretation 的难点在于跨蛋白、跨疾病严重度和未见变异的可比性。许多模型能在已知疾病基因内分类，但不能稳定地把不同基因上的变异放到同一严重度尺度上。\n\n方法与新意：popEVE 结合 EVE/ESM 等进化序列信息与 UKBB、gnomAD 等人群约束，用概率模型把蛋白内变异效应校准到 proteome-wide deleteriousness 尺度。它强调可跨基因排序，而不只是二分类 pathogenic/benign。\n\n收录意义：这篇值得进入 AI biology/clinical genomics 主线，因为它改变的是罕见病变异解释工作流：在没有亲代测序的 singleton case 中也能优先排序候选 causal variant，并能降低人群结构偏差。对 AI 辅助诊断和基因组发现流程有持久参考价值。\n\n局限：临床采用仍需要前瞻性验证、管线整合和监管证据；模型仍依赖既有人群数据库与进化序列覆盖。因此按 breakthrough 收录，而不是更高等级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-11-24",
      "doi": "10.1038/s41588-025-02400-1",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 146,
      "source_url": "https://www.nature.com/articles/s41588-025-02400-1",
      "paper_url": "https://www.nature.com/articles/s41588-025-02400-1",
      "project_urls": [
        "https://www.nature.com/articles/s41588-025-02400-1"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MED2_Not_Quite_Anything_3D_Med_Imaging",
      "slug": "med2-not-quite-anything-3d-med-imaging",
      "detail_url": "papers/med2-not-quite-anything-3d-med-imaging/",
      "title": "Not Quite Anything: Overcoming SAMs Limitations for 3D Medical Imaging",
      "summary": "这篇论文讨论通用分割基础模型在 3D 医学影像上的失配问题。SAM/SAM-2 在自然图像上很强，但在脑 MRI 这类低对比、边界模糊的 3D 医学场景里效果明显下降。论文想解决的不是再训练一个更大的专用模型，而是如何让现有 foundation segmentation 模型真正适配 3D 医学图像。\n\n方法上，作者没有直接微调整个 foundation model，而是采用组合式框架：用轻量 3D U-Net 产生粗定位，再把 foundation model 输出作为额外输入通道，与 MRI 一起进行分割，并探索了基于 DINO attention 的 prompt-free 变体。关键思想是把 foundation model 作为组合模块，而不是端到端重训。\n\n这篇适合放在医学影像 / foundation model 适配主线。它的价值是把“大模型如何进入 3D 医学影像”这件事做得更务实，说明在强领域偏移场景下，组合式适配可能比直接微调基础模型更有效。\n\n它没有升到更高一级，因为外溢主要集中在 3D 医学分割这一子方向，更多是强工程和强适配思路，而不是改变更广泛视觉基础模型路线的论文。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "math_and_formal_reasoning",
      "theme_label": "数学与形式推理",
      "published_at": "2025-11-22",
      "doi": "",
      "arxiv_id": "2511.19471",
      "collected_at": "",
      "collection_order": 145,
      "source_url": "https://arxiv.org/abs/2511.19471",
      "paper_url": "https://arxiv.org/abs/2511.19471",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "诊断准确率跨越94.47%红线，斯坦福3D新架构让儿童强迫症微小病灶清晰可见",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "not quite anything overcoming sams limitations for 3d medical imaging",
          "description": "斯坦福大学针对3D医疗影像分割提出一种新型复合架构。传统基础大模型在处理边界模糊的大脑MRI时常失效，难以满足儿童强迫症研究对体积检测精度需超过94.47%的严苛要求。该方法将SAM等模型的初步预测转化为“合成对比度”通道，引导轻量化3D U-Net进行精准学习。实验证明，该架构在无需昂贵微调的情况下，使体积准确率达到96%，能敏锐察觉脑部仅0.2%体积的微小病变。这为低成本、高鲁棒性的神经系统疾病自动化诊断提供了关键技术支撑。",
          "x_post": "斯坦福大学提出新型3D医疗影像分割架构，以96%体积准确率跨越儿童强迫症诊断红线\n\n针对儿童OCD研究需监测仅占全脑体积0.2%的微小病变，临床要求分割精度必须超过94.47%以确保10%体积变化的检测可靠性。该研究放弃昂贵的模型微调，构建“has-a”组合架构，将SAM等基础模型的2D预测转化为“合成对比度”通道，引导轻量级3D U-Net进行精准分割。实验证实，该方案在无需重新训练大模型的情况下，实现了96%的体积准确率与极高的分布鲁棒性。该技术为低成本、高精度的神经系统疾病自动化诊断及微小病灶追踪提供了重要支撑。",
          "cover_url": "assets/covers/med2-not-quite-anything-3d-med-imaging-b8d054966b.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T15:07:15+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A13_SkillWrapper_Planning",
      "slug": "a13-skillwrapper-planning",
      "detail_url": "papers/a13-skillwrapper-planning/",
      "title": "SkillWrapper: Generative Predicate Invention for Task-level Planning",
      "summary": "这篇论文处理的是长期智能体里非常核心但常被低估的问题：低层技能很多，但如果没有好的高层符号抽象，这些技能很难被组合成真正可规划的长程行为。作者试图让模型自动发明适合任务级规划的 predicates。\n\n方法上，SkillWrapper 用生成式 predicate invention 把对象中心技能包装成更适合 domain-independent planner 使用的符号接口。核心新意不在单个技能学习，而在“从技能执行到任务级规划”的抽象层构建。\n\n它在仓库中的位置是 planning / symbolic abstraction / robotics 主线。对长期 agent、具身规划和神经符号协同都具有方法学价值。\n\n它没有再升一级，是因为证据主要集中在规划抽象这一层，尚未展示平台级外溢或跨多个大系统的决定性影响。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-11-22",
      "doi": "",
      "arxiv_id": "2511.18203",
      "collected_at": "",
      "collection_order": 144,
      "source_url": "https://arxiv.org/pdf/2511.18203.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.18203.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "赋予机器人“思考”因果的能力：SkillWrapper 让 AI 仅看画面学会复杂长线任务",
          "url": "https://www.bilibili.com/video/BV1ftRaBREjj",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1ftRaBREjj",
            "https://youtu.be/hYfz0pViTp8"
          ],
          "main_collection": "机器人与具身智能",
          "match": "skillwrapper generative predicate invention for task level planning",
          "description": "布朗大学与艾伦人工智能研究所（AI2）联合推出了 SkillWrapper 系统，旨在解决机器人难以胜任长线复杂任务的难题。针对机器人缺乏因果逻辑模型、长期依赖专家编写规则的痛点，该研究利用视觉大模型从原始 RGB 图像中自动提炼语义化谓词，实现了“生成式谓词发明”。系统通过主动数据收集与对比式学习，成功将底层像素感知转化为高层符号逻辑。实验证明，SkillWrapper 能让机器人在无需人工干预的情况下，自主规划并执行从未见过的多步任务，在真实世界场景中表现出极强的泛化性。这为具身智能跨越感知与推理的鸿沟提供了新路径。",
          "x_post": "布朗大学与艾伦人工智能研究所推出 SkillWrapper：利用 VLM 实现从原始像素到长程任务规划的自主逻辑建模\n\n针对具身智能在复杂任务中面临的感知与逻辑断层，该研究提出了 SkillWrapper 框架。系统利用多模态大模型从原始 RGB 图像中自动提炼语义化谓词，将低层技能转化为可规划的符号表示，解决了长期以来对人工专家编写规则的依赖。\n\n技术核心采用了“主动探索-谓词发明-算子学习”的闭环迭代。通过引入覆盖率（Coverage）与链通率（Chainability）等指标引导数据采集，并利用对比式学习分析操作成败的视觉差异，从而自主发明如“容器状态”等关键因果逻辑。\n\n实验证明，该系统使机器人能够在无需人工干预的情况下，自主规划并执行从未见过的多步长程任务，有效跨越了从高维感知到高层推理的鸿沟，在真实世界场景中展现出显著的泛化能力。",
          "cover_url": "assets/covers/a13-skillwrapper-planning-b1eec8c796.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T15:34:26+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P9_Physical_Laws_Symbolic_Enumeration",
      "slug": "p9-physical-laws-symbolic-enumeration",
      "detail_url": "papers/p9-physical-laws-symbolic-enumeration/",
      "title": "Discovering physical laws with parallel symbolic enumeration",
      "summary": "这篇论文讨论的是符号回归和物理规律发现里的核心瓶颈：表达式搜索太慢、重复计算太多、很难扩展到更复杂的规律恢复任务。作者把重点放在并行 symbolic enumeration 上，目标不是做一个小改良 baseline，而是把这条路线推进到可扩展工具层面。\n\n方法上，论文提出并行 symbolic enumeration 框架，把表达式搜索中的公共子结构复用和大规模并行结合起来，并与物理规律发现任务耦合。文章页和开源资源都强调相较既有方法在搜索效率上有数量级提升，同时在规律恢复成功率上优于多个基线。\n\n它的重要性在于，这类工作处在 AI for science 最硬的一条线上：不是黑箱近似，而是恢复可解释、可读、可验证的物理定律。对于仓库里关注物理发现、符号学习和科学发现工具链的人，这是一篇很值得正式收录的论文。\n\n我把它放在“突破性”。它明显超过普通 symbolic regression 工作，但目前影响仍主要集中在规律发现与符号枚举这条主线上，还没扩展成更大范围的范式重排。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-11-21",
      "doi": "10.1038/s43588-025-00904-8",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 143,
      "source_url": "https://www.nature.com/articles/s43588-025-00904-8",
      "paper_url": "https://www.nature.com/articles/s43588-025-00904-8",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P17_Gradient_Descent_In_Materia",
      "slug": "p17-gradient-descent-in-materia",
      "detail_url": "papers/p17-gradient-descent-in-materia/",
      "title": "Gradient descent in materia through homodyne gradient extraction",
      "summary": "## 问题与背景\n问题与背景：物理神经网络和模拟计算长期受制于一个核心问题：如何在真实物理器件里获得可用于训练的梯度，而不是退回数字仿真中做反向传播。没有稳定梯度提取，物理网络就很难成为真正可训练的计算体系。\n\n## 方法/新意\n方法/新意：这篇工作提出基于 homodyne gradient extraction 的训练方法，直接从物理系统响应中抽取梯度信号，从而在材料/器件层完成更接近 gradient descent 的更新。它的重点是把“能训练”这个门槛从数字近似推进到更原生的 in-materia learning。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：它适合放在 physical neural networks 与 AI hardware 主线，和 Training of physical neural networks 综述是上下游关系。前者给路线图，这篇给更接近可执行训练机制的原始研究。\n\n## 局限/为何不更高\n局限/为何不更高：它的长期价值很大，但当前影响仍集中在物理学习硬件这一子方向。距离范式级还差更广泛器件验证和系统级可扩展性证据，所以先归为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-11-21",
      "doi": "10.1038/s41467-025-65155-7",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 142,
      "source_url": "https://www.nature.com/articles/s41467-025-65155-7",
      "paper_url": "https://www.nature.com/articles/s41467-025-65155-7",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "I10_BlockCert_Mechanisms",
      "slug": "i10-blockcert-mechanisms",
      "detail_url": "papers/i10-blockcert-mechanisms/",
      "title": "BlockCert: Certified Blockwise Extraction of Transformer Mechanisms",
      "summary": "## 问题与背景\n问题与背景：mechanistic interpretability 的一个难点，是很多所谓“机制抽取”仍然缺乏可证性和稳定性。尤其 Transformer 的 block-level 机制，很难做到带保证的抽取。\n\n## 方法/新意\n方法/新意：BlockCert 主打 certified blockwise extraction，把解释工作从经验可视化推进到带形式保证的机制抽取。它关注的是如何更可靠地拿到 Transformer 内部可验证的机制块。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：它适合放在 interpretability / mechanism extraction 主线，与 CODEC、capability localization、CoT-Control 形成机制理解工具链。\n\n## 局限/为何不更高\n局限/为何不更高：影响目前仍主要局限在 mechanistic interpretability 子社区，外溢到更广模型控制与系统工程还需要时间，因此先定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2025-11-20",
      "doi": "",
      "arxiv_id": "2511.17645",
      "collected_at": "",
      "collection_order": 141,
      "source_url": "https://arxiv.org/abs/2511.17645",
      "paper_url": "https://arxiv.org/abs/2511.17645",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "开启大模型可信审计时代：BlockCert 通过区块级凭证封装，确保 AI 内部逻辑实现“所见即所得”",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "blockcert certified blockwise extraction of transformer mechanisms",
          "description": "纽约大学研究团队针对大模型内部逻辑的“黑盒困境”，推出了名为 BlockCert 的可信审计框架。该方法跳出传统形式化验证的算力陷阱，将 Transformer 架构分解为可独立验证的残差块，并通过生成带有 SHA-256 哈希的机器可校验证书，填补了直观解释与严谨验证间的空白。实证研究显示，该框架在 Llama 等模型上实现了 99.8% 的激活覆盖率，能极高保真地量化模型内部偏差。BlockCert 像为 AI 算力开具了一张“数字发票”，让开发者无需庞大计算即可一键校验模型逻辑，为大模型的安全审计与精准修改提供了低成本、可复现的技术保障。",
          "x_post": "纽约大学团队发布 BlockCert：实现 Transformer 区块级高精度提取与 99.8% 激活覆盖率验证\n\n针对大规模语言模型内部逻辑的不可感知性，传统形式化验证因计算复杂度过高而难以扩展。BlockCert 框架通过将 Transformer 残差块提取为结构化的中间表示，并结合 Lean 4 交互式定理证明器确证其逻辑一致性。在 Llama 系列模型的实证中，该方法达到了 99.8% 的激活覆盖率与 95.5% 的路径覆盖率，确保了提取机制的高保真度。该工具生成的机器可校验证书包含 SHA-256 哈希与量化指标，为大模型的安全审计与机制验证提供了低成本、可复现的技术路径。",
          "cover_url": "assets/covers/i10-blockcert-mechanisms-1e81b0f66f.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T15:01:47+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "AG1_Pheno_Farm_Server",
      "slug": "ag1-pheno-farm-server",
      "detail_url": "papers/ag1-pheno-farm-server/",
      "title": "AI-powered Pheno-Farm Server: Making adaptive farming decisions",
      "summary": "问题与背景：农业生产正在同时受到气候波动、资源约束和可持续要求的挤压，传统精细农业系统往往停留在感知或预测层，缺少把多源田间表型数据真正转成可执行农事决策的统一基础设施。本文要解决的是：如何把高通量表型、环境数据和作物管理变量组织成一个可持续运行的 AI server，使农业决策从离线分析走向持续适应。\n\n方法/新意：论文提出 Pheno-Farm Server（PFS），把硬件接入、数据聚合、预处理、建模和决策支持整合成一个完整 pipeline。系统可接入 glasshouse、rain-out shelter、experimental farm 和 open field 等不同场景中的 phenotyping 数据，并用回归模型对氮肥水平、干旱条件和数字生物量等变量进行建模，从而支持 adaptive decision-making。重点不在某个单独模型，而在 sensing-to-decision 的 server 化闭环。\n\n意义/放在仓库中的位置：这篇工作符合仓库刚扩进来的农业/种植方向，因为它确实改变了农业 AI 的工作流形态，不只是做一个 crop prediction demo，而是把 phenotyping、数据基础设施和农艺决策串成可复用系统。它也提供了一个值得后续跟踪的模式：农业 AI 的价值不一定来自更复杂模型，而可能来自把实时采集、跨场景数据整合和资源优化放进统一的 operating loop。\n\n局限/为何不再升一级：当前证据仍主要集中在特定作物、特定指标和氮肥优化这一类决策上，方法主体也偏系统集成和回归建模，而不是提出足以重排农业基础模型或 autonomous farming 路线的新训练范式。因此它适合定为 breakthrough，但还不到更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agriculture_and_food_systems",
      "theme_label": "农业与食物系统",
      "published_at": "2025-11-20",
      "doi": "10.1016/j.agsy.2025.104563",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 140,
      "source_url": "https://doi.org/10.1016/j.agsy.2025.104563",
      "paper_url": "https://doi.org/10.1016/j.agsy.2025.104563",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结靠天吃饭：PFS农场服务器利用AI自适应决策，将农业经验转化为毫秒级的实时智能推演",
          "url": "https://www.bilibili.com/video/BV1yDQRBtE8j",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1yDQRBtE8j",
            "https://youtu.be/cD0lP8aGuEE"
          ],
          "main_collection": "AI农业、养殖与水产",
          "match": "ai powered pheno farm server making adaptive farming decisions",
          "description": "针对传统农业数据割裂与决策滞后问题，本视频详细解析了表型农场服务器（PFS）的技术架构。该系统通过集成边缘计算硬件与Linux开源软件管线，实现了从无人机、地面载具及气象站等多源实时数据的自动化处理。研究重点对比了多种机器学习模型，证明支持向量回归（SVR）在预测数字生物量方面具备极高精准度。PFS能够将复杂的农业经验转化为毫秒级的自适应决策指令，在氮肥施用与灌溉优化场景中表现优异。视频深入探讨了系统在半田间条件下应对气候波动的边界能力，为构建高产、可持续的现代农场提供了数据驱动的技术框架。",
          "x_post": "PFS研究团队在《农业系统》发表成果：集成SVR算法实现毫秒级自适应农业决策\n针对传统农业数据割裂与决策滞后挑战，表型农场服务器（PFS）通过整合无人机、地面传感器及气象站，实现了多源实时数据的自动化处理。系统基于边缘计算硬件架构，利用支持向量回归（SVR）模型对作物健康状况与生长趋势进行深度分析。实验数据表明，SVR在数字生物量预测方面表现最为精准，能够将复杂的农业经验转化为针对氮肥施用与灌溉优化的实时指令。该框架在半田间条件下验证了其应对气候波动的边界能力，为现代农场的智能化与可持续生产提供了数据驱动的技术方案。",
          "cover_url": "assets/covers/ag1-pheno-farm-server-7797b5813d.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T11:24:50+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "W5_GEO_Bench_2_Geospatial_AI",
      "slug": "w5-geo-bench-2-geospatial-ai",
      "detail_url": "papers/w5-geo-bench-2-geospatial-ai/",
      "title": "GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI",
      "summary": "GeoFMs 发展很快，但评测长期缺少统一协议，结果通常停留在单数据集分数对比，难以回答模型究竟具备哪些稳定能力。对下游用户来说，这比单次 leaderboard 排名更关键。\n\nGEO-Bench-2 提供了覆盖分类、分割、回归、检测和实例分割的 19 个许可友好数据集，并引入 capability groups，把共享分辨率、波段、时序等特征的数据集归到同一能力维度。论文同时给出 prescriptive yet flexible 的评测协议，使公平比较与 adaptation 研究可以在同一基线上展开。\n\n这篇工作值得收录，因为它不是又一个 geospatial benchmark 拼盘，而是在重写 geospatial AI 的评价语言：从单任务 performance 转向 capability-oriented evaluation。对地理空间基础模型、遥感多模态模型和场景化下游部署，这都是更耐久的参考框架。\n\n它仍然主要服务于 geospatial AI 这一垂直方向，尚未达到会重塑更广多模态或 foundation-model 评测范式的程度。因此我把它定为 breakthrough，而不是更高。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "weather_climate_and_earth_systems",
      "theme_label": "天气、气候与地球系统",
      "published_at": "2025-11-19",
      "doi": "",
      "arxiv_id": "2511.15658",
      "collected_at": "",
      "collection_order": 139,
      "source_url": "https://arxiv.org/pdf/2511.15658v2.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.15658v2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P8_WALRUS_Continuum_Dynamics",
      "slug": "p8-walrus-continuum-dynamics",
      "detail_url": "papers/p8-walrus-continuum-dynamics/",
      "title": "Walrus: A Cross-Domain Foundation Model for Continuum Dynamics",
      "summary": "这篇论文面向连续介质动力学的统一建模问题，试图用单个基础模型覆盖流体、地学、天体物理等多个连续场景。传统科学机器学习模型往往只在单一 PDE 或单一模拟族上有效，而一旦跨分辨率、跨物理场景或做长期 rollout，稳定性和泛化就迅速恶化。作者把问题明确推进到“跨域基础模型”层面。\n\n方法上，论文提出 Walrus，一个基于 Transformer 的连续介质动力学基础模型。它通过随机补丁抖动（patch jittering）增强长期预测稳定性，通过计算自适应分词处理不同分辨率和异构场景，并在包含 19 个场景的大规模数据上统一预训练，覆盖 2D 与 3D 情况。核心新意不只是模型更大，而是把稳定长程预测与跨域统一建模放到同一训练框架里。\n\n这篇工作之所以重要，在于它把“scientific foundation model”真正落到连续介质动力学主线上。它不是单一模拟器的精度优化，而是在回答：能不能像语言和视觉那样，为流体类物理系统建立跨任务的统一底座。对于 AI×物理、learned simulator、科学基础模型，这都是值得长期跟的方向。\n\n在仓库里我把它放在“突破性”。原因是它的方法和场景都很强，但目前仍属于科学机器学习中的强模型论文，还没有像 AlphaEvolve、AlphaGenome 那样直接重排更大范围的研究路线图。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-11-19",
      "doi": "",
      "arxiv_id": "2511.15684",
      "collected_at": "",
      "collection_order": 138,
      "source_url": "https://arxiv.org/pdf/2511.15684.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.15684.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW4_Photonic_Edge_Intelligence",
      "slug": "hw4-photonic-edge-intelligence",
      "detail_url": "papers/hw4-photonic-edge-intelligence/",
      "title": "Photonic edge intelligence chip for multi-modal sensing, inference and learning",
      "summary": "这篇论文处理的是边缘智能的一个硬问题：如何在高吞吐模拟信号进入系统时，把感知、推理甚至学习尽量压到片上完成，而不是先把原始信号数字化后再交给传统电子处理链。这个问题对多模态 edge hardware 很关键。\n\n作者提出 photonic edge intelligence chip，把图像、光谱和射频等多模态模拟输入映射到光谱表示，再通过片上的 AWG、非线性激活和全连接层完成 optical neural network 形式的 sensing + inference + learning。重点在于它把模态采集和 AI 计算做成了单一硬件栈。\n\n对仓库而言，这篇论文有价值，因为它不是单纯的 photonic compute 演示，而是一个更接近产品级 edge-intelligence 结构的原型：AI 计算路径与传感输入被共同设计，展示了多模态边缘硬件如何围绕 AI 任务重新组织。\n\n之所以没有上调更高等级，是因为该方案仍属于 photonic edge computing 的前沿路线，距离成为主流 AI 硬件设计基准还有距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2025-11-19",
      "doi": "10.1038/s41467-025-65151-x",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 137,
      "source_url": "https://doi.org/10.1038/s41467-025-65151-x",
      "paper_url": "https://doi.org/10.1038/s41467-025-65151-x",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让边缘AI实现纳秒级光速响应，华科大联手浙大研发光子芯片突破ADC瓶颈",
          "url": "https://www.bilibili.com/video/BV1RFZFBvEu2",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1RFZFBvEu2",
            "https://youtu.be/ZcPismNebZk"
          ],
          "main_collection": "AI硬件设计",
          "match": "photonic edge intelligence chip for multi modal sensing inference and learning",
          "description": "华中科技大学与浙江大学团队针对边缘计算中模数转换（ADC）带来的高功耗与延迟难题，研发出一种多模态光子边缘智能芯片（PEIC）。该芯片创新性地将图像、光谱与射频信号统一映射为宽带光信号，利用阵列波导光栅（AWG）构建卷积引擎，实现端到端的光学计算。实验数据表明，该芯片具备1.6 THz的单通道带宽，响应延迟缩短至1.33纳秒，能效比达29 fJ/OP。该成果显著提升了边缘侧处理海量模拟信号的速度与能效，为自动驾驶、卫星通信等高实时性场景提供了全新的底层硬件方案。",
          "x_post": "华科大联手浙大研发多模态光子边缘智能芯片PEIC，实现1.33ns响应延迟与29fJ/OP能效\n针对边缘计算中模数转换（ADC）带来的高功耗与信号延迟瓶颈，研究团队提出一种集成化光子边缘智能芯片架构。该芯片利用阵列波导光栅（AWG）构建卷积算力引擎，将图像、光谱与射频信号统一映射为宽带光信号，实现端到端光学模拟计算。实验数据显示，PEIC具备1.6 THz单通道带宽，响应延迟缩短至1.33 ns，能效比达29 fJ/OP。通过无监督微调技术有效抵消了硬件制造误差，该成果为自动驾驶、卫星通信等高实时性边缘感知场景提供了新型硬件方案。",
          "cover_url": "assets/covers/hw4-photonic-edge-intelligence-45d890d60a.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-25T19:09:25+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C3_CytoDiffusion",
      "slug": "c3-cytodiffusion",
      "detail_url": "papers/c3-cytodiffusion/",
      "title": "Deep generative classification of blood cell morphology",
      "summary": "- 分级：`颠覆性`\n- 正式标题：`Deep generative classification of blood cell morphology`\n- 原文：`2025-11-19-C3_CytoDiffusion-Deep_generative_classification_of_blood_cell_morphology.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\nCytoDiffusion 把血液细胞形态诊断从传统判别式分类器推进到了生成式分类框架。作者指出，显微镜下的血细胞形态存在明显的类内异质性、罕见变体和分布漂移，导致常规判别模型在真实临床环境中鲁棒性不足。为此，论文提出基于扩散模型的生成式分类器，让模型学习血细胞形态分布本身，而不是只做标签边界拟合。\n\n这样做带来了几个非常关键的性质：更好的异常检测能力、对分布外变化更强的鲁棒性、可解释性、不确定性量化，以及在数据稀缺场景下更稳定的表现。论文把这套方法放在血液病理诊断场景中验证，目标不是“再做一个更高分的显微镜分类器”，而是更接近真实临床工作流中的筛查和辅助判读系统。\n\n## 为什么重要\n\n医疗影像里的很多任务不是标准封闭集分类，而是“在复杂噪声里识别细微异常并知道自己不确定”。CytoDiffusion 代表的是一种更适合临床高风险环境的生成式诊断范式，这比单纯提升几个百分点分类准确率更重要。\n\n## 局限\n\n这篇工作的正式在线发表时间是 `2025-11-19`，略早于你之前使用的 `2025-12-03` 窗口。方法本身也仍需要更大规模、多中心和跨设备验证，才能证明它在真实临床部署中稳定可靠。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-11-19",
      "doi": "10.1038/s42256-025-01122-7",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 136,
      "source_url": "https://www.nature.com/articles/s42256-025-01122-7.pdf",
      "paper_url": "https://www.nature.com/articles/s42256-025-01122-7.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "连顶级医生也分不出真假的合成细胞：UCL 团队利用 CytoDiffusion 刷新医学图灵测试纪录",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "deep generative classification of blood cell morphology",
          "description": "由伦敦大学学院（UCL）团队研发的CytoDiffusion利用生成式扩散模型，解决了血液细胞形态学分析中亚型差异细微、设备域偏移严重的难题。该系统通过学习细胞形态的完整分布，在多个数据集上分类准确率超过99%。在医学图灵测试中，模型生成的合成图像令资深专家辨别准确率降至52.3%，近乎随机猜测。相比传统AI，它具备更强的不确定性量化与异常检测能力，能精准拦截罕见变异细胞。该研究为血液病临床诊断提供了更具解释性、更稳健的自动化方案，显著提升了复杂场景下的诊断精准度。",
          "x_post": "UCL 团队研发 CytoDiffusion 扩散模型：血细胞诊断准确率达 99.6%，合成图像令专家辨别率降至 52.3%\n\n临床血液细胞形态学分析长期受困于跨设备域偏移和罕见亚型识别难题。传统判别式 AI 往往因缺乏对细胞本质结构的理解，在面对未知变异或异质性样本时容易出现性能崩溃与误诊。\n\n该研究提出的 CytoDiffusion 框架通过生成式扩散模型学习细胞形态的完整概率分布，实现了从“划线分类”到“理解分布”的范式转移。其核心在于通过加噪与还原过程模拟细胞生成，从而建立起具备不确定性量化能力的判别机制。\n\n实验数据显示，该模型在公开数据集上的分类准确率达 99.6%，异常检测 AUC 达 0.990；跨设备准确率达 85.4%，显著优于传统模型的 73.8%。在医学图灵测试中，资深血液学家对合成图像的辨别准确率仅为 52.3%，近乎随机猜测。\n\nCytoDiffusion 结合反事实热图提供了直观的临床解释性，解决了 AI 临床应用的“黑盒”疑虑，为实现稳健、精准的血液病自动化诊断提供了新路径。",
          "cover_url": "assets/covers/c3-cytodiffusion-f45d90d5b5.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-19T19:52:18+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO39_Semantic_DeNovo_Genes",
      "slug": "bio39-semantic-denovo-genes",
      "detail_url": "papers/bio39-semantic-denovo-genes/",
      "title": "Semantic design of functional de novo genes from a genomic language model",
      "summary": "问题与背景：基因组生成模型正在变强，但如何控制模型生成具有指定功能、且远离天然序列空间的新基因仍是关键瓶颈。\n\n方法与机制：论文利用 Evo genomic language model 的上下文学习能力，把编码目标功能的 DNA prompt 作为 genomic autocomplete 条件，执行 semantic design，生成富集相关功能的新序列，并实验验证 anti-CRISPR proteins 与 toxin-antitoxin systems 等 de novo genes。\n\n为什么重要：这把基因组语言模型从表征/预测推进到功能可控的基因设计，且验证了无显著天然同源性的序列也能获得功能。它对合成生物学、蛋白功能发现和基因组级设计具有强外溢。\n\n局限：功能类别仍有限，生物安全、功能可预测性和大规模实验成功率需要更系统的评估；因此暂定颠覆性而非范式级。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-11-19",
      "doi": "10.1038/s41586-025-09749-7",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 135,
      "source_url": "https://www.nature.com/articles/s41586-025-09749-7.pdf",
      "paper_url": "https://www.nature.com/articles/s41586-025-09749-7.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A74_AUI_Gym_Agent_Native_GUI",
      "slug": "a74-aui-gym-agent-native-gui",
      "detail_url": "papers/a74-aui-gym-agent-native-gui/",
      "title": "Computer-Use Agents as Judges for Generative User Interface",
      "summary": "问题与背景：现有 GUI 基本都为人类设计，强调视觉美观和传统可用性，而 computer-use agents 被迫沿用这些人类优先界面完成任务，效率和稳定性都受限。与此同时，代码模型已经足够强，能够自动生成和修改网站。这篇论文讨论的核心问题因此不是“agent 如何更好地使用人类 GUI”，而是“能否让 agent 反过来充当裁判和反馈源，帮助生成更适合 agent 执行的界面”。\n\n方法/新意：作者提出 AUI-Gym，覆盖 52 个应用和 1560 个任务，用程序化 verifier 保证任务可执行性；在此基础上设计 Coder-CUA 协作框架，由 Coder 生成与修改界面，由 Computer-Use Agent 作为 Judge 评估任务可解性和导航成功率，并通过 CUA Dashboard 将多步执行历史压缩成可供迭代设计的摘要反馈。\n\n意义/放在仓库中的位置：这篇工作很适合放在 agent / GUI / computer-use 主线。它的长期价值不只在 benchmark，而在于把“agent 既是使用者也是界面优化反馈源”建立成一条工作流，推动 UI 设计从 human-centric 走向 agent-native。这对 GUI benchmark、数字环境自动化、代码生成和 agent infrastructure 都有明显方法外溢。\n\n局限/为何不再升一级：当前证据仍主要集中在 web GUI 和自动设计循环，离更普遍的操作系统级或跨模态界面设计范式还有距离。它是很强的方向性工作，但是否会重排更广泛的人机界面设计仍需更多验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-11-19",
      "doi": "",
      "arxiv_id": "2511.15567",
      "collected_at": "",
      "collection_order": 134,
      "source_url": "https://arxiv.org/pdf/2511.15567.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.15567.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决AI智能体在人类界面中的效能瓶颈：牛津联合团队通过Coder-CUA框架实现GUI动态重绘",
          "url": "https://www.bilibili.com/video/BV1g6XSB9EjQ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1g6XSB9EjQ",
            "https://youtu.be/MRXC5pgpGSk"
          ],
          "main_collection": "AI智能体",
          "match": "computer use agents as judges for generative user interface",
          "description": "针对传统GUI设计对AI智能体造成的Token消耗冗余及任务执行瓶颈，牛津大学等团队提出了“智能体原生界面”构想。该研究通过Coder-CUA协作框架，将代码生成器与计算机使用智能体相结合，由Coder负责界面重绘，CUA作为裁判评估任务成功率。配套发布的AUI-Gym基准测试涵盖52个应用程序和1560个真实模拟任务，涉及通用、游戏、工具等六大领域。实验证明，该框架能通过马尔可夫设计过程动态优化界面布局，有效提升复杂交互场景下的任务可解性。研究表明，将界面设计重心从人类审美转向智能体执行效率，可显著降低AI操作数字环境的试错成本。",
          "x_post": "牛津大学、新加坡国立大学与微软团队发布 AUI-Gym：通过 Coder-CUA 协作框架在 1560 个任务中实现智能体原生界面优化\n针对传统 GUI 导致的冗余 Token 消耗与 DOM 结构瓶颈，该研究提出将界面设计重心从人类审美转向智能体执行效率。\n核心采用 Coder-CUA 协作模式：由代码大模型负责界面重绘，计算机使用智能体（CUA）作为裁判评估任务成功率，形成反馈闭环。\n基于 6 大领域、52 个应用程序的基准测试证明，该框架利用马尔可夫设计过程实现了环境对智能体的动态适应。\n实验结果显示，通过去样式化和布局简化，该系统能有效拦截不可行任务并引导功能精确补全，显著提升了复杂交互场景下的任务可解性。",
          "cover_url": "assets/covers/a74-aui-gym-agent-native-gui-a51bb8d029.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-29T15:31:03+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N34_Energy_Autoregressive_Neural_Dynamics",
      "slug": "n34-energy-autoregressive-neural-dynamics",
      "detail_url": "papers/n34-energy-autoregressive-neural-dynamics/",
      "title": "Energy-based Autoregressive Generation for Neural Population Dynamics",
      "summary": "## 问题与背景\n问题与背景：神经群体动力学建模长期在 fidelity 和 computational efficiency 之间摇摆。扩散类方法逼真但重，简单自回归方法快但统计质量往往不够。\n\n## 方法/新意\n方法/新意：这篇工作提出 Energy-based Autoregressive Generation，把 energy-based modeling 和 autoregressive transformer 结合，用严格 proper scoring rules 训练 latent dynamics，以兼顾生成质量和效率。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：它适合放在 NeuroAI / neural dynamics 建模主线，尤其适合和 Brain decoding、population modeling、BCI 相关条目一起看。它强调的不只是预测，而是高质量可生成神经活动。\n\n## 局限/为何不更高\n局限/为何不更高：虽然在神经动力学建模里很强，但影响面仍主要在神经数据生成与神经工程应用，尚不足以上升到更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-11-18",
      "doi": "",
      "arxiv_id": "2511.17606",
      "collected_at": "",
      "collection_order": 133,
      "source_url": "https://arxiv.org/abs/2511.17606",
      "paper_url": "https://arxiv.org/abs/2511.17606",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "像原生大脑一样实时交互：EAG 框架将解码准确率提升 12.1%，攻克神经信号合成难题",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "energy based autoregressive generation for neural population dynamics",
          "description": "中国科学院自动化研究所团队针对脑机接口中神经信号模拟的效率与精度失衡问题，提出了能量自回归生成（EAG）框架。该方法在潜空间应用能量得分规则，结合自回归变压器结构，解决了传统扩散模型计算昂贵且VAE保真度不足的困境。实验结果显示，EAG在保持神经元放电统计特征真实性的同时，较扩散模型提速96.9%，并使下游解码准确率提升12.1%。这一突破为实时脑机交互提供了更快速、更精准的合成数据支持，对神经工程及基础脑科学研究具有重要应用价值。",
          "x_post": "中国科学院自动化研究所研发EAG框架：神经动力学模拟提速96.9%且BCI解码准确率提升12.1%\n\n在脑机接口（BCI）领域，高效模拟神经元群体动力学长期面临计算效率与模拟精度间的权衡。传统扩散模型虽保真度高但推理缓慢，而VAE模型则难以捕捉细微的神经统计特征。\n针对此问题，研究团队提出能量自回归生成（EAG）框架。该方法在潜空间引入能量得分（Energy Score）规则，结合自回归Transformer结构，实现了神经信号的高保真一步采样。\n实验数据显示，EAG在保持生物真实性的前提下，采样速度较扩散模型提升96.9%，并使下游解码器的预测准确率显著提高12.1%。\n这一进展为实时脑机交互及计算神经科学研究提供了兼顾速度与精度的合成数据支持，目前已在Lorenz及猕猴运动皮层等多类数据集上完成验证。",
          "cover_url": "assets/covers/n34-energy-autoregressive-neural-dynamics-b826c884e6.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T14:57:45+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM9_Gen_ViRe_Benchmark",
      "slug": "mm9-gen-vire-benchmark",
      "detail_url": "papers/mm9-gen-vire-benchmark/",
      "title": "Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark",
      "summary": "这篇论文针对一个关键空白：视频生成模型常被宣传成“世界模拟器”，但现有评测大多只看保真度、对齐性或主观质量，几乎不直接测试它们是否具备逐步视觉推理能力。作者因此提出 Gen-ViRe，专门考察 world simulator 是否真的能在连续视觉状态里完成类似 chain-of-thought 的推理。\n\n方法上，这篇工作不是再造一个生成模型，而是构建一个面向生成式视觉推理的 benchmark。它围绕“Chain-of-Frames”式 reasoning 设计任务，让模型必须通过连续视觉状态的演化来表达中间推理步骤，而不只是输出一段视频。\n\n它在仓库中的位置是 world model / evaluation 主线。价值在于：如果没有像 Gen-ViRe 这样的 benchmark，很多“世界模型会推理”的论断都缺乏可比和可证伪的评测基础。\n\n它没有再上一个等级，是因为它主要是评测基础设施，而不是提出了更强的世界模型方法本身。影响会体现在“如何评估”而不是“如何建模”。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2025-11-17",
      "doi": "",
      "arxiv_id": "2511.13853",
      "collected_at": "",
      "collection_order": 132,
      "source_url": "https://arxiv.org/pdf/2511.13853.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.13853.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "X1_Genesis_Mission",
      "slug": "x1-genesis-mission",
      "detail_url": "papers/x1-genesis-mission/",
      "title": "Genesis Mission (White House + DOE challenges)",
      "summary": "- 分级：`项目附录`\n- 正式标题：`Genesis Mission`\n- 原文：`2025-11-14-X1_Genesis_Mission-Genesis_Mission_White_House_DOE_challenges.html`、`doe_26_challenges.html`\n- 抽取：`whitehouse_extracted.md`、`doe_26_challenges_extracted.md`\n\n## 重写摘要\n\nGenesis Mission 不是论文，而是美国联邦层面的 AI for science 战略项目。它的价值不在单点方法，而在于把国家实验室、超算资源、产业模型和科学挑战清单放进同一张路线图。就你这批材料而言，它更适合被当作“科学基础设施与政策牵引”的附录，而不是和具体论文一起排名。\n\n官方材料里最值得保留的是两部分：一是白宫/联邦层面的项目发起信息，二是 DOE 公布的 26 项科学与技术挑战。后者给出了项目的实际落点，包括能源、材料、量子、加速器、生物等方向，说明这不是抽象口号，而是在组织未来若干年的 AI for science 投资与任务定义。\n\n## 为什么重要\n\n很多所谓“范式变化”最后卡在资源、组织和评测上。Genesis Mission 的意义在于，它提供了一个国家级协调框架，把模型、算力、实验设施和问题定义放在一起。这类东西不会直接出 benchmark 分数，但会强烈影响后续几年什么问题被优先解决。\n\n## 局限\n\n它不是论文，没有统一实验设计、没有单一可复现实验结果。你应该把它视为“政策与科研基础设施附录”，而不是科学结论本身。",
      "grade": "project",
      "grade_label": "项目",
      "theme": "projects_and_appendices",
      "theme_label": "Projects And Appendices",
      "published_at": "2025-11-14",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 131,
      "source_url": "https://www.whitehouse.gov/presidential-actions/2025/11/launching-the-genesis-mission/",
      "paper_url": "https://www.whitehouse.gov/presidential-actions/2025/11/launching-the-genesis-mission/ ; https://www.energy.gov/articles/energy-department-announces-26-genesis-mission-science-and-technology-challenges",
      "project_urls": [
        "https://www.whitehouse.gov/presidential-actions/2025/11/launching-the-genesis-mission/",
        "https://www.energy.gov/articles/energy-department-announces-26-genesis-mission-science-and-technology-challenges"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N33_Modality_Invariant_Brain_MRI",
      "slug": "n33-modality-invariant-brain-mri",
      "detail_url": "papers/n33-modality-invariant-brain-mri/",
      "title": "Large-scale modality-invariant foundation models for brain MRI analysis: Application to lesion segmentation",
      "summary": "## 问题与背景\n问题与背景：脑 MRI 的现实难题是跨模态、跨序列、跨中心差异很大，foundation model 如果缺少 modality invariance，就很难稳定泛化到临床任务。\n\n## 方法/新意\n方法/新意：这篇工作把 modality-invariant foundation model 作为核心目标，直接瞄准跨模态鲁棒表示，并在 lesion segmentation 上验证其效用。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：它属于脑影像 foundation model 主线，和 BrainIAC、Prima、brat 一起构成从底座到病灶任务的连续谱。\n\n## 局限/为何不更高\n局限/为何不更高：更像赛道内的强方法进展，而不是单篇就重写整个脑影像 AI 路线的代表作，因此归为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-11-14",
      "doi": "",
      "arxiv_id": "2511.11311",
      "collected_at": "",
      "collection_order": 130,
      "source_url": "https://arxiv.org/abs/2511.11311",
      "paper_url": "https://arxiv.org/abs/2511.11311",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决 MRI 检查数据残缺难题，马斯特里赫特大学利用 6 万份影像构建脑部基础模型，精准定位病灶",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "large scale modality invariant foundation models for brain mri analysis application to lesion segmentation",
          "description": "马斯特里赫特大学团队针对脑部MRI临床数据异构与模态缺失难题，提出了一种基于自监督学习的通用基础模型。研究利用超过6万份标准化扫描影像进行预训练，通过对比学习与掩码图像建模双引擎架构，使AI能够学习不同扫描序列间的共有解剖特征。实验结果显示，该方法能有效应对临床中常见的模态缺失挑战，显著提升了模型在数据残缺情况下的稳健性，让诊断不再受限于单一序列的缺失。尽管在精细病灶分割上仍需特定模态支持，但其在脑龄预测等全局任务中表现优异。相关模型已公开发布，为医疗影像的大规模预训练提供了重要依据。",
          "x_post": "马斯特里赫特大学发布脑部MRI基础模型，利用6万份影像数据实现模态不变特征学习\n针对临床中MRI序列缺失与数据异构难题，研究提出了一种基于自监督学习的通用基础模型。通过整合来自16个数据源的60,529份扫描影像，团队采用对比学习（MCL）与掩码图像建模（MIM）双引擎架构，使模型能够跨越T1、FLAIR等不同扫描序列的物理差异，提取统一的解剖结构特征。实验结果表明，该方法有效应对了模态残缺带来的挑战，在脑龄预测等全局性诊断任务中表现稳健。尽管精细病灶分割仍对特定模态的细节纹理有一定依赖，但该研究为医学影像大规模预训练提供了重要依据，相关模型已向社区公开发布。",
          "cover_url": "assets/covers/n33-modality-invariant-brain-mri-da64233201.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T14:57:13+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO22_Agentic_Lab_Organoid_Manufacturing",
      "slug": "bio22-agentic-lab-organoid-manufacturing",
      "detail_url": "papers/bio22-agentic-lab-organoid-manufacturing/",
      "title": "Agentic Lab: An Agentic-physical AI system for cell and organoid experimentation and manufacturing",
      "summary": "生物实验和细胞/类器官制造面临的核心问题，不只是 protocol 多、执行复杂，更在于 planning、wet-lab execution、phenotyping、literature grounding 和后续改进通常是割裂的。作者把问题提升为一个 agentic-physical research lifecycle：让多 agent reasoning 与真实实验活动、AR 接口和长期记忆持续耦合。\n\nAgentic Lab 的核心机制是由 protocol design、knowledge retrieval、multimodal analysis、segmentation/representation learning 等 specialized subagents 组成的 orchestration 架构，并由虚拟 principal investigator MolAgent 统筹。系统能在 organoid differentiation 流程中自动生成 protocol、监控实验步骤、识别形态异质性，将表型与文献知识对齐，并提出针对性的改进建议，同时通过长期记忆持续累积实验日志。\n\n它值得正式收录，因为这篇论文已经明显超出一般 bioautomation demo，进入了 adaptive DBTL-style biological workflow 的层面。对仓库来说，它是 AI 驱动实验 biology / biomanufacturing 的一条重要代表：AI 不只是做分析模型，而是参与设计、执行、解释和迭代全过程。\n\n它暂时还不到更高一级，原因是当前仍是早期 preprint，且实验范围主要集中在 organoid/cell research lifecycle。它的系统方向很强，但距离成为更广 wet-lab automation 的统一基线还需要更多外部采用和独立验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-11-13",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 129,
      "source_url": "https://www.biorxiv.org/content/biorxiv/early/2025/11/13/2025.11.11.686354.full.pdf",
      "paper_url": "https://www.biorxiv.org/content/biorxiv/early/2025/11/13/2025.11.11.686354.full.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结生物实验不可重复魔咒：Agentic Lab 赋予 AI 物理感官，让细胞培养不再依赖“手感”",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "agentic lab an agentic physical ai system for cell and organoid experimentation and manufacturing",
          "description": "针对生物实验中因主观判断和操作偏差导致的不可重复性难题，Agentic Lab构建了融合多智能体协作与AR技术的具身智能平台。系统以MolAgent为核心，通过LangGraph驱动子智能体执行文献检索、实验设计及实时物理感知。基准测试显示其内核在工具调用识别准确率上达91.1%，并能通过校验节点实现协议的自我纠错。该平台利用AR接口打破了数字计算与物理操作间的鸿沟，将传统依赖“手感”的细胞培养转化为标准化、自动化的闭环科研流程。目前主要应用于细胞与类器官的实验研究与制造，旨在解决复杂生物操作中的系统性偏差。",
          "x_post": "哈佛大学等团队研发 Agentic Lab 具身智能平台，提升生物实验工具调用识别准确率至 91.1%\n\n针对生物实验中因主观操作偏差导致的不可重复性难题，Agentic Lab 构建了融合多智能体协作与 AR 技术的具身智能平台。系统以 MolAgent 为核心架构，通过 LangGraph 驱动子智能体执行文献检索、实验规程设计及多模态数据分析。\n\n关键证据显示，该系统在内核基准测试中的工具调用识别准确率达 91.1%，并引入 Agent-as-a-judge 校验节点实现实验协议的自我反思与纠错。借助 AR 接口，系统能够实时感知物理操作台，提供第一人称视角的规范指导与偏差核实。\n\n该研究通过数字推理与物理感知的深度融合，将传统依赖“手感”的细胞培养转化为标准化的闭环科研流程，目前主要应用于细胞与类器官的实验研究与精准制造。",
          "cover_url": "assets/covers/bio22-agentic-lab-organoid-manufacturing-0b3de20172.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-25T13:51:16+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N2_Neural_Population_Geometry",
      "slug": "n2-neural-population-geometry",
      "detail_url": "papers/n2-neural-population-geometry/",
      "title": "Neural population geometry and optimal coding of tasks with shared latent structure",
      "summary": "- 分级：`突破性`\n- 正式标题：`Neural population geometry and optimal coding of tasks with shared latent structure`\n- 原文：`2025-11-12-N2_Neural_Population_Geometry-Neural_population_geometry_and_optimal_coding_of_tasks_with_shared_latent_struct.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文不是在做新的脑成像模型，而是在回答一个更基础的问题：当一组任务共享潜在结构时，什么样的神经群体表征最利于泛化。作者给出一个解析框架，说明线性读出在多任务上的泛化能力，可以由四类几何统计量概括：表征维度、因子化程度，以及神经活动与任务变量之间的相关结构。基于这个框架，作者进一步推导出学习早期和晚期的“最优神经表征”并不相同。\n\n论文最有价值的发现是：学习早期，最优表征倾向于更低维，并且单神经元与任务变量之间的相关性更高；随着学习推进，表征几何会系统性变化。作者随后用生物神经数据和人工网络数据支持这一理论预测，把“群体几何”与“可泛化读出”明确连接起来。\n\n## 为什么重要\n\n这类工作给 NeuroAI 提供的是可计算桥梁。它不只是说“某种表征更像大脑”，而是给出几何量、泛化误差和学习阶段之间的解析关系。对多任务学习、表示学习和持续学习，这种桥梁论文的价值很高。\n\n## 局限\n\n结论依赖任务结构、线性读出设定和若干统计定义。它更适合作为理论框架和分析工具，而不是立刻转化为单一工程配方。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-11-12",
      "doi": "10.1038/s41593-025-02183-y",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 128,
      "source_url": "https://www.nature.com/articles/s41593-025-02183-y.pdf",
      "paper_url": "https://www.nature.com/articles/s41593-025-02183-y.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "从大脑几何学到人工智能：名校揭秘泛化本质，用四大核心指标重构神经表征逻辑",
          "url": "https://www.bilibili.com/video/BV15gAxzpEoz",
          "platform_urls": [
            "https://www.bilibili.com/video/BV15gAxzpEoz",
            "https://youtu.be/UctOk5otSqM"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "neural population geometry and optimal coding of tasks with shared latent structure",
          "description": "从大脑几何学到人工智能：名校揭秘泛化本质，用四大核心指标重构神经表征逻辑\n\n这项研究探讨了大脑如何通过神经群体几何（neural population geometry）来编码环境中的潜变量，从而实现在不同任务间的灵活迁移。研究人员通过数学推导发现，维度、因子化以及相关性等四个核心几何统计量共同决定了线性读出的泛化误差。实验表明，大脑在学习早期更倾向于低维且高相关的表示，而随着学习深入则会演变为更具解耦性（disentangled）的结构。该理论在生物神经数据（如猕猴视觉皮层）和人工神经网络中均得到了验证，揭示了神经活动微观统计特征与宏观行为任务性能之间的内在联系。研究最终指出，最优神经表征会根据学习阶段动态调整对不同信息维度的关注度，以平衡信号强度与噪声干扰。",
          "x_post": "哥伦比亚大学与哈佛等机构揭示神经群体几何与泛化逻辑，四大指标解析多任务学习误差\n\n跨任务迁移能力是生物与人工智能的核心特性，其本质在于对环境潜变量的有效提取。该研究通过数学解析证明，多任务泛化误差（Eg）由相关性、信号-信号解耦（SSF）、信号-噪声解耦（SNF）及神经维度（PR）四大几何统计量共同支配。\n\n研究团队在包含40维潜变量、500个随机分类任务的多层感知机（MLP）及猕猴视觉皮层数据中验证了该理论。实验观察到，神经表征在学习初期倾向于低维、高相关结构，随学习深入则演变为高解耦状态。该模型量化了神经活动微观特征与宏观行为性能的联系，揭示了最优编码如何在信号强度与噪声干扰间实现动态平衡。",
          "cover_url": "assets/covers/n2-neural-population-geometry-46e1287501.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-16T16:43:35+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO43_RiboDecode_mRNA_Codon_Design",
      "slug": "bio43-ribodecode-mrna-codon-design",
      "detail_url": "papers/bio43-ribodecode-mrna-codon-design/",
      "title": "Deep generative optimization of mRNA codon sequences for enhanced mRNA translation and therapeutic efficacy",
      "summary": "问题与背景：mRNA 疗法的疗效高度依赖蛋白表达效率，但传统 codon optimization 难以同时适配基因、细胞环境和不同 mRNA 格式。论文把 mRNA 序列设计视为可生成优化的问题。\n\n方法与机制：RiboDecode 直接从大规模 ribosome profiling 数据学习，生成用于增强翻译效率的 mRNA codon sequences，并在未见基因、细胞环境、修饰 mRNA 和环状 mRNA 上验证鲁棒性。\n\n为什么重要：它将深度生成模型推进到 mRNA therapeutics 的设计环节，并通过体外和小鼠体内实验显示蛋白表达和免疫反应提升。对 AI 驱动核酸药物设计、序列工程和治疗优化工作流有直接价值。\n\n局限：结果仍需在更多治疗靶点、递送体系和临床相关模型中验证；安全性、免疫原性和制造约束尚未完全闭环。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-11-12",
      "doi": "10.1038/s41467-025-64894-x",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 127,
      "source_url": "https://www.nature.com/articles/s41467-025-64894-x.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-025-64894-x.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO40_CellWhisperer_Single_Cell",
      "slug": "bio40-cellwhisperer-single-cell",
      "detail_url": "papers/bio40-cellwhisperer-single-cell/",
      "title": "Multimodal learning enables chat-based exploration of single-cell data",
      "summary": "问题与背景：单细胞测序数据规模巨大且解释困难，研究者需要把表达矩阵、细胞注释和生物学问题连接起来，而不是只得到聚类或标签。\n\n方法与机制：CellWhisperer 通过 100 万 RNA-seq profile 和 AI-curated 文本描述进行对比学习，建立 transcriptome-text multimodal embedding，并接入 LLM 形成面向细胞和基因的自然语言问答与探索工具。\n\n为什么重要：它把单细胞数据分析从静态图表和手工注释推进到 chat-based exploration，体现了生物数据浏览器、表征学习和 LLM 解释层的整合。对 AI-assisted biology workflow 有很强实现价值。\n\n局限：问答结果仍需生物学验证，模型可能受训练注释偏差影响；它更像高价值工作流系统，而不是基础生物规律发现本身。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-11-11",
      "doi": "10.1038/s41587-025-02857-9",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 126,
      "source_url": "https://www.nature.com/articles/s41587-025-02857-9.pdf",
      "paper_url": "https://www.nature.com/articles/s41587-025-02857-9.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P14_AgenticSciML",
      "slug": "p14-agenticsciml",
      "detail_url": "papers/p14-agenticsciml/",
      "title": "AgenticSciML: Collaborative Multi-Agent Systems for Emergent Discovery in Scientific Machine Learning",
      "summary": "科学机器学习模型的结构、损失设计和训练策略通常依赖专家反复试验，很难系统化迁移。本文关注的是：能否把 SciML 的方案设计本身交给多个 AI agent 协作完成，而不只是让模型去拟合某个物理系统。\n\n作者提出 AgenticSciML，一个由十多个专门代理组成的协作框架，结合 structured debate、retrieval-augmented method memory 和 ensemble-guided evolutionary search，去提出、批评并演化 SciML 方案。摘要中最硬的结果是：在 physics-informed learning 与 operator learning 任务上，相比单代理和人工设计基线，误差最高下降到四个数量级。\n\n这篇论文是典型的 AI×科学系统论文，适合和 ATHENA、AutoNumerics、QUASAR 一起看。它的价值不在单一网络结构，而在于把“方法发现”本身对象化，推进了 scientific discovery agents 在 SciML 里的可行性。\n\n它归为突破性而不是更高一级，原因是目前仍以 arXiv 结果为主，虽然指标很强，但还需要更多外部复现和真实科学工作流验证，才能证明它会重塑更大范围的 SciML 方法论。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-11-10",
      "doi": "",
      "arxiv_id": "2511.07262",
      "collected_at": "",
      "collection_order": 125,
      "source_url": "https://arxiv.org/pdf/2511.07262.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.07262.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让AI自主研发科学算法，布朗大学AgenticSciML实现万倍增益，人类干预仅0.3%",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "agenticsciml collaborative multi agent systems for emergent discovery in scientific machine learning",
          "description": "布朗大学团队在科学机器学习（SciML）领域推出 AgenticSciML 框架。针对传统物理建模高度依赖专家经验、手动试错成本极高的“专家瓶颈”，该系统组织 10 余个专业 AI 智能体，通过结构化辩论、进化树搜索及检索增强机制，模拟科学家团队自主设计并优化模型架构。实验证明，系统在仅需不到 0.3% 人类干预的情况下，处理复杂物理方程的性能最高提升超 1.1 万倍。这一成果将高精尖物理仿真的门槛大幅降低，展示了 AI 在自主科研发现方面的巨大潜力。",
          "x_post": "布朗大学发布 AgenticSciML：10+ AI 智能体协同进化科学算法，性能提升最高达 1.1 万倍\n传统科学机器学习 (SciML) 的模型架构与策略优化高度依赖专家经验，受限于人工试错的效率瓶颈。布朗大学团队提出的 AgenticSciML 框架，通过部署包括提案者、批评者、检索器在内的 10 余个专业 AI 智能体，模拟科研团队的结构化辩论与进化树搜索。该系统集成了包含 70 项前沿技术的记忆库，利用检索增强机制实现建模策略的自主迭代。实验数据表明，在仅需不足 0.3% 人类干预的情况下，其在处理复杂物理方程时性能较人工基准最高提升 11,169 倍。这一成果验证了多智能体协作在降低科学计算门槛与自主科研发现方面的潜力。",
          "cover_url": "assets/covers/p14-agenticsciml-04e1857175.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-26T19:17:30+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A14_Constructing_Umwelt_Driving",
      "slug": "a14-constructing-umwelt-driving",
      "detail_url": "papers/a14-constructing-umwelt-driving/",
      "title": "Constructing the Umwelt: Cognitive Planning through Belief-Intent Co-Evolution",
      "summary": "端到端自动驾驶常默认认为，高性能规划必须建立在高保真世界重建之上。本文挑战的是这个前提：规划是否可以更多建立在“对行动相关世界的认知一致性”上，而不是像素级重建保真。\n\n作者提出 Mental Bayesian Causal World Model，并将其实现为 Tokenized Intent World Model。方法把 belief、intent 与 causal dynamics 统一到闭环驾驶规划系统中，强调 belief-intent co-evolution，而不是只做被动环境重建。摘要里最关键的结果是：在 nuPlan 上，系统既提升了 open-loop 规划性能，也在 closed-loop 中表现出更接近人类的探索与 affordance 行为。\n\n这篇论文适合仓库的 world model / autonomous driving / embodied planning 主线。它和 LaST-VLA、World-VLA-Loop、Drive-JEPA 是相邻路线，但更强调认知式内部世界与规划耦合，而不是单纯 latent prediction。\n\n它归为突破性而不是更高一级，原因是当前主要证据仍集中在自动驾驶场景和特定 benchmark 上，概念野心很大，但还没有足够外部验证来证明其会重排更大范围的 world model 路线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-11-08",
      "doi": "",
      "arxiv_id": "2511.05540",
      "collected_at": "",
      "collection_order": 124,
      "source_url": "https://arxiv.org/pdf/2511.05540.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.05540.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "仅需1.5小时数据训练出认知级决策，TIWM模型让智驾摆脱像素重建陷阱",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "constructing the umwelt cognitive planning through belief intent co evolution",
          "description": "独立研究员Shiyao Sang在自动驾驶认知计算领域提出TIWM模型。针对传统端到端方案深陷“重建陷阱”导致的算力冗余与认知短视问题，该研究受认知科学启发，构建了基于“周围世界”概念的信念-意图协同演化机制，将高维张量压缩为16个语义令牌进行稀疏编码。实验证明，TIWM仅需1.5小时训练数据即可在nuPlan基准上实现卓越的规划性能，并展现出自我修复与主动交互等类人认知行为。这标志着智驾系统从被动反应向主动理解的范式转变，为低资源、小样本环境下的具身智能进化提供了高效的新路径。",
          "x_post": "独立研究员 Shiyao Sang 提出 TIWM 认知世界模型：仅需 1.5 小时训练数据即在 nuPlan 基准实现卓越规划性能\n\n针对当前端到端智驾系统深陷“重建陷阱”导致的算力冗余与认知短视，该研究受认知科学启发，构建了基于“周围世界”（Umwelt）概念的信念-意图协同演化机制。TIWM 架构通过稀疏代币学习器将高维张量极限压缩为 16 个语义令牌，实现从被动像素还原向主动语义理解的范式转变。\n\n实验证据显示，该模型在极小样本下不仅提升了决策效率，还展现出自我修复与主动交互等类人认知行为。这证明了认知一致性而非像素保真度才是具身智能进化的核心，为低资源环境下的自主机器人研发提供了可核验的高效路径。",
          "cover_url": "assets/covers/a14-constructing-umwelt-driving-c42d7b8f49.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-23T20:18:39+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N27_RADAR_Rare_Diseases",
      "slug": "n27-radar-rare-diseases",
      "detail_url": "papers/n27-radar-rare-diseases/",
      "title": "Learning to reason about rare diseases through retrieval-augmented agents",
      "summary": "这篇论文聚焦罕见病诊断这一高价值场景。传统医疗 AI 在这里常常被数据稀缺和知识更新慢限制，而罕见病诊断又强依赖长链知识整合和推理。\n\n方法上，作者使用 retrieval-augmented agents，把外部医学知识检索、病例事实整理和诊断推理结合起来，而不是只依赖静态参数记忆。系统重点是让模型学会“如何查”和“如何整合查到的证据”。\n\n这篇工作适合放在医学 AI / agentic reasoning 主线。它的价值在于把 agent 流程真正放到高门槛临床推理里，不是通用聊天式医学问答。\n\n它没有升到更高一级，因为目前还是 arXiv 研究阶段，且是否能稳定外推到临床真实工作流还需要更严格的外部验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-11-06",
      "doi": "",
      "arxiv_id": "2511.04720",
      "collected_at": "",
      "collection_order": 123,
      "source_url": "https://arxiv.org/pdf/2511.04720.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.04720.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "慕尼黑工大联手GE医疗：RADAR让AI告别诊断幻觉，实现罕见病因100%文献溯源",
          "url": "https://www.bilibili.com/video/BV1mzoBBbExX",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1mzoBBbExX",
            "https://youtu.be/InBRC19mW28"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "learning to reason about rare diseases through retrieval augmented agents",
          "description": "由慕尼黑工业大学与GE医疗等团队联合研发的RADAR系统，旨在解决AI在医学影像诊断中的“幻觉”难题。针对罕见病数据稀缺导致模型易误诊的问题，该系统模拟放射科医生查阅文献的流程，利用多智能体协作与检索增强生成（RAG）技术，从权威医学数据库动态检索证据。实验证明，RADAR在NOVA数据集上使诊断准确率最高提升10.2%，表现媲美高年级驻院医生，并实现诊断结论100%文献溯源。这一成果无需高成本微调，显著增强了AI决策的可解释性与稳健性，为临床决策提供了更可靠的支持。",
          "x_post": "慕尼黑工大与GE医疗联合推出RADAR：多智能体检索增强技术提升罕见病诊断准确率10.2%\n针对医疗影像中罕见病数据稀缺导致的AI诊断“幻觉”难题，RADAR系统模拟放射科医师临床工作流，通过多智能体协作与检索增强生成（RAG）技术，从Radiopaedia等权威数据库实时提取循证医学证据。\n在NOVA数据集的实验中，RADAR无需高成本模型微调，其诊断表现已媲美高年级驻院医生，并实现了诊断结论100%的文献溯源。\n该研究通过引入外部知识库作为事实锚点，显著增强了AI决策的可解释性与透明度，为构建更具可靠性的临床决策支持工具提供了实证依据。",
          "cover_url": "assets/covers/n27-radar-rare-diseases-f06f758abe.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-26T22:13:51+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MED5_MedR_Bench_Clinical_Reasoning",
      "slug": "med5-medr-bench-clinical-reasoning",
      "detail_url": "papers/med5-medr-bench-clinical-reasoning/",
      "title": "Quantifying the reasoning abilities of LLMs on clinical cases",
      "summary": "问题与背景：推理型 LLM 在医学中很有潜力，但现有评测常只看最终答案，缺乏对检查建议、诊断决策和治疗规划全过程推理质量的结构化评估。\n\n方法与机制：MedR-Bench 收集 1453 个结构化患者病例，覆盖 13 个系统和 10 个专科，并给出来自临床病例报告的参考推理。论文还提出 Reasoning Evaluator，从效率、事实准确性和完整性评估模型书面推理。\n\n为什么重要：这不是普通医疗 QA，而是面向临床推理流程的评测接口，能帮助区分模型会不会推、在哪里推错、是否只是补全表面答案。对医疗 agent 和临床 AI 安全评估有复用价值。\n\n局限：自动推理评估本身可能有偏差，病例报告不等同于真实临床工作流；因此作为突破级 benchmark 收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "public_health_and_medical_operations",
      "theme_label": "公共卫生与医疗运营",
      "published_at": "2025-11-06",
      "doi": "10.1038/s41467-025-64769-1",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 122,
      "source_url": "https://www.nature.com/articles/s41467-025-64769-1.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-025-64769-1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW13_AnaFlow_Analog_Circuit_Sizing",
      "slug": "hw13-anaflow-analog-circuit-sizing",
      "detail_url": "papers/hw13-anaflow-analog-circuit-sizing/",
      "title": "AnaFlow: Agentic LLM-based Workflow for Reasoning-Driven Explainable and Sample-Efficient Analog Circuit Sizing",
      "summary": "模拟/混合信号电路设计长期依赖人工经验，设计周期长、仿真开销高，而且很多 AI 自动化方法虽然能优化参数，却缺乏解释性，也很难被设计人员真正接入日常流程。\n\nAnaFlow 提出一个多 agent LLM workflow：不同 agent 分别解释 topology、理解设计目标、推进参数更新，并通过 adaptive simulation strategy 控制仿真预算。它同时保留 human-interpretable reasoning，使 sizing 结果不再只是黑盒最优点，而是可追踪的设计过程。\n\n这篇论文命中了你要求的 `硬件电路设计与仿真` 范围。它的价值不在于某个电路 benchmark，而在于把 reasoning、simulation control 和 explainability 放进同一个 analog design loop，形成更可复用的自动化模式。\n\n它不是更高一级，因为验证范围仍然较窄，只在有限电路上证明了 sizing 任务；离完整模拟设计流、版图生成和 silicon-proven flow 还有明显距离。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2025-11-05",
      "doi": "",
      "arxiv_id": "2511.03697",
      "collected_at": "",
      "collection_order": 121,
      "source_url": "https://arxiv.org/pdf/2511.03697.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.03697.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "模拟芯片设计自动化新范式：AnaFlow协同多智能体工作流，利用电路认知实现精准尺寸调优",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "anaflow agentic llm based workflow for reasoning driven explainable and sample efficient analog circuit sizing",
          "description": "针对模拟电路尺寸设计过度依赖人工经验、仿真成本高昂且AI算法黑盒化等痛点，本视频介绍ICCAD 2025收录的AnaFlow框架。该方法采用多大语言模型智能体协同架构，通过模拟人类专家的电路解构与推理逻辑，实现了高样本效率的尺寸调优。相比传统强化学习或贝叶斯优化，AnaFlow利用结构化推理显著减少了所需的仿真次数，并能为每一次参数调整提供透明的可解释依据。实验结果表明，该框架在处理折叠级联运放等复杂电路时具有显著的实用性，有效平衡了设计自动化中的性能指标与设计信任问题。",
          "x_post": "KU Leuven团队发布AnaFlow：利用多LLM智能体协同实现高样本效率与可解释的模拟电路尺寸设计\n模拟电路尺寸设计长期面临人工迭代缓慢与AI黑盒算法样本效率低的双重挑战。传统强化学习（RL）或贝叶斯优化（BO）通常需要成千上万次电路仿真，且决策逻辑不透明。ICCAD 2025收录的AnaFlow框架引入认知型多智能体架构，通过主控制器协同推理、验证与知识库智能体，模拟人类专家的电路解构与参数调优逻辑。该方法将设计流程分为电路理解、DC粗调、推理精调及外部优化四个阶段，显著降低了达到设计收敛所需的仿真迭代次数。实验表明，AnaFlow在处理折叠级联运放等复杂拓扑时，不仅提升了自动化效率，还为每步参数调整提供了人类可读的解释性依据，有效平衡了设计性能与工程师的信任问题。",
          "cover_url": "assets/covers/hw13-anaflow-analog-circuit-sizing-21444adc7c.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T07:42:02+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C27_Synthesizer_Nanocrystal_Control",
      "slug": "c27-synthesizer-nanocrystal-control",
      "detail_url": "papers/c27-synthesizer-nanocrystal-control/",
      "title": "Synthesizer: Chemistry-Aware Machine Learning for Precision Control of Nanocrystal Growth",
      "summary": "问题与背景：卤化物钙钛矿纳米晶生长的精确、可复现实验控制很难，传统实验依赖经验调参，难以稳定达到目标光学属性。\n\n方法与机制：Synthesizer 将高斯过程回归、贝叶斯优化、chemistry-aware 分子编码和系统特征工程结合，形成面向 benchtop synthesis 的机器学习指导平台，实现发光峰位、线宽和量子产率等属性的精细控制。\n\n为什么重要：论文的核心不是新模型，而是把可解释 ML 变成可复用的材料合成控制工作流。它说明 AI 可以直接参与实验设计和工艺调节，而不只是事后预测材料性质。\n\n局限：方法依赖问题定义和特征工程，对其他材料体系的迁移需要重新验证；它是强工作流论文，但不是通用材料基础模型。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-11-05",
      "doi": "10.1002/adma.202509472",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 120,
      "source_url": "https://doi.org/10.1002/adma.202509472",
      "paper_url": "https://doi.org/10.1002/adma.202509472",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "IND2_CoEmbodied_Intelligence",
      "slug": "ind2-coembodied-intelligence",
      "detail_url": "papers/ind2-coembodied-intelligence/",
      "title": "Human-AI Co-Embodied Intelligence for Scientific Experimentation and Manufacturing",
      "summary": "科学实验和制造流程中的一个根本瓶颈，是 protocol development、异常处置和工艺优化长期依赖资深专家在现场进行细粒度判断，导致流程难扩展、难解释，也很难把 tacit knowledge 系统化迁移。作者没有把问题简单表述成“让 agent 做实验”，而是提出 human-AI co-embodied intelligence：让人类执行、可穿戴接口感知和 agentic AI 推理组成一个统一物理系统。\n\n论文给出的 APEX 实例把这一框架具体落在 cleanroom microfabrication 上。系统能够理解 fabrication procedure、实时发现并纠正工艺错误、帮助新手继承 procedural expertise，并进一步参与 protocol co-development。关键点在于，AI 并不是事后分析录像，而是通过 wearable interface 与现场操作持续耦合，把 reasoning、monitoring、error correction 和 procedural evolution 推进到 physical execution 环里。\n\n它值得正式收录，因为它提出了一个对 scientific experimentation 和 manufacturing 都有外溢的新系统模式：AI 的价值不只在数字空间里做规划，而是与 human physical execution 共同构成可追踪、可解释、可扩展的工作流。相比一般的 lab copilot 或 manufacturing assistant，这种 framing 更像 durable pattern。\n\n它暂时还不到更高一级，原因是当前证据主要来自一个具体的 cleanroom fabrication setting，尽管结果很强，但还没有充分证明 co-embodied intelligence 会在更广实验室、制造设备和团队组织结构中稳定迁移。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "industrial_process_and_manufacturing_systems",
      "theme_label": "工业过程与制造",
      "published_at": "2025-11-03",
      "doi": "",
      "arxiv_id": "2511.02071",
      "collected_at": "",
      "collection_order": 119,
      "source_url": "https://arxiv.org/pdf/2511.02071.pdf",
      "paper_url": "https://arxiv.org/pdf/2511.02071.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO14_Squidiff_Perturbation_Diffusion",
      "slug": "bio14-squidiff-perturbation-diffusion",
      "detail_url": "papers/bio14-squidiff-perturbation-diffusion/",
      "title": "Squidiff: predicting cellular development and responses to perturbations using a diffusion model",
      "summary": "这篇论文针对单细胞领域一个非常实用且长期困难的问题：如何在不同细胞类型和不同环境刺激下，预测转录组会如何演化。无论是细胞分化、基因扰动、药物作用，还是辐照与生长因子刺激，真实实验都成本高、组合空间极大，因此非常需要一个能跨条件模拟细胞状态变化的生成模型。\n\nSquidiff 的核心方法是用 diffusion model 建立细胞状态在时间和条件上的连续生成过程。论文强调 continuous denoising 与 semantic feature integration，使模型能够学习瞬态细胞状态，并在不同时间点和不同条件下生成高分辨率的 transcriptomic landscape。与很多只做静态映射或局部插值的模型不同，Squidiff 的目标是直接建模细胞状态如何在发展和扰动过程中连续演化。\n\n它值得收录，因为它是 AI x biology、perturbation prediction 和 cellular dynamics 方向里少见的成熟高价值方法论文。论文不仅覆盖 cell differentiation、gene perturbation 和 drug response，还在血管类器官发育、神经辐照响应和 growth factor 场景中展示了实际价值。这说明它并不是窄任务模型，而是一条可以支撑 in silico screening 和快速假设生成的通用路线。\n\n它没有升到更高一级，原因在于它虽然方法扎实、验证面广，但更像一个强生成建模与应用方法，而不是已经重新定义整个 virtual cell 或 cell world model 研究蓝图的范式级工作。它应作为高位 breakthrough 收录，而不是再向上拔高。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-11-03",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 118,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12407682/",
      "paper_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12407682/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结生命科学实验的盲目性：哥大与斯坦福推出Squidiff，用扩散模型精准补全细胞演化的瞬态轨迹",
          "url": "https://www.bilibili.com/video/BV19hAPzbEqv",
          "platform_urls": [
            "https://www.bilibili.com/video/BV19hAPzbEqv",
            "https://youtu.be/uFoOhk7fvqM"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "squidiff predicting cellular development and responses to perturbations using a diffusion model",
          "description": "针对单细胞转录组在环境刺激下演化轨迹难以连续捕捉、湿实验成本高昂的痛点，哥伦比亚大学与斯坦福大学团队提出Squidiff生成式框架。该模型核心采用条件扩散模型结合语义编码器，通过在潜空间进行线性插值与向量加法，实现对细胞分化瞬态与基因/药物扰动响应的定量预测。实验证明，Squidiff在iPSC分化轨迹补全中能精准拟合非线性基因动态，在非加和性基因扰动预测任务中，拟合精度显著优于GEARS等主流模型。该工具为理解复杂细胞状态转换、模拟极端环境损伤及筛选候选药物提供了高分辨率的计算手段，有效降低了生物发现的试错成本。",
          "x_post": "哥伦比亚大学与斯坦福大学推出 Squidiff，利用扩散模型实现 R²=0.95 的单细胞多维扰动预测\n\n捕捉单细胞在环境刺激下的连续演化轨迹及药物/基因扰动响应，长期受限于湿实验的高昂成本与现有模型对瞬态捕捉的局限。Squidiff 框架结合语义编码器与条件扩散模型，通过在潜空间进行线性插值与向量加法，实现了对细胞状态转换的定量推演。\n实验证明，该模型在补全 iPSC 分化中间态时能精准拟合 T 基因的非线性动态；在非加和性基因扰动预测任务中，其拟合精度 R² 达 0.95，显著优于 GEARS (0.65) 与 scGen (0.45) 等主流模型。\n该工具已成功应用于模拟血管类器官在太空辐射下的损伤并筛选 G-CSF 等防护药物，为精准医学中复杂细胞响应的干实验模拟提供了高分辨率视角，有效降低了生物发现的试错成本。",
          "cover_url": "assets/covers/bio14-squidiff-perturbation-diffusion-a95ad4e40f.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-21T19:33:19+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM55_ClimateViz_Chart_Verification",
      "slug": "mm55-climateviz-chart-verification",
      "detail_url": "papers/mm55-climateviz-chart-verification/",
      "title": "ClimateViz: A Benchmark for Statistical Reasoning and Fact Verification on Scientific Charts",
      "summary": "这篇 EMNLP 2025 论文围绕科学图表上的统计推理和事实核验建立 ClimateViz benchmark。它要求模型不仅识别图像内容，还要从图表中读数、比较趋势、理解统计关系并验证文字声明。\n\n它的可复用价值在于把 scientific chart reasoning 做成明确评测接口，尤其适用于气候科学传播、报告审查和多模态事实核验。相比普通 VQA，它更强调数据图形中的定量推理。\n\n按本库标准，它属于 multimodal reasoning / scientific workflow evaluation 的正式收录项。模型越来越参与科学报告和公共议题解读，图表事实核验是高价值能力边界。\n\n局限是气候图表只是科学可视化的一部分，benchmark 能否覆盖更复杂实验图、交互式图和多图证据链仍需扩展。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2025-11-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 117,
      "source_url": "https://aclanthology.org/2025.emnlp-main.1196.pdf",
      "paper_url": "https://aclanthology.org/2025.emnlp-main.1196.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO33_MT_Mol_Tool_Reasoning",
      "slug": "bio33-mt-mol-tool-reasoning",
      "detail_url": "papers/bio33-mt-mol-tool-reasoning/",
      "title": "MT-Mol: Multi Agent System with Tool-based Reasoning for Molecular Optimization",
      "summary": "这篇 Findings EMNLP 2025 论文把分子优化建模为多智能体工具推理流程，而不是单一生成模型或单一性质预测器。它让不同 agent 承担生成、评估、约束检查和迭代改进等角色，并通过工具调用把推理落到可验证的化学计算与评价上。\n\n它的重要性在于 workflow pattern：分子设计系统开始从“模型直接吐候选分子”转向“多角色 agent + 工具验证 + 迭代优化”的闭环。这对药物发现、材料分子设计、实验优先级排序都有可迁移意义。\n\n按本库标准，它不只是窄 QSAR 或单指标提升，而是 AI for science 中 agentic molecular optimization 的一个可复用系统模式，因此进入正式收录。它也补足了顶会 NLP/agent 与科学发现交叉的覆盖。\n\n局限是多智能体系统容易受工具质量、prompt 稳定性和评价函数偏差影响；真实湿实验价值仍需要更强外部验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-11-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 116,
      "source_url": "https://aclanthology.org/2025.findings-emnlp.619.pdf",
      "paper_url": "https://aclanthology.org/2025.findings-emnlp.619.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A204_CollEX_Scientific_Collections_RAG",
      "slug": "a204-collex-scientific-collections-rag",
      "detail_url": "papers/a204-collex-scientific-collections-rag/",
      "title": "CollEX – A Multimodal Agentic RAG System Enabling Interactive Exploration of Scientific Collections",
      "summary": "这篇 ACL workshop 论文提出 CollEX，一个面向科学馆藏/科学集合交互探索的多模态 agentic RAG 系统。它把检索、多模态证据和交互式 agent 组织到同一科学探索流程中。\n\n它的实用价值在于 workflow：研究者或用户可以围绕科学集合提出问题、追踪证据、浏览多模态资料，而不是在静态数据库中手工检索。对于科学数据馆藏、博物馆/标本库和研究资料管理有参考意义。\n\n按本库标准，它是较窄但有实现价值的 agentic RAG 科学工作流，因此正式收录为 breakthrough 级别而非更高。它也补足了科学集合探索类 agent 系统覆盖。\n\n局限是论文来源为 workshop，系统规模、严谨评测和跨集合泛化证据有限；后续需要更大真实馆藏验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-11-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 115,
      "source_url": "https://aclanthology.org/2025.magmar-1.2.pdf",
      "paper_url": "https://aclanthology.org/2025.magmar-1.2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R55_CALM_Continuous_AR",
      "slug": "r55-calm-continuous-ar",
      "detail_url": "papers/r55-calm-continuous-ar/",
      "title": "Continuous Autoregressive Language Models",
      "summary": "这篇论文针对自回归语言模型的核心效率瓶颈：标准 LLM 每一步只生成一个离散 token，因此长文本生成、推理和服务吞吐都被 token-by-token 的串行链条限制。单纯加速 kernel 或投机解码仍然是在离散 token 序列上做补丁，无法改变每个生成步的语义带宽。\n\nCALM 的核心新意是把自回归目标从 next-token prediction 改成 next-vector prediction。它先用高保真 autoencoder 将连续 K 个 token 压缩成一个连续向量，再让语言模型预测下一个连续语义向量，并通过 likelihood-free 的训练、评估和采样框架处理连续域生成。这样模型一次生成的是一个语义块，而不是一个离散 token。\n\n它值得收录为 disruptive，因为它明确提出了一个不同于传统离散 token LLM 的生成尺度轴：提升单步语义带宽。即使当前实验还处在 K=4 等相对早期设置，CALM 仍为 multi-token generation、latent language modeling、continuous sequence modeling 和高吞吐推理提供了一个可复用的架构方向。\n\n它不是 paradigm 级别，因为还没有在前沿规模、复杂工具调用、长链推理和真实服务系统中证明连续向量语言模型可以稳定替代离散 token 模型；autoencoder 误差、采样控制、可解释性和与现有 tokenizer / serving 生态的兼容性也仍是开放问题。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2025-10-31",
      "doi": "",
      "arxiv_id": "2510.27688",
      "collected_at": "",
      "collection_order": 114,
      "source_url": "https://arxiv.org/pdf/2510.27688.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.27688.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "PH1_Multi_AI_Triage_Wait_Time",
      "slug": "ph1-multi-ai-triage-wait-time",
      "detail_url": "papers/ph1-multi-ai-triage-wait-time/",
      "title": "A Quantitative Framework to Predict Wait-Time Impacts Due to AI-Triage Devices in a Multi-AI, Multi-Disease Workflow",
      "summary": "随着临床工作流中同时部署多种 AI triage 设备，系统级运营问题开始变得比单模型指标更重要。很多研究只报告某个 AI 对目标疾病的 time-to-read 改善，却缺乏对多病种、多优先级和多设备叠加后整体 wait-time 结构性影响的分析。作者把这个问题明确建模为 multi-AI, multi-disease clinical workflow 的定量评估问题。\n\n论文提出 multi-QuCAD 框架，将 queueing theory 和 workflow simulation 结合起来，显式建模疾病患病率、医生阅读时间、AI 性能、preemptive 与 non-preemptive scheduling 以及 priority/hierarchical triage protocol 等因素。其关键发现是：某些 AI triage 设备虽然显著缩短了目标病例等待时间，却可能系统性推迟其他同样紧急但未被该模型覆盖的病例。也就是说，它测量的是 deployment externality，而不是单个 AI 的局部收益。\n\n它值得正式收录，因为这篇论文真正进入了医疗运营与 clinical AI orchestration 的难题：多 AI 系统如何一起部署而不伤害整体流程。对仓库来说，这类工作比单一医疗 benchmark 更有长期价值，因为它提供了一个面向真实医院工作流的 deployment evaluation interface。\n\n它暂时还不到更高一级，原因是当前主要聚焦 radiology triage workflow，且仍是 preprint。它的方法框架很有外溢，但需要在更多临床科室、更多设备组合和真实部署案例中进一步验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "public_health_and_medical_operations",
      "theme_label": "公共卫生与医疗运营",
      "published_at": "2025-10-31",
      "doi": "",
      "arxiv_id": "2510.27104",
      "collected_at": "",
      "collection_order": 113,
      "source_url": "https://arxiv.org/pdf/2510.27104.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.27104.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "医疗AI并非唯快不破：multi-QuCAD揭秘高效分诊背后的隐形拥堵与次生延误风险",
          "url": "https://www.bilibili.com/video/BV1MNQ1BMEn3",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1MNQ1BMEn3",
            "https://youtu.be/MrYKg7qat0c"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "a quantitative framework to predict wait time impacts due to ai triage devices in a multi ai multi disease workflow",
          "description": "本视频解析由美国FDA研究人员主导的医疗AI工作流研究。针对多款AI分诊设备在放射科并行可能导致的候诊时间波动，研究者开发了基于排队论的multi-QuCAD仿真框架。通过对脑部影像等复杂场景的千万级队列模拟，对比了抢占式调度与层级协议的实际表现。实验数据证实，虽然AI能显著缩短目标疾病的处理时间，但若缺乏合理的优先级管理，非目标紧急病症将面临严重的次生延误风险。该研究为医疗机构在多AI集成时的协议选择与临床风险预警提供了量化依据，强调了从全局视野优化放射科工作流的重要性。",
          "x_post": "FDA研究团队发布multi-QuCAD仿真框架，定量评估多医疗AI分诊对放射科工作流及候诊时间的风险权衡。\n过去十年FDA已批准超87款AI分诊设备，旨在为急症开辟“绿色通道”。然而单一AI的效益在多系统并行时可能引发异变，使未被AI覆盖的急症患者承担隐形拥堵带来的次生延误代价。\n该研究基于排队论构建multi-QuCAD引擎，通过千万级患者队列模拟，对比了抢占式调度与层级协议的表现。实验标定LVO AI（Se 92.36%）与ICH AI（Se 93.62%）性能基线，验证了分诊优先级管理的必要性。\n结果表明，层级协议在保护高优先级病患方面具有显著优势，但也需警惕对低优先级病患造成的负面权衡。该量化框架为医疗机构集成多AI方案、平衡临床风险提供了关键的决策依据。",
          "cover_url": "assets/covers/ph1-multi-ai-triage-wait-time-34bac6e12a.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T21:35:10+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P12_MetaChat_Metasurface",
      "slug": "p12-metachat-metasurface",
      "detail_url": "papers/p12-metachat-metasurface/",
      "title": "A multi-agentic framework for real-time, autonomous freeform metasurface design",
      "summary": "这篇论文解决的是自由曲面超表面设计中的一个难点：设计空间大、约束复杂、人工试探成本高。作者提出多智能体框架，把不同设计与评估角色拆分并协同。\n\n方法上，系统通过多个 agent 分工执行方案提出、仿真评估、约束修正和候选筛选，目标是在实时或近实时条件下完成高质量 metasurface 设计。重点在于把多智能体决策嵌入科学设计闭环，而不只是做单步 surrogate optimization。\n\n这篇工作适合放在 AI for science 主线里。虽然对象很具体，但它代表了一类有外溢价值的模式：将多智能体工作流用于高维物理设计问题，并把生成、评估和修正串成自动化闭环。\n\n它没有升到更高一级，因为验证仍集中在 metasurface 设计这一个窄领域，平台通用性和跨科学问题可迁移性还需要更多证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-10-31",
      "doi": "",
      "arxiv_id": "2503.20479",
      "collected_at": "",
      "collection_order": 112,
      "source_url": "https://arxiv.org/pdf/2503.20479.pdf",
      "paper_url": "https://arxiv.org/pdf/2503.20479.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "重构纳米光子学设计范式：斯坦福MetaChat联合智能体与物理求解器，将科学推理准确率提升至81%",
          "url": "https://www.bilibili.com/video/BV1GJwYziEf1",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1GJwYziEf1",
            "https://youtu.be/BHIpwYI4_pw"
          ],
          "main_collection": "AI物理与科学计算",
          "match": "a multi agentic framework for real time autonomous freeform metasurface design",
          "description": "针对纳米光子学设计门槛高、物理仿真耗时长的痛点，斯坦福大学研究团队提出 MetaChat 多智能体框架。该系统采用 AIM 智能体迭代自白架构，使大模型能够协同调度材料数据库与物理求解器，通过自主逻辑推理实现超表面的实时自动设计。为解决传统仿真速度瓶颈，研究引入 FiLM WaveY-Net 深度学习代理求解器，将电磁场评估缩短至毫秒级。实验结果显示，MetaChat 在复杂科学推理任务中的准确率提升至 81%，并能根据自然语言指令高效生成多功能超透镜结构。该研究展示了 AI 智能体在多物理场创新与科学发现中的巨大潜力，为自动化科研建立了新的计算范式。",
          "x_post": "斯坦福大学提出 MetaChat 多智能体框架，将纳米光子学设计推理准确率提升至 81%\n\n传统纳米光子学设计面临物理仿真耗时长、专家门槛高及易陷入局部最优等瓶颈。该研究开发的 MetaChat 框架基于 AIM（智能体迭代自白）架构，使大模型能够自主调度材料数据库与物理求解器，实现从语义描述到器件布局的闭环设计。\n\n技术核心集成了 FiLM WaveY-Net 深度学习代理求解器，将电磁场评估耗时缩短至毫秒级。实验数据显示，MetaChat 在包含 101 道物理设计题的基准测试中，将推理准确率由 65% 提升至 81%，并在多步函数调用任务中表现显著。\n\n该研究证明了具备能动性的 AI 智能体在处理复杂多物理场创新任务中的有效性，为自动化科研建立了新的计算范式。",
          "cover_url": "assets/covers/p12-metachat-metasurface-a34e964712.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-17T23:35:34+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P1_Generative_Thermodynamic_Computing",
      "slug": "p1-generative-thermodynamic-computing",
      "detail_url": "papers/p1-generative-thermodynamic-computing/",
      "title": "Generative thermodynamic computing",
      "summary": "- 分级：`突破性`\n- 正式标题：`Generative thermodynamic computing`\n- 原文：`2025-10-30-P1_Generative_Thermodynamic_Computing-Generative_thermodynamic_computing.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文试图把“生成模型”从纯数字神经网络重新落回物理系统本身。作者提出一种热力学生成计算框架：不是让神经网络学习去噪，而是让受 Langevin 动力学支配的物理系统在自然时间演化中，从噪声直接生成结构化样本。训练过程对应于最大化系统生成反向 noising 轨迹的概率，因此也等价于寻找更低热耗散、更低熵产生的生成动力学。\n\n论文目前是在数字仿真中验证这一框架，展示了如何把耦合的连续自由度系统训练成类似扩散模型的生成器，并在 MNIST 类任务上从噪声生成结构化图样。它最有价值的地方不在分数，而在把生成式建模、统计物理和低能耗计算放进同一个统一叙事里：生成不一定非要靠显式神经网络去噪，也可以由物理系统本身的能量景观和随机动力学来执行。\n\n## 为什么重要\n\n如果这条路线能走到模拟器之外，它代表的是“生成计算硬件化”的另一种可能：采样过程由物理系统自然完成，而不是由数字芯片离散模拟。这对 AI for physics、低功耗生成硬件和可解释能量模型都有方法论价值。\n\n## 局限\n\n这篇工作现在更像概念验证。真正的挑战在器件实现、编程控制、读出噪声和任务规模扩展。短期内它更像一个新计算范式提案，而不是可直接替代现有扩散模型的工程方案。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-10-30",
      "doi": "",
      "arxiv_id": "2506.15121",
      "collected_at": "",
      "collection_order": 111,
      "source_url": "https://arxiv.org/pdf/2506.15121.pdf",
      "paper_url": "https://arxiv.org/pdf/2506.15121.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "告别万亿能耗！伯克利实验室发布热力学计算，让AI在物理定律中自然生长",
          "url": "https://www.bilibili.com/video/BV1fGA3z9EYt",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1fGA3z9EYt",
            "https://youtu.be/aKDP99SYOU8"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "generative thermodynamic computing",
          "description": "针对扩散模型高昂的算力与能耗瓶颈，劳伦斯伯克利国家实验室提出了一种生成式热力学计算框架。该方法放弃了传统的数字神经网络，转而利用物理系统的朗之万动力学，从真实的热涨落中自然演化出结构化数据。研究通过数字仿真演示了MNIST字符生成过程，揭示了其训练本质是最小化系统的热耗散与熵增。理论预测显示，基于该原理的物理硬件能效比传统硅基芯片高出十个数量级以上。本研究为超越传统架构、开发基于物理规律的低功耗人工智能系统提供了关键证明。",
          "x_post": "劳伦斯伯克利国家实验室发布生成式热力学计算框架，能效预计提升逾10个数量级\n针对主流扩散模型在数字芯片上的高能耗瓶颈，研究团队提出利用物理系统的朗之万动力学（Langevin dynamics）直接进行计算。该框架通过调节物理设备的能量景观（Energy Landscape）编码去噪信息，使结构化数据从真实的热涨落中自然演化，而非依赖人工注入的伪随机噪声。\n数字仿真实验展示了该系统学习生成MNIST数字图像的能力，揭示其训练本质是最小化系统的热耗散与熵增。理论预测表明，若在物理硬件上实现，该朗之万计算机的能效将比传统数字神经网络高出十个数量级以上，为超越硅基架构的低功耗人工智能提供了新路径。",
          "cover_url": "assets/covers/p1-generative-thermodynamic-computing-98bc7f3b8c.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-22T13:27:46+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM60_Emu3_5_World_Learners",
      "slug": "mm60-emu3-5-world-learners",
      "detail_url": "papers/mm60-emu3-5-world-learners/",
      "title": "Emu3.5: Native Multimodal Models are World Learners",
      "summary": "问题与背景：多模态世界模型需要从离散图文生成走向时空连续经验建模。Emu3.5 明确把长视频交错数据视为 next-state prediction 的训练载体，用统一 NTP 基础设施学习视觉和语言状态演化。\n\n方法与新意：模型在超过 10T vision-language interleaved tokens 上端到端预训练，输入输出都支持交错图文；后训练加入大规模 RL，并用 Discrete Diffusion Adaptation 把 token-by-token 图像解码转成双向并行预测以提升推理效率。\n\n收录意义：这篇适合进入 multimodal/world-model 主线，因为它把 native multimodal generation、长程视觉语言生成、X2I、文本富集图像生成和 embodied manipulation 放入同一个 next-state/world-learning 框架。它对视频世界模型、具身模拟和开放多模态生成都有参考价值。\n\n局限：它仍是大模型系统报告，世界建模能力的物理一致性、可控性和第三方复现需要更强评测；Next State Prediction 的表述也仍依赖 tokenized sequence training，而非完整因果物理模型。因此按 breakthrough 收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2025-10-30",
      "doi": "",
      "arxiv_id": "2510.26583",
      "collected_at": "",
      "collection_order": 110,
      "source_url": "https://arxiv.org/pdf/2510.26583.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.26583.pdf",
      "project_urls": [
        "https://emu.world"
      ],
      "repo_urls": [
        "https://github.com/baaivision/Emu3.5"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO42_Nicheformer_Spatial_Omics",
      "slug": "bio42-nicheformer-spatial-omics",
      "detail_url": "papers/bio42-nicheformer-spatial-omics/",
      "title": "Nicheformer: a foundation model for single-cell and spatial omics",
      "summary": "问题与背景：组织功能依赖细胞局部微环境，但只用 dissociated single-cell 数据训练的模型难以恢复空间上下文。论文聚焦于把空间单细胞组学纳入 foundation model 预训练。\n\n方法与机制：Nicheformer 是 transformer-based foundation model，在 SpatialCorpus-110M 上预训练，覆盖 5700 万 dissociated cells 和 5300 万 spatially resolved cells，学习带空间上下文的细胞表征，并支持 spatial composition prediction 等下游任务。\n\n为什么重要：它把单细胞基础模型从单细胞表达扩展到组织空间生态位，是 spatial omics 表征学习的重要工作流基础。对细胞微环境、疾病组织分析和药物反应建模都有外溢。\n\n局限：空间平台差异、组织覆盖和下游任务泛化仍需长期验证；目前更适合定为突破级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-10-30",
      "doi": "10.1038/s41592-025-02814-z",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 109,
      "source_url": "https://www.nature.com/articles/s41592-025-02814-z.pdf",
      "paper_url": "https://www.nature.com/articles/s41592-025-02814-z.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO41_SegmentNT_DNA_Foundation",
      "slug": "bio41-segmentnt-dna-foundation",
      "detail_url": "papers/bio41-segmentnt-dna-foundation/",
      "title": "Annotating the genome at single-nucleotide resolution with DNA foundation models",
      "summary": "问题与背景：基因组注释工具常针对单一元素类别训练，监督数据有限，难以统一检测基因、剪接位点和调控元素。论文将问题重构为单核苷酸分辨率的 multilabel semantic segmentation。\n\n方法与机制：SegmentNT 基于预训练 DNA foundation model Nucleotide Transformer 微调，可处理最长 50kb DNA 序列，并在 14 类基因和调控元素上做分割式注释。\n\n为什么重要：它把 DNA foundation model 变成通用基因组注释引擎，提供了序列基础模型服务真实 genomics workflow 的清晰接口。对基因组功能解释和生物数据基础设施有长期价值。\n\n局限：模型依赖既有注释体系，跨物种、低注释区域和功能验证仍有不确定性；它改善注释工作流，但不是完整基因组设计平台。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-10-29",
      "doi": "10.1038/s41592-025-02881-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 108,
      "source_url": "https://www.nature.com/articles/s41592-025-02881-2.pdf",
      "paper_url": "https://www.nature.com/articles/s41592-025-02881-2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO1_Chromosome_Instability_Imaging_Genomics",
      "slug": "bio1-chromosome-instability-imaging-genomics",
      "detail_url": "papers/bio1-chromosome-instability-imaging-genomics/",
      "title": "Origins of chromosome instability unveiled by coupled imaging and genomics",
      "summary": "问题与背景：这篇 Nature 原始研究聚焦染色体不稳定性（chromosome instability, CIN）的起源，这是癌症演化与耐药研究中的核心问题。传统方法要么侧重显微成像，要么侧重基因组学，很难在同一实验链路里同时追踪细胞形态变化与基因组异常的形成过程。\n\n方法/新意：论文把自动显微成像、机器学习筛选与单细胞基因组学耦合进统一平台，用成像驱动高通量筛选，再对关键细胞群体做基因组层面的解析，从而把“看到异常”与“解释异常来源”连成闭环。其方法价值不只是发现某个生物学结论，而是建立了一种 imaging-genomics coupling 的实验范式。\n\n意义/放在仓库中的位置：这篇适合放在 AI-enabled biology / genomics methods 主线。它不是纯 AI 论文，但属于 AI 与自动化显微成像深度参与生物机制发现的高质量代表作，对癌症基因组学、细胞状态追踪和实验平台设计都有外溢价值。\n\n局限/为何不再升一级：这篇更偏细胞生物学与癌症基因组学中的强平台型研究，而不是会直接改写更大范围 AI 方法路线的工作。它的方法外溢性不错，但主影响面仍集中在染色体不稳定性与相关生物机制研究，因此定为突破性而不升到更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-10-29",
      "doi": "10.1038/s41586-025-09632-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 107,
      "source_url": "https://www.nature.com/articles/s41586-025-09632-5",
      "paper_url": "https://www.nature.com/articles/s41586-025-09632-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "亲眼目睹癌症爆发的“第一秒”，EMBL发布MAGIC平台，实现活细胞染色体异常实时解码",
          "url": "https://www.bilibili.com/video/BV1Qq9yB5ETu",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Qq9yB5ETu",
            "https://youtu.be/hPM2Jeq3lF8"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "origins of chromosome instability unveiled by coupled imaging and genomics",
          "description": "欧洲分子生物学实验室（EMBL）团队在癌症演化领域取得突破，于《Nature》发布MAGIC平台。针对传统技术无法捕捉细胞癌变瞬时动态的难题，该研究融合机器学习与活细胞成像，通过XGBoost算法毫秒级识别微核畸变，并利用激光标记与Strand-seq测序实现自动化追踪。实验证实该方法能精准捕捉200kb级的细微断裂，并发现TP53缺陷会使染色体突变率翻倍。这标志着人类首次实现大规模、高通量地实时监测染色体从正常分裂到崩塌重排的全过程，将助力癌症早期诊断与机制研究，目前主要应用于有丝分裂错误引发的基因组失稳场景。",
          "x_post": "EMBL发布MAGIC平台实现活细胞染色体异常实时解码，发现TP53缺陷可使突变率翻倍\n染色体大规模重排（CAs）是肿瘤演化的核心驱动力，但其发生初期的瞬时动态因技术限制长期处于观测盲区。欧洲分子生物学实验室（EMBL）团队在《Nature》发布MAGIC平台，整合XGBoost机器学习算法与活细胞成像，通过激光标记和Strand-seq测序实现了对单个细胞病变过程的自动化追踪。\n实验数据显示，该系统能精准捕捉200kb级别的细微基因组断裂。研究发现后期染色质桥的发生率为5.1%，并证实染色体缺失的频率远高于获得。此外，TP53基因缺陷会导致染色体突变率增加一倍。\n该技术确立了人类细胞染色体异常的基线突变率，为深入剖析癌症演化早期阶段的DNA重排机制提供了高通量、自动化的实验手段。",
          "cover_url": "assets/covers/bio1-chromosome-instability-imaging-genomics-5fd2fd7949.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-28T17:54:50+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO19_TFDesign_sdAb",
      "slug": "bio19-tfdesign-sdab",
      "detail_url": "papers/bio19-tfdesign-sdab/",
      "title": "A synergistic generative-ranking framework for tailored design of therapeutic single-domain antibodies",
      "summary": "单域抗体在组织穿透和稳定性上有优势，但它们缺失 Fc 相关性质，很多工业化和功能扩展能力因此受限。这篇论文抓的不是一般 antibody generation，而是“能否面向特定可制造性与功能性目标去定制 sdAb”。\n\n论文提出 generative + ranking 的双阶段框架：先用结构感知 diffusion 模型大规模生成候选，再用专门训练的 sorter 根据目标功能排序。关键点在于它不只改 CDR，还把 framework region 纳入优化，从而在保持抗原特异性的同时引入 Protein A binding 等新性质。\n\n这篇工作值得收录，因为它体现了抗体工程里一个非常实用的 AI 设计模式：生成模型负责打开设计空间，ranking 模型负责把多目标约束拉回到可制造、可表达、可纯化的现实边界。这个模式对抗体设计和更广蛋白药开发都很有借鉴价值。\n\n它不是更高一级，因为当前仍然主要集中在单域抗体和少数功能目标，离更普适的 therapeutic antibody platform 还有距离。它是强方法和强验证结合，但影响范围还偏子领域。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-10-29",
      "doi": "10.1038/s41421-025-00843-8",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 106,
      "source_url": "https://www.nature.com/articles/s41421-025-00843-8",
      "paper_url": "https://www.nature.com/articles/s41421-025-00843-8",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "超越AlphaFold-3！TFDesign-sdAb以1.49Å精度重塑单域抗体，实现100%靶向生成成功率",
          "url": "https://www.bilibili.com/video/BV1NUXKBbEsZ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1NUXKBbEsZ",
            "https://youtu.be/en504LiFLnc"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "a synergistic generative ranking framework for tailored design of therapeutic single domain antibodies",
          "description": "本研究针对单域抗体因缺失Fc片段而难以进行标准蛋白A亲和层析纯化的挑战，提出了TFDesign-sdAb深度学习框架。该系统整合了结构感知扩散模型IgGM与亲和力排序模型A2binder，核心创新在于实现了对单域抗体框架区（FR）的精准重构，而非传统的CDR区优化。实验结果显示，该方法在不损害抗原结合能力的前提下，赋予了抗体与蛋白A结合的新功能，设计精度达到1.49Å，在复合体预测表现上显著优于AlphaFold-3。通过高分辨率晶体结构验证，AI生成的结合位点准确模拟了天然交互模式。该研究为低成本、自动化的抗体工程提供了普适性方案，有效提升了单域抗体的生产性与转化潜力。",
          "x_post": "复旦大学与腾讯 AI Lab 推出 TFDesign-sdAb 框架，以 1.49Å 精度实现单域抗体 100% 靶向生成成功率\n\n单域抗体因缺失 Fc 结构域，长期面临无法利用标准 Protein A 亲和层析进行低成本量产的工业瓶颈。该研究提出由结构感知扩散模型 IgGM 与亲和力排序模型 A2binder 组成的协同框架，通过精准重构抗体框架区（FRs）赋予其 Protein A 结合能力。\n\n实验验证显示，IgGM 在预测复合体结合模式上的 DockQ 分数达 0.834（RMSD 1.29Å），预测精度显著优于 AlphaFold-3 的 0.028。高分辨率晶体结构证实，AI 设计的结合位点能准确模拟天然交互模式。\n\n该方案在保持原有抗原结合能力的前提下，实现了 100% 的靶向生成成功率，为单域抗体的高效、低成本自动化设计提供了普适性的科研路径。",
          "cover_url": "assets/covers/bio19-tfdesign-sdab-c5c59368f8.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T22:18:05+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "I9_Object_Binding_ViT",
      "slug": "i9-object-binding-vit",
      "detail_url": "papers/i9-object-binding-vit/",
      "title": "Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers?",
      "summary": "问题与背景\n这篇论文问的是一个经典认知科学问题：对象绑定是否会在大规模预训练 ViT 中自然涌现。过去很多工作认为对象级绑定需要显式 object-centric 机制，而纯连接主义的 ViT 可能只能学到局部特征和注意力热区，缺少真正的绑定能力。\n\n方法与新意\n作者提出了一个可操作的表征量 `IsSameObject`，并用 quadratic similarity probe 去解码两个 patch 是否属于同一对象。结果显示，在 DINO、CLIP 和监督式 ViT 中，这个信号能被高精度解码；而在 MAE 中明显更弱。作者还进一步做了子空间分析和消融，论证这一对象绑定信号不仅存在，而且参与了下游任务。\n\n意义与仓库位置\n这篇适合放在机制解释与认知交叉主线。它的重要性不只是对 ViT 做 probe，而是把“对象绑定”这个认知科学问题转成了可测、可干预的现代模型机制问题，说明某种 symbolic grouping 能在 connectionist vision model 里自然涌现。\n\n局限与为什么不更高一级\n这篇的证据主要集中在表征解码与消融分析，还不是一个直接改变视觉模型训练范式的工作。它非常适合做机制和认知桥接，但还没有到路线重排级别，所以我把它放在突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2025-10-28",
      "doi": "",
      "arxiv_id": "2510.24709",
      "collected_at": "",
      "collection_order": 105,
      "source_url": "https://arxiv.org/pdf/2510.24709.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.24709.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "AI终于能像人类一样“看懂”整体，宾大揭秘DINOv2自发涌现物体绑定能力，准确率突破九成",
          "url": "https://www.bilibili.com/video/BV1dsRxBeEwQ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1dsRxBeEwQ",
            "https://youtu.be/l3CRbtVFn8M"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "does object binding naturally emerge in large pretrained vision transformers",
          "description": "宾夕法尼亚大学团队在计算机视觉与认知科学交叉领域取得重要进展。针对“纯神经网络是否具备大局观”这一学界争议，研究者探讨了大模型能否像人脑一样将碎片特征整合为统一实体。研究提出IsSameObject逻辑，利用二次概率探针在不改变模型权重的前提下，对DINOv2等模型进行探测。实验证明，该模型在无需特殊干预的情况下，物体绑定准确率高达90.20%，且相关信号隐式存储于低维子空间中。这一发现证实了复杂的物体结构理解可从大规模预训练中自然涌现，使AI能更准、更稳地看懂现实世界，挑战了关于连接主义系统缺乏符号处理能力的传统观点。",
          "x_post": "宾夕法尼亚大学团队揭示DINOv2自发涌现物体绑定能力，准确率达90.20%\n\n传统认知科学争议在于纯神经网络是否具备将局部特征整合为整体实体的“大局观”。该研究提出IsSameObject特征谓词，利用二次概率探针在不改变模型权重的前提下，探测预训练Vision Transformers内部的结构化信号。\n\n实验结果显示，DINOv2在无需外部干预的情况下，其物体绑定准确率达到90.20%，且该信号在第18层左右达到峰值。研究发现这种绑定信息隐式存储于低维子空间中，并能有效引导自注意力机制，对下游任务性能具有关键支撑作用。\n\n这一发现证实了复杂的物体结构理解可从大规模预训练中自然涌现，挑战了关于连接主义系统缺乏符号化处理能力的传统观点。",
          "cover_url": "assets/covers/i9-object-binding-vit-68a765e60d.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T14:48:06+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "I11_Minimal_IOI_Circuits",
      "slug": "i11-minimal-ioi-circuits",
      "detail_url": "papers/i11-minimal-ioi-circuits/",
      "title": "Emergence of Minimal Circuits for Indirect Object Identification in Attention-Only Transformers",
      "summary": "## 问题与背景\n问题与背景：mechanistic interpretability 经常在大模型上做逆向解释，但由于结构太复杂，很难回答“一个具体能力最小到底需要什么 circuit”。IOI 是这一方向的经典任务。\n\n## 方法/新意\n方法/新意：这篇工作从头训练极小 attention-only transformers，在 IOI 任务上找到最小可行电路，并分析注意力头如何分工形成 additive / contrastive subcircuits。价值在于最小机制而不是更大模型。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：它适合放在 mech interp 主线，与 CODEC、BlockCert、capability localization 等条目互补。一个偏最小可解释电路，一个偏块级抽取，一个偏能力定位。\n\n## 局限/为何不更高\n局限/为何不更高：它的解释力很强，但主要作用是提供受控 testbed，而不是直接改变大模型解释工作流，因此归为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "interpretability_and_mechanistic_analysis",
      "theme_label": "可解释性与机制分析",
      "published_at": "2025-10-28",
      "doi": "",
      "arxiv_id": "2510.25013",
      "collected_at": "",
      "collection_order": 104,
      "source_url": "https://arxiv.org/abs/2510.25013",
      "paper_url": "https://arxiv.org/abs/2510.25013",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "SAA UJU 团队拆解 AI 推理黑盒：仅需 2 个注意力头协作，逻辑识别准确率即刻飙升至 100%",
          "url": "https://www.bilibili.com/video/BV1YHRyBEEz4",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1YHRyBEEz4",
            "https://youtu.be/8tOy1kTYFEU"
          ],
          "main_collection": "大模型架构与推理",
          "match": "emergence of minimal circuits for indirect object identification in attention only transformers",
          "description": "SAA UJU 团队深耕机械可解释性领域，针对大模型推理机制不透明的“黑盒”难题，通过构建极简的纯注意力 Transformer 模型展开研究。团队利用符号化间接宾语识别（IOI）任务，成功发掘出实现逻辑推理的最简电路：仅需单层、两个注意力头并行协作，即可将任务准确率从 50% 飙升至完美的 100%。其中，不同头分别承担参考识别与信息复制职能，通过加法与对比逻辑完成指代判断。该研究清晰揭示了 AI 处理逻辑关系的底层结构，为理解大模型如何涌现推理能力提供了高度可控的实验范式，也为优化模型效率指明了方向。",
          "x_post": "SAA UJU 团队揭示 Transformer 逻辑推理极简电路：1 层 2 头模型在 IOI 任务实现 100% 准确率\n为破解大语言模型内部机制不透明的“黑盒”难题，该研究采用机械可解释性方法，在符号化间接宾语识别（IOI）任务中解析了实现逻辑推理的最简计算电路。\n团队构建了剔除 MLP 和层归一化的极简纯注意力模型，实验发现单层单头（1L1H）架构因无法同时兼顾目标识别与信息复制，准确率仅约为 50%。\n当扩展至单层双头（1L2H）并行协作时，模型通过 QK 与 OV 矩阵的加法与对比逻辑，使逻辑识别准确率即刻飙升至 100%。\n分析表明，这种极简拓扑结构比预训练大模型中的机制更为精炼，清晰揭示了 AI 处理指代关系的底层逻辑结构。\n研究进一步证实，位置嵌入能显著增强模型性能并提升内部逻辑清晰度，为理解大模型推理能力的涌现提供了高度可控的实验范式。",
          "cover_url": "assets/covers/i11-minimal-ioi-circuits-98900796e6.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T19:43:33+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N40_BrainFound_MRI",
      "slug": "n40-brainfound-mri",
      "detail_url": "papers/n40-brainfound-mri/",
      "title": "Towards Generalisable Foundation Models for Brain MRI",
      "summary": "问题与背景\nBrain MRI foundation models are becoming central to medical imaging AI, but many methods remain either slice-based, weakly multimodal, or overly specialized to a narrow set of downstream tasks.\n\n方法/新意\nBrainFound extends DINO-v2 toward full 3D brain anatomy and supports both single- and multimodal inputs, aiming to make self-supervised brain MRI representations more generalizable across downstream tasks.\n\n意义/放在仓库中的位置\nThis belongs on the NeuroAI and brain MRI mainline alongside BrainIAC and Prima. It adds another serious foundation-model attempt focused on generalization rather than narrow single-task performance.\n\n局限/为何不更高\nIt remains a preprint in a competitive area and does not yet clearly exceed the best published brain MRI foundation-model entries already in the repository, so breakthrough is appropriate.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-10-27",
      "doi": "",
      "arxiv_id": "2510.23415",
      "collected_at": "",
      "collection_order": 103,
      "source_url": "http://arxiv.org/abs/2510.23415v3",
      "paper_url": "http://arxiv.org/abs/2510.23415v3",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "秒级读懂 3D 大脑：UCL 打造 BrainFound 医疗基座模型，破解放射科医生 4 秒读图极限",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "towards generalisable foundation models for brain mri",
          "description": "伦敦大学学院（UCL）团队在医疗影像 AI 领域取得突破，推出名为 BrainFound 的 3D 脑部基座模型。针对放射科医生平均 4 秒需解读一张影像的超负荷现状，该模型基于 DINOv2 架构，通过视觉变换器将 2D 切片转化为具备空间感知的 3D 表征。研究利用超一万组多模态 MRI 数据进行自监督预训练，无需专家标注即可灵活处理 T1、T2 及 FLAIR 序列。实验显示，BrainFound 在阿尔茨海默病检测、肿瘤分级及解剖分割任务中表现优异。该模型通过极强的跨数据集泛化能力，显著降低了自动化诊断对昂贵标注的依赖，有效减轻临床医生的处理压力。",
          "x_post": "UCL 团队推出 BrainFound 3D 脑部基座模型：万级多模态 MRI 自监督学习\n针对放射科医师平均 4 秒需解读一张影像的超负荷现状，UCL 团队开发了 BrainFound 3D 基座模型。该模型扩展了 DINOv2 架构，通过处理 3D 扫描中的连续切片，将 2D 视觉特征转化为捕捉复杂解剖结构的 3D 空间表征。\n研究利用超过 10,000 组未标记的 T1、T2 及 FLAIR 多模态数据进行预训练，有效融合跨序列特征。实验证明，BrainFound 在阿尔茨海默病检测、脑肿瘤分级与精细组织分割任务中表现卓越，并展现出极强的跨数据集泛化能力。\n该模型显著降低了自动化诊断对昂贵专家标注的依赖，为临床神经影像学提供了一个高效且可扩展的工具，有助于缓解放射科医师的诊断压力。",
          "cover_url": "assets/covers/n40-brainfound-mri-f0d031c41f.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T13:44:42+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N36_Monkey_Cognitive_Maturation",
      "slug": "n36-monkey-cognitive-maturation",
      "detail_url": "papers/n36-monkey-cognitive-maturation/",
      "title": "Longitudinal measures of monkey brain structure and activity through adolescence predict cognitive maturation",
      "summary": "问题与背景\nAdolescent cognitive maturation is associated with structural and functional brain changes, but the links between these changes and the emergence of improved cognition are usually inferred indirectly. This paper studies that question longitudinally in monkeys.\n\n方法/新意\nThe novelty is the joint longitudinal tracking of behavior, neuronal activity, and anatomy in the same developmental trajectory, allowing the authors to connect prefrontal activity changes directly to working-memory improvement.\n\n意义/放在仓库中的位置\nThis is a strong cognitive and developmental neuroscience paper. It fits the repository's broader cognition mainline by anchoring how neural dynamics and anatomical maturation jointly support improving cognition across adolescence.\n\n局限/为何不更高\nIt is a high-quality domain paper rather than a new cross-domain computational or methodological paradigm, so breakthrough is the right grade.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-10-27",
      "doi": "10.1038/s41593-025-02076-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 102,
      "source_url": "https://doi.org/10.1038/s41593-025-02076-0",
      "paper_url": "https://doi.org/10.1038/s41593-025-02076-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "为什么青春期是认知关键窗口？猕猴模型实证脑网络如何由局部聚集转向全局协同，奠定成年基础",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "longitudinal measures of monkey brain structure and activity through adolescence predict cognitive maturation",
          "description": "青春期是认知功能飞跃的关键窗口，但其底层神经重构机制长期缺乏高精度实证。本研究通过对36只猕猴进行覆盖整个青春期的纵向多模态追踪，结合结构MRI、功能fMRI及DTI技术，揭示了大脑由“局部聚集”向“全局协同”演化的拓扑规律。证据显示，皮层厚度的精简优化与白质髓鞘化增强，驱动了跨区域长距离连接的激增，实现了全脑级别的信息整合。这种系统级的软硬件重构不仅解释了神经传输效率的提升，更建立了预测个体认知成熟度的生物学指标，为理解灵长类大脑发育规律提供了重要依据。",
          "x_post": "《自然·神经科学》发表：纵向追踪36只猕猴揭示青春期脑网络由局部向全局协同演化的预测模型\n青春期是认知功能飞跃的关键窗口，但其底层神经重构的动态过程长期缺乏高精度实证。研究人员通过对36只猕猴进行100%覆盖青春期发育周期的纵向多模态追踪（结构MRI、功能fMRI及DTI），系统解析了脑发育的拓扑规律。实验数据显示，皮层厚度精简与白质各向异性（FA）增加等指标呈现高度统计学显著性（p < 0.001），驱动大脑从“局部聚集”向跨半球的“全局协同”跃迁。该研究证实，这种系统级的软硬件重构是认知成熟的基础，为预测灵长类大脑发育规律提供了关键的生物学指标。",
          "cover_url": "assets/covers/n36-monkey-cognitive-maturation-088356c3ad.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-18T20:57:31+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO9_Antibacterial_Virtual_Screening",
      "slug": "bio9-antibacterial-virtual-screening",
      "detail_url": "papers/bio9-antibacterial-virtual-screening/",
      "title": "Deep-learning-based virtual screening of antibacterial compounds",
      "summary": "这篇论文处理的是 AI drug discovery 里最硬的一类问题：如何把高成本、高噪声的湿实验筛选，扩展为真正可在超大化学空间上运行的深度学习虚拟筛选流程。抗菌药物发现尤其困难，因为活性分子稀缺、化学空间巨大、而且命中率通常极低，导致传统高通量筛选既昂贵又扩展性差。\n\n论文用约两百万分子的高通量筛选数据训练深度学习模型，再把筛选范围扩展到约 14 亿个可合成分子，最终识别出 82 个有效抗菌候选，并把命中率提高到训练期 HTS 的约 90 倍。它的关键价值不是简单替代实验，而是把大规模化学空间搜索、可合成性约束和后续生物验证做成一个完整、可操作的发现流程。\n\n这项工作值得收录，因为它不是窄任务上的模型提分，而是把深度学习虚拟筛选真正推到可落地的药物发现工作流层面。对仓库来说，它落在 AI x biology / drug discovery 的高价值主线上，外溢价值很强：后续无论是抗菌药、抗癌药还是其他靶点发现，都可以参考这种“数据驱动训练 + 超大库扩展筛选 + 实验闭环”的路线。\n\n它还不到更高一级，主要因为影响面目前仍集中在药筛与小分子发现工作流，而不是像 AlphaFold、AlphaGenome 那样重写一个更广泛的生物建模范式。更准确地说，这是一篇非常强的平台型发现论文，属于高位 disruptive，而不是更上层的 paradigm 级条目。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-10-24",
      "doi": "10.1038/s41587-025-02814-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 101,
      "source_url": "https://doi.org/10.1038/s41587-025-02814-6",
      "paper_url": "https://doi.org/10.1038/s41587-025-02814-6",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL28_C_NAV_Continual_Object_Navigation",
      "slug": "rl28-c-nav-continual-object-navigation",
      "detail_url": "papers/rl28-c-nav-continual-object-navigation/",
      "title": "C-NAV: Towards Self-Evolving Continual Object Navigation in Open World",
      "summary": "open-world embodied navigation 的真实难点不只是能否在固定类别集合上学会目标导航，而是环境、对象类别和任务分布都在持续变化。现有 object navigation 方法大多假设训练类别固定、轨迹静态，这与机器人长期部署时不断遇到新类别并同时保留旧能力的需求并不一致。\n\nC-NAV 直接把这个问题重写成 continual object navigation。论文一方面提出 continual benchmark，要求 embodied agent 在开放环境中不断获得新 object categories 的导航能力，同时避免灾难性遗忘；另一方面提出对应的 continual visual navigation framework，包括 dual-path anti-forgetting mechanism：用 feature distillation 保持多模态表征一致性，用 feature replay 在 action decoder 中保留时序特征以维持 policy consistency，并辅以 adaptive sampling 降低记忆负担。\n\n这篇工作值得收录，因为它把 object navigation 从静态 benchmark 推进到更接近真实部署的 continual setting，并给出了 benchmark + anti-forgetting mechanism 的完整组合。对 embodied lifelong learning、长期部署机器人和 open-world navigation，这是一种更耐久的问题定义和方法模式，而不只是又一个导航分数提升。\n\n它没有升到更高一级，是因为当前影响范围仍主要集中在 continual object navigation 这条子线。虽然 framing 很好、方法也完整，但还没有证明它会改写更广的 embodied learning 主流范式，因此目前更适合放在 breakthrough。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2025-10-23",
      "doi": "",
      "arxiv_id": "2510.20685",
      "collected_at": "",
      "collection_order": 100,
      "source_url": "https://arxiv.org/pdf/2510.20685.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.20685.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N23_Allostatic_Interoceptive_System",
      "slug": "n23-allostatic-interoceptive-system",
      "detail_url": "papers/n23-allostatic-interoceptive-system/",
      "title": "Cortical and subcortical mapping of the human allostatic-interoceptive system using 7 Tesla fMRI",
      "summary": "这篇论文试图系统描绘人脑中支持 allostasis 与 interoception 的网络架构。相比只盯住岛叶或前扣带等局部区域，它把问题提高到整个人脑系统层面，问负责内部身体状态调节与感知的网络到底如何在皮层和皮下共同组织。\n\n方法上，作者利用 7T fMRI 在高空间分辨率下同时覆盖皮层和深部结构，系统映射与 allostatic-interoceptive processing 相关的网络连接和功能组织。它的重要性在于把以往分散的内感受研究整合成更完整的人脑系统图谱。\n\n这篇适合放在认知科学 / 内感受 / 情感与身体脑主线。它对情绪、身体调节、精神疾病和大脑—身体耦合研究都有长期价值，也给人类脑功能组织提供了更完整的系统层视图。\n\n它没有升到更高一级，因为本质上仍是高质量脑系统映射论文，尽管很重要，但更多是在强化和精化一条重要主线，而不是开启全新研究范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-10-23",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 99,
      "source_url": "https://bpb-us-e1.wpmucdn.com/sites.dartmouth.edu/dist/2/2150/files/2025/10/s41593-025-02087-x.pdf",
      "paper_url": "https://bpb-us-e1.wpmucdn.com/sites.dartmouth.edu/dist/2/2150/files/2025/10/s41593-025-02087-x.pdf",
      "project_urls": [
        "https://bpb-us-e1.wpmucdn.com/sites.dartmouth.edu/dist/2/2150/files/2025/10/s41593-025-02087-x.pdf"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "哈佛大学揭秘大脑如何像CEO一样提前调配身体预算，利用7T超高场磁共振绘制人类全息稳态星图",
          "url": "https://youtu.be/5XzwbcvkQo0",
          "platform_urls": [
            "https://youtu.be/5XzwbcvkQo0"
          ],
          "main_collection": "认知科学",
          "match": "cortical and subcortical mapping of the human allostatic interoceptive system using 7 tesla fmri",
          "description": "哈佛大学联合麻省总医院等机构在《自然-神经科学》发表研究。针对过去因磁共振分辨率不足导致的深层脑区观测盲区，研究团队利用7T超高场强技术及机器学习算法，对90名参与者进行高精度扫描。研究成功绘制出包含21个生命中枢节点的“全息稳态-内感受系统”，与灵长类解剖学指标匹配度超96%。这揭示了大脑如何像高级经理一样，在需求发生前预判并提前调配能量预算。该成果将影像技术提升转化为对身心互动机制的精准理解，为认知、情绪与决策研究提供了全新的解剖学框架。",
          "x_post": "哈佛大学联合MGH利用7T超高场磁共振绘制人类全息稳态脑图谱，与灵长类解剖匹配率超96%\n传统磁共振成像受限于空间分辨率与静脉噪声，难以精确观测调控内脏感知与能量预算的深层脑区核团。研究团队利用7特斯拉（7T）超高场强技术及无监督机器学习，对90名参与者进行了1.1mm各向同性高精度扫描，并经过1,000次重采样循环验证。实验成功识别出包含21个核心节点的“全息稳态-内感受系统”，证实默认模式网络与显著性网络在多个皮层节点高度重合。该研究揭示了大脑如何通过“富人俱乐部”架构预判并调配身体能量预算，为理解心身互动及决策机制提供了高精度的人类活体解剖学框架。",
          "cover_url": "assets/covers/n23-allostatic-interoceptive-system-6f2103a131.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-19T20:10:43+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N22_Hunger_Hormonal_Aggression",
      "slug": "n22-hunger-hormonal-aggression",
      "detail_url": "papers/n22-hunger-hormonal-aggression/",
      "title": "Integration of hunger and hormonal state gates infant-directed aggression",
      "summary": "这篇论文研究内在生理状态如何共同决定社会行为。作者关注雌鼠对幼崽的照料和攻击之间的切换，想解释为何饥饿状态与激素状态会共同塑造这一行为开关，而不是简单地由单一动机系统决定。\n\n论文把 ArcAgRP 饥饿回路、MPOA 激素相关调节和细胞水平记录结合起来，指出 hunger 与 oestrous/hormonal state 会在特定下丘脑回路中整合，改变对幼崽的表征和行为输出。它给出的不是单一路径，而是一个内部状态集成模型。\n\n这篇适合放在认知科学 / 社会行为神经科学主线。它对理解社会行为如何被多种内部状态共同门控很重要，也为动机系统、情感状态和社会选择之间的整合提供了机制证据。\n\n它没有再升一级，因为主要外溢仍在行为神经科学与下丘脑回路这一范围，尽管概念清晰，但方法学和跨领域影响还不足以进入更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-10-22",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 98,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12675289/",
      "paper_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12675289/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO36_KCM_Peptide_Design",
      "slug": "bio36-kcm-peptide-design",
      "detail_url": "papers/bio36-kcm-peptide-design/",
      "title": "Tailored structured peptide design with a key-cutting machine approach",
      "summary": "问题与背景：结构化肽设计通常依赖生成模型，但生成模型训练昂贵、目标函数难改，限制了实验室按需设计可测属性的效率。论文关注的是能否用更轻量、可控的优化框架完成 tailored peptide design。\n\n方法与机制：Key-Cutting Machine 使用结构预测作为内循环，以 estimation-of-distribution algorithm 迭代搜索序列，使候选肽匹配目标 backbone 几何和用户指定的物理化学约束。它不需要重新训练大型生成模型，单 GPU 即可运行。\n\n为什么重要：这是一类与大生成模型路线互补的 AI 蛋白/肽设计接口：将结构预测模型嵌入可解释优化流程，让实验目标可以直接写进 objective function。对低资源生物设计、材料肽设计和快速工程化迭代有外溢价值。\n\n局限：方法仍依赖结构预测质量和目标函数设计；它不是一套端到端基础模型，也没有证明可覆盖所有复杂功能蛋白，因此定位为突破级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-10-21",
      "doi": "10.1038/s42256-025-01119-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 97,
      "source_url": "https://www.nature.com/articles/s42256-025-01119-2.pdf",
      "paper_url": "https://www.nature.com/articles/s42256-025-01119-2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P11_MIST_Chemical_Space",
      "slug": "p11-mist-chemical-space",
      "detail_url": "papers/p11-mist-chemical-space/",
      "title": "Foundation Models for Discovery and Exploration in Chemical Space",
      "summary": "这篇论文瞄准的是化学空间探索中的核心瓶颈：现有分子表示和性质预测体系覆盖面窄、任务割裂，很难支撑真正跨化学领域的发现与筛选。作者试图建立一个面向广泛分子结构和性质的统一基础模型，而不只是某个单项 benchmark 的最优器。\n\n方法上，论文提出 MIST 系列分子基础模型，在参数量和训练数据规模上都显著超过既有工作，并设计了同时编码核、电子和几何信息的 tokenization 方案。模型先在大规模无标签分子数据上预训练，再在 400 多个 structure-property 关系上微调。作者还把 mechanistic interpretability 和 scaling-law 分析嵌进去，使其不只是一个黑盒预测器。\n\n它在仓库里的意义在于：这是“foundation model for chemistry”路线的代表作之一，和 AlphaGenome、MOSAIC、QUASAR 这些条目一起，构成 AI 进入分子与材料发现的不同底层形态。它的价值不在单个任务分数，而在把跨性质、跨场景化学预测放到统一底座上。\n\n我把它放在“突破性”。原因是它外溢性很强，覆盖真实化学空间探索，但目前仍主要体现为高质量基础模型工程与实验体系，还不到彻底重写整个化学 AI 版图的等级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-10-20",
      "doi": "",
      "arxiv_id": "2510.18900",
      "collected_at": "",
      "collection_order": 96,
      "source_url": "https://arxiv.org/abs/2510.18900",
      "paper_url": "https://arxiv.org/abs/2510.18900",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "8小时完成9000万种电池电解液筛选，MIST大模型利用20亿分子数据刷新研发效率",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "foundation models for discovery and exploration in chemical space",
          "description": "MIST研究团队针对海量化学空间探索效率低的难题，发布了参数量达18亿的分子基础模型MIST。该模型基于20亿无标注分子数据，首创Smirk分词方案，能精准捕捉分子的三维几何与电子结构信息。在电池研发实验中，MIST仅用8块GPU在8小时内便完成了9000万种电解液分子的性能预测，成功锁定63种稳定性超越基准的新材料。研究证明该模型在电化学、嗅觉感知等400多项预测任务中达到顶尖水平。目前代码与权重已开源，将显著降低高性能分子与药物的筛选成本及研发周期。",
          "x_post": "MIST研究团队发布1.8B参数分子基础模型，8小时完成9000万种电池电解液筛选\n\n针对10^60级庞大化学空间的探索难题，传统计算与实验手段效率受限。研究团队开发了分子基础模型MIST，通过首创的Smirk分词方案，在20亿无标注分子序列上进行预训练，实现了对三维几何、核信息及电子结构的精确表征。\n\n在电解液筛选实验中，MIST仅耗时8小时（8块GPU）即完成9000万种分子预测，成功锁定63种超越基准的高稳定性候选材料。此外，该模型在嗅觉预测任务中达到0.915 AUROC，展现出跨领域的泛化能力。\n\n可解释性分析表明，MIST能够自主习得芳香性等科学规律。目前该模型权重与代码已开源，为高通量材料发现与分子设计提供了可核验的科研基座。",
          "cover_url": "assets/covers/p11-mist-chemical-space-76333caef7.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-05T13:37:32+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N32_Single_Unit_Activation_Biases",
      "slug": "n32-single-unit-activation-biases",
      "detail_url": "papers/n32-single-unit-activation-biases/",
      "title": "Single-unit activations confer inductive biases for emergent circuit solutions to cognitive tasks",
      "summary": "问题与背景\n这篇论文问的是一个很基础但常被忽略的问题：RNN 里单元的激活函数只是实现细节，还是会真正改变学出来的“认知电路”？在脑网络建模里，人们往往默认不同非线性激活不会改变高层任务解法，但这篇论文直接挑战了这种看法。\n\n方法与新意\n作者比较了不同单元激活函数下训练出来的 RNN，并结合模型蒸馏和动力学分析，系统比较其群体轨迹几何、固定点结构、单元选择性和分布外泛化。结果显示，即便任务和训练目标相同，不同激活函数也会把网络引向 qualitatively distinct 的 circuit solutions。\n\n意义与仓库位置\n这篇对 NeuroAI 很重要，因为它说明 seemingly minor 的架构选择其实是强 inductive bias，会影响模型是否更像真实生物神经系统。它既是神经网络理论问题，也是脑建模问题，适合放在认知科学与 NeuroAI 主线交叉处。\n\n局限与为什么不更高一级\n它主要是机制分析和对比研究，没有提出一个全新的通用训练范式或平台系统。实验重点还是认知任务上的 RNN，而不是更广泛的现代基础模型。因此它是高质量、值得长期引用的突破性工作，但还不到颠覆性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-10-20",
      "doi": "10.1038/s42256-025-01127-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 95,
      "source_url": "https://www.nature.com/articles/s42256-025-01127-2",
      "paper_url": "https://www.nature.com/articles/s42256-025-01127-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "普林斯顿挑战算法常识：激活函数并非殊途同归，它从底层塑造了AI的思维路径",
          "url": "https://www.bilibili.com/video/BV1fMQqBAEdH",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1fMQqBAEdH",
            "https://youtu.be/PxDNUZFZGX0"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "single unit activations confer inductive biases for emergent circuit solutions to cognitive tasks",
          "description": "本研究探讨循环神经网络中激活函数对模型解决认知任务机制的影响。普林斯顿大学团队通过分析600个高性能RNN模型发现，虽然ReLU、Sigmoid与Tanh在任务精度上表现一致，但在神经群体轨迹、单单元选择性及不动点几何结构上存在显著差异。通过潜回路推理技术，研究揭示了这些架构差异如何导致迥异的电路解决方案，特别是Tanh模型在表征上与生物系统规律偏差较大，而ReLU和Sigmoid更具生物真实性。这一发现提醒研究者，在利用人工神经网络推断大脑计算机制时，必须审慎考虑激活函数带来的归纳偏置。",
          "x_post": "普林斯顿大学《Nature Machine Intelligence》：600个RNN模型揭示激活函数对认知任务电路解的归纳偏置\n长期以来，研究者多认为只要神经网络性能达标，激活函数的选择并不影响其内部逻辑。普林斯顿团队通过分析600个高性能循环神经网络（RNN）模型，对比了ReLU、Sigmoid与Tanh在三项典型认知任务中的表现，挑战了这一传统认知。\n研究利用潜回路推理技术将100节点模型蒸馏至8节点透明机制。实验发现，尽管各模型精度一致，但Tanh在神经群体轨迹上呈正交双层薄片结构，且在MDS聚类中表现为独立“孤岛”，与ReLU/Sigmoid的蝴蝶结状轨迹及生物真实性表征存在根本差异。\n数据证实，ReLU与Sigmoid模型受戴尔法则等生物约束影响显著，而Tanh则表现出明显的生物规律偏差。这一结论提醒科研人员，激活函数会预先决定电路解的涌现路径，在利用人工神经网络推断生物大脑计算机制时，必须审慎考虑架构设定带来的归纳偏置。",
          "cover_url": "assets/covers/n32-single-unit-activation-biases-835f07790b.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-22T00:14:03+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C25_CrystalFlow_Materials",
      "slug": "c25-crystalflow-materials",
      "detail_url": "papers/c25-crystalflow-materials/",
      "title": "CrystalFlow: a flow-based generative model for crystalline materials",
      "summary": "问题与背景：晶体材料生成需要同时处理晶格参数、原子坐标、元素类型和对称性，普通生成模型很难在物理约束和条件生成之间取得平衡。\n\n方法与机制：CrystalFlow 将 Continuous Normalizing Flows、Conditional Flow Matching、图等变神经网络和 symmetry-aware 表征结合，联合建模晶体结构组成要素，并支持压力、材料属性等条件生成。\n\n为什么重要：这是一篇材料生成模型顶刊论文，核心贡献是把 flow matching 路线适配到晶体结构生成，并提供对材料发现可复用的 generative primitive。\n\n局限：它主要仍是计算生成与 benchmark 论文，离自动实验闭环和产业材料发现还有距离，因此收为突破级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-10-20",
      "doi": "10.1038/s41467-025-64364-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 94,
      "source_url": "https://www.nature.com/articles/s41467-025-64364-4.pdf",
      "paper_url": "https://www.nature.com/articles/s41467-025-64364-4.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A18_Cosmos_Surg_dVRK",
      "slug": "a18-cosmos-surg-dvrk",
      "detail_url": "papers/a18-cosmos-surg-dvrk/",
      "title": "Cosmos-Surg-dVRK: World Foundation Model-based Automated Online Evaluation of Surgical Robot Policy Learning",
      "summary": "## 问题与背景\n问题与背景：手术机器人策略评估一直受成本、风险和重现实验难度限制。真实 dVRK 平台上的在线评测不可能像模拟环境那样高频、廉价，这直接限制了策略训练和迭代。\n\n## 方法/新意\n方法/新意：这篇工作把 world foundation model 引入手术机器人评估，构建 Cosmos-Surg-dVRK，通过仿真和视频分类器自动化评估手术策略，而不必每次都回到真实平台上。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：它放在 embodied AI / surgical robotics / world-model evaluation 主线很合适。与 WoVR、World-VLA-Loop 同类，但更强调真实高成本场景中的自动评测闭环。\n\n## 局限/为何不更高\n局限/为何不更高：当前更像非常强的垂直领域系统论文，离通用机器人世界模型评测平台还有距离，因此先归为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-10-17",
      "doi": "",
      "arxiv_id": "2510.16240",
      "collected_at": "",
      "collection_order": 93,
      "source_url": "https://arxiv.org/abs/2510.16240",
      "paper_url": "https://arxiv.org/abs/2510.16240",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "英伟达联手斯坦福实现手术机器人零风险考评，基于Cosmos世界模型重塑医疗AI训练流程",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "cosmos surg dvrk world foundation model based automated online evaluation of surgical robot policy learning",
          "description": "英伟达联合斯坦福大学与约翰斯·霍普金斯大学在医疗AI领域取得突破，推出基于Cosmos世界基础模型的Cosmos-Surg-dVRK评估系统。针对传统手术机器人真机测试成本高、软组织形变难以模拟的痛点，该系统通过动作触发的视频生成技术，构建了高逼真度的数字孪生环境。系统能以10Hz频率实时预测未来画面，并利用自动化分类器进行闭环考评。实验证明，该仿真环境下的策略成功率与真实硬件表现具有高度正相关性，让开发者能在零风险环境下实现算法的快速迭代，极大缩短了迈向完全自主手术AI的研发周期。",
          "x_post": "英伟达、斯坦福及约翰霍普金斯大学推出 Cosmos-Surg-dVRK，基于世界模型实现手术机器人策略的高相关性自动评估\n针对手术机器人（dVRK）真机测试成本高、软组织形变物理模拟难等痛点，研究团队构建了基于视频生成的数字孪生环境。核心方法采用微调后的 Cosmos 世界基础模型，通过动作触发的隐式运动学建模，实现以 10Hz 频率自回归预测未来 12 帧的手术视野，无需编写复杂物理公式。实验证明，该仿真平台下的策略成功率与真实硬件表现具有高度正相关性，并利用 V-JEPA 2 视频分类器实现了全自动的闭环考评。研究强调，在训练数据中加入失败案例对于降低模拟器性能偏差、提升物理真实性至关重要。该成果为医疗 AI 提供了安全、高效的算法迭代手段，显著缩短了手术机器人从仿真到实操的迁移周期。",
          "cover_url": "",
          "has_local_video": true,
          "updated_at": "2026-04-25T18:51:18+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R1_Breadcrumbs_Reasoning",
      "slug": "r1-breadcrumbs-reasoning",
      "detail_url": "papers/r1-breadcrumbs-reasoning/",
      "title": "Breadcrumbs Reasoning: Memory-Efficient Reasoning with Compression Beacons",
      "summary": "- 分级：`突破性`\n- 正式标题：`Breadcrumbs Reasoning: Memory-Efficient Reasoning with Compression Beacons`\n- 原文：`2025-10-16-R1_Breadcrumbs_Reasoning-Breadcrumbs_Reasoning_Memory_Efficient_Reasoning_with_Compression_Beacons.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文解决的是长链推理里最具体也最贵的工程瓶颈：Transformer 在生成过程中 KV cache 线性膨胀，显存和延迟都会持续上升。作者提出 Compression Beacons 机制，在生成推理 token 的过程中周期性插入一个专用压缩 token，把前序 KV cache 压缩成更紧凑的表示，并驱逐已被压缩的旧缓存条目。\n\n论文的关键点不是只做无训练压缩，而是用“蒸馏 + 强化学习”联合训练，让模型学会如何压缩历史推理轨迹，同时尽量保留后续继续推理所需的关键信息。作者强调这种训练方式几乎不额外增加传统 RL 训练成本，因为蒸馏直接复用 RL 轨迹。实证结果表明，这一方法在内存消耗和推理准确率之间达到了更优的 Pareto 前沿，优于不压缩缓存的基线以及常见的免训练压缩方法。\n\n## 为什么重要\n\n很多长上下文改造停留在“能塞更多 token”，这篇更进一步处理“生成时如何持续记忆”。它对真正的长链 reasoning、agent 轨迹执行和资源受限部署都很重要，属于可直接影响推理系统工程形态的工作。\n\n## 局限\n\n它本质上仍是针对 KV cache 管理的机制创新，不等于从根本上解决长期记忆或抽象知识组织问题。压缩比、任务类型和训练分布变化时的稳健性，仍需要更多验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2025-10-16",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 92,
      "source_url": "https://openreview.net/pdf?id=t7Hd7BS3yH",
      "paper_url": "https://openreview.net/pdf?id=t7Hd7BS3yH",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让大模型在极低显存下深度推理，哈佛康奈尔联手实现 32 倍极致压缩，发布 Breadcrumbs 架构",
          "url": "https://www.bilibili.com/video/BV1Y1LE6EE9r",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Y1LE6EE9r",
            "https://youtu.be/YV7qz1NROEo"
          ],
          "main_collection": "大模型架构与推理",
          "match": "breadcrumbs reasoning memory efficient reasoning with compression beacons",
          "description": "哈佛大学与康奈尔大学团队针对大模型在深度推理中面临的KV缓存显存爆炸问题，联合发布了Breadcrumbs架构。该研究聚焦于长文本推理过程中显存占用随生成长度线性增长的“内存墙”困境，创新性地引入了“压缩信标”机制，通过联合强化学习与蒸馏框架，将冗长推理步骤实时压缩为紧凑表示并清理原始缓存。实验证明，该技术最高可实现32倍的极致压缩比，在保持复杂任务准确性的同时，让显存占用维持在极低且恒定的区间。这标志着大模型能够在有限显存下实现更深度的逻辑扩展，极大降低了长链推理的硬件门槛。",
          "x_post": "哈佛与康奈尔联手发布 Breadcrumbs Reasoning，利用压缩信标实现 KV 缓存 32 倍极致压缩\n针对大模型深度推理中 KV Cache 显存随生成长度线性增长的“内存墙”困境，该研究提出“面包屑”推理架构。其核心机制是在生成过程中定期插入压缩信标（Compression Beacons），将冗长推理步骤浓缩为紧凑表示并实时清理原始缓存。通过联合强化学习与蒸馏（Joint RL-Distillation）框架，模型可同步掌握推理逻辑与压缩技能。实验结果显示，该技术在 Countdown 与 StarGraph 任务中表现优异，最高可实现 32 倍压缩比，将显存占用维持在极低且恒定的区间。Breadcrumbs Reasoning 在确保逻辑准确性的前提下，显著提升了显存受限环境下的长链推理扩展性。",
          "cover_url": "assets/covers/r1-breadcrumbs-reasoning-50ae798ed5.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-16T09:35:09+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N21_Bat_Head_Direction_Compass",
      "slug": "n21-bat-head-direction-compass",
      "detail_url": "papers/n21-bat-head-direction-compass/",
      "title": "Head-direction cells as a neural compass in bats navigating outdoors on a remote oceanic island",
      "summary": "这篇论文把经典的 head-direction cells 研究真正推进到自然世界尺度。过去很多头方向细胞研究依赖实验室受控环境，而这篇工作直接在偏远海岛上的野外导航中记录蝙蝠大脑活动，问这种神经“罗盘”在开放真实环境中是否依然稳定存在。\n\n核心结果表明，头方向细胞在大尺度野外环境中仍形成稳定可靠的方向编码，并不依赖局部地标或狭小实验空间。论文的重要性不只是把实验搬到野外，而是在自然导航条件下验证了一个基础认知地图模块的普适性。\n\n这篇适合放在认知科学 / 空间认知 / 自然行为神经科学主线。它对理解大脑如何在真实世界中维持方向感和全局导航非常关键，也为类脑导航模型提供了更接近自然场景的基准。\n\n它没有升到更高一级，因为虽然实验场景非常强，但工作仍集中在单一导航系统的自然化验证，没有形成更广义方法学或跨学科平台级外溢。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-10-16",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 91,
      "source_url": "https://www.weizmann.ac.il/brain-sciences/labs/ulanovsky/sites/brain-sciences.labs.ulanovsky/files/2025-10/Palgi_etal__Science2025.pdf",
      "paper_url": "https://www.weizmann.ac.il/brain-sciences/labs/ulanovsky/sites/brain-sciences.labs.ulanovsky/files/2025-10/Palgi_etal__Science2025.pdf",
      "project_urls": [
        "https://www.weizmann.ac.il/brain-sciences/labs/ulanovsky/sites/brain-sciences.labs.ulanovsky/files/2025-10/Palgi_etal__Science2025.pdf"
      ],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "寻找大脑里的永恒坐标系：科学家在东非孤岛实证，头向细胞如何在大尺度荒野中维持全局视野",
          "url": "https://www.bilibili.com/video/BV13kAKzfE8C",
          "platform_urls": [
            "https://www.bilibili.com/video/BV13kAKzfE8C",
            "https://youtu.be/QrjVaFbQ-Q8"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "head direction cells as a neural compass in bats navigating outdoors on a remote oceanic island",
          "description": "本项研究由魏茨曼科学研究所开展，发表于《Science》杂志，旨在探究大脑如何在复杂野外环境中维持定向感知。研究团队在东非Latham孤岛释放了携带微型神经记录仪的埃及果蝠，在超过5700平方米的范围内，利用64通道单细胞记录与亚米级GPS定位技术，实时监测蝙蝠大脑背下托的神经活动。实验首次证实了头向细胞在广阔野外环境中具备极高的空间稳定性，并呈现出连贯的3D环形拓扑结构。证据表明，这种神经指南针并不依赖天体信号或地磁场，而是通过学习环境地标形成的全局坐标系。该研究突破了传统实验室小尺度空间的局限，为理解真实世界下的生物导航机制提供了核心实证。",
          "x_post": "魏茨曼科学研究所《Science》：揭秘野生蝙蝠在 5700㎡ 荒野中的全局神经指南针\n\n传统导航研究多局限于 0.5m 的室内空间，难以解释复杂现实下的定向机制。本研究将视角转向野外，探讨大脑如何在大尺度环境中维持方向坐标系。\n团队在东非孤岛释放携带 64 通道微型记录仪的埃及果蝠，结合 71cm 精度 GPS 实时监测其背下托单细胞活动。实验证实，头向细胞（HD Cells）在 5751㎡ 的活动范围内表现出极高的空间稳定性，并呈现连贯的 3D 环形拓扑结构。\n关键证据显示，该神经指南针不依赖地磁或天体信号，而是通过学习环境地标与几何轮廓逐渐形成。这证明了即便在复杂的户外环境下，大脑也能构建稳定且统一的全局坐标系，为生物导航提供了核心实证。",
          "cover_url": "assets/covers/n21-bat-head-direction-compass-a6e22cc4c0.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-22T00:12:46+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "SC1_Contextual_Fulfillment_Optimization",
      "slug": "sc1-contextual-fulfillment-optimization",
      "detail_url": "papers/sc1-contextual-fulfillment-optimization/",
      "title": "Contextual Stochastic Optimization for Omnichannel Multicourier Order Fulfillment Under Delivery Time Uncertainty",
      "summary": "问题与背景：全渠道零售中的订单履约长期依赖启发式规则，例如简单挑选最便宜的履约中心和承运商，但这种做法很难处理 delivery-time uncertainty、订单合单机会以及现实环境里只有 observational data 的约束。本文要解决的是：在大规模真实履约网络中，如何把预测与优化耦合成一个能直接驱动 operational decisions 的系统。\n\n方法/新意：论文提出 Contextual Stochastic Optimization（CSO）框架，把 contextual distributional forecast 与 stochastic / robust optimization 融在一起，用于联合选择 fulfillment center 和 shipping carrier。系统不仅预测 delivery deviation 的分布，还把 item consolidation、服务风险和成本控制一起纳入决策，使机器学习预测真正进入 fulfillment control loop。\n\n意义/放在仓库中的位置：这是 supply chain / logistics 方向里很少见的硬论文，不是泛泛而谈 AI 提升效率，而是给出了可复用的 AI+OR operational workflow，并在真实电商履约问题上验证。对仓库新扩的 supply-chain / logistics 范围来说，它是很合格的代表：AI 不是周边分析，而是进入核心业务决策层。\n\n局限/为何不再升一级：这篇工作的影响面主要集中在 fulfillment / operations research 这一子方向，外溢性虽强但仍不够跨到更广的 agent、foundation model 或 autonomous system 主线。再加上 canonical source 只能先采用作者公开页面而不是 journal 正式落地页，因此定为 breakthrough 更稳妥。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "supply_chain_logistics_and_operations",
      "theme_label": "供应链、物流与运营",
      "published_at": "2025-10-14",
      "doi": "",
      "arxiv_id": "2409.06918",
      "collected_at": "",
      "collection_order": 90,
      "source_url": "https://arxiv.org/pdf/2409.06918.pdf",
      "paper_url": "https://arxiv.org/pdf/2409.06918.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N35_CSF_Mobility_MRI",
      "slug": "n35-csf-mobility-mri",
      "detail_url": "papers/n35-csf-mobility-mri/",
      "title": "Region-specific drivers of CSF mobility measured with MRI in humans",
      "summary": "问题与背景\nMany neurological diseases involve impaired clearance of toxic proteins, but the forces that drive cerebrospinal fluid mobility in human perivascular spaces remain debated. This paper addresses that gap with a CSF-specific MRI measurement framework in living humans.\n\n方法/新意\nThe core contribution is a noninvasive MRI approach that isolates and quantifies CSF mobility region by region, enabling the authors to test which anatomical and physiological factors drive clearance-related flow in vivo rather than inferring it indirectly.\n\n意义/放在仓库中的位置\nThis belongs on the cognitive and systems neuroscience mainline. It is a strong mechanistic measurement paper with translational relevance to neurodegeneration and human brain physiology, even though it is not directly an AI paper.\n\n局限/为何不更高\nIts contribution is primarily a strong biological measurement and mechanism result. It does not establish a new cross-domain computational paradigm, so it fits best as breakthrough.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-10-14",
      "doi": "10.1038/s41593-025-02073-3",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 89,
      "source_url": "https://doi.org/10.1038/s41593-025-02073-3",
      "paper_url": "https://doi.org/10.1038/s41593-025-02073-3",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "IND1_AILA_AFM_Automation",
      "slug": "ind1-aila-afm-automation",
      "detail_url": "papers/ind1-aila-afm-automation/",
      "title": "Evaluating large language model agents for automation of atomic force microscopy",
      "summary": "这篇论文抓住了 self-driving laboratories 真正难的一层：很多实验自动化系统依赖刚性 protocol 和手工流程设计，很难体现专家在动态实验环境中的判断与适应能力。作者把 atomic force microscopy（AFM）作为一个高精度实验工作流，专门测试 LLM agents 是否真的能够承担从实验设计到结果分析的完整科学流程，而不只是回答材料科学问题。\n\n论文提出 Artificially Intelligent Lab Assistant（AILA）框架，并同时发布 AFMBench 这一套完整评测，从实验设计、校准、特征检测到结果分析全面考察 LLM agent 的实验能力。摘要里最关键的结果不是“某个模型做到了自动 AFM”，而是：当前最强模型在基础任务和协调场景上仍然会明显失败；材料科学问答能力并不等于实验能力；此外还出现作者称为 sleepwalking 的 instruction deviation，说明 agentic lab automation 有真实的安全和对齐问题。multi-agent 设置优于 single-agent，但仍然对提示格式敏感。\n\n这项工作值得正式收录，因为它把 scientific instrumentation automation 从 demo 推进到 benchmark + safety + capability boundary 的更成熟阶段。对仓库来说，它既属于 AI for science，也属于工业/实验过程自动化的关键参考：真正重要的不是 AFM 这个单一设备，而是它证明了 agentic lab systems 在进入真实实验闭环前，必须有更严格的系统评测与安全分析。\n\n它暂时还不到更高一级，原因是当前工作仍聚焦 AFM 与相关材料实验流程，离更广泛的 autonomous instrumentation default benchmark 还有距离。它非常值得收，但还没有把整个 self-driving lab 赛道完全重排。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "industrial_process_and_manufacturing_systems",
      "theme_label": "工业过程与制造",
      "published_at": "2025-10-14",
      "doi": "10.1038/s41467-025-64105-7",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 88,
      "source_url": "https://www.nature.com/articles/s41467-025-64105-7",
      "paper_url": "https://www.nature.com/articles/s41467-025-64105-7",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW15_DeviceAgent_Flexible_Bioelectronics",
      "slug": "hw15-deviceagent-flexible-bioelectronics",
      "detail_url": "papers/hw15-deviceagent-flexible-bioelectronics/",
      "title": "DeviceAgent: An autonomous multimodal AI agent for flexible bioelectronics",
      "summary": "柔性生物电子设备开发天然是一个跨学科、长链条流程：从高层设计目标、器件布局，到工艺流程、缺陷检查和信号分析，通常都需要大量专家介入，扩展性和可复用性都很差。\n\nDeviceAgent 把 LLM、VLM 和领域专用计算工具整合成一个自主多模态 agent，并用 context memory 串起整个设备开发链条。它不只做单点推理，而是把 customized layout generation、fabrication protocol generation、visual defect inspection、electrophysiological signal analysis 放进一个统一框架里。\n\n这篇论文之所以过线，是因为它非常接近你要的 `硬件和软件一体设计与仿真/迭代`。它展示的不是一个带 AI 的设备，而是一个 AI 驱动的设备设计-制造-分析工作流，对消费/工业硬件之外的 bioelectronics 产品设计也有明显启发。\n\n它没有更高一级，因为当前应用域仍然集中在 flexible bioelectronics，并且在人类关键节点监督下运行；它还不是通用的 MCAD/EDA/product design platform。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2025-10-13",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 87,
      "source_url": "https://www.biorxiv.org/content/biorxiv/early/2025/10/13/2025.10.10.681748.full.pdf",
      "paper_url": "https://www.biorxiv.org/content/biorxiv/early/2025/10/13/2025.10.10.681748.full.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "哈佛MIT发布DeviceAgent：多模态自主助手重塑柔性电子研发，实现科研全链路自动化",
          "url": "https://www.bilibili.com/video/BV1b5XWB1E2p",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1b5XWB1E2p",
            "https://youtu.be/WbgnLfHqxB0"
          ],
          "main_collection": "AI硬件设计",
          "match": "deviceagent an autonomous multimodal ai agent for flexible bioelectronics",
          "description": "柔性生物电子研发长期受困于流程碎片化与极高的试错成本。哈佛与MIT联合发布的DeviceAgent提供了一套端到端的自动化方案。该系统深度融合多模态大模型与Python代码执行环境，支持从自然语言对话直接生成工业级GDSII掩膜文件。在心脏组织监测器件的研发中，DeviceAgent展现了从CAD布局、工艺制定到电生理信号分析的全链路处理能力。实验数据显示，GPT-4o在复杂生成任务中达到了100%的完成率。该研究明确了人机协作边界：由人类定义科研方向，AI负责处理繁琐的参数化建模与缺陷检测，显著提升了跨学科研发效率。",
          "x_post": "哈佛与 MIT 团队发布 DeviceAgent：多模态 AI 代理实现柔性生物电子全链路自动化，GPT-4o 任务完成率达 100%\n柔性生物电子研发长期面临流程碎片化、跨学科门槛高及手工迭代试错成本昂贵等痛点。\nDeviceAgent 深度融合多模态大模型与 Python 代码执行环境，支持从自然语言直接生成工业级 GDSII 掩膜文件。\n该系统可自主完成从 CAD 布局生成、制造工艺制定到电生理信号分析的端到端流程，将数天的人工建模工作缩短至秒级。\n实验数据显示，GPT-4o 在处理涉及多步逻辑的复杂生成挑战中实现了 100% 的任务完成率，显著优于其他同类模型。\n此项工作界定了人机协作的新边界：由人类定义科研方向与物理边界，AI 负责高频的参数化迭代与缺陷检测，从而提升研发效率。",
          "cover_url": "assets/covers/hw15-deviceagent-flexible-bioelectronics-b413525957.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T20:51:09+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C15_Reac_Discovery_Reactor_Design",
      "slug": "c15-reac-discovery-reactor-design",
      "detail_url": "papers/c15-reac-discovery-reactor-design/",
      "title": "Reac-Discovery: an artificial intelligence-driven platform for continuous-flow catalytic reactor discovery and optimization",
      "summary": "这篇论文针对连续流催化反应器设计中的长期瓶颈：几何结构设计、可打印性约束、制造实现和实验评估通常被拆散在多个环节里，导致设计空间探索依赖人工经验，迭代慢且难以系统比较。\n\n论文提出 Reac-Discovery 平台，把参数化 periodic open-cell reactor design、printability validation、高分辨率 3D printing 与功能化、并行多反应器 self-driving evaluation、以及基于过程参数和拓扑描述符的机器学习优化串成闭环。它不只是单点优化器，而是完整的 design-fabrication-evaluation workflow。\n\n这篇工作和仓库主线高度一致，因为它展示了 AI 如何真正改变硬件/装置级科学工作流：不是只做条件优化，而是把结构设计、制造约束和实验反馈统一进一个可迭代系统。对 AI for chemistry、autonomous lab、甚至产品级装置设计自动化都有明显外溢。\n\n它没有被定到更高一级，是因为应用场景仍主要集中在 catalytic reactor discovery，通用化到更广泛工业硬件或通用设计自动化还需要更多后续证明。当前它更像一个很强的 vertical workflow，而不是已经普适化的平台范式。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-10-13",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 86,
      "source_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12518858/",
      "paper_url": "https://pmc.ncbi.nlm.nih.gov/articles/PMC12518858/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T17_HoloGraph_Oscillatory_Synchronization",
      "slug": "t17-holograph-oscillatory-synchronization",
      "detail_url": "papers/t17-holograph-oscillatory-synchronization/",
      "title": "Explore brain-inspired machine intelligence for connecting dots on graphs through holographic blueprint of oscillatory synchronization",
      "summary": "这篇论文针对图神经网络一个很经典的限制切入：标准图消息传递往往建立在扩散或平滑范式上，因此容易出现 over-smoothing，且难以表达更具动态性和选择性的全局关系传播。作者试图把这个问题改写成一个更强的脑启发问题：如果大脑里的神经耦合是通过振荡同步来形成概念和关系，那么图上信息传播是否也可以从扩散范式改到同步范式。\n\n论文先用耦合振荡系统去建模脑节律演化，称为 HoloBrain，再把这种共享同步机制抽象成用于图学习的 HoloGraph 原理。核心新意不只是把振荡方程套到图上，而是把“图上连点成线”的过程解释为相位耦合和同步形成，从而让图模型不再只依赖静态扩散。论文的主张是，这种同步驱动的动态图机制能够缓解图神经网络的过平滑问题，并提升图上的推理能力。\n\n这项工作值得收录，因为它是少见的真正把神经动力学原理转译成图学习机制的论文，不是一般意义上的脑启发口号。它同时落在 NeuroAI、图学习和理论型方法创新的交叉位置，既能作为脑启发计算的代表作，也能作为图神经网络替代扩散范式的一种有趣路线。对于仓库来说，它比普通 GNN 小改动更有长期参考价值。\n\n它还不到更高一级，原因是当前影响面仍主要集中在图学习和脑启发建模的交叉地带。虽然 framing 很强，但是否会成为图表示学习的长期主流范式，还需要更多任务和社区采用来验证。现阶段更准确的定位是一篇高位 breakthrough，而不是已经坐实的 disruptive / paradigm 级工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2025-10-10",
      "doi": "10.1038/s41467-025-64471-2",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 85,
      "source_url": "https://www.nature.com/articles/s41467-025-64471-2",
      "paper_url": "https://www.nature.com/articles/s41467-025-64471-2",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "SYS2_Autoregressive_Inference_Transformer_Probabilistic_Models",
      "slug": "sys2-autoregressive-inference-transformer-probabilistic-models",
      "detail_url": "papers/sys2-autoregressive-inference-transformer-probabilistic-models/",
      "title": "Efficient Autoregressive Inference for Transformer Probabilistic Models",
      "summary": "## 问题与背景\n问题与背景：很多 transformer-based probabilistic models 在单次边际预测上很强，但一旦要做 coherent joint prediction，往往需要反复重编码上下文，推理开销很大。这个问题在表格、小样本和神经信号建模里都很实际。\n\n## 方法/新意\n方法/新意：论文提出 causal autoregressive buffer，把 context encoding 与 target dependency 更新解耦。这样模型只处理一次上下文，然后通过动态 buffer 支撑 batched autoregressive generation 和 joint likelihood 计算。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：这篇适合放在系统优化 / 概率 Transformer / TabPFN 旁系主线。它不是纯系统 hack，而是把 set-conditioned probabilistic modeling 和 autoregressive generation 更自然地接起来。\n\n## 局限/为何不更高\n局限/为何不更高：影响面主要集中在 probabilistic inference 这一子领域，虽然有价值，但不像 FlashAttention 这类基础设施论文那样外溢更广，因此归为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2025-10-10",
      "doi": "",
      "arxiv_id": "2510.09477",
      "collected_at": "",
      "collection_order": 84,
      "source_url": "https://arxiv.org/abs/2510.09477",
      "paper_url": "https://arxiv.org/abs/2510.09477",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "解决AI推理计算爆炸：阿尔托大学新架构实现20倍提速与7倍显存优化",
          "url": "https://www.bilibili.com/video/BV1JuRvBiEBC",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1JuRvBiEBC",
            "https://youtu.be/xgb3TaU4ueE"
          ],
          "main_collection": "大模型架构与推理",
          "match": "efficient autoregressive inference for transformer probabilistic models",
          "description": "阿尔托大学与ELLIS研究所团队针对Transformer概率模型在联合预测时的效率瓶颈展开研究。传统架构在处理连续依赖数据时需全量重算上下文，导致计算复杂度呈立方级爆炸，极易引发显存溢出。该研究提出“因果自回归缓冲”架构，通过解耦静态历史与动态生成过程，将计算量降至线性/二次维度。实验证明，该方法在保持零精度损失的同时，实现了20倍的采样提速与7倍的显存优化。这一突破为长序列时间序列预测、脑电图分析及大规模概率基础模型的工业化应用扫清了算力障碍。",
          "x_post": "阿尔托大学联合ELLIS提出因果自回归缓冲架构，实现Transformer推理20倍提速与7倍显存优化\n\n传统Transformer概率模型在执行多步联合预测时，因需重复编码全量上下文，计算复杂度随序列长度呈立方级增长，极易导致显存溢出。该研究提出“因果自回归缓冲”机制，通过解耦静态历史与动态生成过程，实现了一次性编码并缓存上下文，将推理复杂度降至二次方级别。\n\n实验结果表明，该方案在合成函数、脑电图（EEG）时间序列及表格数据预测等多项任务中，实现了高达20倍的采样提速与7倍的显存占用优化。在保持零精度损失的前提下，该架构有效解决了长序列概率推断的算力瓶颈，为大规模概率基础模型的工业化应用提供了可扩展的技术方案。",
          "cover_url": "assets/covers/sys2-autoregressive-inference-transformer-probabilistic-models-e10f01802b.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-03T20:05:51+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "GEO1_InstaGeo_Geospatial_Deployment",
      "slug": "geo1-instageo-geospatial-deployment",
      "detail_url": "papers/geo1-instageo-geospatial-deployment/",
      "title": "InstaGeo: Compute-Efficient Geospatial Machine Learning from Data to Deployment",
      "summary": "geospatial foundation models 在研究中已经很强，但部署一直被两个问题卡住：一是从 raw satellite imagery 到 model-ready dataset 的自动数据管道缺失，二是 fine-tuned models 往往太大，难以在真实业务或 humanitarian workflow 中快速交付。很多工作只证明 foundation model 精度更高，却没有解决 data-to-deployment 的最后一公里。\n\nInstaGeo 的核心贡献是把 geospatial ML workflow 做成一个端到端开源框架，统一包含 automated data curation、task-specific model distillation 和 interactive web-map deployment。它不仅复现已有 flood mapping、crop segmentation、desert locust prediction 数据集和结果，还把 distillation 做成 default deployment step，使模型在精度损失很小的情况下缩小到最多 8 倍，并显著降低 FLOPs 和 CO2。更重要的是，作者强调用户可以在一天之内完成从原始数据到可部署模型的流程。\n\n这项工作值得正式收录，因为它不只是另一个 geospatial foundation model，而是把 geospatial AI 的工程化痛点做成了可复用 workflow。对仓库来说，这类论文的价值很高：它改变的不是单个任务精度，而是如何把 remote sensing / EO 模型真正推进到 field deployment 和 decision support。它对 flood、agriculture、disaster response 和 broader geospatial AI 都有明显外溢。\n\n它暂时还不到更高一级，原因是当前证据仍以 geospatial tasks 为主，且 workflow 优势更多体现在工程效率、压缩和 deployment，而不是重构更底层的 foundation-model 训练范式。它是很强的基础设施论文，但影响范围还主要停留在 geospatial deployment 这条线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "geospatial_remote_sensing_and_disaster_systems",
      "theme_label": "地理空间、遥感与灾害系统",
      "published_at": "2025-10-07",
      "doi": "",
      "arxiv_id": "2510.05617",
      "collected_at": "",
      "collection_order": 83,
      "source_url": "https://arxiv.org/pdf/2510.05617.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.05617.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A138_Deterministic_Legal_Agents",
      "slug": "a138-deterministic-legal-agents",
      "detail_url": "papers/a138-deterministic-legal-agents/",
      "title": "Deterministic Legal Agents: A Canonical Primitive API for Auditable Reasoning over Temporal Knowledge Graphs",
      "summary": "高风险法律场景要求智能体的推理过程具备可审计性、可复现性和严格的时间一致性，而常规 RAG 在版本切换、因果追踪和层级法条关系上通常过于黑箱。论文把问题定义为：在持续演化的法律知识图谱上，如何让 autonomous legal agents 的检索与推理过程变成可验证执行，而不是不可追责的语义近似。\n\n这篇工作的核心不是再做一个法律问答系统，而是提出一个 formal Primitive API 作为安全执行层。它把点时版本检索、因果谱系追踪、上下文混合搜索等操作拆成原子、可组合、可记录的 primitives，由 planner-guided agents 显式生成执行计划，再在 temporal knowledge graph 上逐步运行，从而把内部 reasoning 从黑箱回答改成可检查的 primitive log。\n\n它值得正式收录，因为真正可复用的部分是 execution-layer pattern：把 evolving structured knowledge 上的 agent reasoning 变成 deterministic、auditable、composable 的 primitive pipeline。虽然论文以法律为主要场景，但这种设计对合规、审计、政策和其他受监管领域的 agent workflow 都有直接外溢价值。\n\n它没有升到更高一级，是因为当前证据仍主要来自架构论证和法律场景本身，跨领域验证和更大规模真实部署还不够。现阶段更像一条很强的 regulated-agent blueprint，而不是已经被广泛采用的通用基础设施。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-10-07",
      "doi": "",
      "arxiv_id": "2510.06002",
      "collected_at": "",
      "collection_order": 82,
      "source_url": "https://arxiv.org/pdf/2510.06002v2.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.06002v2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A64_Agentic_Context_Engineering",
      "slug": "a64-agentic-context-engineering",
      "detail_url": "papers/a64-agentic-context-engineering/",
      "title": "Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models",
      "summary": "这篇论文针对一个越来越重要但经常被低估的问题：很多 agent 和知识密集型 LLM 系统的真实能力并不主要取决于权重更新，而取决于 context adaptation，也就是系统 prompt、外部记忆、策略说明和证据组织方式如何随着运行逐步演化。作者指出现有方法在这条路线上常见两个问题：一是 brevity bias，会把详细经验压缩成过于简短的抽象提示；二是 context collapse，反复重写上下文后细节不断流失，最终把真正有用的知识擦掉。\n\nACE（Agentic Context Engineering）的核心贡献是把 context 明确建模成持续演化的 playbook，而不是一次性 prompt。它在 Dynamic Cheatsheet 的 adaptive memory 基础上，引入 Generator、Reflector、Curator 三角色分工，并用增量 delta updates 替代整段重写，让系统能在 offline 场景下优化 system prompts，也能在 online 场景下把 agent memory 作为可生长、可整理、可反思的上下文资产持续改进。更关键的是，这套更新不依赖标注监督，而是直接利用执行反馈和环境信号完成自我改进。\n\n这项工作值得正式收录，因为它不再只是 prompt engineering 经验总结，而是把 context adaptation 提升成一种独立的 self-improving systems paradigm。论文在 agents 和 domain-specific benchmarks 上都给出稳定收益，在 AppWorld 上还能以更小的开源模型匹配甚至超过生产级系统的一部分结果，同时显著降低 adaptation latency 和 rollout cost。对仓库主线而言，它直接命中 agent memory、deployment-time improvement 和 capability acquisition 三个方向，并且给出了一种很清晰的可复用 workflow。\n\n它暂时还不到更高一级，原因在于证据仍主要集中在 AppWorld 和金融类 benchmark，以及与 prompt/context baselines 的对比，距离真正重排更广 agent infra 生态还有一步。它已经证明了 evolving contexts 是一条强路线，但是否会成为长期默认范式，还要看更多跨任务、跨企业场景和更长时运行验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-10-06",
      "doi": "",
      "arxiv_id": "2510.04618",
      "collected_at": "",
      "collection_order": 81,
      "source_url": "https://arxiv.org/pdf/2510.04618v2.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.04618v2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A141_Compliant_Trade_Execution_ZK_Audits",
      "slug": "a141-compliant-trade-execution-zk-audits",
      "detail_url": "papers/a141-compliant-trade-execution-zk-audits/",
      "title": "Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits",
      "summary": "算法交易系统真正困难的部分，不只是执行质量，而是如何在复杂多市场环境中同时满足监管约束、避免自成交、控制参与率，并在事后能够向审计方证明整个执行过程确实守规。很多方法能优化交易结果，却没有把合规和可证明审计做成同等优先级的系统原语。\n\n这篇工作把问题建模为带硬约束的 CMDP，用 PPO 训练执行 agent，并通过 runtime action shield 把任何不安全动作投影回可行集合。更关键的是，它额外加入 zero-knowledge compliance audit layer，在不暴露专有信号的前提下，对所有动作满足约束给出可验证密码学证明。这里的新意不是单一的 safe RL 或合规模块，而是把 constrained RL、运行时屏蔽和 cryptographic auditability 收成一体化执行架构。\n\n它值得正式收录，因为这种模式明显超出金融垂直应用。凡是高风险、强约束、需要第三方可验证合规的自主决策系统，都可以借鉴这套设计：先让策略在约束下学习，再用 runtime shield 保底，最后用 proof layer 做外部审计。这对未来 agentic finance、regulated automation，甚至高合规企业工作流都有外溢价值。\n\n当前证据仍主要来自 ABIDES 模拟器中的 cross-market execution 场景，真实市场部署、延迟模型和更广监管环境下的耐久性还没有完全证明。因此我给它 breakthrough，而不抬到更高一级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-10-06",
      "doi": "",
      "arxiv_id": "2510.04952",
      "collected_at": "",
      "collection_order": 80,
      "source_url": "https://arxiv.org/pdf/2510.04952v2.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.04952v2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "W3_Zephyrus_Weather_Science",
      "slug": "w3-zephyrus-weather-science",
      "detail_url": "papers/w3-zephyrus-weather-science/",
      "title": "Zephyrus: An Agentic Framework for Weather Science",
      "summary": "## 问题与背景\n问题与背景：天气与气候研究已经不只是单一预测模型的问题，还涉及资料同化、诊断分析、实验设计和多工具链协作。Zephyrus 试图把这些环节提升为可由智能体编排的天气科学工作流，而不是仅提供一个更强的预报网络。\n\n## 方法/新意\n方法/新意：论文提出面向天气科学的 agentic framework，把数据访问、分析、建模和任务规划封装为可组合工具，并让语言模型在明确工作流约束下驱动这些模块。重点不在单个模型结构，而在把 weather science 变成可自动化执行的科研/业务流程。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：这篇适合放在 AI for science 与 scientific agents 主线，代表“领域科学工作流智能体化”的一类工作。它和 QUASAR、AutoNumerics 一样，价值在于把复杂科学任务从点状模型调用提升到系统级编排。\n\n## 局限/为何不更高\n局限/为何不更高：它更像强框架论文而不是已经压倒性证明的平台标准。相比 AlphaEvolve、MOSAIC 这类条目，Zephyrus 在跨任务基准、长期自治和外部验证上的证据密度还不够，所以先定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "weather_climate_and_earth_systems",
      "theme_label": "天气、气候与地球系统",
      "published_at": "2025-10-05",
      "doi": "",
      "arxiv_id": "2510.04017",
      "collected_at": "",
      "collection_order": 79,
      "source_url": "https://arxiv.org/abs/2510.04017",
      "paper_url": "https://arxiv.org/abs/2510.04017",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让天气预报学会“说人话”，UC San Diego 发布 Zephyrus 框架，实现大模型对高维气象数据的深度理解",
          "url": "https://www.bilibili.com/video/BV1kFRyBYEBr",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1kFRyBYEBr",
            "https://youtu.be/xd41vzTsy3g"
          ],
          "main_collection": "AI智能体",
          "match": "zephyrus an agentic framework for weather science",
          "description": "UC San Diego 团队针对气象科学领域发布了首个智能体框架 Zephyrus。传统 AI 气象预报模型虽具备高精度但缺乏推理能力，而大语言模型又难以直接理解高维栅格数据。该框架通过构建 ZephyrusWorld 运行环境，使模型能够自动编写并执行 Python 代码，协同调用预测、模拟及历史统计等五大专业插件。在包含 2230 个问答对的基准测试中，Zephyrus 的任务执行准确性显著超越纯文本模型。该成果将复杂的气象数据解析转化为直观的语言交互，显著提升了科研效率，为自动化气象研究提供了全新的范式。",
          "x_post": "UC San Diego 发布 ZEPHYRUS 框架，通过智能体协同实现高维气象数据深度理解\n传统 AI 气象模型虽具备高精度数值预测能力，但缺乏自然语言推理与交互能力。ZEPHYRUS 框架通过构建 ZephyrusWorld 运行环境，使大语言模型能够自动编写并执行 Python 代码，协同调用预测、模拟及历史统计等五大专业插件。在包含 2230 个问答对的 ZEPHYRUSBENCH 基准测试中，该框架通过迭代推理显著提升了任务执行的准确性，超越了纯文本基准模型。该成果实现了高维栅格数据解析与语言交互的对接，显著提升了科研效率，但在生成极高难度的复杂气象报告方面仍存在局限。",
          "cover_url": "assets/covers/w3-zephyrus-weather-science-d033f2bb2e.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-03T16:29:01+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A146_Outcome_Aware_Safety_Consequence_Blindness",
      "slug": "a146-outcome-aware-safety-consequence-blindness",
      "detail_url": "papers/a146-outcome-aware-safety-consequence-blindness/",
      "title": "Read the Scene, Not the Script: Outcome-Aware Safety for LLMs",
      "summary": "很多安全对齐工作把问题看成“识别敏感表面信号并拒答”，但现实里模型的失败往往来自更深一层：它没有真正理解行动与结果之间的关系，因此既可能被语义伪装绕过，也可能对无害请求过度拒绝。\n\n这篇论文把该问题明确命名为 consequence-blindness，并构造 CB-Bench 去区分 semantic risk 与 outcome risk 是否一致的场景，再提出 CS-Chain-4k 作为 consequence-reasoning 对齐数据。它不只是说当前安全做法不够好，而是给出了一套更可操作的 outcome-aware framing。\n\n这种 framing 对仓库很有价值，因为它能外溢到 agent safety、tool use、policy evaluation 和 refusal calibration 等多条线。相比纯 jailbreak 对抗，这篇工作更接近“安全该如何被定义和训练”的问题重述，因此具有更长的参考寿命。\n\n它仍未达到更高等级的原因在于，目前主要证据还是 benchmark 与对齐数据带来的改进，而不是一个已被广泛采纳的新安全蓝图。但作为 breakthrough 收录是合理的。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-10-05",
      "doi": "",
      "arxiv_id": "2510.04320",
      "collected_at": "",
      "collection_order": 78,
      "source_url": "https://arxiv.org/pdf/2510.04320v1.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.04320v1.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW17_Flexible_Electronic_Robots",
      "slug": "hw17-flexible-electronic-robots",
      "detail_url": "papers/hw17-flexible-electronic-robots/",
      "title": "AI-embodied multi-modal flexible electronic robots with programmable sensing, actuating and self-learning",
      "summary": "这篇论文针对小尺度软体机器人在复杂环境中长期受限的问题：结构柔顺性带来适应性，但一旦需要同时具备多模态感知、局部计算、闭环决策和稳定运动，传统软体机器人平台往往会在集成度、实时性和鲁棒性上失效。论文因此不把机器人仅仅当作一个控制对象，而是把可编程柔性电子部件本身视为形态、感知、执行和计算一体化的构件。\n\n作者提出的 Flexible Electronic Robots 框架，把柔性电子模块、仿生刚毛模块、可编排的结构拓扑、动作序列和电路布局放进同一个设计空间。系统同时支持本体感觉与外感知，并在机载计算单元上实现风险规避、热梯度跟踪等自适应行为。它的技术价值不在单一 locomotion 指标，而在于把结构设计、感知执行集成和嵌入式决策变成同一套可组合硬件软件架构。\n\n这使它超出普通 soft-robot demo，更接近产品级软硬件一体设计条目。对本仓库而言，论文的可迁移价值在于：它展示了 AI 如何真正参与设备结构、传感执行耦合和局部决策回路，而不是事后外挂一个识别模块。它也补上了当前仓库在 mechanical-electrical embodied device design 这条线上的空白。\n\n它没有更高一级，因为当前平台仍然集中在小尺度柔性电子机器人，任务与形态范围有限，还不是一套可广泛迁移到消费或工业硬件整机设计的通用 CAD/EDA/co-sim 工作流。它更像一个很强的 embodied soft-hardware blueprint，而不是已经重写产品级硬件设计范式的条目。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2025-10-03",
      "doi": "10.1038/s41467-025-63881-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 77,
      "source_url": "https://www.nature.com/articles/s41467-025-63881-6",
      "paper_url": "https://www.nature.com/articles/s41467-025-63881-6",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "每秒狂飙 2.46 倍身长！三校联合打造微型机器千足虫，靠非对称摩擦力刷新竞速纪录",
          "url": "https://www.bilibili.com/video/BV1Ao92BuEH9",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Ao92BuEH9",
            "https://youtu.be/P-x08ddHWYU"
          ],
          "main_collection": "机器人与具身智能",
          "match": "ai embodied multi modal flexible electronic robots with programmable sensing actuating and self learning",
          "description": "武汉理工大学、华中科技大学与澳门大学团队在柔性机器人领域取得突破。针对传统软体机器人缺乏感知与自主决策能力的局限，研究者开发出集成多模态感知与超维计算算法的机器千足虫（FEbots）。该机器人利用刚柔结合的模块产生非对称摩擦力，运动速度达123.1mm/s（约2.46倍身长/秒），且能承受数百公斤压力而不损坏，支持垂直爬行、水下作业及全向机动。这一成果通过具身智能赋予了微型机器人类似生物的趋利避害本能，为复杂环境下的自主侦察与探测任务提供了高可靠性的系统框架。",
          "x_post": "武汉理工、华科大与澳门大学研制具身智能机器千足虫，运动速度达2.46倍身长/秒\n\n针对微型软体机器人感知匮乏与决策单一的局限，研究团队开发出集成多模态感知与超维计算算法的柔性电子机器人（FEbots）。该系统采用刚柔结合的仿生结构，通过非对称摩擦力原理将微小震动转化为高效位移。实验数据显示，FEbots的水平运动速度达123.1mm/s（约2.46倍身长/秒），原地旋转角速度为43.93°/s，并能承受数百公斤压力而不损坏。该成果实现了机器人在垂直管道、水下等复杂环境中的自主避障与决策，为软体智能体向高度环境适应性演进提供了参考框架。",
          "cover_url": "assets/covers/hw17-flexible-electronic-robots-13ed59d129.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-28T20:29:08+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO46_Nucleic_Acid_Biosecurity",
      "slug": "bio46-nucleic-acid-biosecurity",
      "detail_url": "papers/bio46-nucleic-acid-biosecurity/",
      "title": "Strengthening nucleic acid biosecurity screening against generative protein design tools",
      "summary": "问题与背景：AI-assisted protein design 工具正在降低蛋白工程门槛，也可能生成能绕过现有核酸合成订单筛查的危险蛋白变体。核酸合成筛查是生物安全链条中的关键 choke point。\n\n方法与机制：论文评估开源 AI 蛋白设计软件能否重设计 proteins of concern 并逃避现有 biosecurity screening tools，识别出当前筛查系统对 AI-redesigned sequences 的漏洞，并开发部署补丁以提升 synthetic homolog 检测率。\n\n为什么重要：这是 Science 级别的 AI biosecurity 工作，贡献不是普通风险评论，而是把生成式蛋白设计带来的具体逃逸路径转化为可测试、可修补的筛查工作流。它对 AI x biology 安全治理、合成生物供应链和模型滥用防护都有长期参考价值。\n\n局限：补丁针对当前工具和已知 proteins of concern，未来生成模型能力、数据库覆盖和恶意规避策略仍会变化；它是关键防御基线，不是最终安全解。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-10-02",
      "doi": "10.1126/science.adu8578",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 76,
      "source_url": "https://doi.org/10.1126/science.adu8578",
      "paper_url": "https://doi.org/10.1126/science.adu8578",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "致命毒素学会了隐身：微软联手顶尖机构揭秘AI如何攻破全球DNA合成防线",
          "url": "https://www.bilibili.com/video/BV12udSBRE4E",
          "platform_urls": [
            "https://www.bilibili.com/video/BV12udSBRE4E",
            "https://youtu.be/IoHeCxR3MIE"
          ],
          "main_collection": "AI安全与对齐",
          "match": "strengthening nucleic acid biosecurity screening against generative protein design tools",
          "description": "微软联合 Science、IBBIS 等全球顶尖生命科学与安全机构，针对生成式 AI 在蛋白质设计中的潜在滥用开展研究。研究发现，攻击者可利用 AI 模型生成功能相同但序列全新的“合成同源物”，使其化身“隐身毒素”规避传统的核酸合成筛查。团队通过红蓝对抗测试，针对 72 种高危毒素生成了超 7.6 万个变体，证实了现有基于序列比对的防线存在严重漏洞。目前，研究团队已与全球头部 DNA 合成供应商合作部署了针对性补丁，显著提升了对此类掩饰性序列的识别率，为 AI 时代的生物安全建立了风险评估新机制。",
          "x_post": "Microsoft 联合 Science 及多家机构评估生成式 AI 对 DNA 合成筛查的影响，测试 7.6 万个变体揭示生物安全漏洞。\n研究背景：ProteinMPNN 等模型可生成与天然毒素结构相同但序列迥异的“合成同源物”，有效规避传统筛查系统。\n方法与证据：团队针对 72 种高危毒素生成 76,080 个变体进行红队测试。实验证实，传统一维序列比对算法在面对高结构相似度（TM-Score > 0.5）的伪装序列时存在显著拦截失效。\n结论与应用：研究团队已与多家 DNA 合成供应商合作部署针对性补丁，显著提升检测率。该研究强调了在 AI 时代，需进一步开发基于机器学习嵌入空间的风险评估机制，以维护全球生物安全防线。",
          "cover_url": "assets/covers/bio46-nucleic-acid-biosecurity-51fbe7ed0e.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-21T18:06:57+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "BIO20_CATNIP_Biocatalysis",
      "slug": "bio20-catnip-biocatalysis",
      "detail_url": "papers/bio20-catnip-biocatalysis/",
      "title": "Connecting chemical and protein sequence space to predict biocatalytic reactions",
      "summary": "生物催化要真正进入合成路线设计，难点并不只是找到“会做这类反应的酶”，而是化学底物空间和蛋白序列空间之间长期缺乏高质量连接。这导致很多 biocatalysis 项目要靠漫长的筛酶和蛋白工程试错。\n\n这篇论文通过高通量实验先大规模补全底物-酶配对数据，再构建 CATNIP 这样能够在 chemical space 与 protein sequence space 之间双向检索与排序的模型。它不是普通 reaction prediction，而是把酶选择和底物兼容性判断变成一个可导航的联合空间问题。\n\n这篇论文值得正式收录，因为它为 AI-guided biocatalysis 建了一层非常关键的基础设施：不再只是给定底物预测反应，而是让化学路线设计者能够系统搜索“什么酶可能做成这步化学”。这对 enzyme discovery、route planning、green synthesis 都有明显外溢。\n\n它不是更高一级，因为当前验证主要集中在特定酶家族与反应体系，虽然工作流意义很强，但还没有覆盖更广泛的酶宇宙或端到端自动化实验闭环。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-10-02",
      "doi": "10.1038/s41586-025-09519-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 75,
      "source_url": "https://www.nature.com/articles/s41586-025-09519-5",
      "paper_url": "https://www.nature.com/articles/s41586-025-09519-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "终结生物催化“盲盒”：CATNIP利用AI连接化学与蛋白空间，让0.3%的已知功能扩展至无限",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "connecting chemical and protein sequence space to predict biocatalytic reactions",
          "description": "针对生物催化领域中酶底物适配性难以预测、功能注释严重匮乏（不足0.3%）的核心痛点，本研究提出了一种名为CATNIP的机器学习工具。该方法通过连接化学分子空间与蛋白质序列空间，构建了基于梯度提升决策树的预测模型。研究团队利用高通量实验筛选了314种α-酮戊二酸依赖型非血红素铁酶，在111种底物中发现了215项全新催化反应，为模型提供了高质量数据底座。CATNIP实现了从底物推荐候选酶及从序列预测底物的双向导航功能，显著降低了药物合成与精细化工中的开发风险与试错成本，为探索未知的生物催化路径提供了数字指南。",
          "x_post": "密歇根大学与卡内基梅隆大学发布CATNIP，利用AI挖掘215项新生物催化反应并实现双向导航\n\n针对生物催化中仅不足0.3%的酶具有明确功能注释的痛点，该研究提出了CATNIP机器学习工具。该方法通过梯度提升决策树模型，实现了化学分子特征空间与蛋白质序列空间的数学映射。\n\n研究团队利用高通量实验筛选了314种α-酮戊二酸依赖型非血红素铁酶，在111种底物中发现了215项全新催化反应。实验显示32%的底物被成功转化，38%的酶展现出前所未知的催化活性，为模型提供了高质量数据底座。\n\nCATNIP具备从底物推荐候选酶及从序列预测底物的双向导航能力，显著降低了药物合成与精细化工中的开发风险。目前该工具已通过开源平台发布，为探索未知生物催化路径提供了数字指南。",
          "cover_url": "assets/covers/bio20-catnip-biocatalysis-bc8e698ed2.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-23T18:50:05+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A171_Advisor_Models_Black_Box_Steering",
      "slug": "a171-advisor-models-black-box-steering",
      "detail_url": "papers/a171-advisor-models-black-box-steering/",
      "title": "How to Train Your Advisor: Steering Black-Box LLMs with Advisor Models",
      "summary": "越来越多前沿模型以 black-box service 形式部署，调用方既拿不到权重，也很难做真正的参数级定制，最后往往只能在 system prompt 或 prompt optimization 上反复试错。这样的问题不只是可控性差，更在于一旦任务需要细粒度、按实例变化的辅助策略，静态提示很快就会失效。\n\n这篇工作提出 Advisor Models：训练一个小型开源模型，专门针对当前输入生成 per-instance 的自然语言 advice，再把 advice 注入冻结的黑盒前沿模型。关键点不在于普通 prompt engineering，而在于把“如何给黑盒模型提建议”本身做成可训练对象，并证明这种 advisor 可以低成本训练、跨模型迁移，还能在税务规则问答、SWE agent 轨迹效率和个性化偏好场景里稳定带来提升。\n\n它值得正式收录，因为这条路线把 black-box frontier model 的能力定制推进成了一个可复用接口：不改大模型本体，用小模型做动态 steering。对 agent 系统、黑盒模型后训练、部署侧 customization 和模型协作结构，这都有明确的外溢价值，不是一次性的 benchmark trick。\n\n它暂时不升到更高一级，原因在于当前主要还是围绕 advice-based steering 这一条很强的新接口展开，虽然结果漂亮、迁移性也不错，但是否会成为更广泛 frontier-model orchestration 的默认层，还需要更多任务族和产品级采用来验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-10-02",
      "doi": "",
      "arxiv_id": "2510.02453",
      "collected_at": "",
      "collection_order": 74,
      "source_url": "https://arxiv.org/pdf/2510.02453.pdf",
      "paper_url": "https://arxiv.org/pdf/2510.02453.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让 API 模型推理准确率暴涨 71%，UC Berkeley 发布 Advisor Models 实现黑盒零参数操控",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "how to train your advisor steering black box llms with advisor models",
          "description": "由 UC Berkeley 与 Bespoke Labs 联合研发的 Advisor Models 旨在解决 GPT-5 等 API 部署的黑盒大模型无法进行权重微调的难题。由于无法直接修改模型参数且静态提示词在复杂任务中存在局限，研究团队提出通过强化学习训练一个轻量级的“顾问模型”。该模型能根据具体任务实时生成自然语言建议，动态引导黑盒模型的思考过程。实验数据表明，在复杂税务推理任务中，该方法将模型准确率从 31.2% 显著提升至 53.6%，涨幅达 71%；在软件工程任务中，有效减少了 24.6% 的冗余操作步数。这一范式在不触碰核心模型的前提下，实现了低成本、高可解释性的性能增强，为大模型时代的模型受控优化提供了鲁棒的新路径。",
          "x_post": "UC Berkeley 与 Bespoke Labs 发布 Advisor Models，通过强化学习将黑盒模型推理准确率提升 71%\n\n针对 GPT-5 等通过 API 部署的黑盒模型，由于无法直接微调权重且静态提示词在复杂任务中表现受限，研究团队提出一种“顾问模型”范式。该方法利用强化学习训练轻量级开源模型，根据具体任务实时生成动态自然语言建议，引导主模型思考过程而无需修改其参数。\n\n实验数据显示，在复杂税务逻辑推理任务中，该方法将主模型准确率从 31.2% 提升至 53.6%（增幅 71%）；在软件工程（SWE Agent）任务中，冗余操作步数减少了 24.6%。此外，在个性化任务中实现了 99.6% 的偏好捕捉率。\n\n研究结果表明，这种非侵入式的参数化优化方法具有极强的鲁棒性与跨模型迁移性，在实现高性能增强的同时有效避免了灾难性遗忘，为闭源大模型的受控优化提供了可解释的低成本路径。",
          "cover_url": "assets/covers/a171-advisor-models-black-box-steering-2392885bd9.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-16T09:44:07+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL46_Dita_Generalist_VLA",
      "slug": "rl46-dita-generalist-vla",
      "detail_url": "papers/rl46-dita-generalist-vla/",
      "title": "Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy",
      "summary": "这篇 ICCV 2025 论文把 Diffusion Transformer 扩展到通用 VLA policy，关注视觉、语言和动作之间的统一策略生成。它不是局部控制技巧，而是面向 generalist robot policy 的架构扩展。\n\n方法价值在于把扩散式动作生成和 transformer scaling 结合起来，用于处理多任务、多模态条件下的动作序列。对 VLA pipeline、机器人策略预训练和泛化操作都有直接参考意义。\n\n按本库标准，它属于机器人基础模型方向的正式收录项，因为贡献形态是可复用 policy architecture，而不是单个机器人任务胜率。\n\n局限是 diffusion policy 在实时控制、长程规划和真实世界鲁棒性上仍有成本与稳定性问题；generalist 规模化效果也需继续观察。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2025-10-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 73,
      "source_url": "https://openaccess.thecvf.com/content/ICCV2025/papers/Hou_Dita_Scaling_Diffusion_Transformer_for_Generalist_Vision-Language-Action_Policy_ICCV_2025_paper.pdf",
      "paper_url": "https://openaccess.thecvf.com/content/ICCV2025/papers/Hou_Dita_Scaling_Diffusion_Transformer_for_Generalist_Vision-Language-Action_Policy_ICCV_2025_paper.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL45_Embodied_VideoAgent_Memory",
      "slug": "rl45-embodied-videoagent-memory",
      "detail_url": "papers/rl45-embodied-videoagent-memory/",
      "title": "Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding",
      "summary": "这篇 ICCV 2025 论文把第一视角视频和具身传感器转化为可持续更新的场景记忆，用于动态场景理解。它针对的是 embodied agent 在真实环境中持续观察、记住和理解变化的能力。\n\n它的系统价值在于 persistent memory：agent 不应把每段视频当孤立输入，而需要维护跨时间的场景状态、物体位置、事件变化和传感线索。这与长期机器人导航、辅助操作和现场问答直接相关。\n\n按本库标准，它位于机器人/agent memory 的交叉点，贡献不只是视觉识别，而是具身记忆架构和动态场景理解流程，因此正式收录。\n\n局限是记忆可靠性、误差累积、传感器缺失和开放世界更新仍是难点；它还不是完整自主机器人操作系统。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2025-10-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 72,
      "source_url": "https://openaccess.thecvf.com/content/ICCV2025/papers/Fan_Embodied_VideoAgent_Persistent_Memory_from_Egocentric_Videos_and_Embodied_Sensors_ICCV_2025_paper.pdf",
      "paper_url": "https://openaccess.thecvf.com/content/ICCV2025/papers/Fan_Embodied_VideoAgent_Persistent_Memory_from_Egocentric_Videos_and_Embodied_Sensors_ICCV_2025_paper.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL43_Moto_Latent_Motion_Token",
      "slug": "rl43-moto-latent-motion-token",
      "detail_url": "papers/rl43-moto-latent-motion-token/",
      "title": "Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos",
      "summary": "这篇 ICCV 2025 论文关注一个核心具身智能问题：如何把普通视频里的动作经验转化为机器人可学习、可迁移的操作表示。它不是只做视觉识别，而是把视频动作压缩成 latent motion token，作为视频、语言和机器人控制之间的桥接语言。\n\n方法价值在于把动作学习的中间层显式化：motion token 既能从视频中抽取，又能服务于后续策略学习，减少了直接从像素到动作映射时的跨域鸿沟。对于利用互联网视频或人类演示扩展机器人技能库，这种表示接口有复用价值。\n\n按本库标准，它值得收录在机器人/具身智能方向，因为贡献不是单一 benchmark 提升，而是提出了一个视频到操作技能迁移的可复用表征 primitive。它与 VLA、机器人 imitation learning、技能库构建都有交叉价值。\n\n局限是系统仍依赖训练数据覆盖和 token 学到的动作抽象质量；在复杂接触、长程任务和多机器人形态上的泛化仍需要继续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2025-10-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 71,
      "source_url": "https://openaccess.thecvf.com/content/ICCV2025/papers/Chen_Moto_Latent_Motion_Token_as_the_Bridging_Language_for_Learning_ICCV_2025_paper.pdf",
      "paper_url": "https://openaccess.thecvf.com/content/ICCV2025/papers/Chen_Moto_Latent_Motion_Token_as_the_Bridging_Language_for_Learning_ICCV_2025_paper.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "把视频压缩为128个离散Token，Moto让机器人看视频自学做家务",
          "url": "https://www.bilibili.com/video/BV1TPLv6HE6X",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1TPLv6HE6X",
            "https://youtu.be/_W4wsZfhHIU"
          ],
          "main_collection": "机器人与具身智能",
          "match": "moto latent motion token as the bridging language for learning robot manipulation from videos",
          "description": "在具身智能与机器人操作领域，传统视觉-语言-动作（VLA）模型高度绑定特定硬件，且极其依赖高成本的真实物理动作数据。为此，研究团队推出Moto框架。该系统首先利用潜在运动分词器将视频帧间动态转化为128个离散运动标记，剔除背景等视觉冗余；随后通过Moto-GPT进行自回归预训练，在脑海中预演并学习物理常识；最后通过联合微调将抽象运动预测转化为机器人精确控制指令。实验证明，该方法在多个操作基准上显著提升了任务成功率和泛化能力，实现了无监督看视频自学，大幅降低了硬件数据获取门槛。",
          "x_post": "研究团队推出Moto框架，通过将连续视频帧动态压缩至128个离散Token实现机器人无监督自学\n传统的机器人视觉-语言-动作（VLA）模型高度依赖昂贵的物理动作数据，且与特定硬件紧密绑定，泛化性受限。\nMoto引入“潜在运动标记”作为桥接语言，利用Bi-Frame VQ-VAE架构过滤视频中的背景等视觉冗余，将动作提纯为128个离散运动语义。\n随后，Moto-GPT通过自回归预训练从海量无标注视频中预测Token以学习物理常识，最终经联合微调（Co-fine-tuning）输出精准的机械臂控制指令。\n实验证实该框架在多个操作基准上显著提升了成功率和泛化能力。目前该方案仍主要依赖高质量的视频运动源进行先验建模。",
          "cover_url": "assets/covers/rl43-moto-latent-motion-token-03afc817d1.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-20T18:12:25+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "T27_ASGuard_Jailbreak",
      "slug": "t27-asguard-jailbreak",
      "detail_url": "papers/t27-asguard-jailbreak/",
      "title": "ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack",
      "summary": "问题与背景：安全对齐模型会因简单语言变化暴露拒绝泛化缺陷，例如 harmful request 改成过去时后绕过拒绝。\n\n方法与新意：ASGuard 先用 circuit analysis 定位与 targeted jailbreak 相关的 attention heads，再学习 channel-wise scaling vector 重新校准脆弱 head，并把该机制并入 preventative fine-tuning。\n\n收录意义：这篇值得进入 safety/core ML，因为它不是 prompt patch，而是把 jailbreak 防御连接到可解释电路定位和激活缩放干预，提供了较可复用的 mechanistic guardrail 思路。\n\n局限：方法针对 targeted linguistic jailbreak，防御覆盖面和对 adaptive attacker 的鲁棒性仍需扩展；因此按 breakthrough 收录。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2025-09-30",
      "doi": "",
      "arxiv_id": "2509.25843",
      "collected_at": "",
      "collection_order": 70,
      "source_url": "https://arxiv.org/pdf/2509.25843.pdf",
      "paper_url": "https://arxiv.org/pdf/2509.25843.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "X4_Newton_Physics_Engine",
      "slug": "x4-newton-physics-engine",
      "detail_url": "papers/x4-newton-physics-engine/",
      "title": "Newton Physics Engine",
      "summary": "Newton 不是普通产品新闻，而是一个面向 generalist robotics 的底层仿真基础设施项目。它由 NVIDIA、Google DeepMind 和 Disney Research 共同开发，并由 Linux Foundation 托管，目标不是做单一求解器，而是提供一个统一、开放、可扩展的机器人物理仿真底座。对 physical AI 来说，这类基础设施会直接影响训练数据生成、sim-to-real、系统辨识和策略优化的上限。\n\n从技术定位看，Newton 建立在 NVIDIA Warp 和 OpenUSD 之上，强调 GPU 加速、可插拔求解器、与 MuJoCo Playground / Isaac Lab 的兼容，以及 differentiable physics。它的意义不在于‘又一个 physics engine’，而在于把 differentiable simulation、OpenUSD 资产管线、机器人学习框架兼容性和开放治理绑定到同一个平台里。\n\n这类条目值得入库，但不应当被误当作正式论文。它更适合作为 project appendix：一方面，它会深刻影响机器人学习与 physical AI 的后续工作流；另一方面，它当前的核心价值仍主要体现在基础设施、生态接口和产业协作，而不是一篇自足的研究论文贡献。\n\n因此这里给 `project` 而不是 `breakthrough`。如果后续 Newton 自身产生了足够强、可独立引用的方法论文或 benchmark 论文，再分别按正式论文标准处理会更合理。",
      "grade": "project",
      "grade_label": "项目",
      "theme": "projects_and_appendices",
      "theme_label": "Projects And Appendices",
      "published_at": "2025-09-29",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 69,
      "source_url": "https://developer.nvidia.com/newton-physics",
      "paper_url": "https://developer.nvidia.com/newton-physics",
      "project_urls": [
        "https://developer.nvidia.com/newton-physics"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MED1_SoC_DT_Tumor_Dynamics",
      "slug": "med1-soc-dt-tumor-dynamics",
      "detail_url": "papers/med1-soc-dt-tumor-dynamics/",
      "title": "SoC-DT: Standard-of-Care Aligned Digital Twins for Patient-Specific Tumor Dynamics",
      "summary": "这篇论文面向肿瘤动力学预测，关注在真实标准治疗流程下如何构建患者特异性的数字孪生。相比只做自然生长模拟的反应扩散模型，它把手术、放疗、化疗等标准治疗干预和基因组、人口统计学信息统一纳入一个可微分框架，用于预测治疗后的肿瘤结构演化。\n\n方法上，论文提出 SoC-DT，把连续的肿瘤生长动力学与离散的标准治疗事件统一到一个 differentiable pipeline 中，并引入 IMEX-SoC 求解器保证稳定性和正性。它不是简单把 PINN 套到单一 PDE 上，而是在数字孪生框架中同时处理个体化参数、治疗时序和成像预测。\n\n这篇适合放在 AI for medicine / digital twins 主线。价值在于它把肿瘤动力学建模从静态拟合推进到面向真实治疗流程的患者特异性模拟，对肿瘤治疗规划和医学数字孪生路线都有外溢意义。\n\n它还不到更高一级，因为目前主要是肿瘤动力学这一特定应用场景内的方法推进，影响面没有扩展到更广泛的基础模型或通用科学系统路线。证据虽然扎实，但更像高质量领域方法论文而不是范式级工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "math_and_formal_reasoning",
      "theme_label": "数学与形式推理",
      "published_at": "2025-09-29",
      "doi": "",
      "arxiv_id": "2510.03287",
      "collected_at": "",
      "collection_order": 68,
      "source_url": "https://arxiv.org/abs/2510.03287",
      "paper_url": "https://arxiv.org/abs/2510.03287",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "石溪大学联合哥伦比亚大学实现肿瘤精准推演，将手术放疗转化为数学方程，发布 SoC-DT 框架",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "soc dt standard of care aligned digital twins for patient specific tumor dynamics",
          "description": "石溪大学与哥伦比亚大学的研究团队针对癌症治疗中个体差异大的难题，开发了SoC-DT数字孪生框架。该方法将描述肿瘤生长的偏微分方程与手术、化疗及放疗等临床干预措施深度整合，并结合患者基因与人口统计数据。通过创新的IMEX-SoC数值求解器，系统能将复杂的治疗断点转化为稳定的数学模型。实验证明，该模型在预测神经胶质瘤的演变结构和病程进展时间方面，表现优于传统数学模型及纯数据驱动AI。这一成果为临床提供了具备可解释性的个性化决策工具，有助于优化治疗规划，使肿瘤演变过程可预见、可量化。",
          "x_post": "石溪大学与哥伦比亚大学发布 SoC-DT 框架，实现肿瘤动力学数字孪生精准模拟\n针对癌症治疗中个体差异与临床干预导致的不连续演化难题，研究团队开发了 Standard-of-Care Digital Twin (SoC-DT) 框架。该系统将反应-扩散偏微分方程与手术切除、放射治疗及化学治疗等标准疗法深度耦合，并整合患者专属的 IDH1/MGMT 等基因标记进行动态参数调控。\n技术核心采用了 IMEX-SoC 数值求解器，有效解决了高分辨率 3D 影像在处理手术等离散突变事件时的数值稳定性难题。实验结果表明，该模型在预测神经胶质瘤的空间形态与疾病进展时间方面，表现优于传统数学模型及纯数据驱动的人工智能方法。\n这一成果为肿瘤学提供了具备强可解释性的个性化决策推演工具，使临床治疗规划从群体统计向量化模拟转变。",
          "cover_url": "assets/covers/med1-soc-dt-tumor-dynamics-164838c033.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-19T20:10:45+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A303_ReasoningBank_Agent_Memory",
      "slug": "a303-reasoningbank-agent-memory",
      "detail_url": "papers/a303-reasoningbank-agent-memory/",
      "title": "ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory",
      "summary": "ReasoningBank 解决长期运行 agent 的核心缺陷：完成任务后丢弃交互历史，导致无法从成功和失败中积累可迁移策略。\n\n系统把经验压缩成 generalizable reasoning memories，在测试时检索相关记忆指导行动，并在任务结束后写回新经验；MaTTS 进一步用更多交互生成更丰富对比信号来提升记忆质量。\n\n它值得正式收录，因为它把 agent memory 从保存原始轨迹或成功案例，推进到策略级经验蒸馏与 test-time scaling 的闭环，是 self-evolving agents 的基础方法。\n\n它没有更高，是因为实验主要集中在 WebArena 和 SWE-Bench-Verified 等软件/网页任务，真实长期部署中的污染、遗忘、权限和安全边界仍需验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-09-29",
      "doi": "",
      "arxiv_id": "2509.25140",
      "collected_at": "",
      "collection_order": 67,
      "source_url": "https://arxiv.org/pdf/2509.25140.pdf",
      "paper_url": "https://arxiv.org/pdf/2509.25140.pdf",
      "project_urls": [
        "https://research.google/blog/reasoningbank-enabling-agents-to-learn-from-experience/"
      ],
      "repo_urls": [
        "https://github.com/google-research/reasoning-bank"
      ],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW10_Photonics_Aware_PIC_Routing",
      "slug": "hw10-photonics-aware-pic-routing",
      "detail_url": "papers/hw10-photonics-aware-pic-routing/",
      "title": "Photonics-Aware Planning-Guided Automated Electrical Routing for Large-Scale Active Photonic Integrated Circuits",
      "summary": "随着 AI 训练、推理和高性能科学计算对带宽、能耗与延迟的要求同时提高，主动光子集成电路正在从单点器件走向大规模系统。但一旦器件数量和异构程度上来，依赖人工脚本和局部修补的物理实现流程就会迅速失效，电子-光子联合设计自动化因此成为真实瓶颈。\n\n这篇论文提出了一个面向 large-scale active PIC 的端到端 routing flow，联合处理光波导与片上金属互连。核心不是把现有数字或模拟 router 生搬硬套，而是引入物理约束感知的全局规划、序列一致的轨道分配，以及带软引导的详细布线，使 routing 过程能显式处理 photonic component 与 waveguide 带来的特殊约束。\n\n它的重要性在于，这是非常少见真正命中产品级 physical design automation 的 AI 硬件论文。对本仓库而言，它不是普通 photonics 结果，而是一个可复用的 EPDA workflow pattern，说明 AI 相关硬件设计不只在架构层，也在真实 layout/routing 层出现了 durable 方法。\n\n它仍然没有升级到更高一级，因为范围集中在 active PIC routing，而不是更广义的 MCAD/ECAD 产品设计栈；其影响目前主要落在 photonic-AI hardware 这一子方向。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2025-09-28",
      "doi": "",
      "arxiv_id": "2509.23764",
      "collected_at": "",
      "collection_order": 66,
      "source_url": "https://arxiv.org/pdf/2509.23764.pdf",
      "paper_url": "https://arxiv.org/pdf/2509.23764.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "让电子在光子丛林中精准穿行：物理感知引擎消除99%过孔，攻克光电协同瓶颈",
          "url": "https://www.bilibili.com/video/BV1HkXnBfEV1",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1HkXnBfEV1",
            "https://youtu.be/W3psxECfqno"
          ],
          "main_collection": "AI硬件设计",
          "match": "photonics aware planning guided automated electrical routing for large scale active photonic integrated circuits",
          "description": "针对大规模有源光子集成电路（PIC）设计中手工布线效率低下的痛点，本研究提出了一种物理感知的自动化电气布线框架。由于传统VLSI工具无法处理光电物理交互及极稀疏的金属层约束，该框架通过全局规划器将光子器件建模为“柔性暗礁”，在多维空间预演中规避拓扑交叉。实验结果显示，该方法在保持高布线成功率的同时，将运行时间缩短了约17倍，并消除了99%的过孔，有效降低了光电串扰与设计违规。该成果为建立实用的光电协同设计自动化（EPDA）系统奠定了重要基础。",
          "x_post": "ASU、NVIDIA、RPI及Cadence团队发布有源光子芯片全自动布线框架，实现17倍提速与99%过孔消除\n\n针对AI算力时代光电集成电路（PIC）手动布线效率极低、传统VLSI工具不兼容物理约束等痛点，研究团队开发了首个物理感知的端到端全自动电气布线流程。\n该框架核心引入了物理感知的全局规划器，通过将光子器件建模为带有物理惩罚成本的“柔性暗礁”，在多维空间预演中有效规避拓扑交叉并管理布线拥塞。\n实验验证显示，该方法在保持高布线成功率的同时，将设计运行时间缩短了约17倍，并消除了99%的过孔，显著降低了光电串扰与设计规则违规（DRV）。\n该研究解决了极稀疏金属层资源下的光电协同布线难题，为建立实用的大规模电子-光子设计自动化（EPDA）系统奠定了重要基础。",
          "cover_url": "assets/covers/hw10-photonics-aware-pic-routing-0b43c55e99.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T20:21:14+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MAR1_Sentinel3_Ocean_Colour_FM",
      "slug": "mar1-sentinel3-ocean-colour-fm",
      "detail_url": "papers/mar1-sentinel3-ocean-colour-fm/",
      "title": "A Sentinel-3 foundation model for ocean colour",
      "summary": "海洋与近岸环境监测一直受限于高质量标注稀缺、传感器异质和场景变化大。相比陆地遥感，ocean colour 这类任务更难建立通用 backbone，因此很多模型仍停留在特定下游任务或小数据集拟合层面。作者直接把问题提升为 marine earth observation foundation model，试图为海洋监测建立可迁移的底座。\n\n这篇论文基于 Prithvi-EO Vision Transformer，为 Sentinel-3 OLCI 数据预训练一个 ocean-colour foundation model，并在 chlorophyll quantification 与 primary production refinement 两个下游任务上验证。其核心价值不只是性能，而是证明 marine monitoring 也可以走 foundation-model 路线：用海量无标注遥感数据学表征，再在少量高质量标签上完成迁移。摘要还强调模型能更好捕捉 ocean colour 的空间结构，并与点位观测匹配。\n\n这项工作值得正式收录，因为它给 marine / coastal monitoring 提供了一个真正可复用的 foundation-model interface，而不是一次性的下游模型。对仓库来说，这类条目有明显扩展意义：它把 AI 对海洋系统的赋能从单点预测推进到更 durable 的 representation infrastructure，对后续海洋生态、渔业和气候过程监测都有基础价值。\n\n它暂时还不到更高一级，原因是当前验证仍集中在两个典型 ocean-colour downstream tasks，离更广海洋系统、更多传感器和更复杂 operational decision workflows 还有距离。它是一篇强基础设施论文，但还不是海洋 AI 范式重排级条目。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "marine_fisheries_and_coastal_systems",
      "theme_label": "海洋、渔业与海岸系统",
      "published_at": "2025-09-25",
      "doi": "",
      "arxiv_id": "2509.21273",
      "collected_at": "",
      "collection_order": 65,
      "source_url": "https://arxiv.org/pdf/2509.21273.pdf",
      "paper_url": "https://arxiv.org/pdf/2509.21273.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "C4_CRESt",
      "slug": "c4-crest",
      "detail_url": "papers/c4-crest/",
      "title": "A multimodal robotic platform for multi-element electrocatalyst discovery",
      "summary": "- 分级：`颠覆性`\n- 正式标题：`A multimodal robotic platform for multi-element electrocatalyst discovery`\n- 原文：`2025-09-23-C4_CRESt-A_multimodal_robotic_platform_for_multi_element_electrocatalyst_discovery.html`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文真正做成的不是“AI 帮实验室提建议”，而是一个面向真实材料发现的多模态自治平台。作者提出 CRESt，把化学组成、文本知识、显微图像、机器人实验流程和知识辅助贝叶斯优化连接起来，用一个统一系统去做搜索空间缩减、实验规划、材料合成、性能测试和异常诊断。\n\n论文里最硬的证据是实际闭环实验结果。CRESt 在甲酸电氧化任务中，三个月内探索了 900 多种催化剂化学组合，执行了 3,500 多次电化学测试，并在八元化学空间中找到一个成本性能提升 9.3 倍的最优催化剂。更关键的是，它不是只跑自动化脚本，而是通过视觉-语言模型驱动的假设生成与故障诊断来处理真实实验中的偏差和异常。\n\n## 为什么重要\n\n这代表“自动化实验室”向“自治实验室”迈了一步。它把机器人执行、贝叶斯优化和多模态大模型真正绑进了一个可运行的材料发现流程，对 AI for science 的平台化意义很强。\n\n## 局限\n\n正式发表时间是 `2025-09-23`，属于窗口外高影响参考。当前环境下期刊 PDF 没稳定拿到，因此目录里保留的是可用的正文 HTML；另外，这类系统迁移到不同化学任务和实验设备时，鲁棒性仍然是核心挑战。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-09-23",
      "doi": "10.1038/s41586-025-09640-5",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 64,
      "source_url": "https://www.nature.com/articles/s41586-025-09640-5",
      "paper_url": "https://www.nature.com/articles/s41586-025-09640-5",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "赋予机器人阅读与观察力：CRESt系统攻克材料维度迷局，让八元合金研发实现阶梯式跃迁",
          "url": "https://www.bilibili.com/video/BV1PTwTzUEzN",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1PTwTzUEzN",
            "https://youtu.be/A84SodbOLDQ"
          ],
          "main_collection": "AI化学与材料",
          "match": "a multimodal robotic platform for multi element electrocatalyst discovery",
          "description": "针对高维化学空间探索效率低和实验误差难以复现的痛点，该研究提出CRESt多模态机器人平台。系统集成大语言模型、视觉模型与贝叶斯优化算法，实现文献挖掘、微观图像特征提取与物理实验闭环。在甲酸氧化反应催化剂研发中，CRESt在三个月内完成3500次测试，成功筛选出性能优异的八元合金。相比传统方法，其寻优轮次缩减75%，且发现的新材料成本效益提升9.3倍。该成果证明了人工智能在复杂材料科学领域的自动化实证能力。",
          "x_post": "CRESt多模态机器人发现平台：实现八元合金催化剂高效筛选，成本效益提升9.3倍\n针对高维化学空间探索效率低与实验复现难等挑战，该研究提出集成LLMs、VLMs与机器人的CRESt闭环系统。\n核心采用KABO知识辅助贝叶斯优化算法，通过融合文献知识与SEM微观结构图像特征，显著提升搜索效率。\n在甲酸氧化反应实验中，系统于3个月内完成3500次测试，寻优轮次较传统方法缩减75%。\n最终筛选出的八元合金催化剂成本效益比纯钯提升9.3倍，并实现了对微米级移液偏移等实验误差的自动诊断。\n该工作证明了多模态人工智能在复杂材料科学领域的自动化实证能力与高通量研发潜力。",
          "cover_url": "assets/covers/c4-crest-d2a600c603.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-14T20:06:52+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL2_PRIMT_Multimodal_Feedback",
      "slug": "rl2-primt-multimodal-feedback",
      "detail_url": "papers/rl2-primt-multimodal-feedback/",
      "title": "PRIMT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Synthesis from Foundation Models",
      "summary": "## 问题与背景\n问题与背景：偏好强化学习在机器人里很有潜力，但长期受制于人类反馈成本高、早期轨迹难比较、credit assignment 弱等问题。尤其在复杂操作和 locomotion 任务里，单一模态反馈常常不稳定。\n\n## 方法/新意\n方法/新意：PRIMT 利用 foundation models 生成 multimodal synthetic feedback，并结合 foresight / hindsight trajectory synthesis 改善查询歧义和 credit assignment。它不是只换奖励模型，而是把偏好学习的数据构造和反馈源都做了升级。\n\n## 意义/放在仓库中的位置\n意义/放在仓库中的位置：它适合放在 agentic RL / robotics 主线，代表“用 foundation models 教机器人偏好学习”的路线。和 KARL、MOSAIC、WoVR 这类条目一起看，会很清楚地看到 agent training 正从纯人工标注走向合成反馈。\n\n## 局限/为何不更高\n局限/为何不更高：它是很扎实的 RL/robotics 方法论文，但仍属于赛道内改进，不是重排整条智能体训练范式的工作，因此先归为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2025-09-19",
      "doi": "",
      "arxiv_id": "2509.15607",
      "collected_at": "",
      "collection_order": 63,
      "source_url": "https://arxiv.org/abs/2509.15607",
      "paper_url": "https://arxiv.org/abs/2509.15607",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N45_MultiMAE_Brain_MRIs",
      "slug": "n45-multimae-brain-mris",
      "detail_url": "papers/n45-multimae-brain-mris/",
      "title": "MultiMAE for Brain MRIs: Robustness to Missing Inputs Using Multi-Modal Masked Autoencoder",
      "summary": "这篇论文处理的是脑 MRI 中最实际也最顽固的问题之一：不同中心、不同病人、不同临床流程下，输入序列经常缺失，导致依赖完整多序列输入的模型在真实环境中迅速退化。作者把问题从“给定完整输入如何做得更好”转成“在缺失输入是常态时如何预训练出稳健表征”。\n\n方法上，论文把 MultiMAE 思路改造成 3D 脑 MRI 场景下的多模态 masked autoencoder：把不同 MRI 序列当作独立模态输入，用 late-fusion Transformer 编码，再用分流解码器对各模态做重建。核心新意不是简单多序列融合，而是把“跨序列推断缺失信息”的能力直接写进预训练目标，让编码器学会在序列不齐时仍维持有用表征。\n\n它在仓库里的价值主要是脑影像 foundation model 路线的补强项。和 BrainIAC、Prima 这类更大、更临床的平台型系统相比，这篇更聚焦在“缺模态鲁棒性”这一现实瓶颈，但方法可迁移到其他多模态医学影像任务，因此仍值得正式收录。\n\n我把它放在“突破性”。原因是它在脑 MRI 子方向上很实用，也有清晰方法贡献，但影响范围仍偏向特定模态鲁棒性问题，还不足以上升到会重排脑影像基础模型路线的更高等级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-09-14",
      "doi": "",
      "arxiv_id": "2509.11442",
      "collected_at": "",
      "collection_order": 62,
      "source_url": "https://arxiv.org/abs/2509.11442",
      "paper_url": "https://arxiv.org/abs/2509.11442",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO16_MuProtein_Protein_Engineering",
      "slug": "bio16-muprotein-protein-engineering",
      "detail_url": "papers/bio16-muprotein-protein-engineering/",
      "title": "Accelerating protein engineering with fitness landscape modelling and reinforcement learning",
      "summary": "蛋白工程的核心瓶颈一直是实验搜索空间过大：单点突变还能穷举，多位点组合一旦展开，湿实验成本和迭代速度都会迅速失控。这篇论文正面解决的是“如何把实验蛋白工程变成可持续、可加速的主动探索过程”，而不是只再做一个更准的序列打分器。\n\n论文把 fitness landscape modelling 和 reinforcement learning 结合起来，形成面向实验迭代的闭环：模型不只预测当前序列的优劣，还主动决定下一轮该探索哪里，从而在有限实验预算下更快找到高性能变体。这个 framing 的关键在于，它把 protein engineering 从静态筛选问题改写成 sequential decision-making 问题。\n\n这篇论文值得高于普通 breakthrough，因为它给出了蛋白工程中很强的可复用模式：代理模型、实验回传、策略更新和多轮探索统一在一个可迭代回路里。对 protein engineering、enzyme optimization、directed evolution 甚至更广的实验设计型 AI for science 都有明显外溢。\n\n它还没有升到 paradigm，原因是适用性和通用性仍需在更多蛋白家族、更多性质目标和更复杂实验条件下进一步证明。但作为把 RL 明确推进到实验蛋白工程闭环里的代表工作，它已经足够 disruptive。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-09-08",
      "doi": "10.1038/s42256-025-01103-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 61,
      "source_url": "https://www.nature.com/articles/s42256-025-01103-w",
      "paper_url": "https://www.nature.com/articles/s42256-025-01103-w",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "2000倍活性提升！uProtein融合强化学习与大模型，破解高阶蛋白质突变的空间诅咒",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "accelerating protein engineering with fitness landscape modelling and reinforcement learning",
          "description": "蛋白质工程面临氨基酸序列组合爆炸导致的维度诅咒，传统实验难以探索高阶突变的复杂景观。本文介绍的uProtein框架整合了预训练模型uFormer与强化学习引擎uSearch。通过创新的成对掩码机制，模型能精准捕捉蛋白质三维空间的物理约束，破解氨基酸突变间的上位效应。实验在TEM-1 β-内酰胺酶上完成了湿实验验证，成功发现活性提升2000倍的多点突变体。该研究证明了AI在处理非线性协同作用及大规模序列空间搜索中的优势，为酶优化、抗体设计及药物筛选提供了高效的计算策略。",
          "x_post": "微软、中科院及清华等团队发布 uProtein：融合强化学习与大模型实现蛋白质活性 2000 倍提升\n\n蛋白质工程长期面临序列组合爆炸导致的维度诅咒，传统实验难以有效探索高阶突变间的非线性上位效应。为此，研究团队推出 uProtein 框架，整合预训练模型 uFormer 与强化学习引擎 uSearch，旨在破解蛋白质适应度景观的搜索难题。\n\n该框架核心 uFormer 通过 3000 万条自然序列进行预训练，引入独创的成对掩码机制（PMLM），精准捕捉蛋白质三维空间的物理约束。配合基于强化学习的 uSearch 引擎，系统能够在大规模序列空间中完成多步高效搜索，准确预测复杂的多点突变组合。\n\n在 TEM-1 β-内酰胺酶的湿实验验证中，uProtein 成功筛选出活性提升 2000 倍的多点突变体，表现优于现有多种算法及自然进化序列。该研究为酶优化、抗体设计及药物抗性预测提供了高效的计算策略，相关成果已发表于 Nature Machine Intelligence。",
          "cover_url": "assets/covers/bio16-muprotein-protein-engineering-2e0eea9e69.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-24T03:54:28+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "P2_Turbulence_Closure",
      "slug": "p2-turbulence-closure",
      "detail_url": "papers/p2-turbulence-closure/",
      "title": "An Analytical and AI-discovered Stable, Accurate, and Generalizable Subgrid-scale Closure for Geophysical Turbulence",
      "summary": "- 分级：`突破性`\n- 正式标题：`An Analytical and AI-discovered Stable, Accurate, and Generalizable Subgrid-scale Closure for Geophysical Turbulence`\n- 原文：`2025-09-05-P2_Turbulence_Closure-An_Analytical_and_AI_discovered_Stable_Accurate_and_Generalizable_Subgrid_scale.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇工作瞄准一个非常硬核的物理问题：如何为地球物理湍流的大涡模拟找到既稳定、又准确、还能泛化的亚格点闭合。作者把 AI 与流体物理结合，从小规模 DNS 数据中发现了一个闭式解析 closure，并证明其不仅能在 LES 中稳定运行，还能重现实验统计量，包含极端事件统计。\n\n论文特别强调，该闭合可由四阶截断 Taylor 展开推导出来，而过去分析和 AI 方法通常只能找到二阶项，导致 LES 不稳定。这个结果的价值在于，它不是纯黑箱替代，而是把“可解释方程发现”真正推向了可部署的数值建模。\n\n## 为什么重要\n\n在气候和海洋模拟里，闭合项往往决定模型能不能既算得动又算得准。能把稳定性、精度和可解释性同时做到，是 AI for physics 里少见的高质量路线。\n\n## 局限\n\n泛化性仍需按维度拆开看：跨雷诺数、跨边界条件、跨强迫谱，未必会同样稳。对真实地球系统的外推还需要更长链条验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-09-05",
      "doi": "",
      "arxiv_id": "2509.20365",
      "collected_at": "",
      "collection_order": 60,
      "source_url": "https://arxiv.org/pdf/2509.20365.pdf",
      "paper_url": "https://arxiv.org/pdf/2509.20365.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL34_GWM_Gaussian_World_Model",
      "slug": "rl34-gwm-gaussian-world-model",
      "detail_url": "papers/rl34-gwm-gaussian-world-model/",
      "title": "GWM: Towards Scalable Gaussian World Models for Robotic Manipulation",
      "summary": "机器人政策训练越来越依赖 learned world model 来降低真实交互成本，但传统 image-based world model 缺少稳定的三维几何表示，很难在机器人操作场景里同时保持空间一致性、物理合理性和可扩展的数据利用效率。这限制了它们作为训练基础设施的上限。\n\nGWM 的核心思路是把机器人未来状态建模为受动作驱动的 Gaussian primitive 演化，并用 latent diffusion transformer 加 3D VAE 来做 scene-level future reconstruction。这样得到的 Gaussian World Model 既可以通过自监督未来预测增强 imitation learning agent 的视觉表征，也可以直接作为 neural simulator 支持 model-based reinforcement learning。论文报告其在模拟和真实环境中都能较准确预测动作条件下的未来场景，并训练出优于先前方法的策略。\n\n它值得正式收录，因为它不是把 3D 表示机械地塞进 world model，而是明确提出一条可扩展的 Gaussian world-model 分支，把 3D scene representation、future prediction 和 robot policy learning 接到了一起。这对 embodied world model 和 robot data scaling 都有明显方法外溢。\n\n它暂时不升到更高一级，原因在于这仍是机器人 world model 子方向内的强方法工作；虽然方向很对，但还需要更多跨任务、跨机器人和更长期的 adopted evidence 来确认它是否会成为默认技术路线。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2025-08-25",
      "doi": "",
      "arxiv_id": "2508.17600",
      "collected_at": "",
      "collection_order": 59,
      "source_url": "https://arxiv.org/pdf/2508.17600.pdf",
      "paper_url": "https://arxiv.org/pdf/2508.17600.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P3_GRACE",
      "slug": "p3-grace",
      "detail_url": "papers/p3-grace/",
      "title": "Graph atomic cluster expansion for foundational machine learning interatomic potentials",
      "summary": "- 分级：`突破性`\n- 正式标题：`Graph atomic cluster expansion for foundational machine learning interatomic potentials`\n- 原文：`2025-08-25-P3_GRACE-Graph_atomic_cluster_expansion_for_foundational_machine_learning_interatomic_pot.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\nGRACE 关注的是材料模拟的底层基础设施问题：如何构建一个既足够通用、又足够高效的基础型原子间势。作者提出基于 graph atomic cluster expansion 的统一框架，并在大规模材料数据上训练，声称在基础型 interatomic potentials 里建立了新的 accuracy-efficiency Pareto front。\n\n论文还强调一个很重要的工程特征：模型不仅能做通用底座，还能通过 fine-tuning 和蒸馏适应更专门的任务，同时避免灾难性遗忘。换句话说，它试图把“材料基础模型”从一次性大模型，变成可继续扩展的层级化平台。\n\n## 为什么重要\n\n原子势一旦更通用、更稳，就会直接影响结构筛选、相变、扩散、缺陷和界面模拟等大量下游科学工作流。它的外溢范围很大。\n\n## 局限\n\n这类模型最怕在 OOD 化学环境和关键反应路径上突然崩掉。真正高风险应用里，仍然需要从头算或实验进行抽检校正。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2025-08-25",
      "doi": "",
      "arxiv_id": "2508.17936",
      "collected_at": "",
      "collection_order": 58,
      "source_url": "https://arxiv.org/pdf/2508.17936.pdf",
      "paper_url": "https://arxiv.org/pdf/2508.17936.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "破解元素周期表算力枷锁：GRACE突破高维灾难，重构全元素通用原子模拟底座",
          "url": "https://www.bilibili.com/video/BV1XSw7zfE8E",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1XSw7zfE8E",
            "https://youtu.be/nnDjkcn8z28"
          ],
          "main_collection": "AI化学与材料",
          "match": "graph atomic cluster expansion for foundational machine learning interatomic potentials",
          "description": "本文探讨了材料模拟中全元素通用原子势的构建难题，特别是传统模型在面对周期表上亿级化学组合时的“高维灾难”。研究提出图原子簇展开（GRACE）框架，通过数学完备的树状图架构取代经验性消息传递。模型基于OMat24数据集，涵盖89种元素与1.1亿个构型，在保持线性扩展效率的同时，于MatBench Discovery测试中确立了新的精度-速度帕累托前沿。实验证明，该模型在热导率、弹性模量及晶界能等核心指标上达到领域最低误差。GRACE支持模型蒸馏与微调，并能与LAMMPS集成，为处理非平衡态微观缺陷及大规模分子动力学模拟提供了高保真底座。",
          "x_post": "波鸿鲁尔大学RUB发布GRACE框架：基于1.1亿构型实现全周期表原子模拟精度突破\n面对全周期表通用势函数参数化中10^8量级的维度灾难，传统机器学习原子势（MLIPs）难以在复杂化学空间中兼顾计算效率。GRACE（图原子簇展开）通过数学完备的树状图架构取代经验性消息传递，并基于OMat24数据集覆盖了89种元素。\n实验数据表明，GRACE在MatBench Discovery测试中F1分数达0.890，热导率预测误差SRME低至0.168，并在晶界能预测（<5 meV/A²）上表现出显著的鲁棒性。该研究在保持线性扩展效率的同时，确立了新的精度-速度帕累托前沿。目前该模型已支持与LAMMPS集成，为大规模非平衡态微观缺陷模拟提供了高保真原子间势底座。",
          "cover_url": "assets/covers/p3-grace-862d4d9569.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-16T18:37:59+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A40_Memento_Agent_Memory",
      "slug": "a40-memento-agent-memory",
      "detail_url": "papers/a40-memento-agent-memory/",
      "title": "Memento: Fine-tuning LLM Agents without Fine-tuning LLMs",
      "summary": "这篇论文处理的是 agent 适应性的一个实际瓶颈：当任务变化很快、环境很开放时，仅靠微调大模型本身既昂贵又慢，而单纯提示词又难以持续积累经验。作者提出一个替代方向：不去 fine-tune LLM 参数，而是通过记忆与上下文机制让 agent 在交互中持续改善。\n\nMemento 的核心不是更强的模型，而是一个 memory-augmented MDP 视角，把 agent 过去的轨迹转成可检索、可更新、可决策消费的长期记忆，从而在不改动底层 LLM 参数的情况下提升行为质量。它的价值在于给 agent continual improvement 提供了一条与参数训练解耦的路线，这与当前越来越重视 memory systems 的 agent 研究方向高度一致。\n\n这项工作值得收录，因为它直接回答了“如何在不 fine-tune LLM 的前提下持续优化 agent”这个关键问题。相比普通 memory trick，这篇的 framing 更完整，也更接近可复用训练/部署范式，因此值得作为 agent memory 主线里的正式条目保留。\n\n它还不到更高一级，原因是当前提升仍主要建立在特定 benchmark 和 memory 管线设计上，距离成为 agent 系统的默认架构层还有距离。更准确的定位是一篇高质量 breakthrough。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-08-21",
      "doi": "",
      "arxiv_id": "2508.16153",
      "collected_at": "",
      "collection_order": 57,
      "source_url": "https://arxiv.org/pdf/2508.16153.pdf",
      "paper_url": "https://arxiv.org/pdf/2508.16153.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL5_Beyond_Pass1_RLVR",
      "slug": "rl5-beyond-pass1-rlvr",
      "detail_url": "papers/rl5-beyond-pass1-rlvr/",
      "title": "Beyond Pass@1: Self-play with variational problem synthesis sustains RLVR",
      "summary": "这篇论文切入的是 RLVR 在推理模型训练中的一个真实瓶颈：模型在固定问题集上很快吃完高价值学习信号，导致继续训练时收益迅速枯竭。作者提出要让 RLVR 超越单次 pass@1 优化，关键不只是继续 rollout，而是通过 self-play 与 variational problem synthesis 持续制造新的、与当前能力边界匹配的问题。\n\n方法上的核心是把 problem synthesis 与 RLVR 训练闭环绑定，让模型在训练过程中不断面对由自身能力边界诱发的新任务分布。这种做法的意义在于，它把“训练题库”从静态资源变成了动态生成对象，从而延长 RLVR 的有效训练寿命，并让 reasoning post-training 更像一个自我扩展的问题生成过程。\n\n这项工作值得收录，因为它对当前 reasoning/RLVR 路线的一个核心难题给出了很直接的解法：不是再堆更大算力，而是重构训练信号来源。对 reasoning model curriculum、self-play data generation 和 post-training sustainability 都有明确外溢价值，因此比一般推理刷榜论文更值得收录。\n\n它还不到更高一级，原因是这条路线是否能稳定推广到更多任务家族和不同模型规模，还需要更长周期的验证。现阶段更准确的定位是高位 breakthrough。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2025-08-19",
      "doi": "",
      "arxiv_id": "2508.14029",
      "collected_at": "",
      "collection_order": 56,
      "source_url": "https://arxiv.org/pdf/2508.14029.pdf",
      "paper_url": "https://arxiv.org/pdf/2508.14029.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO10_BioEmu_Protein_Ensembles",
      "slug": "bio10-bioemu-protein-ensembles",
      "detail_url": "papers/bio10-bioemu-protein-ensembles/",
      "title": "Scalable emulation of protein equilibrium ensembles with generative deep learning",
      "summary": "这篇 Science 论文处理的是蛋白质建模里一个比单结构预测更困难的问题：如何高效近似蛋白质的平衡构象分布，也就是 protein equilibrium ensembles。传统分子动力学虽然能给出动态分布，但成本极高，难以大规模覆盖；而只预测单一静态结构又不足以刻画真实功能相关的构象变化。\n\n论文提出用生成式深度学习直接模拟蛋白质平衡构象集合，把原本昂贵的分子动力学采样问题改写成可扩展的生成式近似问题。它的价值不只是再做一个结构生成模型，而是把 sequence-to-ensemble 作为核心建模对象，试图在速度和物理可用性之间建立新的折中，从而形成可大规模调用的蛋白质动力学模拟器。\n\n这项工作值得收录，因为它明显改变了蛋白质动力学研究的工作流：从长时间模拟转向快速生成式近似。对于 AI for science 尤其是生物分子建模来说，这类系统有很强的外溢性，既影响蛋白质功能理解，也可能影响药物发现、构象筛选和下游实验设计。因此它比一般蛋白生成论文更接近 workflow-changing 的条目。\n\n它还不到 paradigm，原因是平衡构象模拟的物理可信度、适用边界和跨蛋白泛化仍需要长期检验。现阶段更准确的定位是 disruptive：它显著改变了问题的实践路线，但是否成为长期主导范式，还取决于后续社区验证和广泛采用。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-08-14",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 55,
      "source_url": "https://pubmed.ncbi.nlm.nih.gov/40638710/",
      "paper_url": "https://pubmed.ncbi.nlm.nih.gov/40638710/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "突破 AlphaFold 静态瓶颈：BioEmu 提速万倍，精准捕捉蛋白大尺度开合运动",
          "url": "https://www.bilibili.com/video/BV1Y5dZBsEWw",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1Y5dZBsEWw",
            "https://youtu.be/T-adva1yVVo"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "scalable emulation of protein equilibrium ensembles with generative deep learning",
          "description": "微软研究院在蛋白质结构预测领域取得关键进展。针对 AlphaFold 仅能预测静态结构、而传统分子动力学模拟耗时过长的瓶颈，研究团队推出 BioEmu 生成式深度学习系统。该模型将 AlphaFold 的特征提取能力与扩散模型结合，并融合超过 200 毫秒的物理模拟轨迹与 50 万项实验数据进行三阶段训练。实验证明，BioEmu 在单张 GPU 上每小时可生成上万个独立结构，速度较传统方法提升 4 个数量级以上，能精准捕捉蛋白质大尺度的开合运动并预测热力学稳定性。这一突破为基因组规模的药物发现与生命机制研究提供了高效的动态采样工具。",
          "x_post": "微软研究院发布 BioEmu：利用扩散模型模拟蛋白质平衡态系综，采样速度提升超 4 个数量级\n\n尽管 AlphaFold 在静态结构预测上取得巨大成功，但蛋白质的功能本质上取决于不同构象间的动态转换，而传统分子动力学（MD）模拟面临极高的算力瓶颈。微软团队提出的 BioEmu 生成式深度学习系统，将 AlphaFold 的特征提取能力与去噪扩散模型结合，通过融合超过 200 毫秒的物理模拟轨迹与 50 万项实验数据完成训练。\n\n实验证明，BioEmu 在单张 GPU 上每小时可生成约 10,000 个独立结构，速度较传统 MD 提升 4 至 5 个数量级。该模型能精准捕捉腺苷酸激酶等蛋白的大尺度“开-合”运动，并展现出极高的热力学稳定性预测精度。这一突破为在基因组规模下理解蛋白质机制及药物发现提供了高效、可扩展的动态采样工具。",
          "cover_url": "assets/covers/bio10-bioemu-protein-ensembles-95d659981b.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-18T23:10:10+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N20_Social_Hierarchy_Circuit",
      "slug": "n20-social-hierarchy-circuit",
      "detail_url": "papers/n20-social-hierarchy-circuit/",
      "title": "Molecular and neural control of social hierarchy by a forebrain-thalamocortical circuit",
      "summary": "这篇论文研究社会等级如何在大脑回路层面被形成和维持。作者在陌生雄鼠竞争范式中，追踪了前脑—丘脑—皮层多节点回路如何塑造赢家与输家的行为状态，试图把社会等级这种复杂社会现象落到具体的分子、突触和回路机制上。\n\n核心发现是 mediodorsal thalamus 作为一个枢纽，整合 orbitofrontal cortex 与 basal forebrain 输入，并通过投射到 cACC 与 dmPFC 改变竞争表现。论文把 Trpm3 表达、突触可塑性、PV/锥体细胞活动模式和层级行为联系起来，形成从分子到回路到行为的整合解释。\n\n这篇适合放在认知科学/社会行为神经科学主线。它的价值在于把社会等级这种高层社会变量压到具体神经回路机制，并提供了很强的状态调制框架，对社会脑、行为状态和神经精神病学都有外溢意义。\n\n它没有升到更高一级，因为主要还是小鼠社会行为回路层面的高质量机制论文，影响深但外溢范围不像更高等级的基础模型或总路线论文那样广。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-08-11",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 54,
      "source_url": "https://www.cell.com/cell/fulltext/S0092-8674(25",
      "paper_url": "https://www.cell.com/cell/fulltext/S0092-8674(25)00810-4",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "哈佛大学揭开社会阶层的大脑开关：锁定MDT中央处理器，用TRPM3通道重构个体的竞争潜力",
          "url": "https://www.bilibili.com/video/BV1tpw7zEEuo",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1tpw7zEEuo",
            "https://youtu.be/XSdXDU1LORE"
          ],
          "main_collection": "认知科学与脑科学",
          "match": "molecular and neural control of social hierarchy by a forebrain thalamocortical circuit",
          "description": "本研究由哈佛大学与HHMI合作完成，旨在探讨大脑如何掌控社会竞争优势。研究团队通过Elo积分系统量化行为，发现高阶层个体的核心特征在于防御性行为的降低，而非单纯的攻击性增强。通过对25个脑区进行深度扫描与单核转录组测序，研究锁定丘脑背内侧核为社会阶层状态的中央处理器。实验证明，TRPM3离子通道的表达量直接决定神经元的兴奋性与个体的竞争胜率。进一步的环路示踪显示，来自眶额皮层的兴奋性输入与基底前脑的抑制性输入共同调节枢纽区域的活性，构成了决定社会地位的突触可塑性分水岭。该发现为理解社会等级的神经生物学基础提供了分子与环路维度的多重证据。",
          "x_post": "哈佛大学与HHMI揭示MDT神经环路及TRPM3通道对社会阶层竞争的分子调控机制\n研究通过Elo积分系统量化行为，发现高阶层个体的核心特征在于防御性行为的降低，而非单纯攻击性增强。通过对25个脑区扫描及33,582个单核转录组测序，锁定丘脑背内侧核（MDT）为社会阶层状态的中央处理器。\n实验证实，MDT中TRPM3离子通道的高表达通过驱动神经元高频放电来提升竞争胜率。使用化学遗传学激活低阶层（Rank-4）个体的MDT神经元可使其胜率显著飙升，而损毁MDT则导致群体无法建立稳定的阶层秩序。\n进一步环路解析显示，来自眶额皮层（OFC）的兴奋性输入与基底前脑（BF）的抑制性输入共同调节MDT活性。高阶层个体表现为OFC至MDT输入的显著增强，构成了决定社会地位的突触可塑性分水岭。该研究为理解社会等级的神经生物学基础提供了从分子引擎到网络架构的多重证据。",
          "cover_url": "assets/covers/n20-social-hierarchy-circuit-b984dbdc4d.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-16T18:26:06+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "S2_Virtual_Lab_Nanobodies",
      "slug": "s2-virtual-lab-nanobodies",
      "detail_url": "papers/s2-virtual-lab-nanobodies/",
      "title": "The Virtual Lab of AI agents designs new SARS-CoV-2 nanobodies",
      "summary": "这篇论文把多智能体科研系统从“写写方案、做做文献总结”的阶段推进到了真正的实验科学闭环。作者提出 Virtual Lab：由 LLM Principal Investigator 代理统筹、一组不同角色的 LLM scientist 代理协作，再由人类研究者提供高层反馈，共同完成复杂、跨学科的科研任务。目标不是生成文字结论，而是提出可执行的蛋白设计方案并走到实验验证。\n\n论文把这套系统应用到 SARS-CoV-2 新变体的 nanobody 设计上。Virtual Lab 不是直接吐出答案，而是在一系列研究会议中协调使用 ESM、AlphaFold-Multimer 和 Rosetta，构建出新的计算设计流程，并据此设计出 92 个新 nanobodies。后续实验验证显示其中一批具有有前景的结合特性，尤其有两种新 nanobodies 在保持对祖先毒株良好结合的同时，对较新的 JN.1 或 KP.3 变体表现出更优结合。\n\n这篇论文值得收录，因为它建立了一种高价值的新 scientific workflow pattern：AI agents 不再只是科研辅助工具，而是能围绕真实目标组织研究步骤、调用异构生物计算工具、提出候选并进入实验验证。和很多 agent-for-science 论文不同，这里最重要的不是 benchmark 分数，而是完整的‘agent-driven design -> wet-lab validation’闭环已经出现。对 AI for science、自动科研系统和生物设计平台，这都是强外溢信号。\n\n它没有升到更高一级，原因在于这条路线还没有广泛扩展到更多任务与实验室场景，现阶段更像一个极强的工作流样板而不是已经稳定普适的范式基础设施。另外系统仍依赖人类高层反馈，不是完全自治的科学发现平台。因此更适合定为 disruptive，而不是更高一级。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2025-07-29",
      "doi": "10.1038/s41586-025-09442-9",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 53,
      "source_url": "https://doi.org/10.1038/s41586-025-09442-9",
      "paper_url": "https://doi.org/10.1038/s41586-025-09442-9",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "给大模型注入科学家灵魂：看多智能体网络如何联动顶级算力，攻克生物医药研发难题",
          "url": "https://www.bilibili.com/video/BV1jbAKzBELQ",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1jbAKzBELQ",
            "https://youtu.be/HlATB77I9A8"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "the virtual lab of ai agents designs new sars cov 2 nanobodies",
          "description": "针对新冠病毒JN.1及KP.3等变异株带来的免疫逃逸挑战，斯坦福大学与CZ Biohub团队开发了名为Virtual Lab的AI科研协作平台。该系统通过模拟人类科研团队结构，设立了首席科学家、科学批评者等不同角色的LLM智能体，在人类PI的引导下进行多轮协作讨论与代码执行。在技术路径上，Virtual Lab自动构建了整合ESM蛋白质语言模型、AlphaFold-Multimer结构预测及Rosetta能量计算的流水线。实验结果显示，平台设计的92个纳米抗体候选者中，绝大多数表现出良好的可溶性，其中两个变体在保持原始亲和力的基础上，显著提升了对最新变异株的结合性能。该研究展示了多智能体系统在应对复杂跨学科科学问题及突发公共卫生事件中的实际应用边界与潜力。",
          "x_post": "斯坦福大学与 CZ Biohub 团队发布 Virtual Lab，利用多智能体协作设计出 2 款针对新冠 KP.3 变异株的高效纳米抗体。\n面对 JN.1 与 KP.3 变异株引发的免疫逃逸，传统抗体研发周期面临压力。研究团队构建了 Virtual Lab 平台，由人类 PI 引导多个 LLM 智能体模拟科研团队进行协作讨论与任务执行。\n系统自动整合了 ESM 蛋白质语言模型、AlphaFold-Multimer 结构预测及 Rosetta 能量计算，自主完成了从序列评估到结构锚定的设计流水线。\n实验结果显示，在设计的 92 个候选纳米抗体中，绝大多数具备良好可溶性，其中 2 个变体在保持原亲和力的同时，显著增强了对最新变异株的结合能力。\n该研究展示了 AI 智能体集群在处理复杂跨学科科学问题及应对突发公共卫生挑战中的应用边界与潜力。",
          "cover_url": "assets/covers/s2-virtual-lab-nanobodies-974a2327cb.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-21T20:44:20+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "MM54_Evaluation_Agent_Visual_Gen",
      "slug": "mm54-evaluation-agent-visual-gen",
      "detail_url": "papers/mm54-evaluation-agent-visual-gen/",
      "title": "Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models",
      "summary": "这篇 ACL 2025 论文关注视觉生成模型评估问题：固定指标很难覆盖用户想要的质量、对齐、细节一致性和任务特定要求。Evaluation Agent 把评估做成可 prompt 的 agentic framework。\n\n它的复用价值在于评测接口：用户可以指定评价维度，系统通过更结构化的检查流程评估生成结果。这比单一 CLIPScore、FID 或一次性 VLM judge 更接近可操作评估工作流。\n\n按本库标准，它属于 multimodal generation 的 durable evaluation workflow。生成模型竞争越来越依赖评估可靠性，这类 promptable evaluation agent 有明显基础设施价值。\n\n局限是 agent judge 仍会继承底座 VLM 偏差，评估一致性、抗提示操纵和与人类偏好的校准需要持续验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2025-07-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 52,
      "source_url": "https://aclanthology.org/2025.acl-long.374.pdf",
      "paper_url": "https://aclanthology.org/2025.acl-long.374.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A203_UTBoost_SWEBench_Eval",
      "slug": "a203-utboost-swebench-eval",
      "detail_url": "papers/a203-utboost-swebench-eval/",
      "title": "UTBoost: Rigorous Evaluation of Coding Agents on SWE-Bench",
      "summary": "这篇 ACL 2025 论文聚焦 SWE-Bench 上 coding agent 的严格评估问题。随着自动修复分数被大量引用，如何确认 agent 真正修好仓库而不是利用评测漏洞，已经成为软件 agent 方向的基础问题。\n\nUTBoost 的价值在于强化 unit-test 和评估严谨性，逼近真实 CI-loop 语境中的软件修复质量。这属于 coding agent evaluation 的基础设施，而不是又一个刷分 agent。\n\n按本库标准，它值得收录，因为它提供了可复用的软件工程 agent 评测校准思路，能帮助识别 benchmark gaming、脆弱测试和虚假成功。\n\n局限是 SWE-Bench 仍是有限 benchmark，真实仓库维护还涉及需求澄清、长期上下文、代码审查和部署风险。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-07-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 51,
      "source_url": "https://aclanthology.org/2025.acl-long.189.pdf",
      "paper_url": "https://aclanthology.org/2025.acl-long.189.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A200_AgentRewardBench_Multimodal_Agents",
      "slug": "a200-agentrewardbench-multimodal-agents",
      "detail_url": "papers/a200-agentrewardbench-multimodal-agents/",
      "title": "Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents",
      "summary": "这篇 ACL 2025 论文面向 agent reward modeling 的关键缺口：现实 agent 的好坏不只取决于文本答案，还涉及感知、规划、安全边界和动作过程。Agent-RewardBench 把这些维度放进统一评估框架。\n\n它的可复用价值在于定义了 multimodal agent reward model 的评测接口，能用于检验奖励模型是否真的理解任务过程、环境反馈与风险，而不只是偏好一段流畅回答。\n\n按本库标准，它属于 agent 系统评估与安全基础设施方向。随着 RL、process supervision、agent judge、computer-use agent 的发展，跨感知/规划/安全的 reward benchmark 会成为可复用参考。\n\n局限是 benchmark 本身不能保证覆盖全部真实部署风险，且 reward model 的外推能力仍取决于任务采样和标注质量。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-07-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 50,
      "source_url": "https://aclanthology.org/2025.acl-long.857.pdf",
      "paper_url": "https://aclanthology.org/2025.acl-long.857.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "S1_AlphaEvolve",
      "slug": "s1-alphaevolve",
      "detail_url": "papers/s1-alphaevolve/",
      "title": "AlphaEvolve: A coding agent for scientific and algorithmic discovery",
      "summary": "- 分级：`颠覆性`\n- 正式标题：`AlphaEvolve: A coding agent for scientific and algorithmic discovery`\n- 原文：`2025-06-17-S1_AlphaEvolve-AlphaEvolve_A_coding_agent_for_scientific_and_algorithmic_discovery.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\nAlphaEvolve 的关键突破，不是“让 LLM 写代码”，而是让 LLM 在可执行、可评测的进化闭环里持续改进算法。系统把候选程序交给评估器打分，再用进化式搜索不断保留高分变体，从而把语言模型的创造性和程序执行的确定性绑定在一起。结果是它不只会提出想法，而是能在反馈回路里发现更优算法。\n\n这篇白皮书最重要的证据来自两类场景。第一类是科学与数学：AlphaEvolve 找到了两个 4×4 复矩阵只用 48 次标量乘法的程序，并在高维组合与几何构造问题上刷新记录。第二类是现实基础设施：它为 Google 数据中心调度发现了更优启发式，为 FlashAttention 相关内核和 TPU 电路设计给出可落地优化，并报告 Borg 调度长期回收约 0.7% 的全局算力资源。\n\n## 为什么重要\n\n它把“可验证输出”变成智能复利的核心。只要程序可以被执行和打分，模型就不再只是一次性生成器，而能成为持续发现算法和优化基础设施的搜索系统。这对自动科学发现、算法设计和 AI 自我改进都很关键。\n\n## 局限\n\n当前公开载体是 DeepMind 白皮书，发布时间为 `2025-06-17`，不在你最初的三个月窗口内。它的很多结果依赖专有评估环境和 Google 内部基础设施，外部复现门槛仍然很高。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "scientific_discovery_flagships",
      "theme_label": "科学发现旗舰工作",
      "published_at": "2025-06-17",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 49,
      "source_url": "https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf",
      "paper_url": "https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf",
      "project_urls": [
        "https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "W2_WeatherNext2_FGN",
      "slug": "w2-weathernext2-fgn",
      "detail_url": "papers/w2-weathernext2-fgn/",
      "title": "Skillful joint probabilistic weather forecasting from marginals",
      "summary": "- 分级：`突破性`\n- 正式标题：`Skillful joint probabilistic weather forecasting from marginals`\n- 原文：`2025-06-12-W2_WeatherNext2_FGN-Skillful_joint_probabilistic_weather_forecasting_from_marginals.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文对应的是 WeatherNext 2 背后的关键方法论文。作者提出 FGN（Functional Generative Networks），目标是在概率天气预报中同时兼顾边缘分布训练与联合分布质量。核心思路是：通过学习到的模型扰动来生成预报集合，并用一组受约束的模型形成联合概率预测，从而避免传统集合方法和简单采样方法在多变量联合一致性上的缺陷。\n\n这篇工作的意义不只在于天气分数提升，而是在概率生成层面回答了一个更根本的问题：如果只对 marginals 施加训练目标，是否仍能得到物理上和统计上合理的 joint forecast。论文声称 FGN 在技能、可扩展性和灵活性上显著优于现有方法，使 WeatherNext 2 不再只是“更快的天气模型”，而是一个更强的概率生成框架。\n\n## 为什么重要\n\n天气预报真正难的不是单点回归，而是整片区域、多个物理量和多个未来路径的联合不确定性建模。FGN 代表的是 AI 天气模型从确定性预测走向高质量概率预报的一步，对电网、灾害预警和风险管理都更关键。\n\n## 局限\n\n这篇论文是 `2025-06-12` 的 arXiv 预印本，属于窗口外参考。其业务价值高度依赖长期运行验证，尤其是极端天气、区域泛化和与现有气象业务流程的兼容性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "weather_climate_and_earth_systems",
      "theme_label": "天气、气候与地球系统",
      "published_at": "2025-06-12",
      "doi": "",
      "arxiv_id": "2506.10772",
      "collected_at": "",
      "collection_order": 48,
      "source_url": "https://arxiv.org/pdf/2506.10772.pdf",
      "paper_url": "https://arxiv.org/pdf/2506.10772.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL47_CheckManual_Appliance_Manipulation",
      "slug": "rl47-checkmanual-appliance-manipulation",
      "detail_url": "papers/rl47-checkmanual-appliance-manipulation/",
      "title": "CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation",
      "summary": "这篇 CVPR 2025 论文提出 manual-based appliance manipulation benchmark：机器人需要阅读说明书、理解设备结构和操作步骤，再完成真实/仿真的家电操作。它把文档理解和具身操作结合到同一任务里。\n\n它的关键价值在于评估 embodied agent 如何使用外部程序性知识，而不是只依赖预训练策略记忆。说明书作为工具性知识源，能测试检索、视觉 grounding、长程规划和动作执行的完整链条。\n\n按本库标准，它进入正式收录，因为它定义了一个有复用价值的具身智能评测问题：机器人按文档完成未见设备操作。这对家庭机器人、服务机器人和工具使用 agent 都有外溢意义。\n\n局限是 benchmark 场景与真实家电多样性、接触物理和安全约束之间仍有差距；从评测到部署还需要更多实机验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2025-06-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 47,
      "source_url": "https://openaccess.thecvf.com/content/CVPR2025/papers/Long_CheckManual_A_New_Challenge_and_Benchmark_for_Manual-based_Appliance_Manipulation_CVPR_2025_paper.pdf",
      "paper_url": "https://openaccess.thecvf.com/content/CVPR2025/papers/Long_CheckManual_A_New_Challenge_and_Benchmark_for_Manual-based_Appliance_Manipulation_CVPR_2025_paper.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL44_RoboTwin_Generative_Digital_Twins",
      "slug": "rl44-robotwin-generative-digital-twins",
      "detail_url": "papers/rl44-robotwin-generative-digital-twins/",
      "title": "RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins",
      "summary": "这篇 CVPR 2025 论文面向双臂操作这个高价值机器人问题，提出基于 generative digital twins 的 RoboTwin benchmark。它不仅给任务集合，还强调如何用生成式数字孪生扩展场景和评估条件。\n\n它的核心价值是把机器人 benchmark 与生成式仿真基础设施结合起来。双臂任务对接触、协调和场景多样性要求高，手工构建环境成本高，生成式数字孪生能显著改变数据和任务生产方式。\n\n按本库标准，它值得正式收录，因为它贡献的是机器人训练/评测工作流：用可生成的数字孪生支撑双臂操作策略开发，而不是只增加一个静态任务集。\n\n局限是 benchmark 的实际影响取决于仿真保真度、任务覆盖、sim2real 证据和社区采用程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2025-06-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 46,
      "source_url": "https://openaccess.thecvf.com/content/CVPR2025/papers/Mu_RoboTwin_Dual-Arm_Robot_Benchmark_with_Generative_Digital_Twins_CVPR_2025_paper.pdf",
      "paper_url": "https://openaccess.thecvf.com/content/CVPR2025/papers/Mu_RoboTwin_Dual-Arm_Robot_Benchmark_with_Generative_Digital_Twins_CVPR_2025_paper.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM53_StarGen_Scene_Generation",
      "slug": "mm53-stargen-scene-generation",
      "detail_url": "papers/mm53-stargen-scene-generation/",
      "title": "StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation",
      "summary": "这篇 CVPR 2025 论文关注可扩展、可控的场景生成，把时空自回归框架与视频扩散模型结合起来。它解决的不是单帧图像美观度，而是连续场景在空间和时间上的可组织生成。\n\n它的可复用价值在于为 world generation 和仿真资产生成提供结构化生成接口。自回归负责长期时空展开，扩散负责局部视觉质量和可控性，这种分工对长场景生成有系统意义。\n\n按本库标准，它属于 multimodal/world-grounded generation 方向的高质量顶会论文，贡献形态接近可复用生成框架，而不是单一视觉特效技巧。\n\n局限是生成场景能否直接服务机器人、自动驾驶或交互式世界模型，还取决于物理一致性、可编辑性和下游闭环验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2025-06-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 45,
      "source_url": "https://openaccess.thecvf.com/content/CVPR2025/papers/Zhai_StarGen_A_Spatiotemporal_Autoregression_Framework_with_Video_Diffusion_Model_for_CVPR_2025_paper.pdf",
      "paper_url": "https://openaccess.thecvf.com/content/CVPR2025/papers/Zhai_StarGen_A_Spatiotemporal_Autoregression_Framework_with_Video_Diffusion_Model_for_CVPR_2025_paper.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "G12_Video_DiT_Scaling_Laws",
      "slug": "g12-video-dit-scaling-laws",
      "detail_url": "papers/g12-video-dit-scaling-laws/",
      "title": "Towards Precise Scaling Laws for Video Diffusion Transformers",
      "summary": "这篇 CVPR 2025 论文不是只提出一个视频生成模型，而是系统研究 Video Diffusion Transformer 的 scaling law。对于视频生成这种高计算成本方向，模型、数据和算力怎么配比本身就是关键研究问题。\n\n它的价值在于给视频 DiT 训练提供定量指导：哪些因素更影响质量、不同规模下的收益如何变化、如何避免盲目扩参或盲目加数据。这类规律对后续模型设计和预算分配有长期参考意义。\n\n按本库标准，它进入正式收录，因为 scaling law 属于可复用理论/工程接口，且视频生成是高溢出的 multimodal generative modeling 方向。顶会 CVPR 来源也提高了可信度。\n\n局限是 scaling law 往往受数据、架构、评价指标和训练 recipe 影响，外推到完全不同视频模型家族时仍需谨慎。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "generative_modeling_and_diffusion",
      "theme_label": "生成建模与扩散",
      "published_at": "2025-06-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 44,
      "source_url": "https://openaccess.thecvf.com/content/CVPR2025/papers/Yin_Towards_Precise_Scaling_Laws_for_Video_Diffusion_Transformers_CVPR_2025_paper.pdf",
      "paper_url": "https://openaccess.thecvf.com/content/CVPR2025/papers/Yin_Towards_Precise_Scaling_Laws_for_Video_Diffusion_Transformers_CVPR_2025_paper.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A202_ComfyBench_ComfyUI_Agents",
      "slug": "a202-comfybench-comfyui-agents",
      "detail_url": "papers/a202-comfybench-comfyui-agents/",
      "title": "ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems",
      "summary": "这篇 CVPR 2025 论文把 agent 评估放到 ComfyUI 这类真实节点式 AI 工作流环境中，要求 LLM agent 自主设计协作式 AI 系统。它比普通文本任务更接近真实多工具、多节点生成工作流。\n\n它的价值在于评测 agent 是否能理解节点图、连接工具、配置参数、调试流程并达成设计目标。这是 agentic workflow construction 的实际工程场景，不只是问答或代码片段生成。\n\n按本库标准，它值得正式收录，因为它提供了一个真实平台上的 agent benchmark，覆盖视觉编程、多模态生成 pipeline 和 autonomous design。\n\n局限是 ComfyUI 是特定生态，结论向通用工具编排、软件工程或工业流程迁移时需要额外验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-06-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 43,
      "source_url": "https://openaccess.thecvf.com/content/CVPR2025/papers/Xue_ComfyBench_Benchmarking_LLM-based_Agents_in_ComfyUI_for_Autonomously_Designing_Collaborative_CVPR_2025_paper.pdf",
      "paper_url": "https://openaccess.thecvf.com/content/CVPR2025/papers/Xue_ComfyBench_Benchmarking_LLM-based_Agents_in_ComfyUI_for_Autonomously_Designing_Collaborative_CVPR_2025_paper.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T22_TurboQuant_Vector_Quantization",
      "slug": "t22-turboquant-vector-quantization",
      "detail_url": "papers/t22-turboquant-vector-quantization/",
      "title": "TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate",
      "summary": "向量量化一直是 KV cache 压缩和向量检索中的核心问题，但许多方法虽然降低了位宽，却仍要为每个 block 额外保存 scale、zero point 等高精度量化常数，导致真实内存收益被明显侵蚀。TurboQuant 处理的是这个长期被低估的系统瓶颈。\n\n它提出一套 data-oblivious、适合 online 场景的向量量化方案：先随机旋转，把高维向量坐标变成更适合独立标量量化的分布；再在均方误差量化后，对 residual 施加 1-bit QJL 修正 inner product bias，从而同时兼顾 MSE 与 inner-product distortion。论文还给出了信息论下界，并证明其失真率只差一个小常数因子。\n\n这篇工作的仓库价值不只在压缩率，而在于它把 KV cache quantization 和 vector search 统一到了更扎实的理论与系统接口上。对长上下文推理、检索基础设施和 memory-bound inference 来说，这是一条有持续外溢的核心技术路线。\n\n它目前仍是 breakthrough，因为虽然理论和实验都很强，但离成为生产环境默认标准还需要更多跨模型、跨硬件和更大规模 serving 体系中的验证。特别是与更复杂 mixed-precision / runtime KV management 策略的耦合，还没有完全展开。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2025-04-28",
      "doi": "",
      "arxiv_id": "2504.19874",
      "collected_at": "",
      "collection_order": 42,
      "source_url": "https://arxiv.org/pdf/2504.19874.pdf",
      "paper_url": "https://arxiv.org/pdf/2504.19874.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "谷歌 DeepMind 发布 TurboQuant：在毫秒级在线场景中，实现逼近香农下界的极致向量压缩",
          "url": "https://www.bilibili.com/video/BV1U9XHBgEK3",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1U9XHBgEK3",
            "https://youtu.be/N-01Sja2114"
          ],
          "main_collection": "大模型架构与推理",
          "match": "turboquant online vector quantization with near optimal distortion rate",
          "description": "本视频解析谷歌 DeepMind 的研究成果 TurboQuant。该算法针对大语言模型推理中的 KV 缓存与向量数据库检索瓶颈，提出了一种无需预训练的在线量化方案。技术核心在于利用随机旋转将高维数据重塑为可预测的分布，并结合 Lloyd-Max 标量量化器逼近香农下界。针对低位宽量化导致的内积偏差，设计了双阶段架构与 1-bit QJL 变换进行残差修正。实验表明，TurboQuant 在 Llama-3.1 等模型上实现了 5 倍以上的存储压缩，同时保持了极高的检索精度与硬件友好性，有效缓解了长文本生成的内存瓶颈。",
          "x_post": "Google DeepMind 发布 TurboQuant：实现 KV Cache 5 倍以上压缩且性能逼近香农下界\n\n针对大语言模型长文本推理与向量检索中的“内存墙”瓶颈，高维向量的存储开销已成为算力扩展的主要阻碍。研究团队提出 TurboQuant 在线量化算法，其核心利用随机旋转将复杂的高维数据重塑为可预测的独立坐标分布，并结合 Lloyd-Max 标量量化器实现极速并行处理。\n\n为解决低位宽量化下的内积估计偏差，该算法引入双阶段架构及 1-bit QJL 变换进行残差修正。实验证明，TurboQuant 在 Llama-3.1 等模型上实现了 5 倍以上的存储压缩，并在均方误差与内积失真方面均接近理论物理极限。\n\n该方案无需预训练且具备高度的硬件加速友好性，为海量数据检索与长上下文推理提供了兼顾精度与效率的优化路径。",
          "cover_url": "assets/covers/t22-turboquant-vector-quantization-020006b501.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-26T14:44:02+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R3_MIRAS",
      "slug": "r3-miras",
      "detail_url": "papers/r3-miras/",
      "title": "It’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization",
      "summary": "- 分级：`突破性`\n- 正式标题：`It’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization`\n- 原文：`2025-04-17-R3_MIRAS-Its_All_Connected_A_Journey_Through_Test_Time_Memorization_Attentional_Bias_Rete.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文不是单独提出一个新模型，而是试图给一整类序列架构建立统一解释框架。作者把 Transformer、Titans 和现代线性循环网络都重新表述为“联想记忆模块”，认为它们本质上都在用内部目标函数学习 key-value 映射，而这个内部目标函数可以统一理解为 attentional bias。沿着这条线，论文进一步把忘却机制重新解释为正则化问题，把测试时记忆、保留策略和在线优化纳入同一个分析视角。\n\n它的重要性在于：很多看起来互不相干的序列模型技巧，在这篇论文里被放回到一个更底层的坐标系中。作者不只讨论 dot-product 和 ℓ2 回归这两类常见偏置，还提出替代性 attentional bias 及其稳定近似，并把 retention 机制与长期记忆管理连接起来。这让“MIRAS”更像一个理解框架和设计空间，而不只是单点方法。\n\n## 为什么重要\n\n如果要认真讨论后 Transformer 时代的记忆和在线适应，单纯堆架构名称不够。这篇论文的价值在于给出了统一语言，能把测试时记忆、注意力偏置、遗忘和优化联系起来，为后续的长时程 agent 和动态记忆模型提供理论骨架。\n\n## 局限\n\n这篇论文是 `2025-04-17` 的 arXiv 预印本，属于窗口外参考。它更偏统一视角和方法学组织，而不是单一 benchmark 上的压倒性突破；实际工程价值还要看后续具体实现和独立复现。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2025-04-17",
      "doi": "",
      "arxiv_id": "2504.13173",
      "collected_at": "",
      "collection_order": 41,
      "source_url": "https://arxiv.org/pdf/2504.13173.pdf",
      "paper_url": "https://arxiv.org/pdf/2504.13173.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A239_AI_Scientist_v2_Autonomous_Discovery",
      "slug": "a239-ai-scientist-v2-autonomous-discovery",
      "detail_url": "papers/a239-ai-scientist-v2-autonomous-discovery/",
      "title": "The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search",
      "summary": "这篇工作真正重要的地方，不是单纯证明 LLM 能写论文，而是把 scientific workflow 的核心环节串成了一个可运行的端到端系统：提出假设、设计实验、写代码、运行实验、分析结果、作图和撰写论文都放进同一条 agentic loop。与早期依赖手工模板的系统相比，v2 的关键提升是 progressive agentic tree search 和专门的 experiment manager。\n\n它之所以值得正式收录，是因为它把‘AI scientist’从概念演示推进到了可核验的 peer-review experiment。按 Sakana 的实验协议，3 篇完全 AI 生成稿件中有 1 篇拿到了高于 workshop 平均接收阈值的评分，虽然按预设伦理协议在最终发表前撤回，但这已经足够说明系统开始进入真实科研制度的外圈。\n\n它对本库的意义不只是自动写作，而是 agent-driven scientific workflow 的系统边界：什么程度的自主实验、审稿反馈循环、图表 refinement 和 manager-agent orchestration 才能让一个研究代理跨过最初的可用门槛。后续无论药物发现、材料设计还是算法自动发现，都可以把它当作一个上位参考。\n\n它没有更高，是因为当前证明点仍停留在 workshop 级别、少量样本、且需要实验性合作协议；同时作者自己也明确承认距离主会/顶刊标准仍有差距。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-04-10",
      "doi": "",
      "arxiv_id": "2504.08066",
      "collected_at": "",
      "collection_order": 40,
      "source_url": "https://arxiv.org/pdf/2504.08066.pdf",
      "paper_url": "https://arxiv.org/pdf/2504.08066.pdf",
      "project_urls": [
        "https://sakana.ai/ai-scientist-first-publication/"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N74_Dendritic_Morphology_Visual_Cortex",
      "slug": "n74-dendritic-morphology-visual-cortex",
      "detail_url": "papers/n74-dendritic-morphology-visual-cortex/",
      "title": "An unsupervised map of excitatory neuron dendritic morphology in the mouse visual cortex",
      "summary": "这篇论文用 graph-based machine learning 分析 MICrONS 视觉皮层电镜体积中 30,000+ 个兴奋性神经元，把树突形态压缩成低维 morphology barcode，并比较 V1、AL、RL 三个视觉区的结构组织。\n\n核心结论是：小鼠视觉皮层兴奋性神经元的树突形态大多不是离散 m-types，而更像连续变化的形态轴；只有 L5/L6 等少数区域更接近离散类别。L2/3 随深度出现树突宽度和 tuft 缩小趋势，L4 在 V1 与高级视觉区之间差异明显。\n\n在扩展后的神经科学收录标准下，它值得正式收录：这不是单纯生物图谱，而是对视觉皮层感知编码硬件的结构表征。连续 morphology axes 可作为 NeuroAI 和多模态视觉编码的结构先验，提醒模型设计不要只依赖离散 cell-type 标签，也要考虑连续形态/连接空间。\n\n它的外溢路径主要是神经感知与视觉编码：对 AI multimodal extraction、understanding 和 encoding 来说，视觉皮层的结构表征可能影响局部/长程整合、特征抽取尺度、层级编码和区域差异建模。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-04-09",
      "doi": "10.1038/s41467-025-58763-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 39,
      "source_url": "https://www.nature.com/articles/s41467-025-58763-w",
      "paper_url": "https://www.nature.com/articles/s41467-025-58763-w",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM43_SVIP_Multimodal_CoT_Reward",
      "slug": "mm43-svip-multimodal-cot-reward",
      "detail_url": "papers/mm43-svip-multimodal-cot-reward/",
      "title": "Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program",
      "summary": "多模态大模型开始越来越依赖 reward signal 做训练和推理时扩展，但把语言模型那套 reward modeling 直接搬到多模态场景会遇到三个具体问题：标注成本高、奖励粒度过粗，以及缺少成体系的评测。这使得多模态 CoT reward model 仍停留在零散实验阶段，缺少像样的训练接口和统一比较基线。\n\n这篇工作的核心贡献是提出 SVIP：通过让模型生成 visual task 求解代码，再把代码块分析转成 CoT step 级训练样本，自动构造 step-level、多维度的多模态 reward data；随后再用 TriAtt-CoT 训练 step-wise reward model，并配套给出 reward-model training/testing benchmark。论文报告该模型不仅能改进训练，也能在 inference-time scaling 中提升表现并降低 hallucination。\n\n它值得正式收录，因为它把多模态 reward modeling 从单步打分推进到可训练、可测试、可迭代的 step-level 接口。这对 multimodal reasoning、reward model、inference-time scaling 和多模态安全评估都有明显外溢价值，不只是一个局部 benchmark 分数提升。\n\n它暂时不升到更高一级，原因在于这条线目前还主要是多模态 reward model 子方向的强工作；是否能成为更广泛 MLLM 后训练和推理控制的稳定基础接口，还要看后续采用和复现情况。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2025-04-09",
      "doi": "",
      "arxiv_id": "2504.06606",
      "collected_at": "",
      "collection_order": 38,
      "source_url": "https://arxiv.org/pdf/2504.06606.pdf",
      "paper_url": "https://arxiv.org/pdf/2504.06606.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A67_ORCA_Dexterous_Hand",
      "slug": "a67-orca-dexterous-hand",
      "detail_url": "papers/a67-orca-dexterous-hand/",
      "title": "ORCA: An Open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning",
      "summary": "这篇论文抓的是具身操作里一个经常被软件论文掩盖的现实瓶颈：很多 dexterous manipulation 研究并不是卡在算法想法，而是卡在手本体太贵、太脆、太难维护，导致长期 teleoperation、模仿学习和 sim-to-real 强化学习实验根本跑不起来。作者把问题直接收敛到研究基础设施层面，目标不是做一只单项指标最强的机械手，而是给社区一个足够拟人、足够稳定、足够便宜、可以当天装好当天开跑的学习平台。\n\n论文提出 ORCA，一只开源的 17-DoF tendon-driven anthropomorphic robotic hand，带集成触觉传感，材料成本低于 2,000 CHF，完整装配时间少于 8 小时。设计上的重点在于减少连续实验中的中断和维护成本，包括 popping joints、auto-calibration、张力调节等机制，用系统级可靠性去支撑 teleoperation、imitation learning 和 zero-shot sim-to-real RL。作者还专门做了持续 10,000+ operation cycles 的耐久测试，而不是只给几个演示视频。\n\n它值得正式收录，因为它不只是一个“开源硬件项目”，而是对 dexterous task learning 工作流的可达性做了实质性重构。拟人外形让它更容易复用人手交互数据，低成本和快速装配降低了复制门槛，耐久性和自校准又直接影响长期数据采集和 uninterrupted policy learning。对机器人操作、具身数据引擎、sim-to-real 和手部平台基准化，这都是有持续外溢价值的系统基础设施。\n\n它暂时不到更高一级，原因在于论文的核心贡献仍然主要落在平台与工程系统设计，而不是一个更通用的 manipulation 算法或训练范式突破。它对社区很有价值，但影响范围目前仍更偏向 dexterous robotics 基础设施层，是否会成为长期默认平台还要看后续采用度和生态跟进。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-04-05",
      "doi": "",
      "arxiv_id": "2504.04259",
      "collected_at": "",
      "collection_order": 37,
      "source_url": "https://arxiv.org/pdf/2504.04259v2.pdf",
      "paper_url": "https://arxiv.org/pdf/2504.04259v2.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N61_Streaming_Brain_to_Voice",
      "slug": "n61-streaming-brain-to-voice",
      "detail_url": "papers/n61-streaming-brain-to-voice/",
      "title": "A streaming brain-to-voice neuroprosthesis to restore naturalistic communication",
      "summary": "这篇 Nature Neuroscience 论文聚焦一个比脑机打字更困难也更接近真实交流的问题：如何把大脑中的言语意图直接、连续地转成声音，而不是等整句话想完后再一次性输出文字。对于严重瘫痪或失语患者来说，逐字显示虽然有用，但仍然打断了自然对话的节奏，因此研究目标转向更接近正常说话流程的 streaming brain-to-voice 接口。\n\n论文的核心推进在于把神经解码从离散、句后式输出推进到连续语音生成。系统直接从皮层活动中实时解码语音相关表征，并持续合成可听语音，从而把神经信号、语音生成和时间连续性整合进一个统一闭环。与传统 brain-to-text 相比，它强调的是对话中的低延迟、连续性和自然交互，而不是只追求离线转写准确率。\n\n这项工作值得收录，因为它代表了脑机接口从静态辅助沟通向自然化语音交流的明确跃迁。它不仅对神经工程和临床沟通恢复有价值，也对 AI 里的连续序列解码、低延迟生成和神经信号到语音的跨模态映射提供了直接启发。按照当前仓库标准，它属于既有强神经科学价值、又有清晰 AI spillover 的高质量 breakthrough。\n\n它还不到更高一级，原因是当前证据仍建立在非常特定的临床与实验设置上，距离可泛化、可大规模部署的通用神经语音接口还有明显工程和样本限制。它更像是脑机语音方向的关键里程碑，而不是已经重排更广泛 AI 或 NeuroAI 路线的 paradigm/disruptive 工作。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-03-31",
      "doi": "10.1038/s41593-025-01905-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 36,
      "source_url": "https://www.nature.com/articles/s41593-025-01905-6",
      "paper_url": "https://www.nature.com/articles/s41593-025-01905-6",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "W1_Aardvark_Weather",
      "slug": "w1-aardvark-weather",
      "detail_url": "papers/w1-aardvark-weather/",
      "title": "End-to-end data-driven weather prediction",
      "summary": "- 分级：`突破性`\n- 正式标题：`End-to-end data-driven weather prediction`\n- 原文：`2025-03-20-W1_Aardvark_Weather-End_to_end_data_driven_weather_prediction.html`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文尝试把传统数值天气预报那条漫长而昂贵的流水线整体替换成端到端机器学习系统。作者提出 Aardvark Weather，用单一数据驱动模型覆盖从观测数据处理到全球天气场预测的整个流程，而不再依赖传统 NWP 中复杂的数值求解器、同化模块和手工拼装的软件栈。\n\n真正重要的不是“又一个天气模型”，而是它把气象预测重新定义为一个统一学习问题。论文强调，这种做法在保持竞争性预测质量的同时，大幅压缩计算资源与系统复杂度，并把高质量天气预测从超算基础设施中解耦出来。对全球南方国家、小机构和边缘部署场景，这种可达性本身就是范式变化的一部分。\n\n## 为什么重要\n\n它代表 AI for weather 从“做某个模块更快”走向“整条业务链重写”。如果这种路线继续成立，天气预测的成本结构、部署门槛和更新速度都会被改写。\n\n## 局限\n\n正式发表时间是 `2025-03-20`，属于窗口外的高影响参考。当前目录保留的是 Nature 正文 HTML，不是完整 PDF；而且再好的端到端系统也仍需在极端天气、跨季节和业务可靠性上接受长期检验。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "weather_climate_and_earth_systems",
      "theme_label": "天气、气候与地球系统",
      "published_at": "2025-03-20",
      "doi": "10.1038/s41586-025-08897-0",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 35,
      "source_url": "https://www.nature.com/articles/s41586-025-08897-0",
      "paper_url": "https://www.nature.com/articles/s41586-025-08897-0",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "剑桥与DeepMind发布Aardvark：1秒生成全球气象预测，将预报算力消耗降低数个数量级",
          "url": "https://www.bilibili.com/video/BV159wMzKEAU",
          "platform_urls": [
            "https://www.bilibili.com/video/BV159wMzKEAU",
            "https://youtu.be/UXtP7t8lRFs"
          ],
          "main_collection": "AI物理与科学计算",
          "match": "end to end data driven weather prediction",
          "description": "这项研究介绍了由剑桥大学与谷歌DeepMind等机构联合开发的Aardvark Weather系统。作为首个全端到端的数据驱动气象模型，它彻底摆脱了对传统数值天气预报初始状态估计的依赖，直接从原始观测数据生成预测。系统通过集成编码器、处理器和解码器模块，实现了从原始非网格数据到全球及本地站点预报的无缝衔接。实验证明，该模型仅需传统方案约8%的输入数据，且在4张A100显卡上仅需1秒即可完成全球预测，计算成本降低了三个数量级，其预报精度在多个关键变量上超越了传统高分辨率基线系统。这一突破为低成本、高效率的全球气象建模提供了新的技术路径。",
          "x_post": "剑桥与Google DeepMind发布Aardvark：首个全端到端AI气象预报模型，算力消耗降低3个数量级\n传统数值天气预报（NWP）高度依赖超算集群与复杂的数据同化流程，存在极高的算力门槛与迭代成本。Aardvark Weather 采用由编码器、处理器与解码器组成的端到端架构，直接从原始非网格观测数据学习大气演变规律。实验表明，该模型仅需使用传统方案约 8% 的输入数据，在 4 张 A100 显卡上仅需 1 秒即可完成全球预报。在计算成本降低三个数量级的同时，其预测精度在多个关键变量上超越了 HRES 等主流基线模型。该工作证明了纯数据驱动气象建模的可行性，为低成本、高时效的全球预报提供了新路径。",
          "cover_url": "assets/covers/w1-aardvark-weather-d1ce51dce5.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-15T20:06:11+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "RL35_Decoupled_Interaction_Framework",
      "slug": "rl35-decoupled-interaction-framework",
      "detail_url": "papers/rl35-decoupled-interaction-framework/",
      "title": "Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework",
      "summary": "双臂机器人操作常被统一建模成一个同时接收两只手观测和状态、再直接输出联合动作的大模型。但这类 integrated-control 设定默认所有任务都需要强耦合协作，忽略了大量其实只需要弱耦合甚至局部独立决策的子问题，结果既增加模型复杂度，也削弱了对不同协作结构的表达能力。\n\n这篇工作的关键新意是提出 decoupled interaction framework：先为每只手分别分配独立模型，专门学习非强协作任务中的局部控制，再通过 selective interaction module 自适应决定来自另一只手的信息应该如何参与决策。这样它既保留了独立建模带来的灵活性，又能在需要时显式学习协调关系，而且还能无缝接到现有方法和 multi-agent manipulation 场景中。\n\n它值得正式收录，因为它不是再造一个更大的 manipulation policy，而是把双臂操作重新表述成“独立建模 + 选择性交互”的通用接口。这对 bimanual manipulation、multi-arm coordination 以及更一般的 embodied multi-agent control 都有可复用的方法外溢，而不只是单一 benchmark 提升。\n\n它暂时不升到更高一级，原因在于当前证据仍主要集中在双臂操作这一具体子领域。虽然方法 framing 很清晰，也有明显泛化潜力，但是否会成为机器人协作控制的默认建模范式，还需要更多跨平台和后续采用来验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2025-03-12",
      "doi": "",
      "arxiv_id": "2503.09186",
      "collected_at": "",
      "collection_order": 34,
      "source_url": "https://arxiv.org/pdf/2503.09186.pdf",
      "paper_url": "https://arxiv.org/pdf/2503.09186.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL20_GTR_Guided_Thought_Reinforcement",
      "slug": "rl20-gtr-guided-thought-reinforcement",
      "detail_url": "papers/rl20-gtr-guided-thought-reinforcement/",
      "title": "GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training",
      "summary": "把 outcome-only reinforcement learning 直接搬到 VLM agent 上，并不会自然长出稳定的 chain-of-thought。相反，在视觉环境里的多步 action reasoning 中，模型很容易迅速退化成低多样性、与状态脱节、且不完整的思维轨迹。GTR 这篇工作的价值，就是把这个失败模式明确命名为 thought collapse，并把它作为 RL-based VLM agent training 的核心障碍来处理。\n\n方法上，作者提出 Guided Thought Reinforcement，用一个自动 corrector 在每个 RL step 上评估并修正 agent 的 reasoning process。重点不在人工 dense labeling，而在于用自动化 process guidance 同时训练 reasoning 和 action，让模型在 card-game 与 embodied environment 中避免思维塌缩。这个 framing 比单纯提 reward shaping 更有复用性，因为它把可扩展的过程监督接口直接嵌进 RL 训练回路。\n\n它值得正式收录，因为它对 agentic RL / VLM reasoning training 提供了一个明确、可迁移的失败机制和干预模式。仓库目前在 agent training、deployment-time adaptation 和多步推理控制上是重点扩展方向，而 GTR 把“过程纠偏”从泛泛口号落实成了自动 corrector 驱动的训练基础件，这一点有持续价值。\n\n它目前仍然是 breakthrough，而不是更高一级，因为证据范围还主要集中在较有限的视觉环境和任务族，距离成为更一般的 agent RL 标准训练范式还有距离。更广的模型规模、环境分布和与其他 process-supervision 路线的系统比较，仍然需要补齐。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2025-03-11",
      "doi": "",
      "arxiv_id": "2503.08525",
      "collected_at": "",
      "collection_order": 33,
      "source_url": "https://arxiv.org/pdf/2503.08525",
      "paper_url": "https://arxiv.org/pdf/2503.08525",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A99_ToolRet_Tool_Retrieval_Benchmark",
      "slug": "a99-toolret-tool-retrieval-benchmark",
      "detail_url": "papers/a99-toolret-tool-retrieval-benchmark/",
      "title": "Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models",
      "summary": "This paper focuses on a practical but under-measured bottleneck in tool-using agents: selecting the right tools from large tool inventories. Many agent benchmarks quietly assume a curated small candidate set, which hides the real retrieval problem and makes downstream agent results overly optimistic.\n\nThe main contribution is ToolRet, a heterogeneous tool retrieval benchmark with thousands of retrieval tasks and tens of thousands of tools, along with a large-scale training dataset that improves tool-aware retrieval. Just as important, the paper shows that strong general-purpose IR models are surprisingly weak at this task.\n\nFor the repository, this is worth collecting because it clarifies a real systems bottleneck and provides a reusable benchmark for future tool-use work. It makes tool retrieval legible as its own subproblem rather than a detail buried inside end-to-end agent scores.\n\nIt is not ranked higher because it is primarily a benchmark-and-dataset paper rather than a broader route-defining system abstraction. But the benchmark is durable and directly useful for evaluating real large-scale tool-use agents.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-03-03",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 32,
      "source_url": "https://aclanthology.org/2025.findings-acl.1258.pdf",
      "paper_url": "https://aclanthology.org/2025.findings-acl.1258.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N58_Representational_Plasticity_Neuroprosthetic_Control",
      "slug": "n58-representational-plasticity-neuroprosthetic-control",
      "detail_url": "papers/n58-representational-plasticity-neuroprosthetic-control/",
      "title": "Sampling representational plasticity of simple imagined movements across days enables long-term neuroprosthetic control",
      "summary": "问题与背景：脑机接口长期稳定性的核心难题在于神经表征会随时间漂移，尤其是想象运动这类内部状态的神经编码很难在跨天尺度上保持稳定。论文关注的正是这一问题：能否利用表征可塑性本身，而不是把它当成纯噪声，来支持长期神经假肢控制。\n\n方法/新意：作者围绕简单 imagined movement 的跨日表征变化，提出通过对表征空间进行有针对性的采样与建模来维持长期可控的神经假肢输出。论文的重要性不只在于得到更好的跨天控制结果，而在于把 representational plasticity 从“需要抵消的漂移”改写成“可以被系统利用的结构”。\n\n意义/放在仓库中的位置：这篇工作适合放在认知科学 / 神经工程 / BCI 主线。它为长期脑机接口控制提供了更扎实的机制路径，也和仓库中居家 BCI、闭环神经调控及神经表征稳定性相关条目形成连续谱。对实际可用的长期神经接口系统具有明显外溢性。\n\n局限/为何不再升一级：尽管是 Cell 原始研究，且对长期 BCI 很重要，但它的影响目前仍主要集中在神经工程与神经假肢控制场景，尚未扩展成更广泛的通用认知或 AI 范式重写，因此定为突破性。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-03-01",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 31,
      "source_url": "https://pubmed.ncbi.nlm.nih.gov/40054446/",
      "paper_url": "https://pubmed.ncbi.nlm.nih.gov/40054446/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "BIO12_Seq2Symm_Homo_Oligomer_Symmetry",
      "slug": "bio12-seq2symm-homo-oligomer-symmetry",
      "detail_url": "papers/bio12-seq2symm-homo-oligomer-symmetry/",
      "title": "Rapid and accurate prediction of protein homo-oligomer symmetry using Seq2Symm",
      "summary": "这篇论文解决的是蛋白结构预测工作流里一个很实用但长期缺口明显的问题：如何快速、准确地从单条氨基酸序列预测蛋白 homo-oligomer 的对称性。很多蛋白必须组装成同链多聚体才能发挥功能，但过去这一步往往依赖模板搜索或成本更高的结构建模流程，速度和覆盖率都受限。\n\n作者的做法是对多类 protein foundation models 做微调，最终得到 Seq2Symm，其中最强版本基于 ESM2。它只用单序列作为输入，就能做 proteome-scale 的 symmetry prediction，并且在多个 held-out test sets 上明显超过模板法和已有深度学习方法。方法上的价值不只是精度提升，还在于把一个原本常被留给昂贵下游结构生成去隐式解决的问题，前置成了一个可快速筛查的序列级任务。\n\n它适合进入仓库，因为这是 AI for biology 工作流里很典型的高价值中间层工具：不直接替代 AlphaFold2-multimer 或 RoseTTAFold2 这类全原子建模，而是作为上游高吞吐筛查模块，为后续更重的结构生成和功能分析节省大量算力与搜索空间。这种‘先用 foundation model 做廉价结构属性预测，再接昂贵生成器’的分层流程本身就有长期价值。\n\n它没有更高一级，因为它更像一个高效、可复用、很实用的 specialized predictor，而不是改写整条蛋白建模主线的范式级工作。更准确地说，Seq2Symm 是一篇很强的 workflow-enabling biology AI 论文，适合正式收录，但还不到更高层级。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-02-27",
      "doi": "10.1038/s41467-025-57148-3",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 30,
      "source_url": "https://www.nature.com/articles/s41467-025-57148-3",
      "paper_url": "https://www.nature.com/articles/s41467-025-57148-3",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "每小时解析8万蛋白质：Seq2Symm利用单序列输入，赋能350万未知序列快速对称性解析",
          "url": "https://www.bilibili.com/video/BV1dEX3BWED9",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1dEX3BWED9",
            "https://youtu.be/dEZKqF5v6fU"
          ],
          "main_collection": "AI医学与生命科学",
          "match": "rapid and accurate prediction of protein homo oligomer symmetry using seq2symm",
          "description": "蛋白质通常以同源多聚体形式发挥功能，但传统对称性预测方法高度依赖实验结构或高昂的模板搜索，且在处理低同源性序列时准确率受限。本研究介绍 Seq2Symm 模型，其基于 ESM2 基础模型深度微调，仅需单条氨基酸序列即可精准预测对称性类别。实验结果显示，Seq2Symm 推理速度达每小时 8 万条序列，AUC-PR 指标较传统方法提升近一倍，且有效规避了多序列比对产生的进化噪声。该工具可与 AlphaFold2 结合，显著提升复杂蛋白质多聚体建模的效率，助力大规模蛋白质组学研究。",
          "x_post": "微软、华盛顿大学等利用 Seq2Symm 实现蛋白质对称性快速解析，推理通量达 8 万/小时\n研究背景：同源多聚体对称性决定蛋白质功能，但传统 PISA 或模板匹配方法高度依赖实验结构且计算成本高昂。\n核心方法：基于 ESM2 模型深度微调，Seq2Symm 仅需单条氨基酸序列输入，通过 Margin Loss 优化实现多标签分类，有效规避了 MSA 引入的进化噪声。\n关键证据：在超 6 万个真实结构测试集中，Seq2Symm 的 AUC-PR 指标达 0.47，较传统方法（0.24）提升近一倍，并显著降低了高阶对称性的预测误判率。\n结论应用：该工具已完成 350 万未知序列解析，通过与 AlphaFold2-multimer 结合，可大幅优化复杂多聚体三维建模的计算效率。",
          "cover_url": "assets/covers/bio12-seq2symm-homo-oligomer-symmetry-211a1f5d64.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-25T13:51:27+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N72_Centaur_Human_Cognition",
      "slug": "n72-centaur-human-cognition",
      "detail_url": "papers/n72-centaur-human-cognition/",
      "title": "A foundation model to predict and capture human cognition",
      "summary": "这篇论文之所以过本库更严格的 cognition / neuroscience 门槛，不是因为它又做了一个像人的行为预测器，而是因为它把‘统一认知模型’这个老问题推进到了 foundation-model 时代。Centaur 试图用一个自然语言可表达实验上的统一模型来覆盖决策、执行控制、记忆等多类任务。\n\n真正重要的点有两个。第一，它不只是拟合单一实验，而是基于 Psych-101 这样的跨任务 trial-level 数据去学一个更一般的行为生成器。第二，作者还声称 fine-tuning 后的内部表征与人类神经活动更加对齐，这让它不只是一个黑箱行为拟合器，而是一个可被拿来讨论 cognition-modeling 的 AI 对象。\n\n它值得正式收录，因为这类工作对 NeuroAI 和 cognition-inspired AI 的意义远大于普通心理学建模：它强行把‘统一理论能否存在’这个问题变成了可训练、可评估、可失败的工程对象。即使它最后被证明有明显局限，这个 framing 本身也很耐用。\n\n它没有更高，是因为后续批评已经指出它可能依赖任务格式和指令模式记忆而不是更深层机制理解。也就是说，它是一个重要的认知 foundation-model 尝试，但还不能被当作统一认知理论已经成立的证据。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-02-26",
      "doi": "10.1038/s41586-025-09215-4",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 29,
      "source_url": "/Users/lijie/Downloads/s41586-025-09215-4.pdf",
      "paper_url": "https://www.nature.com/articles/s41586-025-09215-4",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A101_ScoreFlow_Workflow_Optimization",
      "slug": "a101-scoreflow-workflow-optimization",
      "detail_url": "papers/a101-scoreflow-workflow-optimization/",
      "title": "ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization",
      "summary": "ScoreFlow continues the automatic workflow-optimization line by targeting a concrete weakness in prior methods: many workflow-search systems rely on discrete search or brittle hand-crafted modification operators, which makes them hard to scale and adapt. The paper proposes a smoother preference-driven optimization route for agent workflows.\n\nIts central idea is to optimize workflows in a continuous space using score-based preference optimization, specifically a quantitative-feedback-aware variant of DPO. This makes workflow improvement less dependent on purely discrete search and positions preference learning as a reusable control signal for multi-step agent orchestration.\n\nThis is relevant to the repository because it broadens the workflow-optimization toolbox beyond tree search and graph abstractions. It shows that workflow quality can be optimized with a preference-learning lens, which has direct spillover to coding agents, reasoning pipelines, and multi-agent system design.\n\nIt is not ranked higher because it remains one method family inside the larger workflow-optimization line, and its long-term dominance relative to search-based approaches is still uncertain. But it is strong enough to collect as a representative next-stage optimization paper.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2025-02-06",
      "doi": "",
      "arxiv_id": "2502.04306",
      "collected_at": "",
      "collection_order": 28,
      "source_url": "https://arxiv.org/pdf/2502.04306.pdf",
      "paper_url": "https://arxiv.org/pdf/2502.04306.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "N6_Brain_Propagation_Development",
      "slug": "n6-brain-propagation-development",
      "detail_url": "papers/n6-brain-propagation-development/",
      "title": "Developmental variations in recurrent spatiotemporal brain propagations from childhood to adulthood",
      "summary": "这篇论文研究儿童到成年早期的大脑内在时空传播模式如何成熟。作者关注的不是静态功能连接，而是脑活动在不同网络之间按时间滞后传播的动态轨迹，试图回答发育过程中哪些传播方向更稳定、哪些逐渐减弱，以及这些变化和认知能力之间的关系。\n\n方法上，论文利用时间滞后动态传播分析，提取了三类主要传播轴：感觉到联合区、任务正网络到默认网络、以及躯体运动到视觉网络。随后在两个独立队列中比较这些传播状态随年龄的变化，并评估其和认知分数的关系。核心结果是：从童年到成年早期，感觉到联合区和任务正到默认网络这两类更具层级性的传播状态会更频繁、更持久地出现；相反，偏视觉和躯体运动的传播状态则逐渐减少。\n\n这篇工作的价值在于，它把脑发育描述从“哪些区域更成熟”推进到“信息在脑内如何传播得更像成人”。其中一个关键发现是，自上而下的层级传播比自下而上的传播更能预测认知水平，这让前额叶控制、层级整合和认知成熟之间的关系变得更具体。\n\n如果放在仓库里，这篇更适合归入认知科学 / 脑发育补录。它不是 AI 范式论文，但对理解多时间尺度脑动态、层级控制和任务组织很有价值。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2025-02-05",
      "doi": "10.1038/s41467-025-67754-w",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 27,
      "source_url": "https://www.nature.com/articles/s41467-025-67754-w",
      "paper_url": "https://www.nature.com/articles/s41467-025-67754-w ; https://pubmed.ncbi.nlm.nih.gov/39975397/",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "Nature揭秘智力觉醒：30秒一次的神经暗流，决定青少年认知能力的跃升",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "developmental variations in recurrent spatiotemporal brain propagations from childhood to adulthood",
          "description": "《Nature Communications》刊载的研究揭示了8至22岁人类大脑动态信号传导的演变规律。针对传统静态扫描无法解释智力进阶的问题，研究团队利用CPCA动态成像技术，捕捉到约30秒一次的神经信号时空传播模式。研究识别出三条核心“信息高速公路”：负责抽象思维的S-A模式、调节注意力的TP-D模式及基础感知的SM-V模式。证据显示，随着个体发育，大脑在高级认知模式中的停留时间显著增加，且特定传导频率可有效预测认知得分。这一发现绘制了青少年心智成熟的动态图谱，界定了神经律动与认知成长间的关键联系。",
          "x_post": "Nature Commun. 刊载脑发育研究：30 秒周期神经传播模式预测 8-22 岁人群认知水平\n传统静态影像连接难以解释青少年认知能力跃升的动态机制。该研究利用 CPCA 动态成像技术，在 8 至 22 岁受试者中识别出 S-A、TP-D 及 SM-V 三种核心时空传播模式。实验观察到神经信号以约 30 秒为周期进行循环；随个体发育成熟，大脑在涉及高级决策的 S-A 模式和注意力调节的 TP-D 模式下停留时间显著增加。结果显示，特定传导方向的频率可有效预测认知得分，揭示了脑功能动态从基础感知向高级联动的分级发育规律。",
          "cover_url": "assets/covers/n6-brain-propagation-development-0418af6b42.jpg",
          "has_local_video": true,
          "updated_at": "2026-05-12T12:03:54+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "C11_AtomAgents_Alloy_Design",
      "slug": "c11-atomagents-alloy-design",
      "detail_url": "papers/c11-atomagents-alloy-design/",
      "title": "Automating alloy design and discovery with physics-aware multimodal multiagent AI",
      "summary": "这篇论文要解决的是合金设计中一个非常现实的瓶颈：真正有价值的材料发现往往需要同时完成知识检索、物理模拟、图像和数值结果分析以及多目标设计权衡，这类流程长期依赖人类专家手工串联，效率低且难以扩展。\n\nAtomAgents 的核心是一个 physics-aware multimodal multi-agent 框架。它让不同角色的 AI agent 分工完成知识检索、多模态数据整合、物理仿真、结果分析与设计迭代，并把数值结果和模拟图像一起纳入决策回路。作者用这一系统自动完成合金设计与分析任务，展示了在复杂材料设计问题上由多代理协作驱动的端到端工作流。\n\n这篇工作值得正式收录，因为它不是简单的“LLM 帮材料科学写代码”，而是把 agent systems 和 atomistic simulation 真正结合成了材料发现工作流。对 AI x physics / materials discovery 来说，它代表的是一种可复用的研究自动化模式，而不只是单点模型提分。\n\n它当前仍是 breakthrough，而不是更高一级，因为验证场景主要集中在 alloy design，框架的跨材料体系通用性和长期自动化稳定性还需要更多外部复现。它能否再升一级，要看后续是否成为 materials agent workflow 的标准参考。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "chemistry_biology_and_lab_automation",
      "theme_label": "化学、生物与自动化实验室",
      "published_at": "2025-01-20",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 26,
      "source_url": "https://cee.mit.edu/wp-content/uploads/2021/05/ghafarollahi-buehler-2025-automating-alloy-design-and-discovery-with-physics-aware-multimodal-multiagent-ai.pdf",
      "paper_url": "https://cee.mit.edu/wp-content/uploads/2021/05/ghafarollahi-buehler-2025-automating-alloy-design-and-discovery-with-physics-aware-multimodal-multiagent-ai.pdf",
      "project_urls": [
        "https://cee.mit.edu/wp-content/uploads/2021/05/ghafarollahi-buehler-2025-automating-alloy-design-and-discovery-with-physics-aware-multimodal-multiagent-ai.pdf"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "T10_TabPFN_Small_Data",
      "slug": "t10-tabpfn-small-data",
      "detail_url": "papers/t10-tabpfn-small-data/",
      "title": "Accurate predictions on small data with a tabular foundation model",
      "summary": "这篇论文针对的是机器学习里一个长期稳定却又相对保守的领域：小样本表格数据预测。传统上，这类任务通常由梯度提升树和随机森林主导，而大模型路线往往被认为样本效率不足。\n\n论文的新意在于把 foundation model / in-context learning 思路真正带进了 tabular 预测。作者通过大规模合成任务分布预训练一个通用表格模型，使其在面对一个新数据集时能在一次前向过程中完成类似“训练加预测”的推断，并在小到中等规模表格任务上达到很强表现。\n\n这篇论文应放在 AI 主线里，主题是 tabular foundation model、small-data learning 和 in-context prediction。它的重要性在于，它不只是一个表格任务新模型，而是在验证“foundation model 方法能否进入传统 tabular ML 核心地带”这个问题。\n\n它没有被升到更高等级，是因为影响范围目前仍主要集中在 tabular 模态和特定样本规模区间，尚未达到改写更大范围机器学习主线的程度。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "theory_robustness_and_core_ml",
      "theme_label": "理论、鲁棒性与核心机器学习",
      "published_at": "2025-01-08",
      "doi": "10.1038/s41586-024-08328-6",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 25,
      "source_url": "https://www.nature.com/articles/s41586-024-08328-6",
      "paper_url": "https://www.nature.com/articles/s41586-024-08328-6",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "像大模型一样直接处理表格：TabPFN 凭 2D 架构实现开箱即用，精度碾压主流算法",
          "url": "https://www.bilibili.com/video/BV15tdsBiEDr",
          "platform_urls": [
            "https://www.bilibili.com/video/BV15tdsBiEDr",
            "https://youtu.be/E0FlgF0qZSs"
          ],
          "main_collection": "大模型架构与推理",
          "match": "accurate predictions on small data with a tabular foundation model",
          "description": "像大模型一样直接处理表格：TabPFN 凭 2D 架构实现开箱即用，精度碾压主流算法\n\nTabPFN 是一种专为中小型表格数据设计的深度学习基础模型，其核心在于通过上下文学习（In-Context Learning）在单次前向传播中完成预测。该模型打破了传统梯度提升决策树在表格领域长达二十年的统治地位，在包含一万个样本以内的指标上，其性能显著优于经过数小时调优的传统算法，且推理速度提升了数千倍。研究团队通过在数百万个基于结构因果模型生成的合成数据集上进行预训练，使模型能够自主学习处理缺失值、离群点及类别特征等复杂问题的策略。除了卓越的预测能力，TabPFN 还展现出生成合成数据、密度估计和微调等基础模型特性，为科学发现和决策支持提供了更高效的工具。这种端到端的学习方式标志着表格数据建模从人工设计算法向全自动算法发现的重要转变。",
          "x_post": "像大模型一样直接处理表格：TabPFN 凭 2D 架构实现开箱即用，精度碾压主流算法\nTabPFN 是一种专为中小型表格数据设计的深度学习基础模型，其核心在于通过上下文学习（In-Context Learning）在单次前向传播中完成预测。该模型打破了传统梯度提升决策树在表格领域长达二十年的统治地位，在包含一万个样本以内的指标上，其性能显著优于经过数小时调优的传统算法，且推理速度提升了数千倍。研究团队通过在数百万个基于结构因果模型生成的合成数据集上进行预训练，使模型能够自主学习处理缺失值、离群点及类别特征等复杂问题的策略。除了卓越的预测能力，TabPFN 还展...\n视频中给出方法细节、关键指标和适用边界，方便快速判断其工程与研究价值。",
          "cover_url": "assets/covers/t10-tabpfn-small-data-9c68e28f62.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-18T19:39:42+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "R2_Titans",
      "slug": "r2-titans",
      "detail_url": "papers/r2-titans/",
      "title": "Titans: Learning to Memorize at Test Time",
      "summary": "- 分级：`颠覆性`\n- 正式标题：`Titans: Learning to Memorize at Test Time`\n- 原文：`2024-12-31-R2_Titans-Titans_Learning_to_Memorize_at_Test_Time.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文抓住的是后 Transformer 时代一个最关键的问题：注意力机制虽然建模精确，但上下文长度和 KV 缓存成本会迅速膨胀，导致“知道很多”和“记得很久”之间始终有硬冲突。作者提出 Titans 架构，把注意力明确视为短期记忆模块，同时引入可在测试时持续更新的神经长期记忆模块，把历史上下文抽象存进参数化记忆中。\n\n论文的核心不是单一层改造，而是整套记忆观的重写。作者给出三种 Titans 变体，把长期记忆分别作为上下文、层或 gated branch 融入主干网络，并讨论了基于 surprise 的记忆写入和衰减机制。实验覆盖语言建模、常识推理、基因组建模和时间序列等任务，并报告在多项基准上优于 Transformer 和现代线性循环模型，同时能扩展到超过 2M 的上下文窗口。\n\n## 为什么重要\n\n它代表的是“静态权重 + 有限窗口”范式之外的一条主线：让模型在推理时持续形成可压缩、可复用的长期记忆。如果这条路线成立，长上下文、持续学习和 agent 轨迹执行会被重新组织。\n\n## 局限\n\n这篇论文发表于 `2024-12-31` 的 arXiv，属于你当前时间窗之前的高影响参考。它提出的是大方向和架构族，不等于已经完成工程收敛；真实部署中的稳定性、训练成本和与现有推理栈的兼容性仍需后续验证。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2024-12-31",
      "doi": "",
      "arxiv_id": "2501.00663",
      "collected_at": "",
      "collection_order": 24,
      "source_url": "https://arxiv.org/pdf/2501.00663.pdf",
      "paper_url": "https://arxiv.org/pdf/2501.00663.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P4_Non_Hermitian_Topology",
      "slug": "p4-non-hermitian-topology",
      "detail_url": "papers/p4-non-hermitian-topology/",
      "title": "Unsupervised Classification of Non-Hermitian Topological Phases under Symmetries",
      "summary": "- 分级：`突破性`\n- 正式标题：`Unsupervised Classification of Non-Hermitian Topological Phases under Symmetries`\n- 原文：`2024-12-30-P4_Non_Hermitian_Topology-Unsupervised_Classification_of_Non_Hermitian_Topological_Phases_under_Symmetries.pdf`\n- 抽取：`extracted.md`\n\n## 重写摘要\n\n这篇论文的切入点很硬：非厄米拓扑分类长期受制于“缺少普适拓扑不变量”，因此很多相位可能先被判成平庸，后面才被理论修正。作者绕开了先验不变量，提出一个无监督学习框架，直接从带对称性的非厄米哈密顿量数据中学习拓扑差异，并在无监督条件下构建非厄米系统的拓扑周期表。\n\n论文的价值不只是“AI 帮忙分类”，而是把 AI 变成理论探索工具。作者还把边界效应纳入框架，使模型能探索开边界条件如何改写相图。这一点对非厄米体系尤其关键，因为体边对应在这里本来就更脆弱、更复杂。\n\n## 为什么重要\n\n它展示了一种很有代表性的 AI for physics 路线：当传统数学工具还不够完备时，先用无监督方法发现组织结构，再反过来推动理论形成。这类工作短期内未必直接落地，但对拓扑物态分类方法学有实质意义。\n\n## 局限\n\n当前版本主要证明“无监督学习能恢复并扩展分类结构”，离形成普适理论还很远。它更像发现器，而不是最终解释器；后续仍需要严格数学化和实验验证来固化结论。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2024-12-30",
      "doi": "",
      "arxiv_id": "2412.20882",
      "collected_at": "",
      "collection_order": 23,
      "source_url": "https://arxiv.org/pdf/2412.20882.pdf",
      "paper_url": "https://arxiv.org/pdf/2412.20882.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL32_VLABench_Long_Horizon_Manipulation",
      "slug": "rl32-vlabench-long-horizon-manipulation",
      "detail_url": "papers/rl32-vlabench-long-horizon-manipulation/",
      "title": "VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks",
      "summary": "通用 embodied agent 和 Vision-Language-Action 模型开始具备处理语言条件操控任务的潜力，但现有 benchmark 对世界知识迁移、隐含意图理解和长时程多步任务覆盖不足，难以系统检验这类模型是否真正接近通用操作能力。VLABench 的目标就是把这类缺口明确成一个可复用的评测对象，而不是继续沿用偏模板化、短时程的操作任务集合。\n\n这篇工作的核心贡献是提出一个面向 language-conditioned manipulation 的开源 benchmark：包含 100 类任务、2000+ 物体，并把评测重点放在四类更接近通用智能体的问题上，即世界知识与常识迁移、带隐含人类意图的自然语言指令、需要多步推理的长时程任务，以及对动作策略和语言模型能力的联合检验。论文还提供了结合启发式技能与先验信息的自动化数据构造流程，为后续微调与统一评测提供了基础设施。\n\n它值得正式收录，不是因为又多了一个机器人 benchmark，而是因为它把 VLA / embodied agent 里最关键的一类难题重新压成了清晰的测试接口：模型不只要会动，还要在长时程操控里理解语言、做推理、处理常识和隐式目标。这对机器人、VLA、agent evaluation 这几条主线都有持续参考价值。\n\n它暂时不升到更高一级，原因也明确：这首先是一篇 benchmark / infrastructure paper，而不是新的通用控制范式或训练范式；其影响力还需要看后续是否成为 VLA 评测的默认基线，以及是否能稳定推动真实机器人上的方法改进，而不只是提供一个更难的任务集合。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2024-12-24",
      "doi": "",
      "arxiv_id": "2412.18194",
      "collected_at": "",
      "collection_order": 22,
      "source_url": "https://arxiv.org/pdf/2412.18194.pdf",
      "paper_url": "https://arxiv.org/pdf/2412.18194.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL36_AnyBimanual_Transfer",
      "slug": "rl36-anybimanual-transfer",
      "detail_url": "papers/rl36-anybimanual-transfer/",
      "title": "AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation",
      "summary": "通用双臂机器人操作一直受制于数据成本：双臂动作空间更高、采集更贵、泛化更难，而这与单臂策略近年依靠更大模型和更大数据实现快速扩展形成了鲜明对比。如果双臂系统每次都要从头收集和训练，就很难跟上机器人基础模型的扩张速度。\n\nAnyBimanual 的核心思路是把预训练单臂 policy 直接当作双臂策略的知识底座，再用少量双臂示范完成桥接。具体上，它用 skill manager 调度单臂模型中已经学到的技能表示，再用 visual aligner 去缓解单臂与双臂观测分布差异，从而实现 plug-and-play 式迁移，而不是重新训练一个完全新的双臂大模型。\n\n它值得正式收录，因为它提出了一个很清楚的扩展路径：先在更便宜、更易扩张的单臂数据上积累通用操作知识，再把这些能力迁移到双臂操作。这对机器人数据扩展、技能复用和通用 manipulation policy 的训练工作流都有明显外溢价值。\n\n它暂时不升到更高一级，原因在于当前仍主要证明了单臂到双臂这一条迁移链的有效性。虽然方向很强，也非常实用，但是否会成为更广义多臂/多体系统的标准桥接接口，还要看后续跨平台验证和社区采用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2024-12-09",
      "doi": "",
      "arxiv_id": "2412.06779",
      "collected_at": "",
      "collection_order": 21,
      "source_url": "https://arxiv.org/pdf/2412.06779.pdf",
      "paper_url": "https://arxiv.org/pdf/2412.06779.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "MM42_NeuS_V_Formal_Video_Evaluation",
      "slug": "mm42-neus-v-formal-video-evaluation",
      "detail_url": "papers/mm42-neus-v-formal-video-evaluation/",
      "title": "Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification",
      "summary": "文本生成视频模型正在快速进入机器人、自动驾驶和内容生产等场景，但主流评测仍主要偏向视觉质量与流畅度，对时间一致性和 prompt-to-video 对齐的约束表达能力不足。这在安全敏感场景里尤其成问题，因为真正关键的往往不是画面是否好看，而是视频是否满足跨时间的语义和行为约束。\n\n这篇工作的核心贡献是提出 NeuS-V：把 prompt 转成形式化的时序逻辑规范，再把生成视频转成可验证的自动机表示，用神经-符号形式验证去检查视频是否满足这些时序约束。论文还配套构建了面向 temporally extended prompts 的评测数据集，并报告该指标与人工评估的相关性相对现有指标提升明显。\n\n它值得正式收录，因为它不是又一个视频生成打分器，而是把 text-to-video evaluation 明确推进到可表达、可组合、可检验的时序约束层。这个接口对视频世界模型、多模态生成评测以及安全敏感生成系统都有持续方法价值。\n\n它暂时不升到更高一级，原因在于它首先仍是评测方法而不是生成范式本身；其长期地位还取决于后续是否被更广泛的视频生成、世界模型和安全评测工作采纳为默认对齐指标。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "multimodal_foundation_models",
      "theme_label": "多模态基础模型",
      "published_at": "2024-11-22",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 20,
      "source_url": "https://openaccess.thecvf.com/content/CVPR2025/papers/Sharan_Neuro-Symbolic_Evaluation_of_Text-to-Video_Models_using_Formal_Verification_CVPR_2025_paper.pdf",
      "paper_url": "https://openaccess.thecvf.com/content/CVPR2025/papers/Sharan_Neuro-Symbolic_Evaluation_of_Text-to-Video_Models_using_Formal_Verification_CVPR_2025_paper.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "P23_HINTS_Hybrid_PDE_Solver",
      "slug": "p23-hints-hybrid-pde-solver",
      "detail_url": "papers/p23-hints-hybrid-pde-solver/",
      "title": "Blending neural operators and relaxation methods in PDE numerical solvers",
      "summary": "这篇论文处理的是科学计算里一个很经典但一直没有被 AI 真正解决干净的问题：传统 relaxation / multigrid / Krylov 一类数值方法在高频误差与低频误差上的收敛特性并不均衡，而纯 neural operator 又有明显的 spectral bias，很难稳健覆盖高频部分。作者没有把神经网络简单塞进 PDE 求解器，而是把两类方法的失效模式并排放在一起，专门设计一个混合求解流程去利用它们的互补性。\n\n论文提出 HINTS，把 DeepONet 与标准 relaxation methods 结合成一个 hybrid、iterative、transferable solver。关键点不只是“神经网络加速数值计算”，而是让 neural operator 去吸收低频/全局部分，让 relaxation 去快速消化高频部分，从而在谱空间上形成更均衡的收敛。它同时保持了并行性、可扩展性、对不同离散化/边界条件/计算域的灵活性，还可以作为 Krylov 方法的 preconditioner 使用。\n\n这篇值得正式收录，因为它展示的是一种有持久价值的 AI x scientific computing workflow：不是让模型直接替代求解器，而是让 learned operator 成为数值算法中的结构化组件，与已有 solver 形成分工协作。这种 blending neural operators with classical solvers 的思路，对 PDE 数值求解、科学模拟、预条件设计以及更广义的 AI for scientific computing 都有明显外溢价值。它也符合仓库当前对 AI x math/physics/scientific computing 扩展的重点。\n\n它暂时不到更高一级，原因在于它虽然方法上很漂亮、系统上也有说服力，但更像一个强而稳的 hybrid solver recipe，而不是彻底改写神经算子或 PDE 求解范式的分水岭。其主要影响仍集中在 PDE 数值求解与相关 scientific ML 场景，要证明它会成为更广泛的默认蓝图，还需要后续更多跨问题、跨架构和更大规模应用验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "physics_and_ai_for_science",
      "theme_label": "物理与 AI for Science",
      "published_at": "2024-10-17",
      "doi": "10.1038/s42256-024-00910-x",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 19,
      "source_url": "https://www.nature.com/articles/s42256-024-00910-x",
      "paper_url": "https://www.nature.com/articles/s42256-024-00910-x",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A96_AFlow_Workflow_Generation",
      "slug": "a96-aflow-workflow-generation",
      "detail_url": "papers/a96-aflow-workflow-generation/",
      "title": "AFlow: Automating Agentic Workflow Generation",
      "summary": "AFlow tackles a practical bottleneck in agent systems: building strong workflows still takes substantial human effort, and existing automatic approaches often rely on manually seeded structures. The paper turns workflow optimization into an explicit search problem over code-represented workflows.\n\nIts central mechanism is to use Monte Carlo Tree Search over workflow code, with iterative modification, execution feedback, and a structured experience tree. This gives the system a concrete way to explore agent pipelines as programs instead of relying on one-shot prompt rewrites or static templates.\n\nFor the repository, AFlow is worth collecting because it is one of the clearest strong method papers in the workflow-optimization line. It operationalizes the broader ADAS / optimizable-graphs intuition into a concrete search algorithm that can improve real workflows across multiple benchmarks.\n\nIt is not ranked higher because it is narrower than the strongest route-defining abstractions and remains one method inside the broader automated-agent-design space. But as a practical and reusable workflow-search pattern, it is clearly above the inclusion bar.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2024-10-14",
      "doi": "",
      "arxiv_id": "2410.10762",
      "collected_at": "",
      "collection_order": 18,
      "source_url": "https://arxiv.org/pdf/2410.10762.pdf",
      "paper_url": "https://arxiv.org/pdf/2410.10762.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A104_LongMemEval_Interactive_Memory",
      "slug": "a104-longmemeval-interactive-memory",
      "detail_url": "papers/a104-longmemeval-interactive-memory/",
      "title": "LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory",
      "summary": "面向长期交互的 chat assistant，真正关键的能力不是单轮问答，而是跨很多 session 持续记住用户事实、更新旧知识、处理时间变化并在无证据时拒答。LongMemEval 针对的正是这个现实缺口：此前很多记忆评测要么上下文过短，要么缺少知识更新与多 session 结构，导致系统很难被逼近真实长期助理场景。\n\n这篇工作的核心贡献有两层。第一层是 benchmark 本身：它把长期记忆能力拆成信息提取、多 session 推理、时间推理、知识更新和 abstention 五个维度，并构造出可自由扩展的长历史聊天环境。第二层是方法分析框架：作者把 memory system 明确分解为 indexing、retrieval、reading 等阶段，并从 value granularity、key expansion、time-aware query expansion 等设计点系统比较，使它不只是“一个榜”，而是一个能反向指导 memory architecture 设计的评测接口。\n\n对这个仓库来说，它的重要性不在于又多了一个 benchmark，而在于它把 chat assistant long-term memory 评测从模糊的“能不能记住”推进成了结构化设计问题。后续很多 agent memory、profile memory、context infrastructure 和 update-aware retrieval 工作都直接或间接围绕这几个维度展开，因此它已经具备 durable reference 的地位。\n\n它目前定为 disruptive 而不是更高一级，因为它主要重排的是 agent memory evaluation 与系统设计，而不是直接提出一个普适的新学习范式；同时其数据生成和评测框架仍然主要聚焦 user-assistant chat assistant 场景，离更广的 embodied、multi-agent、tool-interactive lifelong memory 还有边界。",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2024-10-14",
      "doi": "",
      "arxiv_id": "2410.10813",
      "collected_at": "",
      "collection_order": 17,
      "source_url": "https://arxiv.org/pdf/2410.10813.pdf",
      "paper_url": "https://arxiv.org/pdf/2410.10813.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "连GPT-4o也难逃记忆断崖？LongMemEval揭露大模型在150万Token交互下的性能失效",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "longmemeval benchmarking chat assistants on long term interactive memory",
          "description": "即便拥有超长上下文窗口，GPT-4o等顶尖大模型在处理真实长期交互时仍面临“记忆断崖”。本视频深入解析LongMemEval基准测试，该测试通过150万Token、500次会话的极限挑战，评估了模型在信息提取、多会话推理、知识更新等五大维度的表现。实验证明，单纯增加输入长度无法解决“迷失在中间”的性能衰退，商用模型准确率降幅最高达64%。针对这一痛点，研究提出了涵盖索引、检索与阅读的统一记忆框架，通过会话分解与事实增强索引等策略，显著提升了AI助手的个性化交互质量与长期召回能力，为构建可靠的记忆增强型LLM提供了技术路径。",
          "x_post": "LongMemEval基准发布：GPT-4o在150万Token长期交互下准确率最高跌幅达64%\n针对AI助手在多会话交互中出现的记忆衰退与个性化失效问题，研究团队推出LongMemEval评测基准。该基准通过500个深度人工测试集，从信息提取、多会话推理、时间推理等五个维度，评估模型在极限长度下的交互质量。\n实验数据揭示，即便是顶尖商用模型也难逃“迷失在中间”的困境：在处理达150万Token的超长历史时，GPT-4o的准确率下降30.3%，而Llama 3.1 70B的性能萎缩达55.1%。单纯增加上下文窗口长度并不能有效解决长期记忆失效问题。\n为应对挑战，研究者提出了一套包含索引、检索与阅读的统一记忆框架。通过将会话降维拆解为细粒度对话轮次并引入事实增强索引，该方案在多会话推理任务中显著提升了信息召回率，为构建可靠的记忆增强型LLM提供了技术路径。",
          "cover_url": "assets/covers/a104-longmemeval-interactive-memory-627cf24f2b.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-01T11:22:40+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "A102_DRAFT_Tool_Mastery",
      "slug": "a102-draft-tool-mastery",
      "detail_url": "papers/a102-draft-tool-mastery/",
      "title": "From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions",
      "summary": "This paper focuses on a real bottleneck in tool-use agents: tool documentation is usually written for humans, not for LLMs, so tool mastery often breaks down because models do not receive the right operational information in the right form. Instead of treating tool descriptions as fixed, the paper asks whether agents can refine them through interaction.\n\nThe core mechanism is DRAFT, a framework that dynamically refines tool documentation using feedback and trials gathered from the LLM’s own interactions with tools. This shifts tool mastery from passive reading of static docs to an active self-improvement loop grounded in execution experience.\n\nFor the repository, this is worth collecting because it adds an important dimension to the tool-use line: not only can agents retrieve and call tools, they can also improve the interface through which they understand them. That is a durable capability-extension pattern with clear spillover to enterprise tools, API ecosystems, and long-running agents.\n\nIt is not ranked higher because the contribution is narrower than infrastructure-scale works such as ToolLLM and more interface-specific than the broadest route changes in agent systems. But it is a strong and reusable tool-learning pattern.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2024-10-10",
      "doi": "",
      "arxiv_id": "2410.08197",
      "collected_at": "",
      "collection_order": 16,
      "source_url": "https://arxiv.org/pdf/2410.08197.pdf",
      "paper_url": "https://arxiv.org/pdf/2410.08197.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A98_ToolGen_Generative_Tool_Use",
      "slug": "a98-toolgen-generative-tool-use",
      "detail_url": "papers/a98-toolgen-generative-tool-use/",
      "title": "ToolGen: Unified Tool Retrieval and Calling via Generation",
      "summary": "ToolGen addresses a core inefficiency in tool-using LLM systems: retrieval and calling are usually split into separate stages, with tool descriptions injected as context and a separate retriever deciding what to show the model. This creates bottlenecks in scale and elegance.\n\nIts key move is to represent tools as tokens and let the model retrieve and call tools as part of generation itself. That collapses retrieval and invocation into a single generative interface, opening a cleaner path toward end-to-end tool learning over large toolsets.\n\nThis matters for the repository because ToolGen is a strong example of a reusable interface innovation rather than a narrow benchmark gain. It changes how one can think about scaling tool use, especially when the number of tools becomes too large for naive context injection and pipeline stitching.\n\nIt is not ranked higher because the line is still relatively young and needs more evidence across broader settings. But the interface idea is strong and durable enough for formal collection.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2024-10-04",
      "doi": "",
      "arxiv_id": "2410.03439",
      "collected_at": "",
      "collection_order": 15,
      "source_url": "https://arxiv.org/pdf/2410.03439.pdf",
      "paper_url": "https://arxiv.org/pdf/2410.03439.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "HW19_GenCAD_Image_to_CAD",
      "slug": "hw19-gencad-image-to-cad",
      "detail_url": "papers/hw19-gencad-image-to-cad/",
      "title": "GenCAD: Image-Conditioned Computer-Aided Design Generation with Transformer-Based Contrastive Representation and Diffusion Priors",
      "summary": "从图像或草图生成真正可编辑、可制造的 CAD 模型，是 AI 进入产品与机械设计流程的关键一步。很多 3D 生成工作可以输出 mesh、voxel 或 point cloud，但这些表示并不能直接进入工程设计与制造流程，因此和真实 CAD 工作流之间一直有明显断层。\n\nGenCAD 把这个问题建成 image-conditioned CAD command generation。它用 autoregressive transformer 建模参数化 CAD 命令序列，再用对比学习把图像与 CAD 表征对齐，并引入 latent diffusion priors 强化条件生成能力。结果不只是生成更像的 3D 形状，而是输出可编辑的 CAD 程序，同时还能支持基于图像查询的大规模 CAD 检索。\n\n这篇论文值得收录，因为它给出了从视觉输入进入 parametric CAD 表达的一条清晰接口，对 AI 驱动的设计自动化、reverse engineering 和 design retrieval 都有直接外溢。和只做 3D 几何生成的工作相比，它更接近工程链路里真正可用的中间表示，因此符合仓库对 CAD / 设计自动化方向的高价值条目标准。\n\n它暂时不再升一级，因为当前仍主要聚焦在 CAD 生成与检索本身，还没有把 manufacturability、仿真反馈、设计约束和后续制造环节连成完整闭环。它是很强的方法接口层工作，但还不是完整的 design automation workflow 重构。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "ai_hardware_and_accelerator_design",
      "theme_label": "AI 硬件与加速器",
      "published_at": "2024-09-08",
      "doi": "",
      "arxiv_id": "2409.16294",
      "collected_at": "",
      "collection_order": 14,
      "source_url": "https://arxiv.org/pdf/2409.16294.pdf",
      "paper_url": "https://arxiv.org/pdf/2409.16294.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "攻克工业级3D建模的效率瓶颈：GenCAD通过扩散先验实现从视觉直觉到B-rep实体的跨越",
          "url": "https://www.bilibili.com/video/BV1zuXRBJEqr",
          "platform_urls": [
            "https://www.bilibili.com/video/BV1zuXRBJEqr",
            "https://youtu.be/lu_7wPXDDI8"
          ],
          "main_collection": "AI硬件设计",
          "match": "gencad image conditioned computer aided design generation with transformer based contrastive representation and diffusion priors",
          "description": "针对工业级3D建模手动耗时长、传统网格模型不可编辑的痛点，MIT研究团队推出GenCAD模型。该模型结合自回归Transformer与对比学习框架，将视觉图像或草图转化为具备完整设计历史的B-rep参数化指令。技术核心在于CSR序列重构与CDP扩散先验，实现了跨模态信息的高度对齐。实验数据表明，GenCAD在指令生成准确率上达到99.5%，在基于图像的零件检索任务中精度提升15倍以上。该研究成功将视觉直觉转化为可直接投入生产的工程代码，为工业设计数字化流程提供了自动化闭环方案。",
          "x_post": "麻省理工学院（MIT）团队发布GenCAD：利用扩散先验实现图像到B-rep实体的自动化生成，检索精度提升超15倍。\n针对传统CAD建模耗时长且网格模型缺乏可编辑性的痛点，研究团队提出GenCAD框架。该方案通过自回归Transformer内化CAD语法，并利用扩散先验（CDP）在视觉引导下重构CAD潜在向量，将图像或草图转化为具备完整设计历史的参数化指令。实验数据显示，GenCAD的指令生成准确率达到99.5%，在基于图像的零件检索任务中精度提升15倍以上。该研究成功将视觉直觉转化为可直接投入生产的工程代码，为工业设计数字化流程提供了自动化闭环方案。",
          "cover_url": "assets/covers/hw19-gencad-image-to-cad-bfb5722c43.jpg",
          "has_local_video": true,
          "updated_at": "2026-03-29T18:49:31+08:00"
        }
      ],
      "pdf_download_url": ""
    },
    {
      "id": "N62_NeuroLM_EEG_Foundation",
      "slug": "n62-neurolm-eeg-foundation",
      "detail_url": "papers/n62-neurolm-eeg-foundation/",
      "title": "NeuroLM: A Universal Multi-task Foundation Model for Bridging the Gap between Language and EEG Signals",
      "summary": "这篇工作针对 EEG 预训练领域一个长期存在的瓶颈：已有基础模型虽然能通过大规模预训练学到通用表征，但下游任务往往仍需要分别全量微调，导致任务割裂、资源浪费，也难以形成真正统一的 EEG 基础模型。论文提出 NeuroLM，把 EEG 信号视为一种可被语言模型处理的“外语”，试图把 LLM 式多任务推理能力引入脑电领域。\n\n方法上的关键在于三步结合：先学习一个与文本空间对齐的神经分词器，把 EEG 转成离散 neural tokens；再用多通道自回归方式在 LLM 框架中学习 EEG 的因果结构；最后通过指令微调把不同 EEG 下游任务统一到一个模型中。论文的核心新意不是单独做更大的 EEG 预训练，而是明确把语言建模、tokenization 和 instruction tuning 这套范式迁移到 EEG。\n\n这项工作值得收录，因为它是 EEG foundation model 路线里少见的真正框架级推进。它对脑机接口、神经信号表征学习和多任务基础模型都有明确价值，也对 AI 研究中跨模态 tokenization、低信噪比时序建模和任务统一范式提供了直接启发。对于仓库来说，它比普通 EEG 应用论文更接近可复用的方法论条目。\n\n它还不到更高一级，原因是当前主要验证仍集中在 EEG 任务集合内，跨模态统一和更广泛临床/认知场景泛化还需要后续工作支持。它是很强的 breakthrough，但还没到重排更大范围 NeuroAI 或 foundation model 路线的 disruptive 级别。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "neuroscience_and_cognitive_science",
      "theme_label": "神经科学与认知科学",
      "published_at": "2024-08-27",
      "doi": "",
      "arxiv_id": "2409.00101",
      "collected_at": "",
      "collection_order": 13,
      "source_url": "https://arxiv.org/pdf/2409.00101.pdf",
      "paper_url": "https://arxiv.org/pdf/2409.00101.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A95_ADAS_Automated_Agentic_Systems",
      "slug": "a95-adas-automated-agentic-systems",
      "detail_url": "papers/a95-adas-automated-agentic-systems/",
      "title": "Automated Design of Agentic Systems",
      "summary": "Automated Design of Agentic Systems reframes a large part of agent engineering as a search problem rather than a hand-designed craft. Instead of manually inventing prompts, tool-use patterns, or workflows, it asks whether a meta-agent can program and iteratively discover stronger agent systems directly in code.\n\nThe main novelty is elevating automatic agent design into an explicit research area, ADAS, and grounding that idea with Meta Agent Search. The paper argues that if agent systems are code, then the search space includes prompts, control flow, tool use, and system composition all at once, making learned design a plausible replacement for hand-built architectures.\n\nThis matters for the repository because it changes how one frames progress in agent systems. It is not merely another workflow-search paper; it is a route-level paper that says the design of agentic systems itself should become an optimization target. That has strong spillover into autonomous science, workflow generation, and self-evolving systems.\n\nIt is not ranked higher because the line is still early and expensive, and later work is still testing its practical limits. But the framing is important enough that it deserves formal collection as a durable reference.",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2024-08-15",
      "doi": "",
      "arxiv_id": "2408.08435",
      "collected_at": "",
      "collection_order": 12,
      "source_url": "https://arxiv.org/pdf/2408.08435.pdf",
      "paper_url": "https://arxiv.org/pdf/2408.08435.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A94_GPTSwarm_Optimizable_Graphs",
      "slug": "a94-gptswarm-optimizable-graphs",
      "detail_url": "papers/a94-gptswarm-optimizable-graphs/",
      "title": "GPTSwarm: Language Agents as Optimizable Graphs",
      "summary": "GPTSwarm proposes a clean abstraction for language-agent systems: treat them as computational graphs whose nodes are LM calls or multimodal operations and whose edges define information flow. This moves agent design away from a bag of prompt tricks toward an explicit, compositional systems interface.\n\nThe key contribution is not only the graph view itself, but the idea that these graphs can be optimized automatically at two levels: node optimization for prompts and edge optimization for orchestration. That makes prompt refinement and agent-topology search part of the same programmable object.\n\nThis belongs in the repository because it provides one of the most durable conceptual bridges between prompt engineering, multi-agent coordination, and workflow optimization. Many later automatic agent-design and workflow-search papers are easier to interpret as descendants or extensions of this graph-based view.\n\nIt is not ranked higher because the paper is still an early foundation for the workflow-optimization line rather than the final dominant formulation. But as a reusable abstraction for agent design and automatic improvement, it clearly rises above a routine method paper.",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2024-07-08",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 11,
      "source_url": "https://raw.githubusercontent.com/mlresearch/v235/main/assets/zhuge24a/zhuge24a.pdf",
      "paper_url": "https://raw.githubusercontent.com/mlresearch/v235/main/assets/zhuge24a/zhuge24a.pdf",
      "project_urls": [
        "https://raw.githubusercontent.com/mlresearch/v235/main/assets/zhuge24a/zhuge24a.pdf"
      ],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A100_AutoFlow_Workflow_Generation",
      "slug": "a100-autoflow-workflow-generation",
      "detail_url": "papers/a100-autoflow-workflow-generation/",
      "title": "AutoFlow: Automated Workflow Generation for Large Language Model Agents",
      "summary": "AutoFlow addresses a practical pain point in early LLM-agent systems: strong workflows were often hand-built, brittle, and expensive to design. The paper asks whether workflow generation itself can be automated, so that agent systems can be synthesized rather than manually assembled from prompts and hand-written control logic.\n\nIts core contribution is to treat workflows as natural-language programs and to let an automated framework generate and optimize those programs for complex tasks. This is an important precursor in the broader workflow-optimization line because it makes workflow synthesis explicit before later work pushed the space toward more structured search and stronger optimization algorithms.\n\nFor the repository, AutoFlow is worth collecting as an early durable reference in automatic workflow generation. It helps explain the lineage from prompt-engineering-heavy agents toward explicit workflow search, code-like orchestration, and eventually more formal graph and search-based agent-design systems.\n\nIt is not ranked higher because later work such as AFlow and ADAS gives cleaner or stronger optimization formulations. AutoFlow is best read as an influential early workflow-generation system rather than the final form of the line.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2024-07-01",
      "doi": "",
      "arxiv_id": "2407.12821",
      "collected_at": "",
      "collection_order": 10,
      "source_url": "https://arxiv.org/pdf/2407.12821.pdf",
      "paper_url": "https://arxiv.org/pdf/2407.12821.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "RL33_IRASim_Robot_World_Model",
      "slug": "rl33-irasim-robot-world-model",
      "detail_url": "papers/rl33-irasim-robot-world-model/",
      "title": "IRASim: A Fine-Grained World Model for Robot Manipulation",
      "summary": "机器人操作中的 world model 一直受限于一个很具体但关键的问题：动作和视觉结果之间往往对不齐，尤其在精细交互场景里，已有方法难以稳定建模机器人与物体之间的细粒度接触和状态变化。这直接限制了 world model 在策略评估、规划和测试时扩展中的实际价值。\n\nIRASim 的核心做法是训练一个面向机器人操作的视频生成 world model，并在 diffusion transformer 内引入 frame-level 的 action conditioning 模块，强化动作与帧之间的精细对齐。论文报告它不仅能生成更细粒度的操作视频，而且在 policy evaluation 上与真实 simulator 表现出更强相关性，并可用于 test-time scaling 的 model-based planning 来提升操作性能。\n\n它值得正式收录，因为它不是单纯把视频生成搬到机器人场景，而是把 world model 真正推向了可用于操作策略评估和规划的基础设施层。这对 embodied world model、robot planning 和部署期扩展都有直接方法外溢。\n\n它暂时不升到更高一级，原因是这条线仍主要集中在 robot manipulation world model 子方向；虽然结果扎实，但是否会成为更广泛 embodied planning 的长期默认接口，还需要更多跨任务和跨平台复用来验证。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reinforcement_learning",
      "theme_label": "强化学习",
      "published_at": "2024-06-20",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 9,
      "source_url": "https://openaccess.thecvf.com/content/ICCV2025/papers/Zhu_IRASim_A_Fine-Grained_World_Model_for_Robot_Manipulation_ICCV_2025_paper.pdf",
      "paper_url": "https://openaccess.thecvf.com/content/ICCV2025/papers/Zhu_IRASim_A_Fine-Grained_World_Model_for_Robot_Manipulation_ICCV_2025_paper.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A91_TextGrad_Textual_Differentiation",
      "slug": "a91-textgrad-textual-differentiation",
      "detail_url": "papers/a91-textgrad-textual-differentiation/",
      "title": "TextGrad: Automatic \"Differentiation\" via Text",
      "summary": "TextGrad takes a useful systems idea and makes it explicit: if many LLM pipelines are made of textual intermediate states, then optimization can also happen in text rather than weights. The paper proposes an automatic differentiation analogue where textual feedback acts as the optimization signal for prompts, completions, and intermediate artifacts.\n\nWhat is novel is not just using critiques, but organizing them under a clean optimization abstraction. TextGrad turns prompt and pipeline improvement into a programmable interface, which helps connect language-based optimization with modular agent workflows, synthetic supervision, and structured program improvement.\n\nThis is relevant to the repository because many self-evolving-agent systems eventually need a way to optimize external artifacts without touching base-model parameters. TextGrad provides one of the clearest abstractions for that regime. It is especially useful as a bridge between prompt optimization, agent workflow search, and deployment-time self-improvement.\n\nIt is not ranked higher because the paper’s empirical scope and downstream systems impact are still more limited than the strongest paradigm-setting optimization frameworks. But the abstraction is durable, and later work on textual optimization and workflow improvement is easier to interpret with TextGrad as a reference point.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2024-06-11",
      "doi": "",
      "arxiv_id": "2406.07496",
      "collected_at": "",
      "collection_order": 8,
      "source_url": "https://arxiv.org/pdf/2406.07496.pdf",
      "paper_url": "https://arxiv.org/pdf/2406.07496.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "R39_RobustRAG_Retrieval_Corruption",
      "slug": "r39-robustrag-retrieval-corruption",
      "detail_url": "papers/r39-robustrag-retrieval-corruption/",
      "title": "Certifiably Robust RAG against Retrieval Corruption",
      "summary": "RAG 系统的一个核心脆弱点是 retrieval corruption：攻击者只要向检索结果里注入恶意文段，就可能把最终回答拉偏。大多数现有防御依赖启发式过滤、重排序或 prompt-level 规避，缺少能够对攻击上界给出形式保证的机制，因此很难说系统在面对自适应攻击时究竟有多稳。\n\nRobustRAG 提出 isolate-then-aggregate 的防御框架：先把检索到的 passages 隔离成若干互不重叠的组，再分别基于每组 passages 生成回答，最后对这些回答做安全聚合，从而削弱少量恶意文段对整体输出的操控能力。作者进一步给出面向非结构化文本回答的 keyword-based 和 decoding-based aggregation 实例，并证明在攻击者至多注入有界数量恶意 passages 的前提下，系统可以对回答质量给出可认证的下界。\n\n这篇工作值得收录，因为它把 RAG 安全从经验性 defense 推进到 certifiable robustness。对 retrieval-augmented systems、enterprise knowledge agents 和任何依赖外部知识拼装上下文的工作流来说，这种 isolate-then-aggregate 的防御思路都比单纯检测或重排更耐久，也更适合作为安全基线。\n\n它没有升到更高一级，是因为当前方法仍聚焦 retrieval corruption 这一明确攻击面，尚未扩展成更广 RAG 安全统一框架。它是非常强的安全方法论文，但作用范围仍相对明确。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "reasoning_memory_and_inference_control",
      "theme_label": "推理、记忆与推理时控制",
      "published_at": "2024-05-24",
      "doi": "",
      "arxiv_id": "2405.15556",
      "collected_at": "",
      "collection_order": 7,
      "source_url": "https://arxiv.org/pdf/2405.15556.pdf",
      "paper_url": "https://arxiv.org/pdf/2405.15556.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A105_LoCoMo_Conversational_Memory",
      "slug": "a105-locomo-conversational-memory",
      "detail_url": "papers/a105-locomo-conversational-memory/",
      "title": "Evaluating Very Long-Term Conversational Memory of LLM Agents",
      "summary": "在 LongMemEval 之前，超长对话记忆的评测长期缺少高质量、长跨度、可检验时间与因果一致性的会话数据。LoCoMo 试图填补的就是这个空白：它不是简单拉长上下文，而是围绕 persona、时间事件图和跨 session 互动去构建真正需要长期记忆和时间线理解的会话基准。\n\n这篇工作的核心新意在于其 machine-human 数据生成流程。系统先基于 persona 与 temporal event graph 生成很长的对话，再由人工核验和编辑，以保证长程一致性、事件锚定和角色约束；同时 benchmark 不只测 QA，还覆盖 event summarization 与 multimodal dialogue generation，使它比普通 retrieval QA 数据更接近真实长期对话代理的工作负载。\n\n它对仓库的价值在于提供了 agent memory 这条线最早一批真正耐用的长时对话基准之一。后续很多 memory architecture、graph memory、temporal retrieval、episodic-semantic memory 工作都把 LoCoMo 当成标准战场，因此它已经是理解这条路线不可绕开的 reference。\n\n它目前是 breakthrough 而不是更高一级，因为它更偏 benchmark/data resource，而不像 LongMemEval 那样同时显式提供了一套更系统的 memory design decomposition；此外，公开讨论中也开始出现对评分和标注稳定性的审视，因此作为 durable benchmark reference 值得收录，但仍需要带着质量边界意识来使用。",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2024-02-27",
      "doi": "",
      "arxiv_id": "",
      "collected_at": "",
      "collection_order": 6,
      "source_url": "https://aclanthology.org/2024.acl-long.747.pdf",
      "paper_url": "https://aclanthology.org/2024.acl-long.747.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A92_DSPy_Self_Improving_Pipelines",
      "slug": "a92-dspy-self-improving-pipelines",
      "detail_url": "papers/a92-dspy-self-improving-pipelines/",
      "title": "DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines",
      "summary": "DSPy reframes prompt engineering as program compilation. Rather than hand-writing brittle prompts end to end, it lets developers specify declarative language-model modules and then compile those modules into better-performing pipelines using optimization over examples, traces, and metrics. This is a major shift in how LLM systems are built.\n\nThe central contribution is a workflow abstraction, not just another prompting trick. DSPy separates program structure from prompt parameters and makes self-improvement a compiler responsibility. That directly changes how one should think about maintainability, reproducibility, and optimization in agentic systems built from multiple LM calls.\n\nThis paper belongs in the repository because it has broad spillover across self-evolving agents, prompt optimization, pipeline search, and capability engineering. It is one of the most durable references for turning language-model systems into optimizable software artifacts, and it influenced a large amount of later agent engineering practice.\n\nIt is not ranked higher because the paper is still primarily a systems-and-programming abstraction rather than a full new scientific paradigm. But within the space of LLM workflow construction and self-improving pipelines, its impact is substantial enough to justify a disruptive grade.",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2023-10-05",
      "doi": "",
      "arxiv_id": "2310.03714",
      "collected_at": "",
      "collection_order": 5,
      "source_url": "https://arxiv.org/pdf/2310.03714.pdf",
      "paper_url": "https://arxiv.org/pdf/2310.03714.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A97_ToolLLM_Tool_Use_Framework",
      "slug": "a97-toolllm-tool-use-framework",
      "detail_url": "papers/a97-toolllm-tool-use-framework/",
      "title": "ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs",
      "summary": "ToolLLM is one of the earliest serious attempts to turn open-source LLMs into broad tool-using agents at realistic API scale. Rather than treating tool use as a handful of handcrafted functions, it frames the problem around thousands of real-world APIs and builds the full stack needed to train and evaluate that capability.\n\nThe paper’s importance comes from the combination of ToolBench, ToolEval, retrieval, and search-based calling. It does not just show a model using tools; it creates data construction, evaluation infrastructure, and a training recipe that made large-scale tool-use research more concrete and reproducible.\n\nThis is highly relevant to the repository because later tool-use agent work repeatedly depends on this line of thinking: tool use is an infrastructure problem involving datasets, retrieval, execution traces, and scalable evaluation, not just prompting. ToolLLM therefore acts as a foundational reference for the tool-use ecosystem.\n\nIt is not ranked higher because subsequent work improves specific pieces such as retrieval quality, unified generation, and orchestration. But as a durable early systems reference for large-scale tool learning, it merits formal collection at a high grade.",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2023-07-31",
      "doi": "",
      "arxiv_id": "2307.16789",
      "collected_at": "",
      "collection_order": 4,
      "source_url": "https://arxiv.org/pdf/2307.16789.pdf",
      "paper_url": "https://arxiv.org/pdf/2307.16789.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A93_Voyager_Embodied_Agent",
      "slug": "a93-voyager-embodied-agent",
      "detail_url": "papers/a93-voyager-embodied-agent/",
      "title": "Voyager: An Open-Ended Embodied Agent with Large Language Models",
      "summary": "Voyager is one of the earliest strong demonstrations that an LLM agent can accumulate reusable skills in an open-ended embodied environment instead of merely solving isolated tasks. In Minecraft, it treats code generation, environment interaction, automatic curriculum, and skill library growth as a coupled loop rather than separate components.\n\nIts main novelty is the combination of iterative exploration with a persistent skill library and an automatically expanding curriculum. That makes capability growth cumulative: the agent is not only improving within an episode, but building a reusable external competence base that later tasks can call back into.\n\nThe paper matters here because many later agent-memory and skill-library systems can be read as more general, more robust, or more practical descendants of the Voyager pattern. For embodied and tool-using agents, it was an early convincing example that open-ended capability acquisition can be orchestrated without changing base-model weights.\n\nIt is not ranked higher because the environment and engineering stack are still relatively specific, and later work provides stronger generalization, evaluation, and systems grounding. But as an early milestone for open-ended skill accumulation in LLM agents, it is clearly worth formal collection.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2023-05-25",
      "doi": "",
      "arxiv_id": "2305.16291",
      "collected_at": "",
      "collection_order": 3,
      "source_url": "https://arxiv.org/pdf/2305.16291.pdf",
      "paper_url": "https://arxiv.org/pdf/2305.16291.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A90_Self_Refine_Self_Feedback",
      "slug": "a90-self-refine-self-feedback",
      "detail_url": "papers/a90-self-refine-self-feedback/",
      "title": "Self-Refine: Iterative Refinement with Self-Feedback",
      "summary": "Self-Refine studies a broad pattern that later became ubiquitous in LLM systems: generate an answer, critique it in natural language, and then rewrite it using that critique. The paper is not limited to one task or one agent benchmark; it instead tests the generality of iterative self-feedback as a reusable inference-time improvement mechanism.\n\nIts main technical contribution is to show that a single LLM can alternate between generator, critic, and refiner roles without parameter updates or external training signals. That makes refinement a modular control loop rather than a task-specific recipe. The idea is simple, but it generalized unusually well and became part of the default toolkit for many later agent and reasoning systems.\n\nFor this repository, Self-Refine matters because it is one of the cleanest reusable formulations of language-space iterative improvement. It sits directly on the path from static prompting to self-correcting agents, and it remains a useful reference when evaluating newer systems that claim self-improvement via reflection, critique, or revision.\n\nIt is not ranked higher because the paper is intentionally broad and lightweight rather than a field-redefining systems result. It does not solve memory, tool use, or long-horizon adaptation by itself. But as a durable primitive for self-improving inference, it clearly deserves formal collection.",
      "grade": "breakthrough",
      "grade_label": "突破级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2023-03-30",
      "doi": "",
      "arxiv_id": "2303.17651",
      "collected_at": "",
      "collection_order": 2,
      "source_url": "https://arxiv.org/pdf/2303.17651.pdf",
      "paper_url": "https://arxiv.org/pdf/2303.17651.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": false,
      "videos": [],
      "pdf_download_url": ""
    },
    {
      "id": "A89_Reflexion_Verbal_RL",
      "slug": "a89-reflexion-verbal-rl",
      "detail_url": "papers/a89-reflexion-verbal-rl/",
      "title": "Reflexion: Language Agents with Verbal Reinforcement Learning",
      "summary": "Reflexion addresses a simple but foundational weakness in early language agents: they can act, but they do not reliably turn failure into reusable internal improvement. Instead of treating each attempt as stateless prompting, the paper frames agent behavior as an iterative loop in which the model performs a task, evaluates the outcome, and writes verbal reflections that condition the next attempt.\n\nThe paper’s core contribution is to externalize reinforcement into natural-language self-critique rather than gradient updates. This makes the adaptation mechanism cheap, inspectable, and broadly reusable across environments where scalar rewards or environment feedback exist but model weights are fixed. In practice, Reflexion made the self-feedback loop itself a first-class agent primitive.\n\nThis matters for the repository because a large share of later self-evolving, memory-augmented, and post-deployment agent work inherits this exact pattern: attempt, feedback, reflection, retry. Even when newer systems add memory routing, tool traces, or skill distillation, Reflexion remains one of the clearest early papers showing that language-space feedback can function like lightweight reinforcement for agents.\n\nIt is not ranked higher because the paper is still an early framework paper rather than a fully mature long-horizon agent system. Its evaluation scope is narrower than later computer-use and open-ended agent settings, and many later papers improve stability, transfer, and memory structure. But as a durable conceptual template, it clears the bar comfortably.",
      "grade": "disruptive",
      "grade_label": "颠覆级",
      "theme": "agents_and_autonomous_science",
      "theme_label": "智能体与自主科学",
      "published_at": "2023-03-20",
      "doi": "",
      "arxiv_id": "2303.11366",
      "collected_at": "",
      "collection_order": 1,
      "source_url": "https://arxiv.org/pdf/2303.11366.pdf",
      "paper_url": "https://arxiv.org/pdf/2303.11366.pdf",
      "project_urls": [],
      "repo_urls": [],
      "has_video": true,
      "videos": [
        {
          "title": "编程通过率飙升至91%：Reflexion凭借记忆双轨机制，终结大模型的无效探索",
          "url": "",
          "platform_urls": [],
          "main_collection": "本地视频素材",
          "match": "reflexion language agents with verbal reinforcement learning",
          "description": "本视频深度解析由东北大学、MIT与普林斯顿联合研发的Reflexion语言智能体框架。针对大模型在复杂任务中无法从失败中积累经验的痛点，Reflexion引入语言强化学习机制，通过执行者、评估者与反思者的协同，将失败转化为文本形式的“语义梯度”。该框架的核心在于记忆双轨机制，结合短期动作轨迹与长期经验结晶，实现无需微调的自我进化。实验证明，Reflexion在HumanEval编程测试中达到91%的通过率，并在决策任务中显著超越基线模型。这种机制模拟了人类的试错学习，兼具高效能与可解释性。",
          "x_post": "东北大学、MIT与普林斯顿研发Reflexion框架：HumanEval通过率达91%\n针对大语言模型在复杂任务中难以从失败中积累经验的瓶颈，Reflexion提出一种基于语言强化学习的智能体架构。其核心在于“语义梯度”机制，通过执行者、评估者与反思者的协同，将反馈转化为文本经验存入双轨记忆，实现无需权重微调的自我进化。\n实验数据显示，Reflexion在HumanEval编程测试中达到91%的通过率，并在ALFWorld复杂决策任务中实现22%的绝对性能提升，有效解决了无效探索问题。\n该研究模拟了人类试错与总结的学习过程，在提升任务成功率的同时，增强了决策逻辑的可解释性与透明度。",
          "cover_url": "assets/covers/a89-reflexion-verbal-rl-b9c2fb8c8f.jpg",
          "has_local_video": true,
          "updated_at": "2026-04-02T16:38:01+08:00"
        }
      ],
      "pdf_download_url": ""
    }
  ]
}
