CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists
AI scientist 评测不能只看最终答案是否对,还要看模型是否通过真实可解释机制获得答案。 CausaLab 把 agent 放进 synthetic laboratory:给定观测记录,允许对 manipulator crystal 做干预,然后预测 reactor crystal,同时需要恢复隐藏 s...
AI scientist 评测不能只看最终答案是否对,还要看模型是否通过真实可解释机制获得答案。 CausaLab 把 agent 放进 synthetic laboratory:给定观测记录,允许对 manipulator crystal 做干预,然后预测 reactor crystal,同时需要恢复隐藏 s...
这篇论文把 AI for Science 的一个关键问题形式化:模型不仅能总结已有科学,还能否在受控知识截止条件下预测未来科学进展。 作者提出 CUSP(Cutoff-conditioned Unseen Scientific Progress),覆盖 4,760 个科学事件,并从 feasibility as...
SciAtlas 面向自动科研中的信息组织问题:向量检索和关键词检索难以表达跨学科、跨实体、跨证据链的拓扑关系,deep research agent 又容易产生逻辑幻觉和高推理成本。 系统构建跨 26 个学科、4300 万论文、1.57 亿实体和 30 亿 triplets 的异构科学知识图谱,将科学文献组织...
Co-Scientist 把科学假设生成做成多 agent 系统:多个 agent 持续生成、批判、排序和改进假设,并通过 test-time compute scaling 提升假设质量。 系统面向研究目标和既有证据生成可实验验证的新假设;论文在药物重定位、新靶点发现和抗微生物耐药机制解释中验证,特别是 AM...
AutoResearchClaw 针对自动科研系统的线性管线缺陷:失败后停止、缺少跨轮经验、缺少多视角质询和结果可验证性。 系统包含多 agent debate、Pivot/Refine 自修复执行器、可验证结果报告、人机协作的七种介入模式,以及把历史错误转化为未来 safeguards 的 cross-run...
ERA 针对科学研究中的一个真实瓶颈:研究软件和实验脚本往往需要专家长期手写,限制了计算实验迭代速度。 系统把 LLM 与 tree search 结合,以质量指标为目标反复生成、测试和改进代码;论文报告它在单细胞分析、COVID-19 住院预测、地理空间分析、斑马鱼神经活动预测和数值积分等任务中达到或超过专家...
Robin 把文献检索 agent、假设生成、实验建议、数据分析和结果解释连接成 lab-in-the-loop 的科学发现系统,而不是只做单点文献问答或代码生成。 论文在干性年龄相关性黄斑变性场景中验证了系统:Robin 提出增强 RPE 吞噬作用的治疗策略,识别并体外确认 ripasudil 与 KL001...
Intern-Atlas 试图把科研基础设施从 paper/citation graph 转向 methodological evolution graph。它关注方法如何继承、组合、替换和演进,而不只是论文之间谁引用谁。 这对 AI scientist 很关键,因为自动科研 agent 需要理解研究路线、方法...
这篇工作的意义在于把 scientific agent 里一个常被低估的核心步骤单独拉出来测:不是让 agent 回答一个科学问题,而是让它先把真正相关、满足约束的文献找全、找准、找到证据链。 AutoResearchBench 的设计点也比较清楚。它区分了需要逐步追踪目标文献的 Deep Research 和...
这篇工作的强点不在又做了一套领域微调,而在把 corpus-to-model transfer 重新定义成一个可以调试的数据工程闭环。作者把 training data 当作 source code,把训练当作 compilation,把 benchmark 当作 unit test,再把 failure-dr...
这篇工作的关键不是再证明 PRM 在数学里有用,而是把 process reward 真正推进到 agentic data analysis 这种动态环境。作者先明确指出通用 PRM 在这个场景里会错两种事:抓不到 silent errors,又会把必要的 exploration 误判成 grounding f...
问题与背景:数字健康的科学发现不只是预测分数,而是从连续 wearable signals 中形成可解释、可验证、临床可操作的 biomarker 假设。 方法与新意:CoDaS 把 biomarker discovery 组织成多 agent 迭代流程:假设生成、统计分析、对抗验证、文献 grounding...
VERITAS 面向医学影像和临床多模态数据里的假设检验瓶颈:一个自然语言科研假设通常需要临床、影像、编程、统计多个角色协作,流程碎片化且难以审计。论文把这个流程显式拆成多智能体协作的可执行科学工作流。 系统从自然语言假设出发,生成分析计划、影像分割、统计代码和最终结论,并用 epistemic evidenc...
LLM-guided algorithm discovery 现在越来越多,但很多系统只优化代码产物和最终分数,弱化了理论结构、正确性约束和原创性判断,导致搜索过程更像 benchmark hacking,而不是科学意义上的算法发现。CliffSearch 试图把这一点纠正回来。 论文提出一个 agentic...
自动化科学早就不缺局部工具:想法生成、代码编写、实验执行、论文写作、文献检索、评审辅助都各自有进展。真正缺的是把整个研究生命周期连成一条可运行、可评估的 agentic workflow。The AI Scientist 直指这个缺口。 论文提出一个端到端 research pipeline:自动生成研究方向和...
像 MOOSE 这样的 multiphysics simulation framework 很强,但真实门槛并不只在物理知识本身,而在于如何写对 input file、配置参数扫描、诊断 runtime 失败并把结果整理成可信的研究流程。很多材料和 phase-field 工作流仍高度依赖熟练研究者手工维护...
这篇论文关注的是端侧大语言模型设计里一个经常被理论代理指标误导的问题:参数量和 FLOPs 并不能可靠代表真实移动端延迟。作者把问题直接放回工业部署语境中,要求模型不仅要快,还要兼容标准移动端运行时和标准软件栈,避免依赖不可移植的定制算子。 方法上的核心是 hardware-in-the-loop 架构搜索。作...
这篇论文处理的是大词表解码里一个看似简单、但在系统上长期低效的步骤:从语言模型输出分布中采样下一个 token。传统实现通常在 LM head matmul 之后把完整 logits 张量写回 HBM,再单独做 softmax / sampling 或 Gumbel 采样,这会引入额外的显存流量和 kernel...
这篇论文解决的是长上下文推理里一个非常具体但越来越关键的系统瓶颈:KV cache 会随着输入长度线性增长,而现有 eviction 方法要么不够准,要么需要额外生成草稿 future tokens,成本高且不稳定。作者的目标不是重新设计 attention,而是在不引入生成开销的前提下,更准确地判断哪些 KV...
这篇论文重新审视了一个看似经典但在现代 AI 系统里仍然被低估的原语:k-means。作者指出,k-means 长期被当成离线预处理工具,例如数据组织、embedding 聚类或索引构建,而不是在线系统的一等组件。但在现代检索、缓存组织、向量服务和训练系统里,若能把 exact k-means 做到足够快和省内...
大语言模型预训练仍受制于优化器的显存和稳定性开销。原始 POET 通过正交等价变换保持频谱结构,理论上有稳定性优势,但实现代价高,难以在真正的大模型预训练里扩展。POET-X 处理的就是这个落地缺口:如何把谱保持式训练从概念方法变成可扩展的预训练算法。 这篇工作的核心新意不在于再提出一个全新训练目标,而在于把...
这篇论文面向的是最新 GPU 代际中 attention kernel 的瓶颈问题。随着 Blackwell 一代硬件的 tensor core 吞吐远快于 shared memory、SFU 和 ALU,旧的注意力实现不再能靠简单调参逼近硬件上限。作者要解决的就是这种“硬件非对称扩展”下的 attention...
云端 LLM 推理把能力交给了大模型服务,但也把用户输入与输出暴露给远端系统,这使真正可用的 privacy-preserving inference 一直卡在一个很现实的工程约束上:不能只讲安全,还要同时保证大模型精度、工业级吞吐,以及和现有 serving 基础设施的兼容性。很多已有方案在这三个条件里最多满...
问题与背景:高性能并行文件系统调优长期依赖专家经验,参数空间复杂、人工成本高,对大多数科研用户不友好。把 LLM 直接用于系统调优,是 agentic AI 进入 HPC 基础设施的一条实用路线。 方法/新意:STELLAR 构建了一个自治调优器,用 LLM 推理系统状态、选择参数配置,并在少数尝试内逼近近最优...
OpenScholar 针对科研文献综合的核心瓶颈:普通 LLM 在科学引用、覆盖率和最新文献上容易幻觉,而传统检索工具又难以生成可审查的长文献综述。论文把科学文献综合明确做成 retrieval-augmented scientific LM,而不是通用聊天模型的附加功能。 方法上,它构建了开放的 OpenS...
这篇论文处理的是世界模型落地时很实际的一层问题:闭环视频和轨迹预测往往太慢,尤其在自动驾驶这种长时 rollout 场景下,扩散式世界模型的推理成本会迅速变成瓶颈。作者试图在不重新训练模型的前提下,做出真正可用的推理加速。 方法上,DISK 是一个 training-free 的动态跳步推理方法,用两个耦合的控...
问题与背景:科学计量和 science of science 工作包含数据收集、清洗、建模、统计分析和可视化等多步骤流程,传统工具难以支持研究者快速迭代复杂分析。 方法与机制:SciSciGPT 是一个开源 AI collaborator 原型,用 LLM 驱动研究工作流自动化、分析策略生成、实验复现和交互式迭...
## 问题与背景 问题与背景:很多 transformer-based probabilistic models 在单次边际预测上很强,但一旦要做 coherent joint prediction,往往需要反复重编码上下文,推理开销很大。这个问题在表格、小样本和神经信号建模里都很实际。 ## 方法/新意 方法...
这篇论文把多智能体科研系统从“写写方案、做做文献总结”的阶段推进到了真正的实验科学闭环。作者提出 Virtual Lab:由 LLM Principal Investigator 代理统筹、一组不同角色的 LLM scientist 代理协作,再由人类研究者提供高层反馈,共同完成复杂、跨学科的科研任务。目标不是...
- 分级:`颠覆性` - 正式标题:`AlphaEvolve: A coding agent for scientific and algorithmic discovery` - 原文:`2025-06-17-S1_AlphaEvolve-AlphaEvolve_A_coding_agent_for_scie...