收录解读
这篇论文处理的是 drug discovery workflow 里一个非常实际但长期没有被系统解决的问题:药物分子评估、筛选和优化通常要跨多个学科工具和几十步顺序操作,通用 agent 在这种长链、高约束场景里往往很快失稳。作者把问题明确成“workflow orchestration competence”,而不是继续把注意力停留在单次 tool call 或 ad hoc scripting 上。
论文提出 MolClaw,一个带三层层级技能结构的自主代理系统:tool-level skills 把原子操作标准化,workflow-level skills 负责把这些操作编组成可验证的管线并执行质量检查与反思,discipline-level skill 则提供跨任务的领域原则来约束规划和验证。与此同时,作者还提出 MolBench,把分子筛选、优化和端到端 discovery 组织成需要 8 到 50+ 次顺序工具调用的 benchmark,用来直接测工作流能力而不是只测局部工具使用。
这篇值得正式收录,因为它同时补了两个仓库关心的长期接口:一是 agent 技能系统在科学工作流中的层级化设计,二是 AI for science agent 的长链 benchmark 应该怎么构造。它不只是一个药物代理 demo,而是在把“hierarchical skill substrate + workflow benchmark”压成可复用模式,这对后续更广的 scientific agents 有直接参考价值。
它现在还不到更高一级,主要因为证据仍停留在 bioRxiv 阶段,评测也主要集中在药物相关流程本身,跨领域可迁移性还没有被充分证明。换句话说,它已经是这条线上的强 breakthrough,但距离成为更普适的 scientific agent 基础设施或范式级接口还差外部验证和更广 adoption。