核心要点
- 问题/背景
- CoHyDE 处理 tool-use agents 的一个基础瓶颈:用户请求通常是口语化、欠规格的,而大规模 API catalog 使用技术词汇,单靠固定 dense encoder 或零样本 HyDE 都会在不同查询类型上失败。
- 方法/机制
- 方法上,论文把 LLM rewriter 和 dense encoder 作为 co-evolving system 迭代训练:rewriter 生成 catalog-style hypothetical descriptions,encoder 用 InfoNCE 训练;随后 rewriter 又用 DPO 按 encoder retrieval score 做偏好对齐。
- 结果/证据
- 在约 10k ToolBench tool subset 上,三轮 CoHyDE 相对最强单组件基线在标准查询 NDCG@5 提升 +2.5pp,在 held-out vague queries 提升 +6.3pp,最困难 vague tier 最高提升约 +8pp。
- 收录价值
- 收录价值在于它把 agent tool retrieval 从静态编码器或单向 query expansion 推进到 rewriter-encoder co-training loop,对大工具库、多 API catalog 和企业 agent tool discovery 有可复用意义。
收录解读
CoHyDE 处理 tool-use agents 的一个基础瓶颈:用户请求通常是口语化、欠规格的,而大规模 API catalog 使用技术词汇,单靠固定 dense encoder 或零样本 HyDE 都会在不同查询类型上失败。
方法上,论文把 LLM rewriter 和 dense encoder 作为 co-evolving system 迭代训练:rewriter 生成 catalog-style hypothetical descriptions,encoder 用 InfoNCE 训练;随后 rewriter 又用 DPO 按 encoder retrieval score 做偏好对齐。
在约 10k ToolBench tool subset 上,三轮 CoHyDE 相对最强单组件基线在标准查询 NDCG@5 提升 +2.5pp,在 held-out vague queries 提升 +6.3pp,最困难 vague tier 最高提升约 +8pp。
收录价值在于它把 agent tool retrieval 从静态编码器或单向 query expansion 推进到 rewriter-encoder co-training loop,对大工具库、多 API catalog 和企业 agent tool discovery 有可复用意义。
论文摘要
CoHyDE addresses tool retrieval over large API catalogs by co-training an LLM query rewriter and dense encoder. The encoder is retrained with InfoNCE on catalog-style hypothetical descriptions produced by the rewriter, while the rewriter is preference-aligned via DPO against encoder retrieval scores, improving retrieval for both well-formed and vague user queries.