智能体与自主科学
突破级
暂无讲解视频
核心要点
- 问题/背景
- 现有 agent benchmark 容易饱和,而且从自然语言场景手写任务再映射到工具序列,会覆盖很窄的工具组合。
- 方法/机制
- TASTE 从工具序列演化反向生成任务,使用 LLM validity signals 训练 Adaptive Contrastive n-gram model,再通过聚类和难度演化生成更高覆盖的 agent tasks。
- 结果/证据
- 它值得收录,因为 agent 评测正在从静态题库走向可扩展任务合成,TASTE 提供了一个可复用 benchmark-construction primitive。
- 收录价值
- 按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。
论文摘要
TASTE 通过合成从进化工具序列中产生的基准任务来反转基准构建方法,从而提高工具使用覆盖率和饱和评估的难度。
英文原文
TASTE reverses agent benchmark construction by synthesizing benchmark tasks from evolved tool sequences, improving tool-use coverage and difficulty for saturated agent evaluations.