A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-05-27
arXiv: 2605.28556

核心要点

问题/背景: 现有 agent benchmark 容易饱和，而且从自然语言场景手写任务再映射到工具序列，会覆盖很窄的工具组合。
方法/机制: TASTE 从工具序列演化反向生成任务，使用 LLM validity signals 训练 Adaptive Contrastive n-gram model，再通过聚类和难度演化生成更高覆盖的 agent tasks。
结果/证据: 它值得收录，因为 agent 评测正在从静态题库走向可扩展任务合成，TASTE 提供了一个可复用 benchmark-construction primitive。
收录价值: 按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

完整收录解读

现有 agent benchmark 容易饱和，而且从自然语言场景手写任务再映射到工具序列，会覆盖很窄的工具组合。

TASTE 从工具序列演化反向生成任务，使用 LLM validity signals 训练 Adaptive Contrastive n-gram model，再通过聚类和难度演化生成更高覆盖的 agent tasks。

它值得收录，因为 agent 评测正在从静态题库走向可扩展任务合成，TASTE 提供了一个可复用 benchmark-construction primitive。

按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

论文摘要

TASTE 通过合成从进化工具序列中产生的基准任务来反转基准构建方法，从而提高工具使用覆盖率和饱和评估的难度。

英文原文

TASTE reverses agent benchmark construction by synthesizing benchmark tasks from evolved tool sequences, improving tool-use coverage and difficulty for saturated agent evaluations.

链接

论文链接论文链接代码

核心要点

论文摘要

相关论文

链接