智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-27
arXiv
2605.28556

核心要点

问题/背景
现有 agent benchmark 容易饱和,而且从自然语言场景手写任务再映射到工具序列,会覆盖很窄的工具组合。
方法/机制
TASTE 从工具序列演化反向生成任务,使用 LLM validity signals 训练 Adaptive Contrastive n-gram model,再通过聚类和难度演化生成更高覆盖的 agent tasks。
结果/证据
它值得收录,因为 agent 评测正在从静态题库走向可扩展任务合成,TASTE 提供了一个可复用 benchmark-construction primitive。
收录价值
按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。
完整收录解读

现有 agent benchmark 容易饱和,而且从自然语言场景手写任务再映射到工具序列,会覆盖很窄的工具组合。

TASTE 从工具序列演化反向生成任务,使用 LLM validity signals 训练 Adaptive Contrastive n-gram model,再通过聚类和难度演化生成更高覆盖的 agent tasks。

它值得收录,因为 agent 评测正在从静态题库走向可扩展任务合成,TASTE 提供了一个可复用 benchmark-construction primitive。

按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。

论文摘要

TASTE 通过合成从进化工具序列中产生的基准任务来反转基准构建方法,从而提高工具使用覆盖率和饱和评估的难度。

英文原文

TASTE reverses agent benchmark construction by synthesizing benchmark tasks from evolved tool sequences, improving tool-use coverage and difficulty for saturated agent evaluations.

相关论文

链接