Signals: Trajectory Sampling and Triage for Agentic Interactions

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-01
arXiv: 2604.00356

收录解读

LLM agent 已经进入多步交互、工具调用和持续部署阶段，但真正阻碍后续优化的一个现实问题是：系统每天会产生成海量 trajectory，而人工或辅助模型逐条复核成本过高，导致很多后训练、偏好构造和 failure analysis 根本拿不到高质量样本。问题不只是缺少数据，而是缺少便宜、稳定、可在线运行的 triage 机制。

论文提出 Signals，把轨迹筛选前移到在线交互层，通过不依赖额外模型调用的轻量信号来标记 trajectory 的信息密度与异常模式。作者把这些信号组织为 interaction、execution、environment 三类，覆盖 misalignment、stagnation、failure、loop、exhaustion 等可操作状态，再把它们附着到 live interactions 上，供后续 sampling、annotation 和 optimization 使用。

这篇工作值得收录，因为它把 agent post-deployment improvement 里一个长期被忽略但极其实际的基础设施问题正式化了：什么轨迹值得看、值得标、值得回流。相比简单按 reward 或启发式抽样，Signals 更接近一种可复用的 trajectory triage layer，对 agent evaluation、preference data construction 和持续改进工作流都有直接方法价值。

它没有升到更高一级，是因为当前贡献仍主要是 sampling infrastructure，而不是完整的自我改进闭环或更上层 agent training 蓝图。它在 agent data curation 上很有用，但是否会成为更广部署优化栈的标准组件，还需要更多外部采用。

链接

论文链接