智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-05-27
arXiv
2605.28775

核心要点

问题/背景
这篇论文处理 small computer-use agents 的现实部署问题:每个软件域都用大专家模型成本太高,但小模型的错误又高度 domain-specific。
方法/机制
LearnWeak 不做粗放合成数据,而是让强 reference agent 找到学生模型在目标域的弱点,自动合成针对性任务和监督。
结果/证据
训练目标还区分 planning error 与 execution error,使更新更精确地修复行为缺陷;在 OSWorld 多域任务上相对小型 CUA 基线有明显提升。
收录价值
收录价值在于它提供了 computer-use agent 的自动诊断-数据生成-专门化闭环,可作为本库关注的 capability acquisition/system repair 模式。
完整收录解读

这篇论文处理 small computer-use agents 的现实部署问题:每个软件域都用大专家模型成本太高,但小模型的错误又高度 domain-specific。

LearnWeak 不做粗放合成数据,而是让强 reference agent 找到学生模型在目标域的弱点,自动合成针对性任务和监督。

训练目标还区分 planning error 与 execution error,使更新更精确地修复行为缺陷;在 OSWorld 多域任务上相对小型 CUA 基线有明显提升。

收录价值在于它提供了 computer-use agent 的自动诊断-数据生成-专门化闭环,可作为本库关注的 capability acquisition/system repair 模式。

论文摘要

LearnWeak 是一种无标注的专业化框架,用于小型计算机使用代理。一个更强大的参考代理识别学生的特定领域弱点,合成有针对性的任务,自动构建监督,并使用具有错误意识的目标函数进行训练,该函数将规划错误和执行错误分开。

英文原文

LearnWeak is an annotation-free specialization framework for small computer-use agents. A stronger reference agent identifies a student's domain-specific weaknesses, synthesizes targeted tasks, constructs supervision automatically, and trains with an error-aware objective that separates planning and execution errors.

相关论文

链接