智能体与自主科学
突破级
暂无讲解视频
核心要点
- 问题/背景
- 这篇论文处理 small computer-use agents 的现实部署问题:每个软件域都用大专家模型成本太高,但小模型的错误又高度 domain-specific。
- 方法/机制
- LearnWeak 不做粗放合成数据,而是让强 reference agent 找到学生模型在目标域的弱点,自动合成针对性任务和监督。
- 结果/证据
- 训练目标还区分 planning error 与 execution error,使更新更精确地修复行为缺陷;在 OSWorld 多域任务上相对小型 CUA 基线有明显提升。
- 收录价值
- 收录价值在于它提供了 computer-use agent 的自动诊断-数据生成-专门化闭环,可作为本库关注的 capability acquisition/system repair 模式。
论文摘要
LearnWeak 是一种无标注的专业化框架,用于小型计算机使用代理。一个更强大的参考代理识别学生的特定领域弱点,合成有针对性的任务,自动构建监督,并使用具有错误意识的目标函数进行训练,该函数将规划错误和执行错误分开。
英文原文
LearnWeak is an annotation-free specialization framework for small computer-use agents. A stronger reference agent identifies a student's domain-specific weaknesses, synthesizes targeted tasks, constructs supervision automatically, and trains with an error-aware objective that separates planning and execution errors.