Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-05-27
arXiv: 2605.28775

核心要点

问题/背景: 这篇论文处理 small computer-use agents 的现实部署问题：每个软件域都用大专家模型成本太高，但小模型的错误又高度 domain-specific。
方法/机制: LearnWeak 不做粗放合成数据，而是让强 reference agent 找到学生模型在目标域的弱点，自动合成针对性任务和监督。
结果/证据: 训练目标还区分 planning error 与 execution error，使更新更精确地修复行为缺陷；在 OSWorld 多域任务上相对小型 CUA 基线有明显提升。
收录价值: 收录价值在于它提供了 computer-use agent 的自动诊断-数据生成-专门化闭环，可作为本库关注的 capability acquisition/system repair 模式。

完整收录解读

这篇论文处理 small computer-use agents 的现实部署问题：每个软件域都用大专家模型成本太高，但小模型的错误又高度 domain-specific。

LearnWeak 不做粗放合成数据，而是让强 reference agent 找到学生模型在目标域的弱点，自动合成针对性任务和监督。

训练目标还区分 planning error 与 execution error，使更新更精确地修复行为缺陷；在 OSWorld 多域任务上相对小型 CUA 基线有明显提升。

收录价值在于它提供了 computer-use agent 的自动诊断-数据生成-专门化闭环，可作为本库关注的 capability acquisition/system repair 模式。

论文摘要

LearnWeak 是一种无标注的专业化框架，用于小型计算机使用代理。一个更强大的参考代理识别学生的特定领域弱点，合成有针对性的任务，自动构建监督，并使用具有错误意识的目标函数进行训练，该函数将规划错误和执行错误分开。

英文原文

LearnWeak is an annotation-free specialization framework for small computer-use agents. A stronger reference agent identifies a student's domain-specific weaknesses, synthesizes targeted tasks, constructs supervision automatically, and trains with an error-aware objective that separates planning and execution errors.

链接

论文链接论文链接代码

核心要点

论文摘要

相关论文

链接