AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-23
arXiv: 2604.21590

收录解读

这篇论文回答的是一个很实际的问题：真正能进生产的 agent model 往往不能太大，但小模型要把多步 reasoning 和 tool use 做到接近大模型并不容易。AgenticQwen 的核心不是单纯压缩，而是把小 agent 的训练数据引擎系统化。

它提出 dual data flywheels：reasoning flywheel 从错误中持续制造更难的推理样本，agentic flywheel 则把线性 workflow 扩展成更接近真实系统的多分支行为树。再配合 reasoning RL 和 agentic RL，小模型就不只是学会工具调用，而是学会在 industrial-scale workflow 里保持成本和延迟可接受。

它值得正式收录，因为这里提供的是小型 tool-use agent 的训练工作流原语，对 cost-constrained production agents 很有外溢价值。不是一个单 benchmark 小胜，而是一个可复用的数据与 post-training recipe。

它没有更高，是因为当前证据虽然涵盖 public benchmarks 和工业系统，但影响仍需看 dual flywheel 是否会成为开源小 agent 训练的通用套路。

链接

论文链接代码代码代码