智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-04-23
arXiv
2604.21590

收录解读

这篇论文回答的是一个很实际的问题:真正能进生产的 agent model 往往不能太大,但小模型要把多步 reasoning 和 tool use 做到接近大模型并不容易。AgenticQwen 的核心不是单纯压缩,而是把小 agent 的训练数据引擎系统化。

它提出 dual data flywheels:reasoning flywheel 从错误中持续制造更难的推理样本,agentic flywheel 则把线性 workflow 扩展成更接近真实系统的多分支行为树。再配合 reasoning RL 和 agentic RL,小模型就不只是学会工具调用,而是学会在 industrial-scale workflow 里保持成本和延迟可接受。

它值得正式收录,因为这里提供的是小型 tool-use agent 的训练工作流原语,对 cost-constrained production agents 很有外溢价值。不是一个单 benchmark 小胜,而是一个可复用的数据与 post-training recipe。

它没有更高,是因为当前证据虽然涵盖 public benchmarks 和工业系统,但影响仍需看 dual flywheel 是否会成为开源小 agent 训练的通用套路。

链接