Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-05-27
arXiv: 2605.28774

核心要点

问题/背景: 这篇论文聚焦 multimodal agentic reasoning 中的结构性训练问题：模型会倾向内部 thinking，而工具调用是高方差 auxiliary action，标准 GRPO 对失败工具调用给不出足够学习信号。
方法/机制: 作者把这个问题定义为 Thinking-Acting Gap，并观察到训练中 tool use rollout 比例低、且很多 tool-using subgroup 全错，导致真正该学习的 tool call 被压低。
结果/证据: AXPO 的做法是在全错工具子组中固定 thinking prefix，重新采样 tool call 与后续轨迹，并用不确定性选择前缀，让 RL 更集中地探索行动分支。
收录价值: 收录价值在于它给 agentic RL 提供了一个专门针对 tool-use exploration 的优化原语，而不是只把工具调用混进普通推理 RL。

完整收录解读

这篇论文聚焦 multimodal agentic reasoning 中的结构性训练问题：模型会倾向内部 thinking，而工具调用是高方差 auxiliary action，标准 GRPO 对失败工具调用给不出足够学习信号。

作者把这个问题定义为 Thinking-Acting Gap，并观察到训练中 tool use rollout 比例低、且很多 tool-using subgroup 全错，导致真正该学习的 tool call 被压低。

AXPO 的做法是在全错工具子组中固定 thinking prefix，重新采样 tool call 与后续轨迹，并用不确定性选择前缀，让 RL 更集中地探索行动分支。

收录价值在于它给 agentic RL 提供了一个专门针对 tool-use exploration 的优化原语，而不是只把工具调用混进普通推理 RL。

论文摘要

AXPO 旨在解决多模态代理推理中的“思维与行动差距”，即内部思维是默认状态，但工具使用具有高方差且鲜为人探讨的问题。对于所有错误的工具使用亚组，它固定了思维前缀，重采样了工具调用和延续，并使用基于不确定性的前缀选择来改善在强化学习下工具使用的学习。

英文原文

AXPO targets the Thinking-Acting Gap in multimodal agentic reasoning, where internal thinking is the default but tool use is high-variance and underexplored. For all-wrong tool-using subgroups, it fixes the thinking prefix, resamples tool calls and continuations, and uses uncertainty-based prefix selection to improve tool-use learning under RL.

链接

论文链接论文链接代码

核心要点

论文摘要

相关论文

链接