Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization

强化学习突破级暂无讲解视频

收录解读

这篇论文处理 agentic test-time scaling 中的关键控制问题：agent 不是探索越多越好，而应该在不确定性高时探索，在上下文清楚时执行。

方法提出 exploration-aware policy optimization，用细粒度 reward 估计探索动作对未来决策的价值，并把探索动作和完成任务动作分组优化。

它值得正式收录，因为它把 agent exploration 从固定策略推进到可训练的选择性探索机制，适用于文本和 GUI agent benchmark。

它没有更高，是因为探索 reward 的泛化、复杂真实工具环境中的成本控制和安全边界还需要更多实证。