强化学习
突破级
暂无讲解视频
收录解读
这篇论文处理 agentic test-time scaling 中的关键控制问题:agent 不是探索越多越好,而应该在不确定性高时探索,在上下文清楚时执行。
方法提出 exploration-aware policy optimization,用细粒度 reward 估计探索动作对未来决策的价值,并把探索动作和完成任务动作分组优化。
它值得正式收录,因为它把 agent exploration 从固定策略推进到可训练的选择性探索机制,适用于文本和 GUI agent benchmark。
它没有更高,是因为探索 reward 的泛化、复杂真实工具环境中的成本控制和安全边界还需要更多实证。