When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making

强化学习突破级有讲解视频

发表时间: 2026-03-17
arXiv: 2603.16673

收录解读

这篇论文关注的是具身智能系统里一个非常实际的问题：大语言模型推理并不是免费午餐，何时调用高成本 reasoning，何时直接执行动作，本身就是一个需要学习的决策问题。作者把这个问题明确表述为资源感知型 orchestration，而不是继续默认“能想就一直想”。

方法上，论文提出 RARRL，让强化学习学习一个高层 orchestration policy，而不是去替换底层控制器。该策略根据当前观察、执行历史和剩余预算，决定是否调用 reasoning、调用哪种 reasoning role，以及分配多少预算。实验尤其强调了真实延迟和预算冲击下的表现：相比固定频率或启发式规则，RARRL 在保持或提升任务成功率的同时，显著降低推理时延和 token 开销，并在资源突变时更鲁棒。

这篇工作值得正式收录，因为机器人与具身智能已经是仓库主线，而这篇论文给出了一个可复用的系统模式：高层 reasoning control 与低层执行解耦，并通过 RL 学会在成本和成功率之间权衡。对 embodied agents、resource-aware inference 和 robotic decision orchestration 都有明显外溢。

它目前适合定为 breakthrough，而不是更高一级。原因是验证仍主要集中在 ALFRED 这类任务和作者设定的系统结构中，虽然 pattern 很清晰，但距离成为通用 embodied agent 默认设计还需要更多跨平台和真实机器人验证。

解读视频

B 站 YouTube

链接

论文链接