Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints

智能体与自主科学突破级暂无讲解视频

收录解读

这篇论文研究多 agent LLM pipeline 中的 handoff 学习：不同专用 agent 通过共享 artifact 交接，但没有中心 learner 能访问完整联合轨迹。

作者把该设置形式化为 interface-constrained SMDP，并提出 IC-Q；每次交接只传一个标量，却给出神经 Q-learning 的有限样本收敛界。

它值得正式收录，因为它为跨组织、跨厂商或跨权限边界的 agent workflow 提供了理论模型和可验证学习算法。

它没有更高，是因为实验仍是受控任务和若干 multi-LLM 场景，真实企业 workflow 的接口漂移和安全约束尚未充分覆盖。