智能体与自主科学
突破级
暂无讲解视频
收录解读
这篇论文研究多 agent LLM pipeline 中的 handoff 学习:不同专用 agent 通过共享 artifact 交接,但没有中心 learner 能访问完整联合轨迹。
作者把该设置形式化为 interface-constrained SMDP,并提出 IC-Q;每次交接只传一个标量,却给出神经 Q-learning 的有限样本收敛界。
它值得正式收录,因为它为跨组织、跨厂商或跨权限边界的 agent workflow 提供了理论模型和可验证学习算法。
它没有更高,是因为实验仍是受控任务和若干 multi-LLM 场景,真实企业 workflow 的接口漂移和安全约束尚未充分覆盖。