Joint Agent Memory and Exploration Learning via Novelty Signals

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-06-01
arXiv: 2606.01528

核心要点

问题/背景: 开放环境探索需要记忆来区分已耗尽行为和未见行为，但 latent memory 又缺少可靠监督信号。
方法/机制: JAMEL 利用 novelty-driven interaction 把 memory learning 和 exploration policy 联合训练，并用 GUI/code coverage 这类确定性持久 novelty signals 提供 annotation-free supervision。
结果/证据: 它值得收录，因为它把 agent memory 从被动记录推进到探索驱动学习，提供了 agent 长程能力增长的训练信号设计。
收录价值: 按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

完整收录解读

开放环境探索需要记忆来区分已耗尽行为和未见行为，但 latent memory 又缺少可靠监督信号。

JAMEL 利用 novelty-driven interaction 把 memory learning 和 exploration policy 联合训练，并用 GUI/code coverage 这类确定性持久 novelty signals 提供 annotation-free supervision。

它值得收录，因为它把 agent memory 从被动记录推进到探索驱动学习，提供了 agent 长程能力增长的训练信号设计。

按当前收录规则，它属于近期值得正式跟踪的可复用方法或系统模式；但作为新近预印本，后续仍需要代码、复现和真实部署结果来确认长期影响。

论文摘要

通过使用确定性持久性新颖信号（例如 GUI 环境中的代码覆盖率）联合训练代理记忆和探索策略。

英文原文

JAMEL jointly trains agent memory and exploration policy using deterministic persistent novelty signals such as code coverage in GUI environments.

链接

论文链接论文链接代码

核心要点

论文摘要

相关论文

链接