智能体与自主科学 突破级 暂无讲解视频
发表时间
2026-06-01
arXiv
2606.01528

核心要点

问题/背景
开放环境探索需要记忆来区分已耗尽行为和未见行为,但 latent memory 又缺少可靠监督信号。
方法/机制
JAMEL 利用 novelty-driven interaction 把 memory learning 和 exploration policy 联合训练,并用 GUI/code coverage 这类确定性持久 novelty signals 提供 annotation-free supervision。
结果/证据
它值得收录,因为它把 agent memory 从被动记录推进到探索驱动学习,提供了 agent 长程能力增长的训练信号设计。
收录价值
按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。
完整收录解读

开放环境探索需要记忆来区分已耗尽行为和未见行为,但 latent memory 又缺少可靠监督信号。

JAMEL 利用 novelty-driven interaction 把 memory learning 和 exploration policy 联合训练,并用 GUI/code coverage 这类确定性持久 novelty signals 提供 annotation-free supervision。

它值得收录,因为它把 agent memory 从被动记录推进到探索驱动学习,提供了 agent 长程能力增长的训练信号设计。

按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。

论文摘要

通过使用确定性持久性新颖信号(例如 GUI 环境中的代码覆盖率)联合训练代理记忆和探索策略。

英文原文

JAMEL jointly trains agent memory and exploration policy using deterministic persistent novelty signals such as code coverage in GUI environments.

相关论文

链接