智能体与自主科学
突破级
暂无讲解视频
核心要点
- 问题/背景
- 开放环境探索需要记忆来区分已耗尽行为和未见行为,但 latent memory 又缺少可靠监督信号。
- 方法/机制
- JAMEL 利用 novelty-driven interaction 把 memory learning 和 exploration policy 联合训练,并用 GUI/code coverage 这类确定性持久 novelty signals 提供 annotation-free supervision。
- 结果/证据
- 它值得收录,因为它把 agent memory 从被动记录推进到探索驱动学习,提供了 agent 长程能力增长的训练信号设计。
- 收录价值
- 按当前收录规则,它属于近期值得正式跟踪的可复用方法或系统模式;但作为新近预印本,后续仍需要代码、复现和真实部署结果来确认长期影响。
论文摘要
通过使用确定性持久性新颖信号(例如 GUI 环境中的代码覆盖率)联合训练代理记忆和探索策略。
英文原文
JAMEL jointly trains agent memory and exploration policy using deterministic persistent novelty signals such as code coverage in GUI environments.