Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agents

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-04-30
arXiv: 2604.27283

收录解读

这篇工作的价值在于，它明确指出 coding agent 的 memory retrieval 不是一个 top-k 相似度问题，而是一个带风险的控制决策。很多历史 issue 看起来像，但注入错记忆会把 agent 直接带偏。

作者把这个问题重构成 risk-sensitive contextual bandit，并且让控制器显式拥有 abstain、top resolution、multi-candidate summary、high-precision / high-recall retrieval、ask feedback 等动作空间。这个接口远比‘检索更多 or 检索更准’更接近真实代理系统。

它值得正式收录，因为这是 agent memory 边界控制的耐用原语：什么时候该用记忆、用哪种记忆、何时宁可不用。对 coding agents 之外的 long-horizon workspace agents 同样有直接外溢。

它没有更高，是因为当前实验场景仍主要围绕 coding-agent issue memory，虽然接口耐用，但跨更广 agent domains 的普适性还需要继续证明。

链接

论文链接