CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test

发表:2026-05-22 · 突破级

CoSPlay 针对 coding agents 的一个现实瓶颈:许多场景没有隐藏测试或人工 verifier,模型必须自己构造测试来发现代码缺陷。 方法在测试时让代码生成和单元测试生成进行 cooperative self-play,通过自生成代码和自生成 unit tests 互相暴露错误并迭代修正。 这种...