Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

科学发现旗舰工作突破级暂无讲解视频

发表时间: 2026-04-28
arXiv: 2604.24819

收录解读

这篇工作的强点不在又做了一套领域微调，而在把 corpus-to-model transfer 重新定义成一个可以调试的数据工程闭环。作者把 training data 当作 source code，把训练当作 compilation，把 benchmark 当作 unit test，再把 failure-driven repair 当作 debugging。这个映射不是比喻，而是可操作的方法接口。

更关键的是它要求训练数据和评测共享同一个结构化知识底座。这样模型失败不再只表现为分数下降，而能被分解成 concept-level gap 或 reasoning-chain break，并回溯到具体的数据缺失，再通过 targeted patches 修复。对自改进 LLM、领域适配和科学知识注入都很有外溢价值。

它值得正式收录，因为这里提供的是一种耐用的数据工程工作流，而不是一次性的领域 recipe。只要目标是把原始文本语料转成可验证、可修补、可持续迭代的模型能力，这套 test-driven data engineering 框架就有复用价值。

它没有更高，是因为当前最强证据仍来自作者定义的结构化知识表示和十六个学科实验设置；这套方法能否成为更广义 post-training / continual data curation 的默认模式，还要看外部复现和 adoption。

链接

论文链接