DataClaw: A Process-Oriented Agent Benchmark for Exploratory Real-World Data Analysis

智能体与自主科学突破级暂无讲解视频

收录解读

这篇 benchmark 的价值在于它把 exploratory data analysis 当成 process problem，而不是 final-answer problem。现实里的数据分析经常发生在数据脏、先验弱、目标不完全清晰的环境里，单看最终答案会掩盖大量过程差异。

DataClaw 提供的不是单纯更大的数据集，而是带 milestone annotation 的 process-oriented evaluation。这样不仅能判断 agent 成没成功，还能看它卡在哪一步、用了什么探索策略、是不是出现了 reasoning collapse。

它值得正式收录，因为企业分析、政策研究和复杂 BI workflow 都会遇到类似结构。这个 benchmark 的外溢点不在具体数据域，而在把探索式数据工作正式写成 agent evaluation interface。

它没有更高，是因为当前场景仍主要集中在 data-analysis agents，而不是更广泛的 general-purpose coworker agents。它的 process evaluation 设计很强，但还不是统一上位 benchmark。