Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

数学与形式推理突破级暂无讲解视频

收录解读

这篇论文补的是 AI for math 评测中的关键缺口：很多数学 benchmark 更像竞赛题或形式化题库，而不是研究数学家实际会遇到的问题结构。Soohak 强调 mathematician-curated 和 research-level。

它的重要性在于让模型能力评估更接近真实数学研究：理解问题背景、选择工具、处理开放式推理路径，并在非模板化问题中保持严谨。

它值得正式收录，因为本库已经跟踪 theorem search、AI co-mathematician 和形式推理 agent；Soohak 可以作为这些系统是否接近研究级数学能力的外部压力测试。

它没有更高，是因为 benchmark 的覆盖范围、题目泄漏风险和长期维护质量仍需观察。