数学与形式推理
突破级
暂无讲解视频
核心要点
- 问题/背景
- 这篇论文面向研究级数学推理的数据瓶颈:普通竞赛题不足以衡量模型是否能处理未知或开放的数学问题。
- 方法/机制
- 作者用 multi-agent pipeline 从学术来源整理 14,056 个 research-level math problems,并生成 22 万条 open-model teacher trajectories。
- 结果/证据
- 一个重要发现是新一代模型在开放数学尝试中引用更多,但 fake references 也大幅增加;经过 agentic filtering 后,这些不完全正确的尝试仍能作为监督信号提升 Qwen3 系列。
- 收录价值
- 收录价值在于它把数学 agent 从 benchmark-solving 推向 research-level problem corpus、轨迹过滤和开放问题训练数据构造。
论文摘要
ResearchMath-14K 通过多智能体管道,从学术资源中精选了14,056个研究级别的数学问题,并生成了220K个教师轨迹。它研究了开放模型中的回避行为和虚假引用行为,并表明,经过微调后,由智能体过滤的开放问题尝试可以改善Qwen3的数学推理能力。
英文原文
ResearchMath-14K curates 14,056 research-level mathematical problems from academic sources via a multi-agent pipeline and generates 220K teacher trajectories. It studies avoidance and fake-reference behavior in open models and shows that agentically filtered open-problem attempts can improve Qwen3 math reasoning after fine-tuning.