SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems

智能体与自主科学突破级暂无讲解视频

发表时间: 2026-03-18
arXiv: 2603.17373

收录解读

AI tutor 正在快速进入真实教学场景，但现有评测通常把‘做题是否正确’和‘模型是否安全’分开看，忽略了教学场景里更隐蔽的失败：过度泄题、强化误解、放弃 scaffolding，最终悄悄破坏学习过程。论文的出发点很明确：tutoring safety 不是一般意义上的 toxicity/safety，而是一个与学习科学深度耦合的独立问题。

论文提出 SafeTutors 这一 benchmark，把 pedagogy 与 safety 联合建模，并构造了一个来自 learning-science 文献的风险分类体系，包含 11 个 harm dimensions 和 48 个 sub-risks，覆盖数学、物理、化学以及单轮与多轮互动。结果不只是展示某模型领先，而是揭示一个结构性事实：多轮 tutoring 中的 pedagogical failures 会显著放大，且不同学科的风险模式并不相同。

它值得正式收录，因为它为 AI tutoring 建立了一个更 durable 的 evaluation target：不是只问模型能不能答对，而是问它会不会在长期交互里伤害学习。这个 framing 对教育 agent 很关键，也对更广泛的 long-horizon assistance evaluation 有参考价值。

它没有升到更高一级，是因为它主要贡献在评测与风险分类，而不是提出新的 tutoring architecture 或跨行业通用安全底座。它在教育领域很重要，但外溢范围目前仍以 tutoring systems 为主。

链接

论文链接