X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes

可解释性与机制分析突破级有讲解视频

发表时间: 2026-03-05
arXiv: 2603.05290

收录解读

当前大多数 reasoning evaluation 仍把任务正确率当作核心指标，但这类评测往往把 pattern matching、数据污染与真正的结构化推理能力混在一起。结果是模型在标准 benchmark 上看起来接近，却很难解释它们究竟在哪种结构变化下会失效。

X-RAY 的核心贡献，是把 reasoning capability 建模为一组可抽取的结构属性，并用 formally verified、calibrated probes 去控制这些属性的微小变化。它不只是做一批新题，而是通过 constraint interaction、reasoning depth 和 solution-space geometry 等形式化维度，构造 contamination-free 的 probe family，从而把 reasoning failure 变成结构上可解释的对象。

它值得正式收录，因为这类工作补的是 reasoning evaluation 的底层缺口。对本仓库来说，它的价值不在于再加一个更难 benchmark，而在于提供了一个能区分‘标准分数看不出来但结构脆弱性不同’的评测框架，这对 reasoning、alignment evaluation 和 model comparison 都有长期复用价值。

它没有升到更高一级，是因为当前仍处于早期框架阶段，外部采用与围绕该框架形成的方法潮流还没有建立。现阶段它更像一个很强的 evaluation primitive，而不是已经成为 reasoning 评测默认基座的事实标准。

解读视频

B 站 YouTube

链接

论文链接