Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty

推理、记忆与推理时控制突破级有讲解视频

发表时间: 2026-03-16
arXiv: 2603.15500

收录解读

这篇论文试图解释推理模型里一个常被表面化理解的现象：所谓的 Aha moment 或自我纠错，到底是不是由某些特殊 token 直接触发。作者给出的答案是否定的。他们把推理分解成两类信息活动：程序性信息，也就是按步骤执行；以及 epistemic verbalization，也就是把内部不确定性显式外化成文本。

在这个框架下，论文论证了纯程序性推理会出现信息停滞，而认知性语言化能让模型持续获取信息并支持后续控制动作。也因此，真正重要的不是表面上的“Wait”“Hmm”这类词，而是这些词是否承载了真实的不确定性外化和状态评估。论文进一步把这个观点拿来统一解释 Aha moments、LIMO 类蒸馏成败和 post-training 中某些反直觉现象。

它值得收录，因为这是对推理模型一个核心现象的强机制澄清。它没有再提一个新的推理 trick，而是重新界定了模型在不确定性下如何分配文本容量、为什么有些长思维链有效、有些只是冗余。这对 reasoning data construction、distillation、test-time compute 和 post-training 都有直接外溢。

它没有升到更高一级，主要因为它仍是一篇解释框架和信息论分析论文，而不是已经给出新的通用训练范式。它对理解推理很重要，但更接近高价值机制论文，而不是范式替代。

解读视频

B 站 YouTube

链接

论文链接