Competing Biases underlie Overconfidence and Underconfidence in LLMs

可解释性与机制分析突破级暂无讲解视频

发表时间: 2026-04-22
DOI: 10.1038/s42256-026-01217-9

收录解读

这篇论文试图解释一个在 LLM 可靠性里非常实在但此前表述分散的问题：模型既会过度坚持自己的初始答案，又会对相反意见表现出异常大的波动，表面上看是两种互相冲突的行为。作者把这件事收敛成两个可计算的竞争性偏差：choice-supportive bias 和 hypersensitivity to contradiction。

它的价值不在于再做一个 calibration benchmark，而在于给出了一个更耐用的行为解释框架。这个框架把 confidence dynamics、self-correction 和 human-AI interaction 里的很多现象放进同一个模型里，适合作为后续干预、评测和机制分析的基线。

它值得正式收录，因为这是对 LLM 置信度与更新机制的强解释型结果，和仓库关心的可靠性、校准、推理控制有直接外溢。

它没有升到更高等级，是因为当前主要贡献还是解释与建模，而不是已经被证明能稳定改善系统行为的 intervention primitive。

链接

论文链接