Show, Don't Tell: Morphing Latent Reasoning into Image Generation

生成建模与扩散突破级暂无讲解视频

发表时间: 2026-02-02
arXiv: 2602.02227

收录解读

这篇论文针对文本生成图像里一个越来越重要但常被粗糙处理的问题：模型能否在生成过程中进行动态推敲和自我修正，而不是一次性把提示词映射成像素。作者指出，现有 reasoning-augmented 图像生成方法大多依赖显式思维链，把中间推理反复解码成文本再重新喂回模型，这会带来信息压缩、延迟增加和明显的认知流程错配。

为解决这个问题，论文提出 LatentMorph，把推理过程完全放到连续 latent space 中完成。核心由四个轻量模块组成：用于压缩中间生成状态的 condenser、把 latent thought 转成可执行引导的 translator、动态调整下一步图像 token 预测的 shaper，以及决定何时触发 reasoning 的 RL 训练 invoker。这样模型不需要频繁走显式文本链路，而是在生成内部持续进行隐式修正。

这项工作的价值在于，它把“图像生成中的 reasoning”从宣传层的概念包装，推进成了一套可运行的内部机制设计。LatentMorph 同时覆盖 fidelity、抽象推理、推理触发时机和推理效率四个维度，在 GenEval、T2I-CompBench、WISE、IPV-Txt 等任务上都给出了成体系的结果，而且显著降低推理时间和 token 消耗。对仓库来说，它属于生成模型里很值得保留的 latent reasoning 条目。

它没有更高一级，因为当前仍是 arXiv 预印本，而且方法主要建立在 Janus-Pro 一类 unified multimodal backbone 上，后续是否能跨更多生成架构稳定迁移、并成为图像生成 reasoning 的默认范式，还需要继续看社区复现和采用情况。当前更稳的定位是 breakthrough，而不是更高层级。

链接

论文链接