多模态基础模型
突破级
暂无讲解视频
收录解读
这篇论文重新定位 Speech LLM 的 modality gap:问题不只在输出端把语音生成变得更像文本生成,剩余瓶颈主要来自输入端给 LLM 的 speech representation 不够 TLM-compatible。
作者提出 TextPro-SLM,把 Speech LLM 改造成 prosody-aware text LLM。核心组件 WhisperPro 同时输出同步 text tokens 和 prosody embeddings,显式分离 what is said 与 how it is said。
LLM backbone 通过知识蒸馏保留原始 text LLM 的语义能力,同时学习 emotion、speaking style、speaker timbre 等 paralinguistic understanding;实验显示 3B/7B 规模下 modality gap 更低,并且只需约 1,000 小时 LLM 训练音频。
它值得正式收录,因为它给 speech-language multimodal foundation models 提供了清晰的输入侧接口设计:让语音输入尽量贴近文本 LLM 的工作形态,同时保留韵律和副语言信息。