核心要点
- 问题/背景
- Foley-Omni 针对视频生成/后期中的完整音轨问题:现实视频通常需要语音、音效和音乐在同一视频上下文中一致生成,而不是分别调用孤立的 TTS、V2A 或音乐模型。
- 方法/机制
- 方法上,它把 speech、sound effects 和 music 放入统一的 multimodal latent generation process,支持 TTA、TTM、TTS、V2A、VisualTTS 以及一次性 complete video soundtrack generation。
- 结果/证据
- 论文还提出视听数据整理流程和 V2ST-Bench,用于评估完整视频音轨中的语音可懂度、视听一致性、混合音质和整体感知质量。
- 收录价值
- 它值得收录,因为它把多种音频生成任务统一到视频音轨级工作流,代表多模态生成从单任务合成走向可用于视频生产的完整 soundtrack system。
原始摘要与中文对照
中文对照翻译
Foley-Omni:一个从任务级音频合成到完整视频音轨生成的统一多模态生成模型。近期的统一音频生成模型能够支持语音、音效和音乐等多种任务,但它们大多仍专注于孤立的任务级合成。然而,真实的视频制作通常需要为同一视频联合且一致地生成完整音轨的多个组成部分。我们提出了Foley-Omni,一个统一的多模态音频生成模型,它通过在共享的潜在生成过程中联合建模语音、音效和音乐,将孤立的任务级合成扩展到完整的视频音轨生成。为了支持训练和可复现的评估,我们开发了一个视听数据整理流程,并引入了V2ST-Bench,一个用于全面视频音轨生成评估的基准。实验表明,Foley-Omni在单个合成任务上与专家系统取得了竞争性表现,同时提高了混合音轨生成的语音可懂度、视听一致性和感知质量。项目页面可在项目页面访问。
原始摘要
Recent unified audio generation models can support diverse tasks across speech, sound effects, and music, but most of them still focus on isolated task-level synthesis. However, real video production often requires multiple components of a complete audio track to be generated jointly and consistently for the same video. We present Foley-Omni, a unified multimodal audio generation model that extends isolated task-level synthesis to complete video soundtrack generation by jointly modeling speech, sound effects, and music within a shared latent generation process. To support training and reproducible evaluation, we develop an audiovisual data curation pipeline and introduce V2ST-Bench, a benchmark for holistic video soundtrack generation evaluation. Experiments show that Foley-Omni achieves competitive performance with expert systems on individual synthesis tasks, while improving speech intelligibility, audiovisual consistency and perceptual quality for mixed soundtrack generation. The project page can be accessed at Project Page.