ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing¶
会议: NeurIPS 2025
arXiv: 2506.21448
代码: https://ThinkSound-Project.github.io
领域: LLM推理
关键词: 视频转音频, Chain-of-Thought, 音频生成, 多模态推理, Flow Matching
一句话总结¶
提出三阶段交互式视频转音频框架 ThinkSound,通过 MLLM 生成结构化 CoT 推理来指导统一的音频生成基础模型,在 VGGSound 和 MovieGen Audio 基准上达到 SOTA,同时支持对象级精细化和自然语言指令编辑。
研究背景与动机¶
领域现状:视频转音频(V2A)已从端到端扩散模型(Diff-Foley、FoleyCrafter)发展到多模态条件生成(MMAudio、MultiFoley),质量大幅提升。但当前方法仍是"黑箱"式一步生成,缺乏对视觉内容的深层推理。
现有痛点:生成逼真音频需要像专业音效师一样推理——判断猫头鹰是在叫还是扑翅、识别树枝摇晃的声音、同步多个音效事件。现有端到端方法压缩了这些推理步骤,常产生泛化的声音或与细微视觉线索不同步。
核心矛盾:SonicVisionLM 用 MLLM 做字幕再 T2A 生成,但丢失关键视觉细节;DeepSound-V1 引入 CoT 但把过程碎片化为三个独立模型。两者都未充分利用 MLLM 的推理能力来指导统一的音频生成。
本文目标:如何将 MLLM 的 CoT 推理能力深度整合到 V2A 管线中,实现逐步、交互式的音频生成与编辑?
切入角度:模仿专业音效师的工作流——先生成整体音景,再精细化特定物体的声音,最后按指令编辑——每一步都由 CoT 推理指导。
核心 idea:用 MLLM 生成音频特定的 CoT 推理链,作为结构化条件信号指导统一的 flow matching 音频基础模型完成三阶段音频生成。
方法详解¶
整体框架¶
ThinkSound 由两个主要模块组成:(1) 基于 VideoLLaMA2 微调的 MLLM,负责分析视频/文本输入并生成结构化 CoT 推理;(2) 基于 MM-DiT 的统一音频基础模型,接受 CoT + 视频 + 文本 + 音频上下文的多模态条件,通过 flow matching 生成高保真音频。整个流程分三个阶段:基础 Foley 生成 → 对象级交互精细化 → 指令驱动编辑。
关键设计¶
-
AudioCoT 数据集:
- 功能:构建大规模多模态 CoT 标注数据集,桥接视觉内容、文本描述和音频合成
- 核心思路:三阶段自动化管线——(a) 用 VideoLLaMA2 + Qwen2-Audio 提取视觉/音频信息,GPT-4.1-nano 合成 CoT 链;(b) 用 Grounded SAM2 提取 ROI 区域,生成对象级 CoT;(c) 基于四种操作(extension/inpainting/addition/removal)生成编辑 CoT
- 设计动机:没有大规模音频 CoT 数据就无法训练 MLLM 生成有意义的推理链;现有数据集缺乏结构化推理标注
-
CoT 推理 MLLM:
- 功能:微调 VideoLLaMA2 使其能生成音频特定的结构化推理
- 核心思路:在 AudioCoT 上用标准交叉熵 loss 微调,使模型获得三种能力:(a) 音频理解(声学属性、声音传播、时序因果关系),(b) 结构化分解(将复杂音频场景拆分为可操作的步骤),(c) 多模态指令跟随
- 设计动机:通用 MLLM 缺乏音频生成所需的专门推理能力
-
统一音频基础模型(CoT-Guided MM-DiT):
- 功能:从任意输入模态组合生成高保真音频
- 核心思路:基于 flow matching 训练,关键设计包括——(a) 双路文本编码:MetaCLIP 编码视觉字幕提供场景级上下文,T5-v1-xl 编码 CoT 推理捕捉细粒度时序因果关系;(b) 混合 Transformer:multi-stream blocks(每模态独立参数,共享 attention)+ single-stream blocks;(c) 自适应融合模块:上采样视频特征并通过门控机制与音频 latent 融合;(d) classifier-free guidance dropout(每模态随机 drop,概率 0.2)支持任意输入组合
- 设计动机:统一架构让三个阶段共享同一个音频生成模型,CoT 作为结构化条件比原始字幕提供更精确的生成指导
-
Click-Based 交互接口(Stage 2):
- 功能:用户点击视频中的特定物体来触发对象级音频精细化
- 核心思路:用 Grounded SAM2 从点击位置生成 ROI,跨帧跟踪,MLLM 针对 ROI 生成专门 CoT,基础模型以已有音频为上下文条件,合成并融入对象特定声音
- 设计动机:让非技术用户也能进行精细的音频控制
训练策略¶
- VAE:在 Stability AI VAE 基础上训练 50 万步(24×A800),再冻结 encoder 训练 decoder 50 万步
- 基础模型:10 万步(8×A100),batch 256,lr \(10^{-4}\)
- 任务微调:5 万步(8×A100),分别针对三个阶段
实验关键数据¶
主实验(VGGSound V2A 生成)¶
| 方法 | FD↓ | KL_PaSST↓ | DeSync↓ | CLAP_CoT↑ | MOS-Q↑ | MOS-A↑ |
|---|---|---|---|---|---|---|
| MMAudio | 43.26 | 1.65 | 0.44 | 0.40 | 3.84 | 3.97 |
| ThinkSound | 34.56 | 1.52 | 0.46 | 0.46 | 4.02 | 4.18 |
| w/o CoT | 39.84 | 1.59 | 0.48 | 0.41 | 3.91 | 4.04 |
OOD 评估(MovieGen Audio Bench)¶
| 方法 | CLAP_CoT↑ | DeSync↓ | MOS-Q↑ | MOS-A↑ |
|---|---|---|---|---|
| MMAudio | 0.45 | 0.77 | 3.95 | 3.62 |
| MovieGen | 0.47 | 1.00 | 3.98 | 3.70 |
| ThinkSound | 0.51 | 0.76 | 4.11 | 3.87 |
关键发现¶
- CoT 推理的贡献显著:去掉 CoT 后 FD 从 34.56 升到 39.84(+15%),CLAP_CoT 从 0.46 降到 0.41,确认 CoT 提供了音效事件、时序关系和声学特性的关键信息
- OOD 泛化强:在从未见过的 MovieGen 数据上仍然 SOTA,说明 CoT 推理带来了更好的泛化
- 对象级和编辑任务:ThinkSound 在对象级生成(FD 43.27 vs MMAudio 44.46)和音频编辑(FD 34.78 vs AudioLDM-2 61.28)上都大幅领先
- 推理效率:生成时间仅 1.07s,快于 MMAudio (3.01s) 和 FoleyCrafter (3.84s)
亮点与洞察¶
- 三阶段交互工作流设计合理:完美模拟了专业音效师的工作流程(先整体→再局部→再修改),每阶段都有 MLLM 的 CoT 推理桥接用户意图和音频合成
- AudioCoT 数据集价值大:自动化 CoT 标注管线可扩展到更多数据源,解决了音频 CoT 训练数据缺失的问题
- 双路文本编码(MetaCLIP + T5):场景级全局上下文 + 细粒度 CoT 推理的互补设计,比单一编码器效果好很多
局限与展望¶
- 依赖额外 MLLM 推理:每次生成需要先跑 MLLM 产生 CoT,增加了系统复杂度(虽然论文说生成时间更短,可能是因为音频生成本身更快)
- CoT 质量依赖 GPT-4.1-nano:数据集构建管线依赖闭源模型,CoT 的错误会传播到下游
- 人工评估规模未知:MOS 分数的评估者数量和详细设置在主文中不够清晰
- 缺乏对话式交互:三阶段是预定义的线性流程,不支持用户反馈式的迭代调整
相关工作与启发¶
- vs MMAudio: MMAudio 也用 flow matching + 多模态条件,但缺乏 CoT 推理;ThinkSound 通过 CoT 分解复杂场景为可管理的声音组件,FD 改善 20%
- vs SonicVisionLM: SonicVisionLM 将视频→文字→音频两段式处理,中间丢失视觉细节;ThinkSound 保持视频直接参与条件生成
- vs DeepSound-V1: 也用 CoT 但碎片化为三个独立模型;ThinkSound 用统一基础模型覆盖所有阶段
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 CoT 推理引入 V2A 生成的三阶段交互框架设计新颖,AudioCoT 数据集有独立贡献
- 实验充分度: ⭐⭐⭐⭐ 多基准(VGGSound + MovieGen)+ 三个子任务 + 消融实验 + 主客观评估,较为全面
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,图表丰富,方法描述详细
- 价值: ⭐⭐⭐⭐ 展示了 CoT 推理在生成任务(而非纯理解/推理任务)中的价值,开拓了新的应用方向