ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing¶

会议: NeurIPS 2025
arXiv: 2506.21448
代码: https://ThinkSound-Project.github.io
领域: LLM推理
关键词: 视频转音频, Chain-of-Thought, 音频生成, 多模态推理, Flow Matching

一句话总结¶

提出三阶段交互式视频转音频框架 ThinkSound，通过 MLLM 生成结构化 CoT 推理来指导统一的音频生成基础模型，在 VGGSound 和 MovieGen Audio 基准上达到 SOTA，同时支持对象级精细化和自然语言指令编辑。

研究背景与动机¶

领域现状：视频转音频（V2A）已从端到端扩散模型（Diff-Foley、FoleyCrafter）发展到多模态条件生成（MMAudio、MultiFoley），质量大幅提升。但当前方法仍是"黑箱"式一步生成，缺乏对视觉内容的深层推理。

现有痛点：生成逼真音频需要像专业音效师一样推理——判断猫头鹰是在叫还是扑翅、识别树枝摇晃的声音、同步多个音效事件。现有端到端方法压缩了这些推理步骤，常产生泛化的声音或与细微视觉线索不同步。

核心矛盾：SonicVisionLM 用 MLLM 做字幕再 T2A 生成，但丢失关键视觉细节；DeepSound-V1 引入 CoT 但把过程碎片化为三个独立模型。两者都未充分利用 MLLM 的推理能力来指导统一的音频生成。

本文目标：如何将 MLLM 的 CoT 推理能力深度整合到 V2A 管线中，实现逐步、交互式的音频生成与编辑？

切入角度：模仿专业音效师的工作流——先生成整体音景，再精细化特定物体的声音，最后按指令编辑——每一步都由 CoT 推理指导。

核心 idea：用 MLLM 生成音频特定的 CoT 推理链，作为结构化条件信号指导统一的 flow matching 音频基础模型完成三阶段音频生成。

方法详解¶

整体框架¶

ThinkSound 由两个主要模块组成：(1) 基于 VideoLLaMA2 微调的 MLLM，负责分析视频/文本输入并生成结构化 CoT 推理；(2) 基于 MM-DiT 的统一音频基础模型，接受 CoT + 视频 + 文本 + 音频上下文的多模态条件，通过 flow matching 生成高保真音频。整个流程分三个阶段：基础 Foley 生成 → 对象级交互精细化 → 指令驱动编辑。

关键设计¶

AudioCoT 数据集:
- 功能：构建大规模多模态 CoT 标注数据集，桥接视觉内容、文本描述和音频合成
- 核心思路：三阶段自动化管线——(a) 用 VideoLLaMA2 + Qwen2-Audio 提取视觉/音频信息，GPT-4.1-nano 合成 CoT 链；(b) 用 Grounded SAM2 提取 ROI 区域，生成对象级 CoT；(c) 基于四种操作（extension/inpainting/addition/removal）生成编辑 CoT
- 设计动机：没有大规模音频 CoT 数据就无法训练 MLLM 生成有意义的推理链；现有数据集缺乏结构化推理标注
CoT 推理 MLLM:
- 功能：微调 VideoLLaMA2 使其能生成音频特定的结构化推理
- 核心思路：在 AudioCoT 上用标准交叉熵 loss 微调，使模型获得三种能力：(a) 音频理解（声学属性、声音传播、时序因果关系），(b) 结构化分解（将复杂音频场景拆分为可操作的步骤），(c) 多模态指令跟随
- 设计动机：通用 MLLM 缺乏音频生成所需的专门推理能力
统一音频基础模型（CoT-Guided MM-DiT）:
- 功能：从任意输入模态组合生成高保真音频
- 核心思路：基于 flow matching 训练，关键设计包括——(a) 双路文本编码：MetaCLIP 编码视觉字幕提供场景级上下文，T5-v1-xl 编码 CoT 推理捕捉细粒度时序因果关系；(b) 混合 Transformer：multi-stream blocks（每模态独立参数，共享 attention）+ single-stream blocks；(c) 自适应融合模块：上采样视频特征并通过门控机制与音频 latent 融合；(d) classifier-free guidance dropout（每模态随机 drop，概率 0.2）支持任意输入组合
- 设计动机：统一架构让三个阶段共享同一个音频生成模型，CoT 作为结构化条件比原始字幕提供更精确的生成指导
Click-Based 交互接口（Stage 2）:
- 功能：用户点击视频中的特定物体来触发对象级音频精细化
- 核心思路：用 Grounded SAM2 从点击位置生成 ROI，跨帧跟踪，MLLM 针对 ROI 生成专门 CoT，基础模型以已有音频为上下文条件，合成并融入对象特定声音
- 设计动机：让非技术用户也能进行精细的音频控制

训练策略¶

VAE：在 Stability AI VAE 基础上训练 50 万步（24×A800），再冻结 encoder 训练 decoder 50 万步
基础模型：10 万步（8×A100），batch 256，lr \(10^{-4}\)
任务微调：5 万步（8×A100），分别针对三个阶段

实验关键数据¶

主实验（VGGSound V2A 生成）¶

方法	FD↓	KL_PaSST↓	DeSync↓	CLAP_CoT↑	MOS-Q↑	MOS-A↑
MMAudio	43.26	1.65	0.44	0.40	3.84	3.97
ThinkSound	34.56	1.52	0.46	0.46	4.02	4.18
w/o CoT	39.84	1.59	0.48	0.41	3.91	4.04

OOD 评估（MovieGen Audio Bench）¶

方法	CLAP_CoT↑	DeSync↓	MOS-Q↑	MOS-A↑
MMAudio	0.45	0.77	3.95	3.62
MovieGen	0.47	1.00	3.98	3.70
ThinkSound	0.51	0.76	4.11	3.87

关键发现¶

CoT 推理的贡献显著：去掉 CoT 后 FD 从 34.56 升到 39.84（+15%），CLAP_CoT 从 0.46 降到 0.41，确认 CoT 提供了音效事件、时序关系和声学特性的关键信息
OOD 泛化强：在从未见过的 MovieGen 数据上仍然 SOTA，说明 CoT 推理带来了更好的泛化
对象级和编辑任务：ThinkSound 在对象级生成（FD 43.27 vs MMAudio 44.46）和音频编辑（FD 34.78 vs AudioLDM-2 61.28）上都大幅领先
推理效率：生成时间仅 1.07s，快于 MMAudio (3.01s) 和 FoleyCrafter (3.84s)

亮点与洞察¶

三阶段交互工作流设计合理：完美模拟了专业音效师的工作流程（先整体→再局部→再修改），每阶段都有 MLLM 的 CoT 推理桥接用户意图和音频合成
AudioCoT 数据集价值大：自动化 CoT 标注管线可扩展到更多数据源，解决了音频 CoT 训练数据缺失的问题
双路文本编码（MetaCLIP + T5）：场景级全局上下文 + 细粒度 CoT 推理的互补设计，比单一编码器效果好很多

局限与展望¶

依赖额外 MLLM 推理：每次生成需要先跑 MLLM 产生 CoT，增加了系统复杂度（虽然论文说生成时间更短，可能是因为音频生成本身更快）
CoT 质量依赖 GPT-4.1-nano：数据集构建管线依赖闭源模型，CoT 的错误会传播到下游
人工评估规模未知：MOS 分数的评估者数量和详细设置在主文中不够清晰
缺乏对话式交互：三阶段是预定义的线性流程，不支持用户反馈式的迭代调整

评分¶

新颖性: ⭐⭐⭐⭐ 将 CoT 推理引入 V2A 生成的三阶段交互框架设计新颖，AudioCoT 数据集有独立贡献
实验充分度: ⭐⭐⭐⭐ 多基准（VGGSound + MovieGen）+ 三个子任务 + 消融实验 + 主客观评估，较为全面
写作质量: ⭐⭐⭐⭐ 论文结构清晰，图表丰富，方法描述详细
价值: ⭐⭐⭐⭐ 展示了 CoT 推理在生成任务（而非纯理解/推理任务）中的价值，开拓了新的应用方向