Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://hjzheng.net/projects/AVI-Edit/ （项目页，无开源代码）
领域: 视频编辑 / 扩散模型 / 视听同步
关键词: 音视频同步编辑、实例级编辑、掩码细化、音频Agent、流匹配

一句话总结¶

AVI-Edit 在预训练视频扩散 backbone 上做"音视频同步的实例级编辑"——用一个粒度感知掩码细化器把用户给的粗糙掩码（甚至是 bounding box）逐步细化成精确实例轮廓，再用一个自反馈音频 Agent（分离-生成-混音-返工流水线）调出与编辑后画面在时序上对齐的伴随音频，在视觉质量、条件遵循和音视频同步上全面超过现有方法。

研究背景与动机¶

领域现状：视频编辑（改某个人的外观、替换某个物体等）是内容创作的重要工具。Sora-2、Veo3 这类商用模型表明，逼真的伴随音频是"沉浸感"的关键，因此自然产生了一个需求：在做实例级视频编辑时，能不能把原视频的音视频同步关系也一起保住或改对。

现有痛点：绝大多数视频编辑模型（dual-branch encoder、辅助条件那一类）只盯着视觉特征，编辑完画面就把原本的音画同步关系破坏了。少数引入音频的工作各有缺陷：AvED 用跨模态对比做同步，但只停留在场景级对齐；Object-AVEdit 能做物体级控制，但它"反演-重生成"的范式天生缺乏时序可控性（没法指定某个声音事件精确发生在第几秒）。

核心矛盾：实例级编辑要同时满足三件事——空间上要精确框住目标实例（不能污染背景）、时间上音频要和画面逐帧对齐、还要支持人声/非人声等多样场景。现有方法要么空间不准（用户给的掩码本来就粗糙），要么音频只能给全局语义、给不了细粒度时序，三者凑不齐。

本文目标：构建一个能做"音视频同步 + 实例级 + 细粒度时空可控"编辑的统一框架，并为这个新任务配一套数据集。

切入角度：作者把难点拆成两个可被专门攻克的子问题——空间精度交给一个"会把粗掩码越改越准"的细化模块，时序音频交给一个"会自己评估并返工修正"的音频 Agent，二者都建立在同一个音画同步的视频 backbone 之上。

核心 idea：用粒度感知掩码细化器解决空间不准、用自反馈音频 Agent解决音频时序控制，把它们插进预训练视频扩散 backbone（Wan2.2-5B），实现音画同步的实例级编辑。

方法详解¶

整体框架¶

AVI-Edit 的输入是：一段原视频、一个粗糙的实例掩码 \(m\)（指明要编辑哪个实例）、一段文本指令 \(y\)（指明怎么改）、以及原始伴随音频 \(a_{orig}\)。输出是编辑后的视频和与之同步的音频。整个系统由三块组成，串成一条流水线：先由自反馈音频 Agent 把原音频整理成"留下背景音 + 生成目标音"的精修音频 token；同时粒度感知掩码细化器（GAMR） 把粗掩码迭代细化成精确实例轮廓；最后音画同步视频 backbone 拿着精修音频、精确掩码和文本，在潜空间里做流匹配生成，得到编辑结果。掩码外的背景区域用原始干净 latent 直接保留，保证只动目标实例。

为支撑训练与评测，作者还构建了 AVISET 数据集（71k 训练 / 1k 验证 / 1k 测试，约 197 小时、720P/24FPS），每段都过滤到"只含一个主要发声实例"，并标注实例掩码、场景级文本，测试集额外提供"原始-编辑"配对指令。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>原视频 + 粗掩码 + 文本指令 + 原音频"] --> B["自反馈音频Agent<br/>分离-生成-混音-返工<br/>产出精修音频token"]
    A --> C["粒度感知掩码细化器<br/>粗掩码→精确实例轮廓<br/>precision factor迭代"]
    B -->|逐帧cross-attn时序引导| D["音画同步视频Backbone<br/>Wan2.2-5B流匹配<br/>掩码保背景"]
    C -->|精确掩码| D
    A -->|文本token| D
    D --> E["输出<br/>编辑后视频 + 同步音频"]

关键设计¶

1. 音画同步视频 Backbone：在预训练视频 DiT 里塞进逐帧音频通道

这一块解决"怎么让视频生成同时听话于文本、音频和掩码，还不破坏背景"。作者在 Wan2.2-5B 的扩散 Transformer 上做微调，用流匹配（flow matching） 目标训练：把干净 latent \(z=E(x)\) 与高斯噪声 \(\epsilon\) 线性插值成概率路径 \(\hat z_t = tz + (1-t)\epsilon\)（\(t\in[0,1]\)，\(\hat z_0=\epsilon\)，\(\hat z_1=z\)），模型 \(v_\theta\) 学习预测速度场 \(v_t = z-\epsilon\)，损失为

\[\mathcal{L}_{fm}=\mathbb{E}\big[\,\lVert v_\theta(z_t,t,\hat m,y,a,c)-v_t\rVert^2\,\big].\]

为了只编辑目标、保住背景，它用下采样掩码 \(\hat m\) 把噪声路径和原始干净 token 拼起来：\(z_t = \hat z_t \odot \hat m + z \odot (1-\hat m)\)——掩码内是要生成的区域、掩码外直接抄原视频 token。在每个 DiT block 里，除了原有的自注意力（长程上下文）和多模态交叉注意力（理解文本）外，作者新增一层逐帧交叉注意力（frame-wise cross-attention），让精修音频 token \(a\) 与视频 latent 在时间维上逐帧对齐，这是实现"音画逐帧同步"的关键机制。此外还设计了统一接口接入 scribble / pose / 参考图等可选控制 \(c\)（scribble、pose 用逐元素相加注入，参考图用拼接），推理时从噪声 \(\epsilon\) 出发解 ODE \(dz_t/dt = v_\theta(\cdot)\) 得到编辑结果。

2. 粒度感知掩码细化器（GAMR）：用 precision factor 把粗掩码越改越准

痛点很直接——用户给的掩码往往很糙（极端情况就是个 bounding box），直接拿去编辑会污染背景。GAMR 用一个和视频 backbone 同构的扩散 Transformer 来"预测精确实例掩码"，核心是引入一个精度因子（precision factor） \(p\in[0,P]\) 显式刻画掩码粒度：\(p=P\) 表示最差（如 bounding box），\(p=0\) 表示精确实例轮廓 \(m_{gt}\)。\(p\) 经线性编码后通过每个 DiT block 的 AdaLN 和 Gate 注入，让模型"知道当前掩码有多糙、该修多少"。

它有两个巧妙之处：一是把多模态交叉注意力里的文本 token 换成视频 token，让细化器靠视觉语义（而非文字）来推断实例边界；二是把精修音频 token 也通过逐帧交叉注意力喂进来，使掩码能与声音事件的时序对齐。训练时为模拟用户掩码的不准，作者从精确掩码 \(m_{gt}\) 出发，用一组预定义高斯模糊核按 \(p\) 退化出训练对：\(m_p = \mathrm{GaussianBlur}(m_{gt}, k_p, \sigma_p)\)（核大小 \(k_p\)、标准差 \(\sigma_p\) 由 \(p\) 决定），并用 focal loss 形式的掩码细化损失训练

\[\mathcal{L}_{mask} = -\alpha\,\hat m_{gt}(1-\hat m)^\gamma\log(\hat m) - (1-\alpha)(1-\hat m_{gt})\,\hat m^\gamma\log(1-\hat m),\]

其中 \(\alpha=0.25,\ \gamma=2.0\)。推理时是迭代式 precision-aware 细化：第 0 步喂入用户粗掩码 \(\hat m_0\) 和其精度 \(p\)（如 bounding box 取 \(p=P\)），后续每步把上一步估计掩码 \(\hat m_{k-1}\) 当作新输入、按预定义退化 schedule 调小 \(p\)，每步细化后的 \(\hat m_k\) 直接作为该步视频生成 backbone 用的掩码。这种"边解 ODE 边细化掩码"的方式，让空间精度随生成过程逐步收敛。

3. 自反馈音频 Agent：分离-生成-混音-返工，自评不合格就返工

这一块解决"伴随音频怎么既保留该留的、又生成该改的，还要听起来自然"。作者设计了一个 separate–generate–remix–rework（分离-生成-混音-返工）流水线，把一堆现成音频组件编排起来，并能自我评估、不满意就回炉。流程是：先用 captioner 把原音频转成文本并总结语义 \(c_{sem}\)，再用 VLM 结合画面/掩码/指令推理出编辑计划

\[(c_{sep}, c_{gen}) = \mathrm{VLM}([x, m_p, c_{sem}, y]),\]

其中 \(c_{sep}\) 是"要从原音频里保留的成分"（如背景掌声）、\(c_{gen}\) 是"要新生成的成分"（如某男声）。Agent 据此从一批现成模型里挑最合适的分离模型 \(T^{sep}\)（按 speech / non-speech 领域）和生成模型 \(T^{gen}\)（按 speech / music / sound 音轨，用 ElevenLabs 的 TTS/TTM/TTS-sound 实现），分别得到保留成分 \(a^{sep}=T^{sep}(a_{orig},c_{sep})\) 和生成成分 \(a^{gen}=T^{gen}(c_{gen})\)，混音成精修音频 \(a\)。

"自反馈"体现在最后的返工判定：用一个 MLLM 评估混音音频的整体感知质量 \(q\)（听起来是否自然真实），只有质量分超过阈值 \(\tau\) 才被接受；若被拒，MLLM 会生成改进指令 \((\hat c_{sep}, \hat c_{gen})\) 分别反馈给分离模型（如"女声还残留可听到"）和生成模型（如"合成男声音量不够"），形成迭代修正回环，直到质量达标或到达最大迭代数。这让音频质量不靠一锤子买卖，而是闭环逼近。

损失函数 / 训练策略¶

联合优化视频流匹配损失与掩码细化损失：\(\mathcal{L}=\mathcal{L}_{fm}+\lambda \mathcal{L}_{mask}\)（\(\lambda=1.0\)）。冻结时空 VAE，只微调扩散 Transformer，用 Wan2.2-5B 预训练权重初始化 backbone 与 GAMR，在 8×A800 上以 720p 训练 160k 步，Adam，学习率 \(2\times10^{-5}\)。

实验关键数据¶

主实验¶

评测分三类指标：视觉质量（FVD↓、IS↑）、帧一致性 FC（相邻帧 CLIP 相似度）、对齐（文本-视频 TC、音频-视频 AC、唇动同步 Sync-C↑/Sync-D↓）。对比 AvED、Ovi、以及"先 VACE 编辑视频再 Hunyuan-Foley 配音"的串行 baseline（VACE-Foley），均在 AVISET 上微调。为公平，主表都用 ground-truth 掩码评测。

数据集	方法	FVD↓	IS↑	FC%↑	TC%↑	AC%↑	Sync-C↑	Sync-D↓
AVISET	AvED	364.69	1.104	95.03	23.69	23.31	1.69	11.80
AVISET	Ovi	407.08	1.122	96.47	25.83	26.68	4.00	9.12
AVISET	VACE-Foley	391.64	1.115	96.60	25.92	26.45	1.72	10.37
AVISET	AVI-Edit	312.89	1.127	96.65	26.16	26.93	4.12	9.19
AvED-Bench	AvED	413.82	1.118	94.89	24.59	20.45	—	—
AvED-Bench	AVI-Edit	349.31	1.125	95.82	25.30	21.64	—	—

AVI-Edit 在两个数据集大多数指标上领先，尤其 FVD（视觉质量）大幅降低、AC（音视频对齐）最高。Sync-D 上 Ovi（9.12）略好于本文（9.19），属可比范围。AvED-Bench 无人物说话视频，唇动同步指标不适用。

用户研究（25 人）也显示 AVI-Edit 在音视频同步（AVS）、文本对齐（TA）、整体偏好（OP）三项均居首：AVISET 上 OP 达 45.20%（Ovi 38.40%、VACE-Foley 14.80%）。音频质量研究中，音频 Agent 产出的音频在保真度（AF）91%+、背景保留（RP）85%+、文本-音频一致性（TAC）88%+ 被评为"可接受/完美"。

消融实验¶

消融时把掩码随机退化成粗掩码，以检验掩码细化的鲁棒性（AVISET）。

配置	FVD↓	FC%↑	AC%↑	Sync-C↑	说明
AVI-Edit（完整）	335.32	96.63	26.77	4.18	全模块
w/o PF（去精度因子）	354.43	96.49	26.50	4.12	掩码细化失去粒度引导，头部区域估计不准
w/o MR（去掩码细化器）	372.44	96.32	26.38	4.07	只靠初始粗掩码，背景（墙面）被误改
w/o AA（去音频 Agent）	342.75	96.54	25.97	3.83	换成通用音频编辑模型，音频更嘈杂、音画同步下降

关键发现¶

掩码细化器（MR）贡献最大：去掉后 FVD 从 335.32 涨到 372.44（视觉质量明显变差），因为模型被迫用粗掩码、背景保不住。
精度因子（PF）是细化器的"刻度"：去掉 PF 虽然还有细化器结构，但失去了粒度引导，掩码估计在边界（如人物头部）出错，说明显式建模"掩码有多糙"确实有用。
音频 Agent（AA）主要影响音频侧：去掉后 AC 和 Sync-C 掉得最明显（音视频同步变差），印证自反馈返工机制对音频质量的作用。
框架还支持 scribble / pose / 参考图等可选控制，以及实例插入/删除、长视频编辑等扩展应用（见补充材料）。

亮点与洞察¶

把"掩码精度"显式参数化：用一个标量 precision factor \(p\) 描述粗细，并用高斯模糊核按 \(p\) 退化造训练对，让细化器学会"从 bounding box 一路修到精确轮廓"——这种"把噪声等级当条件"的思路很像扩散里的 timestep，迁移到掩码细化上很自然。
掩码细化器复用视频 backbone 的架构，但把文本 token 换成视频 token：一个小改动就让模块从"按文字找边界"变成"按视觉语义找边界"，对实例分割更合理，且能复用预训练权重。
音频用 Agent 编排而非端到端：分离-生成-混音-返工 + MLLM 自评返工，把现成 TTS/TTM/分离模型当工具调，既能覆盖人声/非人声多场景，又能闭环纠错——这套"用 Agent 把专用音频模型缝起来"的范式，可迁移到任何需要高质量可控音频的生成任务。
逐帧交叉注意力作为音画同步的统一注入点，同时服务 backbone 和掩码细化器，让"时序对齐"成为整个系统的共享能力。

局限性 / 可改进方向¶

作者承认：掩码一次只指一个实例，编辑含多个目标实例的视频需要逐个串行跑 AVI-Edit，不能同时多实例编辑。
音频 Agent 重度依赖现成组件（ElevenLabs 的 TTS/TTM、专用分离模型、MLLM 评判），整体质量受这些黑盒组件上限约束，且推理链路长、返工回环可能增加延迟。⚠️ 论文未报告 Agent 的平均迭代次数与耗时。
数据集 AVISET 过滤到"单一主要发声实例"，对多人同时说话、复杂混响等真实场景的泛化未充分验证。
唇动同步 Sync-D 上略逊于 Ovi，说明在精细唇形对齐上仍有提升空间。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把实例级 + 逐帧音画同步 + 细粒度时空可控统一起来的视频编辑框架，掩码 precision factor 与自反馈音频 Agent 都是新设计
实验充分度: ⭐⭐⭐⭐ 两数据集定量 + 用户研究 + 音频质量研究 + 消融齐全，但对比方法偏少（任务新、baseline 多为改造）
写作质量: ⭐⭐⭐⭐ 三大模块分工清晰、公式完整，框架图信息密但稍杂
价值: ⭐⭐⭐⭐⭐ 音画同步编辑是 Sora-2/Veo3 时代的刚需，配套 AVISET 数据集也利于后续研究