FreeViS: Training-free Video Stylization with Inconsistent References¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=SiYNm21ifi
项目主页: https://xujiacong.github.io/FreeViS/
领域: 视频生成 / 视频风格化
关键词: 视频风格化, 训练无关, 扩散反演, I2V 模型, 多参考帧, 光流引导
一句话总结¶
FreeViS 把多张「彼此不一致」的风格化参考帧塞进预训练 I2V 扩散模型,用隔离注意力 + 高频补偿 + 光流引导三件套,在完全无需训练的条件下解决了单参考帧方法的风格传播误差,做出风格细节丰富又时序连贯的视频风格化。
研究背景与动机¶
- 领域现状:图像风格迁移已经很成熟,但视频风格化严重落后。逐帧套用图像风格化会带来剧烈闪烁、时序不一致;专门训练视频风格化模型又需要成对的「原视频—风格视频」数据,几乎拿不到,且 DiT 全量微调代价巨大。
- 现有痛点:参考式编辑方法(如 AnyV2V)先把首帧风格化,再用预训练 I2V 模型把首帧「传播」到后续帧。但 I2V 模型训练时没见过风格化帧,首帧属于分布外输入,无法正确解析并传播风格图案——当后续内容与首帧差异大时,风格传不过去,产生明显的传播误差(propagation error)。
- 核心矛盾:单参考帧信息不足以覆盖整段视频,但朴素地拼接多个参考帧到 noise latent 上又会引发严重的闪烁和卡顿(stutter),因为额外参考是独立编码的、缺乏与主视频共享的动态信息。
- 本文目标:在完全无需训练(仅靠扩散反演)的前提下,引入跨整段视频的多参考帧,既消除传播误差,又不引入闪烁卡顿,做到高保真风格 + 强时序一致。
- 核心 idea:多个不一致参考 + 隔离注意力 + 频域解耦。一方面观测到 I2V latent 中 LF 控外观/颜色、HF 控布局/运动,于是只回注 HF 差异来约束结构而不污染风格颜色;另一方面把「外观」和「动态」从参考与重建的 value 中解耦,只给静态参考注入共享动态,从而让多张不一致参考能协同工作。
方法详解¶
整体框架¶
FreeViS 以预训练 I2V 扩散模型为骨干,给定风格图后先用图像风格迁移模型把若干选定内容帧(首/中/尾)风格化,得到一组彼此不一致的参考帧。整个 pipeline 走双分支:重建分支(reconstruction)和风格化分支(stylization),二者共享反演得到的去噪轨迹与初始噪声。重建分支在每个 DiT block 把 query/key/value 传给风格化分支;每步去噪后把目标 latent 与重建 latent 之差的高频分量加到风格化 latent 上,并把动态线索注入到额外参考的 value 矩阵中。
flowchart TD
A[原视频] --> B[选首/中/尾帧]
B --> C[图像风格迁移<br/>InstantStyle-plus]
A --> D[PnP 反演<br/>缓存去噪轨迹]
C --> E[风格化参考]
A --> F[RAFT 光流<br/>Ref/Flow Masks]
D --> G[重建分支]
E --> H[风格化分支]
G -- QK-Sharing / HF补偿 --> H
F -- Masked-Attn --> H
H --> I[解码 → 风格化视频]
关键设计¶
1. 间接高频补偿(IHC):只纠结构、不动颜色。 PnP 反演会把目标 latent 与重建 latent 的差直接补到两条分支,能近乎精确重建,但这种强校正会把风格化 latent 的信息整体拉回原始内容,导致颜色从风格态退回原视频。作者根据「LF 管外观/颜色、HF 管布局/运动」的观测,提出只把高频差异注入风格化 latent:先对 \(x_t\) 和 \(x_t^r\) 做 AdaIN 把颜色统计对齐到风格 latent \(x_t^s\),再做空间 FFT、用低通滤波器 \(H_{LP}\) 取出高频部分、经 iFFT 加回:
其中截止频率经验设为 0.2,在风格保真与内容重建间取得最佳折中;\(\lambda\) 随时间步线性衰减。重建分支则用完整补偿 \(x_t^r = \lambda(x_t - x_t^r) + x_t^r\) 恢复内容。这一招在大幅相机运动、后续帧与首帧差异大的场景里既保住了风格颜色纹理,又修正了空间布局与运动。
2. 额外不一致参考 + 隔离注意力(Isolated-Attn):让多参考协同而不打架。 现有 I2V 模型只支持单参考,朴素拼接多参考会闪烁。重建分支用 Isolated-Attn 隔离辅助参考 \(x_R^r\) 的影响:重建 token \(x^r\) 走标准自注意力,参考 token \(x_R^r\) 则同时 attend 到重建与参考的 K/V,使参考随去噪同步演化、模拟全自注意力行为:
风格化分支需要全 token 信息交换,但独立编码的风格参考 value \(V_R^s\) 缺动态信息会导致卡顿。作者发现动态信息在风格 value \(V^s\) 和重建 value \(V^r\) 间是共享的,于是把动态残差解耦出来、只把动态分量注入 \(V_R^s\):
\(\xi\) 随时间步从 0 线性增到 1——早期更依赖重建分支的动态,末期收敛到 \(V^s[i_R]\) 以保证输出一致。由于参考之间天然不一致、同一区域外观可能不同会引起时变伪影,作者再用 RAFT 光流从首参考帧追踪到后续参考帧,构造参考掩码 \(M_{Ref}\)(若某像素可由前序参考到达则标 False),在掩码注意力中屏蔽冲突区域:
进一步借鉴 UNet 把重建特征前传给编辑分支的思路,做 QK-Sharing:用重建分支的 Q/K 替换风格化分支(得到 \(\text{Out}_2^s\)),因为重建 Q/K 定义了跨内容视频的时空对应关系,对风格传播与时序一致更关键。
3. 显式光流引导(EOG):在平坦区救回消失的纹理。 当相机/物体大幅运动时,少显著特征的平坦区域里风格纹理会消失或时变,根源是时序远帧间的注意力图不准、扩散到错误区域。EOG 用前后向光流追踪每个像素跨帧的对应:若帧 \(s\) 的像素 \(p_{i,j}^s\) 映射到帧 \(t\) 的 \(p_{m,n}^t\),则光流掩码 \(M_{Flow}\) 在对应索引置 True(并做膨胀容忍光流误差),再做掩码注意力把注意力区域约束到一致区域:
最后把三种注意力模式按权聚合后再进 cross-attention:
其中 \(\gamma\) 只在去噪末期(模型聚焦局部纹理细化时)取非零值。Cross-attention 侧则把所有参考帧的 CLIP 特征拼接并做 QK-Sharing 增强语言对齐注入。参考排布上,考虑到 I2V 模型多限于短视频(约 81 帧),经验性地只选首/中/尾三帧作参考,每个参考 token 复用对应帧的位置嵌入以保证时空传播正确。
实验关键数据¶
主实验:视频风格迁移(200 个在线视频 + WikiArt 风格图)¶
| 方法 | CSD↑ | ArtFID↓ | FID↓ | LPIPS↓ | SC↑ | MS↑ | FC↓ | HP↑ |
|---|---|---|---|---|---|---|---|---|
| Reference(锚) | 0.508 | 31.62 | 20.28 | 0.486 | 0.918 | 0.986 | 0.000 | - |
| TokenFlow | 0.111 | 37.87 | 27.94 | 0.309 | 0.915 | 0.976 | 1.092 | 2.179 |
| VACE | 0.138 | 35.53 | 27.77 | 0.240 | 0.910 | 0.984 | 0.554 | 2.895 |
| I2VEdit | 0.331 | 38.72 | 22.53 | 0.653 | 0.738 | 0.975 | 2.074 | 2.538 |
| AnyV2V | 0.267 | 35.84 | 23.52 | 0.471 | 0.753 | 0.961 | 1.715 | 2.443 |
| AnyV2V*(同底座) | 0.270 | 34.81 | 27.59 | 0.218 | 0.675 | 0.983 | 1.103 | 3.372 |
| Ours | 0.448 | 21.62 | 0.479 | 0.898 | 0.978 | 0.641 | 4.113 |
FreeViS 的 CSD 风格分(0.448)远超所有基线、最接近参考锚,ArtFID 最低(21.62),风格一致性 SC(0.898)几乎追平锚点,人类偏好(4.113)大幅领先。VACE/TokenFlow 的 MS/FC 看似好是因为它们主要改颜色、不生成新纹理,且 MS/FC 用自然视频预训练的光流模型计算,对风格化的分布外样本估计不准。
主实验:风格化 T2V 生成(Wan2.1 生成基底 + FreeViS 风格化)¶
| 方法 | CSD↑ | FID↓ | CLIP-Text↑ | DQ↑ | MS↑ | BC↑ | IQ↑ | HP↑ |
|---|---|---|---|---|---|---|---|---|
| StyleCrafter | 0.515 | 22.62 | 0.211 | 0.368 | 0.965 | 0.951 | 0.578 | 2.83 |
| StyleMaster | 0.221 | 26.04 | 0.243 | 0.123 | 0.985 | 0.945 | 0.667 | 2.55 |
| Ours+Wan | 0.437 | 24.63 | 0.264 | 0.509 | 0.941 | 0.691 | 3.97 |
FreeViS+Wan 在 CLIP-Text 对齐、动态质量 DQ、成像质量 IQ、人类偏好上全面领先,达成风格保真与内容对齐的最佳折中(StyleCrafter 风格强但动态弱、prompt 对齐差;StyleMaster 反之)。
消融实验¶
逐组件验证(Figure 7):去掉 IHC → 场景布局重建不准、出现结构伪影(屋顶重建错误);去掉 额外参考 → 末帧只有颜色偏移、丢失风格纹理细节;去掉 EOG → 视觉同质区域纹理流失、光流一致性下降。三者分别对应布局重建、风格一致、平坦区纹理保持。
关键发现¶
- 频域观测:I2V latent 中 LF 主导外观/颜色,HF 编码布局/运动——这是 IHC 只回注高频的依据。
- 注意力观测:I2V 模型呈自因果(auto-causal)注意力,紧邻参考帧的第二帧全程获得高注意力,说明参考帧通过强引导第二帧间接影响所有后续帧;远帧像素级注意力会扩散到错误区域,需外部约束(EOG)。
- FreeViS 的风格化上限受所用图像风格迁移方法约束(本文用 InstantStyle-plus)。
亮点与洞察¶
- 「不一致参考」反而是特性而非缺陷:标题点出 inconsistent references——作者不强求多参考帧彼此一致,而是用光流掩码 + 动态解耦让它们各自补充覆盖,规避了强行对齐的代价。
- 频域解耦做风格/结构分离很优雅:把「颜色风格」和「布局运动」分别绑到 LF/HF,让结构约束(HF 补偿)不会把风格颜色拉回原态,是个干净的物理直觉驱动设计。
- 完全训练无关:只靠扩散反演 + 注意力工程,无需任何成对视频数据或微调,工程落地成本低。
- 动态残差注入化解了多参考拼接的卡顿核心难题,\(\xi\) 的时间步调度把「早期借动态、末期收敛外观」表达得很自然。
局限与展望¶
- 风格上限被图像风格化模型卡死:FreeViS 自身不生成新风格,整体保真度受 InstantStyle-plus 等前置模块上限约束。
- 参考帧数受限于短视频窗口:I2V 模型一般只到 ~81 帧,只能选首/中/尾三帧;长视频或剧烈内容变化下覆盖可能不足。
- 依赖光流质量:EOG 与参考掩码都基于 RAFT 光流,分布外的风格化帧上光流估计本身可能不准(论文也承认 MS/FC 指标因此失真),需靠膨胀容错。
- 超参较多:\(\lambda\)、截止频率 0.2、\(\xi\)、\(\beta\)、\(\gamma\) 等需调,且 \(\gamma\) 只在末期开启,调参经验性较强。
- 展望:自适应选择参考帧数/位置、端到端联合风格化而非依赖外部图像模型、对长视频的扩展是自然方向。
相关工作与启发¶
- 参考式视频编辑:AnyV2V、I2VEdit 用单首帧传播,本文直接针对其传播误差痛点;FreeViS 可视为「多参考 + 注意力隔离」版的升级。
- 视频扩散架构:从 UNet(分离时空层)转向 DiT 全自注意力(Wan、HunyuanVideo),本文的跨帧注意力分析与隔离注意力都建立在 DiT 全注意力之上。
- PnP 反演 / 频域编辑:借鉴图像编辑中「HF 决定空间布局」的发现并迁移到 I2V,是频域 latent 操控思路在视频上的扩展。
- 启发:在不重训大模型的前提下,通过「观测 latent 的物理语义(频域、注意力模式)→ 设计针对性的注意力/频域干预」来解锁新能力,是一条性价比很高的 training-free 范式,可迁移到其他视频编辑任务(换内容、inpainting)。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 多不一致参考 + 频域解耦 + 动态残差注入的组合是新的,针对传播误差的解法有洞察;单点技术多为已有思路(PnP、AdaIN、光流掩码)的巧妙复用。
- 实验充分度: ⭐⭐⭐⭐ — 自建 200 视频数据集,覆盖风格迁移与 T2V 两大任务,指标全面(CSD/ArtFID/SC/人类偏好),消融清晰;但缺少 StyleMaster V2V(代码未放)等部分对比。
- 写作质量: ⭐⭐⭐⭐ — 观测→动机→方法逻辑顺,公式与符号体系完整,三大模块对应三个痛点讲得清楚;符号略密集,pipeline 图信息量大需对照阅读。
- 价值: ⭐⭐⭐⭐ — 训练无关、工程落地成本低、效果领先,对内容创作场景实用性强;受限于前置图像风格化模型上限。