跳转至

Instant Video Models: Universal Adapters for Stabilizing Image-Based Networks

会议: NeurIPS 2025
arXiv: 2512.03014
代码: 无(但方法可复现)
领域: 3D视觉 / 视频处理 / 时序一致性
关键词: 时序稳定性, 稳定化适配器, 视频一致性, 腐蚀鲁棒性, EMA

一句话总结

提出一类通用的稳定化适配器(Stabilization Adapters),可插入几乎任何图像模型架构中,通过冻结基础网络仅训练适配器参数,配合统一的精度-稳定性-鲁棒性损失函数,使帧级模型获得视频时序一致性和腐蚀鲁棒性。

研究背景与动机

领域现状:视频通常逐帧处理——图像数据集更丰富、图像模型训练更便宜、单帧性能提升常可迁移到视频任务。

现有痛点: - 逐帧处理产生时序不一致性(闪烁、跳变),影响感知质量和下游系统可靠性 - 真实部署面临瞬时腐蚀(传感器噪声、压缩伪影、恶劣天气),同时加剧不稳定和精度下降 - 现有视频模型通常针对特定任务设计,不具通用性

核心矛盾:增强时序稳定性可能导致过度平滑(over-smoothing),降低精度;需要在精确度和稳定性之间取得平衡。

本文目标:设计一种通用、轻量、模块化的方法,让预训练图像模型在视频推理时获得时序稳定性和腐蚀鲁棒性,同时不损失精度。

切入角度:将稳定性和鲁棒性统一建模为一个损失函数,理论分析该损失的性质以避免"过度平滑现实",并设计可学习的适配器来实现自适应稳定化。

核心 idea:用控制器网络预测逐元素的 EMA 衰减率,使稳定化程度自适应于场景变化速度;理论上证明了当 \(\lambda < 1/2\) 时,ground truth 始终是损失的全局最小值。

方法详解

整体框架

  1. 在预训练图像模型的选定层和输出处插入稳定化适配器
  2. 冻结原始模型参数,仅训练适配器参数
  3. 使用统一的精度-稳定性-鲁棒性损失训练

关键设计

  1. 统一损失函数:将腐蚀鲁棒性 \(\mathcal{R}_c\) 和腐蚀稳定性 \(\mathcal{S}_c\) 组合: \(\mathcal{U}_c = -(\mathcal{R}_c + \lambda \mathcal{S}_c) = \mathbb{E}\left[\sum_t \delta(f(\varepsilon_t(\bm{x}_t)), \bm{y}_t) + \lambda \sum_{t} \delta(f(\varepsilon_t(\bm{x}_t)), f(\varepsilon_{t+1}(\bm{x}_{t+1})))\right]\) 其中 \(\lambda\) 控制稳定性与精度的权衡。

  2. Oracle Bound (\(\lambda < 1/2\)):当距离 \(\delta\) 可表示为范数时,只要 \(\lambda < 1/2\),ground truth 始终是损失在预测空间的全局最小值——完美模型不会被激励偏离正确预测以换取更高稳定性。

  3. Collapse Bound (\(\lambda > \tau - 1\)):当 \(\lambda\) 超过序列长度减一时,损失的全局最小值变为"重复初始预测"(预测坍缩)。由于 \(\tau - 1 > 0.5\),oracle bound 和 collapse bound 互斥。

  4. EMA 稳定器:基本单元为指数移动平均: \(\tilde{z}_t = \beta z_t + (1-\beta) \tilde{z}_{t-1}\) \(\beta \in [0,1]\) 控制稳定程度(\(\beta=1\) 表示无稳定化)。

  5. 稳定化控制器:由共享骨干网络 \(g\) 和每层头部 \(h_i\) 组成,根据当前/前一帧输入和特征预测逐像素的衰减率 \(\bm{\beta}\)\(\tilde{\bm{z}}_{i,t} = \bm{\beta}_{i,t} \odot \bm{z}_{i,t} + (1-\bm{\beta}_{i,t}) \odot \tilde{\bm{z}}_{i,t-1}\) \(\bm{\beta}_{i,t} = \sigma(h_i(g(\bm{x}_t, \bm{x}_{t-1}), \bm{z}_{i,t}, \tilde{\bm{z}}_{i,t-1}, \bm{z}_{i,t-1}))\)

  6. 空间融合扩展:控制器预测空间衰减核 \(\bm{\eta}\)(而非单一 \(\beta\)),在空间邻域内做加权融合,允许运动补偿,可追踪的最大运动量由核空间范围决定。

设计原则

  • 因果性:稳定化输出仅依赖当前和过去的输入(不使用未来帧),适合流式视频
  • 特征域+输出域:同时稳定中间特征和最终输出,支持高层语义稳定性
  • 不修改原始模型:适配器是独立参数的层级模块

实验关键数据

图像增强 (HDRNet)

控制器+空间融合的稳定器可在同时提升 PSNR 和稳定性的情况下工作(约 2dB PSNR 提升 + 35% 不稳定性降低),而简单 EMA 只能以牺牲质量换取稳定性。

去噪 (NAFNet)

噪声级别 方法 PSNR 不稳定性
σ=0.1 Base 较低 较高
σ=0.1 Controlled+Spatial 更高 更低

关键发现:简单的固定 EMA 同时恶化 PSNR 和稳定性(因为去噪模型预测噪声残差,帧间完全无关——平滑残差反而抑制去噪);学习型控制器能自动避开不稳定的特征。

腐蚀鲁棒性

腐蚀类型 模型 增强PSNR 增强Instab. 去噪PSNR 去噪Instab. 深度AbsRel↓ 深度Instab.
Patch drop Base 17.43 164.6 18.93 151.4 0.070 9.89
Patch drop Ours 31.39 30.36 35.46 20.42 0.070 4.73
JPEG伪影 Base 24.85 42.06 29.01 39.71 0.057 7.32
JPEG伪影 Ours 26.46 23.58 32.19 20.49 0.065 4.92

在几乎所有腐蚀类型和任务上,稳定器都大幅减少不稳定性(通常降低 50-80%),同时保持或改善每帧精度。

恶劣天气鲁棒性

稳定器? 解冻基模型? Rain PSNR Rain Instab. Snow PSNR Snow Instab.
× × 21.43 151.76 18.62 262.48
× 28.63 57.88 31.34 59.31
× 32.19 70.84 34.33 66.57
32.61 58.30 35.20 58.98

消融实验

稳定器变体 特点 效果
Output Fixed 仅输出层固定EMA 稳定性 ↑ 精度 ↓
Simple Fixed 所有层固定EMA 去噪场景精度和稳定性同时恶化
Simple Learned 学习每通道β 略好于固定
Controlled 控制器预测逐像素β 稳定性↑精度↑
Spatial 控制器+空间融合 效果最佳(大多数情况)

\(\lambda=8 > \tau-1\) 时确认发生预测坍缩(不稳定性 \(< 10^{-3}\)),验证了理论的 collapse bound。

关键发现

  • 特征域稳定化对高层任务(深度估计、语义分割)至关重要
  • 控制器的核心价值:根据场景动态自适应调节稳定程度
  • 稳定化适配器天然增强腐蚀鲁棒性,无需显式建模腐蚀类型

亮点与洞察

  • 理论-实践闭环:Oracle bound 和 Collapse bound 提供了 \(\lambda\) 选择的理论指导,实验完美验证
  • 通用性极强:同一套方法适用于 HDRNet(增强)、NAFNet(去噪)、Depth Anything v2(深度)、DeepLabv3+(分割)
  • 模块化设计:不修改原始模型参数,适配器可即插即用
  • 因果性:仅用当前和历史帧,适合实时流式视频处理
  • 与 Mamba 选择性状态空间模型在概念上有联系(式 7 可视为输入条件化的线性动力系统)

局限与展望

  • 理论界要求 \(\delta\) 可表示为范数,排除了许多复杂的损失函数
  • 深度估计在 sim-to-real 迁移时遇到困难(真实视频中存在模拟器中没有的微妙腐蚀)
  • 空间融合在极端噪声下长序列上出现性能退化,部分可通过增大训练 \(\tau\) 缓解
  • 当前使用简单的欧氏范数作为 \(\delta\),探索 Wasserstein 等更复杂度量可能带来进一步提升
  • 计算开销分析不够详细,特别是控制器骨干网络带来的额外成本

相关工作与启发

  • Blind video temporal consistency (Bonneel et al. 2015; Lai et al. 2018) 仅在输出空间操作,本文扩展到特征空间
  • Clockwork ConvNets 观察到语义内容比像素值变化更慢——本文用特征域稳定化体现了同样的直觉
  • 对任何"帧级模型+视频部署"场景都有直接应用价值:自动驾驶感知、视频编辑、AR/VR
  • 适配器训练思路可扩展到其他时序任务(如音频处理的帧级模型稳定化)

评分

  • 新颖性: ⭐⭐⭐⭐ 统一损失的理论分析新颖,稳定化控制器设计实用,但EMA思路本身较传统
  • 实验充分度: ⭐⭐⭐⭐⭐ 涵盖去噪/增强/深度/分割四种任务,多种腐蚀类型+恶劣天气,消融彻底
  • 写作质量: ⭐⭐⭐⭐⭐ 理论清晰,实验组织有条理,图表信息丰富
  • 价值: ⭐⭐⭐⭐⭐ 解决了将图像模型部署到视频的核心痛点,通用性和实用性俱佳