Instant Video Models: Universal Adapters for Stabilizing Image-Based Networks¶
会议: NeurIPS 2025
arXiv: 2512.03014
代码: 无(但方法可复现)
领域: 3D视觉 / 视频处理 / 时序一致性
关键词: 时序稳定性, 稳定化适配器, 视频一致性, 腐蚀鲁棒性, EMA
一句话总结¶
提出一类通用的稳定化适配器(Stabilization Adapters),可插入几乎任何图像模型架构中,通过冻结基础网络仅训练适配器参数,配合统一的精度-稳定性-鲁棒性损失函数,使帧级模型获得视频时序一致性和腐蚀鲁棒性。
研究背景与动机¶
领域现状:视频通常逐帧处理——图像数据集更丰富、图像模型训练更便宜、单帧性能提升常可迁移到视频任务。
现有痛点: - 逐帧处理产生时序不一致性(闪烁、跳变),影响感知质量和下游系统可靠性 - 真实部署面临瞬时腐蚀(传感器噪声、压缩伪影、恶劣天气),同时加剧不稳定和精度下降 - 现有视频模型通常针对特定任务设计,不具通用性
核心矛盾:增强时序稳定性可能导致过度平滑(over-smoothing),降低精度;需要在精确度和稳定性之间取得平衡。
本文目标:设计一种通用、轻量、模块化的方法,让预训练图像模型在视频推理时获得时序稳定性和腐蚀鲁棒性,同时不损失精度。
切入角度:将稳定性和鲁棒性统一建模为一个损失函数,理论分析该损失的性质以避免"过度平滑现实",并设计可学习的适配器来实现自适应稳定化。
核心 idea:用控制器网络预测逐元素的 EMA 衰减率,使稳定化程度自适应于场景变化速度;理论上证明了当 \(\lambda < 1/2\) 时,ground truth 始终是损失的全局最小值。
方法详解¶
整体框架¶
- 在预训练图像模型的选定层和输出处插入稳定化适配器
- 冻结原始模型参数,仅训练适配器参数
- 使用统一的精度-稳定性-鲁棒性损失训练
关键设计¶
-
统一损失函数:将腐蚀鲁棒性 \(\mathcal{R}_c\) 和腐蚀稳定性 \(\mathcal{S}_c\) 组合: \(\mathcal{U}_c = -(\mathcal{R}_c + \lambda \mathcal{S}_c) = \mathbb{E}\left[\sum_t \delta(f(\varepsilon_t(\bm{x}_t)), \bm{y}_t) + \lambda \sum_{t} \delta(f(\varepsilon_t(\bm{x}_t)), f(\varepsilon_{t+1}(\bm{x}_{t+1})))\right]\) 其中 \(\lambda\) 控制稳定性与精度的权衡。
-
Oracle Bound (\(\lambda < 1/2\)):当距离 \(\delta\) 可表示为范数时,只要 \(\lambda < 1/2\),ground truth 始终是损失在预测空间的全局最小值——完美模型不会被激励偏离正确预测以换取更高稳定性。
-
Collapse Bound (\(\lambda > \tau - 1\)):当 \(\lambda\) 超过序列长度减一时,损失的全局最小值变为"重复初始预测"(预测坍缩)。由于 \(\tau - 1 > 0.5\),oracle bound 和 collapse bound 互斥。
-
EMA 稳定器:基本单元为指数移动平均: \(\tilde{z}_t = \beta z_t + (1-\beta) \tilde{z}_{t-1}\) \(\beta \in [0,1]\) 控制稳定程度(\(\beta=1\) 表示无稳定化)。
-
稳定化控制器:由共享骨干网络 \(g\) 和每层头部 \(h_i\) 组成,根据当前/前一帧输入和特征预测逐像素的衰减率 \(\bm{\beta}\): \(\tilde{\bm{z}}_{i,t} = \bm{\beta}_{i,t} \odot \bm{z}_{i,t} + (1-\bm{\beta}_{i,t}) \odot \tilde{\bm{z}}_{i,t-1}\) \(\bm{\beta}_{i,t} = \sigma(h_i(g(\bm{x}_t, \bm{x}_{t-1}), \bm{z}_{i,t}, \tilde{\bm{z}}_{i,t-1}, \bm{z}_{i,t-1}))\)
-
空间融合扩展:控制器预测空间衰减核 \(\bm{\eta}\)(而非单一 \(\beta\)),在空间邻域内做加权融合,允许运动补偿,可追踪的最大运动量由核空间范围决定。
设计原则¶
- 因果性:稳定化输出仅依赖当前和过去的输入(不使用未来帧),适合流式视频
- 特征域+输出域:同时稳定中间特征和最终输出,支持高层语义稳定性
- 不修改原始模型:适配器是独立参数的层级模块
实验关键数据¶
图像增强 (HDRNet)¶
控制器+空间融合的稳定器可在同时提升 PSNR 和稳定性的情况下工作(约 2dB PSNR 提升 + 35% 不稳定性降低),而简单 EMA 只能以牺牲质量换取稳定性。
去噪 (NAFNet)¶
| 噪声级别 | 方法 | PSNR | 不稳定性 |
|---|---|---|---|
| σ=0.1 | Base | 较低 | 较高 |
| σ=0.1 | Controlled+Spatial | 更高 | 更低 |
关键发现:简单的固定 EMA 同时恶化 PSNR 和稳定性(因为去噪模型预测噪声残差,帧间完全无关——平滑残差反而抑制去噪);学习型控制器能自动避开不稳定的特征。
腐蚀鲁棒性¶
| 腐蚀类型 | 模型 | 增强PSNR | 增强Instab. | 去噪PSNR | 去噪Instab. | 深度AbsRel↓ | 深度Instab. |
|---|---|---|---|---|---|---|---|
| Patch drop | Base | 17.43 | 164.6 | 18.93 | 151.4 | 0.070 | 9.89 |
| Patch drop | Ours | 31.39 | 30.36 | 35.46 | 20.42 | 0.070 | 4.73 |
| JPEG伪影 | Base | 24.85 | 42.06 | 29.01 | 39.71 | 0.057 | 7.32 |
| JPEG伪影 | Ours | 26.46 | 23.58 | 32.19 | 20.49 | 0.065 | 4.92 |
在几乎所有腐蚀类型和任务上,稳定器都大幅减少不稳定性(通常降低 50-80%),同时保持或改善每帧精度。
恶劣天气鲁棒性¶
| 稳定器? | 解冻基模型? | Rain PSNR | Rain Instab. | Snow PSNR | Snow Instab. |
|---|---|---|---|---|---|
| × | × | 21.43 | 151.76 | 18.62 | 262.48 |
| ✓ | × | 28.63 | 57.88 | 31.34 | 59.31 |
| × | ✓ | 32.19 | 70.84 | 34.33 | 66.57 |
| ✓ | ✓ | 32.61 | 58.30 | 35.20 | 58.98 |
消融实验¶
| 稳定器变体 | 特点 | 效果 |
|---|---|---|
| Output Fixed | 仅输出层固定EMA | 稳定性 ↑ 精度 ↓ |
| Simple Fixed | 所有层固定EMA | 去噪场景精度和稳定性同时恶化 |
| Simple Learned | 学习每通道β | 略好于固定 |
| Controlled | 控制器预测逐像素β | 稳定性↑精度↑ |
| Spatial | 控制器+空间融合 | 效果最佳(大多数情况) |
当 \(\lambda=8 > \tau-1\) 时确认发生预测坍缩(不稳定性 \(< 10^{-3}\)),验证了理论的 collapse bound。
关键发现¶
- 特征域稳定化对高层任务(深度估计、语义分割)至关重要
- 控制器的核心价值:根据场景动态自适应调节稳定程度
- 稳定化适配器天然增强腐蚀鲁棒性,无需显式建模腐蚀类型
亮点与洞察¶
- 理论-实践闭环:Oracle bound 和 Collapse bound 提供了 \(\lambda\) 选择的理论指导,实验完美验证
- 通用性极强:同一套方法适用于 HDRNet(增强)、NAFNet(去噪)、Depth Anything v2(深度)、DeepLabv3+(分割)
- 模块化设计:不修改原始模型参数,适配器可即插即用
- 因果性:仅用当前和历史帧,适合实时流式视频处理
- 与 Mamba 选择性状态空间模型在概念上有联系(式 7 可视为输入条件化的线性动力系统)
局限与展望¶
- 理论界要求 \(\delta\) 可表示为范数,排除了许多复杂的损失函数
- 深度估计在 sim-to-real 迁移时遇到困难(真实视频中存在模拟器中没有的微妙腐蚀)
- 空间融合在极端噪声下长序列上出现性能退化,部分可通过增大训练 \(\tau\) 缓解
- 当前使用简单的欧氏范数作为 \(\delta\),探索 Wasserstein 等更复杂度量可能带来进一步提升
- 计算开销分析不够详细,特别是控制器骨干网络带来的额外成本
相关工作与启发¶
- Blind video temporal consistency (Bonneel et al. 2015; Lai et al. 2018) 仅在输出空间操作,本文扩展到特征空间
- Clockwork ConvNets 观察到语义内容比像素值变化更慢——本文用特征域稳定化体现了同样的直觉
- 对任何"帧级模型+视频部署"场景都有直接应用价值:自动驾驶感知、视频编辑、AR/VR
- 适配器训练思路可扩展到其他时序任务(如音频处理的帧级模型稳定化)
评分¶
- 新颖性: ⭐⭐⭐⭐ 统一损失的理论分析新颖,稳定化控制器设计实用,但EMA思路本身较传统
- 实验充分度: ⭐⭐⭐⭐⭐ 涵盖去噪/增强/深度/分割四种任务,多种腐蚀类型+恶劣天气,消融彻底
- 写作质量: ⭐⭐⭐⭐⭐ 理论清晰,实验组织有条理,图表信息丰富
- 价值: ⭐⭐⭐⭐⭐ 解决了将图像模型部署到视频的核心痛点,通用性和实用性俱佳