Bias for Action: Video Implicit Neural Representations with Bias Modulation¶

会议: CVPR 2025
arXiv: 2501.09277
代码: 无（未提及）
领域: 图像生成
关键词: 隐式神经表示, 视频建模, 偏置调制, 慢动作生成, 视频修复

一句话总结¶

提出 ActINR，通过在 INR 中跨帧共享权重、仅用偏置（bias）建模运动的方式实现连续视频表示，在 10× 慢动作、4× 空间超分+2× 时间超分、去噪和修复任务上大幅超越现有方法（平均 3-6dB 提升）。

研究背景与动机¶

领域现状：隐式神经表示（INR）通过 MLP 拟合连续信号，已广泛应用于图像、3D 和视频表示。视频 INR 的代表工作如 NeRV 系列用卷积解码器从帧索引生成帧，但这些方法在处理大幅运动时表现不佳，特别是在极端插帧任务中。

现有痛点：现有视频 INR 方法各有缺陷。FF-NeRV 依赖光流估计运动，大运动时光流估计不准；H-NeRV Boost 通过仿射变换调制特征图，插帧时出现鬼影；ResField 用残差权重矩阵替代时间坐标，参数空间过大优化困难。更根本的问题是，NeRV 类方法基于卷积解码，无法查询任意空间坐标，因此不支持空间超分辨率。

核心矛盾：视频中的运动本质上是信号局部基函数的位移，但现有方法要么用过于简单的方式（单一相位移位）要么用过度参数化的方式（残差权重矩阵）来建模时间变化，没有找到准确且高效的运动建模中间地带。

本文目标 如何设计一种连续视频表示，能准确建模局部和全局运动，同时支持时空超分辨率、去噪和修复。

切入角度：作者从 INR 的基函数展开视角出发——INR 可视为可学习的字典，权重决定基函数的形状和大小，偏置控制基函数的位置。对于紧支撑激活函数（如小波、高斯），局部运动就是基函数位置的平移，即偏置值的变化。因此，跨帧共享权重（保持外观不变）而仅改变偏置（建模运动）是自然且紧凑的选择。

核心 idea：将 INR 的偏置与运动绑定，通过跨帧共享权重+帧特定偏置（由时间连续的 bias-INR 预测）实现紧凑且精确的连续视频表示。

方法详解¶

整体框架¶

ActINR 由两个网络组成。Frame INR 接收空间坐标 \((x,y)\)，输出对应像素的 RGB 值，其权重在视频所有帧间共享，偏置则因帧而异。Bias-INR 接收连续时间索引 \(t\)，输出 Frame INR 各层所需的偏置向量，确保偏置在时间上平滑变化以支持插帧。整个视频被划分为等大的空间块（96×96 像素，10 帧一组），每个块独立拟合一个小 INR，实现空间分治加速。

关键设计¶

偏置-运动绑定（Bias-Motion Interplay）
- 功能：通过 INR 偏置参数的变化来建模视频中的局部运动
- 核心思路：对于紧支撑激活函数（如 WIRE 小波激活），INR 可视为基函数展开：权重 \(W\) 控制基函数的形状和大小，偏置 \(b\) 控制其位置中心。当场景中某个局部区域发生运动时，对应的基函数只需平移位置（改变偏置），而不需要改变形状（改变权重）。因此 Frame INR 的结构为 \(y_i^{(l)} = \sigma(W^{(l)} y_i^{(l-1)} + b_i^{(l)})\)，其中 \(W^{(l)}\) 跨帧共享，\(b_i^{(l)}\) 帧特定
- 设计动机：紧支撑意味着基函数只影响局部区域，不同区域的基函数互不干扰，使局部运动建模成为可能。用玩具实验验证：两个高斯 blob，左边一个向右移动，对应的基函数 #1 仅通过偏置值变化实现平移，基函数 #2 保持不动
Bias-INR 连续偏置预测
- 功能：将帧特定的偏置建模为时间连续函数，支持任意时刻的插帧
- 核心思路：用另一个 MLP（GeLU 激活）作为超网络 \(\psi\)，输入连续时间索引 \(t\) 的随机傅里叶特征 \(\gamma(t) = [\sin 2\pi B t, \cos 2\pi B t]^\top\) 以及 patch 级别的可学习隐向量 \(z\)，输出 Frame INR 各层的偏置向量。\(z\) 编码每个 patch 的静止程度，使共享的 bias-INR 能适配不同 patch，避免为每个 patch 单独训练 bias-INR。关键点是 bias-INR 参与训练和推理的统一优化，避免了线性插值方案训练/测试不一致的问题（消融实验中线性插值测试 PSNR 暴跌 24dB）
- 设计动机：独立优化每帧的偏置无法保证时间平滑性，测试时对未见帧无法插值。bias-INR 将偏置约束在连续流形上，同时提供隐式正则化
WIRE 激活函数 + 空间分块
- 功能：提供紧支撑且高表达力的基函数，配合空间分块实现高效局部运动建模
- 核心思路：使用 WIRE（小波隐式表示）作为激活函数，兼具紧支撑（局部性）和振荡性（高表达力），优于 SIREN（无紧支撑，全局干扰）和 Gauss（无振荡，表达力弱）。视频被划分为 96×96 像素的块，每块用 3 层 MLP（隐层维度 36），总参数约 300 万。块间可用重叠窗口+双线性混合消除边界伪影
- 设计动机：SIREN 的基函数无紧支撑会导致远处运动干扰静止区域（消融实验中背景出现伪影），紧支撑激活确保局部运动只影响局部。分块策略参考 KiloNeRF，减小每个 INR 需要建模的区域

损失函数 / 训练策略¶

使用简单的 MSE 损失，在 Frame INR 预测的 RGB 值和真实帧之间最小化均方误差。Adam 优化器，学习率 \(5 \times 10^{-3}\)，step decay（衰减比 0.1），每个 MLP 训练 2000 迭代。下一组的权重用上一组初始化以加速收敛。

实验关键数据¶

主实验¶

任务/数据集	指标	ActINR	最佳对比方法	提升
2× 插帧 / DAVIS	PSNR/SSIM	22.9/0.69	22.2/0.65 (H-NeRV Boost)	+0.7dB
2× 插帧 / UVG	PSNR/SSIM	31.0/0.90	30.6/0.90 (H-NeRV Boost)	+0.4dB
视频去噪 / DAVIS	PSNR/SSIM	29.0/0.88	25.5/0.78 (H-NeRV Boost)	+3.5dB
视频修复 / DAVIS	PSNR	34.7 (avg 9 videos)	33.1 (H-NeRV Boost)	+1.6dB
时空超分 (4×空间+2×时间) / UVG	PSNR	~5.7dB优于对比	H-NeRV Boost	+5.7dB

消融实验¶

配置	训练PSNR	测试PSNR	说明
Oracle（所有帧独立偏置）	46.3	46.3	上界
Bias-INR（本文）	46.0	45.8	接近 oracle，测试泛化好
线性插值偏置	44.5	20.2	训练/测试不一致，暴跌 24dB

关键发现¶

去噪任务提升最大（+3.5dB），说明 bias-INR 的连续性约束提供了强隐式正则化，有效拒绝噪声
极端 10× 插帧时优势更加明显（比对比方法高 5dB+），因为光流方法在大帧间隔下严重失效
WIRE 激活显著优于 SIREN：SIREN 的非紧支撑导致静止背景出现伪影（基函数干扰），Gauss 次之，WIRE 最佳
NeRV 类方法无法进行空间超分辨率（因为用卷积解码器而非坐标查询），本文是首次证明这一局限
块大小存在最优值：过大则单 INR 容量不足，过小则物体容易越界

亮点与洞察¶

偏置=运动的洞察非常优雅：将 INR 的数学结构（基函数展开）与物理直觉（运动=位移）对应起来，bias 控制基函数位置这一观察虽然简单但极具启发性。可迁移到任何需要建模信号局部变化的 INR 应用
去噪无需额外设计：仅靠 bias-INR 的连续性先验就能在噪声数据上获得出色去噪效果，说明好的表示本身就是最好的先验
兼顾时空超分的独特能力：保留了 INR 查询任意坐标的能力，同时又有 NeRV 的高效，这是之前方法无法做到的

局限与展望¶

假设运动局限在块内，物体跨块边界时重建质量下降（虽然提出了重叠窗口解决方案，但增加计算开销）
编码时间长（约 5 小时/视频），不适合实时应用
压缩性能略逊于 H-NeRV，主要优势在逆问题（插帧/去噪/修复）而非压缩
未与基于扩散模型的视频插帧/超分方法对比，这些方法在感知质量上可能更优

评分¶

新颖性: ⭐⭐⭐⭐⭐ 偏置-运动的对应关系洞察极具原创性，理论动机清晰
实验充分度: ⭐⭐⭐⭐ 覆盖四大任务+多数据集+充分消融，但缺少与扩散模型方法的对比
写作质量: ⭐⭐⭐⭐⭐ 从直觉到理论到实验层层推进，玩具实验辅助理解效果极佳
价值: ⭐⭐⭐⭐ 为视频INR开辟了新范式，去噪/修复+3-5dB提升有实用价值