Real-Time Neural Video Compression with Unified Intra and Inter Coding¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/ihuixiang/UIIC
领域: 图像与视频恢复
关键词: 神经视频压缩, 帧内/帧间统一编码, 双帧压缩, 误差传播, 实时编解码

一句话总结¶

针对实时神经视频压缩（如 DCVC-RT）在场景切换/新内容处帧内编码能力弱、必须靠"周期刷新"硬切导致质量骤降、比特率突刺和帧间误差累积的问题，本文用"单模型统一帧内/帧间编码 + 同时压缩两帧 + 混合参考训练"，让模型按参考可靠性自适应在帧内/帧间间切换，在 DCVC-RT 基础上平均省码率 12.1%（BD-rate），且保持实时编解码、模型更小、无需刷新机制。

研究背景与动机¶

领域现状：神经视频压缩（NVC）近年快速进步，DCVC-RT 这类实时方案在压缩效率上已超过 H.266/VVC，还能实时编解码。它们普遍走"条件编码 + 隐式上下文对齐"路线，靠充分利用帧间（时域）参考来榨取冗余。

现有痛点：绝大多数 NVC 只顾压榨帧间冗余，却忽视了参考稀缺/不可靠时的帧内编码能力。场景切换时，前一场景末帧和新场景首帧没有时域相关性，P 帧模型被迫退化成帧内编码——但 SOTA 方案的 P 帧模型帧内能力很弱，于是质量骤降 + 误差严重传播。为兜底，近期方案引入"周期特征刷新"（把累积特征恢复成三通道像素图再喂回当参考），可它有两个硬伤：(1) 在丢弃误差的同时也丢掉了有价值的长期时域信息/被遮挡物体细节；(2) 在刷新点造成比特率骤升，有网络拥塞风险、不利部署。

核心矛盾：在参考稀缺场景下，要同时兼顾低码率、高画质、实时三者很难——SOTA 仍依赖一个独立、重量级的 I 帧模型来处理这些情况，但把这种重帧内复杂度直接塞进帧间流水线会拖慢推理，而推理速度恰恰是低延迟应用的命门。

本文目标：用单一模型统一帧内与帧间编码，让它根据当前参考误差水平自适应平衡两种模式；同时在不牺牲实时速度的前提下增强参考稀缺时的鲁棒性。

切入角度：回到经典视频编码的智慧——经典标准允许在帧间编码的帧里局部切换到帧内模式（处理新出现内容/复杂运动）。把这个"帧内工具内嵌于帧间"的思想搬到 NVC。

核心 idea：训练一个能自适应做帧内/帧间编码的统一模型（首帧/场景切换时喂"空白帧"经 adaptor 生成参考特征即激活帧内能力），再用"同时压缩两帧"借用后向参考来弥补复杂度约束下的帧内短板。

方法详解¶

整体框架¶

模型名为 UI2C（Unified Intra and Inter Coding），构建在实时神经编解码器 DCVC-RT 上。它去掉了专用 I 帧模型，把帧内/帧间统一进单个时空网络：当编码 \(x_t\) 且 \(t\) 为偶数时，引入 1 帧延迟等待 \(x_{t+1}\)，把两帧沿通道拼接、做 8× 联合下采样后送入共享编解码器，同时利用前向（已解码帧）和后向（\(x_{t+1}\)）冗余，解码端从一份码流同步重建两帧、并把融合特征存入参考缓冲。首帧或场景切换这种"无参考"情形，则把空白帧经首帧 adaptor（ADI）转成参考特征，直接调用模型固有的帧内能力。两帧间用"双帧量化表"做细粒度码率分配，训练时用"混合参考"策略让模型学会评估参考误差并自适应切换模式。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入帧序列<br/>x_t, x_{t+1}"] --> B["统一帧内/帧间编码<br/>空白帧→adaptor 激活帧内"]
    B --> C["同时压缩两帧<br/>通道拼接 + 8× 联合下采样"]
    C --> D["双帧量化表<br/>按帧索引分配 qp"]
    D --> E["共享编解码器<br/>一份码流同步重建两帧"]
    E --> F["重建帧 + 参考缓冲<br/>反馈给后续编码"]
    G["混合参考训练<br/>空白/GT/噪声参考随机采样"] -.训练时.-> B

关键设计¶

1. 统一帧内/帧间编码：一个模型同时干 I 帧和 P 帧的活

以往 NVC 给 I 帧和 P 帧用两个分立模型，让各自专精；但首帧（无参考）和场景切换（前后帧无相关）本质上是同一种情形——都是"在没有可用参考下编码当前帧"。作者据此论证专用 I 帧模型是多余的：用单一统一模型即可覆盖两种场景。推理时，对首帧/场景切换帧，喂一个空白帧（全零图）经首帧 adaptor（ADI）生成参考特征，从而直接激活模型固有的帧内编码能力；对后续帧，同一模型复用富含信息的参考特征，主要发挥帧间能力。这样既消除了对独立 I 帧模型的依赖（参数更少），又天然拦截帧间误差传播——不再需要手工刷新机制。实验也显示其内在帧内能力显著强于 DCVC-RT 的 P 帧模型、仅略逊于 DCVC-RT 的高复杂度 I 帧模型。

2. 同时压缩两帧：用后向参考补足复杂度受限下的帧内短板

实时流场景下 1 帧延迟通常可接受，这就给"借用后一帧作后向参考"创造了空间。作者把连续两帧 \(x_t,x_{t+1}\) 沿通道拼接、做 8× 联合下采样（抑制两帧间无关高频、增强特征级一致性），送入共享单流编解码器，只产生一份紧凑码流、解码端同步重建两帧。这样做的关键收益是：参考稀缺时（首帧/场景切换），来自 \(x_{t+1}\) 的后向参考能补偿前向信息缺失，缓解弱帧内编码在受限复杂度下的画质损失；帧间编码时，双向线索能更准地建模遮挡区域、为带噪/不完美传播的特征提供误差校准。它在"维持低复杂度"和"增强编码鲁棒性"这个核心权衡之间给出了出路——只付出 1 帧延迟。

3. 双帧量化表：按帧角色做细粒度码率分配

联合压缩两帧带来一个 RD 优化难题：既要保留分层质量结构（Hierarchical Quality Structure）的效率，又要在两个共编码帧间做细粒度质量控制。DCVC-RT 用共享量化表统一控制编码器/解码器/重建器/特征提取器的码率，但没考虑两帧的不同参考角色（\(x_{t+1}\) 既是 \(x_t\) 的后向参考，又是后续帧的未来参考；\(x_t\) 只管前向上下文）。作者给每帧按其帧索引查询一个质量参数 \(qp\)，得到两个不同 \(qp\)，再各自查不同量化表得到量化系数，拼接后逐位置与特征相乘实现质量控制；并给两帧中的后一帧分配更高 \(qp\)，使其成为更好的参考。

4. 混合参考训练：逼模型学会"评估参考误差并自适应切换"

统一模型要发挥威力，训练策略是关键，而把模型练得能按当前参考误差水平动态平衡帧内/帧间并不容易。作者对初始帧的参考考虑三种候选：纯空白信号（全零图）、上一帧真值（GT）、以及该 GT 的噪声扰动版（由预留帧推断特征作训练参考）。训练时随机采样其一作初始帧参考，逼模型隐式评估参考误差等级：参考准确充足时偏帧间预测，参考易错/不足时自适应加强帧内编码做误差校正。这样在处理比训练数据更长的序列时，模型无需手工丢弃参考即可自适应增强帧内；同时摆脱了"丢信息式刷新"，降低了峰值码率、减小网络拥塞风险。

损失函数 / 训练策略¶

用 Vimeo-90k 的 7 帧序列训练，再按 DCVC-RT 把原视频裁成更长序列微调；损失为带尺度的 YUV 均方误差，按帧分配分层权重以支持分层质量结构。多码率通过每次迭代在 \([0,63]\) 随机选 \(qp\) 实现，8 帧一组的 \(qp\) 偏置为 \([0,8,0,4,0,4,0,4]\)。训练用 8 张 RTX 4090；测试在单张 RTX 3090 + Xeon Gold 6248R，YUV420、low-delay、intra-period=-1，码率用估计熵评估。

实验关键数据¶

BD-rate（Bjøntegaard Delta rate）：在相同质量（PSNR）下相对锚点方法的平均码率变化，负值越小越好（同画质下更省码率）。下表以 DCVC-RT 为锚点。

主实验¶

各测试集 BD-rate（%，DCVC-RT 为锚=0）与编解码速度：

方法	HEVC-B	HEVC-C	HEVC-D	HEVC-E	MCL-JCV	UVG	平均	Enc.(fps)	Dec.(fps)
VTM-17.0	15.7	21.1	34.7	28.0	13.8	28.5	23.6	0.01	20.5
DCVC-FM	-1.4	-13.9	-16.9	-7.7	4.5	3.9	-5.3	1.5	1.7
DCVC-RT	0.0	0.0	0.0	0.0	0.0	0.0	0.0	56.8	51.5
UI2C (本文)	-9.8	-16.4	-23.5	-17.7	1.1	-6.1	-12.1	65.1	46.1

相比 DCVC-RT 平均省 12.1% 码率且编解码速度相当；相比 DCVC-FM RD 高 6.8% 且约 25× 更快；相比 VTM 平均省 35.7%。在低码率段优势明显，长序列高码率段因误差累积更少甚至在 HEVC-E 超过高复杂度 DCVC-FM；但在短序列（如最长仅 150 帧的 MCL-JCV）表现稍逊（+1.1%）。

复杂度对比（Table 2）：

模型	编码 (kMACs/px)	解码 (kMACs/px)	参数 (M)	潜变量通道	解码步数
DCVC-DC	1333	910	50.9	128	4
DCVC-FM	1137	866	45.0	128	4
DCVC-RT	142	167	66.4	128	2
UI2C (本文)	157	233	46.7	64	1

参数列里别家是 I+P 两个模型之和，本文只有一个模型；因两帧联合处理，每帧平均潜变量大小与解码步数减半（解码步=熵模型自回归步数）。

消融实验¶

以"完整模型无刷新"为锚（BD-rate=0，HEVC 平均，Table 3 节选）：

配置	Unified	双帧压缩	混合参考	Refresh	平均 BD-rate(%)
仅 I 帧模型 + 刷新	✗	✗	✗	64	33.8
仅 I 帧模型无刷新	✗	✗	✗	–	93.9
+统一编码无刷新	✔	✗	✗	–	29.0
+双帧压缩	✔	✔	✗	–	5.3
+混合参考（完整）	✔	✔	✔	–	0.0

关键发现¶

统一编码是"去刷新依赖"的关键：无刷新下，独立 I 帧模型方案误差累积严重（93.9%）；换成统一模型后非刷新 IP-1 直接提升 64.9%（93.9→29.0），且模型已能有效处理误差传播。
双帧压缩贡献最大单项：29.0→5.3，后向参考显著弥补了受限复杂度下的帧内短板。
混合参考再补一刀：相比只用单一空白参考，RD 再提升约 5.3%（5.3→0.0），让模型真正学会按参考可靠性切换模式。
更稳的逐帧码率/质量：场景切换（如 Kimono1 第 141 帧）后质量恢复明显快于 DCVC-RT，峰值码率更低，无需刷新且不受误差传播影响。

亮点与洞察¶

"经典编码智慧 + 神经网络"的回归：经典标准早就在帧间帧里允许局部帧内，本文把这个被 NVC 忽视的工具重新激活，用单模型 + 空白帧 adaptor 优雅实现，思路简洁却抓住了 SOTA 的真实痛点。
用 1 帧延迟换鲁棒性：同时压缩两帧借后向参考，把"低复杂度 vs 强帧内"的死结解开，这个"双向但低延迟"的折中在低延迟流媒体里很实用。
混合参考训练是可迁移技巧：随机在空白/干净/带噪参考间采样，逼模型隐式估计参考质量——任何依赖逐步累积参考、怕误差传播的序列模型都能借鉴。

局限与展望¶

作者承认：推理速度尚未针对边缘设备（弱 GPU/NPU）优化；高码率段压缩效率仍落后于更复杂的非实时 NVC。
自己看：短序列（MCL-JCV）上反而略逊（+1.1%），因后向参考/长序列误差抑制的收益在短片里摊不开；1 帧延迟在严格低延迟场景不可接受；训练策略仍不完善——作者复现的 DCVC-RT 仍逊于官方版（⚠️ 训练细节难复现，以原文为准）。
改进方向：更轻量网络降复杂度；引入先进模块提升高码率压缩；优化两帧延迟与边缘部署。

评分¶

新颖性: ⭐⭐⭐⭐ 把经典"帧内嵌帧间"思想 + 双帧后向参考统一进单模型，角度务实且切中 SOTA 痛点。
实验充分度: ⭐⭐⭐⭐ 6 个测试集 BD-rate + 复杂度 + 逐技术消融完整，短序列弱项也如实报告。
写作质量: ⭐⭐⭐⭐ 动机推导清晰、图表充分，方法叙述偏工程实现细节。
价值: ⭐⭐⭐⭐ 实时 + 无刷新 + 更稳码率，对低延迟视频流落地有直接价值。