A Simple Low-bit Quantization Framework for Video Snapshot Compressive Imaging¶

会议: ECCV 2024
arXiv: 2407.21517
代码: https://github.com/mcao92/QuantizedSCI
领域: 模型压缩 / 计算成像
关键词: 网络量化, 视频快照压缩成像, Transformer量化, 低比特推理, 高效重建

一句话总结¶

首个面向视频快照压缩成像（Video SCI）重建任务的低比特量化框架Q-SCI，通过高质量特征提取模块、精确视频重建模块和Transformer分支的query/key分布偏移操作，在4-bit量化下实现7.8倍理论加速且性能仅下降2.3%。

背景与动机¶

视频快照压缩成像（Video SCI）利用低速2D相机通过编码掩模将高速场景压缩为快照测量值，再通过重建算法恢复高速视频帧。当前基于深度学习的SOTA重建方法（如EfficientSCI、STFormer等）虽然性能出色，但参数量和计算量依然很大——EfficientSCI-S有3.78M参数、563.87 GFLOPs，难以部署在手机、自动驾驶等资源受限设备上。网络量化是降低计算开销最直接有效的手段之一，但此前从未有人探索过Video SCI重建任务中的量化问题。直接将现有重建网络量化到低比特会带来巨大的性能崩塌（4-bit直接量化掉4.11 dB），必须针对SCI重建任务的特殊结构设计专门的量化策略。

核心问题¶

低比特量化的性能崩塌问题：直接将端到端Video SCI重建网络（由特征提取→特征增强→视频重建三个模块组成）量化到4-bit会导致严重的质量下降，核心原因是特征提取模块在低比特下丢失了大量高质量特征信息。
Transformer分支的分布失真：量化后Transformer中query和key的激活分布发生偏移，导致注意力权重计算失真，且分布形态与标准视觉Transformer不同（非钟形），无法直接套用已有方法（如Q-ViT）。

方法详解¶

整体思路是：先通过经验分析定位性能崩塌的根源，再针对性地设计三个轻量改进模块来弥补量化带来的质量损失。

整体框架¶

Q-SCI以端到端Video SCI重建网络（以EfficientSCI-S为backbone）为基础。输入是2D压缩测量值和编码掩模，输出为重建的多帧高速视频。整个网络分为三个阶段：特征提取模块 → 特征增强模块（ResDNet，内含CFormer的Transformer分支）→ 视频重建模块。Q-SCI在这三个阶段分别引入针对性改进，用极少的额外参数换取显著的量化性能恢复。

关键设计¶

高质量特征提取模块（FEM）：经验分析发现特征提取模块是性能崩塌的主要来源（单独量化到4-bit掉2.22 dB，远超其他模块的0.5 dB左右）。核心原因是低比特量化导致初始特征质量严重退化，后续模块无法弥补。解决方案很直接：在特征提取模块中加入若干1×1×1卷积作为shortcut连接（含pixel shuffle用于空间尺寸对齐），并将这些shortcut卷积设为8-bit精度，从而在低比特主干中保持一条高质量特征传播通道。这个设计贡献了最大的性能提升（+2.35 dB）。
偏移Transformer分支（Shifted Transformer Branch, RDM）：量化后Transformer的query和key分布发生明显偏移（8-bit模型中query均值漂移了1.207），导致注意力计算失真。与Q-ViT不同，SCI中量化后的分布不是钟形，不能用Q-ViT的方法。Q-SCI引入可学习的偏移偏置\(\beta_q\)、\(\beta_k\)，对query和key做\(\tilde{q} = q + \beta_q\)、\(\tilde{k} = k + \beta_k\)，让量化后的分布重新对齐全精度模型。这个操作几乎不增加计算量，提升0.53 dB。
精确视频重建模块（VRM）：与FEM设计思路一致，在视频重建模块也加入8-bit精度的1×1×1 shortcut卷积，保证高质量特征能一直传播到网络末端输出。提升0.43 dB。

损失函数 / 训练策略¶

损失函数：标准MSE损失，\(\mathcal{L}_{MSE} = \frac{1}{T \cdot n_x \cdot n_y} \sum_{t=1}^{T} \|\hat{X}_t - X_t\|_2^2\)
量化方案：激活用非对称量化，权重用对称量化，训练时scale和zero-point作为可学习参数优化（QAT方式）
训练流程：用全精度EfficientSCI-S初始化，Adam优化器，先128×128 crop训练100 epoch（lr=1e-4），再256×256训练20 epoch，最后lr降到1e-5再训练20 epoch
变体：8/4/3/2-bit四个量化等级；8-bit只加shifted Transformer branch；4/3/2-bit同时使用全部三个改进模块

实验关键数据¶

方法	PSNR (avg)	SSIM (avg)	Params (M)	OPs (G)
EfficientSCI-S (全精度)	35.51	0.970	3.78	563.87
Q-ViT (8-bit)	35.17	0.967	0.95	141.04
Q-SCI (8-bit)	35.57	0.969	0.95	140.95
Q-SCI (4-bit)	34.69	0.963	0.48	72.69
Q-SCI (3-bit)	33.62	0.953	0.37	37.47
Q-SCI (2-bit)	31.62	0.928	0.25	19.85
BIRNAT	33.31	0.951	4.13	390.56
RevSCI	33.92	0.956	5.66	766.95
Dense3D-Unfolding	35.26	0.968	61.91	3975.83

Q-SCI (8-bit) 超过全精度EfficientSCI-S 0.06 dB，OPs仅为1/4
Q-SCI (4-bit) 与全精度仅差0.82 dB（2.3%性能差距），理论加速7.8×
Q-SCI (4-bit) 比BIRNAT高1.38 dB，OPs仅为其1/5.4

消融实验要点¶

配置	PSNR	SSIM	增量
4-bit Baseline（直接量化）	31.40	0.931	—
+ Shifted Transformer (RDM)	31.93	0.929	+0.53
+ 高质量特征提取 (FEM)	34.28	0.959	+2.35
+ 精确视频重建 (VRM)	34.71	0.963	+0.43

FEM贡献最大（+2.35 dB），印证了高质量初始特征对量化模型的关键作用
三个模块总计恢复3.31 dB，额外计算开销仅增加3.14%
泛化验证：在STFormer-S上，FEM带来+3.23 dB，VRM进一步+0.25 dB

亮点¶

首创性：Video SCI领域第一个网络量化工作，开辟了SCI重建效率优化的新方向
分析驱动设计：先做系统的性能分析（逐模块量化实验 + 特征可视化），精准定位瓶颈再设计方案，方法论值得学习
极简有效的shortcut策略：仅用少量8-bit的1×1×1卷积作为shortcut就能大幅恢复量化损失，这一trick对其他low-level视觉任务的量化也有启示
Transformer分布偏移的修正：可学习shift bias的方法非常轻量，适用于任何含Transformer分支的量化网络
良好的泛化性：Q-SCI框架可迁移到不同的端到端SCI重建方法（EfficientSCI、STFormer），不是绑定单一架构

局限与展望¶

未部署验证：论文仅报告理论加速比（OPs），没有实际芯片/GPU上的延迟测试，实际加速效果存疑
量化策略较传统：采用的是标准的均匀量化+QAT，没有探索混合精度、分层自适应比特分配等更先进的量化技术
shortcut用8-bit可能不是最优：固定将shortcut设为8-bit是手工设计，没有自动搜索最优的混合精度配置
仅验证两种backbone：泛化实验只在EfficientSCI和STFormer上做了，未测试更多架构（如deep unfolding方法）
损失函数简单：只用MSE损失，感知损失或对抗损失可能进一步提升视觉质量

与相关工作的对比¶

vs Q-ViT：Q-ViT是通用ViT量化框架，在SCI任务上直接应用效果不如Q-SCI（8-bit下差0.4 dB）。原因是Q-ViT假设量化后分布为钟形，但SCI网络的Transformer分支不满足这一假设。Q-SCI通过learnable shift替代Q-ViT的固定re-parameterization，更灵活。
vs PAMS/CADyQ/BBCU等low-level量化方法：这些方法针对超分辨率、去噪等任务设计，没有考虑SCI特有的feature extraction→enhancement→reconstruction三阶段结构和3D卷积特性。Q-SCI的shortcut设计是针对SCI pipeline特点定制的。
vs EfficientSCI：EfficientSCI追求轻量化架构设计，Q-SCI从量化角度切入，两者正交互补。Q-SCI (8-bit)性能与EfficientSCI-S持平，OPs仅为1/4。

启发与关联¶

高质量特征通道思想的迁移：在量化低级视觉网络时，保留少量高精度的shortcut通道来传输高质量特征，这一策略可推广到图像超分辨率、去噪、去模糊等任务的量化。
混合精度自动搜索的可能性：Q-SCI手动选择shortcut为8-bit，如果引入NAS或可微搜索来自动确定各层最优比特宽度，可能发现更优的精度-效率配置。

评分¶

新颖性: ⭐⭐⭐⭐ 首个SCI量化工作，但量化技术本身并非全新
实验充分度: ⭐⭐⭐⭐ 仿真+实拍数据、两种backbone泛化、完整消融，缺实际部署延迟
写作质量: ⭐⭐⭐⭐ 分析驱动、逻辑清晰，图表质量高
价值: ⭐⭐⭐⭐ 为SCI高效部署开了先河，shortcut量化策略有实用参考价值