A Simple Low-bit Quantization Framework for Video Snapshot Compressive Imaging¶
会议: ECCV 2024
arXiv: 2407.21517
代码: https://github.com/mcao92/QuantizedSCI
领域: 模型压缩 / 计算成像
关键词: 网络量化, 视频快照压缩成像, Transformer量化, 低比特推理, 高效重建
一句话总结¶
首个面向视频快照压缩成像(Video SCI)重建任务的低比特量化框架Q-SCI,通过高质量特征提取模块、精确视频重建模块和Transformer分支的query/key分布偏移操作,在4-bit量化下实现7.8倍理论加速且性能仅下降2.3%。
背景与动机¶
视频快照压缩成像(Video SCI)利用低速2D相机通过编码掩模将高速场景压缩为快照测量值,再通过重建算法恢复高速视频帧。当前基于深度学习的SOTA重建方法(如EfficientSCI、STFormer等)虽然性能出色,但参数量和计算量依然很大——EfficientSCI-S有3.78M参数、563.87 GFLOPs,难以部署在手机、自动驾驶等资源受限设备上。网络量化是降低计算开销最直接有效的手段之一,但此前从未有人探索过Video SCI重建任务中的量化问题。直接将现有重建网络量化到低比特会带来巨大的性能崩塌(4-bit直接量化掉4.11 dB),必须针对SCI重建任务的特殊结构设计专门的量化策略。
核心问题¶
- 低比特量化的性能崩塌问题:直接将端到端Video SCI重建网络(由特征提取→特征增强→视频重建三个模块组成)量化到4-bit会导致严重的质量下降,核心原因是特征提取模块在低比特下丢失了大量高质量特征信息。
- Transformer分支的分布失真:量化后Transformer中query和key的激活分布发生偏移,导致注意力权重计算失真,且分布形态与标准视觉Transformer不同(非钟形),无法直接套用已有方法(如Q-ViT)。
方法详解¶
整体思路是:先通过经验分析定位性能崩塌的根源,再针对性地设计三个轻量改进模块来弥补量化带来的质量损失。
整体框架¶
Q-SCI以端到端Video SCI重建网络(以EfficientSCI-S为backbone)为基础。输入是2D压缩测量值和编码掩模,输出为重建的多帧高速视频。整个网络分为三个阶段:特征提取模块 → 特征增强模块(ResDNet,内含CFormer的Transformer分支)→ 视频重建模块。Q-SCI在这三个阶段分别引入针对性改进,用极少的额外参数换取显著的量化性能恢复。
关键设计¶
-
高质量特征提取模块(FEM):经验分析发现特征提取模块是性能崩塌的主要来源(单独量化到4-bit掉2.22 dB,远超其他模块的0.5 dB左右)。核心原因是低比特量化导致初始特征质量严重退化,后续模块无法弥补。解决方案很直接:在特征提取模块中加入若干1×1×1卷积作为shortcut连接(含pixel shuffle用于空间尺寸对齐),并将这些shortcut卷积设为8-bit精度,从而在低比特主干中保持一条高质量特征传播通道。这个设计贡献了最大的性能提升(+2.35 dB)。
-
偏移Transformer分支(Shifted Transformer Branch, RDM):量化后Transformer的query和key分布发生明显偏移(8-bit模型中query均值漂移了1.207),导致注意力计算失真。与Q-ViT不同,SCI中量化后的分布不是钟形,不能用Q-ViT的方法。Q-SCI引入可学习的偏移偏置\(\beta_q\)、\(\beta_k\),对query和key做\(\tilde{q} = q + \beta_q\)、\(\tilde{k} = k + \beta_k\),让量化后的分布重新对齐全精度模型。这个操作几乎不增加计算量,提升0.53 dB。
-
精确视频重建模块(VRM):与FEM设计思路一致,在视频重建模块也加入8-bit精度的1×1×1 shortcut卷积,保证高质量特征能一直传播到网络末端输出。提升0.43 dB。
损失函数 / 训练策略¶
- 损失函数:标准MSE损失,\(\mathcal{L}_{MSE} = \frac{1}{T \cdot n_x \cdot n_y} \sum_{t=1}^{T} \|\hat{X}_t - X_t\|_2^2\)
- 量化方案:激活用非对称量化,权重用对称量化,训练时scale和zero-point作为可学习参数优化(QAT方式)
- 训练流程:用全精度EfficientSCI-S初始化,Adam优化器,先128×128 crop训练100 epoch(lr=1e-4),再256×256训练20 epoch,最后lr降到1e-5再训练20 epoch
- 变体:8/4/3/2-bit四个量化等级;8-bit只加shifted Transformer branch;4/3/2-bit同时使用全部三个改进模块
实验关键数据¶
| 方法 | PSNR (avg) | SSIM (avg) | Params (M) | OPs (G) |
|---|---|---|---|---|
| EfficientSCI-S (全精度) | 35.51 | 0.970 | 3.78 | 563.87 |
| Q-ViT (8-bit) | 35.17 | 0.967 | 0.95 | 141.04 |
| Q-SCI (8-bit) | 35.57 | 0.969 | 0.95 | 140.95 |
| Q-SCI (4-bit) | 34.69 | 0.963 | 0.48 | 72.69 |
| Q-SCI (3-bit) | 33.62 | 0.953 | 0.37 | 37.47 |
| Q-SCI (2-bit) | 31.62 | 0.928 | 0.25 | 19.85 |
| BIRNAT | 33.31 | 0.951 | 4.13 | 390.56 |
| RevSCI | 33.92 | 0.956 | 5.66 | 766.95 |
| Dense3D-Unfolding | 35.26 | 0.968 | 61.91 | 3975.83 |
- Q-SCI (8-bit) 超过全精度EfficientSCI-S 0.06 dB,OPs仅为1/4
- Q-SCI (4-bit) 与全精度仅差0.82 dB(2.3%性能差距),理论加速7.8×
- Q-SCI (4-bit) 比BIRNAT高1.38 dB,OPs仅为其1/5.4
消融实验要点¶
| 配置 | PSNR | SSIM | 增量 |
|---|---|---|---|
| 4-bit Baseline(直接量化) | 31.40 | 0.931 | — |
| + Shifted Transformer (RDM) | 31.93 | 0.929 | +0.53 |
| + 高质量特征提取 (FEM) | 34.28 | 0.959 | +2.35 |
| + 精确视频重建 (VRM) | 34.71 | 0.963 | +0.43 |
- FEM贡献最大(+2.35 dB),印证了高质量初始特征对量化模型的关键作用
- 三个模块总计恢复3.31 dB,额外计算开销仅增加3.14%
- 泛化验证:在STFormer-S上,FEM带来+3.23 dB,VRM进一步+0.25 dB
亮点¶
- 首创性:Video SCI领域第一个网络量化工作,开辟了SCI重建效率优化的新方向
- 分析驱动设计:先做系统的性能分析(逐模块量化实验 + 特征可视化),精准定位瓶颈再设计方案,方法论值得学习
- 极简有效的shortcut策略:仅用少量8-bit的1×1×1卷积作为shortcut就能大幅恢复量化损失,这一trick对其他low-level视觉任务的量化也有启示
- Transformer分布偏移的修正:可学习shift bias的方法非常轻量,适用于任何含Transformer分支的量化网络
- 良好的泛化性:Q-SCI框架可迁移到不同的端到端SCI重建方法(EfficientSCI、STFormer),不是绑定单一架构
局限与展望¶
- 未部署验证:论文仅报告理论加速比(OPs),没有实际芯片/GPU上的延迟测试,实际加速效果存疑
- 量化策略较传统:采用的是标准的均匀量化+QAT,没有探索混合精度、分层自适应比特分配等更先进的量化技术
- shortcut用8-bit可能不是最优:固定将shortcut设为8-bit是手工设计,没有自动搜索最优的混合精度配置
- 仅验证两种backbone:泛化实验只在EfficientSCI和STFormer上做了,未测试更多架构(如deep unfolding方法)
- 损失函数简单:只用MSE损失,感知损失或对抗损失可能进一步提升视觉质量
与相关工作的对比¶
- vs Q-ViT:Q-ViT是通用ViT量化框架,在SCI任务上直接应用效果不如Q-SCI(8-bit下差0.4 dB)。原因是Q-ViT假设量化后分布为钟形,但SCI网络的Transformer分支不满足这一假设。Q-SCI通过learnable shift替代Q-ViT的固定re-parameterization,更灵活。
- vs PAMS/CADyQ/BBCU等low-level量化方法:这些方法针对超分辨率、去噪等任务设计,没有考虑SCI特有的feature extraction→enhancement→reconstruction三阶段结构和3D卷积特性。Q-SCI的shortcut设计是针对SCI pipeline特点定制的。
- vs EfficientSCI:EfficientSCI追求轻量化架构设计,Q-SCI从量化角度切入,两者正交互补。Q-SCI (8-bit)性能与EfficientSCI-S持平,OPs仅为1/4。
启发与关联¶
- 高质量特征通道思想的迁移:在量化低级视觉网络时,保留少量高精度的shortcut通道来传输高质量特征,这一策略可推广到图像超分辨率、去噪、去模糊等任务的量化。
- 混合精度自动搜索的可能性:Q-SCI手动选择shortcut为8-bit,如果引入NAS或可微搜索来自动确定各层最优比特宽度,可能发现更优的精度-效率配置。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个SCI量化工作,但量化技术本身并非全新
- 实验充分度: ⭐⭐⭐⭐ 仿真+实拍数据、两种backbone泛化、完整消融,缺实际部署延迟
- 写作质量: ⭐⭐⭐⭐ 分析驱动、逻辑清晰,图表质量高
- 价值: ⭐⭐⭐⭐ 为SCI高效部署开了先河,shortcut量化策略有实用参考价值