Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction¶
会议: CVPR 2026
arXiv: 2603.00611
代码: DynaSpec
领域: 计算光谱成像
关键词: 光谱压缩成像, 高光谱视频重建, 时空特征传播, Transformer, DynaSpec 数据集
一句话总结¶
首次将光谱压缩成像(SCI)从图像级推进到视频级重建,构建首个高质量动态高光谱数据集 DynaSpec(30 序列/300 帧),提出 PG-SVRT 通过空间-然后-时间注意力 + 桥接 token 实现 41.52dB PSNR 和最优时间一致性,且 FLOPs(28.18G)低于多个图像级 SOTA。
研究背景与动机¶
领域现状:高光谱图像(HSI)能检测材料光谱属性,广泛应用于分类、检测、跟踪、自动驾驶。光谱压缩成像(SCI)通过空间-光谱编码将 3D 数据 \(X \in \mathbb{R}^{H \times W \times C}\) 压缩为 2D 测量 \(Y \in \mathbb{R}^{H \times W'}\) 实现快照采集。现有重建方法(MST-L、DPU、RDLUF 等)已在图像级取得优异性能。
现有痛点:(1) 重建不确定性——掩码编码不可避免丢失空间-光谱信息,单帧恢复被遮挡内容存在固有歧义;(2) 时间不一致性——逐帧独立重建无法保证时间连续性,表现为频闪强度曲线和帧间抖动,不满足视频感知需求。
核心矛盾:视频级重建面临双重障碍——数据匮乏(现有数据集均为图像级,伪视频裁剪缺乏真实运动自由度)和算法瓶颈(现有方法难以高效建模高维时空依赖——联合注意力复杂度爆炸,完全分离处理限制交互)。
本文目标 从数据、模型、基准三个维度推动光谱重建从图像级到视频级的跨越。
切入角度:固定编码模式在相邻帧间差异化捕获互补特征——被遮挡信息可从邻帧传播恢复,同时天然增强时间一致性。这一物理特性为视频级重建提供了坚实的信号基础。
核心 idea:利用时序测量序列中相邻帧的互补特征和时间连续性,通过空间-然后-时间渐进注意力 + 桥接 token,实现高效的视频级高光谱重建。
方法详解¶
整体框架¶
PG-SVRT 采用 U-Net 架构,输入 \(T=3\) 帧测量序列,由三个核心模块组成:掩码引导退化感知(MGDP)、跨域传播注意力(CDPA)和多域前馈网络(MDFFN)。Shuffle 操作将退化特征与测量沿光谱维度对齐。模块数量 \((N_1, N_2, N_3) = (4, 8, 8)\),基础通道数 \(C = N_\lambda = 30\)。
关键设计¶
-
DynaSpec 数据集
- 功能:构建首个高质量动态高光谱图像数据集
- 核心思路:使用 GaiaField 推扫式高光谱相机逐帧拍摄可控物体,手动设计平移/旋转/关节运动模拟真实场景运动。数据规格:30 场景、300 帧 HSI,空间分辨率 1280×1280,光谱分辨率 2nm,波长 400–700nm(151 通道)
- 质量保证五原则:(i) 帧间运动连续且遵循物理规律;(ii) 长曝光降噪;(iii) 光谱响应校正;(iv) 排除照明光谱使数据逼近反射率;(v) 不变物体强度校准消除温度漂移
- 设计动机:现有数据集要么图像级(CAVE/KAIST),要么下游任务数据集光谱分辨率低不可靠。通过可控逐帧扫描获取确保 ground truth 真实性
-
跨域传播注意力(CDPA)
- 功能:空间-然后-时间渐进式注意力,实现高效时空特征传播
- 核心思路:空间注意力——将特征划分为非重叠窗口(\(H_{win}=8, W_{win}=32\)),引入桥接 token \(B_s \in \mathbb{R}^{Thw \times N_B \times C}\)(通过池化 \(Q_s\) 生成,\(N_B=64\))作为 Q-K-V 间的中介,避免额外参数开销:\(Y_s^{out} = \text{GConv}(A(Q_s, B_s, A(B_s, K_s, V_s, \tau_1), \tau_2)) + Y_{N1}\)。时间注意力——重排维度后,共享空间输出作为 value:\(Y_t^{out} = A(Q_t, K_t, Y_t, \tau_3)\),不设时间窗口(\(T\) 小且帧间强相关)
- 复杂度:\(O = 4THWC^2 + 4THWN_BC + 2T^2HWC\)。当 \(2N_B < H_{win}W_{win}\)(\(128 < 256\) 满足)时桥接 token 降低开销
- 设计动机:联合时空注意力太贵,完全分离限制交互。共享 value 跨域传播 + 桥接 token 实现 O(NlogN) 级别效率和高质量交互的平衡
-
掩码引导退化感知(MGDP)
- 功能:在主架构前显式建模压缩退化过程
- 核心思路:将掩码 \(\Phi\) 按 SCI 架构(SD/DD)压缩得 \(\Phi_s\),裁剪/复制为 \(\Phi_p\),学习 \(\Phi\) 与 \(\Phi_p\) 间的强度分布差异(Conv\(_{1\times1}\) + sigmoid)得权重 \(W_\Phi\),与测量特征逐元素加权后拼接:\(Y_{in} = \text{Concat}(\text{Conv}(W_m \odot F_m(Y)), Y)\)
- 设计动机:退化先验帮助网络理解各空间-光谱位置的编码损失程度,指导有针对性的重建
损失函数 / 训练策略¶
多阶段 RMSE 损失;Adam 优化器(\(\beta_1=0.9, \beta_2=0.999\));学习率 \(3 \times 10^{-4}\) 余弦退火至 \(1 \times 10^{-6}\);80 epochs,batch size 2;RTX 3090 GPU。统一对比 4 种 SCI 系统(SD-CASSI/DD-CASSI/PMVIS/NDSSI)。
实验关键数据¶
主实验——与 SOTA 方法对比(DD-CASSI 系统)¶
| 方法 | 会议 | PSNR-K↑ | PSNR-D↑ | SAM-K↓ | ST-RRED-K↓ | GFLOPs |
|---|---|---|---|---|---|---|
| MST-L | CVPR'22 | 39.99 | 39.58 | 3.82 | 30.99 | 28.23 |
| PADUT | ICCV'23 | 38.61 | 40.41 | 4.72 | 47.19 | 32.78 |
| DPU | CVPR'24 | 40.02 | 41.01 | 5.22 | 25.90 | 31.04 |
| DPU* (加时域) | CVPR'24 | 40.50 | 41.36 | 5.17 | 26.71 | 77.36 |
| PG-SVRT | Ours | 41.23 | 41.82 | 3.81 | 19.35 | 28.18 |
消融实验¶
| 配置 | PSNR | SSIM | SAM↓ | ST-RRED↓ | GFLOPs |
|---|---|---|---|---|---|
| Baseline (F-MSA+FFN) | 39.97 | 0.9827 | 5.53 | 43.90 | 30.11 |
| + CDPA | 41.30 (+1.33) | 0.9884 | 4.32 | 25.44 | 21.11 |
| + CDPA + MGDP | 41.41 (+0.11) | 0.9886 | 4.25 | 24.63 | 21.31 |
| + CDPA + MGDP + MDFFN | 41.52 (+0.11) | 0.9893 | 3.91 | 23.25 | 28.18 |
关键发现¶
- DD-CASSI 在四种 SCI 架构中碾压式最优(PSNR 41.52 vs 次优 NDSSI 37.84),因兼具高光谱采样效率和清晰结构表示
- CDPA 贡献最大(+1.33dB PSNR),且 FLOPs 反而下降(30.11→21.11G),因桥接 token 替代了全窗口注意力
- 空间-然后-时间 + 共享 value 策略最优(41.52),优于并行处理(41.35)和时间-然后-空间(41.04)
- PG-SVRT 虽为视频模型,单帧 FLOPs(28.18G)比 DAUHST(35.93G)等图像方法更低
亮点与洞察¶
- 数据+模型+基准三位一体:DynaSpec 数据集、PG-SVRT 模型、四种 SCI 系统对比基准,对动态计算光谱成像领域推动力大
- 桥接 token 设计巧妙:池化 Query 生成中介 token 实现间接注意力,零额外参数且降低复杂度。当 \(2N_B < H_{win}W_{win}\) 时严格降低计算量
- 共享 value 跨域传播:空间注意力的输出直接作为时间注意力的 value,优雅解决多域特征交互而不引入额外投影开销
- DPU* 对比有说服力:简单拼接时域帧的代价(77.36G)远高于 PG-SVRT(28.18G),效果却不如
局限与展望¶
- DynaSpec 仅 30 场景/300 帧,多样性和规模有限,可能过拟合特定运动模式
- 帧数固定 \(T=3\),长序列扩展未验证,实际动态场景可能需要更大时间窗口
- 训练裁剪 256×256,全分辨率(1280×1280)推理效率和效果未讨论
- 未探索光流对齐、变形卷积等显式运动建模方法与 CDPA 的组合
相关工作与启发¶
- vs DPU(CVPR'24):图像级 SOTA,简单拼接时域帧(DPU*)FLOPs 暴涨 2.5× 但效果有限(+0.48dB)。PG-SVRT 优雅地用共享 value 传播实现视频级,FLOPs 反而更低
- vs MST-L/CST-L:早期图像级方法在时间一致性上(ST-RRED 30–35)远弱于 PG-SVRT(19.35)
- 桥接 token 的思路可推广到其他需要高效处理高维数据的注意力机制设计
- 跨 SCI 系统的公平对比为光谱成像硬件选型提供了重要参考(DD-CASSI 明显最优)
评分¶
- 新颖性: ⭐⭐⭐⭐ 视频级光谱重建是新问题定义,CDPA 桥接 token 和共享 value 传播有设计创意
- 实验充分度: ⭐⭐⭐⭐⭐ 四种 SCI 系统对比、12 种 SOTA 比较、多维消融、真实原型验证
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,SCI 统一数学框架推导完整
- 价值: ⭐⭐⭐⭐⭐ 数据集+方法+基准的组合对动态计算光谱成像领域影响深远