跳转至

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction

会议: CVPR 2026
arXiv: 2603.00611
代码: DynaSpec
领域: 计算光谱成像
关键词: 光谱压缩成像, 高光谱视频重建, 时空特征传播, Transformer, DynaSpec 数据集

一句话总结

首次将光谱压缩成像(SCI)从图像级推进到视频级重建,构建首个高质量动态高光谱数据集 DynaSpec(30 序列/300 帧),提出 PG-SVRT 通过空间-然后-时间注意力 + 桥接 token 实现 41.52dB PSNR 和最优时间一致性,且 FLOPs(28.18G)低于多个图像级 SOTA。

研究背景与动机

领域现状:高光谱图像(HSI)能检测材料光谱属性,广泛应用于分类、检测、跟踪、自动驾驶。光谱压缩成像(SCI)通过空间-光谱编码将 3D 数据 \(X \in \mathbb{R}^{H \times W \times C}\) 压缩为 2D 测量 \(Y \in \mathbb{R}^{H \times W'}\) 实现快照采集。现有重建方法(MST-L、DPU、RDLUF 等)已在图像级取得优异性能。

现有痛点:(1) 重建不确定性——掩码编码不可避免丢失空间-光谱信息,单帧恢复被遮挡内容存在固有歧义;(2) 时间不一致性——逐帧独立重建无法保证时间连续性,表现为频闪强度曲线和帧间抖动,不满足视频感知需求。

核心矛盾:视频级重建面临双重障碍——数据匮乏(现有数据集均为图像级,伪视频裁剪缺乏真实运动自由度)和算法瓶颈(现有方法难以高效建模高维时空依赖——联合注意力复杂度爆炸,完全分离处理限制交互)。

本文目标 从数据、模型、基准三个维度推动光谱重建从图像级到视频级的跨越。

切入角度:固定编码模式在相邻帧间差异化捕获互补特征——被遮挡信息可从邻帧传播恢复,同时天然增强时间一致性。这一物理特性为视频级重建提供了坚实的信号基础。

核心 idea:利用时序测量序列中相邻帧的互补特征和时间连续性,通过空间-然后-时间渐进注意力 + 桥接 token,实现高效的视频级高光谱重建。

方法详解

整体框架

PG-SVRT 采用 U-Net 架构,输入 \(T=3\) 帧测量序列,由三个核心模块组成:掩码引导退化感知(MGDP)、跨域传播注意力(CDPA)和多域前馈网络(MDFFN)。Shuffle 操作将退化特征与测量沿光谱维度对齐。模块数量 \((N_1, N_2, N_3) = (4, 8, 8)\),基础通道数 \(C = N_\lambda = 30\)

关键设计

  1. DynaSpec 数据集

    • 功能:构建首个高质量动态高光谱图像数据集
    • 核心思路:使用 GaiaField 推扫式高光谱相机逐帧拍摄可控物体,手动设计平移/旋转/关节运动模拟真实场景运动。数据规格:30 场景、300 帧 HSI,空间分辨率 1280×1280,光谱分辨率 2nm,波长 400–700nm(151 通道)
    • 质量保证五原则:(i) 帧间运动连续且遵循物理规律;(ii) 长曝光降噪;(iii) 光谱响应校正;(iv) 排除照明光谱使数据逼近反射率;(v) 不变物体强度校准消除温度漂移
    • 设计动机:现有数据集要么图像级(CAVE/KAIST),要么下游任务数据集光谱分辨率低不可靠。通过可控逐帧扫描获取确保 ground truth 真实性
  2. 跨域传播注意力(CDPA)

    • 功能:空间-然后-时间渐进式注意力,实现高效时空特征传播
    • 核心思路:空间注意力——将特征划分为非重叠窗口(\(H_{win}=8, W_{win}=32\)),引入桥接 token \(B_s \in \mathbb{R}^{Thw \times N_B \times C}\)(通过池化 \(Q_s\) 生成,\(N_B=64\))作为 Q-K-V 间的中介,避免额外参数开销:\(Y_s^{out} = \text{GConv}(A(Q_s, B_s, A(B_s, K_s, V_s, \tau_1), \tau_2)) + Y_{N1}\)时间注意力——重排维度后,共享空间输出作为 value\(Y_t^{out} = A(Q_t, K_t, Y_t, \tau_3)\),不设时间窗口(\(T\) 小且帧间强相关)
    • 复杂度:\(O = 4THWC^2 + 4THWN_BC + 2T^2HWC\)。当 \(2N_B < H_{win}W_{win}\)\(128 < 256\) 满足)时桥接 token 降低开销
    • 设计动机:联合时空注意力太贵,完全分离限制交互。共享 value 跨域传播 + 桥接 token 实现 O(NlogN) 级别效率和高质量交互的平衡
  3. 掩码引导退化感知(MGDP)

    • 功能:在主架构前显式建模压缩退化过程
    • 核心思路:将掩码 \(\Phi\) 按 SCI 架构(SD/DD)压缩得 \(\Phi_s\),裁剪/复制为 \(\Phi_p\),学习 \(\Phi\)\(\Phi_p\) 间的强度分布差异(Conv\(_{1\times1}\) + sigmoid)得权重 \(W_\Phi\),与测量特征逐元素加权后拼接:\(Y_{in} = \text{Concat}(\text{Conv}(W_m \odot F_m(Y)), Y)\)
    • 设计动机:退化先验帮助网络理解各空间-光谱位置的编码损失程度,指导有针对性的重建

损失函数 / 训练策略

多阶段 RMSE 损失;Adam 优化器(\(\beta_1=0.9, \beta_2=0.999\));学习率 \(3 \times 10^{-4}\) 余弦退火至 \(1 \times 10^{-6}\);80 epochs,batch size 2;RTX 3090 GPU。统一对比 4 种 SCI 系统(SD-CASSI/DD-CASSI/PMVIS/NDSSI)。

实验关键数据

主实验——与 SOTA 方法对比(DD-CASSI 系统)

方法 会议 PSNR-K↑ PSNR-D↑ SAM-K↓ ST-RRED-K↓ GFLOPs
MST-L CVPR'22 39.99 39.58 3.82 30.99 28.23
PADUT ICCV'23 38.61 40.41 4.72 47.19 32.78
DPU CVPR'24 40.02 41.01 5.22 25.90 31.04
DPU* (加时域) CVPR'24 40.50 41.36 5.17 26.71 77.36
PG-SVRT Ours 41.23 41.82 3.81 19.35 28.18

消融实验

配置 PSNR SSIM SAM↓ ST-RRED↓ GFLOPs
Baseline (F-MSA+FFN) 39.97 0.9827 5.53 43.90 30.11
+ CDPA 41.30 (+1.33) 0.9884 4.32 25.44 21.11
+ CDPA + MGDP 41.41 (+0.11) 0.9886 4.25 24.63 21.31
+ CDPA + MGDP + MDFFN 41.52 (+0.11) 0.9893 3.91 23.25 28.18

关键发现

  • DD-CASSI 在四种 SCI 架构中碾压式最优(PSNR 41.52 vs 次优 NDSSI 37.84),因兼具高光谱采样效率和清晰结构表示
  • CDPA 贡献最大(+1.33dB PSNR),且 FLOPs 反而下降(30.11→21.11G),因桥接 token 替代了全窗口注意力
  • 空间-然后-时间 + 共享 value 策略最优(41.52),优于并行处理(41.35)和时间-然后-空间(41.04)
  • PG-SVRT 虽为视频模型,单帧 FLOPs(28.18G)比 DAUHST(35.93G)等图像方法更低

亮点与洞察

  • 数据+模型+基准三位一体:DynaSpec 数据集、PG-SVRT 模型、四种 SCI 系统对比基准,对动态计算光谱成像领域推动力大
  • 桥接 token 设计巧妙:池化 Query 生成中介 token 实现间接注意力,零额外参数且降低复杂度。当 \(2N_B < H_{win}W_{win}\) 时严格降低计算量
  • 共享 value 跨域传播:空间注意力的输出直接作为时间注意力的 value,优雅解决多域特征交互而不引入额外投影开销
  • DPU* 对比有说服力:简单拼接时域帧的代价(77.36G)远高于 PG-SVRT(28.18G),效果却不如

局限与展望

  • DynaSpec 仅 30 场景/300 帧,多样性和规模有限,可能过拟合特定运动模式
  • 帧数固定 \(T=3\),长序列扩展未验证,实际动态场景可能需要更大时间窗口
  • 训练裁剪 256×256,全分辨率(1280×1280)推理效率和效果未讨论
  • 未探索光流对齐、变形卷积等显式运动建模方法与 CDPA 的组合

相关工作与启发

  • vs DPU(CVPR'24):图像级 SOTA,简单拼接时域帧(DPU*)FLOPs 暴涨 2.5× 但效果有限(+0.48dB)。PG-SVRT 优雅地用共享 value 传播实现视频级,FLOPs 反而更低
  • vs MST-L/CST-L:早期图像级方法在时间一致性上(ST-RRED 30–35)远弱于 PG-SVRT(19.35)
  • 桥接 token 的思路可推广到其他需要高效处理高维数据的注意力机制设计
  • 跨 SCI 系统的公平对比为光谱成像硬件选型提供了重要参考(DD-CASSI 明显最优)

评分

  • 新颖性: ⭐⭐⭐⭐ 视频级光谱重建是新问题定义,CDPA 桥接 token 和共享 value 传播有设计创意
  • 实验充分度: ⭐⭐⭐⭐⭐ 四种 SCI 系统对比、12 种 SOTA 比较、多维消融、真实原型验证
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,SCI 统一数学框架推导完整
  • 价值: ⭐⭐⭐⭐⭐ 数据集+方法+基准的组合对动态计算光谱成像领域影响深远