Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction¶

会议: CVPR 2026
arXiv: 2603.00611
代码: DynaSpec
领域: 计算光谱成像
关键词: 光谱压缩成像, 高光谱视频重建, 时空特征传播, Transformer, DynaSpec 数据集

一句话总结¶

首次将光谱压缩成像（SCI）从图像级推进到视频级重建，构建首个高质量动态高光谱数据集 DynaSpec（30 序列/300 帧），提出 PG-SVRT 通过空间-然后-时间注意力 + 桥接 token 实现 41.52dB PSNR 和最优时间一致性，且 FLOPs（28.18G）低于多个图像级 SOTA。

研究背景与动机¶

领域现状：高光谱图像（HSI）能检测材料光谱属性，广泛应用于分类、检测、跟踪、自动驾驶。光谱压缩成像（SCI）通过空间-光谱编码将 3D 数据 \(X \in \mathbb{R}^{H \times W \times C}\) 压缩为 2D 测量 \(Y \in \mathbb{R}^{H \times W'}\) 实现快照采集。现有重建方法（MST-L、DPU、RDLUF 等）已在图像级取得优异性能。

现有痛点：(1) 重建不确定性——掩码编码不可避免丢失空间-光谱信息，单帧恢复被遮挡内容存在固有歧义；(2) 时间不一致性——逐帧独立重建无法保证时间连续性，表现为频闪强度曲线和帧间抖动，不满足视频感知需求。

核心矛盾：视频级重建面临双重障碍——数据匮乏（现有数据集均为图像级，伪视频裁剪缺乏真实运动自由度）和算法瓶颈（现有方法难以高效建模高维时空依赖——联合注意力复杂度爆炸，完全分离处理限制交互）。

本文目标 从数据、模型、基准三个维度推动光谱重建从图像级到视频级的跨越。

切入角度：固定编码模式在相邻帧间差异化捕获互补特征——被遮挡信息可从邻帧传播恢复，同时天然增强时间一致性。这一物理特性为视频级重建提供了坚实的信号基础。

核心 idea：利用时序测量序列中相邻帧的互补特征和时间连续性，通过空间-然后-时间渐进注意力 + 桥接 token，实现高效的视频级高光谱重建。

方法详解¶

整体框架¶

PG-SVRT 要解决的是：给定 \(T=3\) 帧 SCI 测量序列，如何在不让时空注意力复杂度爆炸的前提下，把相邻帧的互补信息传播过来、同时保证重建结果的时间一致性。整体是一个 U-Net，测量先经掩码引导退化感知（MGDP）注入退化先验，再经 Shuffle 把退化特征与测量沿光谱维度对齐，然后堆叠跨域传播注意力（CDPA）+ 多域前馈网络（MDFFN）逐级编解码，最后输出 \(T\) 帧高光谱重建。三层模块数 \((N_1, N_2, N_3)=(4,8,8)\)，基础通道 \(C=N_\lambda=30\)。整个设计的支点有两个：一是用一套真实拍摄的动态高光谱数据让"视频级重建"这个问题第一次有了 ground truth，二是用空间-然后-时间的渐进注意力把高维时空依赖拆得既便宜又不丢交互。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    D["DynaSpec 数据集<br/>推扫相机逐帧拍摄 30 序列/300 帧真实动态 HSI"]
    A["T=3 帧 SCI 测量序列 Y"] --> M["掩码引导退化感知 MGDP<br/>由掩码 Φ 学退化权重注入测量"]
    M --> S["Shuffle：退化特征与测量沿光谱维对齐"]
    subgraph UNet["PG-SVRT U-Net 编解码 (N1,N2,N3)=(4,8,8)"]
        direction TB
        C["跨域传播注意力 CDPA<br/>空间→时间渐进 + 桥接 token + 共享 value"] --> FF["多域前馈网络 MDFFN"]
    end
    S --> UNet
    UNet --> O["T 帧高光谱视频重建"]
    D -.提供 GT 训练监督.-> UNet

关键设计¶

1. DynaSpec 数据集：给视频级光谱重建造一个真实的 ground truth

视频级重建一直做不起来的根本卡点不在算法而在数据——现有数据集要么是图像级的 CAVE/KAIST，要么是光谱分辨率低、不可靠的下游任务数据集，过去只能靠裁剪图像伪造"视频"，缺乏真实运动自由度。本文用 GaiaField 推扫式高光谱相机逐帧拍摄可控物体，手动设计平移/旋转/关节运动来模拟真实场景的运动，最终得到 30 场景、300 帧 HSI，空间分辨率 1280×1280，光谱分辨率 2nm，覆盖 400–700nm 共 151 个通道。为了让 ground truth 真正可信，采集遵循五条原则：帧间运动连续且符合物理规律、长曝光降噪、光谱响应校正、排除照明光谱使数据逼近反射率、用不变物体的强度做校准以消除温度漂移。正是这种"可控逐帧扫描"而非合成，保证了重建任务有一个可靠的监督信号。

2. 掩码引导退化感知（MGDP）：把"哪里被编码损失得多"显式告诉网络

SCI 的掩码编码本身会不均匀地丢失空间-光谱信息，网络若对各位置一视同仁就难以有针对性地重建。MGDP 位于主架构最前端，先把掩码 \(\Phi\) 按 SCI 架构（SD/DD）压缩成 \(\Phi_s\)、再裁剪复制成 \(\Phi_p\)，然后用 Conv\(_{1\times1}\)+sigmoid 学习 \(\Phi\) 与 \(\Phi_p\) 之间的强度分布差异得到权重 \(W_\Phi\)，把它逐元素地施加到测量特征上再与原测量拼接：\(Y_{in} = \text{Concat}(\text{Conv}(W_m \odot F_m(Y)), Y)\)。这样退化先验就被显式编码进输入，网络在进入后续注意力前就"知道"每个空间-光谱位置的编码损失程度，从而把容量分配到更需要补全的地方。

3. 跨域传播注意力（CDPA）：用空间-然后-时间的渐进注意力，把"既要便宜又要充分交互"两头都吃下

这是 PG-SVRT 的核心模块，堆叠在 U-Net 各级里负责真正的时空特征传播。直接做联合时空注意力，复杂度随 \(THW\) 平方膨胀、贵得用不起；而把空间、时间完全分离独立处理，又会切断两个域之间的特征交互。CDPA 的做法是先空间、后时间，并在两步之间复用同一份特征。空间这一步把特征切成非重叠窗口（\(H_{win}=8,W_{win}=32\)），并不让窗口内所有 token 两两做全注意力，而是先对 \(Q_s\) 池化生成一组数量很小的桥接 token \(B_s\in\mathbb{R}^{Thw\times N_B\times C}\)（\(N_B=64\)）当中介，让 Q–K–V 通过它间接交互，从而避免额外投影参数：

\[Y_s^{out} = \text{GConv}\big(A(Q_s, B_s, A(B_s, K_s, V_s, \tau_1), \tau_2)\big) + Y_{N1}\]

时间这一步则在重排维度后，直接把空间注意力的输出当作 value复用：\(Y_t^{out} = A(Q_t, K_t, Y_t, \tau_3)\)，且因为 \(T\) 很小、帧间又强相关，干脆不设时间窗口。这两点合起来把总复杂度压到 \(O = 4THWC^2 + 4THWN_BC + 2T^2HWC\)——只要 \(2N_B < H_{win}W_{win}\)（这里 \(128<256\) 成立），桥接 token 就严格比全窗口注意力更省；而"共享 value"则让空间域学到的特征无成本地流到时间域，实现了跨域传播又不引入新的投影开销，这正是它既快又不丢交互的原因。

损失函数 / 训练策略¶

训练用多阶段 RMSE 损失，Adam 优化器（\(\beta_1=0.9, \beta_2=0.999\)），学习率 \(3\times10^{-4}\) 余弦退火至 \(1\times10^{-6}\)，跑 80 epochs、batch size 2，单卡 RTX 3090。为公平评估，作者在 SD-CASSI/DD-CASSI/PMVIS/NDSSI 四种 SCI 系统下统一对比。

实验关键数据¶

主实验——与 SOTA 方法对比（DD-CASSI 系统）¶

方法	会议	PSNR-K↑	PSNR-D↑	SAM-K↓	ST-RRED-K↓	GFLOPs
MST-L	CVPR'22	39.99	39.58	3.82	30.99	28.23
PADUT	ICCV'23	38.61	40.41	4.72	47.19	32.78
DPU	CVPR'24	40.02	41.01	5.22	25.90	31.04
DPU* (加时域)	CVPR'24	40.50	41.36	5.17	26.71	77.36
PG-SVRT	Ours	41.23	41.82	3.81	19.35	28.18

消融实验¶

配置	PSNR	SSIM	SAM↓	ST-RRED↓	GFLOPs
Baseline (F-MSA+FFN)	39.97	0.9827	5.53	43.90	30.11
+ CDPA	41.30 (+1.33)	0.9884	4.32	25.44	21.11
+ CDPA + MGDP	41.41 (+0.11)	0.9886	4.25	24.63	21.31
+ CDPA + MGDP + MDFFN	41.52 (+0.11)	0.9893	3.91	23.25	28.18

关键发现¶

DD-CASSI 在四种 SCI 架构中碾压式最优（PSNR 41.52 vs 次优 NDSSI 37.84），因兼具高光谱采样效率和清晰结构表示
CDPA 贡献最大（+1.33dB PSNR），且 FLOPs 反而下降（30.11→21.11G），因桥接 token 替代了全窗口注意力
空间-然后-时间 + 共享 value 策略最优（41.52），优于并行处理（41.35）和时间-然后-空间（41.04）
PG-SVRT 虽为视频模型，单帧 FLOPs（28.18G）比 DAUHST（35.93G）等图像方法更低

亮点与洞察¶

数据+模型+基准三位一体：DynaSpec 数据集、PG-SVRT 模型、四种 SCI 系统对比基准，对动态计算光谱成像领域推动力大
桥接 token 设计巧妙：池化 Query 生成中介 token 实现间接注意力，零额外参数且降低复杂度。当 \(2N_B < H_{win}W_{win}\) 时严格降低计算量
共享 value 跨域传播：空间注意力的输出直接作为时间注意力的 value，优雅解决多域特征交互而不引入额外投影开销
DPU* 对比有说服力：简单拼接时域帧的代价（77.36G）远高于 PG-SVRT（28.18G），效果却不如

局限与展望¶

DynaSpec 仅 30 场景/300 帧，多样性和规模有限，可能过拟合特定运动模式
帧数固定 \(T=3\)，长序列扩展未验证，实际动态场景可能需要更大时间窗口
训练裁剪 256×256，全分辨率（1280×1280）推理效率和效果未讨论
未探索光流对齐、变形卷积等显式运动建模方法与 CDPA 的组合

评分¶

新颖性: ⭐⭐⭐⭐ 视频级光谱重建是新问题定义，CDPA 桥接 token 和共享 value 传播有设计创意
实验充分度: ⭐⭐⭐⭐⭐ 四种 SCI 系统对比、12 种 SOTA 比较、多维消融、真实原型验证
写作质量: ⭐⭐⭐⭐ 问题动机清晰，SCI 统一数学框架推导完整
价值: ⭐⭐⭐⭐⭐ 数据集+方法+基准的组合对动态计算光谱成像领域影响深远