Phy-CoSF: Physics-Guided Continuous Spectral Fields Reconstruction and Super-Resolution for Snapshot Compressive Imaging¶

会议: ICML 2026
arXiv: 2605.13583
代码: github.com/PaiDii/Phy-CoSF
领域: 图像恢复 / 高光谱成像 / 隐式神经表征
关键词: CASSI, 高光谱重建, 深度展开网络, 隐式神经表征, 连续光谱超分

一句话总结¶

为单次曝光式压缩光谱成像 (CASSI) 设计一个 train-render 两阶段、按波长可任意查询的深度展开框架——在每个展开 stage 内塞入连续光谱场 (CoSF) 先验模块，由 Fourier-Mamba 驱动的三分支跨域特征混合器 + 随机频率编码 + 谱合成头组成，离散波长训练即可在推理时合成任意连续波长的高光谱图像，实现连续光谱重建与零样本光谱超分。

研究背景与动机¶

领域现状：CASSI 系统通过物理掩膜 + 色散器 + 2D 传感器把 3D 高光谱图像 (HSI) 压缩成单张快照，从单帧反推完整 HSI 是严重欠定的逆问题。主流方案沿着"模型驱动先验（稀疏、低秩）→ E2E CNN/Transformer (TSA-Net, MST++) → 深度展开网络 DUN (ADMM-Net, GAP-Net, DAUHST, DERNN-LNLT, LADE-DUN, MiJUN)"路线演进，DUN 凭借物理可解释 + 数据驱动并重成为当前主流。

现有痛点：所有主流方法（不论 E2E 还是 DUN）都建立在固定离散波长的输入-输出假设上：训练时绑定 28 个波长通道，推理时也只能输出这 28 个波长。但 CASSI 的物理成像原理是连续色散，这种"训练-推理都离散"的设定既与物理本质矛盾，又彻底排除了"在新波长上推断"或"光谱方向超分"等高价值能力。要扩展到新波长就必须重新采集训练数据并重训整个模型。

核心矛盾：DUN 的强先验来自"每个 stage 学一个离散通道的去噪/去模糊算子"，但要做连续波长查询，先验本身必须是关于波长的连续函数。如何把隐式神经表征 (INR) 的"按坐标查询任意输出"能力嵌进展开网络，同时不破坏物理一致性，是关键挑战。

本文目标：(1) 让单一模型既能做高保真的 HSI 重建，又能在任意目标波长上做光谱超分；(2) 保留 DUN 的物理可解释结构 (A-HQS 算法展开)，先验模块改成 "波长无关内容 + 连续光谱合成" 的解耦形式；(3) 充分利用 HSI 在空间/频率/通道三域的互补结构。

切入角度：作者意识到光谱合成问题与 NeRF 中"按坐标查询颜色"的本质相同——只要在 DUN 的每个 stage 用"波长无关的内容表征 \(f\)"+"连续波长嵌入 \(e_\lambda\)"做隐式解码，就可以训练时只用离散波长样本、推理时按任意 \(\lambda\) 渲染。

核心 idea：把 DUN 改造为 train-render 两阶段范式——训练相位只在有 GT 的离散波长上查询并算 L1 loss，渲染相位则把同一模型自由查询任意连续波长，实现"零样本光谱超分"。

方法详解¶

整体框架¶

Phy-CoSF 把 A-HQS 算法（带加速的半二次分裂）展开成 \(K\) 个 stage。前向物理模型为 \(y = \Phi x + n\)，每个 stage 执行三步：(i) 数据保真子问题 \(x_{k+1} = (\Phi^T \Phi + \mu I)^{-1}(\Phi^T y + \mu \hat z_k)\) 由 DAN (degradation-aware network) 显式计算，物理掩膜 \(\Phi\) 进入计算图；(ii) 先验子问题 \(z_{k+1} = \text{CoSF}(x_{k+1}, \eta)\) 由 CoSF 模块完成，\(\eta = \sqrt{\tau/\mu}\) 是可学噪声水平；(iii) 加速步 \(\hat z_{k+1} = z_{k+1} + \beta_k(z_{k+1} - z_k)\)。训练相位只对一组随机抽取的离散波长查询并做 L1 loss；推理相位可向 CoSF 内的谱合成头喂入任意波长 \(\lambda\) 来渲染单波长切片 \(HSI(\lambda) \in \mathbb{R}^{1\times H\times W}\)。

关键设计¶

连续光谱场先验模块 (CoSF):
- 功能：替代传统 DUN 中针对固定通道训练的离散先验，让先验本身成为一个关于波长的连续场。
- 核心思路：把先验拆成两部分。Triple-Branch Cross-Domain Feature Mixer 抽取一个"波长无关"的多尺度内容表征 \(f \in \mathbb{R}^{C \times H \times W}\)：先用 \(3\times 3\) 卷积升通道得到 fine-grained 特征 \(f_H \in \mathbb{R}^{C/12 \times H \times W}\)，经 \(4\times 4\) 卷积下采样后再过 CDFE 得到 meso-scale \(f_M \in \mathbb{R}^{C/6 \times H/2 \times W/2}\) 和 coarse-scale \(f_L \in \mathbb{R}^{C/3 \times H/4 \times W/4}\)，每条分支都经过 CDFE 跨域处理；最后插值回原分辨率后做 \(1\times 1\) refinement 卷积、按通道 concat 得到 \(f\)。Spectral Synthesis Head (SSH) 把目标 \(\lambda\) 归一化到 \([-1, 1]\)，经随机频率编码 \(\gamma(\lambda) = [\sin(2\pi\lambda b_1), \dots, \cos(2\pi\lambda b_m)]\)（\(b_i \sim \mathcal{N}(0,\sigma^2)\) 固定）和 MLP 投影得到 \(e_\lambda \in \mathbb{R}^D\)，与 \(f\) concat 后由两个 \(3\times 3\) + 一个 \(1\times 1\) 卷积合成出该波长的强度图 \(HSI(\lambda) = \text{SH}(\text{Concat}(e_\lambda, f))\)。
- 设计动机：(a) 三分支多尺度同时捕捉局部纹理、中尺度结构与全局上下文；(b) 随机 Fourier 编码提供"高频归纳偏置"对抗深度网络的低频偏好；(c) "波长无关内容 + 波长相关嵌入"的解耦是连续查询的物理基础。
跨域特征编码器 CDFE (Spatial → Frequency → Channel):
- 功能：以单一序列骨干在三个域上互补地提炼 HSI 特征，弥补卷积只能捕捉局部上下文的缺陷。
- 核心思路：CDFE 是一个三段串联结构。空间域：使用 GLAM-Net (global-local attention mechanism) 抽取局部纹理细节，\(f_{spatial} = f_{in} + \text{GLAM}(f_{in})\)。频率域 (本文创新)：先 2D-FFT 把 \(f_{spatial}\) 映射到频域，频域特征每个系数都包含全图结构信息；然后展平为 1D 序列喂入 Mamba block 做长程依赖建模 \(f_{freq} = f_{spatial} + i\text{FFT}(\text{Mamba}(\text{FFT}(f_{spatial})))\)；最后 iFFT 回空间域并残差连接。通道域：使用 GDFN 模块按通道再校准，\(f_{out} = f_{freq} + \text{GDFN}(f_{freq})\)。所有阶段特征维度保持一致以便残差。
- 设计动机：HSI 的空间结构、频谱关联、跨通道相关性是天然解耦的三种信号；用 Mamba 而非 Transformer 在频域做长程建模可以避开 \(O(N^2)\) 注意力开销，特别适合高分辨率高光谱场景。
Train-Render 两阶段范式:
- 功能：让训练在离散监督下进行、推理时实现任意波长零样本渲染。
- 核心思路：训练相位随机抽取一组 GT 对应的离散波长，CoSF 只查询这些坐标得到对应切片，计算 L1 重建损失 \(\mathcal{L}_{rec}\) 来更新整个网络。这样模型实际上只看到"有真值的 \(\lambda\)"，但因为 SSH 把 \(\lambda\) 作为连续输入条件，它本质上学到的是一个关于波长的连续函数。推理相位则解除这一限制：可以向 SSH 喂入训练集没有出现过的任意 \(\lambda\)，得到该波长的高保真光谱切片，从而完成光谱方向上的超分。
- 设计动机：用最小化的训练改动 (只换 query 坐标) 实现连续渲染能力；同时避免对真实光谱超分数据的依赖（这种数据极难获取）。

损失函数 / 训练策略¶

训练采用 L1 重建损失 \(\mathcal{L}_{rec} = \|HSI_{pred}(\lambda) - HSI_{gt}(\lambda)\|_1\)，对每个 batch 随机抽样一组离散波长。展开 stage 数 \(K = 9\)，每 stage 包含 1 个 DAN + 1 个 CoSF + 加速更新。CDFE 内的 Fourier-Mamba 块为方向无关的 1D Mamba，输入序列长度即频域 \(H \times W\) 展平。所有评估在 ICVL 数据集 10 个 scene 上进行，指标为 SAM (谱角)、PSNR、SSIM。

实验关键数据¶

主实验¶

连续光谱重建（与多种主流 DUN/E2E 方法在统一离散波长设置下对比）：

方法	Params (M)	FLOPs (G)	Avg SAM ↓	Avg PSNR (dB) ↑	Avg SSIM ↑
MST++	0.07	1.18	2.43	34.48	0.884
CST-L+	0.15	3.94	2.41	34.39	0.882
GAP-Net	4.21	65.73	2.38	36.01	0.915
DAUHST-9stg	2.42	6.68	2.32	35.76	0.911
RDLUF-MixS2-9stg	0.11	31.49	2.47	35.03	0.900
DERNN-LNLT*-9stg	0.93	122.14	2.33	35.72	0.911
LADE-DUN-10stg	1.23	8.34	2.16	35.79	0.914
MiJUN-9stg	0.04	6.01	2.37	35.26	0.901
Phy-CoSF-9stg	0.27	801.38	1.14	36.45	0.915

Phy-CoSF 的 SAM 仅 1.14（最强基线 LADE-DUN 是 2.16，几乎翻倍优势），PSNR 36.45 dB 也是最佳；尤其在多个 scene（Scene1/2/4/7/10）上的 SAM 降到 1 左右，远低于其他方法的 2–3.5。代价是 FLOPs 高达 801G，比其他展开网络大一个数量级。

消融实验¶

配置	关键指标 (Avg)	说明
Full Phy-CoSF-9stg	SAM 1.14 / PSNR 36.45 / SSIM 0.915	完整三大模块
w/o CoSF 模块 (退回离散先验)	接近 LADE-DUN 等基线水平 (PSNR ~35.7)	失去连续渲染能力，性能掉 0.7 dB+
w/o Fourier-Mamba (频域分支)	SSIM/PSNR 下降明显	全局依赖建模缺失
单尺度替代三分支	多尺度细节丢失	验证 fine/meso/coarse 必要性
固定波长编码替代 RFE	高频细节不足	随机 Fourier 编码提供必要归纳偏置
Train-Render 不分离	无法做零样本光谱超分	范式本身决定能力上限

（注：详细消融表在论文附录。）

关键发现¶

SAM 的显著优势说明 Phy-CoSF 的光谱保真度大幅领先：SAM 从 ~2.4 降到 1.14 意味着光谱方向上的角度误差减半，主因是 RFE + SE 的连续 \(\lambda\) 编码让 SSH 能精细刻画频谱形状。
参数高效但 FLOPs 高：0.27M 参数（仅次于 MST++/MiJUN），但 FLOPs 801G 远超对手——因为 SSH 需要逐 stage、逐波长执行，是典型的"参数小但计算密集"的隐式表征架构。
零样本光谱超分首次在 CASSI DUN 框架内实现：训练时只用离散波长，推理时直接查询任意 \(\lambda\) 得到高保真切片，图 1 底部展示了这一能力。
Fourier-Mamba 比频域 Transformer 更高效：作者特别强调用 Mamba 在频域做 1D 序列建模，扩大上下文同时控制了显存，验证了 SSM 在结构化谱信号上的适用性。

亮点与洞察¶

把 INR 思想嵌进 DUN 的每个 stage 是非常自然但少有人做的组合：DUN 提供物理可解释 + 强先验，INR 提供连续查询能力，二者互补几乎天作之合。
"波长无关内容 \(f\) + 波长相关嵌入 \(e_\lambda\)" 的解耦设计可以迁移到任何"按某连续坐标查询输出"的逆问题，比如时间维度上的视频帧率提升、空间维度上的 super-resolution、或动态范围维度上的 HDR 渲染。
Fourier-Mamba 块的灵感来自"频域系数本身就是 1D 全局信号"——把 2D 频谱展平后用 Mamba 处理，巧妙绕过了 Transformer 在大图上的复杂度问题，是 SSM 用于频域处理的一个干净案例。
Random Fourier 编码 + 可学 MLP 投影的组合（先固定高频归纳偏置，再用 MLP 做任务适配）已经在 NeRF 系列中得到验证，本文把它无缝迁移到 1D 波长坐标上。

局限与展望¶

FLOPs 801G 远超基线（最近 DAUHST 仅 6.68G），单图推理速度未给出；对实时高光谱重建不友好。
连续光谱超分仅在 train-render 范式下做了定性展示（图 1），缺少对"新波长上的真值"做定量评估的实验，超分质量的上界还需进一步分析。
评估只在 ICVL 上做，未覆盖更具挑战的 KAIST、CAVE 或真实仪器数据；对不同色散参数的鲁棒性未知。
训练用 L1 损失，对噪声/高动态范围场景可能偏向过平滑；可考虑加 perceptual 或谱角损失。
CoSF 模块的 SSH 必须按波长逐次查询，渲染整套 200+ 波长需要多次前向；可探索批量并行查询的实现优化。

评分¶

新颖性: ⭐⭐⭐⭐ INR + DUN + Fourier-Mamba 三件套的组合，是 CASSI 重建从"离散波长"跨入"连续光谱"的首批工作之一。
实验充分度: ⭐⭐⭐ 与 9 种主流方法在 ICVL 上对比清楚，但缺乏多数据集 + 连续超分定量评估。
写作质量: ⭐⭐⭐⭐ 物理推导 + 模块分解清晰，图 3/4 配合好。
价值: ⭐⭐⭐⭐ 为高光谱成像引入"按需查询波长"的新能力，对遥感、医学影像、农业等下游应用有显著实用价值。