Phy-CoSF: Physics-Guided Continuous Spectral Fields Reconstruction and Super-Resolution for Snapshot Compressive Imaging¶
会议: ICML 2026
arXiv: 2605.13583
代码: github.com/PaiDii/Phy-CoSF
领域: 图像恢复 / 高光谱成像 / 隐式神经表征
关键词: CASSI, 高光谱重建, 深度展开网络, 隐式神经表征, 连续光谱超分
一句话总结¶
为单次曝光式压缩光谱成像 (CASSI) 设计一个 train-render 两阶段、按波长可任意查询的深度展开框架——在每个展开 stage 内塞入连续光谱场 (CoSF) 先验模块,由 Fourier-Mamba 驱动的三分支跨域特征混合器 + 随机频率编码 + 谱合成头组成,离散波长训练即可在推理时合成任意连续波长的高光谱图像,实现连续光谱重建与零样本光谱超分。
研究背景与动机¶
领域现状:CASSI 系统通过物理掩膜 + 色散器 + 2D 传感器把 3D 高光谱图像 (HSI) 压缩成单张快照,从单帧反推完整 HSI 是严重欠定的逆问题。主流方案沿着"模型驱动先验(稀疏、低秩)→ E2E CNN/Transformer (TSA-Net, MST++) → 深度展开网络 DUN (ADMM-Net, GAP-Net, DAUHST, DERNN-LNLT, LADE-DUN, MiJUN)"路线演进,DUN 凭借物理可解释 + 数据驱动并重成为当前主流。
现有痛点:所有主流方法(不论 E2E 还是 DUN)都建立在固定离散波长的输入-输出假设上:训练时绑定 28 个波长通道,推理时也只能输出这 28 个波长。但 CASSI 的物理成像原理是连续色散,这种"训练-推理都离散"的设定既与物理本质矛盾,又彻底排除了"在新波长上推断"或"光谱方向超分"等高价值能力。要扩展到新波长就必须重新采集训练数据并重训整个模型。
核心矛盾:DUN 的强先验来自"每个 stage 学一个离散通道的去噪/去模糊算子",但要做连续波长查询,先验本身必须是关于波长的连续函数。如何把隐式神经表征 (INR) 的"按坐标查询任意输出"能力嵌进展开网络,同时不破坏物理一致性,是关键挑战。
本文目标:(1) 让单一模型既能做高保真的 HSI 重建,又能在任意目标波长上做光谱超分;(2) 保留 DUN 的物理可解释结构 (A-HQS 算法展开),先验模块改成 "波长无关内容 + 连续光谱合成" 的解耦形式;(3) 充分利用 HSI 在空间/频率/通道三域的互补结构。
切入角度:作者意识到光谱合成问题与 NeRF 中"按坐标查询颜色"的本质相同——只要在 DUN 的每个 stage 用"波长无关的内容表征 \(f\)"+"连续波长嵌入 \(e_\lambda\)"做隐式解码,就可以训练时只用离散波长样本、推理时按任意 \(\lambda\) 渲染。
核心 idea:把 DUN 改造为 train-render 两阶段范式——训练相位只在有 GT 的离散波长上查询并算 L1 loss,渲染相位则把同一模型自由查询任意连续波长,实现"零样本光谱超分"。
方法详解¶
整体框架¶
Phy-CoSF 把 A-HQS 算法(带加速的半二次分裂)展开成 \(K\) 个 stage。前向物理模型为 \(y = \Phi x + n\),每个 stage 执行三步:(i) 数据保真子问题 \(x_{k+1} = (\Phi^T \Phi + \mu I)^{-1}(\Phi^T y + \mu \hat z_k)\) 由 DAN (degradation-aware network) 显式计算,物理掩膜 \(\Phi\) 进入计算图;(ii) 先验子问题 \(z_{k+1} = \text{CoSF}(x_{k+1}, \eta)\) 由 CoSF 模块完成,\(\eta = \sqrt{\tau/\mu}\) 是可学噪声水平;(iii) 加速步 \(\hat z_{k+1} = z_{k+1} + \beta_k(z_{k+1} - z_k)\)。训练相位只对一组随机抽取的离散波长查询并做 L1 loss;推理相位可向 CoSF 内的谱合成头喂入任意波长 \(\lambda\) 来渲染单波长切片 \(HSI(\lambda) \in \mathbb{R}^{1\times H\times W}\)。
关键设计¶
-
连续光谱场先验模块 (CoSF):
- 功能:替代传统 DUN 中针对固定通道训练的离散先验,让先验本身成为一个关于波长的连续场。
- 核心思路:把先验拆成两部分。Triple-Branch Cross-Domain Feature Mixer 抽取一个"波长无关"的多尺度内容表征 \(f \in \mathbb{R}^{C \times H \times W}\):先用 \(3\times 3\) 卷积升通道得到 fine-grained 特征 \(f_H \in \mathbb{R}^{C/12 \times H \times W}\),经 \(4\times 4\) 卷积下采样后再过 CDFE 得到 meso-scale \(f_M \in \mathbb{R}^{C/6 \times H/2 \times W/2}\) 和 coarse-scale \(f_L \in \mathbb{R}^{C/3 \times H/4 \times W/4}\),每条分支都经过 CDFE 跨域处理;最后插值回原分辨率后做 \(1\times 1\) refinement 卷积、按通道 concat 得到 \(f\)。Spectral Synthesis Head (SSH) 把目标 \(\lambda\) 归一化到 \([-1, 1]\),经随机频率编码 \(\gamma(\lambda) = [\sin(2\pi\lambda b_1), \dots, \cos(2\pi\lambda b_m)]\)(\(b_i \sim \mathcal{N}(0,\sigma^2)\) 固定)和 MLP 投影得到 \(e_\lambda \in \mathbb{R}^D\),与 \(f\) concat 后由两个 \(3\times 3\) + 一个 \(1\times 1\) 卷积合成出该波长的强度图 \(HSI(\lambda) = \text{SH}(\text{Concat}(e_\lambda, f))\)。
- 设计动机:(a) 三分支多尺度同时捕捉局部纹理、中尺度结构与全局上下文;(b) 随机 Fourier 编码提供"高频归纳偏置"对抗深度网络的低频偏好;(c) "波长无关内容 + 波长相关嵌入"的解耦是连续查询的物理基础。
-
跨域特征编码器 CDFE (Spatial → Frequency → Channel):
- 功能:以单一序列骨干在三个域上互补地提炼 HSI 特征,弥补卷积只能捕捉局部上下文的缺陷。
- 核心思路:CDFE 是一个三段串联结构。空间域:使用 GLAM-Net (global-local attention mechanism) 抽取局部纹理细节,\(f_{spatial} = f_{in} + \text{GLAM}(f_{in})\)。频率域 (本文创新):先 2D-FFT 把 \(f_{spatial}\) 映射到频域,频域特征每个系数都包含全图结构信息;然后展平为 1D 序列喂入 Mamba block 做长程依赖建模 \(f_{freq} = f_{spatial} + i\text{FFT}(\text{Mamba}(\text{FFT}(f_{spatial})))\);最后 iFFT 回空间域并残差连接。通道域:使用 GDFN 模块按通道再校准,\(f_{out} = f_{freq} + \text{GDFN}(f_{freq})\)。所有阶段特征维度保持一致以便残差。
- 设计动机:HSI 的空间结构、频谱关联、跨通道相关性是天然解耦的三种信号;用 Mamba 而非 Transformer 在频域做长程建模可以避开 \(O(N^2)\) 注意力开销,特别适合高分辨率高光谱场景。
-
Train-Render 两阶段范式:
- 功能:让训练在离散监督下进行、推理时实现任意波长零样本渲染。
- 核心思路:训练相位随机抽取一组 GT 对应的离散波长,CoSF 只查询这些坐标得到对应切片,计算 L1 重建损失 \(\mathcal{L}_{rec}\) 来更新整个网络。这样模型实际上只看到"有真值的 \(\lambda\)",但因为 SSH 把 \(\lambda\) 作为连续输入条件,它本质上学到的是一个关于波长的连续函数。推理相位则解除这一限制:可以向 SSH 喂入训练集没有出现过的任意 \(\lambda\),得到该波长的高保真光谱切片,从而完成光谱方向上的超分。
- 设计动机:用最小化的训练改动 (只换 query 坐标) 实现连续渲染能力;同时避免对真实光谱超分数据的依赖(这种数据极难获取)。
损失函数 / 训练策略¶
训练采用 L1 重建损失 \(\mathcal{L}_{rec} = \|HSI_{pred}(\lambda) - HSI_{gt}(\lambda)\|_1\),对每个 batch 随机抽样一组离散波长。展开 stage 数 \(K = 9\),每 stage 包含 1 个 DAN + 1 个 CoSF + 加速更新。CDFE 内的 Fourier-Mamba 块为方向无关的 1D Mamba,输入序列长度即频域 \(H \times W\) 展平。所有评估在 ICVL 数据集 10 个 scene 上进行,指标为 SAM (谱角)、PSNR、SSIM。
实验关键数据¶
主实验¶
连续光谱重建(与多种主流 DUN/E2E 方法在统一离散波长设置下对比):
| 方法 | Params (M) | FLOPs (G) | Avg SAM ↓ | Avg PSNR (dB) ↑ | Avg SSIM ↑ |
|---|---|---|---|---|---|
| MST++ | 0.07 | 1.18 | 2.43 | 34.48 | 0.884 |
| CST-L+ | 0.15 | 3.94 | 2.41 | 34.39 | 0.882 |
| GAP-Net | 4.21 | 65.73 | 2.38 | 36.01 | 0.915 |
| DAUHST-9stg | 2.42 | 6.68 | 2.32 | 35.76 | 0.911 |
| RDLUF-MixS2-9stg | 0.11 | 31.49 | 2.47 | 35.03 | 0.900 |
| DERNN-LNLT*-9stg | 0.93 | 122.14 | 2.33 | 35.72 | 0.911 |
| LADE-DUN-10stg | 1.23 | 8.34 | 2.16 | 35.79 | 0.914 |
| MiJUN-9stg | 0.04 | 6.01 | 2.37 | 35.26 | 0.901 |
| Phy-CoSF-9stg | 0.27 | 801.38 | 1.14 | 36.45 | 0.915 |
Phy-CoSF 的 SAM 仅 1.14(最强基线 LADE-DUN 是 2.16,几乎翻倍优势),PSNR 36.45 dB 也是最佳;尤其在多个 scene(Scene1/2/4/7/10)上的 SAM 降到 1 左右,远低于其他方法的 2–3.5。代价是 FLOPs 高达 801G,比其他展开网络大一个数量级。
消融实验¶
| 配置 | 关键指标 (Avg) | 说明 |
|---|---|---|
| Full Phy-CoSF-9stg | SAM 1.14 / PSNR 36.45 / SSIM 0.915 | 完整三大模块 |
| w/o CoSF 模块 (退回离散先验) | 接近 LADE-DUN 等基线水平 (PSNR ~35.7) | 失去连续渲染能力,性能掉 0.7 dB+ |
| w/o Fourier-Mamba (频域分支) | SSIM/PSNR 下降明显 | 全局依赖建模缺失 |
| 单尺度替代三分支 | 多尺度细节丢失 | 验证 fine/meso/coarse 必要性 |
| 固定波长编码替代 RFE | 高频细节不足 | 随机 Fourier 编码提供必要归纳偏置 |
| Train-Render 不分离 | 无法做零样本光谱超分 | 范式本身决定能力上限 |
(注:详细消融表在论文附录。)
关键发现¶
- SAM 的显著优势说明 Phy-CoSF 的光谱保真度大幅领先:SAM 从 ~2.4 降到 1.14 意味着光谱方向上的角度误差减半,主因是 RFE + SE 的连续 \(\lambda\) 编码让 SSH 能精细刻画频谱形状。
- 参数高效但 FLOPs 高:0.27M 参数(仅次于 MST++/MiJUN),但 FLOPs 801G 远超对手——因为 SSH 需要逐 stage、逐波长执行,是典型的"参数小但计算密集"的隐式表征架构。
- 零样本光谱超分首次在 CASSI DUN 框架内实现:训练时只用离散波长,推理时直接查询任意 \(\lambda\) 得到高保真切片,图 1 底部展示了这一能力。
- Fourier-Mamba 比频域 Transformer 更高效:作者特别强调用 Mamba 在频域做 1D 序列建模,扩大上下文同时控制了显存,验证了 SSM 在结构化谱信号上的适用性。
亮点与洞察¶
- 把 INR 思想嵌进 DUN 的每个 stage 是非常自然但少有人做的组合:DUN 提供物理可解释 + 强先验,INR 提供连续查询能力,二者互补几乎天作之合。
- "波长无关内容 \(f\) + 波长相关嵌入 \(e_\lambda\)" 的解耦设计可以迁移到任何"按某连续坐标查询输出"的逆问题,比如时间维度上的视频帧率提升、空间维度上的 super-resolution、或动态范围维度上的 HDR 渲染。
- Fourier-Mamba 块的灵感来自"频域系数本身就是 1D 全局信号"——把 2D 频谱展平后用 Mamba 处理,巧妙绕过了 Transformer 在大图上的复杂度问题,是 SSM 用于频域处理的一个干净案例。
- Random Fourier 编码 + 可学 MLP 投影的组合(先固定高频归纳偏置,再用 MLP 做任务适配)已经在 NeRF 系列中得到验证,本文把它无缝迁移到 1D 波长坐标上。
局限与展望¶
- FLOPs 801G 远超基线(最近 DAUHST 仅 6.68G),单图推理速度未给出;对实时高光谱重建不友好。
- 连续光谱超分仅在 train-render 范式下做了定性展示(图 1),缺少对"新波长上的真值"做定量评估的实验,超分质量的上界还需进一步分析。
- 评估只在 ICVL 上做,未覆盖更具挑战的 KAIST、CAVE 或真实仪器数据;对不同色散参数的鲁棒性未知。
- 训练用 L1 损失,对噪声/高动态范围场景可能偏向过平滑;可考虑加 perceptual 或谱角损失。
- CoSF 模块的 SSH 必须按波长逐次查询,渲染整套 200+ 波长需要多次前向;可探索批量并行查询的实现优化。
相关工作与启发¶
- vs LADE-DUN:LADE-DUN 用预训练 latent diffusion 当生成先验、PSNR 35.79;Phy-CoSF 把先验改成连续场,PSNR 36.45 且额外获得连续渲染能力。
- vs MiJUN (Mamba + tensor mode-k unfolding):MiJUN 是首批把 Mamba 用进 CASSI DUN 的工作;Phy-CoSF 把 Mamba 用到频域而非时间/空间维度,并 + INR 解耦。
- vs DERNN-LNLT:跨 stage 共享参数压缩模型;Phy-CoSF 走相反路径——参数仍小但通过 INR 让模型具有更多功能 (连续渲染)。
- vs NeRF/INR 系列:本文是把 NeRF "坐标 → 颜色"的思想沿光谱坐标轴 (而非空间坐标轴) 延伸到 HSI 重建的一次成功尝试,启示后续可在更多 inverse problem 中部署。
评分¶
- 新颖性: ⭐⭐⭐⭐ INR + DUN + Fourier-Mamba 三件套的组合,是 CASSI 重建从"离散波长"跨入"连续光谱"的首批工作之一。
- 实验充分度: ⭐⭐⭐ 与 9 种主流方法在 ICVL 上对比清楚,但缺乏多数据集 + 连续超分定量评估。
- 写作质量: ⭐⭐⭐⭐ 物理推导 + 模块分解清晰,图 3/4 配合好。
- 价值: ⭐⭐⭐⭐ 为高光谱成像引入"按需查询波长"的新能力,对遥感、医学影像、农业等下游应用有显著实用价值。