AnyMod-LLVE: Low-Light Video Enhancement with Modality-Agnostic Inference¶

会议: ICML2026
arXiv: 2606.11186
代码: 项目页（论文称 Code and models available，未给确切链接）
领域: 图像/视频恢复
关键词: 低光视频增强, 模态缺失, 隐式模态生成, 频域门控, 多模态预训练

一句话总结¶

针对"多模态低光视频增强在推理时拿不到事件流/红外辅助模态就崩"的痛点，AMNet 用一个 Spatial-Spectral Dual-Gated（S2DG）Translator 从退化的低光 RGB 里"凭空生成"辅助模态的隐式表示，再配合大规模合成多模态预训练，使得测试时无论给不给辅助模态都能稳定增强——RGB-only 推理就已达到 SOTA，给了辅助模态还能再涨一点。

研究背景与动机¶

领域现状：低光视频增强（LLVE）的主流做法分两类。一类是 RGB-only，靠 Retinex/光照分解（RetinexFormer、Cai et al.）和时序一致性建模（STCD、Xu et al.）来提亮去噪。另一类是近年兴起的多模态方法（EvLight、EvLight++），额外引入事件流（event stream）或红外（infrared）图像，提供互补的运动动态和结构先验，在细节恢复上明显更强。

现有痛点：多模态方法有一个隐含的强假设——辅助模态在训练和推理时都必须存在。但事件相机、红外相机需要额外硬件、精细标定、严格的时空同步，真实部署中往往拿不到高质量的多模态数据，或者拿到的是部分损坏的。一旦推理时辅助模态缺失，现有多模态模型会大幅掉点，可部署性很差。

核心矛盾：训练阶段想用多模态信息（它确实有用），但推理阶段又必须对缺失模态鲁棒。一个折中思路是"测试时用生成模型把缺失模态显式补出来"，但在推理时调用生成模型会引入不可忽视的延迟，对时效场景不实用。

本文目标：做一个统一框架，使其在任意模态可用组合下都能推理——有辅助模态就用，没有就自给自足，且不在推理时调用昂贵的生成模型。

切入角度：与其把辅助模态当成"必需输入"，不如把它当成"可以从 RGB 推断出来的隐式支撑"。难点在于低光下 RGB 本身信息严重退化，局部纹理和锐利边缘极脆弱、常被传感器噪声淹没，从这种退化输入里抽出可靠的多模态线索很难。

核心 idea：用一个频谱分析驱动的双门控翻译器，把"在低光观测里幸存下来的稀少但有用的高频细节"挑出来，转译成辅助模态的隐式表示；并用合成的多模态数据做大规模预训练，把这种跨模态对应关系当作先验学进来。

方法详解¶

整体框架¶

AMNet 接收一段低光 RGB 视频 \(\{R_t^{low}\}_{t=1}^{T}\)，输出增强后的视频 \(\{R_t^{en}\}_{t=1}^{T}\)。训练时事件流 \(\{\mathcal{E}_t\}\) 和红外 \(\{I_t\}\) 可用，推理时它们可能缺失。

每帧 \(R_t^{low}\in\mathbb{R}^{H\times W\times 3}\) 先经 RGB 编码器抽取多尺度特征 \(\mathcal{Z}_t^{rgb}\)，作为后续增强与模态生成的基础表示。训练时若辅助模态可用，事件流会被转成 event voxel grid \(E_t\in\mathbb{R}^{H\times W\times B}\)、红外表示为单通道 \(I_t\in\mathbb{R}^{H\times W\times 1}\)，各自经模态编码器抽特征。核心组件 S2DG Translator 学习 RGB 与辅助模态间的对应关系：当辅助模态缺失时，它从 RGB 特征里生成对应的隐式辅助表示来顶上。随后 RGB 特征与（真实或生成的）辅助特征融合，送入时序建模模块捕捉帧间依赖，最后解码器预测一张残差图，叠加到 \(R_t^{low}\) 上得到输出 \(R_t^{en}\)。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["低光 RGB 视频<br/>每帧 R_t^low"] --> B["RGB 编码器<br/>多尺度特征 Z_rgb"]
    B --> C["S2DG Translator<br/>从退化 RGB 生成<br/>事件/红外隐式表示"]
    B --> D["真实辅助模态<br/>(训练时可用,推理时常缺)"]
    C --> E["特征融合 + 时序建模"]
    D -->|可用时| E
    E --> F["解码器预测残差"]
    F --> G["残差叠加 R_t^low<br/>→ 增强帧 R_t^en"]

关键设计¶

1. 模态无关推理：把辅助模态当可选线索而非必需输入

这一设计直接针对"推理时辅助模态缺失就崩"的痛点。AMNet 不再把事件流/红外当成测试时必须喂入的输入，而是把它们建模为"可从 RGB 推断的隐式支撑"。具体地，当辅助模态可用时，框架直接吃显式信号、抽取结构信息；当辅助模态缺失时，AMNet 为每种辅助模态生成专属的隐式表示 \(\hat{Z}_t^m\) 来替代真实特征参与解码（如 \(\hat{R}_{t,en}^{r}=\mathcal{D}(Z_t^{rgb},\hat{Z}_t^{ir},\hat{Z}_t^{evt})\)）。这样同一个网络就能覆盖"全模态 / 只有事件 / 只有红外 / 全缺失"等任意组合，且因为隐式表示是一个轻量翻译器前向得到的，不需要在推理时调用昂贵的生成模型，避免了显式补全方案的延迟问题。

2. S2DG Translator：从退化 RGB 蒸馏可靠高频线索（IADS + FBS 双门控）

这是全文的技术核心，解决"低光 RGB 里的细节又稀少又被噪声污染，怎么挑出可信的高频线索去转译成辅助模态"。S2DG 在空间域和频域各放一道门控，串联工作。

第一道是 Illumination-Aware Detail Selector（IADS），在空间域按光照可靠性给高频细节加权。它先把 RGB 特征拆成低频和高频两部分：

\[Z_{low}=\mathrm{AvgPool}(Z_t^{rgb}),\qquad Z_{high}=Z_t^{rgb}-Z_{low}.\]

\(Z_{low}\) 捕捉全局光照分布，\(Z_{high}\) 是混着噪声的局部细节响应。基于 \(Z_{low}\) 预测一张光照感知的空间可靠性图 \(M_{spatial}=\sigma(\mathrm{Conv}_{1\times 1}(Z_{low}))\)，再对高频做空间重加权 \(\tilde{Z}_{high}=Z_{high}\odot M_{spatial}\)，从而压掉光照差区域里被噪声主导的高频。

第二道是 Frequency-Band Selector（FBS），在频域进一步保留并强化有用的频段、抑制噪声主导的响应。它先把 \(\tilde{Z}_{high}\) 做逐通道 2D FFT 得到 \(F_{freq}=\mathcal{F}(\tilde{Z}_{high})\)，预测一个谱门控 \(G_{spec}=\sigma(\mathrm{Conv}(F_{freq}))\) 和一个谱缩放 \(S_{spec}=\tanh(\mathrm{Conv}(F_{freq}))\)，联合调制频域特征 \(F_{out}=F_{freq}\odot G_{spec}\odot(1+S_{spec})\)，再逆 FFT 回空间域 \(\hat{Z}_{high}=\mathcal{F}^{-1}(F_{out})\)。最后用残差把可能被选择性门控压掉的全局上下文补回来：\(\hat{Z}_t^m=\hat{Z}_{high}+Z_{low}\)，这个 \(\hat{Z}_t^m\) 就是该辅助模态的隐式表示。每种辅助模态用各自独立的 S2DG，做模态特定的生成。之所以有效，是因为它没有去"无中生有"地恢复所有细节，而是显式优先保留低光下幸存的那部分可信高频，避免把噪声当信号放大。

3. 大规模合成多模态预训练：把跨模态对应当先验学进来

成对的多模态 LLVE 数据极稀缺，直接监督学不出可靠的跨模态对应。本设计借生成模型造伪多模态数据来扩大训练规模：用 v2e 从 RGB 合成事件流、用 ThermalGen 合成红外图像，源数据来自视频分割、视频超分等多样视频集；再通过调节光照得到成对的正常光/低光 RGB（基于物理退化模型，光照在 10%–50% 均匀采样，并补充 1%–10% 的长尾极暗）。在这批伪多模态数据上预训练 S2DG，让它先把 RGB↔辅助模态的对应关系当先验学好，之后下游 RGB-only 微调时这套先验就能持续受益。值得注意的是：合成只用在训练侧；推理时若再调生成模型会引入延迟，所以模态缺失在测试时仍是真问题，这正凸显了模态无关推理的价值。

损失函数 / 训练策略¶

总目标由三项组成：\(\mathcal{L}_{total}=\lambda_1\mathcal{L}_{rec}^{full}+\lambda_2\mathcal{L}_{rec}^{miss}+\lambda_3\mathcal{L}_{dt}\)。

全模态重建 \(\mathcal{L}_{rec}^{full}\)：用全部真实模态解码出帧，与正常光参考帧算 \(\ell_1\) 像素损失 + SSIM 结构损失，\(\mathcal{L}_{rec}^{full}=\mathcal{L}_p+\lambda_s\mathcal{L}_s\)。
缺失模态模拟 \(\mathcal{L}_{rec}^{miss}\)：训练时枚举所有辅助模态可用组合 \(m\subset\{\text{ir},\text{evt}\}\)（只有事件、只有红外、全缺失等），对每种组合产出的增强帧都用同样的重建损失监督，\(\mathcal{L}_{rec}^{miss}=\sum_m \mathcal{L}_{rec}^m(\hat{R}_{t,en}^m,R_t^{gt})\)，逼模型在不完整辅助信息下也能出好帧。
特征蒸馏 \(\mathcal{L}_{dt}\)：把生成的隐式表示 \(\hat{Z}_t^m\) 与真实模态特征 \(Z_t^m\) 对齐，对单位化后的特征求 \(\ell_2\) 距离，并对真实分支用 stop-gradient 防止梯度回流：\(\mathcal{L}_{dt}=\sum_m \lambda_m\big\|\hat{Z}_t^m/\|\hat{Z}_t^m\|_2 - \mathrm{sg}(Z_t^m/\|Z_t^m\|_2)\big\|_2^2\)。

训练用 AdamW（初始学习率 \(2\times10^{-4}\)，cosine 调度 + 5 个 warm-up epoch），输入裁成 \(128\times128\)、clip 长度 8；预训练在 4 张 A800 上分布式进行，下游微调单张 A800、batch 32。

实验关键数据¶

主实验¶

在 RGB-only 设置下（推理不喂任何辅助模态），AMNet 在三个真实 LLVE 数据集上全面领先：

数据集	指标	本文	之前最佳(STCD)	提升
DID	PSNR / SSIM	31.57 / 0.95	30.10 / 0.93	+1.47 dB / +0.02
SDSD-Indoor	PSNR / SSIM	29.03 / 0.92	28.93 / 0.88	+0.10 dB / +0.04
SDSD-Outdoor	PSNR / SSIM	26.37 / 0.84	26.32 / 0.82	+0.05 dB / +0.02

在多模态数据集 SDE 上，对比依赖事件流的多模态方法（EvLight++ 等）：AMNet 即便只用 RGB（R）推理就已超过它们；给事件（R+E）、红外（R+I）、或全给（R+E+I）还能进一步涨：

推理模态	SDE-Indoor PSNR/SSIM	SDE-Outdoor PSNR/SSIM
EvLight++ (R+E)	22.67 / 0.779	23.34 / 0.768
AMNet (R, 仅RGB)	23.04 / 0.816	23.75 / 0.775
AMNet (R+E)	23.22 / 0.827	23.88 / 0.791
AMNet (R+E+I)	23.25 / 0.828	23.91 / 0.791

零样本（不微调）对比恢复基础模型（FoundIR、DarkIR 等），AMNet 在 DID 上 25.07/0.93、SDSD-Indoor 22.27/0.87、SDSD-Outdoor 21.43/0.74，全面碾压（如 DID 上 DarkIR 仅 19.62/0.82），说明大规模多模态预训练显著增强了泛化。

消融实验¶

S2DG 两个子模块的消融（DID 数据集，PSNR/SSIM）：

IADS	FBS	DID	SDSD-Indoor	SDSD-Outdoor
✗	✗	29.85 / 0.93	28.31 / 0.91	25.93 / 0.81
✓	✗	30.30 / 0.93	28.60 / 0.91	26.05 / 0.81
✗	✓	30.95 / 0.94	29.20 / 0.92	26.25 / 0.82
✓	✓	31.57 / 0.95	29.03 / 0.92	26.37 / 0.84

预训练数据规模消融（0%→100%）：DID 上 PSNR 从 29.78 升到 31.57，同时生成表示与真实模态的 L2 距离（Event/IR）从 0.328/0.314 降到 0.289/0.277。

关键发现¶

FBS 比 IADS 贡献更大：单开 FBS 在 DID 上拉到 30.95，单开 IADS 只到 30.30；两者互补，全开 31.57。说明频域选频对挑出可信高频是主力，空间光照门控是辅助。
预训练越多越好且越"逼真"：随预训练数据从 0% 到 100%，下游 RGB-only 性能单调上升，且生成的隐式表示与真实模态特征的 L2 距离单调下降——验证了大规模合成多模态预训练确实学到了更准的跨模态对应。
模态缺失掉点极小：从全模态 R+E+I 到 RGB-only，SDE-Indoor PSNR 仅从 23.25 掉到 23.04（~0.21 dB），远好于现有多模态方法在缺失模态下的崩塌。

亮点与洞察¶

把"补缺失模态"从显式生成换成隐式翻译：这是最巧妙的一步——既保留了多模态信息的好处，又规避了推理时跑生成模型的延迟，等于在精度和实用性之间找到了真正可部署的点。
频谱分析当作"细节筛选器"：低光下不去贪心恢复所有细节，而是承认细节稀少、只优先保留幸存的可信高频，FBS+IADS 的双门控把这个直觉落地，思路可迁移到任何"输入退化、需从噪声里挑信号"的恢复任务。
合成数据只用于训练侧的清醒认知：作者明确指出推理时调生成模型不实用，所以合成只扩训练规模、把跨模态对应学成先验——这种"训练慷慨、推理克制"的设计哲学值得借鉴。

局限与展望¶

隐式表示的质量依赖合成多模态数据的质量（v2e、ThermalGen），合成与真实分布的差距会传导到下游；论文用 L2 距离衡量但未深究极端场景下的失败模式。
在 SDSD 上相对前 SOTA 的 PSNR 提升较小（0.05–0.10 dB），主要增益集中在 DID 和零样本设置，方法优势在不同数据集上并不均匀。
给红外的提升来自合成红外（非真实红外）输入，真实红外缺失时的上界尚未在真红外测试集充分验证。
可改进方向：把"幸存高频"的选择从启发式门控升级为可学习的不确定性建模，或引入对生成隐式表示的置信度估计来动态决定融合权重。

评分¶

新颖性: ⭐⭐⭐⭐ 把缺失模态补全从显式生成转为隐式翻译 + 频谱门控筛细节，角度新颖且实用。
实验充分度: ⭐⭐⭐⭐ 三个真实数据集、多模态/RGB-only/零样本/消融齐全；但部分数据集提升较小、真红外验证不足。
写作质量: ⭐⭐⭐⭐ 动机与方法链路清晰，公式完整，图表配套。
价值: ⭐⭐⭐⭐ 直击多模态方法的部署痛点，对自动驾驶/监控等低光真实场景有实际意义。