DeAltHDR: Learning HDR Video Reconstruction from Degraded Alternating Exposure Sequences¶
会议: ICLR2026
OpenReview: https://openreview.net/forum?id=buzIPnGxA8
代码: https://zhang-shuohao.github.io/DeAltHDR/ (有)
领域: 图像/视频复原 · HDR 视频重建
关键词: HDR 视频重建, 交替曝光, 光流引导掩码注意力, 自监督适配, 退化建模
一句话总结¶
DeAltHDR 首次正面处理「交替曝光 LDR 帧本身就带噪声和运动模糊」这一被忽视的现实问题,用一个光流引导的掩码注意力(FGMA)只在光流不可靠的遮挡区域才做跨帧注意力对齐、其余区域沿用廉价的光流 warp,从而在效率和质量间取得可调权衡;再配一套面向视频大运动改进的自监督适配方法,在合成与真实数据集上都超过了现有 SOTA。
研究背景与动机¶
领域现状:HDR 视频重建的主流路线是从交替短/长曝光的 LDR 序列出发,把相邻不同曝光帧对齐、融合,补出每帧缺失的动态范围。代表方法如 Chen et al.、LAN-HDR、NECHDR、HDRFlow 都在解决两件事——补偿相邻帧之间的亮度差异、以及消除因运动错位带来的 ghosting 鬼影。
现有痛点:这些方法几乎都默认输入 LDR 帧是干净的(无噪声、无模糊),把全部精力放在亮度对齐和去鬼影上。但交替曝光策略天生会引入退化:短曝光帧(尤其暗光下)噪声很重,长曝光帧则容易因相机抖动或物体运动而运动模糊。这个「假设干净、现实很脏」的鸿沟,让现有方法在真实场景里直接失效。
核心矛盾:退化让「对齐」这个本就困难的步骤雪上加霜。光流和可变形卷积在噪声/模糊下估不准;纯注意力对齐质量好但计算量和耗时都大得离谱,且计算成本固定、不能按预算调节。换句话说,对齐质量与计算开销之间存在硬 trade-off,而退化把这个 trade-off 推到了更糟的位置。另一方面,真实世界的成对训练数据稀缺,纯合成数据训练的模型一上真实场景就性能崩塌。
本文目标:(1) 在带噪声、带模糊的退化交替曝光序列上做高质量 HDR 视频重建;(2) 让对齐既准又省,并且推理开销可按算力预算动态调节;(3) 解决真实数据稀缺、合成到真实的域间隙问题。
切入角度:作者观察到——光流在大部分非遮挡区域其实够用且廉价,真正出问题的只是少数遮挡/不可靠区域。既然如此,没必要对整帧做昂贵的稠密注意力,只在「光流靠不住」的那一小撮像素上补注意力即可。最近的 BracketIRE 虽然考虑了退化,但它是为 HDR 图像而非视频设计的,直接搬到视频上效果次优。
核心 idea:用「光流打底 + 仅在不可靠区域补稀疏注意力」替代「整帧稠密注意力」来对齐退化帧,并让注意力占比成为一个可连续调节的旋钮;再把图像版的自监督微调改造成能吃下视频大运动的版本。
方法详解¶
整体框架¶
DeAltHDR 建立在多尺度编码器-解码器架构 Turtle 之上:处理第 \(t\) 帧时,借助前后共 4 个邻帧辅助重建。输入端先做亮度归一化预处理——用逆 gamma 校正把 LDR 线性化,再把所有长曝光帧按曝光比 \(\Delta e_{2i}/\Delta e_{2i-1}\) 缩放到与短曝光对齐的亮度,最后把线性帧和它的 gamma 变换版本拼接 \(\{L_t^c\}=\{\hat L'_t,(\hat L'_t)^\gamma\}\)(\(\gamma=1/2.2\))一起喂进网络。
网络用两个结构相同但参数独立的编码器,分别处理短曝光与长曝光帧,提取多尺度特征 \(\{F_t^i\}_{i=1,2,3}\)。每个尺度的解码块里,原 Turtle 的对齐模块被替换成本文的光流引导掩码注意力对齐(FGMA):它吃当前帧特征 \(F_t^{in}\) 和邻帧特征 \(F_{t-1}^i\),输出对齐后的邻帧特征 \(F_{t-1\to t}^{out}\);对 4 个邻帧各算一次再拼接。最后由 Turtle 原有的 frame history router 做动态路由融合,按相关性自适应加权这些运动补偿后的邻帧特征。训练上采用两阶段范式:先在自建合成成对数据集上预训练,再用本文的运动增强自监督方法在无标注真实视频上微调。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["退化交替曝光<br/>LDR 序列"] --> B["亮度归一化<br/>逆 gamma + 长曝光缩放"]
B --> C["双编码器特征提取<br/>短/长曝光参数独立"]
C --> D["光流引导掩码注意力对齐<br/>FGMA:光流打底 + 遮挡区补注意力"]
D --> E["frame history router<br/>动态路由融合邻帧"]
E --> F["HDR 帧重建"]
F -->|真实视频无标注| G["运动增强自监督适配<br/>扩大采样范围 + EMA 稳定"]
G -.微调.-> D
关键设计¶
1. 光流引导掩码注意力对齐(FGMA):只在光流靠不住的地方才补注意力
这是全文核心,针对「退化帧对齐难、纯注意力又太贵」的痛点。FGMA 的关键是先用前后向一致性检验把「不可靠区域」找出来,再把昂贵的注意力局限到这些区域。具体地,用轻量预训练光流网 SpyNet 算双向光流 \(O_{t-1\to t}\) 和 \(O_{t\to t-1}\);把 \(L_t\) warp 到 \(t-1\) 再 warp 回来得到 \(L_{t\to t-1\to t}\),二者绝对差 \(D_{t-1\to t}(i,j)=|L_{t\to t-1\to t}(i,j)-L_t(i,j)|\) 直接度量了双向 warp 的不一致性,也就是遮挡程度。引入敏感度因子 \(s\) 得到二值遮挡掩码:
对掩码标出的遮挡区,用注意力做对齐细化:query 由当前帧特征与掩码逐元素相乘得到 \(Q=\mathrm{Proj}_q(F_t^{in}\odot M)\),key/value 来自邻帧特征。最终把光流 warp 的特征 \(F^{flow}_{t-1\to t}=\mathrm{Warp}(F_{t-1}^i,O_{t\to t-1})\)、掩码 \(M\)、注意力细化结果 \(F^{att}_{t-1\to t}\) 三者拼接作为输出。
它有效的关键在于「稀疏 + 定向」:绝大多数像素走廉价光流,只有少数遮挡像素走注意力,于是在质量和算力间取得远好于纯注意力的平衡。和 MIA-VSR 那种「按相邻帧差异算掩码」不同,HDR 场景里相邻 LDR 帧的曝光和退化差异本来就巨大,直接用帧差当掩码会失效,所以这里用的是双向光流一致性而非帧差。
2. 可调注意力占比:一个旋钮换取推理成本自适应
针对「现有方法计算成本固定、无法按算力预算伸缩」的痛点。由于掩码里非零像素的比例由 \(s\) 控制,调 \(s\) 就能让模型从「纯光流主导」连续滑向「注意力主导」:作者设了 \(s=0\)(纯光流)、\(s=15\)(光流与注意力平衡)、\(s=100\)(注意力主导)、\(s=\infty\)(纯注意力)四个关键边界,外加 16 个采样点,于是测试时可在一条性能-成本曲线上任取一点——左下角最省但质量次优,右上角 PSNR 最高但开销最大。这让同一个模型无需重训就能部署到不同算力的设备上,是 FGMA 稀疏结构天然带来的红利。
3. 双编码器参数独立:让短/长曝光各自专精不同退化
短曝光帧噪声重、长曝光帧模糊重,两类输入的退化性质根本不同。本文为短、长曝光各配一个结构相同但参数完全独立的编码器,让它们分别专精提取各自退化下的特征。消融显示三个尺度全部参数独立时效果最好(PSNR 32.55),逐级共享参数会单调掉点(全共享只剩 31.96),印证了「用共享参数处理性质迥异的输入是次优的」这一判断。
4. 运动增强自监督适配:把图像版自监督改造成吃得下视频大运动
针对「真实成对数据稀缺、合成到真实有域间隙」的痛点。BracketIRE 的图像版自监督微调直接用到视频上只有微小增益,因为它采样的训练帧严格局限在输入子集内,覆盖不了视频里多样的运动幅度。本文的做法是:输入 5 个连续帧 \(\{L_i^c\}_{i=t-2}^{t+2}\) 得到较好的输出 \(\hat H_t\) 当作伪标签;再构造一个 3 帧子集(恒含当前帧 + 随机选一个长曝光邻帧 + 随机选一个短曝光邻帧)得到 \(\tilde H_t\),用时序损失 \(L_{time}=\|T(\tilde H_t)-T(sg(\hat H_t))\|_1\) 拉近二者(\(T\) 为 \(\mu=5000\) 的 tone-mapping,\(sg\) 为 stop-gradient)。这种随机采样引入帧间运动多样性,提升时序一致性;再叠加一个 EMA 正则损失 \(L_{ema}\) 稳定训练,总损失 \(L_{total}=L_{time}+\beta L_{ema}\)。论文正文进一步把采样范围从 \(t\pm2\)(5 帧)扩到 \(t\pm6\)(13 帧)以覆盖更大运动,并从中各随机取一短一长曝光帧维持稀疏帧的动态范围。
损失函数 / 训练策略¶
预训练阶段用 \(\ell_1\) 损失加 VGG 感知损失:\(L_{total}=L_1+\lambda_{vgg}L_{vgg}\),二者都在 \(\mu\)-law tone-mapped 域计算,\(\lambda_{vgg}=0.5\)。训练时混合三种对齐分支——30% batch 用纯光流、30% 用纯注意力、40% 用 FGMA(掩码大小由随机 \(s\) 决定),这样模型同时学会三种模式,测试时才能自由调 \(s\)。优化器 AdamW(\(\beta_1=0.9,\beta_2=0.999\)),合成集训练 250 epoch(初始 lr \(4\text{e}{-4}\))、真实集微调 20 epoch(初始 lr \(1\text{e}{-6}\)),余弦退火降到 \(1\text{e}{-7}\),patch 192×192,batch 8,单卡 RTX A6000。
实验关键数据¶
主实验¶
合成数据集用 PSNR/SSIM/LPIPS/HDR-VDP-2(全参考),真实数据集用 CLIP-IQA/MANIQA(无参考)。
| 数据集 | 指标 | DeAltHDR | 之前 SOTA(HDRFlow) | 提升 |
|---|---|---|---|---|
| 合成 | PSNR↑ | 32.55 | 32.26 | +0.29 |
| 合成 | SSIM↑ | 0.9644 | 0.9629 | +0.0015 |
| 合成 | LPIPS↓ | 0.192 | 0.196 | -0.004 |
| 合成 | HDR-VDP-2↑ | 77.02 | 76.56 | +0.46 |
| 真实(w/o 适配) | CLIPIQA↑ | 0.2621 | 0.2601 | +0.0020 |
| 真实(w/ 适配) | CLIPIQA↑ | 0.2679 | 0.2601 | +0.0078 |
| 真实(w/ 适配) | MANIQA↑ | 0.2774 | 0.2694 | +0.0080 |
时序一致性上(Table 2),DeAltHDR 的 TWE/tLP/tOF 全面优于 HDRFlow 和 NECHDR(tOF 3.21 vs 4.02 vs 4.36),说明重建视频更平滑、闪烁更少。计算成本上(Table 3),\(s=15\) 时 FLOPs 128G、耗时 152ms,与最快的 HDRFlow(116G/128ms)相当,而显著快于 SCTNet(338G/356ms)、BracketIRE(382G/387ms)等。
消融实验¶
| 配置 | PSNR↑ | FLOPs(G) | 说明 |
|---|---|---|---|
| Flow-Guided Defor. Conv. | 32.42 | 102 | 替换对齐模块 |
| Guided Defor. Attention | 32.46 | 202 | 替换为 RVRT 注意力 |
| Patch Alignment | 32.41 | 178 | 替换为 PSRT |
| DeAltHDR (s=0, 纯光流) | 32.42 | 84 | 最省但次优 |
| DeAltHDR (s=15) | 32.55 | 128 | 平衡点 |
| DeAltHDR (s=∞, 纯注意力) | 32.65 | 169 | 质量上限 |
| 双编码器共享策略 | PSNR↑ | LPIPS↓ |
|---|---|---|
| 三级全独立 | 32.55 | 0.192 |
| 仅 level3 共享 | 32.40 | 0.195 |
| level2,3 共享 | 32.18 | 0.204 |
| 三级全共享 | 31.96 | 0.211 |
自监督适配(Table 6):本文方法 CLIPIQA 0.2679 / MANIQA 0.2774,优于 TMRNet(0.2648/0.2732)和无适配基线(0.2621/0.2734)。
关键发现¶
- FGMA 同时拿到更高 PSNR 和更低 FLOPs:\(s=15\) 时 128G FLOPs 就拿到 32.55,比可变形注意力(202G/32.46)又快又好,证明「定向稀疏注意力」确实比稠密对齐更划算。
- 调 \(s\) 形成一条平滑的性能-成本曲线:从 \(s=0\)(84G/32.42)到 \(s=\infty\)(169G/32.65),同一模型免重训即可在算力和质量间取舍。
- 双编码器参数独立单调有效:从全共享 31.96 一路涨到全独立 32.55,证实短/长曝光退化性质不同、应各自专精。
- 即使只在合成数据上训练,DeAltHDR 直接上真实数据也已超过现有方法,说明模型设计本身泛化性强;自监督适配再叠加一层提升。
亮点与洞察¶
- 「光流打底、注意力补漏」的混合对齐思路很可迁移:核心洞察是「不是所有像素都需要昂贵对齐,只有光流不可靠的遮挡区才需要」,用双向一致性检验定位这些区域。这套思路可直接搬到视频超分、视频去模糊等任何依赖跨帧对齐的任务。
- 把「计算预算」做成一个连续旋钮 \(s\):通过训练时混合三种对齐分支,让单个模型在测试时沿性能-成本曲线自由滑动,无需为不同设备重训多个模型——这是 FGMA 稀疏结构的免费红利,工程价值很高。
- 退化建模 + 自监督适配的组合拳:正面承认「交替曝光帧本就带噪带糊」这个被全领域忽视的事实,并用合成预训练 + 真实自监督的两阶段把域间隙补上,是把方法推向真实落地的关键。
局限与展望¶
- 真实数据集仍依赖 iPhone「人为轻微抖动」来制造运动模糊,受控采集与野外真实退化分布可能仍有差距。
- 自监督适配把伪标签 \(\hat H_t\) 当监督信号,质量受限于预训练模型本身——若预训练模型在某些极端场景就错,自监督会放大这种偏差。
- 可调 \(s\) 虽灵活,但论文未深入分析在线如何根据内容自动选 \(s\)(目前是预设采样点),自动化按场景选择注意力占比是值得延伸的方向。
- 方法绑定在 Turtle 架构和三档曝光设置上,对其他曝光模式(如双曝光、多于三档)的泛化性未充分验证。
相关工作与启发¶
- vs BracketIRE:BracketIRE 首次考虑退化但只面向 HDR 图像,自监督微调采样帧严格限定输入子集;DeAltHDR 把场景扩到视频,并用运动增强采样(扩大范围、随机选长短曝光帧)解决视频大运动问题,直接搬图像版到视频只有微弱增益。
- vs HDRFlow:HDRFlow 是平衡性能/效率的代表性 SOTA,用高效光流估计做实时重建,但默认输入干净、计算成本固定;DeAltHDR 在相近耗时下质量更高,且支持推理成本动态可调。
- vs MIA-VSR:同样用稀疏注意力 + 掩码,但 MIA-VSR 的掩码来自相邻帧差异,在曝光和退化差异巨大的 HDR 交替曝光场景里不适用;本文改用双向光流一致性来定位不可靠区域。
- vs LAN-HDR / NECHDR:前者用亮度引导的稀疏注意力对齐、后者靠时间维插值补缺失曝光,二者都未处理噪声与模糊退化,真实场景下产生伪影。
评分¶
- 新颖性: ⭐⭐⭐⭐ 「光流不可靠区域才补注意力 + 注意力占比可调」是简洁而有效的新机制,正面填补退化 HDR 视频这一空白。
- 实验充分度: ⭐⭐⭐⭐ 合成/真实双数据集、全/无参考多指标、时序一致性、计算成本、三组消融齐全;自建数据集扎实。
- 写作质量: ⭐⭐⭐⭐ 动机清晰、公式完整、图表配合到位,FGMA 的双向一致性检验讲得明白。
- 价值: ⭐⭐⭐⭐ 把 HDR 视频重建推向真实退化场景且推理成本可调,工程落地价值高,思路可迁移到其他视频复原任务。