跳转至

VT-Intrinsic: Physics-Based Decomposition of Reflectance and Shading using a Single Visible-Thermal Image Pair

会议: CVPR 2026
arXiv: 2509.10388
代码: https://vt-intrinsic.github.io
领域: 自监督
关键词: 内在图像分解, 可见光-热成像, 反射率估计, 光照分解, 序数约束

一句话总结

VT-Intrinsic 利用可见光和热红外图像之间的物理互补关系(未反射的光被吸收变为热量),推导出可见光-热成像强度的序数关系(ordinality)直接对应反射率和光照的序数关系,以此为自监督信号驱动神经网络优化,实现了无需预训练数据的高质量内在图像分解。

研究背景与动机

  1. 领域现状:内在图像分解(IID)旨在将图像分解为反射率(albedo)和光照(shading)两个分量。这是计算机视觉和图形学的经典问题。主流方法分为:基于优化的方法(Retinex 等,依赖强先验假设)和基于学习的方法(在合成数据上训练,存在 sim-to-real gap)。

  2. 现有痛点

    • 获取真实场景的反射率和光照 ground truth 极其困难,需要专用设备和受控程序
    • 基于学习的方法受限于合成训练数据,在真实场景中常过度平滑或产生幻觉(diffusion-based 方法尤其严重)
    • 优化方法依赖强先验假设(平滑光照、色度不变等),对复杂真实场景泛化差
    • 使用 NIR 辅助图像的方法受限于 NIR 反射率仍有显著材料变化,且 LED 照明缺少 NIR 成分
  3. 核心矛盾:IID 本身是欠约束的逆问题——仅凭单张可见光图像无法唯一确定 albedo 和 shading 的分解。现有方法要么使用不够可靠的先验,要么需要大量标注数据。

  4. 本文目标 利用一张额外的热红外图像提供物理上有意义的约束,无需预训练数据或受控照明即可实现高质量 IID。

  5. 切入角度:一个关键物理洞察——对于不透明物体,入射光中未被反射的部分被吸收为热量。因此低反射率区域在可见光中较暗,但在热图中较亮(吸收更多热量);而光照变化在两者中同向变化。这种"序数关系"可以直接区分反射率边缘和光照边缘。

  6. 核心 idea:利用可见光和热红外图像的强度序数关系(同向=光照主导,反向=反射率主导)作为密集自监督信号来分解反射率和光照。

方法详解

整体框架

这篇论文想解决的是内在图像分解这个经典的欠约束逆问题:单张可见光图本身无法唯一地拆出反射率和光照。它的破局点是再拍一张对齐的热红外图——未被反射的光会被吸收成热量,于是同一个像素在可见光和热图里的强弱关系,本身就编码了"这里是反射率在变还是光照在变"。整条 pipeline 由此展开:先从物理上把这层互补关系推导成一组序数约束(局部的边缘约束 + 非局部的点对约束),再把这些约束和重建损失一起,去优化一个 Double Deep Image Prior(DDIP)网络,最终吐出 3 通道 albedo \(\hat{\rho}\) 和单通道 shading \(\hat{\eta}\)。全程不碰任何预训练权重或外部数据,只靠这一对图像自监督。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["对齐的可见光-热图对 (I_v, I_t)"] --> THEORY
    subgraph THEORY["可见光-热成像序数理论 + 对宽带光源的扩展"]
        direction TB
        T1["物理互补:未反射的光被吸收为热<br/>I_v=gρη,吸收热量 H=(β−ρ)η"]
        T2["同向变化→光照主导<br/>反向变化→反射率主导"]
        T1 --> T2
    end
    A --> REC["重建损失<br/>ρ̂·η̂ 还原回 I_v"]
    THEORY --> EDGE["局部(边缘)损失<br/>比较 ∇I_v 与 ∇I_t 方向分边缘类型"]
    THEORY --> PAIR["非局部(点对)损失<br/>Poisson 盘采样点对,4 类 hinge loss"]
    EDGE --> DDIP
    PAIR --> DDIP
    REC --> DDIP
    DDIP["Double Deep Image Prior 正则化<br/>两个编码器-解码器参数化 albedo / shading"]
    DDIP --> OUT["输出:3 通道 albedo ρ̂ + 单通道 shading η̂"]

关键设计

1. 可见光-热成像序数理论:把不可观测的反射率/光照排序,翻译成可直接测量的可见光/热强度排序

IID 难就难在 albedo 和 shading 谁大谁小根本无法直接观测,所以分解才会欠约束。本文的核心一招是引入第二个可测量通道:在 Lambertian 场景下可见光强度 \(I_v = g\rho\eta\),而被吸收的热量 \(\mathcal{H} = (1-\rho)\eta\)。关键的过渡是,在热平衡条件下忽略导热项后,热图 \(I_t\) 是吸收热量的单调代理,即 \(\mathcal{H} = c_1 I_t - c_3\),于是 \(I_t\) 也变得可测。把这两条放到任意两个像素 \(x_i, x_j\) 上比较就得到一个干净的判别规则:当 \(I_v\)\(I_t\) 同向变化(都更亮),说明是光照在主导,\(\eta(x_i) > \eta(x_j)\);当两者反向(可见光更亮但热图更暗,意味着这里反射多、吸热少),则是反射率在主导,\(\rho(x_i) > \rho(x_j)\)。这一步把原本看不见的 albedo/shading 序数,等价成了从两张图就能读出来的可见光/热红外序数——后面所有约束都建立在它之上。

2. 对宽带光源的扩展:让理论在日光、白炽灯这类含红外成分的真实光源下仍然站得住

上面的推导默认光源是纯可见光,但真实场景里的日光、白炽灯都带红外成分,会污染热信号。本文把热源项改写成 \(\mathcal{H} = (\beta - \rho_v)\eta\),其中 \(\beta = 1 + (1-\rho_i)l_i/l_v\) 吸收了红外照明的影响。能让序数关系继续成立的关键假设是:红外波段反射率 \(\rho_i\) 在局部区域近似恒定——因为红外反射率的材料间差异本就远小于可见光,所以 \(\beta\) 可当作局部常数,同向/反向的判别规则不受影响。这个假设不是拍脑袋:作者拿 USGS 光谱反射率数据库里 427 种材料做统计,94.2% 的材料对都满足序数一致性,给了它一个经验底座。

3. 局部(边缘)损失:用两张图的梯度方向把边缘分成反射率边和光照边,再各自压住不该变的量

边缘是 albedo/shading 分界最直观的信号,所以第一类约束直接落在边缘上。做法是比较 \(\nabla I_v\)\(\nabla I_t\) 的余弦相似度:梯度反向(余弦 \(< -\epsilon_p\))判为 albedo 边缘,同向(\(> \epsilon_p\))判为 shading 边缘。判完之后反着约束——在 albedo 边缘上光照本不该突变,就惩罚 \(\|\nabla\hat{\eta}\|^2\);在 shading 边缘上反射率不该突变,就惩罚 \(\|\nabla\bar{\rho}\|^2\)。比较的是方向而非绝对值,所以对光照强度、相机增益这些缩放因素天然鲁棒。

4. 非局部(点对)损失:补上边缘覆盖不到的长程排序,把绝对值也钉住

只有边缘约束是局部的,只能管相邻像素的相对变化,定不下全局的绝对水平。第四个设计用跨图像的点对来补这个洞:通过 Poisson 盘采样生成随机点对 \((x_i, x_j)\),按归一化强度差 \(\delta I_v\)\(\delta I_t\) 的符号把点对分成 4 类(\(S_+, S_-, A_+, A_-\)),再用 hinge loss 把预测的 albedo/shading 拉到对应的序数关系上。比如一个点对落在 \(S_+\)(两者差都为正 → 光照主导),就惩罚 \(\max(\hat{\eta}_j - \hat{\eta}_i + \varepsilon_m, 0)\),逼着网络给出 \(\hat{\eta}_i\)\(\hat{\eta}_j\) 大且留出间隔 \(\varepsilon_m\)。这些长程点对提供了边缘约束给不出的全局排序信息,让序数约束覆盖到整张图。

5. Double Deep Image Prior 正则化:序数只管相对顺序,绝对值和结构靠网络先验兜底

序数约束的软肋是它只规定谁大谁小,没法完全锁定绝对值,光靠它优化会过拟合噪声。本文用两个随机初始化的编码器-解码器网络分别参数化 albedo 和 shading,借 Deep Image Prior 的隐式正则——网络架构天然先拟合低频、后拟合高频——给解空间一个结构先验,把序数约束留下的自由度收住。再加两个硬约束兜底:albedo 输出过 sigmoid 限制在 \([0,1]\),shading 加非负性惩罚。这样物理序数负责"方向对不对",DIP 负责"形状平不平滑",两者互补。

损失函数

总损失 \(\mathcal{L} = \|\hat{\rho} \cdot \hat{\eta} - I_v\|_2 + \lambda_1 \mathcal{L}_{edge} + \lambda_2 \mathcal{L}_{ord}\),第一项是重建损失(要求 albedo×shading 还原回可见光图),后两项分别是边缘约束和点对序数约束。值得注意的是热图全程只用来生成边缘和点对损失的标签,不参与重建——它是约束的来源,而非被拟合的目标。

实验关键数据

主实验(si-MSE × \(10^{-2}\),↓ 越低越好)

方法 类别 涂色面具 Albedo 色卡 Albedo 白LED Albedo 白炽灯 Albedo 日光 Albedo
RGB-Retinex 优化 25 3.4 2.42 2.33 2.73
Intrinsic-v2 学习 27 2.8 1.25 4.36 4.17
CRefNet 学习 38 8.8 1.79 2.29 1.98
JoLHT-Video 物理 8.4 2.0 N/A
VT-Intrinsic 物理 11 2.7 0.37 1.06 1.19

序数验证实验

验证场景 准确率
20 种材料贴片 + 日光 98.59%(albedo 99.37%,shading 97.01%)
20 种材料贴片 + 白 LED 96.82%(albedo 94.62%,shading 100%)
100 个真实场景 1063 标注点对 98.95%(albedo 96.96%,shading 99.62%)
USGS 427 种材料光谱统计 94.2% 的材料对满足序数一致性

关键发现

  • VT-Intrinsic 在所有照明条件下均超越所有学习方法,且无需任何预训练数据
  • 与 JoLHT-Video(需要热视频 + 受控照明 + 标定)性能接近,但仅需单张热图
  • 专家标注验证序数准确率超过 98%,证明理论在实际材料和场景中高度可靠
  • 学习方法容易过度平滑 albedo/shading(如草地光照被平坦化),diffusion 方法会产生幻觉纹理
  • 白炽灯和日光实验证明了对含红外光源的鲁棒性

亮点与洞察

  • 物理互补性的巧妙利用:可见光捕获反射光,热成像捕获吸收热量——这对"互为补充"的信号天然编码了 albedo 和 shading 的区分信息,这一洞察极其优雅
  • 从热传导方程到序数代理的推导链:从能量守恒 → 热传输方程 → 热平衡 → 热图是吸收量的单调代理——整个理论推导环环相扣,物理直觉清晰
  • 零样本超越预训练模型:仅靠单对图像的物理约束就超越了在大规模数据上训练的学习方法,说明正确的物理归纳偏置可以胜过统计学习

局限与展望

  • 假设 Lambertian 反射,金属、透明物体和镜面会导致失败
  • 假设热量主要来自光吸收——发动机、人体等非光源热源会干扰
  • 不支持多色照明
  • 依赖廉价微测辐射计热相机,在弱照明或动态场景下 SNR 不足
  • 热相机分辨率低于可见光相机,可能影响细节恢复
  • 可扩展方向:(1) 利用 VT-Intrinsic 的高质量伪 GT 为大规模学习方法提供训练数据;(2) 将序数理论扩展到多光谱成像

相关工作与启发

  • vs JoLHT-Video: JoLHT-Video 使用热视频的瞬态过程直接估计吸收光强度,需要受控照明和热视频;VT-Intrinsic 仅用稳态热图的序数关系,适用范围大大扩展
  • vs NIR-Priors: NIR 方法假设 NIR 反射率变化小将其作为 shading 代理,但 NIR 反射率仍有显著材料变化且 LED 不发 NIR;VT-Intrinsic 利用热吸收的互补关系更本质
  • vs Intrinsic-v2: 最新学习方法虽然在某些 indoor 场景表现不错,但在白炽灯/日光下反而变差(si-MSE 4.17-4.36),说明学习的先验对照明变化不够鲁棒

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次利用热红外序数约束做 IID,物理理论原创且优雅
  • 实验充分度: ⭐⭐⭐⭐ 多照明条件、多材料、多场景验证,序数理论验证充分,但缺少大规模定量评估
  • 写作质量: ⭐⭐⭐⭐⭐ 物理推导清晰严谨,Roger Shepard 错觉示例极其直观
  • 价值: ⭐⭐⭐⭐⭐ 开辟了光-热互补性在视觉中的新范式,可为学习方法提供大规模实世界标注