VT-Intrinsic: Physics-Based Decomposition of Reflectance and Shading using a Single Visible-Thermal Image Pair¶

会议: CVPR 2026
arXiv: 2509.10388
代码: https://vt-intrinsic.github.io
领域: 自监督
关键词: 内在图像分解, 可见光-热成像, 反射率估计, 光照分解, 序数约束

一句话总结¶

VT-Intrinsic 利用可见光和热红外图像之间的物理互补关系（未反射的光被吸收变为热量），推导出可见光-热成像强度的序数关系（ordinality）直接对应反射率和光照的序数关系，以此为自监督信号驱动神经网络优化，实现了无需预训练数据的高质量内在图像分解。

研究背景与动机¶

领域现状：内在图像分解（IID）旨在将图像分解为反射率（albedo）和光照（shading）两个分量。这是计算机视觉和图形学的经典问题。主流方法分为：基于优化的方法（Retinex 等，依赖强先验假设）和基于学习的方法（在合成数据上训练，存在 sim-to-real gap）。
现有痛点：
- 获取真实场景的反射率和光照 ground truth 极其困难，需要专用设备和受控程序
- 基于学习的方法受限于合成训练数据，在真实场景中常过度平滑或产生幻觉（diffusion-based 方法尤其严重）
- 优化方法依赖强先验假设（平滑光照、色度不变等），对复杂真实场景泛化差
- 使用 NIR 辅助图像的方法受限于 NIR 反射率仍有显著材料变化，且 LED 照明缺少 NIR 成分
核心矛盾：IID 本身是欠约束的逆问题——仅凭单张可见光图像无法唯一确定 albedo 和 shading 的分解。现有方法要么使用不够可靠的先验，要么需要大量标注数据。
本文目标 利用一张额外的热红外图像提供物理上有意义的约束，无需预训练数据或受控照明即可实现高质量 IID。
切入角度：一个关键物理洞察——对于不透明物体，入射光中未被反射的部分被吸收为热量。因此低反射率区域在可见光中较暗，但在热图中较亮（吸收更多热量）；而光照变化在两者中同向变化。这种"序数关系"可以直接区分反射率边缘和光照边缘。
核心 idea：利用可见光和热红外图像的强度序数关系（同向=光照主导，反向=反射率主导）作为密集自监督信号来分解反射率和光照。

方法详解¶

整体框架¶

这篇论文想解决的是内在图像分解这个经典的欠约束逆问题：单张可见光图本身无法唯一地拆出反射率和光照。它的破局点是再拍一张对齐的热红外图——未被反射的光会被吸收成热量，于是同一个像素在可见光和热图里的强弱关系，本身就编码了"这里是反射率在变还是光照在变"。整条 pipeline 由此展开：先从物理上把这层互补关系推导成一组序数约束（局部的边缘约束 + 非局部的点对约束），再把这些约束和重建损失一起，去优化一个 Double Deep Image Prior（DDIP）网络，最终吐出 3 通道 albedo \(\hat{\rho}\) 和单通道 shading \(\hat{\eta}\)。全程不碰任何预训练权重或外部数据，只靠这一对图像自监督。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["对齐的可见光-热图对 (I_v, I_t)"] --> THEORY
    subgraph THEORY["可见光-热成像序数理论 + 对宽带光源的扩展"]
        direction TB
        T1["物理互补：未反射的光被吸收为热<br/>I_v=gρη，吸收热量 H=(β−ρ)η"]
        T2["同向变化→光照主导<br/>反向变化→反射率主导"]
        T1 --> T2
    end
    A --> REC["重建损失<br/>ρ̂·η̂ 还原回 I_v"]
    THEORY --> EDGE["局部（边缘）损失<br/>比较 ∇I_v 与 ∇I_t 方向分边缘类型"]
    THEORY --> PAIR["非局部（点对）损失<br/>Poisson 盘采样点对，4 类 hinge loss"]
    EDGE --> DDIP
    PAIR --> DDIP
    REC --> DDIP
    DDIP["Double Deep Image Prior 正则化<br/>两个编码器-解码器参数化 albedo / shading"]
    DDIP --> OUT["输出：3 通道 albedo ρ̂ + 单通道 shading η̂"]

关键设计¶

1. 可见光-热成像序数理论：把不可观测的反射率/光照排序，翻译成可直接测量的可见光/热强度排序

IID 难就难在 albedo 和 shading 谁大谁小根本无法直接观测，所以分解才会欠约束。本文的核心一招是引入第二个可测量通道：在 Lambertian 场景下可见光强度 \(I_v = g\rho\eta\)，而被吸收的热量 \(\mathcal{H} = (1-\rho)\eta\)。关键的过渡是，在热平衡条件下忽略导热项后，热图 \(I_t\) 是吸收热量的单调代理，即 \(\mathcal{H} = c_1 I_t - c_3\)，于是 \(I_t\) 也变得可测。把这两条放到任意两个像素 \(x_i, x_j\) 上比较就得到一个干净的判别规则：当 \(I_v\) 和 \(I_t\) 同向变化（都更亮），说明是光照在主导，\(\eta(x_i) > \eta(x_j)\)；当两者反向（可见光更亮但热图更暗，意味着这里反射多、吸热少），则是反射率在主导，\(\rho(x_i) > \rho(x_j)\)。这一步把原本看不见的 albedo/shading 序数，等价成了从两张图就能读出来的可见光/热红外序数——后面所有约束都建立在它之上。

2. 对宽带光源的扩展：让理论在日光、白炽灯这类含红外成分的真实光源下仍然站得住

上面的推导默认光源是纯可见光，但真实场景里的日光、白炽灯都带红外成分，会污染热信号。本文把热源项改写成 \(\mathcal{H} = (\beta - \rho_v)\eta\)，其中 \(\beta = 1 + (1-\rho_i)l_i/l_v\) 吸收了红外照明的影响。能让序数关系继续成立的关键假设是：红外波段反射率 \(\rho_i\) 在局部区域近似恒定——因为红外反射率的材料间差异本就远小于可见光，所以 \(\beta\) 可当作局部常数，同向/反向的判别规则不受影响。这个假设不是拍脑袋：作者拿 USGS 光谱反射率数据库里 427 种材料做统计，94.2% 的材料对都满足序数一致性，给了它一个经验底座。

3. 局部（边缘）损失：用两张图的梯度方向把边缘分成反射率边和光照边，再各自压住不该变的量

边缘是 albedo/shading 分界最直观的信号，所以第一类约束直接落在边缘上。做法是比较 \(\nabla I_v\) 和 \(\nabla I_t\) 的余弦相似度：梯度反向（余弦 \(< -\epsilon_p\)）判为 albedo 边缘，同向（\(> \epsilon_p\)）判为 shading 边缘。判完之后反着约束——在 albedo 边缘上光照本不该突变，就惩罚 \(\|\nabla\hat{\eta}\|^2\)；在 shading 边缘上反射率不该突变，就惩罚 \(\|\nabla\bar{\rho}\|^2\)。比较的是方向而非绝对值，所以对光照强度、相机增益这些缩放因素天然鲁棒。

4. 非局部（点对）损失：补上边缘覆盖不到的长程排序，把绝对值也钉住

只有边缘约束是局部的，只能管相邻像素的相对变化，定不下全局的绝对水平。第四个设计用跨图像的点对来补这个洞：通过 Poisson 盘采样生成随机点对 \((x_i, x_j)\)，按归一化强度差 \(\delta I_v\)、\(\delta I_t\) 的符号把点对分成 4 类（\(S_+, S_-, A_+, A_-\)），再用 hinge loss 把预测的 albedo/shading 拉到对应的序数关系上。比如一个点对落在 \(S_+\)（两者差都为正 → 光照主导），就惩罚 \(\max(\hat{\eta}_j - \hat{\eta}_i + \varepsilon_m, 0)\)，逼着网络给出 \(\hat{\eta}_i\) 比 \(\hat{\eta}_j\) 大且留出间隔 \(\varepsilon_m\)。这些长程点对提供了边缘约束给不出的全局排序信息，让序数约束覆盖到整张图。

5. Double Deep Image Prior 正则化：序数只管相对顺序，绝对值和结构靠网络先验兜底

序数约束的软肋是它只规定谁大谁小，没法完全锁定绝对值，光靠它优化会过拟合噪声。本文用两个随机初始化的编码器-解码器网络分别参数化 albedo 和 shading，借 Deep Image Prior 的隐式正则——网络架构天然先拟合低频、后拟合高频——给解空间一个结构先验，把序数约束留下的自由度收住。再加两个硬约束兜底：albedo 输出过 sigmoid 限制在 \([0,1]\)，shading 加非负性惩罚。这样物理序数负责"方向对不对"，DIP 负责"形状平不平滑"，两者互补。

损失函数¶

总损失 \(\mathcal{L} = \|\hat{\rho} \cdot \hat{\eta} - I_v\|_2 + \lambda_1 \mathcal{L}_{edge} + \lambda_2 \mathcal{L}_{ord}\)，第一项是重建损失（要求 albedo×shading 还原回可见光图），后两项分别是边缘约束和点对序数约束。值得注意的是热图全程只用来生成边缘和点对损失的标签，不参与重建——它是约束的来源，而非被拟合的目标。

实验关键数据¶

主实验（si-MSE × \(10^{-2}\)，↓ 越低越好）¶

方法	类别	涂色面具 Albedo	色卡 Albedo	白LED Albedo	白炽灯 Albedo	日光 Albedo
RGB-Retinex	优化	25	3.4	2.42	2.33	2.73
Intrinsic-v2	学习	27	2.8	1.25	4.36	4.17
CRefNet	学习	38	8.8	1.79	2.29	1.98
JoLHT-Video	物理	8.4	2.0	N/A	✗	✗
VT-Intrinsic	物理	11	2.7	0.37	1.06	1.19

序数验证实验¶

验证场景	准确率
20 种材料贴片 + 日光	98.59%（albedo 99.37%，shading 97.01%）
20 种材料贴片 + 白 LED	96.82%（albedo 94.62%，shading 100%）
100 个真实场景 1063 标注点对	98.95%（albedo 96.96%，shading 99.62%）
USGS 427 种材料光谱统计	94.2% 的材料对满足序数一致性

关键发现¶

VT-Intrinsic 在所有照明条件下均超越所有学习方法，且无需任何预训练数据
与 JoLHT-Video（需要热视频 + 受控照明 + 标定）性能接近，但仅需单张热图
专家标注验证序数准确率超过 98%，证明理论在实际材料和场景中高度可靠
学习方法容易过度平滑 albedo/shading（如草地光照被平坦化），diffusion 方法会产生幻觉纹理
白炽灯和日光实验证明了对含红外光源的鲁棒性

亮点与洞察¶

物理互补性的巧妙利用：可见光捕获反射光，热成像捕获吸收热量——这对"互为补充"的信号天然编码了 albedo 和 shading 的区分信息，这一洞察极其优雅
从热传导方程到序数代理的推导链：从能量守恒 → 热传输方程 → 热平衡 → 热图是吸收量的单调代理——整个理论推导环环相扣，物理直觉清晰
零样本超越预训练模型：仅靠单对图像的物理约束就超越了在大规模数据上训练的学习方法，说明正确的物理归纳偏置可以胜过统计学习

局限与展望¶

假设 Lambertian 反射，金属、透明物体和镜面会导致失败
假设热量主要来自光吸收——发动机、人体等非光源热源会干扰
不支持多色照明
依赖廉价微测辐射计热相机，在弱照明或动态场景下 SNR 不足
热相机分辨率低于可见光相机，可能影响细节恢复
可扩展方向：(1) 利用 VT-Intrinsic 的高质量伪 GT 为大规模学习方法提供训练数据；(2) 将序数理论扩展到多光谱成像

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次利用热红外序数约束做 IID，物理理论原创且优雅
实验充分度: ⭐⭐⭐⭐ 多照明条件、多材料、多场景验证，序数理论验证充分，但缺少大规模定量评估
写作质量: ⭐⭐⭐⭐⭐ 物理推导清晰严谨，Roger Shepard 错觉示例极其直观
价值: ⭐⭐⭐⭐⭐ 开辟了光-热互补性在视觉中的新范式，可为学习方法提供大规模实世界标注