Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps¶
会议: ICLR2026
arXiv: 2602.21820
代码: 待确认
领域: 3D视觉
关键词: shadow generation, relighting, light-geometry interaction, bridge matching, monocular depth
一句话总结¶
提出 Light-Geometry Interaction (LGI) maps,一种从单目深度估计中编码光照-遮挡关系的 2.5D 表示,嵌入 bridge matching 生成框架中实现阴影生成与物体重光照的联合建模,在合成和真实图像上均取得 SOTA 效果。
背景与动机¶
阴影生成(shadow generation)和重光照(relighting)在虚拟产品放置、增强现实、图像编辑等场景中至关重要。传统方法依赖完整 3D 重建和光线追踪,计算成本高且在单视图设定下不可行。近年来基于扩散模型和 bridge matching 的生成式方法可以从 RGB 输入合成阴影,但由于缺乏物理约束,常产生以下问题:
- 浮空阴影(floating shadows):阴影与物体几何不一致
- 光照不一致:重光照方向与阴影方向矛盾
- 不合理的阴影几何:在复杂遮挡场景下失效
更关键的是,现有方法将阴影生成和重光照视为独立任务分别处理,忽视了二者之间的内在耦合——准确的建模需要同时考虑直接光照、二次反射和互反射。
核心问题¶
如何在单视图场景中,仅从单目深度高效地编码光照与几何的交互关系,并将其作为物理先验嵌入生成模型,实现阴影生成与重光照的联合建模?
方法详解¶
整体框架¶
方法要解决的是单视图下阴影生成与重光照缺乏物理约束、二者又被割裂处理的问题。整体建在 Latent Bridge Matching (LBM) 框架上:无阴影图像 \(x_0\) 先经冻结的 Stable Diffusion XL 编码器映射成源潜码 \(z_0\),再由漂移网络 \(v_\theta\) 沿一条布朗桥逐步桥接到有阴影潜码 \(z_1\),最后由冻结解码器还原成带阴影且已重光照的图像 \(x_1\)。编码器、解码器全程冻结,训练只优化漂移网络。真正的关键在于给漂移网络喂入一组光照感知的条件 \(c=\{c^l, c^m\}\):\(c^l\) 是全局光照参数(光色、半径、距离、强度、方位角、仰角),\(c^m\) 则是本文提出的 LGI maps——它从单目深度出发,把光照与几何的遮挡关系压成一张可微的 2.5D 条件图,让生成过程"知道"阴影该落在哪里。这条核心管线之外,论文还把它扩展到隐式光照的 image harmonization(靠 LGI 可微自监督一个光照估计网络),并自造了首个联合阴影-重光照数据集 ShadRel 来支撑训练。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
X0["无阴影图像 x0"] --> ENC["冻结编码器<br/>(SDXL VAE)"]
ENC --> Z0["源潜码 z0"]
LIGHT["全局光照参数 c^l<br/>光色/距离/强度/方位仰角"]
subgraph LGI["LGI maps 生成(关键设计 1)"]
direction TB
P3D["单目深度估计<br/>逆投影提升到 3D"] --> RAY["朝光源投射光线<br/>采样 N=16 点"]
RAY --> MAP["仰角差 e_d<br/>min/max/closest 三通道"]
end
X0 --> P3D
LIGHT --> RAY
Z0 --> DRIFT["漂移网络 v_θ<br/>条件桥接匹配"]
LIGHT --> DRIFT
MAP --> DRIFT
DRIFT --> Z1["目标潜码 z1"]
Z1 --> DEC["冻结解码器"]
DEC --> X1["有阴影且重光照<br/>图像 x1"]
关键设计¶
1. LGI maps:把光线追踪压缩成仰角差,避免完整 3D 重建
阴影本质上是几何对光线的遮挡,但完整重建 + 光线追踪在单视图下既不可行又昂贵,LGI maps 用一条单目深度就近似出这套遮挡线索。具体地,先用现成单目深度估计得到深度图 \(D\) 并重缩放到与光源坐标一致的尺度;再通过逆相机投影把每个像素提升到 3D,\(p = D(u,v)\cdot K^{-1}[u,v,1]^\top\)。然后从每个 3D 点 \(p\) 朝光源 \(l\) 投射一条光线,在光线上均匀采样 \(N=16\) 个点并重投影回图像平面取其深度。对每个采样点计算它的表面仰角 \(e^s_n\) 与光线仰角 \(e^l\) 之差 \(e^d_n = e^s_n - e^l\)——一旦某方向上表面仰角超过光线仰角,就意味着这点被挡住、处于阴影里。最后把这串仰角差汇成三通道:\(c^m_1=\min e^d_n\) 标记遮挡开始,\(c^m_2=\max e^d_n\) 标记遮挡结束,\(c^m_3 = e^d_{i^*}\)(\(i^*=\arg\min|e^d_n|\))取绝对值最小的差,对应最可能发生直接遮挡的点。这套 min/max/closest 三通道既编码了遮挡范围、又编码了 2.5D 深度固有的不确定性,且 LGI 值天然落在 \((-\pi,\pi)\) 内,对网络输入很友好。
2. 自监督的图像协调扩展:靠 LGI 可微把光照估计接进来
为了把方法推广到 image harmonization,额外引入一个光照估计网络,从合成图像里反推光照条件。由于整条 LGI maps 生成是完全可微的,可以直接用阴影掩码作监督信号、端到端地自监督训练光照估计,无需额外标注光照真值。
3. ShadRel 数据集:补齐联合阴影-重光照的训练数据空白
联合建模需要同时含阴影与重光照标注的数据,此前并不存在,于是本文用 Blender Cycles 路径追踪自造了首个大规模数据集:817K 个由专业 3D 艺术家制作的虚拟物体,材质涵盖光泽、金属、透明等(基于 principled BSDF),每个物体采样 4 个随机相机视角 × 5 种光照配置共 20 张目标图,刻意覆盖软阴影、反射、透明度和互反射等难例场景。
损失函数¶
标准像素级损失会被大片不变背景稀释,这里改用聚焦阴影区域的加权 L1:先以亮度变化阈值 \(\tau=0.01\) 加膨胀操作圈出真正发生阴影变化的像素,再对其加权,
最终损失把潜空间桥接匹配与该加权像素损失相加,像素项权重 \(\lambda=10\)。
实验关键数据¶
联合阴影生成与重光照(ShadRel 数据集)¶
| 方法 | Overall RMSE↓ | Overall SSIM↑ | Shadow BER↓ | Shadow IoU↑ | Object RMSE↓ |
|---|---|---|---|---|---|
| LBM | 0.0417 | 0.7148 | 0.0847 | 0.7166 | 0.0298 |
| 本文 | 0.0334 | 0.7227 | 0.0588 | 0.8096 | 0.0282 |
阴影区域 RMSE 从 0.1543 降至 0.0898(改进 42%),BER 从 0.1549 降至 0.1103。
干净背景阴影生成(CSG 基准)¶
三个控制轨道上 IoU 均优于 CSG(0.821 vs 0.818, 0.798 vs 0.780, 0.785 vs 0.776)。
图像协调(DESOBAv2)¶
与最佳方法 SGDGP 整体性能相当,但在阴影区域精度更高(Local RMSE 44.753 vs 46.713)。
消融实验关键发现¶
- LGI maps 是最关键组件,移除后 Shadow BER 从 0.0588 恶化到 0.0940
- 直接用深度图替代 LGI 仅带来边际改进(-LGI+Depth: BER 0.0932 vs baseline 0.1012)
- 三通道 LGI 优于仅用第三通道(BER 0.0588 vs 0.0670)
- 换用 DepthAnythingV2 或 GT 深度结果变化极小,证明对深度估计器的鲁棒性
- 计算开销几乎可忽略:参数仅增加 0.0004%,FLOPs 增加 0.0011%
亮点¶
- LGI maps 设计精巧:将光线追踪的核心思想简化为可微的 2.5D 表示,无需完整 3D 重建即可编码光照-遮挡关系,兼具物理直觉和计算效率
- 联合建模范式:首次将阴影生成和重光照统一到同一框架,捕获直接光照、二次反射和互反射的耦合效应
- 泛化能力突出:仅在合成数据上训练,在真实图像(含人像)上表现优异,无需任何真实世界数据微调
- 计算高效:LGI 模块几乎零额外计算成本,天然可扩展到多物体和多光源场景
局限与展望¶
- 基于 2.5D 深度的固有局限:无法处理遮挡区域的深度信息缺失,导致歧义阴影(论文 Fig. 3d 所示)
- 训练数据为纯合成,虽然泛化尚可但可能在极端真实场景下失效
- 单目深度估计缺乏度量尺度,依赖与光源坐标的一致性假设
- 目前仅支持点光源建模,未扩展到面光源或环境光照
- 图像协调扩展需要额外的光照估计网络,增加了系统复杂度
与相关工作的对比¶
| 维度 | CSG / LBM | SGDGP | SwitchLight | 本文 |
|---|---|---|---|---|
| 阴影生成 | ✓ | ✓ | ✗ | ✓ |
| 重光照 | ✗ | ✗ | ✓ | ✓ |
| 联合建模 | ✗ | ✗ | ✗ | ✓ |
| 几何先验 | 无/2D模板 | 旋转框+模板 | 无 | LGI maps (2.5D) |
| 物理约束 | 弱 | 中 | 弱 | 强 |
| 真实图像泛化 | 一般 | 较好 | 人像为主 | 好(含人像) |
启发与关联¶
- LGI maps 的核心思想——将光线追踪过程简化为仰角差的统计量——可迁移到其他需要光照建模的任务(如 intrinsic decomposition、光照估计)
- 三通道设计(min/max/closest)巧妙编码了遮挡的不确定性程度,为处理 2.5D 深度歧义提供了有效策略
- 完全可微的设计使其可以自然嵌入任何端到端框架,不局限于 bridge matching
- ShadRel 数据集填补了联合阴影-重光照训练数据的空白,可作为后续研究的重要基准
评分¶
- 新颖性: ⭐⭐⭐⭐ — LGI maps 表示新颖,联合建模范式有清晰贡献
- 实验充分度: ⭐⭐⭐⭐ — 多基准对比、消融全面,含真实图像定性分析
- 写作质量: ⭐⭐⭐⭐ — 思路清晰,公式推导完整,图示直观
- 价值: ⭐⭐⭐⭐ — 实用性强,计算高效,数据集贡献有价值