SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation¶
会议: ICLR 2026
arXiv: 2602.22785
代码: 项目页面
领域: 3D视觉/结构化场景生成
关键词: 结构化3D场景, 最优传输, 组合扩散, 实例分离, 交叉注意力门控
一句话总结¶
SceneTransporter 通过在组合 3D latent 扩散模型的去噪循环中引入熵最优传输(OT)框架,将 open-world 结构化 3D 场景生成重新建模为全局关联分配问题:OT 计划门控交叉注意力实现排他性的 patch-to-part 路由(防止特征纠缠),边缘正则化的分配代价鼓励在图像边缘处分离不同实例,在 74 张多样化 open-world 场景图像上实现了 SOTA 的实例级一致性和几何保真度。
研究背景与动机¶
领域现状:高质量 3D 场景生成是沉浸式技术和具身 AI 的基石。然而,绝大多数场景生成器输出的是不可分割的整体 mesh(monolithic mesh),无法直接用于下游任务——材质分配、物理仿真、资产检索、精细编辑等都需要场景具有显式的实例级 object-context 分离。
现有痛点:
- "分而治之"方案脆弱:先分割输入图像→分别生成 3D→拼装场景。这种流水线强依赖 2D 分割质量,遮挡处理差,且 2D 分割的微小错误会演变为严重的 3D 几何瑕疵
- 端到端组合生成在 open-world 失败:PartPacker、PartCrafter 等方法在对象级部件生成上效果好,但推广到复杂 open-world 场景时暴露两大病理:
- 结构性错分(Structural Mispartition):语义实例无法形成不相交的部分,一个物体的几何被分散到多个 part-token
- 几何冗余(Geometric Redundancy):多个 latent 竞争描述同一空间区域,导致重叠
- 根本原因:无约束的软注意力机制无法建立全局一致的 patch-to-part 分配
核心矛盾:部件级生成器的特征中隐含着正确的实例分组信息(去偏聚类可以恢复),但模型本身缺乏将这些信息显式化的结构约束。
本文方案:引入最优传输框架提供显式的全局分配约束——OT 的一对一约束防止特征纠缠,覆盖预算约束防止 part-token 信息饥饿,边缘正则化防止跨边界泄漏。
方法详解¶
整体框架¶
SceneTransporter 建立在现有组合 3D 生成器(PartPacker 的 rectified-flow DiT)之上,在每个去噪步骤 \(t\) 中:(1) 计算图像 patch 与 part-level token 间的边缘正则化代价矩阵 → (2) 求解熵 OT 得到最优传输计划 \(\mathbf{A}_t\) → (3) 用传输计划门控交叉注意力的 Key 和 Value → (4) 更新 latent 并进入下一步去噪。整个过程无需训练,作为推理时的即插即用机制。
关键设计一:去偏聚类探查(诊断工具)¶
在设计解决方案之前,作者首先通过去偏聚类定量诊断问题:
- 识别共享子空间:用典型相关分析(CCA)找到各 part-level latent 集合间的共享成分
- 抑制共享成分:将 token 投影到共享子空间的正交补空间,隔离出 object-specific 变异
- 重新分组:对残差 token 进行聚类
实验发现:直接聚类原始 part-token 无法产生稳定的实例分组;但 CCA 去偏后聚类可以可靠成功。这证实特征中隐含正确分组信息,但模型未能显式建立这些关联——需要外部结构约束。
关键设计二:OT 计划门控交叉注意力¶
在去噪步骤 \(t\),求解 \(N\) 个 3D part 与 \(L\) 个图像 patch 间的熵 OT 问题:
其中 \(\boldsymbol{\mu}\) 为 part 容量预算(防止 part 被"饿死"),\(\boldsymbol{\nu} = \frac{1}{L}\mathbf{1}_L\)(每个 patch 贡献等量信息)。用 stabilized log-domain Sinkhorn 迭代 40 次求解。
将 OT 计划转化为门控信号,通过有界恒等保持函数调制 Key 和 Value:
其中 \(\lambda_t\) 控制门控强度(\(\lambda_t = 0\) 时退化为标准注意力),\(\varepsilon_g\) 为最低透过率(防止完全阻断)。门控后每个 part 看到的是独属于自己的图像记忆视图,确保路由排他性。
关键设计三:边缘正则化分配代价¶
在杂乱场景中,接触边界附近的 patch 特征可能与多个 part 兼容,导致信息跨物体泄漏。引入图像边缘先验进行约束:
- 提取边缘图 \(\mathbf{E}\) 并下采样到 patch 网格
- 构建 4-邻域图,计算边缘感知耦合权重:\(w_{j\ell} = \exp(-\gamma_{\text{edge}} \max\{\mathbf{E}_\downarrow(j), \mathbf{E}_\downarrow(\ell)\})\)
- 对 part-patch 余弦相似度进行边缘感知平滑(低边缘区传播、高边缘区阻断)
- 对比归一化后构建最终 OT 代价:\(\mathbf{C}_t(i,j) = \frac{1}{2}(1 - \widetilde{S}_{i,j})\)
效果:无需任何实例掩码监督,仅凭图像边缘即可在物体接触处产生清晰分离。
实验结果¶
主实验:74 张 Open-World 场景上的定量评估¶
| 方法 | 需要 Mask | ULIP↑ | ULIP-2↑ | Uni3D↑ | IoU_max↓ | IoU_mean↓ | 推理时间(s) |
|---|---|---|---|---|---|---|---|
| MIDI | ✓ | 0.1397 | 0.2763 | 0.2518 | 0.0458 | 0.1642 | 149.68 |
| PartCrafter | ✗ | 0.1177 | 0.3096 | 0.2635 | 0.0042 | 0.0539 | 157.97 |
| PartPacker | ✗ | 0.1417 | 0.3083 | 0.2887 | 0.0319 | 0.2142 | 47.41 |
| Ours | ✗ | 0.1466 | 0.3220 | 0.3021 | 0.0101 | 0.0926 | 54.99 |
SceneTransporter 在三个几何保真度指标上均取得最优(ULIP=0.1466, ULIP-2=0.3220, Uni3D=0.3021),部件解纠缠指标排名第二(PartCrafter 因丢弃背景/地面而IoU最低,但牺牲了场景完整性)。推理时间仅比 PartPacker 慢 7.6 秒(54.99 vs 47.41),远快于 MIDI(149.68s)和 PartCrafter(157.97s)。
用户研究:30 人主观评测¶
| 方法 | 几何质量↑ | 布局一致性↑ | 分割合理性↑ |
|---|---|---|---|
| MIDI | 2.61 | 1.82 | 2.29 |
| PartCrafter | 2.44 | 1.63 | 2.17 |
| PartPacker | 2.81 | 2.95 | 1.97 |
| Ours | 3.09 | 3.34 | 3.22 |
采用强制排名制(1-4 分,越高越好),SceneTransporter 在所有三个维度上获得最高偏好,特别是在分割合理性上(3.22 vs PartPacker 1.97)优势巨大。
消融实验¶
OT 计划门控 vs 标准注意力:标准交叉注意力产生噪声和混沌的注意力图,patch-to-part 映射混乱→几何损坏。OT 门控后 A_attn 和 B_attn 清晰分离(如地面 vs 建筑),Hard affinity 图显示不重叠的区域分配→干净的部件几何。
OT 计划随去噪演化:传输计划在约 \(t \approx 540/600\) 步后快速稳定——粗粒度语义路由在早期确定并保持,后期仅做局部细节微调。这解释了为什么最终部件呈现出高度一致的实例级组织。
边缘正则化的效果:在物体接触区域(沙发与角落边桌、木桩与围栏),加入边缘正则化可清晰分离相邻但语义不同的物体,而无边缘正则化版本在这些区域出现混合部件和模糊边界。
论文评价¶
优点¶
- 诊断驱动的方法论:先用去偏聚类探查定量揭示问题根源,再针对性设计解决方案——方法论上非常扎实
- 数学优雅:将结构化 3D 生成重新建模为最优传输问题,约束的含义清晰(排他性、覆盖性、边缘感知),且全部操作可微、无需训练
- 即插即用:作为推理时机制应用于预训练生成器,仅增加约 7.6 秒推理时间,实用性强
- 评估全面:定量指标 + 30 人用户研究 + 丰富的消融分析 + 去噪过程可视化
不足¶
- 仅在 74 张图像上测试,样本规模偏小,统计可靠性受限
- PartCrafter 在 IoU 指标上更优是因丢弃背景,对比不完全公平,缺少在相同完整性要求下的控制对比
- 边缘检测依赖 Canny/Sobel 等低级特征,在纹理丰富的复杂场景中可能产生过多虚假边缘,影响 OT 分配质量
评分¶
⭐⭐⭐⭐⭐ — 理论深度与实践效果俱佳的工作。从诊断到方案的完整链路、最优传输与扩散模型的精巧结合、以及训练-free 的即插即用设计,使其成为结构化 3D 生成领域的标杆性方法。