What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?¶

会议: CVPR2026
arXiv: 2504.16930
代码: 无（论文提到将开源程序化生成代码，但缓存中未包含具体链接）
领域: 3D视觉
关键词: 立体匹配, 合成数据, procedural generation, 零样本泛化, dataset design, Infinigen

一句话总结¶

系统消融合成立体匹配训练数据的设计空间（浮动物体、背景、材质、基线等），发现"真实室内场景 + 密集浮动物体 + 宽基线"是最优组合，据此构建的 WMGStereo-150k 仅用单一数据集即超越四大经典数据集的混合训练。

研究背景与动机¶

问题定义：立体匹配（stereo matching）利用双目 RGB 图像估计逐像素视差，合成数据因可提供精确深度标注而成为训练的核心资源。但什么样的合成数据设计才是有效的这一关键问题始终缺乏系统研究。

现有痛点：

设计变量纠缠不清：现有合成数据集从 FlyingThings3D 式的随机飞行物体到 TartanAir 式的逼真场景模拟器差异巨大，每个新数据集同时改变了多个因素（物体类型、材质、场景布局、相机参数等），无法归因单一设计选择的贡献。例如 FoundationStereo 同时引入新架构与新数据，其数据本身各因素（浮动物体、随机光照、物理模拟等）的相对重要性无法分离。

不可重现的生成流程：TartanAir、IRS 等经典数据集不开源生成代码和资产，给"如仅改变材质会怎样"这类消融实验设置了硬障碍。

已有分析的局限：Mayer et al. 关于合成数据的经典研究得出"realism is overrated"的结论，但其实验仅基于 2D warp 的 FlyingChairs 风格数据集，未涉及现代 3D 渲染数据集，结论的适用性存疑。

核心动机：利用开源程序化生成平台 Infinigen 的可控性，逐一隔离并消融合成立体数据的每个设计维度，找出真正影响零样本泛化性能的关键因素，并据此构建更优数据集。

方法详解¶

整体框架¶

作者基于 Infinigen 和 Blender Python API 构建了一个可配置的程序化立体数据生成系统。核心贡献不是新的立体匹配网络，而是一个参数可控的数据生产流水线 + 系统消融实验。

系统支持三种场景类型：

室内浮动物体（Indoor Floating Objects）：在 Infinigen Indoors 生成的真实室内场景中，通过光线投射将物体随机放置在房间内。兼顾场景真实性（家具、墙壁、地板等）和几何多样性（悬浮的额外物体）。
密集浮动物体（Dense Floating Objects）：在空白天空背景中，将大量物体（约 200 个）密集放置在相机视野内，最大化几何多样性，类似经典 FlyingThings3D 的设计。
自然场景（Nature）：直接使用 Infinigen Nature 生成户外自然场景。

关键工程设计： - 浮动物体放置接口：支持光线投射（在相机视野内放置）或包围盒约束两种模式，可控制物体与现有场景几何的交叉。 - 材质管理工具：自动检测并移除物体子部件上的玻璃材质（避免完全透明表面导致的 ill-posed 问题）；对外窗户特殊处理——不替换玻璃材质（会破坏场景光照），而是直接删除窗户几何体。 - 高误差物体/材质自动移除：通过逐物体、逐像素的误差统计，发现并剔除仙人掌、海胆（极细针状结构）、架子（微小孔洞）等困难物体，以及完全透明/反射的极端材质。

关键设计¶

实验设置：对每个参数变体生成 5000 对立体图像，采用室内浮动物体场景类型，从随机初始化训练 RAFT-Stereo 75k 步，在 Middlebury 2014/2021、ETH3D、KITTI-12/15、Booster 共 6 个基准上评估零样本性能。下面六个维度逐一隔离，每次只改一个因素。

1. 浮动物体密度：几何多样性是头号开关

立体网络的零样本能力很吃训练时见过的几何多样性，而真实场景里几何变化有限。把浮动物体从无加到密集，Middlebury 2014(H) 2px 误差从 12.52 一路降到 7.78（0-10 个，↓38%）再到 6.60（10-30 个，↓47%）。浮动物体确实拉低了场景真实感，但带来的几何多样性对零样本泛化压倒性重要，所以最终在密集场景里直接放 200 个物体。

2. 背景物体：真实感并非"被高估"

经典论断 "realism is overrated" 来自只做 2D warp 的 FlyingChairs，未必适用于现代 3D 渲染。这里把家具等背景物体移除后，所有基准性能都掉（Middlebury(H) 从 6.60 升到 8.35），说明一定程度的场景真实性对零样本泛化有显著帮助，直接否掉了"真实感无用"的旧结论。

3. 物体类型：多样性优于特化

单一物体类型会在特定基准上更好（椅子利于 Middlebury、灌木利于 ETH3D/KITTI），但跨基准鲁棒性最差；用全部物体生成器反而在所有基准上最均衡。结论是别为某个 benchmark 调物体类型，广撒网更稳。

4. 物体材质：现有网络的硬瓶颈

材质暴露了一个无法靠数据绕过的问题。仅金属+玻璃时 KITTI-15/Booster 最优却让 ETH3D 崩（4.95 vs 2.77），仅漫反射时 ETH3D 最优却让 Booster 严重退化（12.73 vs 9.80）——现有立体匹配网络无法在学非朗伯材质的同时不伤漫反射区域，作者据此提出需要架构与数据协同设计，而非单靠数据。

5. 相机基线随机化：被低估的关键因素

基线范围直接决定视差分布。只用小基线 [0.04, 0.1m] 时 Middlebury(H) 从 6.60 恶化到 9.60、Booster 从 10.60 恶化到 17.03；放宽到 [0.04, 0.4m] 全面最优。宽基线让网络见过更大范围的视差，泛化更稳。

6. 光照增强：影响不大但保留

光照随机化对各基准影响有限，但仍保留以覆盖更多样的野外光照条件，属于低成本的稳健性补充。

损失函数与训练策略¶

训练方式：沿用 RAFT-Stereo / DLNR / Selective-IGEV 各自原始训练流程和超参数，从随机初始化训练 200k 步，未引入任何新的损失函数或训练技巧
场景类型均衡采样：训练时对三种场景类型等比重（33%-33%-33%）重加权，消融实验验证这一比例最优
掩码策略：掩盖天空和无纹理的房间外部区域
成本优化（6x 加速）：
- 求解器步数 550→60（贪心模式，只加不删/移物体），室内场景生成时间从 51 分钟降至 13 分钟
- 渲染采样 8192→1024 + Blender OptiX 去噪，渲染时间降至每帧 27 秒
- 场景复用：每个室内场景放 20 组独立相机位，每个密集场景随机化 200 次（物体姿态、光照、基线）
- 在固定算力下，低成本设置（30k 样本）的性能反而优于高成本设置（5k 样本）

实验关键数据¶

主实验：零样本立体匹配（Table 2，200k 步训练）¶

模型	Midd 2014(H)	Midd 2021	ETH3D	KITTI-12	KITTI-15	Booster(Q)
RAFT-Mixed (SF+CRE+TA+IRS, 600k)	5.50	8.97	2.58	3.64	4.95	11.46
RAFT-WMGStereo-150k	4.48	8.17	2.93	3.25	4.25	9.17
DLNR-Mixed	5.21	9.30	2.50	3.68	4.95	12.17
DLNR-WMGStereo-150k	3.76	6.72	2.50	3.30	4.54	9.09
Sel-IGEV-Mixed	5.24	8.24	2.37	3.97	5.31	11.00
Sel-IGEV-WMGStereo-150k	3.61	7.62	2.47	3.26	4.55	8.84
FoundationStereo	1.10	4.17	0.50	2.30	2.80	4.16

DLNR-WMGStereo-150k vs DLNR-Mixed：Middlebury 降低 28%，Booster 降低 25%
仅用 WMGStereo-150k 训练的 RAFT 在 Middlebury 2014 上超越利用大规模单目先验的 StereoAnywhere

消融实验：设计维度对比（Table 1，5k 对 + RAFT-Stereo 75k 步）¶

设计选择	Midd 2014(H)	ETH3D	KITTI-15	Booster(Q)
无浮动物体	12.52	4.47	6.19	16.40
10-30 个浮动物体	6.60	3.92	5.11	10.60
无背景物体	8.35	4.39	6.28	12.72
有背景物体	6.60	3.92	5.11	10.60
仅漫反射材质	7.21	2.77	5.41	12.73
仅金属+玻璃	8.37	4.95	4.97	9.80
全部材质	6.60	3.92	5.11	10.60
小基线 [0.04, 0.1]	9.60	2.89	6.64	17.03
宽基线 [0.04, 0.4]	6.60	3.92	5.11	10.60

数据集对比（Table 5，DLNR 200k 步）¶

训练数据	Midd 2014(H)	Midd 2021	ETH3D	KITTI-12	KITTI-15	Booster(Q)
SceneFlow	6.20	8.44	23.12	9.45	15.74	18.17
CREStereo	11.53	10.60	5.18	4.95	5.90	14.61
TartanAir	7.27	14.47	4.35	3.98	5.33	18.14
IRS	6.13	8.49	3.91	4.56	5.60	10.32
FSD	3.27	6.93	2.13	3.56	4.18	7.51
WMGStereo-150k	3.76	6.72	2.50	3.30	4.54	9.09
FSD + WMGStereo	3.24	6.88	2.08	3.59	4.26	7.42

关键发现¶

极高样本效率：仅 500 张 WMGStereo-150k 样本在 Middlebury 上即超越 100,000 张 CREStereo 样本，说明数据"配方"比数量更关键。
跨架构泛化：对 RAFT-Stereo、DLNR、Selective-IGEV 三种架构均带来一致提升，并非针对特定网络的过拟合。
泛化到未参与调参的基准：在 DrivingStereo（未用于参数选择）上比 FSD 的 3px 误差降低 27%。
数据互补性：FSD + WMGStereo-150k 混合训练在 Middlebury(H)、ETH3D、Booster 上均优于单独使用任一数据集。
场景类型混合最优：三种场景类型等比混合（33-33-33）显著优于任何单一场景类型。

亮点与洞察¶

首次系统化的合成立体数据设计空间研究：逐一隔离浮动物体密度、背景物体、物体类型、材质、基线、光照等 6 个维度的影响，提供了可操作的数据工程指南。
"真实感 + 多样性" 缺一不可：最优方案是"真实室内场景 + 浮动物体"，既否定了"realism is overrated"（移除背景物体则性能下降），又肯定了随机浮动物体的多样性价值。
非朗伯材质是开放问题：现有网络无法同时处理反射/透明材质和漫反射区域，这不是数据能解决的问题——需要数据与架构的协同设计，是一个有价值的未来方向。
"更多低质量数据 > 少量高质量数据"：渲染质量和求解器精度降低 + 6x 加速后，固定算力下性能反而更优。
程序化生成的方法论价值：参数消融方法论可推广至光流、深度补全、语义分割等其他视觉任务的数据集设计。

局限与展望¶

与 FoundationStereo 仍有较大差距：Middlebury 2014(H) 上 3.76 vs 1.10，FSD 使用了更大规模的数据和物理模拟。
缺少驾驶场景：未包含 CARLA/VirtualKITTI 风格的道路场景，KITTI 上的优势主要来自材质/基线设置而非域内场景分布。
非朗伯材质是回避非解决：简单移除极端材质是权宜之计，理想方案是设计能处理这些材质的新架构。
仅验证已有架构：未探索数据设计与 Transformer-based stereo 等新型架构的交互效应。
自然场景占比偏低（21k/163k 约 13%），可能限制户外场景泛化。

评分¶

新颖性: ⭐⭐⭐⭐ — 无新架构，但"数据设计空间的系统消融"视角独特且有实践价值
实验充分度: ⭐⭐⭐⭐⭐ — 消融覆盖 6 个设计维度、6+ 基准、3 种架构，含成本分析和样本效率曲线
写作质量: ⭐⭐⭐⭐⭐ — 结构清晰，表格丰富，结论逐条可操作，易于复现
价值: ⭐⭐⭐⭐ — 对立体匹配社区的数据工程实践有直接指导意义，开源代码进一步放大影响力