跳转至

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

会议: CVPR2026
arXiv: 2504.16930
代码: 无(论文提到将开源程序化生成代码,但缓存中未包含具体链接)
领域: 3D视觉
关键词: 立体匹配, 合成数据, procedural generation, 零样本泛化, dataset design, Infinigen

一句话总结

系统消融合成立体匹配训练数据的设计空间(浮动物体、背景、材质、基线等),发现"真实室内场景 + 密集浮动物体 + 宽基线"是最优组合,据此构建的 WMGStereo-150k 仅用单一数据集即超越四大经典数据集的混合训练。

研究背景与动机

问题定义:立体匹配(stereo matching)利用双目 RGB 图像估计逐像素视差,合成数据因可提供精确深度标注而成为训练的核心资源。但什么样的合成数据设计才是有效的这一关键问题始终缺乏系统研究。

现有痛点

设计变量纠缠不清:现有合成数据集从 FlyingThings3D 式的随机飞行物体到 TartanAir 式的逼真场景模拟器差异巨大,每个新数据集同时改变了多个因素(物体类型、材质、场景布局、相机参数等),无法归因单一设计选择的贡献。例如 FoundationStereo 同时引入新架构与新数据,其数据本身各因素(浮动物体、随机光照、物理模拟等)的相对重要性无法分离。

不可重现的生成流程:TartanAir、IRS 等经典数据集不开源生成代码和资产,给"如仅改变材质会怎样"这类消融实验设置了硬障碍。

已有分析的局限:Mayer et al. 关于合成数据的经典研究得出"realism is overrated"的结论,但其实验仅基于 2D warp 的 FlyingChairs 风格数据集,未涉及现代 3D 渲染数据集,结论的适用性存疑。

核心动机:利用开源程序化生成平台 Infinigen 的可控性,逐一隔离并消融合成立体数据的每个设计维度,找出真正影响零样本泛化性能的关键因素,并据此构建更优数据集。

方法详解

整体框架

作者基于 Infinigen 和 Blender Python API 构建了一个可配置的程序化立体数据生成系统。核心贡献不是新的立体匹配网络,而是一个参数可控的数据生产流水线 + 系统消融实验。

系统支持三种场景类型:

  1. 室内浮动物体(Indoor Floating Objects):在 Infinigen Indoors 生成的真实室内场景中,通过光线投射将物体随机放置在房间内。兼顾场景真实性(家具、墙壁、地板等)和几何多样性(悬浮的额外物体)。
  2. 密集浮动物体(Dense Floating Objects):在空白天空背景中,将大量物体(约 200 个)密集放置在相机视野内,最大化几何多样性,类似经典 FlyingThings3D 的设计。
  3. 自然场景(Nature):直接使用 Infinigen Nature 生成户外自然场景。

关键工程设计: - 浮动物体放置接口:支持光线投射(在相机视野内放置)或包围盒约束两种模式,可控制物体与现有场景几何的交叉。 - 材质管理工具:自动检测并移除物体子部件上的玻璃材质(避免完全透明表面导致的 ill-posed 问题);对外窗户特殊处理——不替换玻璃材质(会破坏场景光照),而是直接删除窗户几何体。 - 高误差物体/材质自动移除:通过逐物体、逐像素的误差统计,发现并剔除仙人掌、海胆(极细针状结构)、架子(微小孔洞)等困难物体,以及完全透明/反射的极端材质。

关键设计——参数消融研究

实验设置:对每个参数变体生成 5000 对立体图像,采用室内浮动物体场景类型,从随机初始化训练 RAFT-Stereo 75k 步,在 Middlebury 2014/2021、ETH3D、KITTI-12/15、Booster 共 6 个基准上评估零样本性能。

① 浮动物体密度——最关键的设计选择之一: - 无浮动物体 → Middlebury 2014(H) 2px 误差 12.52 - 0-10个浮动物体 → 7.78(↓38%) - 10-30个浮动物体 → 6.60(↓47%) - 结论:浮动物体虽降低场景真实感,但极大增加几何多样性,对零样本泛化至关重要。最终在密集场景中放置 200 个物体。

② 背景物体——真实感确实有用: - 移除家具等背景物体后,所有基准上性能均下降(如 Middlebury(H) 从 6.60 升至 8.35) - 结论:否定了"realism is overrated"这一经典观点,一定程度的场景真实性对零样本泛化有显著帮助

③ 物体类型——多样性优于特化: - 单一物体类型在特定基准上更好(椅子利于 Middlebury、灌木利于 ETH3D/KITTI),但跨基准鲁棒性最差 - 使用全部物体生成器在所有基准上表现最均衡

④ 物体材质——现有网络的硬瓶颈: - 仅金属+玻璃 → KITTI-15/Booster 最优但 ETH3D 崩溃(4.95 vs 2.77) - 仅漫反射 → ETH3D 最优但 Booster 严重退化(12.73 vs 9.80) - 核心发现:现有立体匹配网络无法在学习非朗伯材质的同时不损害漫反射区域性能,提出需要架构与数据协同设计

⑤ 相机基线随机化——被低估的关键因素: - 仅小基线 [0.04, 0.1m] → Middlebury(H) 从 6.60 恶化至 9.60,Booster 从 10.60 恶化至 17.03 - 宽范围 [0.04, 0.4m] 全面最优

⑥ 光照增强:影响不大,但保留以覆盖多样野外条件。

损失函数与训练策略

  • 训练方式:沿用 RAFT-Stereo / DLNR / Selective-IGEV 各自原始训练流程和超参数,从随机初始化训练 200k 步,未引入任何新的损失函数或训练技巧
  • 场景类型均衡采样:训练时对三种场景类型等比重(33%-33%-33%)重加权,消融实验验证这一比例最优
  • 掩码策略:掩盖天空和无纹理的房间外部区域
  • 成本优化(6x 加速)
    • 求解器步数 550→60(贪心模式,只加不删/移物体),室内场景生成时间从 51 分钟降至 13 分钟
    • 渲染采样 8192→1024 + Blender OptiX 去噪,渲染时间降至每帧 27 秒
    • 场景复用:每个室内场景放 20 组独立相机位,每个密集场景随机化 200 次(物体姿态、光照、基线)
    • 在固定算力下,低成本设置(30k 样本)的性能反而优于高成本设置(5k 样本)

实验关键数据

主实验:零样本立体匹配(Table 2,200k 步训练)

模型 Midd 2014(H) Midd 2021 ETH3D KITTI-12 KITTI-15 Booster(Q)
RAFT-Mixed (SF+CRE+TA+IRS, 600k) 5.50 8.97 2.58 3.64 4.95 11.46
RAFT-WMGStereo-150k 4.48 8.17 2.93 3.25 4.25 9.17
DLNR-Mixed 5.21 9.30 2.50 3.68 4.95 12.17
DLNR-WMGStereo-150k 3.76 6.72 2.50 3.30 4.54 9.09
Sel-IGEV-Mixed 5.24 8.24 2.37 3.97 5.31 11.00
Sel-IGEV-WMGStereo-150k 3.61 7.62 2.47 3.26 4.55 8.84
FoundationStereo 1.10 4.17 0.50 2.30 2.80 4.16
  • DLNR-WMGStereo-150k vs DLNR-Mixed:Middlebury 降低 28%,Booster 降低 25%
  • 仅用 WMGStereo-150k 训练的 RAFT 在 Middlebury 2014 上超越利用大规模单目先验的 StereoAnywhere

消融实验:设计维度对比(Table 1,5k 对 + RAFT-Stereo 75k 步)

设计选择 Midd 2014(H) ETH3D KITTI-15 Booster(Q)
无浮动物体 12.52 4.47 6.19 16.40
10-30 个浮动物体 6.60 3.92 5.11 10.60
无背景物体 8.35 4.39 6.28 12.72
有背景物体 6.60 3.92 5.11 10.60
仅漫反射材质 7.21 2.77 5.41 12.73
仅金属+玻璃 8.37 4.95 4.97 9.80
全部材质 6.60 3.92 5.11 10.60
小基线 [0.04, 0.1] 9.60 2.89 6.64 17.03
宽基线 [0.04, 0.4] 6.60 3.92 5.11 10.60

数据集对比(Table 5,DLNR 200k 步)

训练数据 Midd 2014(H) Midd 2021 ETH3D KITTI-12 KITTI-15 Booster(Q)
SceneFlow 6.20 8.44 23.12 9.45 15.74 18.17
CREStereo 11.53 10.60 5.18 4.95 5.90 14.61
TartanAir 7.27 14.47 4.35 3.98 5.33 18.14
IRS 6.13 8.49 3.91 4.56 5.60 10.32
FSD 3.27 6.93 2.13 3.56 4.18 7.51
WMGStereo-150k 3.76 6.72 2.50 3.30 4.54 9.09
FSD + WMGStereo 3.24 6.88 2.08 3.59 4.26 7.42

关键发现

  1. 极高样本效率:仅 500 张 WMGStereo-150k 样本在 Middlebury 上即超越 100,000 张 CREStereo 样本,说明数据"配方"比数量更关键。
  2. 跨架构泛化:对 RAFT-Stereo、DLNR、Selective-IGEV 三种架构均带来一致提升,并非针对特定网络的过拟合。
  3. 泛化到未参与调参的基准:在 DrivingStereo(未用于参数选择)上比 FSD 的 3px 误差降低 27%。
  4. 数据互补性:FSD + WMGStereo-150k 混合训练在 Middlebury(H)、ETH3D、Booster 上均优于单独使用任一数据集。
  5. 场景类型混合最优:三种场景类型等比混合(33-33-33)显著优于任何单一场景类型。

亮点与洞察

  1. 首次系统化的合成立体数据设计空间研究:逐一隔离浮动物体密度、背景物体、物体类型、材质、基线、光照等 6 个维度的影响,提供了可操作的数据工程指南。
  2. "真实感 + 多样性" 缺一不可:最优方案是"真实室内场景 + 浮动物体",既否定了"realism is overrated"(移除背景物体则性能下降),又肯定了随机浮动物体的多样性价值。
  3. 非朗伯材质是开放问题:现有网络无法同时处理反射/透明材质和漫反射区域,这不是数据能解决的问题——需要数据与架构的协同设计,是一个有价值的未来方向。
  4. "更多低质量数据 > 少量高质量数据":渲染质量和求解器精度降低 + 6x 加速后,固定算力下性能反而更优。
  5. 程序化生成的方法论价值:参数消融方法论可推广至光流、深度补全、语义分割等其他视觉任务的数据集设计。

局限与展望

  1. 与 FoundationStereo 仍有较大差距:Middlebury 2014(H) 上 3.76 vs 1.10,FSD 使用了更大规模的数据和物理模拟。
  2. 缺少驾驶场景:未包含 CARLA/VirtualKITTI 风格的道路场景,KITTI 上的优势主要来自材质/基线设置而非域内场景分布。
  3. 非朗伯材质是回避非解决:简单移除极端材质是权宜之计,理想方案是设计能处理这些材质的新架构。
  4. 仅验证已有架构:未探索数据设计与 Transformer-based stereo 等新型架构的交互效应。
  5. 自然场景占比偏低(21k/163k 约 13%),可能限制户外场景泛化。

相关工作与启发

  • SceneFlow / FlyingThings3D:随机飞行物体的开创性方案,本文证明仅靠此类设计在多数基准上次优,但其核心思想(几何多样性)仍然有效。
  • FoundationStereo:当前 SOTA,本文的参数研究有助于理解 FSD 成功的原因是多因素协同(浮动物体+真实背景+宽基线+多材质),而非单一创新。
  • Mayer et al. (IJCV 2018):"realism is overrated"的经典结论仅适用于 2D warp 数据集,本文在 3D 渲染数据集上给出更细致的结论——真实感和多样性需要平衡。
  • Infinigen:开源程序化 3D 生成平台,本文展示其在立体匹配数据中的有效扩展和应用。
  • 启发:程序化数据生成 + 参数消融的方法论可推广到任何需要合成数据的视觉任务。

评分

  • 新颖性: ⭐⭐⭐⭐ — 无新架构,但"数据设计空间的系统消融"视角独特且有实践价值
  • 实验充分度: ⭐⭐⭐⭐⭐ — 消融覆盖 6 个设计维度、6+ 基准、3 种架构,含成本分析和样本效率曲线
  • 写作质量: ⭐⭐⭐⭐⭐ — 结构清晰,表格丰富,结论逐条可操作,易于复现
  • 价值: ⭐⭐⭐⭐ — 对立体匹配社区的数据工程实践有直接指导意义,开源代码进一步放大影响力