Bridge: Basis-Driven Causal Inference Marries VFMs for Domain Generalization¶

会议: CVPR 2026
arXiv: 2604.26820
代码: https://mingbohong.github.io/Bridge/ (项目主页)
领域: 目标检测 / 域泛化 / 因果推断
关键词: 域泛化目标检测、前门调整、因果推断、基学习、视觉基础模型

一句话总结¶

针对单源域、数据稀缺下检测器容易学到"光照/共现/风格"等混杂因子导致虚假相关的问题，本文提出即插即用的 Causal Basis Block（CBB），用可学习低秩基把因果前门调整落地成"估计两个期望"，挂在冻结的 VFM（DINOv2/3、SAM、Stable Diffusion）上做端到端校准，在五个域泛化检测基准上一致刷新 SOTA（最高 +5.4 mAP）。

研究背景与动机¶

领域现状：域泛化目标检测（DGOD）希望在一个或少数源域上训练，泛化到未见过的目标域。主流做法分三类——学习域不变表征、用数据增广扩展源分布、借助视觉基础模型（VFM）的强先验。近期尤其流行把冻结的 DINOv2/SAM/Stable Diffusion 当 backbone，直接接检测头。

现有痛点：这些方法大多忽略了单源、小数据训练带来的混杂效应。混杂因子 \(\mathcal{Z}\)（光照、物体共现模式、风格差异）会同时影响输入特征 \(\mathcal{X}\) 和标签 \(\mathcal{Y}\)，制造虚假相关。论文给的例子很直观：一个用冻结 DINOv2（在 142M 图上预训练）但只在 3,000 张 Cityscapes 上微调的检测器，会把行人旁边的自行车以 57% 误判为 rider、20% 误判为 person——它学到的是"自行车常和人共现"这条捷径，而非自行车本身的因果特征。强 backbone 的表征能力被这种捷径白白浪费。

核心矛盾：要消除混杂，经典做法是后门调整，但后门调整需要显式建模并枚举混杂因子 \(\mathcal{Z}\)（\(\mathcal{P}(\mathcal{Y}\mid\mathrm{do}(\mathcal{X}))=\sum_{\mathcal{Z}}\mathcal{P}(\mathcal{Y}\mid\mathcal{X},\mathcal{Z})\mathcal{P}(\mathcal{Z})\)）。可现实中很多混杂因子不可观测、难度量，后门调整不可行。已有因果检测工作（如基于后门的恶劣天气检测）只能靠外部混杂字典 + 聚类/动量更新等繁琐后处理，灵活性和可扩展性都差。

本文目标：在不显式指定混杂因子、不引外部字典的前提下阻断虚假相关，并且做成能无缝挂到任意冻结 VFM 上的即插即用模块。

切入角度：用前门调整绕开"枚举混杂因子"——只要找到一个落在 \(\mathcal{X}\to\mathcal{Y}\) 因果路径上的中介变量 \(\mathcal{M}\)，就能识别 \(\mathcal{X}\) 对 \(\mathcal{Y}\) 的因果效应。再借鉴字典学习，把前门调整里两个难算的期望用可学习低秩基近似出来。

核心 idea：把前门调整重写成"估计两个期望 \(\mathbb{E}[\mathcal{X}']\) 和 \(\mathbb{E}[\mathcal{M}]\)"，并用一组低秩可学习基 + Sample Queries 端到端地把这两个期望算出来，从而在阻断混杂的同时顺手滤掉冗余、任务无关的特征。

方法详解¶

整体框架¶

Bridge 是一个挂在冻结 VFM 上的 DGOD 框架。输入一张图，先由 VFM 抽出多尺度特征图；这些特征送进核心模块 Causal Basis Block（CBB） 做因果校准；校准后的特征再交给任务头（Faster R-CNN 检测头）做预测。整个 VFM backbone 冻结，只训练 CBB 和检测头，避免全网络微调的高成本。

CBB 内部干两件事：① 期望估计——用 Sample Queries 聚合训练集的全局/可泛化信息得到空间加权图，再把加权后的特征投影到一组低秩可学习基张成的子空间，得到期望 \(\mathbb{E}[\mathcal{X}]\)、\(\mathbb{E}[\mathcal{M}]\)；② 特征聚合——把两个期望和中介特征 \(\mathcal{M}\) 相加成最终输出 \(\mathcal{F}_{\text{out}}=\hat{\mathbb{E}}[\mathcal{X}]+\hat{\mathbb{E}}[\mathcal{M}]+\mathcal{M}\)，前两项实现前门调整阻断混杂，\(\mathcal{M}\) 保留任务特定信息。CBB 全程可微，无需额外监督，跟着下游检测 loss 一起训。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像"] --> B["冻结 VFM<br/>抽多尺度特征"]
    B --> C["基于基的前门调整<br/>P(Y|do(X))≈估两个期望"]
    C --> D["Sample Queries<br/>聚合可泛化样本期望"]
    D --> E["低秩基子空间投影<br/>滤冗余、留主成分"]
    E --> F["特征聚合<br/>E[X]+E[M]+中介 M"]
    F --> G["任务头<br/>检测预测"]

关键设计¶

1. 基于基学习的前门调整：把"消混杂"转成"估两个期望"

后门调整要枚举不可观测的混杂因子 \(\mathcal{Z}\)，行不通。本文改用前门调整：找中介变量 \(\mathcal{M}\)，则 \(\mathcal{P}(\mathcal{Y}\mid\mathrm{do}(\mathcal{X}))=\mathbb{E}_{\mathcal{M}\sim\mathcal{P}(\mathcal{M}\mid\mathcal{X})}\big[\mathbb{E}_{\mathcal{X}'\sim\mathcal{P}(\mathcal{X})}[\mathcal{P}(\mathcal{Y}\mid\mathcal{X}',\mathcal{M})]\big]\)。直接算这个嵌套期望太贵，于是用 NWGM（归一化加权几何平均）近似，把期望挪进概率里，并沿用前人把前门调整从最终预测层推广到中间特征层、表述成线性映射的做法，最终化简为 \(\mathcal{P}(\mathcal{Y}\mid do(\mathcal{X}))\approx\mathcal{P}\big(\mathcal{Y}\mid\mathbb{E}_{\mathcal{X}'}[\mathcal{X}']+\mathbb{E}_{\mathcal{M}\mid\mathcal{X}}[\mathcal{M}]\big)\)。

这一步的价值在于：实现前门调整被归约成只需估计两个期望 \(\mathbb{E}_{\mathcal{M}\mid\mathcal{X}}[\mathcal{M}]\) 和 \(\mathbb{E}_{\mathcal{X}'}[\mathcal{X}']\)。而期望在复杂表征空间没有闭式解，作者借鉴字典学习，把期望写成可学习基向量的线性组合 \(\mathbb{E}[\mathcal{V}]\approx\frac{1}{S}\sum_{i=1}^{S}\sum_{k=1}^{K}c_{ik}b_k\)（\(b_k\) 是基、\(c_{ik}\) 是系数）。和靠外部混杂字典 + 聚类/动量后处理的旧因果方法相比，这条路不需要任何外部混杂定义，且基天然诱导低秩结构、表征更紧凑，因而即插即用、可扩展

2. Sample Queries：跨样本聚合可泛化信息，估出 \(\mathbb{E}[\mathcal{X}]\)

期望 \(\mathbb{E}_{\mathcal{X}'\sim\mathcal{P}(\mathcal{X})}[\mathcal{X}']\) 是对输入边缘分布求期望，单张图算不出来。CBB 引入一组可学习的 Sample Queries \(\mathcal{Q}_s\in\mathbb{R}^{S\times C}\)，作用类似 DETR/Mask2Former 里的 object queries——训练过程中它们隐式地把整个训练集的全局表征聚合进自己，从而指导期望估计。给定输入特征 \(\mathcal{X}_{in}\in\mathbb{R}^{B\times N\times C}\)，先算 query 响应 \(\mathcal{X}'_q=\mathcal{X}_{in}\mathcal{Q}_s^{\top}\)，沿样本维 \(S\) 做 Softmax 得 \(p\)，再加权求和得到空间加权图 \(\mathcal{A}=\sum_{i=1}^{S}p_i\mathcal{X}'_{q,i}\in\mathbb{R}^{B\times N\times 1}\)；用 \(\mathcal{A}\) 重加权输入得到 query 引导特征 \(\mathcal{X}_q=\mathcal{A}\odot\mathcal{X}_{in}\)。

直白说，\(\mathcal{A}\) 像一张"哪些空间位置承载可泛化信息"的注意力图，把 \(\mathcal{X}_{in}\) 中被各源域共享、不依赖某个混杂因子的部分突出出来。这一步先做"挑可泛化信息"，为后面投影到低秩子空间做准备，是估期望 \(\mathbb{E}[\mathcal{X}]\) 的第一道工序

3. 低秩基子空间投影：滤冗余、保主成分，给出期望闭式近似

只挑可泛化位置还不够，特征里仍有冗余和任务无关成分。CBB 引入一组可学习基 \(\mathcal{B}=[b_1,\dots,b_K]\in\mathbb{R}^{K\times C}\) 且 \(K<C\)，构成一个低秩子空间。把 query 引导特征 \(\mathcal{X}_q\) 投到这个子空间，系数为 \(\mathcal{C}=\mathcal{X}_q\mathcal{B}^{\top}(\mathcal{B}\mathcal{B}^{\top})^{-1}\in\mathbb{R}^{B\times N\times K}\)（其中 \((\mathcal{B}\mathcal{B}^{\top})^{-1}\) 是归一化项，因为训练中基不一定保持正交），再重建回原空间得期望估计 \(\mathbb{E}[\mathcal{X}_{in}]\approx\mathcal{C}\mathcal{B}\in\mathbb{R}^{B\times N\times C}\)。

整条路径是 \(\mathbb{R}^{N\times C}\to\mathbb{R}^{N\times K}\to\mathbb{R}^{N\times C}\)：先压到 \(K\) 维丢掉冗余，再升回 \(C\) 维。因为 \(K<C\)，重建只能用最有代表性的少数主成分，相当于把特征对齐到样本分布的核心方向，从而近似样本期望、拒绝噪声。\(K\) 越小滤得越狠、保留的越是通用表征——实验里强 backbone（DINOv3）用 12.5% 的维度就最好，弱一点的（SAM/SD）要 50%–70%。还有个部署红利：推理时 \(\mathcal{B}^{\top}(\mathcal{B}\mathcal{B}^{\top})^{-1}\mathcal{B}\) 可预计算成固定的 \(C\times C\) 矩阵，省算力、好落地

4. 特征聚合：中介特征兜底任务信息

前两个期望都是"去混杂、求通用"的方向，光靠它们会丢掉对当前检测任务有用的细节。CBB 先用一个简单卷积块从输入造出中介特征 \(\mathcal{M}=\mathrm{Conv}(\mathcal{X}_{in})\)，再用上面的方法估出 \(\hat{\mathbb{E}}[\mathcal{X}]\) 和 \(\hat{\mathbb{E}}[\mathcal{M}]\)，最终输出为 \(\mathcal{F}_{\text{out}}=\hat{\mathbb{E}}[\mathcal{X}]+\hat{\mathbb{E}}[\mathcal{M}]+\mathcal{M}\)。

这个加和有清晰分工：前两项 \(\hat{\mathbb{E}}[\mathcal{X}]+\hat{\mathbb{E}}[\mathcal{M}]\) 对应前门调整公式里的两个期望，负责阻断虚假相关；最后单独加回 \(\mathcal{M}\)，是为了把被低秩压缩可能滤掉的任务特定信息保留下来，避免因果校准过度后检测细节缺失。CBB 整体跟下游 loss 端到端训练，不需要额外监督信号

实验关键数据¶

主实验¶

五个 DGOD 基准、AP50 为指标。Bridge 既能挂判别式 VFM（DINOv2-L / DINOv3-L / SAM-Huge），也能挂生成式 VFM（Stable Diffusion v2.1，配 CrossKD 蒸馏到 R101 学生）。下表摘最具代表性的几组对比（mAP / %）。

基准（训练→测试）	配置	baseline	Bridge	提升
Cross-Camera（Cityscapes→BDD100K）	Diff. Detector(SD) vs Boost	49.3	53.1	+3.8
Cross-Camera	DINOv2 backbone	51.8	56.9	+5.1
Adverse Weather（City→FoggyCity）	DINOv2 backbone	52.8	58.2	+5.4
Adverse Weather	DINOv3 backbone	57.7	61.6	+3.9
Real-to-Artistic（VOC→3 风格，avg）	DINOv2 backbone	65.4	69.4	+4.0
Diverse Weather Datasets（avg）	DINOv2 backbone	40.8	44.8	+4.0
DroneVehicle Extreme-Dark	DINOv3 backbone	33.7	34.0	+0.3

相对各基准前一名（runner-up），Bridge 分别 +3.8 / +2.9 / +2.4 / +0.4 / +1.5 mAP。最戏剧性的是 Diverse Weather DroneVehicle 的 Extreme-Dark 场景：纯 Faster R-CNN 只有 8.1 mAP，挂上 Bridge 的 Diff. Detector / DINOv2 / DINOv3 分别冲到 24.2 / 29.8 / 34.0——极低光、低信噪比下，低秩基能聚焦因果表征、保住关键特征。

消融实验¶

组件消融（Table 6，City→FoggyCity，mAP）：

配置	DINOv3	SAM	SD	说明
baseline	57.7	45.8	51.8	冻结 VFM 直接接头
+ 低秩基 LRB	60.9	49.2	53.1	DINOv3/SAM/SD 各 +3.2/+3.4/+1.3
+ LRB + Sample Queries	61.6	49.9	53.6	再 +0.7/+0.7/+0.5

因果建模方式对比（Table 7，DINOv3，五基准 mAP）：把 GOAT 的前门调整用 cross-attention 重实现成 FACL 插在多尺度层之间，几乎没涨甚至掉点（BDD 57.8→58.5、DWD 48.6→48.2、R2A 72.7→71.6）；换成 CBB 则全面提升（58.9 / 61.6 / 50.8 / 48.4 / 73.3）。

关键发现¶

低秩基是主力：组件消融里 LRB 单独就带来绝大部分增益（DINOv3 +3.2、SAM +3.4），Sample Queries 再补 +0.5~0.7，二者互补。
基比例随 backbone 强弱反向变化：强 backbone DINOv3 在 12.5% 比例下最好（61.6），说明强表征只需极紧凑的基空间；SAM/SD 表征能力弱，需 50%–70% 比例保住特征多样性。
越难的场景增益越大：在共现严重的 rider/bike/person/motor 类、以及极暗/雨夜场景提升最明显，印证 CBB 确实在阻断"共现/光照"这类混杂。
跨检测器通用（Table 9）：除 Faster R-CNN 外，挂到 Sparse R-CNN、TOOD 上同样一致提升（如 TOOD 在 DWD 47.3→50.1、Drone 46.8→50.3）。

亮点与洞察¶

把抽象因果公式落成两个可算的期望，再用低秩基一锅端：前门调整最难的是估期望，本文用"Sample Queries 挑可泛化信息 + 低秩基投影滤冗余"两步逼近，既消混杂又顺手做了特征净化，一举两得，很优雅。
真正即插即用、backbone 无关：判别式（DINOv2/3、SAM）和生成式（Stable Diffusion）VFM 通吃，且 VFM 全程冻结、只训 CBB+检测头，部署成本低；推理时投影矩阵还能预计算成固定 \(C\times C\) 矩阵。
"低秩比例 ∝ backbone 弱"这个观察很有迁移价值：它把"需要多大子空间"和"backbone 表征质量"挂钩，给其他用低秩/瓶颈结构净化特征的任务一个直接可借的调参直觉——backbone 越强，瓶颈可以压得越狠。
顺手补了一个 benchmark：给 DroneVehicle 标注天气条件（Clear/Dark/Foggy/Extreme-Dark），填补了 UAV 遥感场景下域泛化检测缺多样天气评测的空白。

局限与展望¶

作者承认：CBB 只是用低秩基 + Sample Queries近似前门调整里的期望，没有解析闭式解——表征空间太复杂导致闭式解不可得，近似质量本身没有理论界。
中介变量 \(\mathcal{M}\) 的"因果合法性"靠假设：\(\mathcal{M}=\mathrm{Conv}(\mathcal{X}_{in})\) 是否真落在 \(\mathcal{X}\to\mathcal{Y}\) 因果路径上、是否满足前门准则，文中并未验证，更多是工程上的可学中介，⚠️ 这点需读者留意。
部分基准提升边际：Real-to-Artistic 的 SD backbone 仅 +0.4、DroneVehicle Extreme-Dark 的 DINOv3 仅 +0.3，强 baseline 下增益变小，说明方法在表征已很强时收益递减。
可改进方向：把中介变量的选择/正则做得更有因果保证（如加独立性约束），或把基学习从线性子空间推广到非线性流形，可能进一步提升弱光、强风格迁移等极端场景。

评分¶

新颖性: ⭐⭐⭐⭐ 把前门调整重写成"估两个期望"并用低秩基落地，因果理论与即插即用工程结合得巧，但前门调整+基学习的各组件均有前身。
实验充分度: ⭐⭐⭐⭐⭐ 五个基准 + 四种 VFM + 三种检测器 + 组件/基比例/跨检测器多维消融，还自建 DroneVehicle 天气 benchmark。
写作质量: ⭐⭐⭐⭐ 因果推导到模块实现的链路清晰、图文对应好；中介变量因果合法性等假设可再交代清楚。
价值: ⭐⭐⭐⭐ 即插即用、backbone 无关、部署友好，对 VFM-based DGOD 是实用的一层因果校准，且补了遥感天气评测空白。