Geometry-based Schrödinger Bridges for Trustworthy Multimodal Fusion¶

会议: ICML 2026
arXiv: 2605.31193
代码: 暂无
领域: 多模态VLM / 可信融合 / 生成式几何
关键词: 可信多模态融合, Schrödinger 桥, Rectified Flow, 传输能量, 证据学习

一句话总结¶

本文提出 GMF：用 Diffusion Schrödinger Bridge + Rectified Flow 在潜空间估计每个模态的"传输修正成本"（初始速度平方 \(\|v_\theta(z,0)\|^2\)），作为一个与分类器置信度解耦的几何可靠性信号来动态加权多模态融合，从而打破"模型自己评判自己"的循环依赖，在传感器噪声和语义冲突下显著优于基于置信度的可信融合基线。

研究背景与动机¶

领域现状：可信多模态融合（Trustworthy Multimodal Fusion）的主流路线是 dynamic fusion——先独立处理每个模态，再按"模态质量"加权聚合预测。代表方法 TMC、QMF、PDF、DBF 等都用分类器输出（熵、证据、Dirichlet 浓度）作为质量评分。

现有痛点：深度网络存在严重的过度自信问题（Guo et al. 2017）。在严重噪声、OOD 或语义冲突场景下，分类器可能"自信地错"——输出概率很尖锐但答案是错的。基于置信度的方法把"我有多自信"当作"输入有多干净"，无法识别这种 confident-but-wrong 的失败模式。

核心矛盾：可靠性评估和被评估的预测来自同一个模型，形成循环依赖（circular dependency）——用预测去判断预测的可靠性。当分类器被欺骗时，所有依赖其输出的可靠性度量也一起失效。

本文目标：构造一个独立于分类器决策边界的可靠性信号，使得即使分类器被严重噪声或冲突输入欺骗，融合机制仍能正确识别坏模态并降低其权重。

切入角度：作者把"模态质量"重新定义为潜空间几何偏离度——干净样本聚在数据流形上，OOD/噪声样本远离流形。如何度量"远离"？用最优传输：把样本传输到一个参考分布所需的"修正功"。

核心 idea：用 Diffusion Schrödinger Bridge 学一条从潜特征到参考分布的传输路径，用 Rectified Flow 把路径拉直成单步线性预测；初始速度平方 \(\|v_\theta(z,0)\|^2\) 就是一个高效的"几何不可靠分"——干净样本传输代价低，噪声/冲突样本传输代价高，且这个度量与分类器 logits 完全解耦。

方法详解¶

整体框架¶

GMF 要解决的是"模型自己评判自己"的循环依赖：把每个模态的质量分从分类器输出里挪出来，改成在潜空间用几何度量算。\(M\) 个模态先各自经编码器得到潜特征 \(z^{(m)} = E^{(m)}(x^{(m)}) \in \mathbb{R}^d\)，然后 GMF 在潜空间上同时算两类"传输修正成本"——模态内的（离干净流形多远）和模态间的（和别的模态对不对得上），再用一个竞争-交互门控把它们合成融合权重 \(w^{(m)}\)，最后与证据 \(\mathbf{e}^{(m)} = \text{Softplus}(z^{(m)} W_{\text{cls}}^{(m)})\) 组装成 Dirichlet 参数 \(\boldsymbol{\alpha} = \sum_m w^{(m)} \mathbf{e}^{(m)} + \mathbf{1}\) 喂给 evidential 分类头。整个几何分支与决策分支的梯度路径刻意分开，避免分类器把几何度量重新拉回到自己的决策边界上。

%%{init: {'flowchart': {'rankSpacing': 26, 'nodeSpacing': 30, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["M 个模态输入"] --> B["各模态编码器 → 潜特征 z^(m)"]
    B --> C["模态内传输能量<br/>RF 初速度平方 ‖v(z,0)‖² 离干净流形多远"]
    B --> D["跨模态传输残差<br/>一步投影残差 ‖ẑ−z‖² 两模态对不对得上"]
    C --> E["竞争-交互融合权重 w^(m)<br/>竞争层 Boltzmann + 交互层可靠邻居投票"]
    D --> E
    B --> F["证据 e^(m)=Softplus(z·W)"]
    E --> G["Dirichlet 参数 α=Σ w·e + 1"]
    F --> G
    G --> H["evidential 分类头 → 预测"]

关键设计¶

1. 模态内传输能量：一个与分类器解耦的"离流形多远"标量

要打破循环依赖，关键是给每个模态一个不看分类器输出的质量分。GMF 把"质量"重定义为潜空间几何偏离度——干净样本聚在数据流形上、传输代价低，噪声/缺失样本远离流形、传输代价高。形式上这是个 Schrödinger Bridge 问题 \(\min_v \int_0^1 \mathbb{E}\|v_t\|^2 dt\)，但直接迭代积分太慢，于是用 Rectified Flow 把传输路径线性化：在插值 \(z_t = (1-t)z_0 + t z_1\) 上回归常速度，目标 \(\mathcal{L}_{\text{RF}} = \mathbb{E}_{t, z_0, z_1}\|v_\theta(z_t, t) - (z_1 - z_0)\|^2\)，把 \(z^{(m)}\) 传到一个类无关参考先验 \(\mathcal{P}_{\text{prior}}\)。推理时只在源点评一次速度场，取 \(\mathcal{E}_{\text{intra}}^{(m)} = \|v_\theta^{(m)}(z^{(m)},0)\|_2^2\) 当模态的内在质量分。这样设计有三重好处：单步推理延迟低、可在线部署；在源点求值让推理分布与训练一致；最关键的是这个量与分类器 logits 完全正交——分类器可以"自信地错"，但它骗不了"样本离流形多远"，于是 confident-but-wrong 的失败终于有了一个外部检测器。

2. 跨模态传输残差：在潜空间直接拍语义冲突

光看单模态干不干净还不够，两个模态可能各自都很干净却互相矛盾（比如图文被打乱配对）。GMF 不依赖解码器，而是为每个有向对 \((a \to b)\) 单独学一个跨模态速度场 \(v_\Phi^{(a \to b)}\)，用 \(\mathcal{L}_{\text{inter}}^{(a \to b)} = \mathbb{E}\|v_\Phi^{(a \to b)}(z_t, t) - (z^{(b)} - z^{(a)})\|^2\) 学会把 \(a\) 的流形映到 \(b\) 的流形。推理时一步投影 \(\hat{z}^{(a \to b)} = z^{(a)} + v_\Phi^{(a \to b)}(z^{(a)}, 0)\)，残差 \(\mathcal{E}_{\text{inter}}^{(a \to b)} = \|\hat{z}^{(a \to b)} - z^{(b)}\|_2^2\) 越大说明两模态越对不上。论文进一步证明（Thm 4.5，Geometric Barrier Principle）：若两模态落在不同类的流形上，残差有下界 \((\delta - 2\epsilon)^2\)。其意义在于把"两个模态是否说同一件事"从容易被双双过自信骗到的分类器层，下沉到分类器无法伪造的潜空间几何层。

3. 竞争-交互融合权重：让自信但冲突的坏模态被双重削权

有了内在质量分 \(\mathcal{E}_{\text{intra}}\) 和跨模态一致性 \(\mathcal{E}_{\text{inter}}\)，还需要把它们合成最终权重 \(w^{(m)}\)，并保证"既不干净又被邻居否认"的模态被压到最低。GMF 用两层门控：竞争层按 Boltzmann 分配基分 \(\beta_{\text{comp}}^{(m)} = \exp(-\mathcal{E}_{\text{intra}}^{(m)}/\tau) / \sum_k \exp(-\mathcal{E}_{\text{intra}}^{(k)}/\tau)\)，让自身干净的模态先拿高分；交互层 \(\gamma_{\text{int}}^{(m)} = \lambda \sum_{k \neq m} r^{(k)} \exp(-\mathcal{E}_{\text{inter}}^{(k \to m)}/\kappa)\) 收集"可靠邻居"的几何投票，其中 \(r^{(k)} = \sigma(\theta_r - \mathcal{E}_{\text{intra}}^{(k)})\) 是邻居本身的可靠性软门（不可靠的邻居没有投票权）；加 \(\epsilon_\gamma\) 数值稳定后归一化得 \(w^{(m)} = \beta_{\text{comp}}^{(m)} \tilde{\gamma}_{\text{int}}^{(m)} / \sum_j \beta_{\text{comp}}^{(j)} \tilde{\gamma}_{\text{int}}^{(j)}\)。两层叠加的效果是：竞争项保证干净模态拿权重，交互项把被可靠邻居否认的模态指数压低（对应推论 4.6 的冲突模态指数抑制），于是自信但冲突的坏模态被双重削权，循环依赖被打破。论文还证明（Thm 4.4）这个权重恰是一个熵正则最小化问题的 Gibbs 解，给门控形式提供了理论落点。

损失函数 / 训练策略¶

总目标 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{task}} + \lambda_{\text{geo}} \mathcal{L}_{\text{geo}} + \lambda_{\text{reg}} \mathcal{L}_{\text{reg}}\)。其中：

\(\mathcal{L}_{\text{geo}} = \sum_m \mathcal{L}_{\text{intra}}^{(m)} + \sum_{a \neq b} \mathcal{L}_{\text{inter}}^{(a \to b)}\) 训练所有 RF 速度场；
\(\mathcal{L}_{\text{task}}\) 是 evidential 交叉熵 + KL 正则（往均匀 Dirichlet 拉，惩罚证据不足的过自信）；
\(\mathcal{L}_{\text{reg}} = (1 - \rho)^\zeta \cdot \text{KL}(\text{Dir}(\boldsymbol{\alpha}) \| \text{Dir}(\mathbf{1}))\) 用全局一致性系数 \(\rho = \frac{1}{M(M-1)} \sum_{a \neq b} \exp(-\mathcal{E}_{\text{inter}}^{(a \to b)}/\kappa)\) 在跨模态分歧大时强制预测分布趋向均匀。

关键训练 trick：在算融合权重时对 \(\mathcal{E}_{\text{intra}}, \mathcal{E}_{\text{inter}}\) 做 stop-gradient（sg），让 \(\mathcal{L}_{\text{task}}\) 只更新编码器与分类头、\(\mathcal{L}_{\text{geo}}\) 只更新速度场，避免任务梯度污染几何度量。

实验关键数据¶

主实验¶

四个 benchmark：NYU Depth V2（RGB-D）、UPMC FOOD-101（图文）、MVSA-Single（图文情感）、PneumoniaMNIST（X-ray + 报告）。和 10 个基线对比（含 TMC、QMF、PDF、DBF、UAW-EEF 等）。

传感器噪声鲁棒性（NYU/Food-101，加 Gaussian 噪声 \(\sigma \in \{1.0, 2.0\}\)，或 50% 模态缺失）：

数据集	场景	Concat	QMF	PDF	DBF	UAW-EEF	GMF
NYU	Clean	68.5	71.2	72.5	72.3	71.8	71.9
NYU	\(\sigma=2.0\)	28.4	45.8	47.5	49.1	50.2	55.2
NYU	Incomplete	35.8	56.4	58.2	60.3	61.5	64.8
Food-101	\(\sigma=2.0\)	30.2	48.6	51.2	52.4	53.1	58.7
Food-101	Incomplete	41.2	78.5	80.6	81.3	82.4	85.4

干净数据上 GMF 与最优持平，噪声越严重领先越大——验证了"几何信号在过自信场景下仍有效"的假设。

语义冲突安全性（MVSA-Single，shuffle 图文对制造冲突）：

方法	Rejection Rate ↑	Avg Entropy ↑	CDR (AUROC) ↑
QMF	18.5%	0.52	56.8
PDF	21.3%	0.58	60.1
DBF	35.2%	0.94	71.2
GMF	76.8%	1.85	89.4

冲突拒绝率比次优方法 DBF 高 41.6 pp，AUROC 高 18.2 pp——说明纯靠预测空间证据的方法（QMF/PDF/DBF）在"两个都过自信但矛盾"的输入上几乎检测不到冲突，而 GMF 的跨模态传输残差能直接拍出冲突。

医学风险分层（PneumoniaMNIST）：GMF 准确率 91.2%，与正确性的 Pearson 相关 \(r=0.78\)（次优 DBF 仅 0.61），ECE 降到 0.068（次优 0.095）。

消融实验¶

配置	关键指标	说明
Full GMF	\(\sigma=2.0\) 准确率 55.2%	完整模型
用 predictive entropy 替代 \(\mathcal{E}_{\text{intra}}\)	36.8%	掉 18.4 pp；MI(可靠性, 置信度) 从 0.10 飙到 0.67——验证统计度量与置信度高度耦合，几何度量解耦
用 cosine similarity 替代 flow-based \(\mathcal{E}_{\text{inter}}\)	冲突检测大幅下降	说明语义冲突在潜空间是非线性几何畸变，线性度量抓不到
1-step RF vs 多步 ODE 积分	准确率几乎相同	验证 RF 拉直假设成立，单步速度估计够用
先验 \(\mathcal{P}_{\text{prior}}\)：\(\mathcal{N}(0,I)\) vs \(\mathcal{N}(0,\Sigma)\) vs Laplace	性能稳定	几何信号主要来自学到的传输结构，对先验选择不敏感

关键发现¶

几何信号的独立性是关键：消融中把 \(\mathcal{E}_{\text{intra}}\) 换成 entropy，准确率立刻掉到 statistical baseline 水平且 MI 飙升，说明"打破循环依赖"不是论文嘴上说说，是真的需要一个外部信号。
冲突检测的指数门控被实证支持：图 2(b) 显示 \(w^{(m)}\) 关于 \(\mathcal{E}_{\text{inter}}\) 大致服从 \(e^{-\mathcal{E}_{\text{inter}}/\kappa}\) 的指数衰减，干净对集中在 \(\mathcal{E}_{\text{inter}} < 5\)，冲突对集中在 \(> 9\)，几何屏障定理在实验上得到验证。
单步 RF 在精度损失可忽略的前提下把延迟拉到与 PDF/DBF 同档，让 GMF 在 safety-critical 实时场景可用。

亮点与洞察¶

"循环依赖"这个 framing 抓得很准：之前的可信融合工作虽然各自加 trick，但都没把"用预测评估预测"这一根本结构性弱点点破。一旦把它点出来，"必须用一个 prediction-free 的外部信号"就成了几乎自明的设计原则，本文的方法只是这个原则下的一种具体实例化——这种"先重塑问题再给方法"的论文写法很值得学。
生成模型当作几何探针，而非生成器：Schrödinger Bridge / Rectified Flow 本来是 generative model，本文却只取它训练好后一次前向的速度向量模长作为标量探针，完全不做采样。这种"用生成模型副产物当判别信号"的思路可以迁移到 OOD 检测、对抗样本检测、医学异常检测等任何需要"流形偏离度"的任务。
几何屏障定理把可解释性钉死在假设上：Thm 4.5 用 \((\delta - 2\epsilon)^2\) 这种几何量给出了冲突模态被指数压制的下界，配合 Thm 4.4 把融合权重证明成熵正则最小化的唯一解——整套理论虽然假设很强（latent regularity + cross-modal Lipschitz），但提供了一个干净的"几何 → 权重 → 安全"的可解释链路。
训练时分离梯度路径这个工程细节非常关键，否则任务损失会把速度场拽偏，让传输能量重新和分类器耦合，循环依赖就回来了。

局限与展望¶

作者承认的局限：理论 Thm 4.5 依赖"潜空间类流形可分（concentration + metric separability）"以及"跨模态映射局部 \(\xi\)-语义一致"这两个强假设，在表示学习失败或模态本身没对齐的场景下不成立。
跨模态速度场数量随 \(M\) 平方增长（每个有向对一个 \(v_\Phi^{(a \to b)}\)），对 \(M \geq 4\) 的多传感器系统参数和训练成本都会膨胀，论文只做了 2 模态实验，可扩展性未验证。
类无关参考先验 \(\mathcal{P}_{\text{prior}}\) 抹掉了类信息，对于"同类内分布转移"（如同一类的不同 domain）能否区分需要进一步验证；论文说先验选择不敏感，但没测先验完全 misspecified 的情况。
MVSA-Single 上 76.8% 的 Rejection Rate 听起来高，但意味着仍有 23% 的冲突未被检出，在真正 safety-critical 的医疗/自驾上还远未达到可部署的可靠性。
改进方向：(1) 用 amortized cross-modal field（一个网络条件在 \((a, b)\) 上）替代 pair-specific，把 \(O(M^2)\) 参数压到 \(O(M)\)；(2) 把传输能量作为外部信号接入 LLM-based fusion，给 VLM 加一个潜空间几何 sanity check；(3) 把"几何屏障"扩展到时间维度，做视频/时序多模态的可信融合。

评分¶

新颖性: ⭐⭐⭐⭐ "把可信融合的失败诊断为循环依赖，并用 RF/SB 的几何探针打破它"是一个清爽且未被前人系统化的视角，理论+方法+实验闭环完整。
实验充分度: ⭐⭐⭐⭐ 4 个 benchmark、10 个基线、3 类压力测试（噪声 / 冲突 / 缺失 / 医学）覆盖到位，消融把"几何 vs 统计"的解耦量化（MI 0.10 vs 0.67）做得很有说服力；但模态数都 ≤2，没验证 \(M \geq 3\) 的可扩展性。
写作质量: ⭐⭐⭐⭐ "循环依赖"叙事把动机讲得非常清楚，理论部分（Thm 4.4 / 4.5）虽假设强但与实验呼应紧密；公式排版较密集，部分符号（\(\rho\) 同时被局部/全局使用）需要细读才能厘清。
价值: ⭐⭐⭐⭐ 可信多模态融合在自动驾驶/医疗诊断/机器人是刚需，本文提出的"用生成模型副产物当外部可靠性信号"的范式有较强通用性，工程上几何分支可以模块化嵌到现有 dynamic fusion 系统。