Adapting Point Cloud Analysis via Multimodal Bayesian Distribution Learning¶

会议: CVPR 2026
arXiv: 2603.22070
代码: 无
领域: 3D Vision / Point Cloud Analysis
关键词: 测试时适配, 点云识别, 贝叶斯推断, 多模态分布学习, 零样本泛化

一句话总结¶

BayesMM 提出了一个无需训练的动态贝叶斯分布学习框架，将文本和几何模态建模为高斯分布，并通过贝叶斯模型平均自动调节模态权重，在多个点云基准上实现了鲁棒的测试时适配，平均提升超过 4%。

研究背景与动机¶

领域现状：大型多模态 3D 视觉-语言模型（如 ULIP-2、Uni3D）通过对比预训练实现了良好的零样本泛化能力，但在分布偏移下性能明显下降。

现有痛点： - 基于缓存的测试时适配（TTA）方法维护有限容量的样本缓存，样本替换导致渐进的信息丢失； - 零样本和缓存 logits 的融合依赖经验调参（\(\lambda\), \(\gamma\)），缺乏理论基础，适配过程不稳定。

核心矛盾：如何在测试时持续利用所有历史样本的统计信息，同时以有原则的方式融合不同模态？

本文切入角度：将每个类别的文本和几何特征建模为高斯分布，在贝叶斯框架下自动平衡两个模态的贡献。

核心 idea：用分布替代离散缓存，用贝叶斯模型平均替代启发式融合，实现连续、稳定、无需训练的测试时适配。

方法详解¶

整体框架¶

BayesMM 要解决的是：当点云数据在测试时发生分布偏移（噪声、抖动、缺失），预训练的 3D 视觉-语言模型怎么不重新训练就稳住精度。它的做法是把"每个类别长什么样"从一组离散的缓存样本，换成一个会随数据流不断更新的高斯分布。整条流程是这样转的：先用文本编码器把每类的若干释义压成一个文本高斯分布（离线，只算一次）；测试时每来一个点云样本，就用它把对应类别的几何高斯分布在线递归更新一次；最后预测时不再手调一个融合系数，而是让文本分布和几何分布各自按"自己对这个样本的解释力"来分摊权重，加权得到类别概率。所有编码器全程冻结，整个适配只是高斯参数的闭式更新。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["类别名<br/>（LLM 生成 M 个语义释义）"] --> B["文本分布学习<br/>文本编码器 → MAP 估计类别高斯先验"]
    P["测试点云流 x_t<br/>（含噪声/抖动/缺失）"] --> C["几何分布学习<br/>几何编码器 → 在线递归更新几何高斯"]
    B -->|"文本原型作初始 μ₀"| C
    B --> D["贝叶斯多模态加权<br/>按后验证据分摊文本/几何权重"]
    C --> D
    D --> E["类别概率 p(c|x_t)"]

关键设计¶

1. 文本分布学习：用一团释义而非单一模板来锚定类别语义

单条 prompt 模板（如"a point cloud of a {class}"）只能给出类别语义的一个采样点，遇到表述多样的真实类别就显得脆弱。BayesMM 让 LLM 为每类生成 \(M\) 个语义释义，过文本编码器后得到 \(M\) 个特征，估计出经验均值 \(\bar{\mathbf{z}}^c\) 和协方差 \(\mathbf{S}^c\)，再以高斯先验 \(p(\boldsymbol{\nu}^c) = \mathcal{N}(\bar{\mathbf{z}}^c, \beta^2\mathbf{I})\) 做 MAP 估计，得到一个确定性的类别原型 \(\boldsymbol{\nu}^c_{\text{MAP}}\)。这样类别先验不再是一个点，而是带方差的一片区域，既保留了语义多样性，又给后面几何分布的递归更新提供了一个稳定的起点。

2. 几何分布学习：让分布吃下整条历史流，而不是塞进一个会溢出的缓存

基于缓存的 TTA 之所以会渐进掉点，是因为缓存容量有限，新样本进来就得挤掉旧样本，历史统计被一点点丢掉。BayesMM 改成为每个类别维护一个在线高斯 \(\{\boldsymbol{\mu}_t^c, \boldsymbol{\Sigma}_t^c\}\)，初始就用文本原型 \(\boldsymbol{\mu}_0^c = \bar{\mathbf{z}}^c\) 起步，每到一个新样本 \(\mathbf{x}_t\) 就按贝叶斯规则做一次闭式递归更新：

\[\boldsymbol{\Sigma}_t^c = \big((\boldsymbol{\Sigma}_{t-1}^c)^{-1} + (\boldsymbol{\Sigma}^c)^{-1}\big)^{-1}, \qquad \boldsymbol{\mu}_t^c = \boldsymbol{\Sigma}_t^c\big((\boldsymbol{\Sigma}^c)^{-1}\mathbf{x}_t + (\boldsymbol{\Sigma}_{t-1}^c)^{-1}\boldsymbol{\mu}_{t-1}^c\big)\]

更新只是上一时刻分布与新样本似然的精度加权平均，所有看过的样本都通过这套递推持续沉淀进 \((\boldsymbol{\mu}_t^c, \boldsymbol{\Sigma}_t^c)\) 里，既没有容量上限，也不会因为替换而丢信息。

3. 贝叶斯多模态加权：让证据而非手调系数来决定文本和几何谁说了算

缓存方法融合零样本 logits 和缓存 logits 时要靠经验调 \(\lambda\)、\(\gamma\)，跨域时这套参数往往失灵。BayesMM 把融合写成贝叶斯模型平均：

\[p(c|\mathbf{x}_t) = p(c|\mathbf{x}_t, \boldsymbol{\Omega}^c)\, p(\boldsymbol{\Omega}^c|\mathbf{x}_t) + p(c|\mathbf{x}_t, \boldsymbol{\Theta}_t^c)\, p(\boldsymbol{\Theta}_t^c|\mathbf{x}_t)\]

文本模态和几何模态各自的权重就是它们对当前样本的后验证据 \(p(\boldsymbol{\Omega}^c|\mathbf{x}_t)\) 与 \(p(\boldsymbol{\Theta}_t^c|\mathbf{x}_t)\)——哪个模态对这个样本解释得更好，权重就自动倾向哪边。于是当几何分布还没攒够样本时文本先验主导，几何统计稳定后权重自然移过去，整个过程没有任何需要随域手调的旋钮。

损失函数 / 训练策略¶

完全无需训练：冻结所有编码器，仅通过贝叶斯规则在线更新分布参数
无额外超参数需要随域变化调整

实验关键数据¶

主实验（ModelNet-C，7 种腐蚀类型）¶

基础模型	方法	Add Global	Add Local	Drop Global	Jitter	平均
ULIP	Zero-shot	33.55	43.92	54.70	44.08	48.60
ULIP	+ Hierarchical Cache	46.15	47.85	59.16	49.92	55.02
ULIP	+ BayesMM	54.82	53.93	63.09	53.04	59.42
Uni3D	Zero-shot	72.45	56.36	68.15	56.24	69.69
Uni3D	+ Hierarchical Cache	77.51	71.15	72.16	62.52	74.63
Uni3D	+ BayesMM	77.59	73.30	74.96	65.84	76.56

消融实验（分布一致性验证）¶

配置	KL 散度（初始→最终）	MMD（初始→最终）	说明
仅文本模态	较高	较高	单模态不足
仅几何模态	中等	中等	缺少语义先验
BayesMM（完整）	17.2 → 12.6	0.91 → 0.71	贝叶斯融合持续收敛

关键发现¶

BayesMM 在所有四个基础模型（ULIP、ULIP-2、OpenShape、Uni3D）上均带来显著提升
在 Sim-to-Real 设置中同样有效，证明跨域泛化能力
KL 和 MMD 随适配进行持续降低，说明分布不断align 而非过拟合

亮点与洞察¶

完全无需训练的 TTA 方法：无需梯度更新，仅通过闭式贝叶斯更新实现
将分布学习引入 3D 多模态 TTA，在理论上比缓存方法更优雅
模型无关：可即插即用到任何预训练3D视觉-语言模型

局限与展望¶

高斯假设可能不适合复杂的非高斯特征分布
类别数很多时，维护每类协方差矩阵的计算开销较大
当测试流中某类样本极少时，几何分布可能估计不准

评分¶

新颖性: ⭐⭐⭐⭐ 贝叶斯框架替代缓存方法，理论优雅
实验充分度: ⭐⭐⭐⭐⭐ 四个基础模型×多个基准×多种设置
写作质量: ⭐⭐⭐⭐ 推导清晰，公式严谨
价值: ⭐⭐⭐⭐ 即插即用的实用 TTA 方案