DOTA: DistributiOnal Test-time Adaptation of Vision-Language Models¶

会议: NeurIPS 2025
arXiv: 2409.19375
代码: 无（论文提及将发布）
领域: 多模态VLM
关键词: 测试时自适应, CLIP, 分布估计, 高斯判别分析, 零样本分类

一句话总结¶

DOTA提出将测试时自适应从"缓存样本实例"范式转变为"持续估计测试数据分布"范式，通过在线高斯判别分析结合零样本预测概率估计类别分布，实现无梯度、抗遗忘的高效测试时自适应，在10个跨域基准上平均准确率超越所有基线。

领域现状 CLIP等视觉语言基础模型在广泛任务上表现出色，但部署时训练-测试分布差异常导致性能下降。测试时自适应（TTA）是低成本弥合这一差距的有效手段。

现有痛点 当前TTA方法分两类：(1) 基于提示学习（TPT等）需要梯度反传，推理代价大；(2) 基于缓存（TDA、BoostAdapter）仅存储有限"典型"样本，在缓存更新时不可避免地丢弃旧样本，导致灾难性遗忘。

核心矛盾 缓存方法的核心局限在于：有限容量下存储离散样本无法充分利用全部测试数据，且缓存替换导致已学到的分布信息丢失。

本文目标 设计一种无需梯度、无容量限制、能持续从所有测试样本中学习的TTA方法。

切入角度 从"记忆实例"转向"估计分布"——假设各类嵌入服从高斯分布，利用零样本预测概率进行在线EM参数估计。

核心 idea 用在线高斯判别分析持续估计测试数据的类别分布，通过贝叶斯定理计算后验概率以实现自适应。

Dota在测试时流式处理样本：对每个新样本先用CLIP零样本分类获取预测概率，然后用该概率作为权重更新各类别的高斯分布参数（均值和协方差），最后结合零样本分类和基于分布估计的分类器进行自适应预测。

基于零样本概率的参数估计（Proposition 3.1）:
- 功能：在无标签条件下估计各类别的高斯分布参数
- 核心思路：将零样本预测概率 \(P_k^{zs}(y=k|\mathbf{x}_n)\) 作为EM算法E步的后验权重，M步最大化似然：\(\hat{\boldsymbol{\mu}}_k = \frac{\sum_n P_k^{zs} \mathbf{x}_n}{\sum_n P_k^{zs}}\)，协方差类似加权估计
- 设计动机：零样本概率虽不完美但提供了合理的软标签，作为权重可减轻错误预测的影响
在线分布更新:
- 功能：以流式方式逐样本更新分布参数
- 核心思路：维护每个类的有效样本数 \(c_k^t\) 和分布参数，每步通过增量更新：\(\hat{\boldsymbol{\mu}}_k^t = \frac{c_k^{t-1}\hat{\boldsymbol{\mu}}_k^{t-1} + \sum P_k^{zs}\mathbf{x}_n}{c_k^{t-1} + \sum P_k^{zs}}\)。对协方差矩阵跨类别平均减少矩阵逆运算，并加收缩正则化 \(\hat{\Lambda} = [(1-\epsilon)\hat{\Sigma} + \epsilon I]^{-1}\)
- 设计动机：流式设定需增量更新；跨类协方差平均将K次逆运算降为1次，极大提升效率
自适应融合策略:
- 功能：动态融合零样本分类和测试时分类器
- 核心思路：最终概率 \(P_k = \text{softmax}(\cos(\mathbf{x}, \mathbf{w}_k)/\tau + \lambda f_k(\mathbf{x}))\)，其中 \(\lambda = \min(\rho c, \eta)\) 随测试样本数增加而增大
- 设计动机：早期样本少时分布估计不可靠，需依赖零样本分类器；随样本增加逐渐提高测试时分类器权重

方法	Aircraft	EuroSAT	Flower	Pets	10数据集平均
Zero-Shot	23.22	50.42	66.99	86.92	64.59
TDA	23.91	58.00	71.42	88.63	67.53
BoostAdapter	27.45	61.22	71.66	89.51	68.68
Dota	26.25	62.78	75.23	92.01	70.68