Adaptive Debiasing Tsallis Entropy for Test-Time Adaptation¶

会议: ICLR 2026
arXiv: 2602.11743
代码: https://github.com/Jinx630/ADTE
领域: 社会计算
关键词: 测试时自适应, Tsallis entropy, CLIP, 去偏, 不确定性估计

一句话总结¶

提出将 Tsallis 熵（SE 的广义形式）引入 VLM 的 Test-Time Adaptation，并进一步发展为自适应去偏 Tsallis 熵（ADTE），为每个类别定制去偏参数 \(q^l\)，在不引入分布特定超参数的情况下比 Shannon 熵选择更可靠的高置信视图，在 ImageNet 及其 5 个变体和 10 个跨域 benchmark 上均超越 SOTA。

研究背景与动机¶

领域现状：TTA（Test-Time Adaptation）方法通过选择高置信增强视图来提升 CLIP 等 VLM 在分布外数据上的表现。代表方法如 TPT、Zero 等都使用 Shannon 熵来度量不确定性并筛选低熵视图。

现有痛点：CLIP 在不平衡的网络爬取数据上预训练，导致对头部类别过度自信、对尾部类别自信度不足。Shannon 熵对所有类别使用统一公式 \(-p\log p\)，无法区分不同类别的偏差程度，导致熵估计本身就是有偏的，进而影响高置信视图的选择质量。

核心矛盾：SE 假设概率分布是无偏的（广延性假设），但 CLIP 的预测分布存在系统性偏差（非广延性），SE 无法刻画这种偏差结构。

本文目标：如何在 TTA 过程中纠正 VLM 预测偏差对熵估计的影响？

切入角度：Tsallis 熵是 Shannon 熵的推广，通过非广延参数 \(q\) 可以刻画概率分布间的统计依赖性。当 \(q<1\) 时，TE 倾向于选择更可靠的高置信视图。

核心 idea：用 Tsallis 熵替代 Shannon 熵做高置信视图选择，并为每个类别自适应计算去偏参数 \(q^l\)。

方法详解¶

整体框架¶

ADTE 要解决的是「TTA 里用来挑高置信视图的熵本身就有偏」这件事。它把自己定位成 Zero/TPT 等方法中 Shannon 熵的即插即用替代品，不改动 pipeline 其余部分：一张测试图先扩成 N 个增强视图，对每个视图用 ADTE 而非 SE 算一个不确定性分数，挑出分数低（置信高）的那批视图，再聚合它们的预测得到最终结果。换熵这一步带来两处关键改动——熵的函数形式从 Shannon 换成 Tsallis，以及参数 \(q\) 从一个全局常数变成逐类别自适应的 \(q^l\)；后者由一条单独的参数估计支路从 memory bank 算出，可选地再叠一层 logit adjustment。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    IMG["测试图像"] --> AUG["数据增强<br/>扩成 N 个增强视图"]
    subgraph QEST["自适应去偏参数 q^l"]
        direction TB
        MB["memory bank<br/>伪标签近似各类样本"] --> PRI["Jacobi 迭代<br/>估计各类先验偏差"]
        PRI --> QL["min-max 归一化<br/>偏差越大 q 越小，落到 0.01–0.9"]
    end
    AUG --> ADJ["Logit Adjustment<br/>logits 层先去偏（可选）"]
    QL --> ADTE["ADTE 不确定性分数<br/>用 Tsallis 熵 + 逐类 q^l"]
    ADJ --> ADTE
    ADTE --> SEL["挑选低分<br/>即高置信视图"]
    SEL --> AGG["聚合所选视图预测"]
    AGG --> OUT["最终分类结果"]

关键设计¶

1. 用 Tsallis 熵替代 Shannon 熵：换掉对尾部类别敏感的那块计算

SE 用统一公式 \(\mathbf{H}_{SE} = -\sum_l P_l \log P_l\) 度量不确定性，但 \(p\log p\) 这一项对接近 0 的小概率特别敏感，而 CLIP 恰恰在尾部类别上预测概率小且有系统偏差，于是熵估计被这些类别带偏。ADTE 改用 Tsallis 熵 \(\mathbf{H}_{TE} = \frac{\sum_l P_l^q - 1}{1-q}\)，核心是把 \(p\log p\) 换成 \(p^q\)，从而改变对小概率的处理方式。理论上这个替换是自洽的：当 \(q \to 1\) 时 TE 退化为 SE（SE 是 TE 的一个特例 / 下界）；当 \(q < 1\) 时，TE 挑出的高置信视图具有更高的 Top-K 累积可靠性（TcrK）；而在 \(0 < q < 1\) 区间，TE 能自然缓解 VLM 偏差对视图选择的影响，无需显式建模偏差。

2. 自适应去偏 Tsallis 熵（ADTE）：让每个类别自己决定纠偏力度

固定一个全局 \(q\) 有两个问题：最优 \(q\) 随测试分布漂移、手动调不可行；而且头部类别和尾部类别受偏差影响的程度本就不同，一个常数管不了所有类。ADTE 因此为每个类别 \(l\) 单独算一个 \(q^l\)。做法分两步：先维护一个 memory bank，用伪标签近似、Jacobi 迭代求解，估计出各类别的先验概率 \(\tilde{p}_l\) 作为偏差度量；再把这些估计的偏差经 min-max 归一化映射到 \([\alpha, \beta] = [0.01, 0.9]\) 区间当作 \(q^l\)。映射方向是「偏差越大、\(q^l\) 越小」，因为更小的 \(q\) 对应更强的纠正力度，于是受偏差影响重的类别被更狠地校正，轻的则接近原始 SE。整个 \(q^l\) 的估计不需要任何分布特定的超参数调优。

3. 与 Logit Adjustment 集成：从两个层面叠加去偏

ADTE 在熵估计层面纠偏，可以和 logit adjustment 这类在 logits 层面纠偏的策略无缝叠加：先用估计出的偏差调整 logits，再用 ADTE 去选高置信视图，两道工序方向一致、互不冲突。整个流程仍然不引入额外训练，也不需要分布特定的超参数。

损失函数 / 训练策略¶

无需训练。ADTE 是纯推理时方法，直接把 TTA pipeline 里的 Shannon 熵换成它即可，memory bank 大小设为每类 10 个样本。

实验关键数据¶

主实验（ImageNet + 5 变体，CLIP ViT-B/16）¶

方法	IN	IN-A	IN-R	IN-K	Average	OOD Avg
CLIP	68.7	50.6	77.7	48.3	61.5	59.7
Zero	70.9	64.0	80.8	50.3	66.2	65.0
BCA	70.2	61.1	80.7	50.9	65.6	64.4
ADTE	71.8	65.5	81.4	53.5	67.5	66.5

跨域 benchmark（10 个数据集最高平均性能）¶

指标	说明
ADTE 平均准确率	10 个跨域 benchmark 上最高平均表现
模型无关	在 ViT-B/16 和 ViT-L/14 上都优于 SOTA
Prompt 无关	使用手工模板或 CuPL 生成的文本都有效

关键发现¶

TE 当 \(q < 1\) 时始终优于 SE（SE 是 TE 在 \(q=1\) 的特例），但最优 \(q\) 因测试分布而异
ADTE 通过自适应 \(q^l\) 消除了手动调参的需求，在所有测试分布上表现稳健
在 ImageNet-K 上提升最大（48.3→53.5），这是分布偏移最严重的变体
ADTE 可以直接替换任何基于 SE 的 TTA 方法中的熵计算，无需其他修改

亮点与洞察¶

Shannon 熵的有偏性被首次系统分析：在 VLM TTA 中，SE 隐含假设的广延性不成立，这个问题被忽视已久
Tsallis 熵作为直接替代品：理论优雅（SE 是下界）且实际有效，且是即插即用的——任何用 SE 的 TTA 方法都可以直接换成 TE/ADTE
自适应参数估计的设计：利用已有的偏差估计方法（来自 Frolic）转化为 \(q^l\)，复用了现有工具

局限与展望¶

Memory bank 大小固定为每类 10 个，在类别极多（如 ImageNet 1000 类）时可能不够
偏差估计依赖伪标签质量，早期样本的伪标签可能不准
归一化区间 \([\alpha, \beta] = [0.01, 0.9]\) 仍是手动设定的超参数
仅在分类任务上验证，检测/分割等密集预测任务未覆盖

评分¶

新颖性: ⭐⭐⭐⭐ Tsallis 熵在 VLM TTA 中的应用是新颖的理论视角
实验充分度: ⭐⭐⭐⭐⭐ ImageNet+5变体、10跨域benchmark、两个模型、两种prompt
写作质量: ⭐⭐⭐⭐ 理论推导清晰，但公式密集
价值: ⭐⭐⭐⭐ 即插即用的 SE 替代品，实用性强