SoC: Semantic Orthogonal Calibration for Test-Time Prompt Tuning¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/leofillioux/SoC
领域: 多模态VLM
关键词: 测试时提示调优, 模型校准, 视觉语言模型, 正交正则, Huber损失

一句话总结¶

针对 CLIP 测试时提示调优（TPT）中"为提升类别可分性而强加完全正交约束反而让模型过度自信、校准变差"的问题，本文用一个 Huber 形式的平滑正交正则（SoC） 替代硬正交约束——对语义相近的类别原型只施加有上限的温和排斥，从而在几乎不损失分类精度的前提下把校准误差 ECE 显著压低。

研究背景与动机¶

领域现状：VLM（以 CLIP 为代表）靠"a photo of a [CLASS]"这类文本提示就能做零样本分类。测试时提示调优（TPT）进一步在推理阶段、无需标签地用熵最小化在线优化提示向量，提升零样本精度；它对一张测试图做一批数据增强，用平均预测的熵做一步梯度下降更新提示。

现有痛点：纯熵最小化会让预测过度自信——这在医疗、自动驾驶等安全攸关场景里很危险，因为模型给出的置信度不再可信（校准差）。为缓解这一点出现了 C-TPT（把文本嵌入推离质心以增加分散度）和 O-TPT（直接对类别原型矩阵强加两两完全正交约束 \(\|S-I_K\|_2^2\)）两条校准向改进。O-TPT 是此前 SOTA。

核心矛盾：完全正交是一个二次惩罚，相似度越高的原型对被推得越狠。但有些类别天然就该靠得近——"annual crop land / permanent crop land""dog / puppy"在图文嵌入空间里本就语义重叠。把这些原型强行掰到正交，破坏了预训练学到的语义流形，反而对这些"难分但相关"的类别制造了人为的高置信度。作者图 2 实证：在零样本余弦相似度 >0.85 的类别对上，O-TPT 的 ECE 明显高于本文。

本文目标：设计一个既能拉开类别原型、又尊重语义邻近性的正则，从而真正改善校准，而不是用"分散度"或"完全正交"做校准的粗糙代理。

切入角度：作者从一步梯度更新的几何动力学入手——既然 TPT 只走一步梯度，那么"最坏情况相似度 \(\mu=\max_{i\ne j}s_{ij}\) 在一步内被压缩多少"就直接决定了置信度下界。完全正交对高相似度对的压缩过于激进，所以才过度自信。

核心 idea：用 Huber 损失替换完全正交里的纯二次惩罚——它在 \(s\le\delta\) 时是二次（正常排斥相似度低的对），在 \(s>\delta\) 时切换成线性、梯度被封顶，于是对语义高度相似的类别对只施加有上限的温和排斥，保住语义结构。

方法详解¶

整体框架¶

SoC 不改 TPT 的整体流程，只换掉其中的"校准正则项"。沿用 CLIP 的设定：视觉编码器 \(f_\omega\)、文本编码器 \(f_\varepsilon\) 把图像与各类文本模板编码到 \(\ell_2\) 归一化空间，得到图像嵌入 \(v\) 与类别原型 \(t_k=f_\varepsilon(\text{"a photo of a [CLASS]"})\)。logit 与 softmax 为 \(z_k=\tau\, v^\top t_k\)、\(p_k=\mathrm{softmax}(z)_k\)，其中 \(\tau=1/T\) 为预训练学到的温度。把所有归一化原型堆成矩阵 \(E\)，则 \(S=EE^\top\) 是原型间余弦相似度矩阵，\(s_{ij}=t_i^\top t_j\)。

测试时，对一张图做 64 个增强视图，TPT 用平均预测熵 \(L_{TPT}=-\sum_k \tilde p_k(v)\log \tilde p_k(v)\) 作自监督信号（\(\tilde p_k\) 只在熵低于 \(\rho\)-分位的高置信增强上取平均），走一步 AdamW 梯度更新提示。SoC 在这个目标上加一项 Huber 形式的原型分离正则，整套方法的关键就落在"这一项怎么设计、为什么它比完全正交更好校准"上——所以下面三个关键设计依次是：① 正则项本身的构造，② 把相似度 \(\mu\) 与置信度联系起来的理论下界，③ 一步梯度动力学解释为何完全正交必然更过度自信。

关键设计¶

1. Huber 形式的平滑正交正则：给高相似度对的排斥力封顶

完全正交（O-TPT）的惩罚是 \(\|S-I_K\|_2^2\)，对每个非对角项 \(s_{ij}\) 施加二次惩罚 \(s_{ij}^2\)，梯度 \(\propto s_{ij}\)——相似度越高、推得越猛，于是语义相关的类别被过度拉开。SoC 把单对惩罚换成 Huber 损失：给定边界 \(\delta\in[0,1]\)，

\[L_{Huber}(s,\delta)=\begin{cases} \dfrac{s^2}{2}, & s\le\delta,\\[4pt] \delta\left(s-\dfrac{\delta}{2}\right), & s>\delta,\end{cases}\]

并对相似度矩阵下三角的所有类别对取平均，叠加到 TPT 目标上：

\[L_{SoC}=L_{TPT}+\lambda\cdot\frac{2}{K(K-1)}\sum_{i<j}L_{Huber}(s_{ij},\delta).\]

关键在于：当 \(s\le\delta\) 时它和二次惩罚一致，正常排斥那些本就该分开的低相似度对；一旦 \(s>\delta\) 进入线性段，梯度恒为常数 \(\delta\)（不再随 \(s\) 增大），相当于给高相似度对的排斥力设了个天花板。这样语义高度重叠的类别对不会被一步梯度狠狠掰开，预训练流形里的语义邻近关系得以保留，从而避免了 O-TPT 那种"把相关类别人为推到过度自信"的副作用。\(\delta\) 是唯一控制"温和度"的旋钮：越小越宽容相似类别。

2. 余弦相干性下的置信度下界：把"最坏相似度"翻译成"置信度地板"

为什么压缩相似度会改变校准？作者给出一条把几何量直接绑定到 softmax 置信度的下界。定义集合的余弦相干性 \(\mu \triangleq \max_{i\ne j} t_i^\top t_j\in[0,1]\)（即最相似的一对类别原型的相似度，对 CLIP 单位归一化嵌入非负）。命题 1 证明：对任意单位向量 \(v\)，最大 softmax 置信度满足

\[p_{max}(v)\ge \frac{1}{1+(K-1)\exp\!\big(-\tau(1-\mu)\big)}.\]

这条下界说明：\(\mu\) 越小，置信度地板越高——把最相似的类别对推得越分散（\(\mu\downarrow\)），模型在所有样本上的最低置信度都会被抬升。完全正交激进地压低 \(\mu\)（哪怕对那些语义本就相关、\(\mu\) 高有意义的类别），于是系统性地抬高置信度、恶化校准。这条命题是后面所有论证的支点：它把"原型几何"和"置信度/校准"用一个不等式连了起来。⚠️ 完整证明在原文附录 A，此处只给结论。

3. 一步梯度的一阶分析：证明完全正交必然比 Huber 更过度自信

TPT 类方法只走一步梯度，所以作者直接分析"一步更新后 \(\mu\) 被压缩了多少"。用一阶 Taylor 展开，单步步长 \(\eta\) 下原型更新 \(t_i'=t_i-\eta\nabla_{t_i}\)，相似度变化 \(\Delta s_{ij}\approx -\eta(t_j^\top\nabla_{t_i}+t_i^\top\nabla_{t_j})\)。完全正交的梯度 \(\nabla^{O\text{-}TPT}_{t_i}=2\sum_{k\ne i}s_{ik}t_k\)，Huber 的梯度则把每对的系数从 \(s_{ik}\) 换成封顶的 \(g_\delta(s_{ik})\)（\(s\le\delta\) 取 \(s\)，否则取常数 \(\delta\)）。只保留主导对 \((i,j)\) 代入后得到一步更新：

\[\mu'_{O\text{-}TPT}\approx(1-4\eta)\,\mu,\qquad \mu'_{Huber}\approx\begin{cases}(1-2\eta)\,\mu, & \mu\le\delta,\\ \mu-2\eta\delta, & \mu>\delta.\end{cases}\]

比较可知 \(\mu'_{O\text{-}TPT}<\mu'_{Huber}\) 当且仅当 \(4\mu>2\delta\)，即只要 \(\mu>\delta\) 就恒成立——也就是说，对那些超过边界的高相似度类别，完全正交一步内总是把 \(\mu\) 压得更狠。结合命题 1（\(\mu\) 越小置信度地板越高），推论 1 直接得到 \(p^{O\text{-}TPT}_{max}>p^{Huber}_{max}\)：完全正交在每一步都比 SoC 更激进地抬高置信度。这就从几何机制上解释了 O-TPT 为何过度自信，也解释了为什么"多走一步梯度"会让 O-TPT 的校准崩得更快（见实验）。

损失函数 / 训练策略¶

唯一新增项即上面的 SoC Huber 正则，权重 \(\lambda\)；提示初始化为"a photo of a [CLASS]"，用 AdamW、学习率 0.005、batch size 64（即每张图 64 个增强）、单步梯度更新，主干用 ViT-L/14（部分实验用 ViT-B/16）。其余设置严格沿用 O-TPT / C-TPT 以保证公平比较。

实验关键数据¶

主实验¶

在 11 个细粒度分类数据集（ViT-L/14）上对比，SoC 在保持/略升精度的同时把平均 ECE 压到最低（数值为百分比，ECE 越低越好）：

方法	平均 Acc	平均 ECE	相对 O-TPT 的 ECE
Zero-Shot	71.1	5.1	—
TPT (NeurIPS'22)	72.0	14.9	+7.2
C-TPT (ICLR'24)	72.1	10.0	+2.3
O-TPT (CVPR'25, 前SOTA)	71.4	7.7	0
SoC (本文)	72.3	5.4	−2.3

SoC 在除 1 个数据集外的所有数据集上拿到最好 ECE，且校准水平与"被公认校准最好的零样本"相当（5.4 vs 5.1），同时精度还略高于零样本。最戏剧性的是 EuroSAT：ECE 从 O-TPT 的 17.7 直降到 3.2（−14.5），精度反而 +4.7。

ImageNet 四个分布漂移变体（ViT-L/14）上，SoC 精度与 O-TPT 持平、ECE 再降 1.5；相对 TPT / C-TPT 分别降 5.8 / 4.2，印证"TPT、C-TPT 靠牺牲校准换精度"的现象：

方法	平均 Acc	平均 ECE
Zero-Shot	70.0	4.4
TPT	72.9	14.2
C-TPT	72.0	12.6
O-TPT	71.3	9.9
SoC	71.3	8.4

消融与鲁棒性¶

配置 / 设置	关键指标	说明
单步 → 两步梯度	ECE 退化 23% vs O-TPT 39%	多走一步时 O-TPT 校准崩得近两倍，印证一阶分析
ViT-B/16 主干	Acc 64.6 / ECE 4.3	小主干上同样优于 O-TPT（4.8）；ECE 逼近零样本 4.2
CoOp 2-shot 初始化	Acc 75.2 / ECE 6.3	CoOp 预热提示下仍优于 O-TPT（72.9 / 7.4）
CoOp 4-shot 初始化	Acc 78.0 / ECE 5.4	精度升、校准误差减后差距缩小但仍领先
18 种 CLIP 提示模板	几乎每个模板 ECE 更低	对提示初始化更鲁棒，抑制 O-TPT 的极端过度自信尖峰

关键发现¶

最能说明问题的对照是"多走一步梯度"：SoC 的封顶机制让它在第二步几乎不崩（+23%），而 O-TPT 因每步都更狠地压 \(\mu\) 而崩 39%——这正是一阶分析（设计 3）预测的结果，理论与实验闭环。
EuroSAT 这种语义高度相似的卫星图最受益：完全正交在这里把相关地物类别过度掰开导致灾难性过度自信（ECE 17.7），而 Huber 封顶把它救回到 3.2。
选择性分类：在各置信度阈值下，SoC 的"高置信时准确率"始终高于 TPT/C-TPT/O-TPT 约 5–10%，并能匹配零样本——说明它在保留语义对齐的同时让置信度真正可用于过滤不确定预测。

亮点与洞察¶

把"一个 loss 项的改动"讲成了一条完整因果链：Huber 封顶 → 一步内 \(\mu\) 压缩更温和（一阶分析）→ 置信度地板更低（命题 1）→ ECE 更好，理论命题、推论和"多步梯度崩溃幅度"实验严丝合缝，是这篇论文最让人"啊哈"的地方。
Huber 损失的妙用：它本是回归里抗离群点的鲁棒损失，这里被借来"抗过度排斥"——把"对大残差降梯度"的性质迁移成"对高相似度对降排斥"，思路可迁移到任何"硬约束推得太狠"的正则设计（如对比学习里相似负样本的处理）。
零样本被当成校准上界：用"逼近零样本的校准"而非"绝对最低 ECE"作目标，承认了适应必然带来 drift，是个务实的评判基准。

局限与展望¶

只在单步/双步 TPT 设定下验证：方法的理论优势深度绑定"TPT 只走一两步梯度"这一前提，多步长程优化下 Huber 封顶是否还成立未充分探讨。
多了一个超参 \(\delta\)：边界 \(\delta\) 控制"多相似才算该保留"，论文未给出跨数据集自适应选 \(\delta\) 的方案，⚠️ 其敏感性分析主要在附录，正文未展开。
一阶分析只保留主导对：理论推导为清晰起见只取最相似的一对 \((i,j)\) 近似全梯度，真实多对耦合下的行为以附录 B 完整推导为准。
改进思路：把 \(\delta\) 做成按类别对相似度分布自适应、或与温度 \(\tau\) 联合标定，可能进一步把"该分的分、该近的近"做得更细。

评分¶

新颖性: ⭐⭐⭐⭐ 用 Huber 封顶替换完全正交看似小改动，但配上严谨的置信度下界+一阶动力学分析，把"为何过度自信"讲透，思路清新。
实验充分度: ⭐⭐⭐⭐⭐ 11 数据集 + 4 个分布漂移 + 两种主干 + CoOp 初始化 + 18 提示模板 + 多步梯度 + 选择性分类，覆盖面很全。
写作质量: ⭐⭐⭐⭐⭐ 动机—理论—实验形成闭环，图 1/图 2 把核心痛点可视化得很清楚。
价值: ⭐⭐⭐⭐ 安全攸关场景下 VLM 校准的实用改进，几乎零额外成本即可替换 O-TPT 的正则项。