SoC: Semantic Orthogonal Calibration for Test-Time Prompt Tuning¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/leofillioux/SoC
领域: 多模态VLM
关键词: 测试时提示调优, 模型校准, 视觉语言模型, 正交正则, Huber损失
一句话总结¶
针对 CLIP 测试时提示调优(TPT)中"为提升类别可分性而强加完全正交约束反而让模型过度自信、校准变差"的问题,本文用一个 Huber 形式的平滑正交正则(SoC) 替代硬正交约束——对语义相近的类别原型只施加有上限的温和排斥,从而在几乎不损失分类精度的前提下把校准误差 ECE 显著压低。
研究背景与动机¶
领域现状:VLM(以 CLIP 为代表)靠"a photo of a [CLASS]"这类文本提示就能做零样本分类。测试时提示调优(TPT)进一步在推理阶段、无需标签地用熵最小化在线优化提示向量,提升零样本精度;它对一张测试图做一批数据增强,用平均预测的熵做一步梯度下降更新提示。
现有痛点:纯熵最小化会让预测过度自信——这在医疗、自动驾驶等安全攸关场景里很危险,因为模型给出的置信度不再可信(校准差)。为缓解这一点出现了 C-TPT(把文本嵌入推离质心以增加分散度)和 O-TPT(直接对类别原型矩阵强加两两完全正交约束 \(\|S-I_K\|_2^2\))两条校准向改进。O-TPT 是此前 SOTA。
核心矛盾:完全正交是一个二次惩罚,相似度越高的原型对被推得越狠。但有些类别天然就该靠得近——"annual crop land / permanent crop land""dog / puppy"在图文嵌入空间里本就语义重叠。把这些原型强行掰到正交,破坏了预训练学到的语义流形,反而对这些"难分但相关"的类别制造了人为的高置信度。作者图 2 实证:在零样本余弦相似度 >0.85 的类别对上,O-TPT 的 ECE 明显高于本文。
本文目标:设计一个既能拉开类别原型、又尊重语义邻近性的正则,从而真正改善校准,而不是用"分散度"或"完全正交"做校准的粗糙代理。
切入角度:作者从一步梯度更新的几何动力学入手——既然 TPT 只走一步梯度,那么"最坏情况相似度 \(\mu=\max_{i\ne j}s_{ij}\) 在一步内被压缩多少"就直接决定了置信度下界。完全正交对高相似度对的压缩过于激进,所以才过度自信。
核心 idea:用 Huber 损失替换完全正交里的纯二次惩罚——它在 \(s\le\delta\) 时是二次(正常排斥相似度低的对),在 \(s>\delta\) 时切换成线性、梯度被封顶,于是对语义高度相似的类别对只施加有上限的温和排斥,保住语义结构。
方法详解¶
整体框架¶
SoC 不改 TPT 的整体流程,只换掉其中的"校准正则项"。沿用 CLIP 的设定:视觉编码器 \(f_\omega\)、文本编码器 \(f_\varepsilon\) 把图像与各类文本模板编码到 \(\ell_2\) 归一化空间,得到图像嵌入 \(v\) 与类别原型 \(t_k=f_\varepsilon(\text{"a photo of a [CLASS]"})\)。logit 与 softmax 为 \(z_k=\tau\, v^\top t_k\)、\(p_k=\mathrm{softmax}(z)_k\),其中 \(\tau=1/T\) 为预训练学到的温度。把所有归一化原型堆成矩阵 \(E\),则 \(S=EE^\top\) 是原型间余弦相似度矩阵,\(s_{ij}=t_i^\top t_j\)。
测试时,对一张图做 64 个增强视图,TPT 用平均预测熵 \(L_{TPT}=-\sum_k \tilde p_k(v)\log \tilde p_k(v)\) 作自监督信号(\(\tilde p_k\) 只在熵低于 \(\rho\)-分位的高置信增强上取平均),走一步 AdamW 梯度更新提示。SoC 在这个目标上加一项 Huber 形式的原型分离正则,整套方法的关键就落在"这一项怎么设计、为什么它比完全正交更好校准"上——所以下面三个关键设计依次是:① 正则项本身的构造,② 把相似度 \(\mu\) 与置信度联系起来的理论下界,③ 一步梯度动力学解释为何完全正交必然更过度自信。
关键设计¶
1. Huber 形式的平滑正交正则:给高相似度对的排斥力封顶
完全正交(O-TPT)的惩罚是 \(\|S-I_K\|_2^2\),对每个非对角项 \(s_{ij}\) 施加二次惩罚 \(s_{ij}^2\),梯度 \(\propto s_{ij}\)——相似度越高、推得越猛,于是语义相关的类别被过度拉开。SoC 把单对惩罚换成 Huber 损失:给定边界 \(\delta\in[0,1]\),
并对相似度矩阵下三角的所有类别对取平均,叠加到 TPT 目标上:
关键在于:当 \(s\le\delta\) 时它和二次惩罚一致,正常排斥那些本就该分开的低相似度对;一旦 \(s>\delta\) 进入线性段,梯度恒为常数 \(\delta\)(不再随 \(s\) 增大),相当于给高相似度对的排斥力设了个天花板。这样语义高度重叠的类别对不会被一步梯度狠狠掰开,预训练流形里的语义邻近关系得以保留,从而避免了 O-TPT 那种"把相关类别人为推到过度自信"的副作用。\(\delta\) 是唯一控制"温和度"的旋钮:越小越宽容相似类别。
2. 余弦相干性下的置信度下界:把"最坏相似度"翻译成"置信度地板"
为什么压缩相似度会改变校准?作者给出一条把几何量直接绑定到 softmax 置信度的下界。定义集合的余弦相干性 \(\mu \triangleq \max_{i\ne j} t_i^\top t_j\in[0,1]\)(即最相似的一对类别原型的相似度,对 CLIP 单位归一化嵌入非负)。命题 1 证明:对任意单位向量 \(v\),最大 softmax 置信度满足
这条下界说明:\(\mu\) 越小,置信度地板越高——把最相似的类别对推得越分散(\(\mu\downarrow\)),模型在所有样本上的最低置信度都会被抬升。完全正交激进地压低 \(\mu\)(哪怕对那些语义本就相关、\(\mu\) 高有意义的类别),于是系统性地抬高置信度、恶化校准。这条命题是后面所有论证的支点:它把"原型几何"和"置信度/校准"用一个不等式连了起来。⚠️ 完整证明在原文附录 A,此处只给结论。
3. 一步梯度的一阶分析:证明完全正交必然比 Huber 更过度自信
TPT 类方法只走一步梯度,所以作者直接分析"一步更新后 \(\mu\) 被压缩了多少"。用一阶 Taylor 展开,单步步长 \(\eta\) 下原型更新 \(t_i'=t_i-\eta\nabla_{t_i}\),相似度变化 \(\Delta s_{ij}\approx -\eta(t_j^\top\nabla_{t_i}+t_i^\top\nabla_{t_j})\)。完全正交的梯度 \(\nabla^{O\text{-}TPT}_{t_i}=2\sum_{k\ne i}s_{ik}t_k\),Huber 的梯度则把每对的系数从 \(s_{ik}\) 换成封顶的 \(g_\delta(s_{ik})\)(\(s\le\delta\) 取 \(s\),否则取常数 \(\delta\))。只保留主导对 \((i,j)\) 代入后得到一步更新:
比较可知 \(\mu'_{O\text{-}TPT}<\mu'_{Huber}\) 当且仅当 \(4\mu>2\delta\),即只要 \(\mu>\delta\) 就恒成立——也就是说,对那些超过边界的高相似度类别,完全正交一步内总是把 \(\mu\) 压得更狠。结合命题 1(\(\mu\) 越小置信度地板越高),推论 1 直接得到 \(p^{O\text{-}TPT}_{max}>p^{Huber}_{max}\):完全正交在每一步都比 SoC 更激进地抬高置信度。这就从几何机制上解释了 O-TPT 为何过度自信,也解释了为什么"多走一步梯度"会让 O-TPT 的校准崩得更快(见实验)。
损失函数 / 训练策略¶
唯一新增项即上面的 SoC Huber 正则,权重 \(\lambda\);提示初始化为"a photo of a [CLASS]",用 AdamW、学习率 0.005、batch size 64(即每张图 64 个增强)、单步梯度更新,主干用 ViT-L/14(部分实验用 ViT-B/16)。其余设置严格沿用 O-TPT / C-TPT 以保证公平比较。
实验关键数据¶
主实验¶
在 11 个细粒度分类数据集(ViT-L/14)上对比,SoC 在保持/略升精度的同时把平均 ECE 压到最低(数值为百分比,ECE 越低越好):
| 方法 | 平均 Acc | 平均 ECE | 相对 O-TPT 的 ECE |
|---|---|---|---|
| Zero-Shot | 71.1 | 5.1 | — |
| TPT (NeurIPS'22) | 72.0 | 14.9 | +7.2 |
| C-TPT (ICLR'24) | 72.1 | 10.0 | +2.3 |
| O-TPT (CVPR'25, 前SOTA) | 71.4 | 7.7 | 0 |
| SoC (本文) | 72.3 | 5.4 | −2.3 |
SoC 在除 1 个数据集外的所有数据集上拿到最好 ECE,且校准水平与"被公认校准最好的零样本"相当(5.4 vs 5.1),同时精度还略高于零样本。最戏剧性的是 EuroSAT:ECE 从 O-TPT 的 17.7 直降到 3.2(−14.5),精度反而 +4.7。
ImageNet 四个分布漂移变体(ViT-L/14)上,SoC 精度与 O-TPT 持平、ECE 再降 1.5;相对 TPT / C-TPT 分别降 5.8 / 4.2,印证"TPT、C-TPT 靠牺牲校准换精度"的现象:
| 方法 | 平均 Acc | 平均 ECE |
|---|---|---|
| Zero-Shot | 70.0 | 4.4 |
| TPT | 72.9 | 14.2 |
| C-TPT | 72.0 | 12.6 |
| O-TPT | 71.3 | 9.9 |
| SoC | 71.3 | 8.4 |
消融与鲁棒性¶
| 配置 / 设置 | 关键指标 | 说明 |
|---|---|---|
| 单步 → 两步梯度 | ECE 退化 23% vs O-TPT 39% | 多走一步时 O-TPT 校准崩得近两倍,印证一阶分析 |
| ViT-B/16 主干 | Acc 64.6 / ECE 4.3 | 小主干上同样优于 O-TPT(4.8);ECE 逼近零样本 4.2 |
| CoOp 2-shot 初始化 | Acc 75.2 / ECE 6.3 | CoOp 预热提示下仍优于 O-TPT(72.9 / 7.4) |
| CoOp 4-shot 初始化 | Acc 78.0 / ECE 5.4 | 精度升、校准误差减后差距缩小但仍领先 |
| 18 种 CLIP 提示模板 | 几乎每个模板 ECE 更低 | 对提示初始化更鲁棒,抑制 O-TPT 的极端过度自信尖峰 |
关键发现¶
- 最能说明问题的对照是"多走一步梯度":SoC 的封顶机制让它在第二步几乎不崩(+23%),而 O-TPT 因每步都更狠地压 \(\mu\) 而崩 39%——这正是一阶分析(设计 3)预测的结果,理论与实验闭环。
- EuroSAT 这种语义高度相似的卫星图最受益:完全正交在这里把相关地物类别过度掰开导致灾难性过度自信(ECE 17.7),而 Huber 封顶把它救回到 3.2。
- 选择性分类:在各置信度阈值下,SoC 的"高置信时准确率"始终高于 TPT/C-TPT/O-TPT 约 5–10%,并能匹配零样本——说明它在保留语义对齐的同时让置信度真正可用于过滤不确定预测。
亮点与洞察¶
- 把"一个 loss 项的改动"讲成了一条完整因果链:Huber 封顶 → 一步内 \(\mu\) 压缩更温和(一阶分析)→ 置信度地板更低(命题 1)→ ECE 更好,理论命题、推论和"多步梯度崩溃幅度"实验严丝合缝,是这篇论文最让人"啊哈"的地方。
- Huber 损失的妙用:它本是回归里抗离群点的鲁棒损失,这里被借来"抗过度排斥"——把"对大残差降梯度"的性质迁移成"对高相似度对降排斥",思路可迁移到任何"硬约束推得太狠"的正则设计(如对比学习里相似负样本的处理)。
- 零样本被当成校准上界:用"逼近零样本的校准"而非"绝对最低 ECE"作目标,承认了适应必然带来 drift,是个务实的评判基准。
局限与展望¶
- 只在单步/双步 TPT 设定下验证:方法的理论优势深度绑定"TPT 只走一两步梯度"这一前提,多步长程优化下 Huber 封顶是否还成立未充分探讨。
- 多了一个超参 \(\delta\):边界 \(\delta\) 控制"多相似才算该保留",论文未给出跨数据集自适应选 \(\delta\) 的方案,⚠️ 其敏感性分析主要在附录,正文未展开。
- 一阶分析只保留主导对:理论推导为清晰起见只取最相似的一对 \((i,j)\) 近似全梯度,真实多对耦合下的行为以附录 B 完整推导为准。
- 改进思路:把 \(\delta\) 做成按类别对相似度分布自适应、或与温度 \(\tau\) 联合标定,可能进一步把"该分的分、该近的近"做得更细。
相关工作与启发¶
- vs O-TPT(前 SOTA):两者都对类别原型几何动手,但 O-TPT 用完全正交(二次惩罚、无上限排斥),SoC 用 Huber 封顶排斥;本文从理论(命题 1 + 推论 1)和实验(高相似度类别对的 ECE、多步梯度崩溃)两面证明完全正交会系统性过度自信,SoC 在校准上全面占优、精度持平甚至更好。
- vs C-TPT:C-TPT 把"嵌入分散度"当校准代理(推离质心),对原型几何控制弱、嵌入空间利用不充分;SoC 直接作用于成对相似度且尊重语义邻近,比分散度代理更精确。
- vs 经典校准方法(温度缩放 / Mixup 等):那些是后处理或训练时增熵的通用手段,需要标签或训练;SoC 是无标签、测试时的几何正则,专为 VLM 提示调优场景设计。
评分¶
- 新颖性: ⭐⭐⭐⭐ 用 Huber 封顶替换完全正交看似小改动,但配上严谨的置信度下界+一阶动力学分析,把"为何过度自信"讲透,思路清新。
- 实验充分度: ⭐⭐⭐⭐⭐ 11 数据集 + 4 个分布漂移 + 两种主干 + CoOp 初始化 + 18 提示模板 + 多步梯度 + 选择性分类,覆盖面很全。
- 写作质量: ⭐⭐⭐⭐⭐ 动机—理论—实验形成闭环,图 1/图 2 把核心痛点可视化得很清楚。
- 价值: ⭐⭐⭐⭐ 安全攸关场景下 VLM 校准的实用改进,几乎零额外成本即可替换 O-TPT 的正则项。