CoLA: Co-Calibrated Logit Adjustment for Long-Tailed Semi-Supervised Learning¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=pI9n8wAR80
代码: 待确认
领域: 半监督学习 / 长尾识别 / Logit Adjustment
关键词: 长尾半监督, Logit Adjustment, 有效秩, 元学习, 伪标签

一句话总结¶

针对长尾半监督学习里 Logit Adjustment 的两块短板——「按频次计数高估头部类导致过度抑制」和「整体调整强度 \(\tau\) 被当成固定超参、与类级调整脱节」——CoLA 用有效秩去重地估计无标注类分布（DDDE），再在一个镜像该分布的代理验证集上元学习出最优 \(\tau\)（LMC），在 4 个长尾基准上全面刷新 SOTA。

研究背景与动机¶

领域现状：长尾半监督学习（LTSSL）的核心难题是「确认偏置的恶性循环」——模型先在偏斜的有标注数据上学偏，再用这个偏斜模型给大量无标注数据打伪标签，偏置被层层放大，头部类越来越自信、尾部类被逐渐边缘化。当前主流解法是 Logit Adjustment（LA）：在预测 logit 上减去一个与类先验相关的偏移项，压头部、抬尾部，从而产出更均衡的伪标签。

现有痛点：LA 由两个分量组成——类级调整（按各类先验决定相对压制/鼓励的力度）和整体调整（一个标量 \(\tau\) 统一控制偏移的整体幅度）。由于无标注数据的真实分布未知，准确调整很难。一类方法（CPE、Meta-Expert）干脆用一组预设的锚分布当代理，但现实里真实分布常落在锚之外就失效；另一类更精细的方法（ACR、TCBC）改成动态估计无标注分布，却踩进两个新坑。

核心矛盾：第一，动态估计普遍靠「对高置信预测做频次计数」，但头部类塞满了视觉高度相似的冗余样本，单纯计数会高估头部类的实际占比，进而把头部 logit 压得过狠（over-suppression），反而掉点。第二，也是更被忽视的，这些方法把整体强度 \(\tau\) 当成固定超参，无视它和类级调整之间的耦合。作者的实证发现很反直觉：最优 \(\tau\) 对估计出的分布和类别数高度敏感，甚至不随不平衡比 \(\gamma_l\) 单调变化（CIFAR-10-LT 上 \(\gamma_l=100\) 的最优 \(\tau\) 反而大于 \(\gamma_l=150\)），一个写死的 \(\tau\) 根本没法自适应。

本文目标：把 LA 的类级分量和整体分量协同设计——既要去掉频次计数的冗余偏差给出准确的类先验，又要让 \(\tau\) 随这个先验自适应地学出来，并给出理论保证。

切入角度：头部类的冗余本质是「样本虽多但有效信息重复」，这正对应 Cui et al. 的「有效样本数」概念；而有效样本数可以用类表征矩阵的有效秩（effective rank）来量化。一旦有了去重后的准确分布，\(\tau\) 就能在一个「长得像无标注分布」的代理验证集上通过元学习直接优化出来。

核心 idea：用有效秩做去重分布估计（DDDE）替代频次计数解决过度抑制，再把整体强度 \(\tau\) 变成在镜像分布代理集上元学习的可学习参数（LMC），让类级与整体两个调整互相校准。

方法详解¶

整体框架¶

CoLA 建立在 FixMatch + 双分支（balanced branch / standard branch）这套 LTSSL 标准骨架上，要解决的就是「怎么给无标注数据打出更均衡的伪标签」。整体可以拆成两步串联再回灌训练：先用 DDDE 把无标注数据的类分布 \(\hat{P}_{Y_u}(y)\) 去重地估准，再把这个分布喂给 LMC，让它构造一个代理验证集并元学习出最优整体强度 \(\tau^\ast\)；最后这套校准好的 logit 偏移项被用来生成伪标签，驱动端到端训练，训练得到的新表征又反过来让下一轮分布估计更准，形成正向闭环。balanced branch 上挂 DDDE 负责产出类均衡预测，standard branch 上挂 LMC 负责产出高质量伪标签；\(\tau\) 用两阶段管理——warm-up 阶段先按 ACR 配置，等分布估计可靠后再交给 LMC 学习。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["无标注数据<br/>高置信表征"] --> B["DDDE 去重分布估计<br/>有效秩量化冗余"]
    B --> C["LMC 元校准<br/>代理集上学 τ*"]
    C --> D["双分支端到端训练<br/>balanced + standard"]
    D -->|两阶段 τ：warm-up→LMC| C
    D --> E["更均衡的伪标签"]
    E -.训练更新表征.-> A

关键设计¶

1. DDDE：用有效秩量化样本冗余，去掉头部类的虚高占比

这一设计直击「频次计数高估头部类→过度抑制」的痛点。对每个类 \(y\)，先收集所有伪标签为 \(y\)、且置信度 \(\|\sigma(z(\alpha(x^u)))\|_\infty\) 超过阈值 \(\rho\) 的无标注样本表征 \(\{z^y_j\}\)，堆成特征矩阵 \(Z_y \in \mathbb{R}^{d \times m_y}\)，对它做 SVD 得到奇异值 \(s_1,\dots,s_{m_y}\)。把归一化奇异值谱当成概率分布 \(p(i) = s_i / \sum_j s_j\)（直观上 \(p(i)\) 是「一单位特征方差落在第 \(i\) 个主成分上的概率」），有效秩定义为该谱的香农熵的指数：

\[\mathrm{erank}(Z_y) = \exp\!\left(-\sum_{i=1}^{m_y} p(i)\log p(i)\right).\]

有效秩衡量的是「能量在各主方向上铺开的程度」：如果一个类的样本高度冗余（都长得像），能量会集中在少数主成分上、熵小、有效秩低；反之样本真正多样则有效秩高。于是把各类有效秩归一化就得到去重后的类分布

\[\hat{P}_{Y_u}(y) = \frac{\mathrm{erank}(Z_y)}{\sum_{k\in\mathcal{Y}}\mathrm{erank}(Z_k)}.\]

它比单纯数样本数更能反映「类的有效信息量」，从而避免把塞满相似样本的头部类压得过狠。

2. LMC：把整体强度 \(\tau\) 变成在镜像分布代理集上元学习的可学习参数

针对「\(\tau\) 被写死、和类级调整脱节」的痛点，LMC 不再手调 \(\tau\)，而是数据驱动地学。它先从有标注集 \(D_l\) 里重采样构造一个代理验证集 \(D_v\)，使其边缘标签分布对齐估计出的 \(\hat{P}_{Y_u}\)——对每个样本 \((x^l_i, y_i)\) 赋予选择概率

\[P\big((x^l_i,y_i)\text{ 被选}\big) = \frac{\hat{P}_{Y_u}(y_i)/N_{y_i}}{\max_{y}\big(\hat{P}_{Y_u}(y)/N_y\big)},\]

分母做归一化保证概率不超过 1（一种拒绝采样，防止过采样），逐样本做伯努利试验后得到 \(D_v\)。然后在 \(D_v\) 上最小化交叉熵来解出最优 \(\tau\)：

\[\tau^\ast = \arg\min_{\tau}\ \frac{1}{V}\sum_{i=1}^{V} L_{\mathrm{CE}}\big(y^v_i,\ \sigma(z(\alpha(x^v_i)) - \tau\cdot p)\big),\]

其中 \(p = (\hat{P}_{Y_u}(1),\dots,\hat{P}_{Y_u}(K))\) 是估计出的去重类频向量。值得注意的是这里用的偏移项是线性的 \(-\tau\cdot p\)，而非原始 post-hoc LA 的对数形式 \(-\tau\cdot\log\hat{P}_{Y_u}\)。线性项（受 Mor & Carmon 2025 启发）避免了对极小估计概率的数值不稳定和过度惩罚，让优化更稳。因为 \(D_v\) 是「照着无标注分布捏出来的」，在它上面学到的 \(\tau^\ast\) 才真正适配当前数据特性，这也正是类级（DDDE 给的 \(p\)）和整体（\(\tau\)）两个调整互相校准的关键。

3. 双分支端到端训练 + 两阶段 \(\tau\) 调度

DDDE 和 LMC 需要被装进一个能自洽运转的训练管线。CoLA 沿用 LTSSL 常见的双分支结构：balanced branch 上施加 DDDE，目标是产出类均衡的预测；standard branch 上施加 LMC，负责生成高质量伪标签。\(\tau\) 的管理分两阶段——初始 warm-up 阶段模型还没学出可靠表征、有效秩估计噪声大，此时 \(\tau\) 先按 ACR 的方式配置；等模型对类分布的估计稳定后，再切换到 LMC 学习最优 \(\tau\) 并用于后续训练。这种「先借旧方法热身、再交给自己学」的调度，回避了冷启动阶段分布估计不准把 \(\tau\) 带偏的风险。

4. 泛化界：把 DDDE 的估计精度和 LMC 的可靠性理论上绑在一起

为了说明两个组件不是各自为政，作者给 \(\tau\) 参数化的分类器证了一个泛化界（Proposition 1）。在 Lipschitz/有界损失、\(D_v\) 的边缘分布等于 \(\hat{P}_{Y_u}\)、有/无标注共享类条件分布、重要性权重有界这四条假设下，对任意 \(\delta\in(0,1)\) 以至少 \(1-\delta\) 概率有

\[R_{P_u}(h_\tau) \le \hat{R}_{D_v}(h_\tau) + |\hat{R}_{D_v,w}(h_\tau) - \hat{R}_{D_v}(h_\tau)| + 2B\cdot L\cdot \mathcal{R}_V(\mathcal{H}_\tau) + U\cdot B\sqrt{\tfrac{\log(1/\delta)}{2V}}.\]

第一项是代理集上的经验风险（正是 LMC 直接最小化的目标）；第二项 \(|\hat{R}_{D_v,w}-\hat{R}_{D_v}|\) 度量代理分布和目标分布的差异——分布估得越准这一项越小、界越紧、\(\tau^\ast\) 越可靠，这正说明 DDDE 的精度直接决定 LMC 的成败，把两个组件理论上连成一体。其中 \(B\) 是重要性权重上界（要求 DDDE 不能严重低估任何类的真实占比），\(\mathcal{R}_V(\mathcal{H}_\tau)\) 是假设空间的 Rademacher 复杂度。附录里还补了优化目标的凸性分析，保证梯度下降能收敛到唯一全局最优 \(\tau^\ast\)。

损失函数 / 训练策略¶

骨架沿用 FixMatch：有标注样本用标准交叉熵，无标注样本对强/弱增广 \(A(x^u)/\alpha(x^u)\) 做一致性训练，只有弱增广预测置信度超过阈值 \(\rho\) 才保留伪标签。CoLA 的改动在伪标签生成处把 logit 减去校准偏移 \(\tau^\ast\cdot p\)（而非原始 \(\tau\cdot\log\hat{P}_{Y_u}\)）。整体两阶段：warm-up 用 ACR 配置 \(\tau\)，之后由 LMC 在代理集 \(D_v\) 上元学习 \(\tau^\ast\)。

实验关键数据¶

主实验¶

在 CIFAR-10/100-LT 上跨 5 种无标注分布（一致 CON / 均匀 UNI / 反转 REV / 中间 MID / 头尾 HT）对比，CoLA 全部取得最高准确率；在更难的 CIFAR-100-LT 上几乎所有设定都领先次优 1 个百分点以上。

数据集	分布	CoLA	次优（方法）	提升
CIFAR-10-LT	REV	85.61	85.03 (Meta-Expert)	+0.58
CIFAR-10-LT	UNI	83.66	83.12 (Meta-Expert)	+0.54
CIFAR-100-LT	REV	60.39	59.21 (ACR)	+1.18
CIFAR-100-LT	CON	59.04	58.31 (ACR)	+0.73
STL-10-LT \((150,\gamma_l{=}10)\)	未知	73.32	71.37 (Meta-Expert)	+1.95
SIN-127	\(64{\times}64\)	37.49	36.28 (ACR)	+1.21

STL-10-LT 的无标注分布未知、可能含 OOD 样本，CoLA 在全部设定都超过 LA 类次优方法（如 \(N_1{=}150,\gamma_l{=}10\) 超 Meta-Expert 1.95%）；SIN-127 这种大规模数据集也照样领先，说明方法可扩展。

消融实验¶

在 CIFAR-10/100-LT 上拆解 DDDE 与 LMC：w/o D-τ 是去掉 DDDE 且 \(\tau\) 固定为 1/2/4，w/o D-L 是只用 LMC（分布仍用频次计数），w/ D-L 是完整模型。

配置	CIFAR-10-LT (1,10)	CIFAR-100-LT (1,100)	说明
w/o D-1	83.12	56.23	固定 \(\tau{=}1\)，无 DDDE
w/o D-2	83.56	55.41	固定 \(\tau{=}2\)，无 DDDE
w/o D-4	82.64	53.32	固定 \(\tau{=}4\)，无 DDDE
w/o D-L	84.66	60.16	只用 LMC，频次计数
w/ D-L (Ours)	85.04	60.42	完整模型

关键发现¶

最优固定 \(\tau\) 跨数据集不一致：CIFAR-10-LT 上 \(\tau{=}2\) 通常优于 \(\tau{=}1\)，CIFAR-100-LT 上趋势相反；而且 w/o D-τ 的最好成绩仍低于 w/o D-L，证实写死 \(\tau\) 会让整体调整与类级调整冲突。
DDDE 不可或缺：w/o D-L 全面低于 w/ D-L——当类级估计不准时，LMC 学到的 \(\tau\) 会被误导，说明两个调整的交互是双向的。
分布估得更准：在 NWGMA、MCA 等替代估计方法的对比中，DDDE 在所有场景都取得最小 L2 距离（估计分布 vs 真实分布），直接解释了伪标签质量为何更高。

亮点与洞察¶

把「头部类样本冗余」这个长尾老问题，重新表述成「类表征矩阵的有效秩」，用 SVD 谱熵一行公式量化「有效样本数」，比频次计数优雅且更准——这个去重视角可迁移到任何需要估计类先验的不平衡场景。
最有「啊哈」感的是揭示了 LA 里类级和整体两个调整双向耦合：不是先估准分布就够，也不是单独学 \(\tau\) 就行，必须协同；并用泛化界把「分布估计精度」和「\(\tau\) 可靠性」理论上绑成一条链。
用线性偏移 \(-\tau\cdot p\) 替代对数偏移 \(-\tau\cdot\log\hat{P}\) 的小改动，回避了极小概率类的数值不稳定，是个可直接复用的工程 trick。
「在镜像目标分布的代理验证集上元学习超参」是个通用范式——任何「超参对未知测试分布敏感」的问题都可以照搬这套构造代理集 + 元学习的思路。

局限与展望¶

有效秩需对每个类的表征矩阵做 SVD，类别数大或表征维度高时有额外计算开销（作者把时间复杂度分析放在附录 H）；冷启动阶段表征不可靠时还得借 ACR 热身，说明方法对初始表征质量有依赖。
泛化界依赖「有/无标注共享类条件分布」和「重要性权重有界（DDDE 不严重低估任何类）」两条假设，现实里 OOD 严重或极端罕见类时这些假设可能被违反，界的保证会变弱。
代理集 \(D_v\) 从有标注集重采样而来，当某尾部类有标注样本极少时，重采样能覆盖的分布空间有限，\(\tau\) 的元学习可能受样本量 \(V\) 限制（界里 \(\sqrt{\log(1/\delta)/2V}\) 一项也提示了这点）。
实验集中在图像分类基准，能否迁移到检测/分割等结构化预测的长尾半监督场景未验证。

评分¶

新颖性: ⭐⭐⭐⭐ 有效秩去重 + 整体强度元学习 + 揭示两调整双向耦合，组合新颖且抓到 LA 的真实痛点。
实验充分度: ⭐⭐⭐⭐⭐ 4 个基准 × 6 种分布、对比 18 种方法、消融拆到 DDDE/LMC 各自贡献，并比了多种分布估计的 L2 距离。
写作质量: ⭐⭐⭐⭐ 动机层层递进、图 1 把两个痛点讲得很清楚，公式与理论自洽；部分细节（如 warm-up 切换时机）下放附录。
价值: ⭐⭐⭐⭐ 在长尾半监督上稳定刷新 SOTA，有效秩去重和代理集元学习两个思路有较强可迁移性。