CoLA: Co-Calibrated Logit Adjustment for Long-Tailed Semi-Supervised Learning¶
会议: ICLR2026
OpenReview: https://openreview.net/forum?id=pI9n8wAR80
代码: 待确认
领域: 半监督学习 / 长尾识别 / Logit Adjustment
关键词: 长尾半监督, Logit Adjustment, 有效秩, 元学习, 伪标签
一句话总结¶
针对长尾半监督学习里 Logit Adjustment 的两块短板——「按频次计数高估头部类导致过度抑制」和「整体调整强度 \(\tau\) 被当成固定超参、与类级调整脱节」——CoLA 用有效秩去重地估计无标注类分布(DDDE),再在一个镜像该分布的代理验证集上元学习出最优 \(\tau\)(LMC),在 4 个长尾基准上全面刷新 SOTA。
研究背景与动机¶
领域现状:长尾半监督学习(LTSSL)的核心难题是「确认偏置的恶性循环」——模型先在偏斜的有标注数据上学偏,再用这个偏斜模型给大量无标注数据打伪标签,偏置被层层放大,头部类越来越自信、尾部类被逐渐边缘化。当前主流解法是 Logit Adjustment(LA):在预测 logit 上减去一个与类先验相关的偏移项,压头部、抬尾部,从而产出更均衡的伪标签。
现有痛点:LA 由两个分量组成——类级调整(按各类先验决定相对压制/鼓励的力度)和整体调整(一个标量 \(\tau\) 统一控制偏移的整体幅度)。由于无标注数据的真实分布未知,准确调整很难。一类方法(CPE、Meta-Expert)干脆用一组预设的锚分布当代理,但现实里真实分布常落在锚之外就失效;另一类更精细的方法(ACR、TCBC)改成动态估计无标注分布,却踩进两个新坑。
核心矛盾:第一,动态估计普遍靠「对高置信预测做频次计数」,但头部类塞满了视觉高度相似的冗余样本,单纯计数会高估头部类的实际占比,进而把头部 logit 压得过狠(over-suppression),反而掉点。第二,也是更被忽视的,这些方法把整体强度 \(\tau\) 当成固定超参,无视它和类级调整之间的耦合。作者的实证发现很反直觉:最优 \(\tau\) 对估计出的分布和类别数高度敏感,甚至不随不平衡比 \(\gamma_l\) 单调变化(CIFAR-10-LT 上 \(\gamma_l=100\) 的最优 \(\tau\) 反而大于 \(\gamma_l=150\)),一个写死的 \(\tau\) 根本没法自适应。
本文目标:把 LA 的类级分量和整体分量协同设计——既要去掉频次计数的冗余偏差给出准确的类先验,又要让 \(\tau\) 随这个先验自适应地学出来,并给出理论保证。
切入角度:头部类的冗余本质是「样本虽多但有效信息重复」,这正对应 Cui et al. 的「有效样本数」概念;而有效样本数可以用类表征矩阵的有效秩(effective rank)来量化。一旦有了去重后的准确分布,\(\tau\) 就能在一个「长得像无标注分布」的代理验证集上通过元学习直接优化出来。
核心 idea:用有效秩做去重分布估计(DDDE)替代频次计数解决过度抑制,再把整体强度 \(\tau\) 变成在镜像分布代理集上元学习的可学习参数(LMC),让类级与整体两个调整互相校准。
方法详解¶
整体框架¶
CoLA 建立在 FixMatch + 双分支(balanced branch / standard branch)这套 LTSSL 标准骨架上,要解决的就是「怎么给无标注数据打出更均衡的伪标签」。整体可以拆成两步串联再回灌训练:先用 DDDE 把无标注数据的类分布 \(\hat{P}_{Y_u}(y)\) 去重地估准,再把这个分布喂给 LMC,让它构造一个代理验证集并元学习出最优整体强度 \(\tau^\ast\);最后这套校准好的 logit 偏移项被用来生成伪标签,驱动端到端训练,训练得到的新表征又反过来让下一轮分布估计更准,形成正向闭环。balanced branch 上挂 DDDE 负责产出类均衡预测,standard branch 上挂 LMC 负责产出高质量伪标签;\(\tau\) 用两阶段管理——warm-up 阶段先按 ACR 配置,等分布估计可靠后再交给 LMC 学习。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["无标注数据<br/>高置信表征"] --> B["DDDE 去重分布估计<br/>有效秩量化冗余"]
B --> C["LMC 元校准<br/>代理集上学 τ*"]
C --> D["双分支端到端训练<br/>balanced + standard"]
D -->|两阶段 τ:warm-up→LMC| C
D --> E["更均衡的伪标签"]
E -.训练更新表征.-> A
关键设计¶
1. DDDE:用有效秩量化样本冗余,去掉头部类的虚高占比
这一设计直击「频次计数高估头部类→过度抑制」的痛点。对每个类 \(y\),先收集所有伪标签为 \(y\)、且置信度 \(\|\sigma(z(\alpha(x^u)))\|_\infty\) 超过阈值 \(\rho\) 的无标注样本表征 \(\{z^y_j\}\),堆成特征矩阵 \(Z_y \in \mathbb{R}^{d \times m_y}\),对它做 SVD 得到奇异值 \(s_1,\dots,s_{m_y}\)。把归一化奇异值谱当成概率分布 \(p(i) = s_i / \sum_j s_j\)(直观上 \(p(i)\) 是「一单位特征方差落在第 \(i\) 个主成分上的概率」),有效秩定义为该谱的香农熵的指数:
有效秩衡量的是「能量在各主方向上铺开的程度」:如果一个类的样本高度冗余(都长得像),能量会集中在少数主成分上、熵小、有效秩低;反之样本真正多样则有效秩高。于是把各类有效秩归一化就得到去重后的类分布
它比单纯数样本数更能反映「类的有效信息量」,从而避免把塞满相似样本的头部类压得过狠。
2. LMC:把整体强度 \(\tau\) 变成在镜像分布代理集上元学习的可学习参数
针对「\(\tau\) 被写死、和类级调整脱节」的痛点,LMC 不再手调 \(\tau\),而是数据驱动地学。它先从有标注集 \(D_l\) 里重采样构造一个代理验证集 \(D_v\),使其边缘标签分布对齐估计出的 \(\hat{P}_{Y_u}\)——对每个样本 \((x^l_i, y_i)\) 赋予选择概率
分母做归一化保证概率不超过 1(一种拒绝采样,防止过采样),逐样本做伯努利试验后得到 \(D_v\)。然后在 \(D_v\) 上最小化交叉熵来解出最优 \(\tau\):
其中 \(p = (\hat{P}_{Y_u}(1),\dots,\hat{P}_{Y_u}(K))\) 是估计出的去重类频向量。值得注意的是这里用的偏移项是线性的 \(-\tau\cdot p\),而非原始 post-hoc LA 的对数形式 \(-\tau\cdot\log\hat{P}_{Y_u}\)。线性项(受 Mor & Carmon 2025 启发)避免了对极小估计概率的数值不稳定和过度惩罚,让优化更稳。因为 \(D_v\) 是「照着无标注分布捏出来的」,在它上面学到的 \(\tau^\ast\) 才真正适配当前数据特性,这也正是类级(DDDE 给的 \(p\))和整体(\(\tau\))两个调整互相校准的关键。
3. 双分支端到端训练 + 两阶段 \(\tau\) 调度
DDDE 和 LMC 需要被装进一个能自洽运转的训练管线。CoLA 沿用 LTSSL 常见的双分支结构:balanced branch 上施加 DDDE,目标是产出类均衡的预测;standard branch 上施加 LMC,负责生成高质量伪标签。\(\tau\) 的管理分两阶段——初始 warm-up 阶段模型还没学出可靠表征、有效秩估计噪声大,此时 \(\tau\) 先按 ACR 的方式配置;等模型对类分布的估计稳定后,再切换到 LMC 学习最优 \(\tau\) 并用于后续训练。这种「先借旧方法热身、再交给自己学」的调度,回避了冷启动阶段分布估计不准把 \(\tau\) 带偏的风险。
4. 泛化界:把 DDDE 的估计精度和 LMC 的可靠性理论上绑在一起
为了说明两个组件不是各自为政,作者给 \(\tau\) 参数化的分类器证了一个泛化界(Proposition 1)。在 Lipschitz/有界损失、\(D_v\) 的边缘分布等于 \(\hat{P}_{Y_u}\)、有/无标注共享类条件分布、重要性权重有界这四条假设下,对任意 \(\delta\in(0,1)\) 以至少 \(1-\delta\) 概率有
第一项是代理集上的经验风险(正是 LMC 直接最小化的目标);第二项 \(|\hat{R}_{D_v,w}-\hat{R}_{D_v}|\) 度量代理分布和目标分布的差异——分布估得越准这一项越小、界越紧、\(\tau^\ast\) 越可靠,这正说明 DDDE 的精度直接决定 LMC 的成败,把两个组件理论上连成一体。其中 \(B\) 是重要性权重上界(要求 DDDE 不能严重低估任何类的真实占比),\(\mathcal{R}_V(\mathcal{H}_\tau)\) 是假设空间的 Rademacher 复杂度。附录里还补了优化目标的凸性分析,保证梯度下降能收敛到唯一全局最优 \(\tau^\ast\)。
损失函数 / 训练策略¶
骨架沿用 FixMatch:有标注样本用标准交叉熵,无标注样本对强/弱增广 \(A(x^u)/\alpha(x^u)\) 做一致性训练,只有弱增广预测置信度超过阈值 \(\rho\) 才保留伪标签。CoLA 的改动在伪标签生成处把 logit 减去校准偏移 \(\tau^\ast\cdot p\)(而非原始 \(\tau\cdot\log\hat{P}_{Y_u}\))。整体两阶段:warm-up 用 ACR 配置 \(\tau\),之后由 LMC 在代理集 \(D_v\) 上元学习 \(\tau^\ast\)。
实验关键数据¶
主实验¶
在 CIFAR-10/100-LT 上跨 5 种无标注分布(一致 CON / 均匀 UNI / 反转 REV / 中间 MID / 头尾 HT)对比,CoLA 全部取得最高准确率;在更难的 CIFAR-100-LT 上几乎所有设定都领先次优 1 个百分点以上。
| 数据集 | 分布 | CoLA | 次优(方法) | 提升 |
|---|---|---|---|---|
| CIFAR-10-LT | REV | 85.61 | 85.03 (Meta-Expert) | +0.58 |
| CIFAR-10-LT | UNI | 83.66 | 83.12 (Meta-Expert) | +0.54 |
| CIFAR-100-LT | REV | 60.39 | 59.21 (ACR) | +1.18 |
| CIFAR-100-LT | CON | 59.04 | 58.31 (ACR) | +0.73 |
| STL-10-LT \((150,\gamma_l{=}10)\) | 未知 | 73.32 | 71.37 (Meta-Expert) | +1.95 |
| SIN-127 | \(64{\times}64\) | 37.49 | 36.28 (ACR) | +1.21 |
STL-10-LT 的无标注分布未知、可能含 OOD 样本,CoLA 在全部设定都超过 LA 类次优方法(如 \(N_1{=}150,\gamma_l{=}10\) 超 Meta-Expert 1.95%);SIN-127 这种大规模数据集也照样领先,说明方法可扩展。
消融实验¶
在 CIFAR-10/100-LT 上拆解 DDDE 与 LMC:w/o D-τ 是去掉 DDDE 且 \(\tau\) 固定为 1/2/4,w/o D-L 是只用 LMC(分布仍用频次计数),w/ D-L 是完整模型。
| 配置 | CIFAR-10-LT (1,10) | CIFAR-100-LT (1,100) | 说明 |
|---|---|---|---|
| w/o D-1 | 83.12 | 56.23 | 固定 \(\tau{=}1\),无 DDDE |
| w/o D-2 | 83.56 | 55.41 | 固定 \(\tau{=}2\),无 DDDE |
| w/o D-4 | 82.64 | 53.32 | 固定 \(\tau{=}4\),无 DDDE |
| w/o D-L | 84.66 | 60.16 | 只用 LMC,频次计数 |
| w/ D-L (Ours) | 85.04 | 60.42 | 完整模型 |
关键发现¶
- 最优固定 \(\tau\) 跨数据集不一致:CIFAR-10-LT 上 \(\tau{=}2\) 通常优于 \(\tau{=}1\),CIFAR-100-LT 上趋势相反;而且
w/o D-τ的最好成绩仍低于w/o D-L,证实写死 \(\tau\) 会让整体调整与类级调整冲突。 - DDDE 不可或缺:
w/o D-L全面低于w/ D-L——当类级估计不准时,LMC 学到的 \(\tau\) 会被误导,说明两个调整的交互是双向的。 - 分布估得更准:在 NWGMA、MCA 等替代估计方法的对比中,DDDE 在所有场景都取得最小 L2 距离(估计分布 vs 真实分布),直接解释了伪标签质量为何更高。
亮点与洞察¶
- 把「头部类样本冗余」这个长尾老问题,重新表述成「类表征矩阵的有效秩」,用 SVD 谱熵一行公式量化「有效样本数」,比频次计数优雅且更准——这个去重视角可迁移到任何需要估计类先验的不平衡场景。
- 最有「啊哈」感的是揭示了 LA 里类级和整体两个调整双向耦合:不是先估准分布就够,也不是单独学 \(\tau\) 就行,必须协同;并用泛化界把「分布估计精度」和「\(\tau\) 可靠性」理论上绑成一条链。
- 用线性偏移 \(-\tau\cdot p\) 替代对数偏移 \(-\tau\cdot\log\hat{P}\) 的小改动,回避了极小概率类的数值不稳定,是个可直接复用的工程 trick。
- 「在镜像目标分布的代理验证集上元学习超参」是个通用范式——任何「超参对未知测试分布敏感」的问题都可以照搬这套构造代理集 + 元学习的思路。
局限与展望¶
- 有效秩需对每个类的表征矩阵做 SVD,类别数大或表征维度高时有额外计算开销(作者把时间复杂度分析放在附录 H);冷启动阶段表征不可靠时还得借 ACR 热身,说明方法对初始表征质量有依赖。
- 泛化界依赖「有/无标注共享类条件分布」和「重要性权重有界(DDDE 不严重低估任何类)」两条假设,现实里 OOD 严重或极端罕见类时这些假设可能被违反,界的保证会变弱。
- 代理集 \(D_v\) 从有标注集重采样而来,当某尾部类有标注样本极少时,重采样能覆盖的分布空间有限,\(\tau\) 的元学习可能受样本量 \(V\) 限制(界里 \(\sqrt{\log(1/\delta)/2V}\) 一项也提示了这点)。
- 实验集中在图像分类基准,能否迁移到检测/分割等结构化预测的长尾半监督场景未验证。
相关工作与启发¶
- vs ACR:ACR 用双分支 + 到 3 个预设锚分布的距离决定 post-hoc LA 强度;CoLA 保留双分支但抛弃锚分布,改成有效秩动态去重估计 + 元学习 \(\tau\),因此能处理落在锚之外的任意分布。CoLA 还在 warm-up 阶段复用 ACR 配置 \(\tau\)。
- vs CPE / Meta-Expert:它们靠一小撮离散预设锚分布(CPE 三个专家分类器、Meta-Expert 加门控选分类器);CoLA 指出这类方法在分布偏移任意/不可预测时受限,用连续自适应估计取代离散锚。
- vs 基于频次计数的动态估计:传统动态估计单纯数高置信预测,忽略头部类冗余导致过度抑制;DDDE 用有效秩把「样本数」换成「有效样本数」,在 L2 距离上全面更准。
- vs 原始 post-hoc LA (Menon et al.):原始 LA 用固定 \(\tau\) + 对数类频偏移;CoLA 把 \(\tau\) 变可学习、把对数偏移换成线性偏移,并补上泛化界与凸性分析的理论支撑。
评分¶
- 新颖性: ⭐⭐⭐⭐ 有效秩去重 + 整体强度元学习 + 揭示两调整双向耦合,组合新颖且抓到 LA 的真实痛点。
- 实验充分度: ⭐⭐⭐⭐⭐ 4 个基准 × 6 种分布、对比 18 种方法、消融拆到 DDDE/LMC 各自贡献,并比了多种分布估计的 L2 距离。
- 写作质量: ⭐⭐⭐⭐ 动机层层递进、图 1 把两个痛点讲得很清楚,公式与理论自洽;部分细节(如 warm-up 切换时机)下放附录。
- 价值: ⭐⭐⭐⭐ 在长尾半监督上稳定刷新 SOTA,有效秩去重和代理集元学习两个思路有较强可迁移性。