TRiCo: Triadic Game-Theoretic Co-Training for Robust Semi-Supervised Learning¶

会议: NeurIPS 2025
arXiv: 2509.21526
代码: 暂无
领域: 强化学习
关键词: 半监督学习, 博弈论, 协作训练, 元学习, 对抗扰动

一句话总结¶

提出 TRiCo 框架，将半监督学习重构为教师-双学生-对抗生成器的三方博弈（Stackelberg 博弈），用互信息替代置信度做伪标签筛选，元学习教师自适应调节训练动态，在低标签场景下实现 SOTA 性能。

研究背景与动机¶

半监督学习（SSL）通过利用大量无标签数据来缓解标注成本高的问题，其中协作训练（co-training）通过让两个模型在互补视角上交换伪标签来减少确认偏差。但传统 co-training 在现实场景中存在三个核心局限：

伪标签筛选不可靠：传统方法用固定置信度阈值过滤伪标签，但 softmax 置信度的校准在训练早期和分布偏移下极不稳定。过度自信但错误的伪标签会在双视角间传播，导致语义坍塌。

视角交互静态对称：co-training 假设两个视角能力对称、且交互方式固定。但实际上模型容量、表征质量、学习速度天然异质，缺乏自适应调节机制会导致交互停滞甚至损害泛化。

缺少难样本挖掘：伪标签天然偏向高置信度的简单样本，模型容易过拟合到这些区域而忽略决策边界附近的不确定区域——而这些才是真正驱动鲁棒性的关键区域。

本文的核心 idea 是引入第三方角色——教师，将原本的双方交互升级为三方博弈，形成"教师主导调控、生成器制造挑战、学生在监督下协作学习"的闭环。

方法详解¶

整体框架¶

TRiCo 包含三个交互组件：

两个学生分类器 \(f_1\), \(f_2\)：分别在两个冻结视觉编码器（DINOv2 和 MAE）提取的互补表征上训练，使用轻量 MLP head。
非参数对抗生成器 \(G\)：在嵌入空间做扰动以暴露决策边界弱点。
元学习教师 \(\pi_T\)：自适应控制伪标签筛选阈值和损失权重。

三者的交互被形式化为 Stackelberg 博弈：教师是领导者（优化泛化目标），学生和生成器是跟随者。

关键设计¶

基于互信息的伪标签筛选：不使用基于置信度的启发式方法，而用互信息（MI）度量认知不确定性。对每个输入做 \(K\) 次 dropout 前向传播，估计预测分布的互信息：

\[\text{MI}(x^{(i)}) = H[\bar{p}^{(i)}(y)] - \frac{1}{K}\sum_{k=1}^{K} H[p_{\theta_k}^{(i)}(y)]\]

只有 \(\text{MI} > \tau_{\text{MI}}\) 的样本才被接受用于交叉视角监督。MI 比置信度更能反映认知不确定性，尤其在训练早期和模糊样本上更鲁棒。交叉视角无监督损失为：

\[\mathcal{L}_{\text{unsup}} = \mathbb{E}_{x_u}[\ell(f_1(x_u^{(1)}), \hat{y}^{(2)}) + \ell(f_2(x_u^{(2)}), \hat{y}^{(1)})]\]

熵驱动对抗生成器：通过最大化预测熵+MI 的方式在嵌入空间构造对抗扰动：

\[\delta^{(i)*} = \arg\max_{\|\delta\|_\infty \leq \epsilon} [\mathcal{H}(f_i(x^{(i)}+\delta)) + \gamma \cdot \text{MI}(f_i(x^{(i)}+\delta))]\]

通过 FGSM/PGD 风格的梯度上升计算，无需训练生成器模型。对抗损失促使模型即使在高不确定区域也能做出确信预测：\(\mathcal{L}_{\text{adv}} = \mathbb{E}[\mathcal{H}(f_1(x_g^{(1)})) + \mathcal{H}(f_2(x_g^{(2)}))]\)。

元学习教师：教师参数 \(\theta_T\) 包括 \(\tau_{\text{MI}}\)、\(\lambda_u\)、\(\lambda_{\text{adv}}\)（通过 sigmoid 约束到 \([0,1]\)）。核心思想是"好的伪标签策略应导致学生在验证集上泛化更好"。通过单步梯度展开的元学习更新教师：

\[\theta_T \leftarrow \theta_T - \eta_T \cdot \nabla_{\theta_T} \mathcal{L}_{\text{sup}}(f_{\theta_S - \eta \nabla_{\theta_S} \mathcal{L}_{\text{unsup}}^{\theta_T}})\]

教师通过观察自身决策对学生泛化的影响来优化策略，从静态过滤器转变为主动策略学习者。

损失函数 / 训练策略¶

总损失为三部分之和：\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{sup}} + \lambda_u \mathcal{L}_{\text{unsup}} + \lambda_{\text{adv}} \mathcal{L}_{\text{adv}}\)。学生用 SGD 优化，教师用元梯度下降更新。理论上证明了三方博弈的 Nash 均衡存在性（Theorem 1）。使用 ViT-B/16（DINOv2+MAE）作为冻结编码器，学生为两层 MLP。SGD+余弦退火，batch=64，训练 512 epochs。

实验关键数据¶

主实验¶

数据集	设置	TRiCo	Meta Pseudo Label	FlexMatch	FixMatch
CIFAR-10	4k labels	96.3	95.1	94.9	94.3
SVHN	1k labels	94.2	93.5	92.7	92.1
STL-10	full labeled	92.4	90.6	90.1	89.5
ImageNet	1% labels	81.2	55.0	53.5	52.6
ImageNet	10% labels	85.9	71.8	70.2	68.7
ImageNet	25% labels	88.3	76.4	75.3	74.9

ImageNet 25% 标签下 TRiCo 达到 88.3%，接近全监督大模型性能。

消融实验¶

组件	准确率	PGD鲁棒性	说明
TRiCo 完整	95.9	82.1	全部组件协同
MI 筛选 → 置信度 0.70	95.0	77.7	MI 筛选优于置信度
固定教师参数	94.7	79.0	元学习调节必要
去掉生成器	94.2	78.9	对抗训练贡献约 1.7%
随机噪声替代	70.5	66.4	熵引导扰动远优于随机
2-View Only (无教师)	94.1	78.4	教师贡献约 1.8%

关键发现¶

MI 筛选在所有置信度阈值设置上都更优，尤其在训练早期更稳定。
教师参数（\(\tau_{\text{MI}}, \lambda_u, \lambda_{\text{adv}}\)）在训练中呈现平滑的自适应变化，早期保守、后期逐渐放开。
Few-shot 设置（1/5/10-shot）下，TRiCo 优势进一步扩大（CIFAR-100 1-shot: 23.8 vs MCT 21.2）。
T-SNE 可视化显示 TRiCo 的特征空间聚类更紧凑、类间分离更清晰。

亮点与洞察¶

将 SSL 从"双方协作"升级为"三方博弈"的视角是一个结构性创新——教师作为"调控者"比作为"标签生成者"（如 Mean Teacher）更有灵活性。
互信息替代置信度做伪标签筛选，从信息论角度更合理——置信度衡量的是一个模型的"表面确信"，MI 衡量的是"多个模型样本间的一致性"。
冻结预训练编码器 + 轻量 MLP 学生的设计是 foundation model 时代 SSL 的务实架构选择。
Stackelberg 博弈的形式化赋予了方法理论优雅性（Nash 均衡存在性）。

局限与展望¶

依赖两个特定的冻结预训练编码器（DINOv2 + MAE），编码器选择对性能的影响需要更系统的研究。
互信息的 Monte Carlo dropout 估计（\(K=5\) 次前向传播）增加了计算开销。
元学习的内外循环在每步都需要计算二阶梯度（虽然做了一阶近似），对大规模任务的扩展性需验证。
实验主要在图像分类上，向检测、分割等密集预测任务的扩展尚未探索。

评分¶

新颖性: ⭐⭐⭐⭐☆ — 三方博弈 + MI筛选 + 元学习教师的组合新颖，但每个组件单独不算全新
实验充分度: ⭐⭐⭐⭐⭐ — CIFAR/SVHN/STL/ImageNet + few-shot + OOD + 详细消融
写作质量: ⭐⭐⭐⭐☆ — 结构清晰但公式较多，理论分析可以更直观
价值: ⭐⭐⭐⭐☆ — 在低标签 SSL 上效果显著，冻结编码器设计适合实际应用