Towards Robust Pseudo-Label Learning in Semantic Segmentation: An Encoding Perspective¶

会议: NeurIPS 2025
arXiv: 2512.06870
代码: https://github.com/Woof6/ECOCSeg
领域: 分割
关键词: 伪标签学习, 语义分割, 纠错输出码, 无监督域适应, 半监督学习

一句话总结¶

提出 ECOCSeg，用纠错输出码（ECOC）替代 one-hot 编码来表示语义类别，将 N 类分类分解为 K 个二分类子任务，配合 bit 级伪标签去噪和定制优化损失，显著提升 UDA 和 SSL 语义分割中伪标签学习的鲁棒性。

研究背景与动机¶

领域现状：语义分割在标签稀缺场景下（无监督域适应 UDA 和半监督学习 SSL）广泛依赖伪标签学习。主流方法分为自训练（用 EMA 教师模型生成伪标签）和一致性正则化（对同一样本不同扰动要求预测一致），两者本质上都是伪标签学习范式。

现有痛点：伪标签不可避免地存在错误，而现有方法使用 one-hot 编码通过 argmax 硬分配类别标签，一旦预测错误就会完全误导训练。阈值过滤策略丢弃低置信度样本导致模型偏向简单样本；加权策略需要精心调参，泛化性差。关键是：现有方法都聚焦在伪标签的选择策略上，几乎没有人考虑过编码形式本身的影响。

核心矛盾：相似类别（如 sheep/cow/horse）共享视觉属性导致频繁互相混淆，one-hot 编码下一旦混淆就完全错误（互信息为零），但实际上这些类别之间存在共享属性——如果编码形式能利用这种共享关系，即使分类错误也能提供部分正确的监督信号。

本文目标 从编码形式的角度重新审视伪标签噪声问题，设计一种能容忍部分 bit 错误的类别编码，使得错误伪标签仍能提供有意义的监督。

切入角度：作者借鉴通信领域的纠错输出码（ECOC），将每个类别表示为多 bit 的二进制编码而非 one-hot 向量。类似类别在编码中共享某些 bit，即使分类错误，共享的 bit 仍然正确，从而实现"错中有对"的容错监督。

核心 idea：用纠错输出码替代 one-hot 编码来表示语义类别，让伪标签即使分类错误也能在 bit 层面提供部分正确的监督信号。

方法详解¶

整体框架¶

ECOCSeg 可以作为插件集成到现有伪标签学习框架中。输入图像经过编码器提取像素特征，然后不再送入 N 类分类器，而是送入 K 个二分类器（每个预测编码的一个 bit），输出 K 维概率向量后通过软 Hamming 距离在码本中查找最近邻来确定类别。伪标签生成环节引入 bit 级去噪机制，在 bit-wise 和 code-wise 两种伪标签形式之间取长补短。训练时使用三个定制损失函数联合优化。

关键设计¶

ECOC 密集分类范式:
- 功能：将 N 类语义分割转化为 K 个二分类问题，天然具备纠错能力
- 核心思路：构建一个 \(N \times K\) 的二值码本矩阵，每个类别对应一个长度为 K 的 codeword。分类器变为 K 个独立的 sigmoid 二分类器，每个预测一个 bit。分类时计算预测向量与码本中各 codeword 的软 Hamming 距离 \(d_{SH}(\mathbf{c}_n, \mathbf{p}^i) = \frac{1}{K}\sum_{k=1}^K \|p(k|\mathbf{z}_i) - \mathbf{c}_{nk}\|_1\)，选最近邻确定类别。码本设计提供两种策略：max-min 距离编码（最大化类间最小 Hamming 距离，保证纠错能力）和基于文本的编码（利用类名语义关系生成编码，保证语义一致性）
- 设计动机：one-hot 编码下类间 Hamming 距离恒为 2，纠错能力为零。ECOC 编码可以让类间距离远大于 2，理论上能容忍 \(\lfloor(d-1)/2\rfloor\) 个 bit 错误。论文还从 NTK 理论证明了在全监督下 ECOC 与 one-hot 性能等价（Theorem 4.1），在伪标签噪声下 ECOC 能获得更紧的误分类上界（Theorem 4.2）
可靠 bit 挖掘算法（Reliable Bit Mining）:
- 功能：在 bit 级别从噪声伪标签中挖掘可靠的监督信号
- 核心思路：ECOCSeg 自然引出两种伪标签形式——bit-wise（将每个 bit 的 sigmoid 输出直接量化）和 code-wise（查最近邻码字）。两者各有优劣：bit-wise 较软但每个 bit 独立噪声；code-wise 在分类正确时完全准确但一旦错误引入整体噪声。算法的核心是查询 C-最近邻码字，找出候选集中所有码字共享的 bit 位置（这些 bit 无论哪个候选是真值都是对的），标记为"可靠 bit"，最终混合伪标签：可靠位置用 code-wise 值，不可靠位置用 bit-wise 值。C 的大小通过置信度阈值 T 自适应确定
- 设计动机：单一伪标签形式无法同时获得高精度和高覆盖率。通过挖掘候选类别间的共享 bit，能在保证正确性的同时最大化可用监督信号
定制优化目标:
- 功能：在 bit 级 BCE 基础上引入结构化表示约束，加速收敛并增强判别力
- 核心思路：三个损失组合——(1) 二值交叉熵 \(\mathcal{L}_{bce}\) 独立优化每个 bit 分类器；(2) 像素-码距离 \(\mathcal{L}_{pcd} = 1 - \cos(\hat{\mathbf{p}}^i, \hat{\mathbf{c}}^i)\) 鼓励类内紧凑性，将 logits 向对应码字的方向拉近；(3) 像素-码对比 \(\mathcal{L}_{pcc}\) 作对比学习，将预测推离非目标码字，且只在区分性 bit 位（\(P_d\)）上计算，忽略共享 bit 位
- 设计动机：单独的 BCE 忽略 bit 之间的结构关系，缺乏类内紧凑和类间分离的约束。PCD 提供类内约束，PCC 提供类间约束，三者互补

损失函数 / 训练策略¶

总损失为 \(\mathcal{L}_{total} = \mathcal{L}_{bce} + \lambda_1 \mathcal{L}_{pcd} + \lambda_2 \mathcal{L}_{pcc}\)，同时用于有标签的监督损失和无标签的伪标签损失。整体训练流程保持 self-training/consistency regularization 的标准范式不变，只替换编码形式、伪标签生成和损失函数。

实验关键数据¶

主实验¶

基线方法	架构	原始 mIoU	+ECOCSeg mIoU	提升
DACS (GTA→CS)	CNN	52.1	54.5	+2.4
DAFormer (GTA→CS)	Trans.	68.3	70.5	+2.2
MIC (GTA→CS)	Trans.	75.9	76.9	+1.0
DACS (SYN→CS)	CNN	48.3	52.1	+3.8
DAFormer (SYN→CS)	Trans.	60.9	63.3	+2.4
MIC (SYN→CS)	Trans.	68.7	69.8	+1.1

消融实验¶

组件	GTA→CS mIoU	说明
基线 (DAFormer)	68.3	one-hot + CE
+ ECOC 编码	69.0	仅换编码形式
+ bit-wise PL	69.5	bit 级伪标签
+ code-wise PL	69.3	码字级伪标签
+ 混合 PL (RBM)	70.0	可靠 bit 挖掘
+ PCD + PCC 损失	70.5	完整 ECOCSeg

关键发现¶

ECOCSeg 对不同基线（DACS/DAFormer/MIC）和不同架构（CNN/Transformer）一致有效，说明其正交于已有改进
SYNTHIA→Cityscapes 上提升更大（+3.8），因为跨域差距更大时伪标签噪声更严重，ECOC 的容错优势更明显
混合伪标签（RBM）比单独的 bit-wise 或 code-wise 都好，验证了两种形式互补的假设
ECOC 编码在全监督设置下不掉点，验证了 Theorem 4.1 的理论预测
论文还展示了 ECOC 能改善模型校准（calibration），间接提高后续迭代中伪标签的质量

亮点与洞察¶

从编码视角切入伪标签噪声问题：这是一个全新的正交方向，与现有的过滤、加权等策略完全不冲突，可以叠加使用。这种思维的转换——不优化选什么标签，而是优化标签的表示形式——非常巧妙
类间共享属性的利用：sheep 和 cow 都有角和蹄，即使分错类别，共享属性对应的 bit 仍然正确。这个洞察简单但深刻，将通信领域的纠错思想自然地迁移到语义分割
理论保证：从 NTK 框架出发证明了 ECOC 在全监督下等价性和在噪声下的优越性，不仅是启发式方法而有严格的理论支撑

局限与展望¶

码本设计（K 值选择和编码策略）的最优配置可能因数据集而异，缺乏自适应选择机制
K 个二分类器比 1 个 N 类分类器引入更多参数，当类别数非常大时可能有效率问题
目前只在语义分割上验证，但 ECOC 编码思想理论上可以迁移到任何伪标签学习场景（如目标检测、实例分割），值得探索
可靠 bit 挖掘的阈值 T 是固定超参，自适应阈值策略可能进一步提升效果

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从编码形式角度审视伪标签噪声是全新方向，将通信领域 ECOC 引入分割是首次
实验充分度: ⭐⭐⭐⭐ 覆盖 UDA/SSL 多个基线和多个 benchmark，消融详细，但缺少更多任务的验证
写作质量: ⭐⭐⭐⭐⭐ 问题形式化清晰，三个组成部分（编码/伪标签策略/优化目标）的分析框架很优雅
价值: ⭐⭐⭐⭐⭐ 正交于现有方法、即插即用、有理论保证，实用价值和启发价值都很高