Target-Agnostic Calibration under Distribution Shift with Frequency-Aware Gradient Rectification¶
会议: ICML 2026
arXiv: 2508.19830
代码: https://github.com/YilinZhang107/FGR-Calib (有)
领域: 可解释性 / 置信度校准 / 分布偏移鲁棒性
关键词: 校准、分布偏移、DCT 低通滤波、梯度投影、域不变特征
一句话总结¶
FGR 用 DCT 低通滤波去掉训练图像里的高频虚假捷径来在 OOD 上校准更准,再把「校准要变好」与「ID 不能塌」之间的梯度冲突用一次几何投影按硬约束方式解决,无需调权重就同时压住 OOD 的 ECE 和保住 ID 表现。
研究背景与动机¶
领域现状:深度模型部署时不仅要预测准,更要把置信度报准——医疗、自动驾驶等高风险场景里,「以 0.9 置信度预测错」远比「以 0.5 置信度预测错」危险得多。校准方法分两条主流路线:后验式 (Temperature Scaling、isotonic regression 等) 在固定模型上拟合一个置信度变换;训练时式 (Focal Loss / MMCE / Soft-ECE / Dual Focal Loss / Label Smoothing / Mixup 等) 在损失里加正则压低过自信。
现有痛点:上述方法在 ID 上工作良好,但一旦遇到分布偏移 (天气 / 光照 / 传感器变化、医院 / 设备差异、地理域差异),置信度就崩——典型 ResNet 在 ImageNet-C 上从 76% 跌到 18% 而置信度仍然高得离谱。已有「分布偏移下校准」方法又被迫依赖目标域信息:要么需要多域训练数据来训练输入条件温度回归器,要么需要合成验证集模拟目标域,要么需要 Bayesian / 特征密度等额外假设,部署时哪有这种好事。
核心矛盾:要在未知 OOD 上保持校准就得让模型只依赖跨分布稳定的特征,但抹掉不稳定信号 (如高频纹理) 必然损失 ID 上的精细决策边界,导致欠自信——这是「OOD 校准 vs ID 校准」之间不可调和的目标冲突,常规多任务加权和无法清晰处理「ID 不能掉」这种硬约束。
本文目标:(1) 不访问任何目标域信息的前提下让 OOD 校准变好;(2) 不引入额外 loss 权衡系数的前提下保住 ID 校准。
切入角度:从频域看分布偏移——已有证据 (Yin et al. 2019 / Fridovich-Keil et al. 2022 / Li et al. 2023) 表明模型常常把高频统计当作分类捷径,分布偏移也主要扰动高频成分。如果在训练时主动遮蔽掉一部分高频信号,模型就被推着去抓「形状 / 语义」这种跨域稳定的特征;遮蔽副作用 (ID 欠自信) 则交给优化器层面的硬约束机制去消化。
核心 idea:「频域过滤造域不变特征 + 梯度投影把 ID 校准当硬约束」——前者是数据侧的鲁棒性来源,后者是优化侧的安全网,二者解耦但耦合工作。
方法详解¶
FGR 是一个训练时框架,由「低通滤波生成混合训练集」与「梯度投影」两部分组合而成,整套训练流程在常规分类训练之后追加 (作者实测从 200 epoch 起插入)。
整体框架¶
每个 epoch 开始时按比例 \(\rho\) 随机抽取训练样本做 DCT 低通滤波形成 \(\mathcal{D}_{\text{filt}}\),剩余 \((1-\rho)\) 保持原样形成 \(\mathcal{D}_{\text{orig}}\),二者并集是混合训练集 \(\mathcal{D}_{\text{mix}}=\mathcal{D}_{\text{filt}}\cup\mathcal{D}_{\text{orig}}\)。每一步训练算两个梯度:主梯度 \(\mathbf{g}_{\text{main}}=\nabla_\theta\mathcal{L}_{\text{main}}(\theta;\mathcal{D}_{\text{mix}})\) 在混合集上算 Dual Focal Loss、校准梯度 \(\mathbf{g}_{\text{calib}}=\nabla_\theta\mathcal{L}_{\text{calib}}(\theta;\mathcal{D}_{\text{orig}})\) 仅在原始数据上算 Soft-ECE;当两者冲突时把主梯度投影到与 \(\mathbf{g}_{\text{calib}}\) 正交的半空间上再更新。
关键设计¶
-
DCT 块级低通滤波 (Robust Feature Builder):
- 功能:在不知道目标域是什么的前提下,把训练样本里源域特有的高频细节抹掉一部分,逼模型用形状 / 大局结构作分类依据。
- 核心思路:把图像转 YCbCr,每通道切成 \(8\times 8\) 非重叠块 \(\bm{x}_b\),2D-DCT 得到 \(\mathbf{F}_b\) 后按强度参数 \(\lambda\) 的 JPEG 量化表 \(\mathbf{Q}_\lambda\) 量化:\(\mathbf{F}_b^{(q)}=\text{round}(\mathbf{F}_b/\mathbf{Q}_\lambda)\),再反量化反变换 \(\hat{\bm{x}}_b=\text{DCT}^{-1}(\mathbf{F}_b^{(q)}\cdot\mathbf{Q}_\lambda)\) 拼回 RGB。\(\lambda\in[1,100]\) 越小过滤越激进;只滤一部分样本而非全部,保留原始信号供模型学精细边界。
- 设计动机:(a) DCT 的能量集中性让低频系数承载主要语义、丢掉的高频系数恰好是 spurious texture,与 Fourier 比避免了全局 ringing;(b) 块级处理对常见纹理失真鲁棒;(c) 「只滤一半」是有意识的折中——全滤会让 ID 完全欠自信,混合输入既造域不变压力又不彻底毁掉判别边界。
-
梯度投影机制 (FGR Rectification, 核心创新):
- 功能:把「让 OOD 校准变好」和「ID 校准不能塌」从两个加权 loss 改写成「主目标 + 硬约束」结构,无需调 loss 权重就保证一阶意义下 ID 校准 loss 不增。
- 核心思路:把可行半空间定义为 \(\mathcal{C}_\text{ID}=\{\mathbf{g}\mid \mathbf{g}^\top\mathbf{g}_{\text{calib}}\ge 0\}\),即所有「在 ID 校准方向上不退步」的更新方向;若 \(\mathbf{g}_{\text{main}}\cdot\mathbf{g}_{\text{calib}}\ge 0\) 直接用 \(\mathbf{g}_{\text{main}}\),否则做欧氏投影 \(\mathbf{g}_\text{final}=\mathbf{g}_{\text{main}}-\frac{\mathbf{g}_{\text{main}}\cdot\mathbf{g}_{\text{calib}}}{\|\mathbf{g}_{\text{calib}}\|^2+\epsilon}\mathbf{g}_{\text{calib}}\)。Proposition 4.1 证明这正是 \(\mathbf{g}_{\text{main}}\) 到 \(\mathcal{C}_\text{ID}\) 的欧氏投影,从而对足够小步长 \(\eta\) 有 \(\mathcal{L}_{\text{calib}}(\theta-\eta\mathbf{g}_\text{final})\le\mathcal{L}_{\text{calib}}(\theta)+\mathcal{O}(\eta^2)\)。
- 设计动机:与 PCGrad / CAGrad 这种「对称多任务」方法对照,FGR 的关键是不对称——它只在 \(\mathbf{g}_{\text{main}}\) 上做最小修正、不去修 \(\mathbf{g}_{\text{calib}}\),把 ID 校准当成「红线」而非「另一个可妥协的目标」;这避免了在 OOD 收益和 ID 表现之间靠人手调系数。
-
损失函数选择 (Dual Focal Loss + Soft-ECE 配对):
- 功能:主损失 \(\mathcal{L}_{\text{main}}=-\sum_k y_k(1-\hat{p}_k+\hat{p}_j)^\gamma\log\hat{p}_k\) (\(j\) 为最高错类) 同时惩罚过自信与欠自信,比 CE / Focal 单边惩罚更适合校准场景;约束损失 Soft-ECE 用温度软分桶把不可导的 ECE 写成可微近似 \(\mathcal{L}_{\text{calib}}=(\sum_m\frac{|S_m|}{N}|\text{acc}(S_m)-\text{conf}(S_m)|^2)^{1/2}\)。
- 核心思路:DFL 在混合集上学「鲁棒预测分布」、Soft-ECE 在原始数据上提供「ID 校准的几何方向」,二者通过投影机制松耦合协作,没有任何加权超参。
- 设计动机:作者明确说这套组合是「投影机制 + 任意校准导向损失」的一个实例,原则上可以替换;选择 DFL 是因为它本身就有较好的校准潜力,与投影机制叠加产生超线性增益。
损失函数 / 训练策略¶
ResNet-50/110、DenseNet-121、Wide-ResNet-26 从头训 350 epoch,前 200 epoch 标准训练让分类边界先稳住,从 200 epoch 起插入 DCT 滤波 + 梯度投影;WILDS 数据集走官方协议微调 ImageNet 预训练模型;总训练时间相对标准训练只多 18%。同时给出 two-stage 微调接口供已有模型增量校准。
实验关键数据¶
主实验¶
合成偏移 (CIFAR / Tiny-ImageNet -C,DenseNet-121,15 corruption × 5 严重度平均) 与真实偏移 (WILDS) 上的关键校准指标:
| 数据集 | 方法 | Acc.↑ | ECE↓ | w/ TS ECE↓ | CECE↓ | ACE↓ |
|---|---|---|---|---|---|---|
| CIFAR-10-C | DFL | 70.18 | 16.19 | 15.12 | 4.28 | 4.23 |
| CIFAR-10-C | MaxEnt | 71.98 | 11.62 | 13.63 | 3.62 | 3.62 |
| CIFAR-10-C | FGR | 75.12 | 9.02 | 9.90 | 3.12 | 3.09 |
| CIFAR-100-C | DFL | 50.17 | 9.99 | 8.82 | 0.51 | 0.49 |
| CIFAR-100-C | FGR | 52.66 | 8.53 | 7.57 | 0.47 | 0.46 |
| Camelyon17 (病理) | DFL | 88.03 | 2.74 | 2.12 | 9.957 | 9.956 |
| Camelyon17 | FGR | 89.19 | 2.36 | 1.82 | 5.714 | 5.691 |
| iWildCam (野生动物) | FGR | 76.11 | 3.34 | 2.97 | 0.155 | 0.152 |
| FMoW (遥感) | FGR | 51.95 | 25.06 | 3.84 | 0.92 | 0.74 |
Office-Home 语义偏移 (leave-one-domain-out 平均):
| 方法 | OOD Acc.↑ | OOD ECE↓ | OOD TS-ECE↓ | OOD CECE↓ | OOD ACE↓ |
|---|---|---|---|---|---|
| CE | 34.20 | 36.45 | 15.11 | 1.429 | 1.238 |
| DFL | 34.17 | 22.91 | 14.51 | 1.061 | 0.975 |
| BSCE-GRA | 32.55 | 21.09 | 15.29 | 1.052 | 0.991 |
| FGR | 34.03 | 20.41 | 13.93 | 1.018 | 0.971 |
消融实验¶
| 配置 | 关键发现 |
|---|---|
| Full FGR | OOD ECE / CECE / ACE 全面最优 |
| 只用 DCT 低通滤波 | OOD 提升但 ID 欠自信、ECE 反弹 |
| 只用梯度投影 | 没有 OOD 鲁棒性来源,效果接近 DFL baseline |
| FGR vs PCGrad (对称多任务) | FGR 更优——硬约束 vs 软折中 |
| FGR vs CAGrad (对称多任务) | 同上,验证「不对称投影」是关键 |
| 滤波强度 \(\lambda\) 扫描 | \(\lambda\) 越低 OOD 越鲁棒、ID 越欠自信,验证了 trade-off 存在 |
关键发现¶
- 滤波 + 投影必须配套:单独用滤波在 Camelyon17 把 ECE 从 12.23 (CE) 砍到接近 DFL 水平,但 ID 校准会被破坏;单独用投影没有 OOD 来源;两者合起来才能 Camelyon17 ECE 2.36 / CECE 5.71 (相对 DFL 9.96 砍掉 43%)。
- 对称多任务方法救不了这个问题:PCGrad / CAGrad 把两个目标当对等加权折中,会持续让 ID 退步;FGR 的不对称投影直接把 ID 锁住、让 OOD 在剩余可行方向上前进。
- 完全兼容后验校准:所有数据集上 w/ TS 列 FGR 都进一步降低,说明它学到的是「特征侧」的鲁棒性而不是与 TS 抢同一个空间。
亮点与洞察¶
- 「ID 校准当硬约束 + 几何投影」是这篇论文最可迁移的设计——任何「主目标 vs 红线目标」的训练场景 (公平性约束、安全约束、稀疏度约束) 都可以套这套不对称投影模板,比 PCGrad / CAGrad 更适合「不可妥协的副目标」情境。
- 从频域归因 OOD 鲁棒性给「域不变特征」一个具体可操作的工程接口——以前讲 invariant features 多停在抽象层面,FGR 通过 DCT 块级低通直接施加先验,块级处理还顺带保留了局部空间结构,比 Fourier 全局滤波更可控。
- 混合数据策略巧妙:只滤一部分而非全部样本,让模型既看到「干净的精细边界」也看到「鲁棒的粗糙特征」,比单纯数据增强更符合「ID 不掉、OOD 涨」的目标分工。
局限与展望¶
- 任务范围限制:所有实验都是图像分类 + CNN/DenseNet 主干,DCT 8×8 块级滤波是经典 JPEG 路径;换到 Transformer / ViT、分割、检测、视频是否仍然奏效需要验证 (ViT 的 patch 与 DCT 块尺寸交互可能不平凡)。
- 强假设:高频 = 虚假捷径:作者引用了支持这一论点的文献,但医学图像 (病理高频信息可能本来就是判别信号) 或细粒度识别场景下,简单低通可能把任务相关信号也滤掉,从 Camelyon17 上 FGR ID 精度还能上升来看这点目前没暴露问题,但在更高频判别任务上需要谨慎。
- 投影机制只保一阶:Proposition 4.1 只给出 \(\mathcal{O}(\eta^2)\) 的一阶非增保证,不保证在大学习率或长训练动态下 ID 校准不会缓慢漂移;作者用「200 epoch 后才插入」的工程选择间接缓解,但缺乏长期稳定性的理论。
- 可改进方向:把 DCT 替换为可学习的频域 mask 让模型自适应决定滤掉多少;把硬约束扩展到多个 (例:ID 校准 + ID 精度同时硬约束) 形成多约束投影;与 TTA 结合做训练-测试两阶段联合校准。
相关工作与启发¶
- vs Adaptive Temperature Scaling (Yu et al. 2022 / Wang et al. 2024): 他们必须访问或模拟目标域来训温度回归器,FGR 完全 target-agnostic,部署门槛低得多。
- vs Focal / MaxEnt / Dual Focal Loss: 这些只在损失里做正则,没有显式的 OOD 来源;FGR 的频域滤波直接造出「分布偏移压力」,相当于在训练时模拟了偏移。
- vs PCGrad (Yu et al. 2020) / CAGrad (Liu et al. 2021): 对称多任务方法,FGR 用「不对称投影」把 ID 升级为硬约束,去掉了 loss 权重超参。
- vs AugMix (Hendrycks et al. 2020): 数据增强路线,在合成偏移上很强但 WILDS 真实偏移上掉得很惨;FGR 在两类偏移上都稳,说明频域先验比像素级混合更通用。
评分¶
- 新颖性: ⭐⭐⭐⭐ 「频域滤波 + 硬约束投影」组合是新的,单独看每部分都有先例 (DCT 鲁棒性 / PCGrad),但「不对称投影把 ID 升级为硬约束」是真正的概念升级。
- 实验充分度: ⭐⭐⭐⭐⭐ 合成 (CIFAR-C / Tiny-ImageNet-C) + 真实 (Camelyon17 / iWildCam / FMoW) + 语义 (Office-Home) 全覆盖,并与 PCGrad / CAGrad / 后验 TS 都做了对比。
- 写作质量: ⭐⭐⭐⭐ 公式与几何直觉清楚,特别是 Proposition 4.1 的形式化把方法的「优化语义」讲透;个别地方略简 (DCT 与 JPEG 量化表的关系)。
- 价值: ⭐⭐⭐⭐ 直接解决了「分布偏移校准必须依赖目标域信息」这个部署痛点,加 18% 训练时间换来 OOD 校准显著改善,工程上易落地、易复现。