A Statistical Theory of Overfitting for Imbalanced Classification¶

会议: ICLR2026
OpenReview: cKthi6QfUr
代码: https://github.com/jlyu55/Imbalanced_Classification_iclr
领域: 统计学习理论
关键词: 不平衡分类, 过拟合, 高维渐近, 截断高斯, margin rebalancing

一句话总结¶

本文为高维不平衡线性分类建立统计理论：在两类高斯混合模型下，测试集 logit 服从 \(N(0,1)\)，但训练集 logit 收敛到 \(\max\{\kappa, N(0,1)\}\)（截断高斯），并用一个变分问题刻画这种"截断"如何随维度发生，进而严格解释了为什么少数类受过拟合伤害更重、为什么 margin rebalancing 有效、以及过拟合如何连带恶化置信度校准。

研究背景与动机¶

领域现状：不平衡分类（rare disease、异常检测、长尾群体）里，少数类只占训练样本的一小撮。在深度学习时代，一个常见做法是冻结预训练网络当特征提取器、只重训最后一层线性分类头（即 linear probing），这本质上就是在高维特征 \(x\in\mathbb{R}^d\) 上做一个线性分类器 \(f(x)=\langle x,\beta\rangle+\beta_0\)。

现有痛点：经典统计理论建立在大样本渐近和有限样本修正之上，在 \(d\) 与 \(n\) 可比的高维场景里基本失效。人们反复观测到两个现象却解释不清：① 少数类的过拟合（训练/测试精度差）明显比多数类严重；② 维度、不平衡度、信号强度这些因素到底如何影响测试精度和不确定性量化，缺乏系统刻画。现有的 reweighting、重采样、margin-based 损失都是 ad hoc 的，对超参选择和特征解释几乎没有指导。

核心矛盾：高维下数据往往线性可分，SVM/逻辑回归能把训练误差压到零，但测试误差并不为零——这个 train/test 差距就是过拟合。问题在于：单看 train/test accuracy 太粗糙，看不出过拟合在"分布层面"到底对两个类做了什么、为什么不对称地伤害少数类。

本文目标：① 给出过拟合在 logit 分布层面的精确刻画；② 量化维度/不平衡/信号强度对测试误差和校准的单调影响；③ 给 margin rebalancing 这个常用 trick 一个最优超参的理论解释。

切入角度：不要只盯着标量的测试误差，而是去刻画整条 logit 分布——训练集 logit 的经验分布（ELD）和测试集 logit 分布（TLD）。作者发现 TLD 是高斯、而 ELD 是被 margin "顶住"的截断高斯，这个差异恰好就是过拟合的指纹。

核心 idea：用高维统计的 Gordon 定理把 max-margin 训练化简成一个变分问题，揭示出"过拟合 = 把重叠的 TLD 质量搬到 margin 边界上的截断操作"，而两类共享同一个有限的"过拟合预算"，导致少数类被截断得更狠。

方法详解¶

整体框架¶

本文不是一篇提方法的论文，而是一篇为现象"立定理"的统计理论论文。它锁定一个可解析的玩具模型——两类各向同性高斯混合（2-GMM）：\(P(y=+1)=\pi\)（少数类），\(P(y=-1)=1-\pi\)，\(x\mid y\sim N(y\mu, I_d)\)，信号向量 \(\mu\in\mathbb{R}^d\)。在这个模型上训练标准的（硬 margin）SVM 或逻辑回归，关心两个量：参数 \((\hat\beta,\hat\beta_0,\hat\kappa)\) 和 logit \(\hat f(x_i)=\langle x_i,\hat\beta\rangle+\hat\beta_0\)。

分析的主线是在比例渐近 \(n/d\to\delta\)（\(\delta\) 称 aspect ratio）下，让 \(n,d\to\infty\)，看 logit 分布收敛到什么。整篇文章沿三个 section 递进：Section 2 刻画过拟合本身（ELD vs TLD 的截断现象），Section 3 用这个刻画推导 margin rebalancing 的最优超参，Section 4 把同一套刻画外推到置信度校准，并在 Section 5 把结论从 2-GMM 推广到多类和非各向同性协方差。整条逻辑链是单一变分问题（公式 5）往三个下游应用的辐射，所以这里不需要 pipeline 框架图。

关键设计¶

1. ELD/TLD：把过拟合从"标量误差"升级为"分布截断"

直接比较 train/test accuracy 只能告诉你过拟合存在、却说不清它怎么发生。本文定义两个对象：经验 logit 分布 ELD \(\hat\nu_n^{\text{train}}=\frac1n\sum_i \delta_{(y_i,\hat f(x_i))}\)（训练集上 logit 的直方图），和测试 logit 分布 TLD \(\hat\nu_n^{\text{test}}=\mathrm{Law}(y_{\text{test}},\hat f(x_{\text{test}}))\)。关键观察是：当训练集线性可分（margin \(\hat\kappa_n=\min_i y_i\hat f(x_i)>0\)，高维下普遍成立）时，TLD 对每个类都是高斯，而 ELD 是同一个高斯被 margin 截断后的"整流高斯"（rectified Gaussian） \(\max\{Z,\kappa\}\)。直观地说，TLD 里那些会落到决策边界另一侧、本该贡献测试误差的质量，在训练集上被优化器强行"推"到了 margin 边界上，于是训练误差为零、却在测试时暴露。这个截断现象不是 2-GMM 的特例：作者在 RNA-seq 表格数据、CIFAR-10（ResNet-18 特征）、IMDb（BERT 特征）乃至 Llama-3-8B 在 TruthfulQA 上的激活探针里都验证到了同样的整流高斯，说明它是高维线性分类头的普遍规律。

2. 变分问题 + 共享过拟合预算：少数类为何被截断得更狠（核心定理 2.1）

这是全文的技术核心。把 max-margin SVM（公式 2b）改写成一个 min–max 形式 \(\min_\beta\max_\lambda(\lambda^\top G\beta+\langle\lambda,c\rangle)\)，其中 \(G\) 是 \(n\times d\) 的 i.i.d. 标准高斯矩阵；再用 Gordon 定理把双线性项 \(\lambda^\top G\beta\) 替换成 \(\|\beta\|\langle\lambda,N(0,I_n)\rangle+\|\lambda\|\langle\beta,N(0,I_d)\rangle\)，从而把随机矩阵问题降成只含随机向量的问题。最终（定理 2.1）参数 \((\hat\rho,\hat\beta_0,\hat\kappa)\) 收敛到下面变分问题的唯一解：

\[\max_{\rho\in[-1,1],\,\beta_0,\,\kappa>0,\,\xi\in L^2}\ \kappa \quad \text{s.t.}\quad \rho\|\mu\|_2+G+Y\beta_0+\sqrt{1-\rho^2}\,\xi\ge\kappa,\ \ \mathbb{E}[\xi^2]\le 1/\delta,\]

其中 \(\rho=\langle\hat\beta/\|\hat\beta\|,\mu/\|\mu\|\rangle\) 是斜率与最优方向的余弦相似度，\((Y,G)\sim P_y\times N(0,1)\)，而 \(\xi\) 是一个待优化的"自由"随机变量。这里 \(\xi\) 的物理含义极其关键：\(\rho\|\mu\|_2+G+Y\beta_0\) 是输入投影到 \(\beta\) 上的"有用"成分，而 \(d\) 维里剩下那些与信号无关的维度给了模型"乱拟合的空间"，正是由 \(\xi\) 编码。约束 \(\mathbb{E}[\xi^2]\le1/\delta\) 就是一个有限的"过拟合预算"——\(\delta\) 越小（维度相对样本越高），预算越宽松，TLD 被扭曲得越厉害、截断越强。把第一个不等式取紧，可解出 \(\sqrt{1-\rho^2}\,\xi=(\kappa-\rho\|\mu\|_2-G-Y\beta_0)_+\)，这正是把 TLD 重叠质量搬到 margin 的"运输映射"。

由此 ELD 收敛到 \(\mathrm{Law}(Y,\,Y\max\{\kappa^*,\rho^*\|\mu\|_2+G+Y\beta_0^*\})\)，TLD 收敛到 \(\mathrm{Law}(Y,\,Y(\rho^*\|\mu\|_2+G+Y\beta_0^*))\)，两者只差一个 \(\max\{\kappa^*,\cdot\}\) 的截断。少数类更惨的原因被精确化：因为两类共享同一个预算 \(\mathbb{E}[\xi^2]\le1/\delta\)，搬运少数类 ELD 的质量对总预算的"花费"更小，于是优化器更偏向截断少数类。形式上可证 \(\rho^*>0,\beta_0^*<0\)，使少数类 TLD 均值 \(\rho^*\|\mu\|_2+\beta_0^*\) 更靠近决策边界，少数类测试误差 \(\mathrm{Err}_+\to\Phi(-\rho^*\|\mu\|_2-\beta_0^*)\) 因而更大。作者还从最优传输视角证明 \(T^*(x)=\max\{\kappa^*,x\}\) 正是从 ELD 到 TLD 的 \(W_2\) 最优传输映射。当 \(\delta>\delta_c\)（不可分）时，过拟合不再是截断而是由 proximal 算子（Moreau 包络梯度）支配的非线性收缩。

3. margin rebalancing 的最优 \(\tau\) 与高不平衡下的三相变（Prop 3.1 / 定理 3.2）

实践里对付少数类过拟合的常用招是 margin rebalancing：引入 \(\tau>0\)，把少数类的 margin 约束乘上 \(\tau\)（公式 7，令 \(\tilde y_i=\tau-1\) 若 \(y_i=+1\)）。本文给这招一个理论落点。Proposition 3.1 证明：在比例渐近下，最优 \(\tau^{\text{opt}}=\arg\min_\tau \mathrm{Err}_b^*\)（\(\mathrm{Err}_b=(\mathrm{Err}_++\mathrm{Err}_-)/2\) 是平衡误差）会让 \(\beta_0^*=0\)，从而 \(\mathrm{Err}_+^*=\mathrm{Err}_-^*=\mathrm{Err}_b^*\)，并且这个平衡误差随不平衡度 \(\pi\)、信号强度 \(\|\mu\|_2\)、aspect ratio \(\delta\) 单调递减。值得注意的是：调 \(\tau\) 只改 \(\hat\beta_0\)（决策边界平移）、不改 \(\hat\beta\)（方向），且在非退化情形大致满足 \(\tau^{\text{opt}}\asymp\sqrt{1/\pi}\)——一个干净可用的经验法则。

在更极端的高不平衡 regime（\(\pi\propto d^{-a},\|\mu\|_2^2\propto d^b,n\propto d^{c+1}\)）下，定理 3.2 给出三相变：① 高信号 \(a-c<b\)：任意不太大的 \(\tau\) 都能让两类误差都 \(o(1)\)，rebalancing 可有可无；② 中信号 \(b<a-c<2b\)：只有把 \(\tau\) 调到 \(d^{a-b-c}\ll\tau\ll d^{(a-c)/2}\) 才能两类都对，若 naive 地取 \(\tau\asymp1\)，少数类误差会 \(1-o(1)\)（彻底失败）——这一相 rebalancing 是必需的；③ 低信号 \(a-c>2b\)：无论怎么调 \(\tau\)，平衡误差都 \(\ge\frac12-o(1)\)，不比随机猜好。这清楚地划出了 margin rebalancing"有用/无用/无救"的边界。

4. 过拟合连带恶化置信度校准（定理 4.1）

同一套 logit 分布刻画还能外推到校准。定义 max-margin 分类器的置信度 \(\hat p(x)=\sigma(\hat f(x))\)，希望它逼近贝叶斯最优概率 \(p^*(x)=P(y=1\mid x)\)。本文证明（定理 4.1）：三种 miscalibration 指标——calibration error、MSE、confidence error——都有确定的渐近极限，例如 \(\mathrm{MSE}\to\mathrm{MSE}^*=\mathbb{E}[\sigma(-\rho^*\|\mu\|_2-G-Y\beta_0^*)^2]\)，且 \(\mathrm{MSE}^*\) 随 \(\pi,\|\mu\|_2,\delta\) 单调递减。换句话说，数据越不平衡（\(\pi\) 越小）、信号越弱、维度越相对高，分类器不仅测试误差更高、置信度也被吹得越离谱（reliability diagram 上 CalErr 从 \(\pi=0.5\) 的 0.001 涨到 \(\pi=0.05\) 的 0.18）。这揭示了过拟合的一个"副作用"：那些抬高测试误差的参数变化，会同时恶化校准，二者同源同向。

损失函数 / 训练策略¶

分析对象是两个标准凸问题：逻辑回归 \(\min_{\beta,\beta_0}\frac1n\sum_i\ell(y_i(\langle x_i,\beta\rangle+\beta_0))\)（\(\ell\) 取严格凸递减函数，logistic loss 是特例），和硬 margin SVM \(\max_{\beta,\beta_0,\kappa}\kappa\) s.t. \(y_i(\langle x_i,\beta\rangle+\beta_0)\ge\kappa,\|\beta\|_2\le1\)。作者主攻 SVM，因为高维下数据常线性可分、硬 margin SVM 即 max-margin 分类器，而逻辑回归的梯度下降迭代在方向上收敛到 max-margin 解（implicit bias），故两者紧密相关。margin rebalancing 通过把 \(\tau\) 并入 margin 约束或损失实现，理论上只平移决策边界。

实验关键数据¶

本文的"实验"是数值仿真验证定理 + 真实数据验证截断现象的普遍性，而非刷 benchmark。

主实验：截断现象的普遍性¶

数据 / 模态	特征提取器	维度 \(d\)	不平衡 \(\pi\)	观测
合成 2-GMM	—	4000	0.15	ELD 整流高斯、TLD 高斯，少数类 ELD 因截断丢失过半质量
IFNB RNA-seq（表格）	原始	2000	0.2	ELD 被 margin 截断，少数类截断更重
CIFAR-10（图像）	ResNet-18	512	0.1	同上整流高斯规律
IMDb（文本）	BERT-base(110M)	768	0.02	同上
TruthfulQA（LLM 激活探针）	Llama-3-8B	—	0.04	第一方向截断、第二方向扭曲，提示 LLM probing 的过拟合/记忆

跨表格/图像/文本/LLM 激活四类模态都观测到同一整流高斯，说明截断不是模型特例。

误差与校准的单调性（定理对应表）¶

参数 ↑	\(\mathrm{Err}^*\)（测试误差）	\(\mathrm{CalErr}^/\mathrm{MSE}^/\mathrm{ConfErr}^*\)
不平衡度 \(\pi\uparrow\)（越平衡）	↓ Prop 3.1	↓ Thm 4.1 / Claim D.10
信号强度 \(\\|\mu\\|_2\uparrow\)	↓ Prop 3.1	↓
aspect ratio \(\delta=n/d\uparrow\)	↓ Prop 3.1	↓

仿真曲线（\(n=100,d=200\)，100 次平均）与定理 2.1 的渐近误差曲线高度吻合：naive SVM（\(\tau=1\)）下 \(\pi\downarrow\) 时 \(\mathrm{Err}_+\nearrow1\)、\(\mathrm{Err}_-\searrow0\)、\(\mathrm{Err}_b\to\frac12\)；取最优 \(\tau\) 后两类误差对齐，\(\mathrm{Err}_b\) 显著下降。

关键发现¶

过拟合 = 截断：高维可分时，训练 logit 是被 margin 顶住的整流高斯，这一个机制就解释了 train/test 差距，无需额外假设。
少数类更惨有了根因：两类共享 \(\mathbb{E}[\xi^2]\le1/\delta\) 的过拟合预算，搬运少数类质量更"便宜"，于是 \(\rho^*>0,\beta_0^*<0\) 把少数类 TLD 推向边界。
\(\tau^{\text{opt}}\asymp\sqrt{1/\pi}\)：margin rebalancing 只平移决策边界、不转方向；中信号相里它是必需的，低信号相里它无力回天。
过拟合伤校准：同样让误差变大的参数（更不平衡、更弱信号、更高维）也让置信度更膨胀，二者同源。

亮点与洞察¶

把模糊的"过拟合"翻译成一个具体可证的分布操作：\(T^*(x)=\max\{\kappa^*,x\}\) 的截断/整流高斯，是本文最"啊哈"的地方——它把人人都在说却说不清的现象钉成了一个最优传输映射。
"共享过拟合预算"是迁移性最强的直觉：少数类受害更重，本质是两类抢同一份由 \(1/\delta\) 决定的有限预算。这个视角可迁移到任何高维、可分、类别不均的最后一层线性头（包括 LLM 激活探针的可解释性分析）。
给 margin rebalancing 一个可执行法则：\(\tau\asymp\sqrt{1/\pi}\) 且只动 bias 不动方向，既解释了它为何有效、也给了超参一个明确起点，比纯靠调参强。
可解释性的潜在用途：在 Llama-3 激活探针里观测到的截断/扭曲，提示用不平衡探针集做 probing 时要警惕过拟合带来的"假信号"，对理解 LLM 的非预期记忆有指导意义。

局限与展望¶

模型仍是 stylized 的 2-GMM：核心定理建立在两类各向同性高斯混合 + 线性分类器上。虽然 Section 5 把结论外推到多类（猜想 logit 联合分布渐近为投影到凸多面体的多元高斯）和非各向同性协方差（异方差、spiked covariance），但多类情形主要靠数值实验和猜想，缺完整证明。
只覆盖最后一层 / linear probing：分析的是冻结特征 + 线性头，没有触及特征本身随训练演化（端到端训练）的过拟合，真实深度网络的非线性、特征学习不在刻画范围内。
若干结论是 informal / Claim 形式：表 2 里部分单调性是 Claim D.10、定理是 informal 版本，严格性依赖附录。⚠️ 涉及 \(\tau^{\text{opt}}\asymp\sqrt{1/\pi}\)、相变阈值等定量结论以原文附录的 formal 版为准。
改进方向：把截断刻画从"固定特征"推到"特征学习"阶段、把多类猜想证成定理、以及把过拟合-校准的同源关系用于设计同时优化误差与校准的 rebalancing 方案，都是自然的下一步。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把不平衡过拟合刻画为 ELD 的整流高斯截断，并用共享预算解释少数类受害更重。
实验充分度: ⭐⭐⭐⭐ 仿真与定理高度吻合、跨四类模态验证普遍性；但真实数据偏"验证现象"而非系统评测。
写作质量: ⭐⭐⭐⭐ 定理-直觉-仿真三段式清晰，三相变和单调性表很好用；部分结论 informal、依赖附录。
价值: ⭐⭐⭐⭐⭐ 给长尾/不平衡分类、linear probing、LLM 激活探针的过拟合提供了可计算的理论与可执行的 rebalancing 法则。