What Scales in Cross-Entropy Scaling Law?¶
会议: ICLR 2026
论文: Published as a conference paper at ICLR 2026
代码: https://github.com/yanjx2021/RethinkCE (有)
领域: LLM 预训练 / 缩放定律
关键词: 缩放定律, 交叉熵, 误差熵, 排名误差, 训练动力学
一句话总结¶
这篇论文把交叉熵损失精确拆解成「误差熵(Error-Entropy)+ 自对齐(Self-Alignment)+ 置信度(Confidence)」三项,用 32 个跨 5 个数量级的模型实验证明:真正随模型规模呈幂律下降的只有误差熵,另外两项基本不随规模变化——这解释了为什么交叉熵缩放定律在小模型上很准、在超大模型上却会失效。
研究背景与动机¶
领域现状:交叉熵缩放定律(Kaplan et al. 2020)是大模型开发的核心工具。它声称模型规模、数据量增大时,交叉熵损失会以可预测的幂律 \(L_{CE}\propto N^{-\alpha}\) 下降。这条经验定律被广泛用于分配算力、从小模型外推大模型性能、调超参,同时也被当成「理解智能本质」的理论入口。
现有痛点:但近年实践和理论都对它产生了怀疑。实践上,交叉熵在小模型上幂律拟合很好,到了超大模型却明显变慢——OpenAI 不得不把公式改写成 \(L_{CE}\propto N^{-\alpha}+\text{bias}\),甚至有研究发现它还在继续变慢。理论上,现有框架大多只能证明 MSE 这类「基于误差」的指标会幂律缩放,却无法直接推广到交叉熵。于是「交叉熵到底会不会缩放」成了一个悬而未决、且动摇「把模型做大」这条路线信心的问题。
核心矛盾:作者的关键假设是——真正在缩放的根本不是交叉熵本身,而是隐藏在它内部的某个主导分量。交叉熵是这个分量伪装出的「幻觉」。如果能把这个真正缩放的成分识别出来,既能给大模型开发一条更可靠的定律,又能给「智能原理」研究一个更干净的优化目标。
本文目标:(1) 找一种能把交叉熵精确拆开的分解方式;(2) 逐项检验哪一项真的随规模幂律缩放;(3) 用它解释交叉熵缩放为什么在大模型上失效。
切入角度:作者认为「正确 token 的排名」比「正确 token 的概率」更能反映模型真实能力——概率会被温度缩放、top-k、top-p 这些采样手段随意改动,而 token 之间的相对排序几乎不受这些后处理影响。于是从「排名」而非「概率」重新定义误差。
核心 idea:提出基于排名的误差指标 RBE,用它把交叉熵精确分解为三项,证明只有「误差熵」一项真正服从幂律——称之为 Error-Entropy Scaling Law(误差熵缩放定律)。
方法详解¶
整体框架¶
整篇工作的逻辑是「先定义一个新指标 → 用它把交叉熵做无损代数分解 → 逐项检验缩放行为 → 用分解结果解释旧定律的失效」。
具体地,对测试语料中每个 ground-truth token,先算它的「排名误差」RBE(有多少个 token 的分数排在正确 token 前面)。把所有预测按 RBE 值分组后,可以统计出两条分布:RBE 分布 \(p_e\)(正确 token 落在第 \(e\) 名的概率)和分数分布 \(q_e\)(每组的归一化平均分),外加一个标量 \(C\)(分数的整体范数)。利用 \(p_e,q_e,C\),交叉熵被恒等变形成误差熵、自对齐、置信度三项之和。最后在 32 个模型上逐项做 log-log 回归,发现只有误差熵稳定缩放。
这是一篇纯缩放定律分析论文,方法主体是代数推导而非多模块 pipeline,因此用公式而非框架图来讲清。
关键设计¶
1. Rank-based Error(RBE):用排名而非概率度量误差
痛点很直接:交叉熵建立在正确 token 的概率分数 \(s_{v_i}\) 上,而概率分数极易被采样策略(温度、top-k、top-p)扭曲,导致损失值也随之漂移;相比之下 token 之间的相对排序对这些后处理免疫。于是作者把「正确 token 的排名」定义为误差:
即有几个 token 分数高于正确 token,RBE 就等于几(正确 token 排第一则 RBE=0)。基于它定义两条分布:RBE 分布 \(p_e=\Pr(\text{RBE}(v_i)=e\mid v_i\in D)\) 刻画「正确 token 多频繁出现在第 \(e\) 名」;分数分布则把同 RBE 的预测分组后取几何平均 \(Q_e=\text{GeoMean}(\{s_{v_i}\mid \text{RBE}(v_i)=e\})\),再归一化为 \(q_e=Q_e/C\),其中 \(C=\sum_e Q_e\) 是分数范数(\(C\) 越大说明模型整体越自信)。RBE 是整篇分解的基石——它把「分类任务」重新表达成一个「误差分布」,从而把信息论学习(ITL)里成熟的误差熵概念引进到语言模型里。
2. 交叉熵的三项无损分解:Error-Entropy + Self-Alignment + Confidence
有了 \(p_e,q_e,C\),作者把交叉熵按 RBE 分组重写。从定义 \(L_{CE}=-\frac1N\sum_i\log s_{v_i}\) 出发,把同 RBE 的项归并,用对数把乘积拆开,再代入 \(Q_e=C\cdot q_e\),最终得到一个精确恒等式(不是近似):
三项各有清晰的操作含义:误差熵是 RBE 分布 \(p_e\) 的香农熵,最小化它要求 \(p_e\) 尽量集中到小排名处,等价于「模型学会把正确 token 排到前面」,直接对应识别对错的能力;自对齐是 \(p_e\) 与 \(q_e\) 的 KL 散度,最小化它要求模型的输出分数分布去对齐它自己的误差分布——这给出一个新解读:模型并非在逼近「真实语言分布」,而是在按「自己犯错的可能性」分配概率(这也解释了为什么不同模型对同一文本给出不同概率分数);置信度是分数范数的对数 \(\log C\),在分解里带负号、训练中被增大,对应模型把低排名 token 的分数压到很小、表现得更「自信」。作者用三个数据集的训练曲线(Fig. 3)验证:三项确实都在训练中被优化(误差熵和自对齐下降、置信度上升),且因量级不同,模型先猛降量级最大的误差熵,等它基本被压平后才开始优化另外两项——分解干净地复现了真实训练动力学。
3. Error-Entropy Scaling Law:只有误差熵真正幂律缩放
这是全文的核心发现,也是对「什么在缩放」这个标题问题的回答。作者在 Wikipedia / C4 / GitHub 三个数据集上,用横跨 5 个数量级、来自 8 个家族(GPT2、Pythia、Llama2/3.2、Mistral、OPT、Qwen2.5、Distilgpt2)的 32 个模型,对每一项做 log-log 线性回归 \(\log|M|=c_M+\alpha_M\log N\),并用两个指标评估:\(R^2\) 衡量幂律拟合好坏,\(|\Delta_M|=|\alpha_M-\alpha_{CE}|\) 衡量该项斜率与交叉熵斜率的接近程度。结论非常干净:误差熵在几乎所有设定下 \(R^2\) 都接近 0.9、甚至超过交叉熵本身,且 \(|\Delta|\) 最小(最接近交叉熵的缩放行为);自对齐缺乏稳定幂律、\(|\Delta|\) 最大;置信度则信号匮乏、\(R^2\) 在混合模型下掉到 0.06~0.21。这说明误差熵才是驱动交叉熵缩放的真正引擎,「交叉熵会缩放」只是误差熵缩放的表象。
4. 用占比解释旧定律失效,并给出可微代理损失
作者进一步用分解解释了那个长期困惑:为什么交叉熵在小模型上幂律很准、在大模型上变慢?答案在于误差熵占交叉熵的比例(Fig. 8)。小模型里误差熵占到约 80~90%,整条交叉熵自然跟着它呈干净幂律;模型变大后误差熵占比下降,不缩放的自对齐和置信度占比上升,于是交叉熵偏离幂律、出现变慢。沿着这个洞察,作者还提出一个可微代理损失:因为误差熵本身对 logits 不可微,转而对置信度加惩罚 \(L_\lambda=CE+\lambda\cdot CONF\ (0<\lambda<1)\),其对正确 token 分数的梯度为
因子 \((1-\lambda q_e/p_e)\) 会推动 \(q_e\) 贴近 \(p_e\),把优化重心从「无谓地继续抬高已排对 token 的概率」转回「改善误差分布」,从而让训练更对齐到真正缩放的误差熵。
损失函数 / 训练策略¶
本文主体是分析而非训练新模型,唯一的训练相关产物是上面的代理损失 \(L_\lambda=CE+\lambda\cdot CONF\)。作者还指出误差熵可作为不可微的奖励信号用于 RL 式微调(只依赖排名),作为可微代理之外的互补路线。验证三项分解的训练动力学实验用 pythia-160m/410m/1b 在 Wikipedia/C4/GitHub 上跑(细节见原文 App. A.1,⚠️ 以原文为准)。
实验关键数据¶
主实验:幂律拟合质量 \(R^2\)(越高越好)¶
误差熵(EE)在几乎所有家族 × 数据集组合里取得最高 \(R^2\),且常常反超交叉熵本身(CE),自对齐(SA)与置信度(Conf)则明显更差。
| 模型家族 | 数据集 | CE | EE | SA | Conf |
|---|---|---|---|---|---|
| Qwen | Wikipedia | 0.9731 | 0.9753 | 0.9441 | 0.2977 |
| Pythia | Wikipedia | 0.9448 | 0.9767 | 0.0190 | 0.812 |
| GPT2 | C4 | 0.9892 | 0.9872 | 0.3357 | 0.9444 |
| Qwen | GitHub | 0.9882 | 0.9896 | 0.9455 | 0.1371 |
| All(混合) | C4 | 0.8699 | 0.9012 | 0.2188 | 0.0492 |
| All(混合) | GitHub | 0.6743 | 0.7229 | 0.3233 | 0.0203 |
分析实验:缩放斜率差 \(|\Delta|\)(越小越接近交叉熵的缩放)¶
误差熵的斜率始终最贴近交叉熵,进一步佐证它是交叉熵缩放的真正来源。
| 模型家族 | 数据集 | EE | SA | Conf |
|---|---|---|---|---|
| Qwen | Wikipedia | 0.0104 | 0.2347 | 0.0786 |
| Pythia | C4 | 0.0038 | 0.0969 | 0.0354 |
| GPT2 | GitHub | 0.0352 | 0.2126 | 0.0866 |
| All(混合) | Wikipedia | 0.0147 | 0.2678 | 0.1002 |
关键发现¶
- 只有误差熵缩放:误差熵随规模近似线性下降(log-log 图)且 \(R^2\) 反超交叉熵;自对齐整体反而随规模上升、置信度方差大无规律——三项里只有误差熵真正承担了缩放。
- 占比解释失效之谜:小模型里误差熵占交叉熵约 80~90%,故整条曲线幂律很干净;大模型里误差熵占比下降,不缩放的两项喧宾夺主,交叉熵随之偏离幂律变慢。这把一个「广泛观测却无人解释」的现象给了定量解释。
- 训练动力学可解释:因初始量级最大,模型先压误差熵;等它基本被最小化后,才转去优化量级更小的自对齐与置信度——分解自然复现了训练中的优化次序。
亮点与洞察¶
- 代数恒等而非近似:三项分解是对交叉熵的精确重写(不丢任何项),这让「逐项检验缩放」成为一件无偏的事——不是换了个相关指标,而是真的在解剖交叉熵自身。
- 从概率视角切到排名视角:用 RBE 把「分类」重述成「误差分布」,既绕开了概率易被采样扭曲的弱点,又把信息论学习(ITL)里成熟的误差熵理论桥接进语言模型,给后续理论分析开了口子。
- 「自对齐」这个解读很反直觉:它暗示模型分配概率不是在逼近真实语言分布,而是在对齐「自己犯错的概率分布」,顺带解释了为什么不同模型对同一文本给出不同概率分数(与校准类工作呼应)。
- 可迁移性:把损失「拆成会缩放的核 + 不缩放的壳」这一思路,可迁移到其他用交叉熵训练的分类/检索任务,去诊断哪部分才是规模收益的真正来源。
局限与展望¶
- 代理损失验证有限:\(L_\lambda=CE+\lambda\cdot CONF\) 更多是「可行性」论证,正文并未给出大规模端到端训练把模型练得更好的强证据(具体推导在 App. D,⚠️ 以原文为准)。
- 依赖现成模型族做横向回归:32 个模型来自不同家族、不同训练配方,混合回归(All 设定)下 \(R^2\) 明显下降(如 GitHub 上 CE 仅 0.67),说明「跨家族」可比性本身存在噪声,结论在单家族内更干净。
- 误差熵不可微:核心量误差熵无法直接当损失优化,只能借代理或 RL 奖励间接逼近,距离「直接拿来训模型」还有工程缺口。
- 改进思路:把 ITL 里的核方法误差熵最小化技术真正落到 LLM 训练目标上;或在更受控的同族、同配方模型阶梯上重测,给误差熵缩放定律一个更干净的拟合。
相关工作与启发¶
- vs 经典交叉熵缩放定律(Kaplan 2020 / Hoffmann 2022):他们把交叉熵当成一个不可分的整体去拟合幂律,遇到大模型失效只能打补丁加 bias 项;本文把交叉熵拆开,指出失效根因是「会缩放的误差熵占比下降」,给出机理而非补丁。
- vs 基于误差指标的缩放理论(如 MSE,Lyu et al. 2025):已有理论能证明 MSE 这类误差指标缩放,但难推广到交叉熵;本文用 RBE 在分类设定下「复原」出一个误差分布,恰好把交叉熵和误差指标的世界连了起来。
- vs 交叉熵性质研究(校准/鲁棒性,Guo 2017 等):以往研究交叉熵的一致性、校准、正则等微观性质,却没把这些性质和宏观缩放行为挂钩;本文把交叉熵分解成有操作含义的分量,正是连接「微观性质」与「宏观缩放」的桥。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把交叉熵精确拆成三项并指出只有误差熵真正缩放,视角新颖且回答了一个真问题。
- 实验充分度: ⭐⭐⭐⭐ 32 个模型跨 5 数量级、3 数据集、双指标验证,扎实;但代理损失的实证较弱。
- 写作质量: ⭐⭐⭐⭐⭐ 推导清晰、图文对照、标题问题贯穿全文,可读性强。
- 价值: ⭐⭐⭐⭐⭐ 给缩放定律一个更可靠的核心量,对训练诊断与理论理解都有潜在广泛影响。