What Scales in Cross-Entropy Scaling Law?¶

会议: ICLR 2026
论文: Published as a conference paper at ICLR 2026
代码: https://github.com/yanjx2021/RethinkCE （有）
领域: LLM 预训练 / 缩放定律
关键词: 缩放定律, 交叉熵, 误差熵, 排名误差, 训练动力学

一句话总结¶

这篇论文把交叉熵损失精确拆解成「误差熵（Error-Entropy）+ 自对齐（Self-Alignment）+ 置信度（Confidence）」三项，用 32 个跨 5 个数量级的模型实验证明：真正随模型规模呈幂律下降的只有误差熵，另外两项基本不随规模变化——这解释了为什么交叉熵缩放定律在小模型上很准、在超大模型上却会失效。

研究背景与动机¶

领域现状：交叉熵缩放定律（Kaplan et al. 2020）是大模型开发的核心工具。它声称模型规模、数据量增大时，交叉熵损失会以可预测的幂律 \(L_{CE}\propto N^{-\alpha}\) 下降。这条经验定律被广泛用于分配算力、从小模型外推大模型性能、调超参，同时也被当成「理解智能本质」的理论入口。

现有痛点：但近年实践和理论都对它产生了怀疑。实践上，交叉熵在小模型上幂律拟合很好，到了超大模型却明显变慢——OpenAI 不得不把公式改写成 \(L_{CE}\propto N^{-\alpha}+\text{bias}\)，甚至有研究发现它还在继续变慢。理论上，现有框架大多只能证明 MSE 这类「基于误差」的指标会幂律缩放，却无法直接推广到交叉熵。于是「交叉熵到底会不会缩放」成了一个悬而未决、且动摇「把模型做大」这条路线信心的问题。

核心矛盾：作者的关键假设是——真正在缩放的根本不是交叉熵本身，而是隐藏在它内部的某个主导分量。交叉熵是这个分量伪装出的「幻觉」。如果能把这个真正缩放的成分识别出来，既能给大模型开发一条更可靠的定律，又能给「智能原理」研究一个更干净的优化目标。

本文目标：(1) 找一种能把交叉熵精确拆开的分解方式；(2) 逐项检验哪一项真的随规模幂律缩放；(3) 用它解释交叉熵缩放为什么在大模型上失效。

切入角度：作者认为「正确 token 的排名」比「正确 token 的概率」更能反映模型真实能力——概率会被温度缩放、top-k、top-p 这些采样手段随意改动，而 token 之间的相对排序几乎不受这些后处理影响。于是从「排名」而非「概率」重新定义误差。

核心 idea：提出基于排名的误差指标 RBE，用它把交叉熵精确分解为三项，证明只有「误差熵」一项真正服从幂律——称之为 Error-Entropy Scaling Law（误差熵缩放定律）。

方法详解¶

整体框架¶

整篇工作的逻辑是「先定义一个新指标 → 用它把交叉熵做无损代数分解 → 逐项检验缩放行为 → 用分解结果解释旧定律的失效」。

具体地，对测试语料中每个 ground-truth token，先算它的「排名误差」RBE（有多少个 token 的分数排在正确 token 前面）。把所有预测按 RBE 值分组后，可以统计出两条分布：RBE 分布 \(p_e\)（正确 token 落在第 \(e\) 名的概率）和分数分布 \(q_e\)（每组的归一化平均分），外加一个标量 \(C\)（分数的整体范数）。利用 \(p_e,q_e,C\)，交叉熵被恒等变形成误差熵、自对齐、置信度三项之和。最后在 32 个模型上逐项做 log-log 回归，发现只有误差熵稳定缩放。

这是一篇纯缩放定律分析论文，方法主体是代数推导而非多模块 pipeline，因此用公式而非框架图来讲清。

关键设计¶

1. Rank-based Error（RBE）：用排名而非概率度量误差

痛点很直接：交叉熵建立在正确 token 的概率分数 \(s_{v_i}\) 上，而概率分数极易被采样策略（温度、top-k、top-p）扭曲，导致损失值也随之漂移；相比之下 token 之间的相对排序对这些后处理免疫。于是作者把「正确 token 的排名」定义为误差：

\[\text{RBE}(v_i)=\sum_{v\in V}\mathbb{1}\{s_v>s_{v_i}\}\]

即有几个 token 分数高于正确 token，RBE 就等于几（正确 token 排第一则 RBE=0）。基于它定义两条分布：RBE 分布 \(p_e=\Pr(\text{RBE}(v_i)=e\mid v_i\in D)\) 刻画「正确 token 多频繁出现在第 \(e\) 名」；分数分布则把同 RBE 的预测分组后取几何平均 \(Q_e=\text{GeoMean}(\{s_{v_i}\mid \text{RBE}(v_i)=e\})\)，再归一化为 \(q_e=Q_e/C\)，其中 \(C=\sum_e Q_e\) 是分数范数（\(C\) 越大说明模型整体越自信）。RBE 是整篇分解的基石——它把「分类任务」重新表达成一个「误差分布」，从而把信息论学习（ITL）里成熟的误差熵概念引进到语言模型里。

2. 交叉熵的三项无损分解：Error-Entropy + Self-Alignment + Confidence

有了 \(p_e,q_e,C\)，作者把交叉熵按 RBE 分组重写。从定义 \(L_{CE}=-\frac1N\sum_i\log s_{v_i}\) 出发，把同 RBE 的项归并，用对数把乘积拆开，再代入 \(Q_e=C\cdot q_e\)，最终得到一个精确恒等式（不是近似）：

\[L_{CE}=\underbrace{-\sum_e p_e\log p_e}_{\text{Error-Entropy}}+\underbrace{\sum_e p_e\log\frac{p_e}{q_e}}_{\text{Self-Alignment}}-\underbrace{\log C}_{\text{Confidence}}\]

三项各有清晰的操作含义：误差熵是 RBE 分布 \(p_e\) 的香农熵，最小化它要求 \(p_e\) 尽量集中到小排名处，等价于「模型学会把正确 token 排到前面」，直接对应识别对错的能力；自对齐是 \(p_e\) 与 \(q_e\) 的 KL 散度，最小化它要求模型的输出分数分布去对齐它自己的误差分布——这给出一个新解读：模型并非在逼近「真实语言分布」，而是在按「自己犯错的可能性」分配概率（这也解释了为什么不同模型对同一文本给出不同概率分数）；置信度是分数范数的对数 \(\log C\)，在分解里带负号、训练中被增大，对应模型把低排名 token 的分数压到很小、表现得更「自信」。作者用三个数据集的训练曲线（Fig. 3）验证：三项确实都在训练中被优化（误差熵和自对齐下降、置信度上升），且因量级不同，模型先猛降量级最大的误差熵，等它基本被压平后才开始优化另外两项——分解干净地复现了真实训练动力学。

3. Error-Entropy Scaling Law：只有误差熵真正幂律缩放

这是全文的核心发现，也是对「什么在缩放」这个标题问题的回答。作者在 Wikipedia / C4 / GitHub 三个数据集上，用横跨 5 个数量级、来自 8 个家族（GPT2、Pythia、Llama2/3.2、Mistral、OPT、Qwen2.5、Distilgpt2）的 32 个模型，对每一项做 log-log 线性回归 \(\log|M|=c_M+\alpha_M\log N\)，并用两个指标评估：\(R^2\) 衡量幂律拟合好坏，\(|\Delta_M|=|\alpha_M-\alpha_{CE}|\) 衡量该项斜率与交叉熵斜率的接近程度。结论非常干净：误差熵在几乎所有设定下 \(R^2\) 都接近 0.9、甚至超过交叉熵本身，且 \(|\Delta|\) 最小（最接近交叉熵的缩放行为）；自对齐缺乏稳定幂律、\(|\Delta|\) 最大；置信度则信号匮乏、\(R^2\) 在混合模型下掉到 0.06~0.21。这说明误差熵才是驱动交叉熵缩放的真正引擎，「交叉熵会缩放」只是误差熵缩放的表象。

4. 用占比解释旧定律失效，并给出可微代理损失

作者进一步用分解解释了那个长期困惑：为什么交叉熵在小模型上幂律很准、在大模型上变慢？答案在于误差熵占交叉熵的比例（Fig. 8）。小模型里误差熵占到约 80~90%，整条交叉熵自然跟着它呈干净幂律；模型变大后误差熵占比下降，不缩放的自对齐和置信度占比上升，于是交叉熵偏离幂律、出现变慢。沿着这个洞察，作者还提出一个可微代理损失：因为误差熵本身对 logits 不可微，转而对置信度加惩罚 \(L_\lambda=CE+\lambda\cdot CONF\ (0<\lambda<1)\)，其对正确 token 分数的梯度为

\[\frac{\partial L_\lambda}{\partial s_i}=-\frac{1}{N s_i}\Big(1-\lambda\frac{q_e}{p_e}\Big)\]

因子 \((1-\lambda q_e/p_e)\) 会推动 \(q_e\) 贴近 \(p_e\)，把优化重心从「无谓地继续抬高已排对 token 的概率」转回「改善误差分布」，从而让训练更对齐到真正缩放的误差熵。

损失函数 / 训练策略¶

本文主体是分析而非训练新模型，唯一的训练相关产物是上面的代理损失 \(L_\lambda=CE+\lambda\cdot CONF\)。作者还指出误差熵可作为不可微的奖励信号用于 RL 式微调（只依赖排名），作为可微代理之外的互补路线。验证三项分解的训练动力学实验用 pythia-160m/410m/1b 在 Wikipedia/C4/GitHub 上跑（细节见原文 App. A.1，⚠️ 以原文为准）。

实验关键数据¶

主实验：幂律拟合质量 \(R^2\)（越高越好）¶

误差熵（EE）在几乎所有家族 × 数据集组合里取得最高 \(R^2\)，且常常反超交叉熵本身（CE），自对齐（SA）与置信度（Conf）则明显更差。

模型家族	数据集	CE	EE	SA	Conf
Qwen	Wikipedia	0.9731	0.9753	0.9441	0.2977
Pythia	Wikipedia	0.9448	0.9767	0.0190	0.812
GPT2	C4	0.9892	0.9872	0.3357	0.9444
Qwen	GitHub	0.9882	0.9896	0.9455	0.1371
All（混合）	C4	0.8699	0.9012	0.2188	0.0492
All（混合）	GitHub	0.6743	0.7229	0.3233	0.0203

分析实验：缩放斜率差 \(|\Delta|\)（越小越接近交叉熵的缩放）¶

误差熵的斜率始终最贴近交叉熵，进一步佐证它是交叉熵缩放的真正来源。

模型家族	数据集	EE	SA	Conf
Qwen	Wikipedia	0.0104	0.2347	0.0786
Pythia	C4	0.0038	0.0969	0.0354
GPT2	GitHub	0.0352	0.2126	0.0866
All（混合）	Wikipedia	0.0147	0.2678	0.1002

关键发现¶

只有误差熵缩放：误差熵随规模近似线性下降（log-log 图）且 \(R^2\) 反超交叉熵；自对齐整体反而随规模上升、置信度方差大无规律——三项里只有误差熵真正承担了缩放。
占比解释失效之谜：小模型里误差熵占交叉熵约 80~90%，故整条曲线幂律很干净；大模型里误差熵占比下降，不缩放的两项喧宾夺主，交叉熵随之偏离幂律变慢。这把一个「广泛观测却无人解释」的现象给了定量解释。
训练动力学可解释：因初始量级最大，模型先压误差熵；等它基本被最小化后，才转去优化量级更小的自对齐与置信度——分解自然复现了训练中的优化次序。

亮点与洞察¶

代数恒等而非近似：三项分解是对交叉熵的精确重写（不丢任何项），这让「逐项检验缩放」成为一件无偏的事——不是换了个相关指标，而是真的在解剖交叉熵自身。
从概率视角切到排名视角：用 RBE 把「分类」重述成「误差分布」，既绕开了概率易被采样扭曲的弱点，又把信息论学习（ITL）里成熟的误差熵理论桥接进语言模型，给后续理论分析开了口子。
「自对齐」这个解读很反直觉：它暗示模型分配概率不是在逼近真实语言分布，而是在对齐「自己犯错的概率分布」，顺带解释了为什么不同模型对同一文本给出不同概率分数（与校准类工作呼应）。
可迁移性：把损失「拆成会缩放的核 + 不缩放的壳」这一思路，可迁移到其他用交叉熵训练的分类/检索任务，去诊断哪部分才是规模收益的真正来源。

局限与展望¶

代理损失验证有限：\(L_\lambda=CE+\lambda\cdot CONF\) 更多是「可行性」论证，正文并未给出大规模端到端训练把模型练得更好的强证据（具体推导在 App. D，⚠️ 以原文为准）。
依赖现成模型族做横向回归：32 个模型来自不同家族、不同训练配方，混合回归（All 设定）下 \(R^2\) 明显下降（如 GitHub 上 CE 仅 0.67），说明「跨家族」可比性本身存在噪声，结论在单家族内更干净。
误差熵不可微：核心量误差熵无法直接当损失优化，只能借代理或 RL 奖励间接逼近，距离「直接拿来训模型」还有工程缺口。
改进思路：把 ITL 里的核方法误差熵最小化技术真正落到 LLM 训练目标上；或在更受控的同族、同配方模型阶梯上重测，给误差熵缩放定律一个更干净的拟合。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把交叉熵精确拆成三项并指出只有误差熵真正缩放，视角新颖且回答了一个真问题。
实验充分度: ⭐⭐⭐⭐ 32 个模型跨 5 数量级、3 数据集、双指标验证，扎实；但代理损失的实证较弱。
写作质量: ⭐⭐⭐⭐⭐ 推导清晰、图文对照、标题问题贯穿全文，可读性强。
价值: ⭐⭐⭐⭐⭐ 给缩放定律一个更可靠的核心量，对训练诊断与理论理解都有潜在广泛影响。