Learning is Forgetting: LLM Training As Lossy Compression¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=tvDlQj0GZB
代码: 待确认（论文承诺开源）
领域: 可解释性 / 表示学习理论
关键词: Information Bottleneck, Rate Distortion Theory, 表示压缩, 预训练动力学, 可解释性

一句话总结¶

把 LLM 预训练看成一次"有损压缩"：用率失真理论（Rate Distortion Theory）和信息瓶颈（Information Bottleneck）刻画模型如何在训练中先扩张、后压缩表示，并证明"模型压缩得有多接近最优"以及"压缩后留下了什么信息"能直接预测下游 benchmark 表现。

研究背景与动机¶

领域现状：我们对 LLM 表示空间到底如何组织所知甚少。现有的可解释性工作大致分两类——一类是行为学/探针法（把模型当心理语言学被试，或训一个线性分类器去探测潜表示里有没有某类信息），另一类是机制可解释性（mechanistic interpretability，用 sparse auto-encoder 找单语义神经元、解释具体电路）。这些方法要么远离表示本身、只刻画下游行为，要么聚焦于单个电路/神经元这样的"局部零件"。

现有痛点：可解释性方法能在大模型上跑，但和"学习/泛化的既有理论"几乎脱节；反过来，深度学习理论（信息瓶颈、率失真）只在 MNIST、小型前馈网络这种玩具设定里验证过，能否推广到 Transformer + 万亿 token 这种复杂序列任务一直悬而未决。Shwartz-Ziv & Tishby 在 MNIST 上证实了 IB 的"两阶段"预测，但后续工作质疑其普适性（压缩相位可能只是非线性激活的产物，且压缩未必是泛化的必要条件）。

核心矛盾：分布式系统（如神经网络）"整体不等于零件之和"，盯着单个电路无法解释"模型为什么在这么多任务上都这么强"；但要在整模型尺度上给出一个既有理论根基、又能落地产出可行动洞察的解释框架，此前没人做到。

本文目标：在 LLM 尺度上把率失真理论"操作化"，回答三个问题——LLM 是否最优压缩了表示？压缩后哪些信息存活下来？哪些表示结构驱动了性能？

核心 idea：[把训练等价于压缩] 学习的本质是"遗忘"——模型只保留训练数据中与目标相关的信息，丢掉其余的以节省空间，就像 MP3 丢掉人耳听不见的频率、JPEG 丢掉人眼难辨的色差。[整模型视角] 不解释零件，而是用信息论量化整个模型在信息平面（information plane）上的位置，把"表示结构"直接连到"模型行为"。

方法详解¶

整体框架¶

方法分三步：先用一个可在 LLM 尺度跑得动的软熵估计器把高维表示量化、估出每层的香农熵；再据此计算表示 $Z$ 与输入特征 $X$、输出 $Y$、偏好标签之间的互信息，把模型放到信息平面（横轴复杂度 $I(X;Z)$、纵轴表达力 $I(Y;Z)$）上；最后用一个标量 optimality 度量模型离"最优压缩边界"有多近，并把它与下游性能做相关分析。

flowchart LR
    A[表示 Z<br/>L×B×S×h] --> B[软熵估计<br/>归一化到单位球→<br/>随机投影+softmax]
    B --> C["每层香农熵 H(ẑₗ)<br/>跨层平均得 H(Z)"]
    C --> D["互信息<br/>I(X;Z) 复杂度<br/>I(Y;Z) 表达力<br/>I(pref;Z) 偏好"]
    D --> E[信息平面定位]
    E --> F["optimality = I(Y;Z)/I(X;Z)<br/>距最优边界多近"]
    F --> G[相关下游 benchmark]

关键设计¶

1. 软熵估计器：让信息平面在 LLM 尺度可计算。 要用香农熵（而非微分熵）算互信息，传统做法是把连续表示 $Z$ 离散化到 $n$ 个桶里，但这类分箱法在 LLM 的内存/算力开销下根本跑不动。本文借用 Conklin (2025) 的可微分软量化：先把每个表示向量归一化到单位球面 $\bar Z = Z/\|Z\|$，再从球面上均匀采 $n$ 个随机方向 $\{w_i\}$，对每个向量算它与各方向的余弦相似度并过 softmax（温度 $\epsilon$ 控制），得到一个概率向量 $\check Z_{l,b,s,:}=\mathrm{softmax}(\bar Z_{l,b,s,:}W/\epsilon)$。在 batch 和序列维上平均，得到每层一个长度 $n$ 的分布 $\hat z_l$，于是可直接算香农熵 $H(\hat z_l)=-\sum_j \hat z_{l,j}\log\hat z_{l,j}$。这个估计近似的是"某层表示落在相对原点某个角度上的概率"，跨层平均再除以均匀分布的熵 $\log n$ 归一化成"效率"（efficiency），把熵压到 0–1 区间便于跨维度比较。本文不是这个估计器的原创者，但首次把它用于率失真视角分析 LLM。

2. n-gram back-off：把"上下文压缩"拆解出来。 LLM 的输入是前文、输出是后文，要算 $P(Z\mid X)$ 就得对每个可能的上下文窗口维护条件估计——这在组合上不可行，且很多上下文只出现一次。借鉴语言建模里的 Katz back-off，本文用有限宽度的前文近似 $P(Z\mid X)$：从 token、bigram、trigram 一直算到 quad-gram（再往上 n-gram 太稀疏、算不动，且 $I(X;Z)$ 此时已开始收敛）。由于 teacher forcing 让模型从整个后文 $Y$ 拿梯度，输入侧 $P(Z\mid X)$ 和输出侧 $P(Z\mid Y)$ 的 back-off 宽度要同步变化。通过对不同 back-off 层级算条件互信息，就能量化"模型里有多大比例的信息编码的是 token、bigram……各级局部上下文"。

3. optimality 标量：一把可跨模型比较的"压缩最优度"尺子。 定义 $$\text{Optimality} = \frac{\text{Expressivity}}{\text{Complexity}} = \frac{I(Y;Z)}{I(X;Z)}$$ 当表示系统贴近 IB 边界时该值趋于 1.0，且无论它落在边界的哪个 $\beta$ 位置都成立——本质是"每一比特复杂度换来多少比特表达力"。这把"离最优压缩边界多近"压成一个与具体模型、超参、训练配方无关的相对量，使得几十个不同家族的开源模型可以放在同一坐标系里横向比较。IB 的最优压缩对应最小化 $F_\beta[p(Z\mid X)] = I(X;Z) - \beta I(Y;Z)$，本文把边界近似为直线 $I(X;Z)=I(Z;Y)$（所研究模型都远未饱和）。

4. 偏好信息探针：量化"压缩后留下了多少对齐信息"。 除了输入/输出标签，本文还把偏好数据（一个 prompt 配 preferred / rejected 两个续写）作为条件标签 $X$，算 $I(Z;\text{preferred})$，从而量化模型表示与人类偏好区分的对齐程度。这让"什么信息在压缩中存活"这个问题第一次有了可计算的代理量，并发现它是下游性能的强预测因子。

实验关键数据¶

分析对象：有中间 checkpoint 的 OLMo2 家族（1B/7B/32B，重点 7B）做训练时序分析；外加 6 个家族、几十个开源模型在训练末态的横向比较。熵/互信息均基于 C4 抽 10,000 样本（偏好用 Tulu 10,000 样本），最大上下文 512。

主实验：表示结构 → 下游性能（47 模型，6 benchmark）¶

benchmark：MMLU Pro / BBH / Math LVL5 / IFEval / GPQA / MuSR（token back-off）

表示度量	与下游性能相关	显著性
Complexity $I(X;Z)$ 单独	$r=-0.38$（越低越好）	$p=0.006$ ✓
Expressivity $I(Y;Z)$ 单独	$r=0.08$	$p=0.575$ ✗
Optimality $I(Y;Z)/I(X;Z)$	$r=0.52$	$p<0.001$ ✓
偏好信息 $I(Z;\text{pref})$	$r=0.76$	$p<0.001$ ✓

关键点：表达力单独不预测性能，但"压缩最优度"和"留存的偏好信息量"都强相关——说明不仅压缩得多最优重要，压缩后留下了什么也同样重要。

训练动力学与规模效应¶

模型	是否完成扩张相	是否达到有意义压缩
OLMo2 7B / 32B	是	是，紧贴 IB 边界
OLMo2 1B	是（$I(Y;Z)$ 上升）	否，第二相在边界外震荡、缓慢远离

两阶段轨迹被证实：7B 模型先增大输出互信息 $I(Y;Z)$（fitting 相），待 next-token loss 开始饱和后压缩输入信息 $I(X;Z)$、逼近最优边界——IB 深度学习理论的预测在 LLM 尺度首次得到验证。
规模阈值：1B 模型压不动，与 scaling law 一致——给定数据复杂度，需要一定参数阈值才能实现最优压缩。

关键发现¶

普适收敛：6 个家族、不同超参与训练方法的开源模型，末态都聚集到边界上同一个点附近——压缩不是单一模型训练轨迹的偶然，而是深度学习这一类模型 + 数据 + 目标的根本属性。
模型主要编码局部上下文：信息中绝大部分编码 token 到 quadgram 的局部上下文，反映自然语言的信息局部性；1B 模型 token 信息更多、上下文信息更少。
上下文越长越接近最优：trigram/quadgram 的编码 optimality 更高，但在语言建模里源/目标同分布，压一个必然压另一个，于是高层上下文下复杂度与表达力一起下降。
后训练编辑存活信息：Llama 家族上后训练能增加偏好信息而几乎不改复杂度，暗示预训练负责"广义压缩"、后训练负责"编辑留存什么信息"。

亮点与洞察¶

理论与实践的真桥：把率失真/信息瓶颈这套此前只在玩具任务上验证的理论，第一次在万亿 token 的 LLM 上跑通并验证其核心预测，回应了"IB 是否只是激活函数副产物"的长期质疑。
整模型视角而非零件视角：跟机制可解释性"找单语义神经元/电路"相反，本文把整个模型当一个压缩系统量化，给出可在任意尺度部署、单次前向即可估计的整体性指标。
可落地的训练用途：optimality 与偏好信息可作为early-stopping 准则（距边界不再下降就停）或checkpoint 选择准则——只需一次 teacher forcing 前向，远比跑整套 benchmark 便宜。
"学习即遗忘"的认知科学连接：把 LLM 放进人类学习/贝叶斯推断/奥卡姆剃刀这条长线里，朝"统一的表示学习理论"迈了一步。

局限与展望¶

熵估计是相对量而非真值：高维空间熵估计普遍低估真实熵，本文明确不声称估到了模型潜分布的真实熵，只在固定数据下做可比较的估计——跨数据集的绝对结论需谨慎。
back-off 上限只到 quadgram：5-gram 以上太稀疏、算不动，512 窗口内更细粒度的上下文信息只能算作"残差"，无法精确归因。
训练用途尚未实证：early-stopping / checkpoint 选择只是基于相关性的"潜在用途"，论文自己也说留待未来实验验证。
后训练分析较浅：预训练 vs 后训练对压缩的不同作用只给了 Llama 家族的初步结果，缺系统评估。
因果性存疑：optimality / 偏好信息与性能是相关（含偏相关控制参数量），并非证明了因果机制。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次在真实 LLM 尺度操作化率失真/IB 理论并验证其两阶段预测，把"训练即压缩"从隐喻做成可计算、可预测性能的框架。
实验充分度: ⭐⭐⭐⭐ 覆盖 6 家族 47 模型 + OLMo2 三种规模时序，相关分析含偏相关控制；但训练用途未实证、熵估计为相对量、因果性未建立。
写作质量: ⭐⭐⭐⭐⭐ 用 MP3/JPEG 类比把信息论讲得直观，三问题驱动、图文叙事清晰，理论与实证衔接顺滑。
价值: ⭐⭐⭐⭐ 给"LLM 如何学习"提供统一信息论框架与可行动指标（停训/选 checkpoint），对可解释性与训练实践都有潜在影响，主要待落地验证。

表示度量	与下游性能相关	显著性
Complexity \(I(X;Z)\) 单独	\(r=-0.38\)（越低越好）	\(p=0.006\) ✓
Expressivity \(I(Y;Z)\) 单独	\(r=0.08\)	\(p=0.575\) ✗
Optimality \(I(Y;Z)/I(X;Z)\)	\(r=0.52\)	\(p<0.001\) ✓
偏好信息 \(I(Z;\text{pref})\)	\(r=0.76\)	\(p<0.001\) ✓