Dual-objective Language Models: Training Efficiency Without Overfitting¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=BrPt0GFgOM
代码: https://github.com/ltgoslo/dual-language-models （有，模型也开源在 HuggingFace ltg/dual-lm-470m）
领域: LLM 预训练 / 训练目标 / 数据受限缩放
关键词: 双目标训练, 自回归, 掩码扩散, 过拟合, 数据墙

一句话总结¶

在不改动任何模型结构的前提下，把自回归（AR）和掩码扩散（masked-diffusion, MD）两种训练目标用一个权重 \(\alpha\) 线性混合到同一个 Transformer 上训练，让模型同时拥有 AR 的训练高效率和 MD 的抗过拟合能力；作者训了 50 个 470M 模型系统地扫出了在不同数据重复次数下的最优 \(\alpha\)，结论是「任何设置下混合都比单目标好」。

研究背景与动机¶

领域现状：当前主流大模型几乎都用自回归的「预测下一个 token」目标训练（GPT 系）。它的最大优点是训练高效——一次前向就能并行算出整条序列每个位置的损失，能极快地吸收海量文本。

现有痛点：自回归目标有一个被长期忽视的软肋——当训练数据被重复多次时极易过拟合。Muennighoff 等人发现纯自回归模型从超过 16 次数据重复中几乎学不到新东西，再重复就开始 held-out loss 发散。另一条路线掩码扩散语言模型（masked-diffusion，本质上是把 BERT 式掩码恢复扩展成扩散过程）天生抗过拟合、能利用双向上下文，但样本效率低、收敛慢，要更多算力才能追上 AR。

核心矛盾：AR「快但易过拟合」与 MD「稳但慢」之间存在一个清晰的 trade-off，而且这个 trade-off 正变得越来越要命——随着「数据墙」逼近（高质量文本即将枯竭、但算力还在指数增长），未来训练必然要在有限数据上反复重复，过拟合会成为头号敌人。

本文目标：能不能让一个模型同时占住 AR 的高效率和 MD 的抗过拟合？并且给出「在某个数据重复程度下到底该怎么配比两个目标」的可操作指南。

切入角度：两种目标的优缺点正好互补，作者的直觉是——用 AR 负责「快速吸收」、用 MD 当「正则项」防止它跑偏。关键观察是：只要把 MD 改写成也是「预测下一个 token」的形式，两个目标就能共用同一套参数、同一种架构，混合训练几乎零代价。

核心 idea：训练时最小化 \(\alpha L_{\text{AR}} + (1-\alpha)L_{\text{MD}}\) 的混合损失，用单一超参 \(\alpha\) 调节两者配比；推理时直接当普通自回归模型用，没有任何额外开销。

方法详解¶

整体框架¶

方法要解决的是「如何让一个 Transformer 同时被两种看似不兼容的目标训练，且不增加任何结构或推理成本」。整体思路分三步转：① 把掩码扩散目标改写成「掩码版的预测下一个 token」（MNTP），使它和自回归一样都是 next-token prediction，从而能复用完全相同的网络与参数——两种模式的唯一区别只在「输入是否被掩码 + 注意力掩码是因果还是双向」；② 用权重 \(\alpha\) 把两个目标线性混合成一个联合损失，为了不拖慢吞吐，作者按 GPU 设备分配目标（每块卡只算一种目标），256 块卡天然给出 257 个可选的 \(\alpha\) 离散值；③ 训 50 个模型、用高斯过程回归（GPR）拟合「数据重复次数 × \(\alpha\) → 下游性能」的曲面，反推出每个数据受限程度下的最优 \(\alpha\)，并提炼成可直接套用的经验法则；额外地，训练好的模型在推理时还能免费获得「前缀语言模型」能力。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["训练语料<br/>(R 次重复)"] --> B["掩码下一词预测 MNTP<br/>把 MD 改写成 next-token"]
    B --> C["双目标混合损失<br/>αL_AR + (1-α)L_MD"]
    C --> D["按设备分配目标<br/>256 卡 → 257 个 α 取值"]
    D --> E["高斯过程搜最优 α<br/>50 个模型拟合性能曲面"]
    E -->|推理时| F["诱导前缀语言建模<br/>前缀双向、补全自回归"]

关键设计¶

1. 掩码下一词预测 MNTP：让扩散目标也变成「预测下一个 token」

直接混合 AR 和 MD 的最大障碍是两者「形状不同」——AR 在位置 \(i\) 用 \(x_{<i}\) 预测 \(x_i\)，标准掩码扩散则在被掩位置直接预测该位置的原 token。如果两个目标的输出对齐方式不一样，就没法共用同一组参数。作者采用 Lv 等人的掩码下一词预测（MNTP）：模型永远用位置 \(i\) 的隐状态去预测位置 \(i+1\) 的 token，无论是 AR 模式还是扩散模式。这样一来两种模式被统一成同一件事——next-token prediction，唯一差别是输入与注意力掩码。掩码扩散损失写成对时间 \(t\in[0,1]\) 的积分上界：

\[-\log p_\theta(x) \le -\int_0^1 \mathbb{E}_{x^t\sim q_{t|0}(\cdot|x)}\Big[\tfrac{1}{t}\sum_{\{i\,|\,x^t_i=\text{mask}\}}\log p_\theta(x_i\mid x^t)\Big]\,dt \overset{\text{def}}{=} L_{\text{MD}}(x;\theta)\]

其中前向扩散过程让每个 token 以概率 \(t\) 变成 mask（\(t=0\) 是原句、\(t=1\) 全掩），积分用蒙特卡洛采样 \(t\sim U(0,1)\) 估计。作者在附录里证明了 MNTP 这种参数化与标准掩码恢复表达力等价，所以改写不损失能力。

2. 双目标混合损失与权重 \(\alpha\)：用一个旋钮调「快」与「稳」

有了统一形状，就能把两个目标加权相加，训练目标变成

\[\arg\min_\theta\ \mathbb{E}_{x\sim D}\big[\alpha L_{\text{AR}}(x;\theta) + (1-\alpha)L_{\text{MD}}(x;\theta)\big]\]

\(\alpha\) 是全文的灵魂超参：\(\alpha=1\) 退化成纯自回归，\(\alpha=0\) 退化成纯扩散，中间值则在「训练效率」和「抗过拟合」之间连续插值。它之所以有效，是因为大比例的 AR 负责快速收敛、小比例的 MD 像一个施加「有用建模先验」的正则项，把 AR 容易过拟合的倾向往回拉。一个反直觉的发现是：即使你只关心双向（扩散）性能，也不该用纯 MD 训练——只掺一点点 AR（\(\alpha\) 很大）反而能得到比纯 MD 更强的双向能力。

3. 按设备分配目标：零吞吐损失地实现批内混合

如果在同一个 batch 里既混 AR 样本又混 MD 样本，计算图会变得动态、难以编译，吞吐会掉。作者的工程巧思是每块 GPU 只负责一种目标——让每块卡的计算图保持简单静态、可被高效编译。模型训练分布在 256 块设备上，于是 \(\alpha\) 自然落在 \(\{i/256\mid i=0,1,\dots,256\}\) 这 257 个离散值上，分配多少块卡给 AR 就等价于设了多大的 \(\alpha\)。这个设计把「混合两个目标」从算法问题降维成「分配设备数」的简单问题。

4. 高斯过程搜最优 \(\alpha\) + 两条经验法则：把 50 次实验压缩成可操作指南

数据本身有噪声、且「重复次数 × \(\alpha\) → 性能」是个二维曲面，逐点比较不可靠。作者训了 50 个模型，用高斯过程回归（GPR）（各向异性 Matérn 核 ν=1.5 + 白噪声核）拟合这张曲面，\(R^2\) 全部超过 0.99，再从后验采样估出「给定重复次数下，哪个 \(\alpha\) 最优」的概率密度。由此分出两个区间并给出法则：常规数据区（≤16 次重复，AR 还不过拟合）——用 \(\alpha\approx 63/64\)，即掺一点点 MD，就能在不损失 AR 性能的前提下拿到比纯 MD 更强的双向能力（Remark 1）；数据受限区（>32 次重复，过拟合是主要矛盾）——选一个让 AR 目标「实际只看到约 16 次数据重复」的 \(\alpha\)（Remark 2），因为超过 32 次 AR 重复会过拟合、少于 8 次又欠拟合。

5. 诱导前缀语言建模：推理时免费再涨一截

因为模型训练时同时见过单向和双向注意力，作者测试它能否零额外训练地泛化到「前缀语言建模」——把提示的条件部分（prefix）用双向注意力处理、把要生成的补全部分仍用自回归处理。结果发现：在大多数混合训练的配置下，这种前缀式推理比纯自回归推理稳定高出 1 个百分点以上（Remark 3）。相比之下，过去 Katz 等人要实现同样效果还得专门训练 adapter，而本文的双目标训练把这个能力「白送」了。

实验关键数据¶

实验统一在 470M 参数模型（360M 非嵌入权重）、32B token 总预算上做。重复因子 \(R\) 表示采样 \(32\text{B}/R\) 的唯一子集再重复 \(R\) 遍。优化器用 Muon，WSD 学习率调度，语料取自 HPLT v2 英文网页。

主实验：自回归评测（归一化分数，0=随机、100=满分）¶

重复次数	模型配置	平均分	关键对比
1×	Dual (α=63/64)	26.9	略胜纯 AR
1×	Autoregressive (α=1)	26.1	—
32×	Dual (α=3/4)	23.9	比纯 AR 高 1.9
32×	Autoregressive (α=1)	22.0	—
128×	Dual (α=1/8)	19.1	比纯 AR 高 9.7
128×	Autoregressive (α=1)	9.4	灾难性过拟合

核心信号：数据重复越极端，双目标的优势越夸张——128 次重复下纯 AR 直接崩到 9.4（部分任务甚至跌破随机基线变负），而双目标仍有 19.1，几乎翻倍。即便在 1 次重复的常规设置下，双目标也不输纯 AR。

消融 / 分析：α 与过拟合的关系¶

配置	现象	说明
α=1（纯 AR）	>16 次重复后过拟合	held-out loss 发散
α=0（纯 MD）	双向评测下也被双目标反超	样本效率低、收敛慢
中间 α	全部 9 任务多数上涨	重复越多增益越大
前缀推理	多数配置 +1pp 以上	零额外训练

关键发现¶

混合永远更优：在所有评测设置（含常规数据 + 数据受限、含单向 + 双向评测）下，混合都严格优于任一单目标，这比并行工作「MD 仅在数据受限时胜过 AR」的结论更强。
最优 \(\alpha\) 与过拟合行为绑定：最优 \(\alpha\) 正好落在「会过拟合的 \(\alpha\) 区间」正下方；由于过拟合行为不随模型规模变化（前人结论），作者据此论证最优 \(\alpha\) 在更大模型上也应稳定，且大模型上双目标收益可能更大。
数据墙被推远一个量级：纯 AR 从超过 16 次重复中学不到东西，双目标把这个上限至少推高了一个数量级（128 次重复仍有非平凡性能，相当于只看了 256M token）。

亮点与洞察¶

「换形状」而非「换结构」：用 MNTP 把扩散目标改写成 next-token 形式，是整个方法零成本的关键——它让两个目标共享同一套参数、同一种架构，推理时直接当 GPT 用，没有任何额外开销。这个「统一表面形式」的思路可迁移到任何想混合异构目标的场景。
把超参搜索工程化成「分配设备数」：按 GPU 分配目标既解决了吞吐问题，又把连续超参 \(\alpha\) 离散成 257 个干净取值，是非常漂亮的系统-算法协同设计。
用 GPR 对抗噪声实验：面对 50 个噪声模型点，不做逐点比较而是拟合一张光滑曲面再采后验估「最优概率」，这种「先建概率模型再读结论」的实验分析范式值得借鉴。
最反直觉的一点：要双向能力强，最优解竟然不是纯双向训练，而是「大量 AR + 一点 MD」，说明 AR 提供的快速收敛对双向表示也有正向迁移。

局限与展望¶

规模外推靠论证而非实测：所有实验都在 470M 上做，「结论在更大模型成立」是基于「过拟合不随规模变化」的间接推理，缺直接验证（作者也承认大规模实验太贵）。
数据受限区的最优 \(\alpha\) 窗口很窄：Remark 2 给的是经验启发式（让 AR 实际看约 16 次重复），但论文也指出该区间狭窄、对配置敏感，落地时仍需小心调。
任务与语料范围有限：仅评测 9 个零样本英文任务、单一 HPLT 英文语料，多语言/代码/更大下游任务上的表现未知。
改进方向：可探索训练中动态调度 \(\alpha\)（而非全程固定），或把 MNTP 统一框架推广到更多目标（如前缀、UL2 式去噪）的多目标混合。

评分¶

新颖性: ⭐⭐⭐⭐ 不是全新机制，但「零成本统一 + 系统扫 α + 数据墙视角」的组合很有价值
实验充分度: ⭐⭐⭐⭐ 50 个模型 + GPR 拟合扎实，但仅单一规模/语料，缺大模型直接验证
写作质量: ⭐⭐⭐⭐⭐ 动机清晰、图表（尤其 Figure 1/4）极有说服力，三条 Remark 落地性强
价值: ⭐⭐⭐⭐⭐ 面向「数据墙」的实战指南，零推理开销、可直接用于未来大模型训练