跳转至

Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum

会议: ICML 2026
arXiv: 2510.00526
代码: https://github.com/GaotangLi/Beyond-Log-Likelihood
领域: LLM训练
关键词: 监督微调, 损失函数, 模型能力连续谱, 概率目标, 先验倾向

一句话总结

本文系统研究了 SFT 中概率类目标函数的行为规律,发现标准 NLL 并非普适最优:在模型先验强的任务上先验倾向(prior-leaning)目标如 \(-p\) 显著优于 NLL(最高提升 16%),而在先验弱的任务上 NLL 仍然占优,揭示了由模型能力连续谱(model-capability continuum)主导的目标函数选择原则。

研究背景与动机

领域现状:监督微调(SFT)是 LLM 后训练的标准范式,默认训练目标为负对数似然(NLL,\(-\log p\))。NLL 在从零训练的经典理论中被证明是最优的。

现有痛点:大量实践发现 SFT 泛化能力有限,但这一缺陷可能并非来自模仿学习范式本身,而是来自 NLL 目标函数。后训练与从零训练有本质区别:模型已经编码了大量任务相关先验,且监督序列常达数千 token 并可能含噪声。NLL 强制模型逐 token 复制参考答案,对低概率 token 施加过大的梯度信号,可能损害泛化。

核心矛盾:NLL 的最优性假设(独立同分布、从零学习)在后训练场景中被违反——模型已有先验,且先验强度因任务领域而异。将 NLL 推广到参数化目标族 \(f^\alpha(p) = (1-p^\alpha)/\alpha\)\(\alpha \to 0\) 时退化为 NLL)后,发现 \(\alpha=1\)(即 \(-p\))和 \(\alpha=10\) 在数学推理上显著超越 NLL。

本文目标:不是推销某个"万能"损失,而是系统刻画在什么条件下哪种目标最优,建立"模型能力连续谱"的分析框架。

切入角度:作者观察到目标函数的有效性与基础模型对任务的先验强度密切相关。先验强(如数学,预训练中 25% token 为数学相关)时,先验倾向目标更好;先验弱(如 figfont 字谜,预训练中完全未见)时,NLL 更好。

核心 idea:SFT 目标的选择应匹配模型能力——用模型能力连续谱替代"一刀切"的 NLL。

方法详解

整体框架

给定预训练模型 \(p_\theta\) 和 SFT 数据集 \(T\),标准 SFT 最小化 NLL \(\mathcal{L}_{-\log p}\)。本文将其推广为通用概率目标 \(\mathcal{L}_{f(p)}(\theta) = \mathbb{E}_{(x,\tilde{y})\sim T}[\sum_t f(p_\theta(y_t|y_{<t},x))]\),其中 \(f:[0,1]\to\mathbb{R}\) 为非增可微函数。通过分析不同 \(f\) 的梯度权重形状,将目标分为先验倾向(prior-leaning)和先验厌恶(prior-averse)两类,并在模型能力连续谱的不同位置验证其表现。

关键设计

  1. 统一概率目标族 \(f^\alpha(p)\):

    • 功能:提供一个连续可调的目标函数族,覆盖从 NLL 到 \(-p\) 的完整谱系
    • 核心思路:定义 \(f^\alpha(p) = (1-p^\alpha)/\alpha\),当 \(\alpha \to 0\) 退化为 \(-\log p\)(NLL),\(\alpha=1\)\(1-p\)(即最大化平均预测准确率),\(\alpha \geq 1\) 时函数为凹(concave),\(0 \leq \alpha \leq 1\) 时为凸(convex)。梯度对正确 logit 的权重为 \(W_f(p) = p^\alpha(1-p)\)\(\alpha\) 越大,低概率 token 的梯度信号衰减越快,越"尊重"模型先验
    • 设计动机:用一个参数 \(\alpha\) 统一刻画先验倾向程度,使得凸/凹性成为分析先验利用程度的代理指标,且支持连续插值
  2. 模型能力连续谱(Model-Capability Continuum):

    • 功能:建立"何时用什么目标"的诊断框架
    • 核心思路:按基础模型对任务先验的强度分为三个区间。Model-Strong(MS)端:预训练充分覆盖的领域(如数学推理),模型训练集上平均预测概率高(Qwen2.5-Math-7B 达 0.81),先验倾向目标最优。Model-Weak(MW)端:预训练未覆盖的领域(如 figfont 字谜),平均预测概率极低(约 0.01),NLL 最优。Model-Intermediate(MI)区:部分覆盖的领域(如医学推理,约 0.50),两类目标表现相近
    • 设计动机:量化地解释了为什么同一损失函数在不同任务上表现截然相反,给出了基于预测概率的实用诊断方法
  3. 梯度权重与先验倾向分类:

    • 功能:从梯度视角解释不同目标的学习行为差异
    • 核心思路:通过 Lemma 3.1 推导出任意目标 \(f\) 对正确 token logit 的梯度权重 \(W_f(p) = -f'(p) \cdot p(1-p)\)。Proposition 3.2 证明:凸函数的 \(W_f\) 峰值在 \([0, 0.5]\)(先验厌恶,强调低概率 token),凹函数峰值在 \([0.5, 1]\)(先验倾向,强调高概率 token)。据此将 \(-\log p\)(凸)归为先验厌恶,\(-p\)\(-p^{10}\)(凹)归为先验倾向
    • 设计动机:将直觉性的"NLL 过度关注低概率 token"量化为严格的数学刻画,并通过 Theorem 6.4 用梯度流理论证明 MS 端先验倾向目标的风险下降更快、MW 端 NLL 更快

实验关键数据

主实验:Model-Strong 端(数学推理)

模型 目标 Math500 Minerva OlympiadBench AIME24 AMC23 均值
Qwen2.5-Math-1.5B Base 30.71 8.81 14.88 2.49 17.97 14.97
\(-\log p\) (NLL) 42.52 12.71 12.09 0.62 17.03 17.00
\(-\log p \cdot \mathbf{1}_{p \geq 0.2}\) 63.95 24.79 26.08 7.09 38.28 32.04
\(-p\) 65.27 26.18 26.66 6.88 38.13 32.75
Qwen2.5-Math-7B Base 40.38 13.66 16.36 6.04 24.69 20.23
\(-\log p\) (NLL) 51.90 18.88 17.37 2.70 22.50 22.67
\(-\log p \cdot \mathbf{1}_{p \geq 0.2}\) 67.85 32.47 33.90 8.76 47.81 38.16
\(-p\) 68.47 31.99 32.26 8.75 41.09 36.51

Model-Weak 端与连续谱总结

维度 Model-Strong (MS) Model-Intermediate (MI) Model-Weak (MW)
代表领域 数学推理 医学推理 figfont 字谜
模型预测概率 0.76–0.81 ~0.50 ~0.01
最优目标 \(-p\) / 阈值化 NLL 两者相近 NLL (\(-\log p\))
\(-p\) vs NLL 差距 \(-p\) 胜出最高 +16% 差距 <2% NLL 胜出(\(-p\) 几乎 0 分)
根本原因 NLL 过度关注低概率噪声 token 先验不够强也不够弱 \(-p\) 强化错误高概率 token

关键发现

  • 在 MS 端,仅用训练集 top 10% 高概率 token 训练即可超越全 token NLL,证明低概率 token 在先验强时本质上是噪声
  • \(\alpha\) 从 0.1 增到 10.0 时,MS 端准确率单调上升,MW 端单调下降,形成完美的"X 形"交叉
  • 通用指令微调(Qwen2.5-3B/7B/14B)中,随模型规模增大,\(-p\) 的优势逐步显现,验证连续谱在同一数据分布内也成立
  • 编码任务同样属于 MS 端(\(-p\) 优于 NLL),低资源多语言属于 MW 端(NLL 优于 \(-p\)),证明连续谱跨领域泛化

亮点与洞察

  • 核心洞察极其简洁:一个标量参数 \(\alpha\) 就能控制先验利用程度,而最优 \(\alpha\) 由模型对任务的先验强度决定。这比设计复杂的自适应损失优雅得多
  • 阈值化 NLL(\(-\log p \cdot \mathbf{1}_{p \geq 0.2}\))作为一种实用中间方案,不需要改变损失形状,只需过滤低概率 token 就能获得接近 \(-p\) 的效果,实施成本几乎为零
  • 训练集平均预测概率可作为目标选择的定量诊断指标——高于 0.5 考虑先验倾向目标,低于 0.1 用 NLL。这一规则可直接迁移到任何 SFT 场景

局限与展望

  • 目标选择仍为静态的:训练过程中模型能力在变化,但本文全程使用固定目标,未探索自适应调度 \(\alpha\)
  • 模型能力的度量依赖预测概率,在模型严重 miscalibrated 或产生自信幻觉时可能误导目标选择
  • MI 区域(如医学推理)中两类目标均无明显优势,改进可能需要从损失函数以外的方向(如数据质量、领域知识注入)入手
  • 理论分析基于简化假设(如 MW 端模型预测均匀分布),真实场景更复杂

相关工作与启发

  • Wu et al. (2026) 提出的均匀梯度重加权本质上等价于 \(-p\) 目标,本文将其纳入统一框架并给出了失效条件
  • Focal loss 在本框架下属于"比 NLL 更先验厌恶"的目标,Huber 类概率损失属于先验倾向
  • 启发:后训练不应盲目套用 NLL,评估基础模型的先验强度后选择匹配的目标可能是最简单有效的 SFT 提升方法