DavIR: Data Selection via Implicit Reward for Large Language Models¶
会议: ACL 2025
arXiv: 2310.13008
代码: 未公开
作者: Haotian Zhou, Tingkai Liu, Qianli Ma, Yufeng Zhang, Jianbo Yuan, Pengfei Liu, Yang You, Hongxia Yang
机构: ByteDance, Cold Spring Harbor Laboratory, Shanghai Jiao Tong University, National University of Singapore
领域: LLM预训练
关键词: 数据选择, 核心集选择, 隐式奖励, DPO, 指令微调, 长度偏差, 可学习性
一句话总结¶
提出 DavIR 数据选择方法,通过对基座模型与参考模型的损失差进行参考模型损失归一化(而非 token 数归一化),有效消除 RHO 目标中的序列长度依赖,使仅 6% 的 Alpaca 数据集(3K/52K)训练出的模型优于全量数据训练模型,同时将归一化思想推广到 DPO 得到 DavIR-DPO,在 AlpacaEval 上提升 Zephyr 8% 的对齐性能。
研究背景与动机¶
SFT 数据选择的重要性:根据"浅层对齐假设"(Superficial Alignment Hypothesis),少量精选数据即可引导预训练 LLM 展现指令跟随能力(Zhou et al. 2023 LIMA 仅用 1K 样本)。
现有方法的局限: - 以数据为中心的方法:AlpaGasus 用 ChatGPT 打分过滤(质量导向)、LIMA 人工标注(多样性导向),但都忽视了基座模型自身的能力 - 依赖外部教师模型:ChatGPT 标注带来安全和成本问题 - 以模型为中心但有缺陷:RHO(Reducible Holdout Loss)理论上好,但直接应用于语言建模时与序列长度高度相关
核心发现:语言建模中,token 级别的熵/损失与序列长度的 Spearman 相关性高达 -0.97(Albert on Alpaca)。RHO 目标继承了这种相关性,导致数据选择退化为近似按长度排序。
关键创新:一个微妙但关键的归一化改变——用参考模型损失做分母,而非 token 数——可以大幅降低长度依赖。
方法详解¶
核心公式:从 RHO-LM 到 DavIR¶
RHO-LM(基线):将 Reducible Holdout Loss 推广到因果语言建模
其中 \(\pi_{\text{base}}\) 是预训练基座模型,\(\pi_{\text{ref}}\) 是在全量数据上微调后的参考模型。
问题:\(S_{\text{RHO-LM}}\) 与序列长度高度相关(Pearson 相关 0.64-0.83,见 Table 2),原因是自回归语言建模中,更长序列提供更多上下文约束后续 token 分布,导致长序列的平均损失系统性偏低。
DavIR(本文方法):
- 关键区别:分母用基座模型自身损失而非 token 数
- 数学上等价于:\(1 - \mathcal{L}_{\text{ref}} / \mathcal{L}_{\text{base}}\)
- 直觉:衡量模型"学会的比例"——分母归一化消除了不同长度数据的绝对损失量级差异
- 用基座或参考模型损失做分母不影响排序(简单证明见附录 C)
与隐式奖励的关系¶
DPO 的隐式奖励函数:\(r(x,y) = \beta \log \frac{\pi(y|x)}{\pi_{\text{base}}(y|x)} = \beta \cdot [\mathcal{L}_{\text{base}} - \mathcal{L}]\)
- RHO-LM 的评分函数正是(常数倍的)DPO 隐式奖励
- DavIR 可视为归一化的隐式奖励,选择"奖励相对学习潜力最大"的数据
DavIR 算法流程¶
- 在全量数据 \(D_{\text{full}}\) 上微调基座模型得到 \(\pi_{\text{ref}}\)
- 对每个 \((x_i, y_i) \in D_{\text{full}}\),计算 \(\mathcal{L}_{\text{base}}\) 和 \(\mathcal{L}_{\text{ref}}\)
- 计算 \(S_{\text{DavIR}}\) 并排序
- 选取 top-k 高分数据组成训练集
- 用 \(\pi_{\text{base}}\) 在 top-k 数据上重新微调
DavIR-DPO 扩展¶
将归一化思想推广到 DPO 训练目标:
- 对 winning 和 losing response 分别用各自的参考模型损失归一化
- 目的:减少 DPO 目标对回复长度差异的依赖
实验关键数据¶
长度依赖性分析¶
| 数据集 | 模型 | RHO-LM Spearman | DavIR Spearman |
|---|---|---|---|
| Alpaca | gemma-2b | 0.75 | 0.30 |
| Alpaca | gemma-2-2b | 0.83 | 0.47 |
| GSM8K | gemma-2b | 0.58 | 0.06 |
| LIMA | gemma-2b | 0.20 | 0.02 |
- DavIR 显著降低了与长度的相关性(最佳情况从 0.58 降至 0.06)
SFT 数据选择:16x 压缩率¶
使用 LLaMA-7B/13B 在 Alpaca 数据集上的效果(Figure 1): - 3K/52K = 仅 6% 的数据即超越全量训练 - GPT-4 评估和人工评估均确认 DavIR 优势 - 随机采样的性能随数据量对数增长,远低于 DavIR
与其他核心集选择方法比较(Gemma-2B, AlpacaEval)¶
| 方法 | 3K | 5K | 7K | 10K |
|---|---|---|---|---|
| Random | 10.6 | 15.9 | 17.0 | 17.6 |
| Full (52K) | - | - | - | ~18 |
| EL2N (Highest) | 10.0 | 11.3 | 12.4 | 14.3 |
| Forgetting (Highest) | 9.5 | 13.4 | 16.7 | 18.2 |
| DataInf (Highest) | 10.3 | 15.9 | 18.7 | 18.8 |
| RHO (Highest) | 9.9 | 14.5 | 15.8 | ~16 |
| DavIR | ~12 | ~17 | ~19 | ~19 |
- DavIR 是唯一在所有数据量下一致超越全量基线的方法
- 低数据regime下(<5K)差距小,但高数据量优势明显
DavIR-DPO 结果¶
| DPO 变体 | 与回复长度差的 Pearson 相关 |
|---|---|
| Vanilla DPO | 0.38 |
| IPO | -0.10 |
| AOT | 0.12 |
| DavIR-DPO | 0.07 |
- DavIR-DPO 对长度差异的依赖最低(0.07 vs 0.38)
- 在 Zephyr-7B-SFT 上,DavIR-DPO 在 AlpacaEval 上相对提升 8%(length-controlled)
数据混合实验¶
- DavIR 选择的 Alpaca 子集 + GSM8K 数据混合训练,可有效平衡开放域 QA 和数学推理能力
- 全量 Alpaca 混合 GSM8K 反而出现能力冲突
亮点与洞察¶
- 一个微小的归一化改变带来巨大收益:分母从 token 数换为参考模型损失,看似简单但效果戏剧性,体现了对问题本质的深刻理解
- 理论-实践闭环:从 DPO 隐式奖励建立理论联系 → 发现长度依赖问题 → 提出归一化解决 → 再将归一化推广回 DPO
- "可学习性"的精确量化:DavIR 评分直接反映模型通过训练能学到多少(相对于其现有能力),是模型中心的选择标准
- 计算高效:仅需计算两次前向推理(base + ref 的损失),不需要梯度/Hessian(如 DataInf),不需要 ChatGPT API
- 统计严谨:通过 bootstrap 抽样估计 95% 置信区间并做 t-test,提供了充分的统计显著性证据
局限性¶
- 需要全量训练参考模型:需要先在 \(D_{\text{full}}\) 上训练一个参考模型 \(\pi_{\text{ref}}\),增加了前期计算成本
- 评估范围有限:主要在 Alpaca/LIMA 等英文指令跟随数据集上验证,对多语言、长文本等场景未探索
- DavIR-DPO 实验较少:仅在 Zephyr 一个模型上验证,优势的稳健性有待更多实验确认
- 假设依赖:浅层对齐假设不一定在所有场景下成立(如需要深层知识获取的领域)
- 未探索迭代 DavIR:理论上可以迭代执行(选择→训练→更新参考→再选择),但论文未实验
相关工作¶
- 核心集选择:RHO (Mindermann et al. 2022)、CRAIG、DataInf、EL2N、Forgetting Score 等
- LLM 后训练数据选择:LIMA (Zhou et al. 2023) 人工标注、AlpaGasus (Chen et al. 2023) GPT 评分、Instruction Mining 验证集损失
- DPO 变体:IPO (Azar et al. 2023)、EXO (Ji et al. 2024)、AOT (Melnyk et al. 2024)、SPPO (Wu et al. 2024) 等
- 预训练数据选择:DoReMi (Xie et al. 2023)、DSIR (Xie et al. 2023)、DRO (Oren et al. 2019)
评分¶
⭐⭐⭐⭐⭐ (5/5)
- 创新性:⭐⭐⭐⭐⭐ 归一化改变虽简单但洞察深刻,RHO→DavIR→DavIR-DPO 的理论链条优雅
- 实验充分性:⭐⭐⭐⭐ 多模型家族、多数据集、多基线对比,统计检验完善
- 写作质量:⭐⭐⭐⭐ 问题提出清晰,但符号较多且行文稍显冗长
- 实用性:⭐⭐⭐⭐⭐ 计算代价低、效果显著,直接可用于任何 LLM 后训练数据选择场景