SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning¶

会议: ICML 2025

arXiv: 2505.02363

作者: Tianjian Li, Daniel Khashabi

领域: 推荐系统 / 偏好学习 / 语言模型对齐

关键词: DPO, 偏好优化, on-policy, off-policy, 数据混合, RLHF, 语言模型对齐

一句话总结¶

SIMPLEMIX 发现 on-policy 数据擅长推理任务而 off-policy 数据擅长开放式任务，通过简单地混合两类数据源即可在 Alpaca Eval 2.0 上平均提升 6.03%，超越 HyPO 等复杂方法 3.05%。

研究背景与动机¶

核心问题¶

语言模型对齐 (alignment) 依赖成对偏好数据集进行偏好优化（如 DPO）。数据来源分为两类：

Off-policy 数据：响应由其他模型（非当前训练模型）生成，如 UltraFeedback 数据集
On-policy 数据：响应由当前训练模型自身采样生成

现有争论¶

学术界对两类数据的优劣存在矛盾观点：

观点	代表工作	结论
On-policy 更好	多项研究	on-policy 数据一致性优于 off-policy
取决于任务	其他研究	on-policy 的优势可能依赖具体任务类型

这一矛盾表明需要系统性地研究两类数据的交互作用。

动机¶

现有方法如 HyPO 和 DPO-Mix-P 试图结合两类数据，但设计复杂
是否存在更简单的混合策略能够取得更好效果？
两类数据在不同任务类型上的互补性是否可以被定量验证？

方法详解¶

整体框架¶

SIMPLEMIX 的核心思想极其简单：直接将 on-policy 和 off-policy 偏好数据按一定比例混合，然后用标准 DPO 训练。

数据混合流程：
1. 收集 off-policy 偏好数据（如 UltraFeedback）
2. 用当前模型采样生成 on-policy 偏好对
3. 将两类数据按混合比例 α 合并
4. 在混合数据集上执行标准 DPO 训练

关键发现：任务类型互补性¶

SIMPLEMIX 的理论基础来自一个重要的实证发现：

任务类型	On-policy 表现	Off-policy 表现	最佳策略
推理任务（数学、编程）	强	较弱	使用 on-policy
开放式任务（创意写作、个性化推荐）	较弱	强	使用 off-policy
综合评估	偏科	偏科	混合 (SIMPLEMIX)

这一发现解释了为何此前的研究存在矛盾结论——不同研究侧重的评估任务类型不同。

关键设计¶

数据混合策略¶

SIMPLEMIX 的核心操作是数据集级别的简单混合：

\[\mathcal{D}_{\text{mix}} = \alpha \cdot \mathcal{D}_{\text{on}} \cup (1 - \alpha) \cdot \mathcal{D}_{\text{off}}\]

其中： - \(\mathcal{D}_{\text{on}}\)：on-policy 偏好数据（当前模型生成的 chosen/rejected 对） - \(\mathcal{D}_{\text{off}}\)：off-policy 偏好数据（预先存在的偏好数据集） - \(\alpha\)：混合比例超参数

无需任何额外的加权机制、课程学习策略或对 DPO 损失的修改。

损失函数¶

使用标准 DPO 损失，无任何改动：

\[\mathcal{L}_{\text{DPO}}(\pi_\theta; \pi_{\text{ref}}) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}_{\text{mix}}} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right]\]

其中 \(y_w\) 和 \(y_l\) 分别为偏好对中的优选和劣选响应，\(\beta\) 为温度参数。

实验关键数据¶

主实验：Alpaca Eval 2.0 性能对比¶

方法	数据类型	Alpaca Eval 2.0 LC Win Rate	相对提升
Off-policy DPO	仅 off-policy	baseline_off	—
On-policy DPO	仅 on-policy	baseline_on	—
HyPO	混合（复杂方法）	较好	基准
DPO-Mix-P	混合（复杂方法）	较好	基准
SIMPLEMIX	简单混合	最优	+6.03% vs 单策略DPO, +3.05% vs HyPO/DPO-Mix-P

消融实验：不同任务类型的数据效果¶

任务类别	评估指标	On-policy DPO	Off-policy DPO	SIMPLEMIX
数学推理	准确率	高	较低	最高
代码生成	Pass@1	高	较低	最高
创意写作	人类偏好	较低	高	最高
个性化推荐	偏好率	较低	高	最高

关键发现¶

互补性被定量验证：on-policy 数据在推理任务上优势明显，off-policy 在开放式任务上更强
简单混合即为最优：无需复杂的加权、采样策略或损失函数修改
稳定超越复杂方法：SIMPLEMIX 以更低的方法复杂度超越 HyPO (+3.05%) 和 DPO-Mix-P
混合比例鲁棒性：在合理范围内调节 \(\alpha\) 对最终性能影响不大
泛化性：在多个基准（Alpaca Eval 2.0 等）上一致有效

亮点与洞察¶

"大道至简"哲学：在偏好学习领域，数据多样性比算法复杂性更重要。简单混合的成功挑战了复杂数据整合方法的必要性
为矛盾文献提供统一解释：不同研究得出 on-policy vs off-policy 的矛盾结论，本文揭示根本原因在于评估任务的类型偏差
实践指导价值：对于需要对齐 LLM 的工程实践者，直接混合现有 off-policy 数据和自采样 on-policy 数据即可获得显著提升
推荐系统关联：off-policy 数据在"个性化推荐"任务上的优势暗示了推荐场景中历史数据的独特价值
降低 on-policy 生成成本：不需要全部使用昂贵的 on-policy 数据，混合使用可以在节省计算成本的同时获得更好效果

局限性¶

混合比例 \(\alpha\) 的选择：虽然结果对 \(\alpha\) 较鲁棒，但最优比例可能因模型规模和任务分布而异，缺乏自适应确定 \(\alpha\) 的方法
Off-policy 数据质量依赖：当 off-policy 数据与目标模型分布差距过大时，混合效果可能下降
评估基准有限：主要在 Alpaca Eval 2.0 上验证，对其他对齐基准（如 MT-Bench、Arena-Hard）的泛化性有待进一步确认
未讨论数据规模比例：两类数据的绝对规模差异对混合效果的影响未深入分析
理论解释不足：缺乏对"为何简单混合有效"的理论分析，对互补性的解释停留在实证层面

评分¶

维度	分数 (1-5)	说明
创新性	3.5	方法极其简单（仅数据混合），但发现 on/off-policy 的任务互补性是有价值的新洞察
实用性	5	零额外实现成本，任何使用 DPO 的团队都可立即采用
实验充分性	4	在多任务上验证互补性，但基准测试覆盖面可更广
写作质量	4	论述清晰，"frustratingly simple"的命名精准传达核心信息
综合	4.0	以极简方法取得显著效果，对偏好学习实践有重要指导意义