跳转至

ParetoHqD: Fast Offline Multiobjective Alignment of Large Language Models Using Pareto High-Quality Data

会议: AAAI 2026
arXiv: 2504.16628
代码: 无
领域: LLM/NLP
关键词: 多目标对齐, Pareto最优, SFT, 偏好方向, 数据选择

一句话总结

提出 ParetoHqD,将人类偏好表示为目标空间中的偏好方向(而非线性标量化),通过选取靠近 Pareto 前沿的高质量数据做两阶段 SFT,用仅 42% 的 GPU 时间实现优于 5 个基线的多目标 LLM 对齐效果。

研究背景与动机

LLM 对齐通常需要同时满足多个目标(如 helpful、harmless、humor),但这些目标往往相互冲突。用户对各目标的偏好也各不相同——有人更看重安全性,有人更看重有用性。

现有离线多目标对齐的三个问题

线性标量化误表示偏好:主流方法用 \(\omega \cdot r\) 把多目标转化为单目标,但这无法区分位于同一等值线上但偏好完全不同的两个数据点,且无法处理非凸 Pareto 前沿

数据不平衡:高分数组合数据(各目标都得分高)极度稀缺,训练整个数据集会让模型偏向中等分数组合

训练效率低:在全量数据上训练耗时长,但实际上只需少量高质量数据即可完成对齐(LIMA 假说)

核心思路:既然只需少量数据就能对齐,那关键是选对数据。将偏好表示为目标空间中的方向(几何射线),选取 Pareto 前沿附近且最接近该方向的数据做 SFT。

方法详解

整体框架

ParetoHqD 分两阶段:Stage 1 从原始数据集的 Pareto 前沿选取匹配偏好方向的高质量数据做 SFT;Stage 2 用 Stage 1 训练的模型生成新数据,再从新数据的 Pareto 前沿选取数据做第二轮 SFT(数据增强防过拟合)。

关键设计

  1. 偏好方向表示(替代线性标量化)

    • 在目标空间中,偏好 \(\omega\) 定义为一条从理想点 \(r^{\max}\) 出发、指向妥协点 \(W\) 的射线
    • 妥协点:\(W = r^{\min} + \omega \odot (r^{\max} - r^{\min})\)
    • 优势:沿同一方向的数据具有固定的目标值比例,真正反映用户的 trade-off 意图;能覆盖非凸 Pareto 前沿
  2. Pareto 高质量数据选取

    • 用 M 个奖励模型评分全量数据,提取前几层 Pareto 前沿的数据构成 \(\mathcal{D}^{\text{Pareto}}\)
    • 对每个偏好 \(\omega_i\),选取 \(\mathcal{D}^{\text{Pareto}}\) 中距离偏好方向 \(\mathcal{P}_i\) 最近的 k=100 条数据做 SFT
    • 每个偏好仅需极少量高质量数据(100条),200步即完成训练
  3. 两阶段训练 + 数据增强

    • Stage 1:原始数据集 → Pareto 高质量数据 → SFT
    • Stage 2:选取 M+1 个代表性偏好的 Stage 1 模型(分别最看重每个目标 + 均衡偏好),对 10000 个随机 prompt 生成新回复,再从中提取 Pareto 高质量数据
    • Stage 2 每个偏好用 k/2=50 条数据继续微调,缓解 Stage 1 小数据量的过拟合

损失函数 / 训练策略

两阶段都用标准 SFT 损失 \(\mathcal{L}_{\text{SFT}} = -\mathbb{E}[\sum_i \log \pi(y_i | x, y_{<i})]\)。每个偏好训练 200 步,batch size 8。基座模型 Llama-2 7B。

实验关键数据

主实验

方法 Hypervolume ↑ 崩溃率 CR% ↓ GPU时间(h) ↓
MORLHF (5偏好) 0.3777 35.39% 2272.84
Rewarded Soups 0.3605 31.29% 923.68
RiC (SOTA) ~次优 ~中等 ~中等
ParetoHqD 0.7526 7.03% 55.87

消融实验

配置 效果说明
仅 Stage 1 有效但存在过拟合
Stage 1 + Stage 2 过拟合缓解,Pareto 前沿质量提升
用线性标量化替代偏好方向 多样性急剧下降,无法覆盖非凸前沿
用全量数据替代 Pareto 高质量数据 训练时间大增,效果反而更差

关键发现

  • 所有基线方法都出现语言崩溃(重复短语或极短回复),崩溃率 30%+;ParetoHqD 仅 7.03%——因为避免了线性标量化带来的冲突学习模式
  • 仅用 100 条数据 + 200 步训练即可完成单个偏好的对齐,验证了 LIMA 假说在多目标场景下的有效性
  • 可扩展到三目标:在 helpful + harmless + humor 三目标上同样表现优异
  • GPU 时间仅为 MORLHF 的 2.5%,为 RiC 的约 42%

亮点与洞察

  • 偏好方向替代线性标量化:用几何射线在目标空间中表示偏好,彻底解决了线性标量化无法区分等值线上不同 trade-off 点、无法覆盖非凸前沿的两个根本性问题
  • "少而精"的数据选择策略:LIMA 假说的多目标扩展——对齐不需要大量数据,关键是选对数据。Pareto 前沿附近的数据天然具有高质量
  • 极低的训练成本:55 小时 GPU 时间完成 11 个偏好的双目标对齐,使个性化多目标对齐变得实际可部署

局限与展望

  • 基座模型仅用 Llama-2 7B 验证,更大模型上的效果未知
  • 两阶段 SFT 无法进一步做偏好对齐的精细调整(如 DPO / RLHF 可能提供的细粒度优化)
  • 偏好方向的构造依赖奖励模型的准确性,奖励模型不准会直接影响数据选取质量
  • 三目标以上的情况下 Pareto 前沿数据更稀疏,可扩展性分析不够

相关工作与启发

  • vs RiC (Yang et al. 2024b):RiC 将奖励分数嵌入 prompt 中做条件生成训练,仍依赖线性标量化;ParetoHqD 从几何角度用偏好方向选取数据,多样性更好
  • vs MODPO (Zhou et al. 2024):MODPO 将偏好值融入 DPO 损失函数做偏好感知训练,但仍需大量数据且受线性标量化限制
  • vs MORLHF (Li et al. 2021):MORLHF 用 RL 在线优化线性标量化奖励,计算成本极高(2272 GPU 小时 vs 56 小时)

评分

  • 新颖性: ⭐⭐⭐⭐ 偏好方向表示替代线性标量化是有理论深度的创新
  • 实验充分度: ⭐⭐⭐⭐ 双目标和三目标、5个基线对比、崩溃分析、效率对比都有
  • 写作质量: ⭐⭐⭐⭐ 图示清晰(Fig 2 展示线性标量化问题很直观)
  • 价值: ⭐⭐⭐⭐ 为个性化 LLM 对齐提供了高效且理论合理的方案