ParetoHqD: Fast Offline Multiobjective Alignment of Large Language Models Using Pareto High-Quality Data¶

会议: AAAI 2026
arXiv: 2504.16628
代码: 无
领域: LLM/NLP
关键词: 多目标对齐, Pareto最优, SFT, 偏好方向, 数据选择

一句话总结¶

提出 ParetoHqD，将人类偏好表示为目标空间中的偏好方向（而非线性标量化），通过选取靠近 Pareto 前沿的高质量数据做两阶段 SFT，用仅 42% 的 GPU 时间实现优于 5 个基线的多目标 LLM 对齐效果。

LLM 对齐通常需要同时满足多个目标（如 helpful、harmless、humor），但这些目标往往相互冲突。用户对各目标的偏好也各不相同——有人更看重安全性，有人更看重有用性。

现有离线多目标对齐的三个问题：

线性标量化误表示偏好：主流方法用 \(\omega \cdot r\) 把多目标转化为单目标，但这无法区分位于同一等值线上但偏好完全不同的两个数据点，且无法处理非凸 Pareto 前沿

数据不平衡：高分数组合数据（各目标都得分高）极度稀缺，训练整个数据集会让模型偏向中等分数组合

训练效率低：在全量数据上训练耗时长，但实际上只需少量高质量数据即可完成对齐（LIMA 假说）

核心思路：既然只需少量数据就能对齐，那关键是选对数据。将偏好表示为目标空间中的方向（几何射线），选取 Pareto 前沿附近且最接近该方向的数据做 SFT。

ParetoHqD 分两阶段：Stage 1 从原始数据集的 Pareto 前沿选取匹配偏好方向的高质量数据做 SFT；Stage 2 用 Stage 1 训练的模型生成新数据，再从新数据的 Pareto 前沿选取数据做第二轮 SFT（数据增强防过拟合）。

偏好方向表示（替代线性标量化）
- 在目标空间中，偏好 \(\omega\) 定义为一条从理想点 \(r^{\max}\) 出发、指向妥协点 \(W\) 的射线
- 妥协点：\(W = r^{\min} + \omega \odot (r^{\max} - r^{\min})\)
- 优势：沿同一方向的数据具有固定的目标值比例，真正反映用户的 trade-off 意图；能覆盖非凸 Pareto 前沿
Pareto 高质量数据选取
- 用 M 个奖励模型评分全量数据，提取前几层 Pareto 前沿的数据构成 \(\mathcal{D}^{\text{Pareto}}\)
- 对每个偏好 \(\omega_i\)，选取 \(\mathcal{D}^{\text{Pareto}}\) 中距离偏好方向 \(\mathcal{P}_i\) 最近的 k=100 条数据做 SFT
- 每个偏好仅需极少量高质量数据（100条），200步即完成训练
两阶段训练 + 数据增强
- Stage 1：原始数据集 → Pareto 高质量数据 → SFT
- Stage 2：选取 M+1 个代表性偏好的 Stage 1 模型（分别最看重每个目标 + 均衡偏好），对 10000 个随机 prompt 生成新回复，再从中提取 Pareto 高质量数据
- Stage 2 每个偏好用 k/2=50 条数据继续微调，缓解 Stage 1 小数据量的过拟合

两阶段都用标准 SFT 损失 \(\mathcal{L}_{\text{SFT}} = -\mathbb{E}[\sum_i \log \pi(y_i | x, y_{<i})]\)。每个偏好训练 200 步，batch size 8。基座模型 Llama-2 7B。

方法	Hypervolume ↑	崩溃率 CR% ↓	GPU时间(h) ↓
MORLHF (5偏好)	0.3777	35.39%	2272.84
Rewarded Soups	0.3605	31.29%	923.68
RiC (SOTA)	~次优	~中等	~中等
ParetoHqD	0.7526	7.03%	55.87

偏好方向替代线性标量化：用几何射线在目标空间中表示偏好，彻底解决了线性标量化无法区分等值线上不同 trade-off 点、无法覆盖非凸前沿的两个根本性问题
"少而精"的数据选择策略：LIMA 假说的多目标扩展——对齐不需要大量数据，关键是选对数据。Pareto 前沿附近的数据天然具有高质量
极低的训练成本：55 小时 GPU 时间完成 11 个偏好的双目标对齐，使个性化多目标对齐变得实际可部署