Swap-guided Preference Learning for Personalized RLHF (SPL)¶

会议: ICLR 2026
arXiv: 2603.12595
代码: https://github.com/cobang0111/SPL
领域: LLM Alignment / 个性化对齐
关键词: 个性化奖励模型, 后验崩坏, 潜变量偏好学习, swap引导正则化, 偏好多样性

一句话总结¶

解决变分偏好学习(VPL)中的后验崩坏问题：提出SPL，通过swap引导基础正则化(强制潜变量编码用户偏好而非被忽略)+Preferential-IAF分解swap可逆/不可逆信号+自适应潜变量调节。在Llama-3.1-8B上达63.71%准确率+97.10%活跃单元，而VPL崩坏到57.14%+0%。

研究背景与动机¶

领域现状：统一奖励模型假设所有用户偏好一致，但实际中用户偏好存在显著多样性。VPL用潜变量建模用户特定偏好。

现有痛点：VPL的潜变量在稀疏数据+强解码器组合下会后验崩坏——潜变量被完全忽略，退化为单一奖励模型

核心 idea：swap引导正则化强制潜变量有用 + IAF分解用户特定信号

方法详解¶

整体框架¶

SPL 在 VPL（Variational Preference Learning）框架上改进：用户偏好数据 \(\mathbb{D}_h\) → encoder 编码为潜变量 \(z_0\) → P-IAF 变换为更丰富的 \(z_K\) → reward decoder 输出个性化奖励 \(r_\phi(x,y,z_K)\)。关键创新是利用 swap（交换 chosen/rejected 顺序）构造虚拟对立用户来引导编码。

关键设计¶

Swap 引导基础正则化：对每个用户 \(h\)，交换其所有偏好对的 chosen/rejected 构造虚拟对立用户 \(h_{swap}\)。强制 encoder 输出满足：
- 均值符号翻转：\(\mu \approx -\mu_{swap}\)（偏好方向反向→潜变量方向反向）
- 对数方差不变：\(\ell \approx \ell_{swap}\)（不确定性不受偏好方向影响）
- 引导损失：\(\mathcal{L}_{guide} = \mathbb{E}_h[\frac{1}{2}(1+\cos(\mu, \mu_{swap})) + \eta \frac{1}{2}(1-\cos(\ell, \ell_{swap}))]\)
- Preferential-IAF (P-IAF)：将 IAF 的 context vector 分解为 swap 可逆分量 \(c_d = \frac{1}{2}(c - c_{swap})\) 和 swap 不变分量 \(c_s = \frac{1}{2}(c + c_{swap})\)。\(c_d\) 仅送入 shift 函数 \(\mu_k\)（控制偏好方向），\(c_s\) 仅送入 scale 函数 \(\sigma_k\)（控制不确定性），减少交叉耦合。变换 \(K\) 步后得到多模态 \(z_K\)。
- 自适应潜变量调节：类似 FiLM 的特征调制，根据 \(z_K\) 信号强度动态调整其对 reward 预测的贡献权重——强偏好信号时放大、不确定时减弱。

损失函数¶

\(\mathcal{L}(\phi, \psi) = -\text{ELBO} + \lambda \mathcal{L}_{guide}\) - ELBO = 偏好似然期望 - \(\beta \cdot D_{KL}[q_\psi(z_K|\mathbb{D}_h) || p(z_K)]\) - \(D_{KL}\) 通过 IAF 的 Jacobian 行列式高效计算 - \(\mathcal{L}_{guide}\) 在基础分布 \(z_0\) 上施加 swap 镜像约束

实验关键数据¶

后验崩坏诊断¶

模型	方法	准确率	活跃单元率↑	崩坏状态
Llama-3.2-3B	VPL	62.37%	88.22%	轻度崩坏
Llama-3.2-3B	SPL	63.28%	93.07%	健康
Llama-3.1-8B	VPL	57.14%	0.00%	完全崩坏!
Llama-3.1-8B	SPL	63.71%	97.10%	健康

跨数据集表现¶

数据集	VPL KL稳定性	SPL KL稳定性	SPL 准确率提升
Pets（简单）	不崩坏	不崩坏	+0.5%
UF-P-2（中等）	部分崩坏	不崩坏	+2.1%
UF-P-4（复杂）	完全崩坏	不崩坏	+6.6%

关键发现¶

VPL 在 8B 模型上完全崩坏：活跃单元从 88%→0%，更强的 decoder 完全绕过潜变量
SPL 消除崩坏：即使在 8B 模型/复杂数据上仍保持 97.10% 活跃单元
崩坏与模型容量相关：更大的 decoder→更容易绕过 \(z\)→更需要 swap 引导
SPL 对 \(\beta\) 鲁棒：VPL 对 KL 权重 \(\beta\) 极其敏感，SPL 在宽范围内稳定
P-IAF 的分解有效：消融显示去掉 \(c_d/c_s\) 分解后特化程度下降

亮点与洞察¶

首次报告偏好学习中的后验崩坏：虽然 VAE 领域已知此问题，但在偏好建模中未被识别
Swap 引导是解决后验崩坏的优雅方案——利用偏好对的天然对称性（交换 chosen/rejected）约束潜空间结构
P-IAF 的 swap-reversal/invariant 分解在梯度场上有明确的物理意义——方向信号与不确定性信号解耦
自适应调节避免了"强制使用 \(z\)"导致的过拟合——当 \(z\) 信号弱时自动回退

局限与展望¶

测试场景有限，未验证实际 RLHF 训练中的个性化效果（仅评估了偏好预测准确率）
用户偏好类型用预定义分类（helpfulness/honesty 等），未处理连续偏好谱
P-IAF 的步数 \(K\) 和 \(\lambda\) 的选择依赖调参，缺乏自适应机制
未与其他个性化 RLHF 方法（如多奖励模型聚合）做直接比较

评分¶

新颖性: ⭐⭐⭐⭐ swap 引导正则化和 P-IAF 分解的思路新颖
实验充分度: ⭐⭐⭐ 多模型验证但应用场景有限
写作质量: ⭐⭐⭐⭐ 问题分析（崩坏→swap 观察→方法设计）的叙事线清晰
价值: ⭐⭐⭐⭐ 为个性化对齐提供了实用且有理论支撑的解决方案