跳转至

HRC + DSPPO: 用博弈论分解把传递偏好和循环偏好分开学

会议: ICML 2026
arXiv: 2605.17342
代码: https://github.com/lab-klc/Hybrid-Reward-Cyclic
领域: LLM 对齐 / 偏好建模 / RLHF
关键词: 偏好建模, Bradley-Terry, GPM, 循环偏好, 时变博弈, 自博弈

一句话总结

HRC 把人类偏好显式拆成正交的「传递标量分量」(BT 模型)+「循环向量分量」(GPM),用博弈论分解定理证明这种 hybrid 形式既能保 dominant 候选又能建模 RPS 式循环,再配套时变博弈 DSPPO 让对齐过程从「先稳住传递骨架,再学循环细节」走到 Nash 均衡——在 RewardBench 2 上 Gemma-2B-it 平均涨 1.23%、AlpacaEval 2.0 LC win-rate 拉到 44.75%。

研究背景与动机

领域现状:RLHF 默认用 Bradley-Terry 模型把偏好建成标量 reward 差,\(\mathbb{P}_{\mathrm{BT}}(\mathbf{y} \succ \mathbf{y}') = \sigma(r(\mathbf{y}) - r(\mathbf{y}'))\),前提是偏好满足传递性 \(A \succ B \land B \succ C \Rightarrow A \succ C\)。但 Tversky 1969、Munos et al. 2024 等都指出人类偏好普遍存在循环模式(如 Rock-Paper-Scissors 动态)。PairRM/PairPM 直接学 pairwise 函数能表达循环但推理是 \(O(K^2)\);General Preference Model(GPM)用 skew-symmetric 双线性形式 \(s_{\mathrm{GPM}} = \mathbf{v}_y^\top \mathbf{W} \mathbf{v}_{y'}\) 把复杂度降到 \(O(2dK)\) 并能建模循环。

现有痛点:GPM 把传递性和循环性纠缠在一个 skew-symmetric 形式里。论文证明(Theorem 4.7)GPM 在 \(d=1\) 时根本无法表达「dominant 候选 + 内部循环」的混合结构;即使 \(d > 1\),对任意复杂循环也无法保证存在能容纳 dominant 候选的 embedding。换句话说,GPM 在表达局部循环时会「挤掉」全局 dominant 的几何容量——这是结构性缺陷。

核心矛盾:现实偏好同时存在两层结构——全局上有清晰排序(如「helpful + harmless」是普世优先级),局部上又有循环(如三个 helpfulness 相当但风格不同的回复无 strict winner)。把这两件事用同一个 skew-symmetric 矩阵建模,相当于强行让一个模型既学层级又学旋转,几何上不兼容。

本文目标:找一个偏好模型,既能保证「dominant 候选可表示且不被循环挤掉」,又能保留 GPM 的循环建模能力和 \(O(K)\) 推理复杂度。

切入角度:Balduzzi et al. 2019 关于 Symmetric Zero-Sum Functional-Form Game 的分解定理告诉我们:任何 zero-sum 游戏都能唯一分解为「传递分量 + 循环分量」之和。把偏好建模视作 zero-sum FFG,这个定理直接给了「应该用 hybrid 形式」的理论合法性。

核心 idea:HRC = BT(传递)+ GPM(循环)显式相加,\(s_{\mathrm{HRC}} = (r(\mathbf{y}_i) - r(\mathbf{y}_j)) + (\mathbf{v}_i^\top \mathbf{W} \mathbf{v}_j)\)。再配 DSPPO——把对齐看作时变博弈,让 \(\mathbb{P}_t\) 从「以传递为主」逐步过渡到「传递+循环对等」,先建立全局质量基线再学局部细节,curriculum-style 收敛到 Nash 均衡。

方法详解

整体框架

训练分两阶段:(1) 在 Skywork-Reward-Preference-80K-v0.2 上训 HRC 偏好模型,三个 projection head 共享 LLM backbone(Gemma-2B-it 或 Llama-3.1-8B-Instruct);(2) 在 UltraFeedback prompt 上跑 DSPPO 时变自博弈对齐,每一步用当前 HRC 模型出 preference signal 做 SPPO 风格 multiplicative weight update,但 HRC 内部 \(s_T\)\(s_C\) 的权重按 \(1 \pm \lambda/\sqrt{t}\) 调度。

HRC 模型结构:共享 LLM hidden state \(\mathbf{h}_{\mathbf{y}|\mathbf{x}}\),过三个 head——transitive head \(r_\phi(\mathbf{y}|\mathbf{x}) = \mathrm{clip}(\mathbf{w}_r^\top \mathbf{h}, -\delta, \delta)\),cyclic head \(\mathbf{v}(\mathbf{y}|\mathbf{x}) = \mathbf{W}_c \mathbf{h} / \|\mathbf{W}_c \mathbf{h}\|_2\)(强制单位范数保证零均值条件),context gating \(\mathbf{D}(\mathbf{x}) = \mathrm{diag}(\lambda(\mathbf{x})) \otimes \mathbf{I}_2\)。最终得分 \(s_{\mathrm{HRC}} = C_1(r(\mathbf{y}_w) - r(\mathbf{y}_l)) + C_2(\mathbf{v}_w^\top \mathbf{D}(\mathbf{x}) \mathbf{R}^{\succ} \mathbf{D}(\mathbf{x}) \mathbf{v}_l)\),BCE loss 端到端训练。

关键设计

  1. HRC 偏好分解:BT + GPM 显式相加:

    • 功能:把人类偏好分成「全局层级」+「局部循环」两路并行学习,避免 GPM 一路通吃带来的容量挤压。
    • 核心思路:用 Balduzzi et al. 2019 定理证明任何 zero-sum FFG 可唯一分解为传递分量 \(\phi_T(\mathbf{v}, \mathbf{w}) = f(\mathbf{v}) - f(\mathbf{w})\) 和循环分量 \(\phi_C(\mathbf{v}, \mathbf{w})\),且 \(\phi_C\) 满足零积分条件 \(\int \phi_C(\mathbf{v}, \mathbf{w}) d\mathbf{w} = 0\)。Theorem 4.6 证明 BT 对应 \(\phi_T\)、GPM 对应 \(\phi_C\)(在零均值 embedding 条件下)。因此 \(s_{\mathrm{HRC}} = (r(\mathbf{y}_i) - r(\mathbf{y}_j)) + \mathbf{v}_i^\top \mathbf{W} \mathbf{v}_j\) 是该分解的「标准实例化」。Theorem 4.7 进一步证明 GPM 单独无法保证 dominant 候选的表达——HRC 通过把 dominant 信号路由到独立的 BT 标量 head,结构上彻底回避这个问题。
    • 设计动机:理论上 HRC 是 dim=\(2d+1\) 的 constrained GPM(在 GPM embedding 上加一维 reward 作为短路),但因为它把 dominant 信号路由到独立的 head,结构上彻底回避 Theorem 4.7 的限制;推理复杂度 \(O((2d+1)K)\) 跟 GPM 同阶。
  2. Context-aware gating + reward clipping + unit-norm 三件套:

    • 功能:保证 cyclic 分量的几何条件、控制 reward 分量的数值范围、根据 context 动态调节循环强度。
    • 核心思路:clipping 把 \(r_\phi\) 限制在 \([-\delta, \delta]\) 防止 reward 爆掉破坏 sigmoid 数值稳定;unit norm 让 GPM head 的 embedding 满足零均值条件(球面上各向同性 → \(\mathbb{E}[\mathbf{v}] = \mathbf{0}\))满足 Theorem 4.6 的前提;context gating \(\lambda(\mathbf{x}) \ge 0\) 让模型对不同 prompt 动态调整 cyclic 强度(如「问哪个 RPS 招法最好」开启循环,「问哪个回答更安全」基本关闭循环)。Table 2 消融显示 context gating 单独贡献 ~1% 平均 accuracy,是三件套里最重要的。
    • 设计动机:原 GPM 没有 context 维度,所有 prompt 共享一个 skew-symmetric 矩阵,被「问什么都有循环」噪声拖累;HRC 通过 gating 让模型学会「这个 prompt 没循环就别给循环信号」,是 prompt 异质性的工程化解决。
  3. DSPPO 时变博弈:先传递后循环的 curriculum 对齐:

    • 功能:把对齐过程从「锚定固定 oracle」改成「时变 oracle」,让策略先在传递骨架上稳住、再学循环细节,对应 curriculum learning。
    • 核心思路:在 SPPO 的 multiplicative weight update 框架上把固定 \(\mathbb{P}\) 换成时变 \(\mathbb{P}_t = \sigma(s_t)\),定义 \(s_t = (1 + \lambda/\sqrt{t}) s_T + (1 - \lambda/\sqrt{t}) s_C\)。早期 \(1+\lambda/\sqrt{t}\) 大、\(1-\lambda/\sqrt{t}\) 小,传递分量主导;后期两者趋同,恢复 HRC 完整信号。Theorem 5.3 证明在 \(\eta = \Theta(1/\sqrt{T})\) 下 mixture policy \(\bar{\pi}_T\) 与 Nash 均衡的 duality gap 是 \(O(1/\sqrt{T})\)
    • 设计动机:直接用 HRC 完整信号对齐,早期 reward 信号和 cyclic 信号同时震荡,策略不知道往哪走;先用传递信号建立「这个 prompt 应该往这个大方向走」的全局共识,再学局部循环细节,相当于课程学习。\(\lambda\) 也可以取负值得到「先循环后传递」做诊断,作者在附录里讨论。

损失函数 / 训练策略

HRC 模型用 BCE 损失 \(\mathcal{L}(\theta) = -\mathbb{E}[\log \sigma(C_1(r(\mathbf{y}_w) - r(\mathbf{y}_l)) + C_2 \mathbf{v}_w^\top \mathbf{D}(\mathbf{x}) \mathbf{R}^{\succ} \mathbf{D}(\mathbf{x}) \mathbf{v}_l)]\) 端到端训练,\(C_1, C_2\) 是 hyperparameter。DSPPO 用 SPPO 的 MSE loss 形式但 \(\mathbb{P}_t\)\(s_t\) 算,\(\eta = \Theta(1/\sqrt{T})\),KL 正则在 ratio 部分自动消失(行为策略均匀假设)。

实验关键数据

偏好建模能力:RewardBench 2

Base + 方法 Factuality Precise IF Math Safety Focus Ties 平均
Gemma-2B-it + BT (d=1) 45.68 32.50 62.30 80.67 77.17 37.25 55.93
Gemma-2B-it + GPM (d=2) 47.16 33.75 62.84 78.00 71.92 38.24 55.32
Gemma-2B-it + GPM (d=4) 43.16 36.25 64.48 81.11 76.16 37.25 56.40
Gemma-2B-it + HRC (2+1) 47.58 35.63 61.75 82.00 79.60 39.22 57.63 (+1.23)
Gemma-2B-it + HRC (4+1) 45.89 33.75 62.30 83.78 77.78 39.22 57.12
Llama-3.1-8B + BT (d=1) 64.63 34.38 64.48 92.67 90.91 73.53 70.10
Llama-3.1-8B + GPM (d=4) 67.58 33.12 57.92 92.22 93.74 73.53 69.69
Llama-3.1-8B + HRC (2+1) 68.42 35.00 60.11 92.89 94.75 74.51 70.95 (+0.85)

HRC 在 Ties 域上始终领先(39.22 vs GPM 38.24、BT 37.25),印证了它在「非 strict 偏好」上的鲁棒性;Safety 和 Focus 等「需要 dominant 信号」的域上也涨,跟 Theorem 4.7 的预言一致——GPM 在这些域容量被局部循环挤掉。

下游对齐:AlpacaEval 2.0 LC win-rate(Gemma-2B-it base)

偏好模型 对齐算法 LC win-rate (%)
BT SPPO ~35
GPM SPPO ~38
HRC SPPO ~42
HRC DSPPO 44.75

Arena-Hard-v0.1 上 HRC+DSPPO 达到 46.8%,全面超越 SPPO+BT/SPPO+GPM 基线。

关键消融(Gemma-2B-it + HRC dim 2+1)

配置 Factuality Safety Focus Ties 平均 \(\Delta\)
HRC (Full) 47.58 82.00 79.60 39.22 57.63
w/o Context Gating 45.89 83.11 74.95 38.24 56.49 -1.14
w/o Reward Clipping 47.79 81.33 75.96 40.20 57.11 -0.52
w/o Unit Norm 46.95 81.11 76.97 38.24 56.84 -0.79

Context Gating 是最重要的稳定化技巧,与「prompt 异质性」假设一致。

关键发现

  • Ties 域是 HRC 的主战场:Ties 设计上有多个等价正确答案 + 不正确干扰项,是 cyclic 偏好最典型场景,HRC 在两个 base model 上都拿到第一。
  • GPM 在某些域反而退步:如 Llama-3.1-8B 上 GPM (d=4) 比 BT (d=1) 平均还低(69.69 vs 70.10),呼应 Theorem 4.7——纯循环建模在 dominant 主导的域反而有害。
  • HRC dim 2+1 vs 4+1:dim 2+1 在 Gemma 上比 4+1 略高(57.63 vs 57.12),说明对小模型 cyclic 容量不要太大,避免 over-fit。
  • DSPPO 比 SPPO 涨 ~3 个点:从 42 → 44.75,证明时变 oracle 调度有效,curriculum 化学习有意义。

亮点与洞察

  • 理论分解定理 → 模型形式的直通车:Balduzzi 等的 FFG 分解定理本身已发表多年,但直到本文才被用在偏好建模上,把「GPM 为什么不够」从经验观察上升到 Theorem 4.7 的严格证明,再给出对应的 hybrid 修复——这是「理论先行 → 模型设计」的典范。
  • dominant 候选的几何分析很清晰:Theorem 4.7 把 GPM 的失败描述成「embedding 球面容量被局部循环挤掉」的几何问题,直观且可复现。
  • DSPPO 把对齐看作时变博弈:以前 SPPO/INPO 都假设固定 oracle,本文打开了「让 oracle 也演化」的新设计空间,对未来 multi-stage / curriculum 对齐有方法论意义。
  • Context Gating 显式建模 prompt 异质性:「不是所有 prompt 都需要 cyclic」是直观但常被忽略的事实,HRC 通过 \(\lambda(\mathbf{x}) \ge 0\) 把这件事工程化。
  • 算法-评测匹配:用 RewardBench 2 的 Ties 域专门验证 cyclic 建模能力、用 Safety/Focus 验证 dominant 信号,评测设计跟方法 motivation 高度对应,说服力强。

局限与展望

  • 理论假设的实践偏差:Theorem 4.6 要求 embedding 满足 \(\mathbb{E}[\mathbf{v}] = \mathbf{0}\),论文用 unit norm + 球面各向同性假设近似,但训练后实际分布是否各向同性没验证。
  • 循环偏好的真实存在性:合成实验确实有循环,但真实人类偏好里的循环比例多大?是否真的是「难以靠传递补救」?论文没量化。如果真实循环比例 <5%,HRC 的实际收益可能边际。
  • DSPPO 的 schedule 选择:只验证了 \(\lambda > 0\) 的一种 schedule(\(\lambda/\sqrt{t}\)),其他 schedule(指数、阶梯)的对比不充分。
  • Math 域表现混合:GPM (d=4) 在 Math 上 64.48 vs HRC (2+1) 61.75,HRC 在需要长链推理的 prompt 上还有 gap。
  • base model 都是 \<10B:在 70B+ 模型上的可扩展性、context gating 是否还有效,未验证。

相关工作与启发

  • vs BT (Bradley & Terry 1952):本文的传递分量就是 BT,但加上 cyclic 后能突破 BT 的 transitivity 假设;HRC 在 BT 完全失效的 RPS 类 prompt 上仍能学。
  • vs GPM (Zhang et al. 2025c):本文证明 GPM 的结构缺陷(Theorem 4.7)并给出 hybrid 修复;HRC 是 GPM 的严格扩展(GPM 是 HRC 的 \(C_1 = 0\) 特例)。
  • vs PairRM/PairPM:他们用 \(O(K^2)\) pairwise 函数能表达任意循环;HRC 用 \(O((2d+1)K)\) 复杂度,舍弃部分表达力换 scalability。
  • vs SPPO / INPO / NLHF / GPO:HRC 是偏好模型层,这些是对齐算法层;DSPPO 是 SPPO 的时变扩展,跟其他对齐算法可正交叠加。
  • vs 多维 reward(ArmoRM):ArmoRM 把 reward 拆成多维但仍标量聚合,本文证明这种「线性聚合」仍隐含传递性,HRC 用 cyclic 分量逃出去。
  • 启发:「显式分解出对抗结构」的思路可推广到其他建模场景——比如视觉相似度(局部冲突)、推荐系统(用户群偏好循环),都可以用 hybrid scalar + vector 形式重做。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 第一次用博弈论分解定理严格证明 GPM 的结构缺陷并给出 hybrid 修复,DSPPO 时变博弈也是新设计。
  • 实验充分度: ⭐⭐⭐⭐ 合成数据 + RewardBench 2 + AlpacaEval/Arena-Hard/MT-Bench + 完整消融 + 两个 base model;缺 70B+ 规模验证。
  • 写作质量: ⭐⭐⭐⭐⭐ 理论分解 → 模型形式 → 算法 → 实验的逻辑链非常清晰,Theorem 4.5–4.7 严格但易读。
  • 价值: ⭐⭐⭐⭐ 对偏好建模社区有理论 + 实证双贡献,对实际 RLHF pipeline 可直接替换 BT/GPM;开源代码降低门槛。