跳转至

Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards

会议: ICML2026
arXiv: 2510.01167
代码: https://github.com/pearls-lab/multiobj-align
领域: 对齐RLHF
关键词: 多目标对齐, Multi-Action-Head DPO, PRM-guided decoding, 过程奖励模型, 可验证/不可验证奖励

一句话总结

MAHALO 把"标准化 PRM 训练 + 多动作头 DPO + 带 KV-cache 续存的 PRM 引导解码"拼成一套统一框架,让一个 LLM 在数学(可验证)、人类价值观(不可验证)、多轮辅导(交互式)三类目标上同时被对齐,并且在推理时能通过头权重与 PRM 选择平滑地切换偏好。

研究背景与动机

领域现状:主流对齐路线(RLHF / DPO)都把多维偏好压成一个标量奖励,要么训练时定一组固定权重(如 MODPO 的线性化、参数 soup),要么测试时用单一 RM 引导生成。

现有痛点:(1)训练时的标量化抹掉了维度间的 trade-off,且换权重就要重训;(2)DPO Soup / 个性化 soup 等参数合并方法在加新目标时要重训单目标专家,代价高;(3)测试时的 reward-guided decoding 大多依赖 outcome RM,对部分序列打分时有"训练-推理粒度不一致"的问题;(4)PRM 类方法当前几乎只覆盖数学这种可验证域,非可验证域(helpfulness/honesty)缺一套通用的 step-level 训练范式。

核心矛盾:训练时若收紧成一个标量就丢失了多维结构,若开成多模型又承担巨大算力;测试时若只用 outcome RM 就缺少 step-level 控制,若想用 PRM 又训不出来——本质是"训练时多维度结构"和"测试时细粒度可控"之间没人统一打通。

本文目标:在一套框架里同时解决三个子问题——(a) 怎么在可验证与不可验证域里统一地训 PRM;(b) 怎么用一个共享 backbone 训出 H 个可解耦的目标头、推理时按需混合;(c) 怎么把 PRM 用在 step-level 解码上而不引入额外的"重新 encode prompt"开销。

切入角度:作者观察到——"奖励是否可验证"应当决定优化精力花在训练还是推理。可验证目标(数学正确性)天然有精确 step-level 信号,测试时 PRM 搜索收益最大;不可验证目标(helpfulness/engagement)信号噪声大,更适合通过多头训练塑形共享表示。基于这个二分法,作者把训练侧(MAH-DPO)和测试侧(PRM-guided decoding)做成互补组件。

核心 idea:用一个共享 backbone + H 个 DPO 头 做"向量化多目标对齐",再用一个跨域 PRM 在 KV-cache 续存的状态下做 step-level guided decoding,训练与推理可独立或叠加调用,实现"一次训练、推理时按需调配"。

方法详解

整体框架

输入是一组多目标偏好数据 \(\{\mathcal{D}_i\}_{i=1}^H\)(如 Math 的 Acc / Eng,UltraFeedback 的 Help / Honest / Truth,Socratic Mind 的 Acc / Eng),以及对应的过程级标注(或可用 PRM 自动打的标签)。Pipeline 分两条:

  1. PRM 训练管线(第 4 节)——按"是否可验证 + 是否容易 rollout + 是否有清晰过程结构"把训练分成可验证域 + 非可验证域 Case A/B/C 四种情形,分别给出标签构造方法,最终都得到统一形态的 \(r_t\) 用于训 PRM。可验证域额外引入 hindsight relabeling,把 PRM 同时训练成"step 质量 + 未来正确性预测器"。
  2. MAHALO 主框架(第 5 节)——训练时用 Multi-Action-Head DPO(共享 backbone \(\theta_b\) + H 个线性头 \(W_i\))让每个头专注一个目标;推理时既可单头使用,也可对 logits 加权融合,还可叠加 PRM-guided decoding 在 step 边界处做候选采样-PRM 打分-提交的循环,并通过"running past KV cache"避免重 encode。

关键设计

  1. 标准化 PRM 训练(统一可验证 / 非可验证域的 step-level 监督):

    • 功能:给数学、人类价值观、对话辅导等差异巨大的域提供同一形式的过程级训练信号 \(r_t\) 与 PRM 损失。
    • 核心思路:可验证域用 step-level reward 加 hindsight relabeling,把最终正确性 \(z\) 折扣回传得到 \(\tilde r_t = r_t + \gamma^{n-t} z\),并用 \(M\) 次 rollout 平均得到 \(V_t^{\text{target}}\),PRM 通过 MSE 拟合:\(\mathcal{L}_{\text{PRM}} = \mathbb{E}[(p_t - V_t^{\text{target}})^2]\)。非可验证域按可操作性分三种 case:Case A(有清晰 step 且 rollout 便宜)用校准过的 LLM-as-Judge 打多 rollout 的多数票 \(r_t = \mathbb{I}[\frac{1}{M}\sum_m \mathbb{I}(J(y_{1:t}, y_{t+1:n}^{(m)})=\text{pos}) > 1/2]\);Case B(rollout 贵,如多轮对话)直接让 judge 打前缀 \(r_t = J(y_{1:t})\);Case C(无清晰过程结构)退化为 Bradley-Terry 风格的部分序列打分。
    • 设计动机:之前 PRM 工作几乎只能在数学这类有自动验证器的域上训;本文把"过程奖励"从"对错判断"抽象成"前缀 → 期望成功概率",再按 rollout 成本和过程结构分级处理,让同一套 PRM 训练范式覆盖整个对齐图谱,是后面统一 PRM 跨域迁移的前提。
  2. Multi-Action-Head DPO(向量化多目标对齐 + 推理时可调):

    • 功能:用一个 LLM backbone 同时承载 H 个目标,训练时各目标在自己头上独立做 DPO,推理时可单头、可加权融合。
    • 核心思路:共享 backbone 给出隐状态 \(h_{\theta_b}(x, y_{1:t}) \in \mathbb{R}^d\),每个目标 \(i\) 配一个独立投影头 \(W_i \in \mathbb{R}^{d \times |V|}\),得到目标特定 logits \(z_i = W_i^\top h_{\theta_b}\)。每个头都用从 SFT 头复制 + 小扰动初始化,参考模型 \(\pi_\text{ref}\) 共用一份冻结的 SFT 头。第 \(i\) 个目标的损失为 \(\mathcal{L}_i = -\mathbb{E}_{\mathcal{D}_i}[\log \sigma(\beta \Delta_i)]\),其中 \(\Delta_i\) 是用 \(\pi_{\theta_b, W_i}\) 计算的 DPO 优势;总损失为加权和 \(\mathcal{L}_{\text{MAH-DPO}} = \sum_i \alpha_i \cdot \frac{1}{|\mathcal{B}_i|}\sum_{\mathcal{B}_i} \mathcal{L}_i\)。推理时按 \(\pi_\text{MAH}(y_t \mid \cdot) = \text{Softmax}(\sum_i w_i z_i)\) 融合,\(\sum_i w_i = 1\)
    • 设计动机:MODPO 把多目标在训练时硬塞进一个标量损失,权重在推理时不可改;DPO Soup 之类要为每个目标独立训整模再合权重。MAH-DPO 把"目标分离"放在最后一层(轻量),把"知识共享"放在 backbone(重量),既避免了 H 倍训练开销,又让推理时通过改头权重就能在 Pareto front 上滑动而不重训,实测两头集成相对单头 DPO 仅 +13% 延迟、+7% 显存。
  3. PRM-guided Decoding with Continuing Hidden State(step-level 测试时控制):

    • 功能:在生成每个"自然边界"(数学的换行 step、价值观的句子/段落、对话的一轮)处采 \(K\) 个候选,由 PRM 选最高分提交,从而在测试时按目标方向引导生成。
    • 核心思路:维护一个 running past KV cache \(\text{kv}_t\)。每步从 \(\text{kv}_t\) clone \(K\) 份本地 cache,每份独立采样直到触发边界检测 \(\mathcal{Q}\),得到候选 \(y_{t+1}^k\) 及其末态 cache \(\text{kv}_{t+1}^k\)。PRM 评分 \(r_k = P(x, y_{1:t}, y_{t+1}^k)\),选 \(k^\star = \arg\max_k r_k\),把对应 cache \(\text{kv}_{t+1}^{k^\star}\) 直接顶替为下一步的 running cache。
    • 设计动机:现有 reward-guided decoding 每步都把"已生成前缀 + 新选 step"作为文本重新拼接、再 encode 一次,会因 tokenization、相对位置、特殊 token 摆放等差异让下一步分布偏离真实增量解码——尤其是分步多次拼接后误差累积。续存 KV 让生成在"隐状态连续性"层面成立,实测对随机采样 4.9×、对 PRM-guided 4.2× 加速,等于把 step-level guidance 的可用成本降到能落地的量级。

损失函数 / 训练策略

PRM 用 MSE 拟合 hindsight value target;MAH-DPO 在 batch 里把样本按目标路由到对应头,分头算 DPO 再加权汇总(\(\beta\) 控制偏好强度,\(\alpha_i\) 控制目标重要性)。实验里为公平对比统一用相等的 \(\alpha_i\) 与平衡采样。所有头从 SFT head 加微扰初始化,参考策略固定为 SFT。Math/Socratic Mind 用 Qwen2.5-7B-Instruct,UltraFeedback 用 Llama-3.1-8B-Instruct,所有结果 3 次独立运行平均。

实验关键数据

主实验:训练时对齐(MAH-DPO vs 基线)

数据集 指标 Base SFT Single-Head DPO MODPO DPO Soup MAH-DPO Ensemble
Math Acc 0.711 0.730 0.725 0.728 0.726 0.725
Math Eng 0.501 0.592 0.716 0.737 0.735 0.873
Human Values Help 0.580 0.555 0.604 0.618 0.613 0.639
Human Values Honest 0.304 0.300 0.306 0.348 0.322 0.369
Human Values Truth 0.189 0.199 0.201 0.233 0.215 0.248
Socratic Mind Acc 0.656 0.679 0.704 0.705 0.689
Socratic Mind Eng 0.322 0.347 0.446 0.360 0.451

MAH-DPO Ensemble 在 Human Values 三个维度全面最强;Math 上 Eng 大幅领先而 Acc 仅微落后。

主实验:测试时 PRM-guided decoding 收益

数据集 配置 主目标 副目标
Math Base Acc 0.685, Eng 0.513
Math Accuracy Value-guided Acc 0.799 (+11.4) Eng 0.455
Math Engaging PRM-guided Acc 0.701 Eng 0.719 (+20.6)
Human Values Helpful PRM-guided Help 0.671 Honest 0.405, Truth 0.279
Human Values Honesty PRM-guided Help 0.645 Honest 0.469, Truth 0.338
Socratic Mind Engaging PRM-guided Acc 0.651 Eng 0.466 (+12.8)

可验证目标(数学 Acc)测试时收益最大,与"奖励可验证 → 测试时搜索回报最高"的核心论断吻合。

训练+测试协同(Table 5 摘录)

数据集 配置 关键指标
Math MAH-DPO + Accuracy Value Acc 0.800 / Eng 0.855
Math MAH-DPO + Engaging PRM Acc 0.721 / Eng 0.906
Human Values MAH-DPO + Honest PRM Honest 0.520 / Truth 0.411
Socratic Mind MAH-DPO + Engaging PRM Acc 0.712 / Eng 0.542

训练 + 推理叠加把 Pareto front 整体外推,且对相关目标(如 Honest PRM 同时拉高 Truth)出现正迁移。

消融 / 分析实验

配置 关键发现 说明
冲突子集 Help vs Honest Single-Head DPO 崩到 Help 0.34 / Honest 0.07 单标量在显式冲突下会坍塌
冲突子集 + MAH-DPO Ensemble Help 0.612 / Honest 0.353 提供平衡操作点,不偏废任一维
5-head 跨域统一训练 Acc 0.72 / Eng 0.86 / Help 0.65 / Honest 0.45 / Truth 0.35 全部维度同时优于 Base,目标数量增多不崩
统一 PRM(7 维混训) 全维度优于 Base,逼近各专用 PRM 单个 PRM 可跨域迁移
Continuing hidden state 随机采样 4.9× 加速,PRM-guided 4.2× 加速 续存 KV 消除重 encode 开销
MAH-DPO (H=2) vs Single +13% 延迟、+7% 显存、吞吐基本持平 多头开销远小于训多模型

关键发现

  • 奖励可验证性决定优化重心:Math Acc 等高度可验证奖励主要靠测试时 PRM 搜索拉升(+11.4),而 Help/Honest/Eng 这种主观奖励主要靠多头训练塑形(Ensemble 全面碾压标量化基线),训练 + 推理叠加进一步把上限推高。
  • 头权重平滑控制 Pareto front:在 Math 上调节 Acc/Eng 头权重能画出一条平滑 accuracy–engagement 曲线,几乎没有"非目标维突崩"的现象,意味着不重训就能落地不同应用偏好。
  • 统一 PRM 可跨域迁移:一个在 7 维混合数据上训出来的 PRM 在所有 3 个域 7 个维度上都优于 Base,且贴近各域专用 PRM,证明过程级奖励的结构是有共性的、可共享的。

亮点与洞察

  • 把"是否可验证 + rollout 成本 + 过程结构"做成 PRM 训练范式的二维决策表,是把 process supervision 从数学域扩散到对齐全栈的关键工程贡献;之前 PRM 工作只回答"怎么在数学里训",本文回答"怎么在任何对齐目标上训"。
  • Multi-Action-Head DPO 的"共享 backbone + 多头投影 + 推理时 softmax 加权 logits"非常像 mixture-of-experts 在对齐场景的极简变体,但通过把每个目标的 DPO 数据路由到自己头上避免梯度互相打架,是用最低 overhead 拿到"可重权多目标"的优雅方案。
  • Continuing hidden state 这个工程 trick 看似小,但实测 4× 加速,让 step-level guided decoding 第一次具备真正的可部署性——这类"消除重 encode"的思路完全可以迁移到 speculative decoding、tree search、agent 多轮调用等几乎所有需要"前缀稳定 + 多候选打分"的场景。
  • "可验证 → 测试时搜索;不可验证 → 训练时塑形"这条经验性 recipe 给后续对齐工作提供了清晰的设计 prior,避免在主观目标上浪费 inference compute、也避免在可验证目标上死磕训练。

局限与展望

  • 作者承认:非可验证域的 PRM 标签由 LLM-as-Judge + 多数票/单次打分得到,judge 校准依赖少量人标 ratings,judge 偏差会直接传染到 PRM 与下游对齐策略,缺少更系统的 judge 鲁棒性消融。
  • 实验集中在 7B–8B 量级、3 个域 7 个维度,对更大规模模型(70B+)以及更多目标同时存在(>10 维)时的 backbone 容量瓶颈和头之间梯度干涉的缩放规律尚无验证。
  • MAH-DPO 推理时的头权重需要按下游目标手工设定;如何在线根据用户反馈自适应调节(contextual bandit / RL on weights)是一个自然的延伸方向。
  • PRM-guided decoding 当前在"自然边界"(换行、句子)处采候选,对结构化输出(代码、表格、JSON)或长输出(>4k token)的 step 切分策略缺失,可能影响实际工程落地。

相关工作与启发

  • vs MODPO:MODPO 把 H 个目标合并成一个标量损失,权重必须训练时确定且固定;MAH-DPO 把目标解耦到独立头,推理时改 \(w_i\) 即可滑动 Pareto,且 Ensemble 全面优于 MODPO(Human Values 三个维度全胜)。
  • vs DPO Soup / Personalized Soup:Soup 类方法需要为每个目标独立训整模,再做参数合并,加新目标要重训;MAH-DPO 只新增一个线性头,训练成本几乎不变。
  • vs ARGS / Reward-Guided Decoding:现有 RGD 用 outcome RM 做 token-level/部分序列打分,存在"训练-推理粒度不一致"和"每步重 encode"两大顽疾;本文把 PRM 与 KV-cache 续存结合,同时解决信号粒度和效率问题。
  • vs Math-Shepherd / Process Reward Models:Math-Shepherd 等只覆盖数学,本文把 PRM 训练抽象成"前缀 → 期望成功",再针对非可验证域设计 Case A/B/C 标签构造法,把 PRM 训练范式扩展到对齐全谱。

评分

  • 新颖性: ⭐⭐⭐⭐ 单个组件(PRM、多头 DPO、guided decoding)都不是首创,但"按可验证性分配训练/推理优化精力"这条 recipe + 三件套统一框架是清晰的新贡献。
  • 实验充分度: ⭐⭐⭐⭐⭐ 3 个域 7 个维度 + 训练时/测试时/协同三段对比 + 冲突子集 + 5 头 scaling + 统一 PRM 跨域 + 计算开销分析,覆盖面非常完整。
  • 写作质量: ⭐⭐⭐⭐ 7 条 Finding 把核心结论压缩得很清楚,背景对 RLHF/DPO/PRM/RGD 谱系交代到位;公式与算法描述稍密但准确。
  • 价值: ⭐⭐⭐⭐⭐ MAH-DPO + Continuing-state PRM decoding 都是可直接落地的组件,且"可验证性决定优化重心"这条经验法则对未来多目标对齐工作有指导意义。