Aligning Deep Implicit Preferences by Learning to Reason Defensively¶

会议: ICLR2026
OpenReview: ZA7i5Otjqd
代码: https://DeepPref.github.io/ （数据集）
领域: 对齐RLHF / 个性化对齐 / 过程奖励模型
关键词: 个性化对齐, 隐式偏好, 过程奖励模型, 防御性推理, 在线强化学习

一句话总结¶

针对 LLM 个性化对齐里"只会照搬用户说出口的偏好、推不出深层意图、也不会主动规避风险"的问题，本文把对齐从标量奖励匹配重构成结构化推理过程——先用"多角色认知委员会"造出带逐步批判标注的推理链数据集 DeepPref，再训练一个会"先写批判再打分"的生成式过程奖励模型 Pers-GenPRM，最后用融合数值与自然语言反馈的 token 级在线 RL（CDPA）对齐策略模型，在深度偏好理解和防御性推理上都拿到 SOTA。

研究背景与动机¶

领域现状：让 LLM 从"听话的指令执行器"变成"懂你的协作伙伴"，关键在个性化对齐。当前主流做法是 DPO 这类直接偏好优化，以及依赖最终结果监督的 RLHF——它们用一个标量奖励去拟合用户"表面上中意"的回答。

现有痛点：这类只看最终结果（outcome-based）的监督有两个具体毛病。其一，模型只会模仿用户说出口的偏好，推不出背后的深层意图。论文举了个很到位的例子：用户说"我不想分享实时位置"、又想让家人知道自己安全，一个浅层对齐的模型会推荐"到达后自动共享一个位置 pin"——它正确处理了"不要实时"这个显式约束，却没读懂用户真正在意的是隐私与自主叙事权（偏好缺口 preference gap）；同时它也没意识到"聚合的位置日志本身又是一种新的隐私负债"（过程缺口 process gap）。其二，标量奖励信号太稀疏、不可解释，无法引导复杂推理。

核心矛盾：作者把它形式化为双重缺口——偏好缺口（infer 不出未言明的目标、风险容忍度、优先级）和过程缺口（不会做 defensive reasoning，即主动识别并化解查询模糊性里潜伏的风险）。根因是监督信号挂在"最终答案"上，而不是挂在"得到答案的推理过程"上。还有一个 RL 特有的"零优势（zero advantage）"问题：一组采样回答最终结果可能一样好，但底层推理的质量和安全性差异很大，结果级奖励给不出区分它们的梯度。

本文目标：(1) 造出能教模型推理深层意图、主动规避风险的过程级监督数据；(2) 把这种文本批判转成可用于 RL 的结构化奖励；(3) 设计能利用过程级反馈、解决零优势问题的策略优化算法。

切入角度：与其监督"最终答案对不对"，不如监督"推理过程好不好"——让模型不仅学会生成答案，还学会批判（critique）这个答案有多尊重用户深层偏好、有没有管好潜在风险。批判本身就是一种认知过程监督。

核心 idea：用"批判驱动的推理对齐"（Critique-Driven Reasoning Alignment, CDRA）把对齐从标量奖励匹配重构成结构化推理过程，三件套贯通——批判标注数据集 + 生成式过程奖励模型 + 融合数值/语言反馈的在线 RL。

方法详解¶

整体框架¶

CDRA 是一条三阶段串行流水线。输入是 (用户偏好 \(P\), 查询 \(q\))，目标是学到策略 \(\pi(y|q,P)\) 生成与深层隐式偏好 \(P\) 对齐的回答 \(y\)。整体转法是：先用一套"多角色认知委员会 + 思维树"造出带逐步批判与打分的推理链，作为过程级监督的数据底座（DeepPref）；再用这批数据训练一个生成式过程奖励模型 Pers-GenPRM，它对一个回答的每一步先写文本批判、再据此给标量分；最后把这种"批判接地"的逐步奖励喂给一个 token 级在线 RL 算法 CDPA，去对齐策略模型。三阶段之间是数据→奖励信号→策略的依赖关系，奖励模型和策略优化之间还形成一个紧反馈回环。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：(偏好 P, 查询 q)"] --> B["DeepPref 数据集构建<br/>认知委员会 + ToT<br/>→ 带逐步批判/打分的推理链"]
    B --> C["Pers-GenPRM 训练<br/>先写批判再打分<br/>每步输出 (critique, score)"]
    C --> D["CDPA 在线 RL<br/>RFT 初始化 → 组采样<br/>→ token 级批判接地优势"]
    D -->|策略采样回答送回打分| C
    D --> E["对齐后的策略模型<br/>深度偏好理解 + 防御性推理"]

关键设计¶

1. DeepPref 数据集：用"认知委员会 + 思维树"造出带逐步批判的过程监督

偏好缺口和过程缺口的根子在于没有过程级监督数据——已有数据集都是 outcome-based 的偏好对，只告诉你"哪个答案更好"，不告诉你"怎么一步步推理出深层意图、怎么主动压住风险"。DeepPref 专门来补这个。它含 3000 个跨 20 个领域（个人理财、医疗健康等）的独特场景，每个是一个 \((P,q)\) 元组：偏好 \(P\) 被刻意设计成含细腻、常常互相冲突的价值与未言明目标（如"我看重便利但又极度在意隐私"），查询 \(q\) 则故意开放、含糊，逼模型去推理 \(P\) 而非简单照做。

构造分两阶段。(1) 多样路径生成：用思维树（Tree of Thoughts）框架为每个场景生成推理路径，由一个多角色认知委员会（社会学家、心理学家、实用主义者、教育者、唱反调者等不同专家人格）引导、配合启发式剪枝，产出一批多样的推理链 \(\tau_i=(s_i^1,\dots,s_i^{T_i})\)。(2) 逐步批判与打分：一个强 LLM 评估器对链里每一步 \(s_i^j\) 在给定前文路径的条件下，生成一段详细文本批判 \(c_i^j\)（评这一步对偏好 \(P\) 的契合度、对风险的化解效果）和一个标量质量分 \(r_i^j\)。最终数据条目是 \((P,q,\tau_i,\{c_i^j,r_i^j\}_{j=1}^{T_i})\)。其中含全部推理链与批判的子集 \(D_{\text{Rea}}\) 用来训 Pers-GenPRM，质量最高的路径子集 \(D_{\text{RFT}}\) 留给策略模型做初始微调。论文还把偏好分成"显式偏好"（直接说出来的，如"我不吃辣"）和"深度隐式偏好"（藏在语境/价值/未言明目标里的，如"不想分享实时位置"暗含对自主权的看重）——后者才是偏好缺口的核心难点。多角色 + 唱反调的设计，正是为了让推理链既能挖深层意图、又能被"压力测试"出潜在风险。

2. Pers-GenPRM：把奖励建模变成"先批判后打分"的推理任务

个性化偏好天生主观，没有数学那样的客观 ground truth，简单标量奖励容易强化表面相关性而非深层因果推理。Pers-GenPRM 的做法是不当一个"整体打分器"，而当一个逐步批判模型：对推理链里每一步 \(s_i^j\)，吃进前文上下文 \((P,q,\tau_i^{\le j})\)，生成一个批判-分数对

\[(P,q,\tau_i^{\le j}) \mapsto (c_i^j, r_i^j)\]

其中 \(c_i^j\) 是显式文本批判、\(r_i^j\) 是据此得出的标量奖励。它在 \(D_{\text{DeepPref}}\) 上用 SFT 训练，目标是最大化生成 ground-truth 批判-分数对的对数似然；由于是先自回归生成批判 \(c_i^j\)、再生成分数 \(r_i^j\)，损失拆成两项：

\[L_{\text{SFT}}(\theta) = -\mathbb{E}\Big[\sum_{j=1}^{T_i}\big(\log P_\theta(c_i^j|P,q,\tau_i^{\le j}) + \log P_\theta(r_i^j|c_i^j,P,q,\tau_i^{\le j})\big)\Big]\]

这样每一步都得到双成分奖励：一个可解释的批判 \(c_i^j\) 给出透明的语义解释，一个接地在该批判上的标量 \(r_i^j\) 作为批判的量化蒸馏。"先批判再打分"这个顺序很关键——它把数值信号因果地锚定到人类可读的理由上，让奖励的依据透明、可审计。把逐步分数聚合成稠密奖励 \(R_{\text{dense}}(\tau_i)=\sum_{j=1}^{T_i} r_i^j\)，就能按推理质量区分不同路径，缓解零优势问题。这相比"用自然语言反馈（NLF）当奖励"的已有工作更进一步：它不是只产文字，而是文字与可优化标量绑定。

3. CDPA：把逐步批判奖励转成 token 级优势的在线 RL

有了过程级奖励信号，还得有能吃下它的策略优化算法。CDPA 建立在 GRPO 之上，核心创新是给每个 token 位置赋一个细粒度优势，直接由 Pers-GenPRM 的逐步、批判接地奖励导出，从而在奖励建模与策略优化之间形成紧反馈回环。流程五步：Step 1 策略初始化——用高质量子集 \(D_{\text{RFT}}\) 做拒绝采样微调（RFT）初始化策略 \(\pi_\theta\)；Step 2 组采样——对每个输入 \((P,q)\) 从当前策略采一组 \(G\) 个回答；Step 3 过程级奖励生成——Pers-GenPRM 给每个回答的每一步 \(s_i^j\) 打批判接地分 \(r_i^j\)；Step 4 批判接地优势估计——把某 token \(t\) 所属步骤 \(s_i^j\) 的奖励直接当成它的 token 级奖励 \(r_{i,t}=r_i^j\)，再在组内做零均值单位方差归一化：

\[\hat{A}(t,y_i)=\frac{r_{i,t}-\mu_g}{\sigma_g+\epsilon}\]

其中 \(\mu_g,\sigma_g\) 是组内对应位置 token 级奖励的经验均值与标准差；Step 5 策略更新——用 PPO 式裁剪目标结合每 token 优势：

\[J_{\text{CDPA}}(\theta)=\mathbb{E}\Big[\frac{1}{G}\sum_{i=1}^{G}\sum_{t=1}^{C_i}\min\big(\rho_t\hat{A}(t,y_i),\,\text{clip}(\rho_t,1-\epsilon,1+\epsilon)\hat{A}(t,y_i)\big)\Big]-\beta D_{\text{KL}}(\pi_\theta\|\pi_{\text{ref}})\]

\(\rho_t=\pi_\theta(t|\cdot)/\pi_{\text{old}}(t|\cdot)\) 是重要性比。为什么有效：标准 outcome-based RL 在"多个回答最终都对、但推理质量/安全性差异大"时给不出区分梯度（零优势）；CDPA 把奖励下沉到步骤/ token 级，让同组内每个 token 的"步骤质量"和同伴对比，从而提供能把策略推向不仅正确、还可辩护、稳健、深度对齐的稠密梯度。

损失函数 / 训练策略¶

基座统一用 Qwen2.5-7B-Instruct，借助 trl + vLLM 在 4×H20 上训练。Pers-GenPRM 用上面的 \(L_{\text{SFT}}\) 在 DeepPref 上 SFT。策略侧先 RFT 初始化，再跑 CDPA：每个 prompt 采 \(G=5\) 个回答、温度 1.0；所有 RL 方法在 400 个优化步内取最佳 checkpoint 汇报。

实验关键数据¶

主实验¶

评测覆盖三个维度：核心表现（显式偏好遵循 \(\text{Acc}_{PF}\)↑、深度对齐准确率 \(\text{Acc}_{DA}\)↑、误导风险 \(\text{Acc}_{Mis}\)↓）与深度推理质量（缜密度 \(m_{th}\)、深挖 \(m_{dm}\)、创新拓展 \(m_{ie}\)，均↑）。在自建 DeepPref 与 PrefEval 两个基准上对比一众基线：

数据集	方法	\(\text{Acc}_{PF}\)↑	\(\text{Acc}_{DA}\)↑	\(\text{Acc}_{Mis}\)↓	\(m_{dm}\)↑	\(m_{ie}\)↑
DeepPref	CoT	59.7	49.3	50.3	25.3	0.7
DeepPref	SFT	83.3	75.0	34.7	63.7	40.3
DeepPref	GRPO	83.7	70.3	30.7	58.7	34.0
DeepPref	CDRA	84.7	76.3	32.3	65.0	42.7
PrefEval	GRPO	67.0	51.8	27.3	17.0	1.8
PrefEval	CDRA	68.8	62.5	21.0	37.5	15.2

CDRA 在两个基准上深度对齐准确率都最高（DeepPref 76.3% / PrefEval 62.5%），尤其在创新拓展 \(m_{ie}\) 上领先次优方法 2.4%+，同时显式偏好遵循也最高（84.7%），说明复杂推理能力的提升没有牺牲对显式指令的基本遵循。

多轮对话上做了人评（ALOE 数据集，1-5 分），CDRA 平均 3.92 分居首，且分数随对话轮次推进持续上升、后期峰值 4.6，而基线普遍趋于平台或退化——说明它能跨长对话累积用户语境、维持深度对齐：

模型	k=1	k=5	k=8	k=10	平均
TPO	2.4	4.2	4.0	4.0	3.86
GRPO	2.0	3.6	3.4	3.4	3.18
CDRA	2.0	4.4	4.2	4.0	3.92

消融实验¶

在 DeepPref 上对比不同奖励建模范式（Pro. Sup. = 过程监督，Cri. Sup. = 批判监督）：

配置	过程监督	批判监督	\(\text{Acc}_{DA}\)↑	\(m_{ie}\)↑
Base (Qwen2.5-7B-Instruct)	–	–	49.3	0.7
GRPO (with RM)	–	–	70.3	34.0
GRPO (with GRM，仅批判)	–	✓	74.7	37.0
GRPO (with PRM，仅过程)	✓	–	73.0	38.3
GRPO (Rubric-based RM)	–	–	73.7	34.7
GRPO (Test-Time Scaling)	–	–	73.0	34.7
CDRA (Pers-GenPRM)	✓	✓	76.3	42.7

关键发现¶

过程监督 + 批判监督缺一不可：单加过程监督（PRM）或单加批判监督（GRM）都能把深度对齐从 70.3% 提到 73~74.7%，但只有两者都上（CDRA）才到 76.3%，且创新拓展 \(m_{ie}\) 从 34~38% 跳到 42.7%——证明"监督批判性推理过程本身"比只监督最终结果或中间步骤更关键。
简单启发式替代不了：Rubric-based RM、Test-Time Scaling 这些更省事的方案在创新拓展上只有 34.7%，远不及 CDRA 的 42.7%，说明它们复刻不出挖掘潜在偏好所需的细腻推理。
存在可控权衡：CDRA 主攻深挖与创新（\(m_{dm}\)/\(m_{ie}\) 最高），代价是误导风险 \(\text{Acc}_{Mis}\) 与缜密度 \(m_{th}\) 略逊于个别基线——作者把这视为"产更多新颖高价值想法"换来的合理代价。
注意力证据：注意力分布分析显示 CDRA 把 35.7% 的注意力质量集中在"偏好区域"，而 SFT/GRPO 的注意力是分散的——说明 Pers-GenPRM 监督教会了模型"该往哪看"，主动锚定用户约束、减少偏好无意识违背。

亮点与洞察¶

把"奖励建模"重写成"推理任务"：Pers-GenPRM 先写批判再给分、且分数因果接地于批判，这一步把黑箱标量奖励变成可解释、可审计的信号，是本文最巧的地方——它既给了 RL 能用的标量，又保留了自然语言反馈的语义密度。
"零优势"问题的命名与解法很实用：指出"最终结果一样好但推理质量不同"时标准 RL 给不出梯度，并用 token 级、组内归一化的批判接地优势把奖励下沉，这套思路可迁移到任何"过程比结果更重要"的对齐/推理任务（数学证明、agent 规划、安全对齐）。
"多角色认知委员会 + 唱反调者"造数据：用对抗式人格主动 stress-test 候选回答，是把"防御性推理"这种难标注的能力工程化进数据的聪明做法，可复用于构造任何需要"主动找茬"的监督数据。
防御性推理这个问题设定：把"显式约束满足"和"隐式原则违背"区分开（位置 pin 的例子），点出了个性化对齐里一个被忽视但很真实的失效模式。

局限与展望¶

可控权衡未必总划算：误导风险 \(\text{Acc}_{Mis}\) 和缜密度 \(m_{th}\) 上 CDRA 并非最优（DeepPref 上 GRPO 的 \(\text{Acc}_{Mis}\) 更低），在高风险场景（医疗、法律）里"更敢创新"可能不是想要的，权衡方向需按场景调。
奖励模型即天花板：整套流程的监督质量被 Pers-GenPRM（及造数据用的强 LLM 评估器、DeepSeek-V3.2 评判器）决定，存在评估器偏好被蒸馏进策略、"LLM-as-judge"自洽循环的风险；偏好与批判的"正确性"本身是主观的，缺乏客观 ground truth 校验。
规模与基座单一：仅在 Qwen2.5-7B-Instruct 上验证，DeepPref 3000 场景 / 20 领域，是否在更大模型、更广领域上仍优于简单基线未知；CDPA 的 token 级奖励赋值（同一步内所有 token 共享步奖励）较粗，是否真需要 token 级粒度可再探。
改进思路：引入客观可验证的安全/风险检验器去校准误导风险一端；把批判奖励与可验证奖励（如规则/工具反馈）混合，缓解纯主观评判的自洽偏差。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把个性化对齐从标量匹配重构成"批判驱动的推理过程监督"，并贯通数据/奖励/RL 三层，问题设定（双重缺口、零优势）与解法都新。
实验充分度: ⭐⭐⭐⭐ 三维度评测 + 多基准 + 人评 + 奖励范式消融 + 注意力分析较完整，但仅单基座单规模、主观评判缺客观校验。
写作质量: ⭐⭐⭐⭐⭐ 动机用"位置 pin"实例讲得极清楚，方法分阶段、公式齐全，问题命名（preference/process gap、zero advantage）记忆点强。
价值: ⭐⭐⭐⭐ 过程级批判奖励 + token 级优势的范式对"过程比结果重要"的对齐/推理任务有较强迁移价值，DeepPref 数据集也有复用潜力。