Debiasing Reward Models via Causally Motivated Inference-Time Intervention¶
会议: ACL 2026
arXiv: 2604.27495
代码: 论文未公开仓库链接(缓存中未给出)
领域: LLM 对齐 / RLHF / 因果干预 / 可解释性
关键词: reward model, 因果干预, 神经元编辑, 长度偏差, 格式偏差
一句话总结¶
作者把 Bradley-Terry reward model 视作估计 total effect 的因果图,识别出与五类风格性偏差(长度 / 段落 / 词重叠 / 感叹号 / 粗体)激活高度相关的 bias-specific neurons(占总神经元 < 2%),在推理时把这些神经元激活替换为验证集中位数(估计 controlled direct effect),在 RewardBench / RM-Bench 上既不掉点又消除偏差,DPO 下游使用后让 8B 模型的对齐分数追平 70B SOTA reward model。
研究背景与动机¶
领域现状:RLHF 中的 reward model(RM)是给 LLM 偏好打分的核心,普遍用 BT 模型 \(p(y_1\succ y_2\mid q)=\sigma(r_\theta(x_1)-r_\theta(x_2))\) 实现。然而越来越多研究发现 RM 对响应长度(length bias)、列表 / 粗体 / 段落 / 表情等格式有系统性偏好(Singhal et al. 2024, Zhang et al. 2025)。
现有痛点:(i) 训练时纠偏(ensemble、weight averaging、infoBN、ODIN 加 head、数据增广)都需重训 RM,每出现一种新偏差就要重做一遍数据 / 架构,成本高。(ii) 推理时纠偏只有两种 —— length penalty(按字符数减 reward)和 LWR(locally weighted regression 估 length-only 偏置项),都只能处理长度,且会引入「偏 / 无偏数据子集」之间的性能权衡(unbiased 子集涨、biased 子集大幅掉)。(iii) RM 如何在内部「编码」这些偏差几乎是黑盒。
核心矛盾:训练时纠偏贵且不可外推到新偏差类型;现有推理时方法只是「在 reward 上做粗粒度减法」,没有触碰 RM 内部表征,因此天然在 biased / unbiased 之间存在 trade-off。
本文目标:(i) 给一种无需重训 的推理时纠偏方法,能同时处理多种风格偏差;(ii) 揭示 RM 在哪些神经元 / 哪些层编码这些偏差,给可解释性留下证据;(iii) 把该方法用在 DPO 偏好标注上,看是否能提升下游 LLM 的 alignment。
切入角度:把 RM 看作因果图:输入 \(x\) → mediator \(m\)(bias 神经元激活) → 输出 \(r\)。BT 模型隐式估计 total effect \(\hat{\mathrm{TE}}\),无法分离「内容质量」和「偏差信号」。改为估计 controlled direct effect \(\hat{\mathrm{CDE}}\) ——把 \(m\) 固定为 \(m^*\)(验证集 median)后再做差,就相当于「假设两条回答的偏差程度一样」时再比较内容质量。
核心 idea:先用 Spearman 相关找出与 5 类偏差最相关的 top/bottom-\(k\) 神经元,再在推理时把它们的激活替换成验证集中位数,等价于做 CDE 估计,从而做到「不重训、跨偏差类型、不引入 trade-off」。
方法详解¶
整体框架¶
两阶段(图 2)。离线阶段:在 500 条 RewardBench 验证子集上,对每个 RM 神经元收集「last-token 激活」与 5 类偏差量 \(f_b(x)\) 的成对样本;计算 Spearman \(\rho\),取 top-\(k\) 和 bottom-\(k\) 作为 bias-specific neurons;同时记下每个神经元在该验证集上的激活中位数 \(m^*\)。每类偏差独立用 Optuna + TPE 联合搜索 \(k\in\{50,100,200,500,1000,2000,5000\}\)(\(7^5 \approx 16,807\) 种组合,100 次试验)。在线阶段:推理时对每个 prompt-response 做前向,将命中的 bias-specific neurons 的激活强行替换为各自的 \(m^*\),然后输出 reward;BT 比较等价于估计 \(\hat{\mathrm{CDE}} = r_\theta(x_1, m^*) - r_\theta(x_2, m^*)\)。
关键设计¶
-
多偏差量度 + Spearman 排序识别 bias-specific neurons:
- 功能:在不训练的前提下找到 RM 内部专门表征某种风格偏差的神经元集合。
- 核心思路:对每类偏差 \(b\in\{\text{len, para, over, excl, bold}\}\) 定义可量化的 surface feature:长度 = 字符数;段落 =
\n\n出现次数;overlap = response 与 query 共词比;感叹号 / 粗体 =!/**出现次数。然后对每个神经元 \(n\) 在验证集上计算 \(\rho(a_n, f_b)\),取 top-\(k\) 与 bottom-\(k\) 为 \(b\) 的 bias-specific neurons。最终所有偏差合并后只编辑 GRM 1.7%、FsfairX 0.085% 的神经元。 - 设计动机:神经元级因果定位比 prompt-level / reward-level 校正颗粒度细得多;用 Spearman 而非 Pearson 既能捕捉单调相关又对异常值鲁棒;top + bottom \(k\) 同时取是因为偏差既可能正相关也可能负相关编码。
-
CDE 替代 TE 的因果干预:
- 功能:在 BT 评分时把 mediator 固定,把 reward 中由风格偏差贡献的部分系统性消掉。
- 核心思路:把 RM 的因果图(图 3)写成 \(x \to r\) 的直接路径 + \(x \to m \to r\) 的间接路径。原 BT 估计 \(\hat{\mathrm{TE}} = r_\theta(x_1, m(x_1)) - r_\theta(x_2, m(x_2))\) 同时包含两条路径。本文改用 \(\hat{\mathrm{CDE}} = r_\theta(x_1, m^*) - r_\theta(x_2, m^*)\),其中 \(m^*\) 取验证集激活中位数(作者也试过 0 和 swap,但 median 最稳)。
- 设计动机:CDE 概念上对应「假设 \(x_1, x_2\) 在偏差维度完全一样时,谁的内容更好」,正是 reward model 想要的「无偏比较」;用 median 而非 mean 是为了对异常激活鲁棒;用单一固定值而非 swap,可避免因 \(x_1, x_2\) 内容差异传染到 mediator。
-
Optuna 联合搜索多偏差 \(k\):
- 功能:在编辑神经元数与性能之间自动找到平衡,避免「调好长度反而把段落搞坏」的耦合问题。
- 核心思路:把 5 类偏差的 \(k\) 当作 5 维超参联合搜索,目标函数是 500 条验证集上的整体 reward accuracy;用 TPE 抽样 100 次。最终 GRM 选到 len=5000, para=5000, over=500, excl=200, bold=50;FsfairX 选到 len=500, para=100, over=100, excl=50, bold=200。
- 设计动机:直接对每类偏差独立调 \(k\) 会忽略神经元集合之间的重叠和干涉;TPE 联合搜索能感知到「编辑过多 paragraph 神经元会拖垮 length 准确率」这类耦合。
损失函数 / 训练策略¶
完全无训练。所有编辑通过推理时的 forward hook 把命中神经元的激活替换为 \(m^*\)。下游 DPO 训练用标准 hyperparam(\(\beta=0.1\),lr 5e-7,batch 64,1 epoch)。
实验关键数据¶
主实验¶
RewardBench 各偏差子集 + 整体(节选 Table 2,\(B_b\) 偏 biased 子集 / \(\overline{B_b}\) 无偏子集,准确率%):
| RM / 方法 | \(B_{\text{len}}\) | \(\overline{B_{\text{len}}}\) | \(\overline{B_{\text{para}}}\) | \(\overline{B_{\text{over}}}\) | \(\overline{B_{\text{excl}}}\) | ALL |
|---|---|---|---|---|---|---|
| FsfairX (7B base) | 95.14 | 77.93 | 75.63 | 82.49 | 71.13 | 86.68 |
| FsfairX + LP | 93.45 | 85.12 | 86.57 | 85.99 | 77.32 | 89.67 |
| FsfairX + LWR | 93.45 | 85.95 | 87.04 | 86.38 | 78.35 | 90.08 |
| FsfairX + CIRM | 95.25 | 78.02 | 74.91 | 83.27 | 72.16 | 86.80 |
| INF-ORM-70B (SOTA) | 96.72 | 95.70 | 93.91 | 95.72 | 90.72 | 96.60 |
虽然 LP / LWR 在 \(\overline{B_{\text{len}}}\) 上看似涨更多,但代价是 \(B_{\text{len}}\) 掉点(FsfairX 95.14→93.45);CIRM 同时维持 / 略升两个子集,且在 GRM 上 \(\overline{B_{\text{para}}}\) 从 90.68 升 / 维持,\(B_{\text{para}}\) 也升到 93.69。RM-Bench 同样表现(表 3):LP/LWR 把 Easy 拉低、Hard 拉高,明显 trade-off;CIRM 保持 Easy 不掉的同时 Hard 也持平。
下游 DPO + AlpacaEval 2.0 / MT-Bench(节选 Table 4,Llama-3-8B-Instruct):
| Reward model | LCWR | WR | length | MT-Bench |
|---|---|---|---|---|
| GRM (2B) | 37.53 | 47.47 | 2193 | 7.45 |
| GRM + LP | 44.49 | 40.18 | 1571 | 7.29 |
| GRM + LWR | 39.77 | 47.59 | 2119 | 7.58 |
| GRM + CIRM | 41.89 | 50.13 | 2201 | 7.53 |
| FsfairX (7B) | 37.78 | 49.74 | 2368 | 7.64 |
| FsfairX + LP | 44.03 | 46.88 | 1881 | 7.60 |
| FsfairX + LWR | 43.11 | 47.07 | 1929 | 7.44 |
| FsfairX + CIRM | 39.49 | 51.19 | 2345 | 7.62 |
| INF (70B SOTA) | 40.63 | 49.61 | 2201 | 7.42 |
7B + CIRM 的 WR 51.19 已经超过 70B INF 的 49.61,MT-Bench 也持平。
消融实验¶
表 5:依次去掉对某类偏差的干预(FsfairX + Llama3-8B):
| 配置 | LCWR | WR | MT-Bench |
|---|---|---|---|
| CIRM(全 5 类) | 39.49 | 51.19 | 7.62 |
| −len | 37.10 | 49.83 | 7.81 |
| −para | 38.20 | 50.89 | 7.53 |
| −over | 40.02 | 50.24 | 7.54 |
| −excl | 37.06 | 50.21 | 7.56 |
| −bold | 38.38 | 50.06 | 7.29 |
去掉任何一类偏差干预都会破坏 LCWR / WR / MT-Bench 的整体平衡,证明 5 类必须联合处理。表 6 验证 CIRM 把 GRM 标注里的 biased 比例 len 54.85→51.71、para 55.88→52.14 等微降,而 LP/LWR 是「猛降」(len 25.65),这种「适度抑制」正是不破坏 MT-Bench 的原因。
关键发现¶
- bias-specific neurons 集中在浅层(图 4-5):5 类偏差对应的神经元主要分布在 RM 的早期 transformer 层,且大多在 query / up / gate projection 里 —— 与 Meng et al. 2022 关于 up-projection 检索知识的假说一致。这暗示 RM 把「表面风格」放进了浅层快速通路,便于做局部编辑。
- CIRM 避免了 biased / unbiased trade-off:LP 在 RM-Bench Easy 上从 88.43 跌到 82.39,Hard 上涨到 59.55;CIRM Easy 维持 88.95,Hard 49.04 几乎不动 —— 因为它只关掉 RM 对偏差的依赖,不动正确比较时的语义信号。
- 2B / 7B + CIRM ≈ 70B INF:在 AlpacaEval LCWR、MT-Bench 上小 RM 加 CIRM 与 70B SOTA reward model 同档,意味着「无偏化」对下游 DPO 的价值可能比单纯加大 RM 规模更高。
- 下游 LLM 偏差也被压住(表 7):DPO 后 Gemma2 用 vanilla GRM 标注会放大 length(1323→1538)和 bold(14.82→21.22),用 CIRM 标注只温和变化(1323→1511),且不像 LP/LWR 反而把 excl 从 0.5 推到 0.6。
- TruthfulQA 提升(表 8):四组中三组在 CIRM 后 truthful 度上升,说明剔除风格偏差让 RM 更看重内容真伪,副带提升下游事实性。
亮点与洞察¶
- 把 BT reward 视作 TE 估计、用 CDE 替换是干净的因果叙事:这是首次把因果中介分析正式接到 RLHF reward modeling 上,给「reward 中风格 vs 内容」的分解提供了形式化语言。
- 「median 替换激活」比 zero / swap 都好:作者实测三种 \(m^*\) 选择,median 胜出,可能因为它是对异常激活更鲁棒的 controlled value;这一小经验对所有神经元干预工作(Vig 2020、Kojima 2024)都有借鉴价值。
- 联合搜索 \(k\) 揭示偏差之间的相互作用:发现 paragraph bias 在 \(\overline{B_{\text{para}}}\) 上反而被 CIRM 略损,但去掉它 DPO 下游会掉 —— 提示「RM benchmark 的子集准确率」并非下游 alignment 的可靠 proxy。
局限与展望¶
- 只覆盖 5 类预定义偏差(length / paragraph / overlap / exclamation / bold),列表 / 链接 / emoji 等其他风格偏差以及任务相关偏差需手工再加 surface feature。
- bias-specific neuron 识别依赖 500 条验证集 + 超参搜索,存在过拟合风险;不同 RM 选到的 \(k\) 数量差异大(GRM 21k vs FsfairX 1.9k)。
- 因果图过于简化为 \(x\to m\to r\),当偏差信号在多个 hidden state 之间广泛分布时干预效率会下降。
- 下游 alignment 全靠 LLM-as-judge(GPT-4o / GPT-4-turbo),评测本身可能继承类似偏差。
- 方法依赖 RM 的「最后 token 激活」做相关性分析,对 encoder-only 或非自回归 RM 需重新设计。
相关工作与启发¶
- vs LP (Dong et al. 2024) / LWR (Huang et al. 2024): 同样不重训,但只处理 length 且基于 reward-level 减法;CIRM 是 neuron-level 因果干预,能同时处理 5 类偏差且无 trade-off。
- vs ODIN / InfoRM / Park et al. 2024a: 都需重训 RM(加 head、信息瓶颈、数据增广);CIRM 完全在推理时完成。
- vs Vig et al. 2020 / Meng et al. 2022 / Kojima et al. 2024: 前者用 causal mediation 研究单类 attribute(性别 / 知识 / 语言),本文首次扩展到 RLHF 的 reward modeling 并联合处理多偏差。
- vs RM Ensemble (Eisenstein 2024) / WARM (Rame 2024): 走 robustness via averaging 路线,需要多 RM;CIRM 单 RM 即可,部署简单。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把 BT 解读为 TE、用 CDE 干预 RM 神经元,思想很新且落地很轻。
- 实验充分度: ⭐⭐⭐⭐ RM benchmark + 下游 DPO + 偏差残留 + TruthfulQA 多维度验证;缺更多 RM 架构。
- 写作质量: ⭐⭐⭐⭐ 因果图与公式清晰,case study 直观。
- 价值: ⭐⭐⭐⭐⭐ 让 7B RM 达到 70B SOTA 的下游对齐效果,工业 RLHF pipeline 直接受益。