\(f\)-Divergence Regularized RLHF: Two Tales of Sampling and Unified Analyses¶
会议: ICML 2026
arXiv: 2605.06977
代码: 无(理论论文)
领域: RLHF 对齐 / Online Learning / 理论
关键词: \(f\)-divergence、optimism、derivative-as-uncertainty、regret bound、contextual bandit
一句话总结¶
本文给在线 RLHF 在通用 \(f\)-divergence 正则下首次建立 \(O(\log T)\) regret 和 \(O(1/T)\) 次优 gap 上界,提出两套采样策略:(1) 基于 optimism in face of uncertainty 加 bonus 项;(2) 一个新颖的 "derivative-as-uncertainty" 视角——把 \(f'\) 当作不确定性信号,从而设计 derivative-based 采样而无需在每轮显式估计 confidence bound。
研究背景与动机¶
领域现状:RLHF 已经是 LLM post-training 的标配(InstructGPT、Llama2、Claude 等),最常见形式是 KL-regularized contextual bandit:\(J_{\text{KL}}(\pi)=\mathbb{E}[r^*(x,a)-\eta^{-1}D_{\text{KL}}(\pi,\pi_0)]\)。Zhao et al. 2025a 已经证明 online KL-RLHF 能拿 \(O(\log T)\) regret、offline 在 single-policy coverage 下能拿 \(O(\varepsilon^{-1})\) 样本复杂度。
现有痛点:KL 不是万能正则——Huang et al. 2025 证明混合 chi-squared 能更好缓解 reward over-optimization;Shan et al. 2024 指出 forward KL 对扩散模型对齐更稳;\(\alpha\)-divergence 在 exploration-exploitation 之间提供更灵活的 trade-off。但目前所有理论分析都按特定 \(f\) 一个个做,没有统一框架;Zhao et al. 2025b 给了通用 \(f\)-divergence 但只覆盖 offline。online 的统一理论是个空白。
核心矛盾:每种 \(f\)-divergence 都有自己的最优策略闭式解 \(\pi_f^*(a|x)=\pi_0(a|x)f'^{-1}(\eta(r^*(x,a)-\lambda_f^*(x)))\),里面的 \(f'^{-1}\)(记作 \(h\))形状千差万别——KL 是 exp、chi-squared 是线性、JS 介于两者。任何 online 算法的 regret 都会被 \(h\) 的曲率主导,怎么设计一个对所有 \(f\) 都管用的 bonus 是难点。
本文目标:(1) 把 optimism-based RLHF(Xiong 2023、Ye 2024、Zhao 2025a)从 KL 扩展到通用 \(f\);(2) 给一个不需要显式 confidence ball 的替代算法,因为 confidence ball 在每轮都要解优化问题、对实际 LLM 落地不友好;(3) 同时给两套算法的 regret/suboptimality 证明,统一在 \(f\) 上。
切入角度:作者注意到一个关键观察——\(h=(f')^{-1}\) 的导数 \(h'\) 本身就在告诉你"reward 估计误差会被放大多少"。即 \(\pi_\theta-\pi_{\theta'}\approx \pi_0\cdot h'(\eta(r_\theta-\lambda))\cdot\eta\cdot\Delta r\),所以 \(h'\) 大的地方 = \(\pi\) 对 reward 估计敏感 = 该多探索。这是一个把 "\(f\)-divergence 的几何性质" 直接翻译成 "exploration signal" 的新视角。
核心 idea:用 \(f'\) 的导数本身作不确定性度量,设计 \(\pi'_\theta(a|x)\propto \pi_0(a|x)\cdot h'(\eta(r_\theta-\lambda))\) 当采样策略,再配 \(\pi_\theta^\pm\) 两个互补分布在 \(h'\) 接近 0 时兜底,统一 \(f\) 拿 \(O(\log T)\)/\(O(1/T)\) 保证。
方法详解¶
整体框架¶
两个算法都基于 Bradley-Terry 偏好模型 + 通用目标 \(J_f(\pi)=\mathbb{E}[r^*(x,a)-\eta^{-1}D_f(\pi,\pi_0|x)]\)。每轮 \(t\):
- 采两个 action \(a_t^1,a_t^2\);
- 收到偏好 \(y_t\);
- 用 MLE 估计奖励 \(r_{\theta_t}\)(最大化 sigmoid likelihood);
- 根据 \(r_{\theta_t}\) 构造新策略 \(\pi_{t+1}\)。
两个算法的差别只在第 1 步(采样)和第 4 步(策略构造方式)。
关键设计¶
-
闭式最优策略 + 通用条件(Proposition 2.3):
- 功能:把通用 \(f\)-divergence 目标的最优解写成显式形式,是后续两个算法的基础。
- 核心思路:在 \(\pi_0(a|x)>0\) 且 \(f'\) 可逆且 \(0\notin\text{dom}(f')\) 的条件下,\(\pi_f^*(a|x)=\pi_0(a|x)\cdot f'^{-1}(\eta(r^*(x,a)-\lambda_f^*(x)))\),其中 \(\lambda_f^*(x)\) 是归一化拉格朗日乘子。reverse KL 时 \(f'^{-1}(z)=\exp(z-1)\) 回到熟悉的 softmax 形式。
- 设计动机:闭式解让我们能直接分析 \(\partial J_f/\partial r\)、把 regret 表达成 reward 误差的二次型;可逆条件排除了 Total Variation、chi-squared 等边界情况,但保留 reverse/forward KL、JS、chi-squared-KL 等主流选择。
-
Optimism 算法(Algorithm 1):
- 功能:用经典的 "optimism in face of uncertainty" 在通用 \(f\) 上拿 \(O(\log T)\) regret。
- 核心思路:每轮做 MLE 得 \(\theta_t\),构造乐观奖励 \(\hat r_t(\cdot,\cdot)=r_{\theta_t}+\mathbb{E}_{a\sim\pi_t}b_t\),其中 bonus \(b_t(x,a^1,a^2)=\min\{1,\beta_T U(\xi,x,a^1,a^2;\mathcal{R}_t,\mathcal{D}_t)\}\),\(U\) 是基于 Eluder dimension 的不确定性度量。然后用 \(\hat r_t\) 走 Proposition 2.3 拿新 \(\pi_{t+1}\)。
- 设计动机:直接套 optimism 框架,但 regret bound 多了一个 \(\mathcal{C}(f,\mathcal{R}_\Theta,\eta)=\max h'/h\) 项——这是 \(f\) 引入的代价,量化"\(h\) 越扁的 \(f\),regret 越紧"。这条 bound 是首次对通用 \(f\) 给出。
-
Derivative-as-uncertainty 算法(Algorithm 2):
- 功能:避开每轮显式解优化 confidence ball,用 \(h'\) 的几何直接驱动 exploration。
- 核心思路:定义采样分布 \(\pi'_\theta(a|x)\propto\pi_0(a|x)\cdot h'(\eta(r_\theta(x,a)-\lambda_\theta(x)))\)——\(h'\) 大的 action 被多采(因为对它的策略最敏感)。但 \(h'\) 在 reward 估计严重错时可能接近 0,导致探索停滞;为此再加 \(\pi_\theta^+\propto\pi'_\theta\exp(r_\theta)\) 和 \(\pi_\theta^-\propto\pi'_\theta\exp(-r_\theta)\) 两个互补分布,分别覆盖 reward 高估和低估的情形。每轮以 \(1-p(x)\) 用 \(\pi'_\theta\) 采 \((a^1,a^2)\)、以 \(p(x)\) 用 \((\pi^+,\pi^-)\) 各采一个,\(p(x)=\frac{Z^+Z^-}{1+Z^+Z^-}\) 自适应混合权。
- 设计动机:optimism 算法需要在每轮解 \(\sup_{R_1,R_2}\) 来算 \(U\),对 LLM 这种参数空间巨大的场景不现实;derivative 方法把"探索强度"内嵌到 \(h'\) 这一已知函数里,只需 MLE + 加权采样,工程友好。理论上能拿 \(O(1/T)\) suboptimality gap。
损失函数 / 训练策略¶
Algorithm 1 用标准 BT-MLE: \(\theta_t=\arg\max_\theta\sum_i\big(y_i\log\sigma(r_\theta(x,a_i^1)-r_\theta(x,a_i^2))+(1-y_i)\log\sigma(r_\theta(x,a_i^2)-r_\theta(x,a_i^1))\big)\)。
Algorithm 2 用加权 BT-MLE: \(\mathcal{L}(\theta)=-\frac{1}{t}\sum_i\omega(x_i)\log\sigma(r_\theta(x_i,a_i^\omega)-r_\theta(x_i,a_i^l))\),其中 \(\omega(x)=(\overline T_\theta(x)+Z^+Z^-\overline T_\theta(x))/\overline Z_\theta\) 是 importance weight,校正混合采样带来的偏差。\(\overline T_\theta(x)=\sum_a\pi_0(a|x)h'(\eta(r_\theta-\lambda_\theta))\)。
实验关键数据¶
本文是纯理论论文,主表是理论 bound:
主结果¶
| 算法 | 设置 | Regret / SubOpt | 适用 \(f\) | 备注 |
|---|---|---|---|---|
| Algorithm 1 (optimism) | online RLHF | \(O(\eta\,\mathcal{C}(f,\mathcal{R},\eta)\log(N_\mathcal{R}T/\delta)\,d(\mathcal{R},\xi,T))\) | 任意 \(f'\) 可逆且 \(0\notin\text{dom}(f')\) | \(d\) 是 Eluder dim,线性 reward 下 \(O(\log T)\) |
| Algorithm 2 (derivative) | online RLHF | \(\text{SubOpt}=O(1/T)\) | 同上 | 无需 confidence ball |
| Zhao 2025a (KL only) | online KL-RLHF | \(O(\log T)\) | 仅 reverse KL | 本文恢复其 bound |
| Zhao 2025b | offline general \(f\) | \(O(\varepsilon^{-1})\) | 通用 \(f\) | offline only |
关键 constants 比较¶
\(\mathcal{C}(f,\mathcal{R},\eta)=\max_{r,x,a}\frac{h'(\eta(r-\lambda))}{h(\eta(r-\lambda))}\):
| \(f\) | \(h(z)=(f')^{-1}(z)\) | \(\mathcal{C}\) 主导项 | 说明 |
|---|---|---|---|
| reverse KL | \(\exp(z-1)\) | \(\mathcal{C}=1\) | 最简洁,吻合 Zhao 2025a |
| forward KL | \(-1/z\)(限定区间) | 与 \(r\) 范围相关 | OOD 鲁棒 |
| JS | \(\log(2x/(1+x))^{-1}\) | 中等 | 缓和 KL |
| chi-squared-KL | \(z+2(x-1)\) | 与 \(\eta\) 相关 | 缓解 reward over-opt |
关键发现¶
- 通用 \(f\) 不增加 regret 数量级:所有满足条件的 \(f\) 都能拿 \(O(\log T)\),差别只在常数 \(\mathcal{C}(f)\),说明社区可以放心地按经验需要换 \(f\) 而不担心理论 regret 爆掉。
- derivative-as-uncertainty 是新视角:以前 RLHF 理论都把 reward 估计误差和策略不确定性分开处理,本文证明 \(h'\) 一项就能桥接两者;这个观察对未来 RLHF 算法设计(甚至 DPO、IPO)都可能有启发。
- 三个采样分布的设计很精巧:\(\pi'\) 走 derivative 信号、\(\pi^\pm\) 走 reward 极值,互补覆盖"高敏感但 reward 已知"和"低敏感但 reward 未知"两种区域,证明里恰好让 MLE 加权后的 estimation error 闭合到 \(O(1/T)\)。
亮点与洞察¶
- "\(f'\) 作为不确定性信号" 这个直觉是这篇文章最值得记住的洞察——它把"divergence 的曲率"和"该不该多探索"直接挂钩,把几何性质翻译成算法,简洁得令人惊讶。
- Algorithm 2 的工程价值不容忽视:optimism 类算法在大模型上几乎不可行(每轮 sup over reward class 太贵),而 derivative 方法只需要算 \(h'\) 这一已知函数 + 加权采样,未来很可能被改造成实用 RLHF 训练 trick。
- 统一框架的清晰度:作者通过 Proposition 2.3 + Lemma C.6(regret 写成二次 reward error)+ Eluder dim 三件套,把"通用 \(f\)"的复杂性压到一个常数 \(\mathcal{C}(f,\mathcal{R},\eta)\),证明结构很干净。
局限与展望¶
- 假设 \(f'\) 可逆且 \(0\notin\text{dom}(f')\),排除了 Total Variation 和纯 chi-squared——这两个恰好是 over-optimization 论文里最爱用的;作者把它们留到 Appendix B 讨论但没给完整 bound。
- 只在 contextual bandit 框架做,多轮 RL/CoT setting 未涉及——而现代 RLHF(如 o1、DeepSeek-R1)越来越多 multi-turn / process reward,理论需要扩展。
- 没有任何实证实验验证 derivative 算法在真实 LLM 上是否真的比 optimism 高效;纯理论结果对 practitioners 的吸引力会打折。
- \(\mathcal{C}(f,\mathcal{R},\eta)\) 这个常数对不同 \(f\) 没给具体数值比较,无法直接告诉用户 "对你的任务选哪个 \(f\) 最划算"。
相关工作与启发¶
- vs Zhao 2025a (KL-only online RLHF):本文是其严格推广,KL 是 \(\mathcal{C}=1\) 的特殊情形,bound 形式完全恢复。
- vs Zhao 2025b (offline general \(f\)):互补——他们做 offline,本文做 online,合起来是 \(f\)-RLHF 的理论闭环。
- vs Huang 2025 (chi-squared regularization):Huang 用经验证明 chi-squared 缓解 over-optimization;本文给出第一份理论保证,告诉社区可以放心用。
- vs Wang 2023 / Sun 2024 (\(f\)-DPO 经验论文):他们改了 DPO 的 divergence 但没理论,本文虽然是 RLHF 不是 DPO,但分析框架可以借鉴到 DPO(DPO 的最优策略也满足 Proposition 2.3 的形式)。
评分¶
- 新颖性: ⭐⭐⭐⭐ derivative-as-uncertainty 是真正的新视角,optimism 部分是 KL 扩展
- 实验充分度: ⭐⭐ 零实验,纯理论;不算缺点但限制 immediate impact
- 写作质量: ⭐⭐⭐⭐ 定理证明结构清晰、proof sketch 给得很详细
- 价值: ⭐⭐⭐⭐ 为 \(f\)-RLHF 提供了 first online theoretical guarantee,且 Algorithm 2 有工程化潜力