跳转至

From Reward-Free Representations to Preferences: Rethinking Offline Preference-Based Reinforcement Learning

会议: ICML 2026
arXiv: 2606.01123
代码: https://github.com/rl-bandits-lab/FB-PbRL (有)
领域: 强化学习 / 偏好学习
关键词: PbRL、Forward-Backward表示、对比学习、零样本RL、Successor Measure

一句话总结

本文把离线偏好强化学习 (PbRL) 改写在 Forward-Backward (FB) 表示空间里,证明在 FB 框架下标准的 Bradley-Terry 偏好损失等价于 SimCLR 对比损失,从而提出 FB-PbRL:先在无奖励离线数据上预训练 FB 表示,再在偏好数据上用对比目标搜索任务向量 \(\boldsymbol{z}^\star\) 并微调表示,整个流程不再训练任何显式奖励或偏好模型。

研究背景与动机

领域现状:离线 PbRL 的标准做法是两阶段:先用 BT 模型从成对偏好数据 \((\sigma^{(1)},\sigma^{(2)},y)\) 学一个 reward model \(r_{\boldsymbol{\psi}}\)(最小化 \(\mathcal{L}(\boldsymbol{\psi})=-\mathbb{E}[\mathbb{I}(y=1)\log P_{\boldsymbol{\psi}}(\sigma^{(1)}\succ\sigma^{(2)})+\ldots]\)),再用现成的离线 RL 算法在 \(r_{\boldsymbol{\psi}}\) 标注的全数据集上学策略;或者跳过奖励直接学 preference model。

现有痛点:人类偏好极昂贵——典型预算只有几千对,导致两条路都不好走。学奖励容易 reward over-optimization 和泛化差(Fig.2 显示 BT 学出来的奖励都缩到中段、与真值分布不符),直接学 preference model 又欠拟合精度低。在低质量 ExORL 数据集上这两类方法基本学不到东西。

核心矛盾:PbRL 在监督稀缺时无论"先学奖励"还是"直接学偏好"都过拟合;而 reward-free representation learning (RFRL) 系列(FB / Laplacian / HILP / PSM)能在无奖励数据上学非常通用的表示,零样本对任何 reward function 给出近似最优策略——但 RFRL 需要 test-time 给出真奖励 \(r(s,a)\) 来组装任务向量 \(\boldsymbol{z}_r=\mathbb{E}[\mathbf{B}_\omega(s,a)r(s,a)]\),而 PbRL 场景下没有奖励,只有偏好。

本文目标:在没有奖励监督的情况下,如何把 RFRL 的表示用起来做 PbRL?分解为两个子问题——(a) 怎么从偏好数据直接推出任务向量 \(\boldsymbol{z}\)?(b) 预训练得到的表示不知道下游任务,怎么把它适配到具体偏好任务上?

切入角度:作者发现在 FB 框架下若假设奖励对 backward 表示线性可表示 \(r_{\boldsymbol{\psi}}(s,a)=\mathbf{B}_{\bar\omega}(s,a)^\top\boldsymbol{\psi}\)、且 backward 表示正交归一 \(\mathbf{H}_\mathbf{B}\approx\mathbf{I}_d\)(FB 预训练本来就强加),那么 BT 偏好损失可以解析地重写成对 \(\boldsymbol{z}\) 的 SimCLR 形式,相当于把"学奖励"换成"在 FB 潜空间里做对比检索"。

核心 idea:不学奖励、不学偏好模型,而是在冻结的 FB backward 表示上把偏好优化转成对比学习——再加一步 fine-tuning 让预训练的 FB 几何"贴合"具体偏好任务,从而摆脱 reward over-optimization。

方法详解

整体框架

FB-PbRL 由两阶段组成,输入是无奖励离线数据 \(\mathcal{D}\) 和成对偏好数据 \(\mathcal{D}_{\text{pref}}\)

  1. RFRL 预训练:用 FB 框架(Touati & Ollivier 2021/2023)把 successor measure 分解成 \(\mathcal{M}^{\pi_r^*}(s,a,\{(s',a')\})=\mathbf{F}_\theta(s,a,\boldsymbol{z}_r)^\top\mathbf{B}_\omega(s',a')\),只在 \(\mathcal{D}\) 上用 measure loss + orthonormality loss 学 \(\mathbf{F},\mathbf{B}\) 以及条件策略 \(\pi(\cdot\mid s,\boldsymbol{z})\)(这一步完全无监督)。
  2. Preference-guided search + fine-tune:交替做两件事——(i) 用对比偏好损失搜索锚向量 \(\boldsymbol{z}^\star\) (CPTS),(ii) 把 \(\boldsymbol{z}^\star\) 作为锚反向微调 \(\mathbf{F},\mathbf{B}\) 让潜空间几何更贴合偏好结构 (PG-FT)。最终用 \(\pi(\cdot\mid s,\boldsymbol{z}^\star)\) 评估。

整个流程从不显式构造奖励,\(\boldsymbol{z}^\star\) 是低维向量(典型 \(d\sim\) 几百),优化代价远小于训练高容量奖励/偏好模型。

关键设计

  1. CPTS:把 BT 偏好损失改写成 FB 潜空间里的 SimCLR:

    • 功能:在冻结的 FB 表示上,仅用偏好数据直接搜出任务向量 \(\boldsymbol{z}_{\text{CPTS}}^\star\),不学奖励也不学偏好模型。
    • 核心思路:将段落 \(\sigma\) 的潜表示定义为 \(\mathbf{B}_{\bar\omega}(\sigma):=\tfrac{1}{k}\sum_i \mathbf{B}_{\bar\omega}(s_i,a_i)\),记 \(\boldsymbol{z}_\sigma^+:=\mathbf{B}_{\bar\omega}(\sigma^+)\)\(\boldsymbol{z}_\sigma^-:=\mathbf{B}_{\bar\omega}(\sigma^-)\)。在线性可实现奖励 \(r_{\boldsymbol{\psi}}(s,a)=\mathbf{B}_{\bar\omega}(s,a)^\top\boldsymbol{\psi}\) 和正交归一性 \(\mathbf{H}_\mathbf{B}=\mathbf{I}_d\) 下,\(\boldsymbol{\psi}=\mathbf{H}_\mathbf{B}^{-1}\boldsymbol{z}_{\boldsymbol{\psi}}\),把 BT 损失代入可得 \(\mathcal{L}_{\text{pref}}(\boldsymbol{z};\bar\omega)=-\mathbb{E}[\log\frac{\exp(\boldsymbol{z}^\top\boldsymbol{z}_\sigma^+)}{\exp(\boldsymbol{z}^\top\boldsymbol{z}_\sigma^+)+\exp(\boldsymbol{z}^\top\boldsymbol{z}_\sigma^-)}]\),即 SimCLR 对比损失。CPTS 直接 \(\boldsymbol{z}_{\text{CPTS}}^\star=\arg\min_{\boldsymbol{z}}\mathcal{L}_{\text{pref}}(\boldsymbol{z};\bar\omega)\),配 cosine 相似度退化为内积(FB 默认 \(\boldsymbol{z}\) 单位归一)。
    • 设计动机:直接学奖励的 over-optimization(Fig.2 显示 BT 学出的奖励都塌到中间值)是 PbRL 在稀缺反馈下的主要病根;把目标搬到 FB 潜空间后,搜索的是一个低维凸目标的 minimizer,避开了高容量奖励网络的过拟合,同时由于优化变量是低维向量,理论上还能给出"近最优控制取决于偏好数据覆盖度和估计误差"的形式化保证。
  2. PG-FT:以当前 \(\boldsymbol{z}^\star\) 为锚反向微调 FB 潜空间:

    • 功能:克服"预训练时 \(\boldsymbol{z}\sim\mathcal{N}(0,I_d)\) 是任务无关先验,CPTS 搜出的 \(\boldsymbol{z}_{\text{CPTS}}^\star\) 往往离偏好数据诱导的 \(\boldsymbol{z}_\sigma\) 簇很远"(Fig.3(a) 的视觉证据)。
    • 核心思路:不再把 FB 表示当冻结量,交替更新——一步用 \(\nabla_{\boldsymbol{z}}\mathcal{L}_{\text{pref}}(\boldsymbol{z};\omega)\) 更新 \(\boldsymbol{z}^\star\);一步以 \(\boldsymbol{z}^\star\) 为锚,用 \(\mathcal{L}_m(\theta,\omega;\boldsymbol{z}^\star)+\lambda\mathcal{L}_{\text{ortho}}(\omega)+\alpha\mathcal{L}_{\text{pref}}(\omega;\boldsymbol{z}^\star)\) 微调 \(\mathbf{F}_\theta,\mathbf{B}_\omega\),让表示"专门化"到当前偏好任务诱导的方向。
    • 设计动机:通用 RFRL 表示是"什么任务都能凑合用",但对单一具体偏好任务的方向往往不够锐利;PG-FT 用偏好信号当任务指令书把潜空间几何重塑成 reward-aligned(Fig.3(b) 显示 \(\boldsymbol{z}_\sigma\) 按真实回报渐变着色),同时让 \(\boldsymbol{z}^\star\) 落在 in-distribution 区域,policy \(\pi(\cdot\mid s,\boldsymbol{z}^\star)\) 能更准确地解码任务。
  3. 三类损失协同的交替训练目标:

    • 功能:把 FB 标准的表示学习目标和对比偏好目标合在一个交替优化里,既保住 FB 几何约束又加入偏好对齐。
    • 核心思路:measure loss \(\mathcal{L}_m(\theta,\omega;\boldsymbol{z})=\mathbb{E}[(\mathbf{F}_\theta(s,a,\boldsymbol{z})^\top\mathbf{B}_\omega(s^\dagger,a^\dagger)-\gamma\mathbf{F}_{\hat\theta}(s',\pi(s'),\boldsymbol{z})^\top\mathbf{B}_{\hat\omega}(s^\dagger,a^\dagger))^2]-2\mathbb{E}[\mathbf{F}_\theta(s,a,\boldsymbol{z})^\top\mathbf{B}_\omega(s',a')]\) 是 successor measure 的 Bellman 残差;orthonormality \(\mathcal{L}_{\text{ortho}}(\omega)=\|\mathbb{E}[\mathbf{B}_\omega(s,a)\mathbf{B}_\omega(s,a)^\top]-\mathbf{I}_d\|_F^2\) 保证 \(\mathbf{H}_\mathbf{B}\approx\mathbf{I}_d\)(是 SimCLR 等价性的前提);偏好损失 \(\mathcal{L}_{\text{pref}}\) 既驱动 \(\boldsymbol{z}^\star\) 搜索也驱动 \(\mathbf{B}_\omega\) 微调。算法循环:采 transitions 更新 measure + ortho,采 preferences 更新 \(\mathbf{B}_\omega\)\(\boldsymbol{z}^\star\),最后用 \(\mathbf{F},\mathbf{B},\boldsymbol{z}^\star\) 同步更新 policy。
    • 设计动机:在不引入新模块的前提下,让"表示是否还满足 FB 的几何约束"和"表示是否对齐偏好"两类信号互相约束,避免 fine-tuning 把通用表示冲坏。

损失函数 / 训练策略

  • 总损失:\(\mathcal{L}_m(\theta,\omega;\boldsymbol{z}^\star)+\lambda\mathcal{L}_{\text{ortho}}(\omega)+\alpha\mathcal{L}_{\text{pref}}(\boldsymbol{z}^\star,\omega)\),默认 \(\alpha=100\)
  • 协议:标准 PbRL Protocol 用 2000 对偏好;Zero-Shot RL Protocol 用 400 段轨迹(10k transitions)抽出的偏好,便于和 RFRL 基线公平对比。

实验关键数据

主实验

DMC 16 个任务(Cheetah/Walker/Quadruped/Pointmass,每域 4 任务),数据集用 ExORL 的 RND unsupervised 数据(低质量、无奖励监督)。Ours-T = CPTS only,Ours-FT = 完整 FB-PbRL。

vs offline PbRL baselines(PbRL Protocol,按域平均回报)

DPPO OPPO OPRL CLARIFY LIRE Ours-T Ours-FT
Cheetah 202.3 200.9 276.4 271.5 313.4 344.7 621.7
Walker 242.3 247.5 253.8 248.9 232.5 533.4 762.9
Quadruped 309.1 569.3 631.1 602.9 378.7 663.4 846.9
Pointmass 16.3 24.1 337.5 317.8 102.3 69.1 570.8

Ours-FT 在 16 个任务里几乎全是最佳,连仅做 test-time 搜索的 Ours-T 都已超越所有 PbRL baseline,说明低质量数据上 BT-based 方法整体失效,而 FB 表示天然抗 distribution shift。

vs Zero-Shot RFRL baselines(Zero-Shot Protocol,按域平均回报;Ours 仅用偏好)

Laplace FB HILP PSM RLDP Ours-FT
Cheetah 316.5 385.6 193.5 626.0 609.6 645.4
Walker 136.7 719.9 348.1 689.1 621.6 699.4
Quadruped 601.2 561.7 289.8 618.7 612.8 826.3

只用偏好数据的 Ours-FT 仍能赢过用真奖励的 RFRL 基线(Quadruped 平均超 200+),Walker 与最强基线持平。

消融实验

配置 Cheetah Walker Quadruped 说明
FB-BT-FT (集成 BT 奖励 + FB 微调) 536.6 600.6 714.1 把对比换成"学奖励再 fine-tune",全面落后
Ours-FT (对比 fine-tune) 621.7 794.5 846.9 完整方法

另外 Fig.5:(a) 偏好从 2000 降到 200 对仅掉约 10%,跨预算稳定优于最强 RFRL/PbRL baseline;(b) 噪声 \(\delta=0.2\) 翻转下仍优于所有基线;(c) 偏好系数 \(\alpha\) 在很宽范围内稳定,默认 \(\alpha=100\) 最优。Table 3 真实人类标注的 Adroit Pen-cloned + MetaWorld Button-Press 上 Ours-FT 拿到 89.0 / 71.2,均超过 LiRE 和 DPPO。

关键发现

  • 对比 fine-tune > 奖励 fine-tune:FB-BT-FT 比 Ours-FT 全面差 80+ 分,证实"把偏好直接当对比信号"比"先学 BT 奖励再微调"更有效,对比损失没有 reward over-optimization 的塌陷模式。
  • CPTS only 已经很强:不做 fine-tune 的 Ours-T 在 DMC 上就已经压过所有 PbRL baseline,说明 RFRL 预训练给出的表示天然就比传统两阶段 PbRL 更适合稀缺监督。
  • 样本效率:200 对偏好对就达到几乎跟 2000 对相当的性能,对昂贵的人类标注极友好;wall-clock 上 1 小时 fine-tune 即超过最强 baseline,per-step 略贵但收敛更快。
  • Pointmass-Bottom-Right 是失败案例:RND 数据集覆盖严重不均加上 10k transitions 提供的偏好信号稀疏,FB-PbRL 在这一目标上方差大、表现差。

亮点与洞察

  • "偏好损失 = 对比损失"是个漂亮的解析等价:BT 偏好损失原本被视为序列层级的概率模型,本文揭示在线性奖励 + 正交 backward 这两个 FB 本来就有的约束下它就是 SimCLR 形式——这种"已有模型 + 已有损失"的代数等价让看似不相关的两条线(PbRL 与 RFRL)瞬间打通,是值得迁移到其它 representation learning 场景的思路(例如把 RLHF 的偏好损失也写成对比形式)。
  • "搜索 + 微调"双阶段:CPTS 用低维凸搜索做粗对齐,PG-FT 用高维表示微调做精对齐,分摊了"通用 RFRL 表示不一定贴合具体任务"的风险;这种"先在低维空间搜锚、再用锚反向调表示"的范式可以套到多任务 transfer learning 上。
  • 绕开 reward over-optimization 的工程意义大:RLHF 实践里 reward hacking 是反复出现的噩梦,本文给出一条"根本不需要训练 reward model"的可行路径,对 LLM 对齐也有借鉴价值——下一步自然是 FB-PbRL 应用到语言模型偏好对齐。

局限与展望

  • 等价性依赖 FB 框架特有的两个结构假设(线性奖励 + \(\mathbf{H}_\mathbf{B}=\mathbf{I}_d\)),换其它 RFRL 架构(HILP、PSM)就不一定推得出来,迁移性受限。
  • 预训练阶段成本不便宜:虽然 fine-tune 1 小时就超过 baseline,但 FB 预训练本身需要大量无奖励数据 + 大量算力,作者只在附录摊销,工业落地需要考虑场景是否值得。
  • Pointmass-Bottom-Right 暴露了"覆盖不足 + 偏好稀疏"复合场景的脆弱性,方向上可以结合 active query selection(OPRL/CLARIFY)补强稀疏区域的偏好采样。
  • 真实人类偏好数据上 Pen-human 仍微弱落后 DPPO,说明在偏好质量参差时 FB 预训练用的 offline 数据需要再丰富。

相关工作与启发

  • vs DPPO / OPPO (no reward model PbRL): 他们用 contrastive learning 但直接对 trajectory embedding 操作,没有预训练的 RFRL 表示作支撑;FB-PbRL 把对比目标放在 successor-measure decomposition 的潜空间上,理论与实证都更强(DPPO 在 DMC RND 上几乎学不到东西,FB-PbRL 拉开 3-5×)。
  • vs OPRL / CLARIFY (active PbRL): 靠 active query 提升标签效率,本文靠"在更好的表示上做对比"达到同样目标——且 200 对偏好就达 2000 对水平的样本效率比 active 类还强。
  • vs FB / Laplace / HILP / PSM (RFRL): 他们 test-time 必须给真奖励,本文用偏好取代奖励,并通过 PG-FT 把通用表示再对齐到具体任务,性能反超有真奖励的基线。
  • vs RLHF / IPL: 思路上殊途同归(都想绕开显式 reward model),但 IPL 走"Q-implicit reward",本文走"在表示空间搜索任务向量",方向更接近 representation learning 的主流。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "BT loss = SimCLR loss on FB latent"是个未被人发现的解析桥梁,把 RFRL 和 PbRL 这两条独立路线焊在一起,思想性强。
  • 实验充分度: ⭐⭐⭐⭐⭐ 16 任务 × 三大协议(PbRL/Zero-Shot/Human)+ 多类基线 + 限反馈/噪声/系数三类鲁棒性 + wall-clock 效率 + 消融,覆盖到位。
  • 写作质量: ⭐⭐⭐⭐⭐ 从动机推导(Fig.2 reward collapse)→ 解析等价 → CPTS → PG-FT → 完整算法逐层推进,逻辑流畅。
  • 价值: ⭐⭐⭐⭐⭐ 对 PbRL/RLHF 都给了"不学奖励模型也能做"的实证证据,配合代码开源,潜在影响超出小型 RL benchmark。