跳转至

Causally Robust Reward Learning from Reason-Augmented Preference Feedback

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=wviOOX5JVn
代码: https://github.com/mj-hwang/ReCouPLe
领域: reinforcement_learning
关键词: 偏好学习, 奖励建模, 因果混淆, 自然语言理由, 正交投影, 任务迁移

一句话总结

ReCouPLe 用一句自然语言理由(如"因为它避免了碰撞")当作嵌入空间里的投影轴,把轨迹表征拆成"理由对齐"和"理由正交"两部分、只让偏好由对齐分量解释,从而剥离与偏好虚假相关的干扰特征,在分布偏移和跨任务零样本迁移上显著超过纯二元偏好基线。

研究背景与动机

  • 领域现状:基于偏好的强化学习(PbRL)让人对两条轨迹做二选一比较来代替手工奖励,已是 RLHF / 机器人奖励塑形的主流范式(Christiano 2017、Sadigh 2017、Bıyık 2019)。
  • 现有痛点:一次二元比较只携带至多 1 bit 信息,奖励模型可以用观测空间里任何与偏好"恰好共现"的特征来解释标签。当训练集里干扰特征(如颜色)和真正的因果特征(如尺寸)完美相关时,模型会抄近路抓住颜色,测试时颜色一换就崩——经典的"因果 Goodhart"与奖励误判。
  • 核心矛盾:二元偏好"易给但欠表达",自由语言"富表达但欠约束";前者信息太稀疏导致因果不可辨识,后者本身模糊需要额外模态来锚定。
  • 本文目标:在不微调语言模型、不额外采集偏好的前提下,注入恰好缺失的那一点因果信号,让奖励模型抗分布偏移并能零样本迁移到语义相关的新任务。
  • 核心 idea【理由即因果方向】 一句简短理由恰好点明了"用户因为哪个特征而偏好",把该理由的语言嵌入当作投影轴,强迫偏好只能由沿这条轴的分量来解释,干扰特征被挤进正交残差里且不许参与偏好判断。

方法详解

整体框架

ReCouPLe 把单任务 PbRL 推广到多任务设定:奖励被建模为轨迹表征 \(\phi(\tau)\) 与冻结任务嵌入 \(\theta=\mathrm{LM}(\ell_{task})\) 的内积 \(r(\tau,\ell_{task})=\phi(\tau)^\top\theta\),唯一可训练的是轨迹编码器 \(\phi\)。给定理由嵌入 \(\psi=\mathrm{LM}(\ell_{reason})\),框架把 \(\phi(\tau)\) 沿 \(\psi\) 正交分解为理由对齐与理由正交两块,再用三项损失逼着"偏好只由对齐分量解释、正交分量保持中立但仍承载任务信息"。

flowchart LR
    A["轨迹对 τA, τB"] --> B["轨迹编码器 φ (可训练)"]
    R["理由 ℓreason"] --> LM1["冻结LM → ψ"]
    T["任务描述 ℓtask"] --> LM2["冻结LM → θ"]
    B --> C["沿 ψ 正交投影"]
    LM1 --> C
    C --> D["φ∥ 理由对齐"]
    C --> E["φ⊥ 理由正交"]
    D --> F["r∥ = φ∥ᵀθ 因果分量"]
    E --> G["r⊥ = φ⊥ᵀθ 残差分量"]
    F --> L1["Reason loss: 偏好只由 r∥ 解释"]
    G --> L2["一致性约束: r⊥ 不解释偏好"]
    F --> L3["比例正则: 防止塌缩到因果子空间"]
    G --> L3

关键设计

1. 沿理由轴的正交分解:把因果信号从轨迹表征里"切"出来。 这是整套方法的几何核心。冻结语言编码器把理由映射成向量 \(\psi\),再把轨迹嵌入投影到 \(\psi\) 上得到平行分量 \(\phi_\parallel(\tau)=\frac{\phi(\tau)^\top\psi}{\|\psi\|_2^2}\psi\),剩下的就是正交分量 \(\phi_\perp(\tau)=\phi(\tau)-\phi_\parallel(\tau)\),二者满足 \(\phi_\parallel^\top\phi_\perp=0\)。对应地奖励也分成 \(r_\parallel=\phi_\parallel^\top\theta\)(理由显式背书的因果部分)和 \(r_\perp=\phi_\perp^\top\theta\)(理由没顾及但任务相关的残差,如塑形奖励、领域先验)。由于"避免碰撞""更快完成"这类理由会跨任务复现,同一条 \(\psi\) 方向被反复复用,这正是后面跨任务迁移的根基。

2. Reason loss:让偏好"只许"用因果分量来解释。 在 Bradley-Terry 模型里,只拿 \(r_\parallel\) 算偏好概率并最小化 BCE:\(L_{reason}=-\mathbb{E}[y\log P_{r_\parallel}(\tau_A\succ\tau_B)+(1-y)\log(1-P_{r_\parallel}(\tau_A\succ\tau_B))]\)。这一项把"解释偏好的权力"完全收归到理由对齐方向,等价于显式告诉模型"用户就是因为这个特征而选 A",从源头堵死它去抓颜色这类共现干扰。

3. 正交一致性约束:把残差分量摁成"对偏好中立",并给出 EC/IC 两种力度。 光让 \(r_\parallel\) 负责还不够,得防止 \(r_\perp\) 偷偷夹带偏好信号。强约束版 ReCouPLe-EC 直接要求每个比较对的残差相等 \(L_{eq}=(r_\perp(\tau_A)-r_\perp(\tau_B))^2\),适合"少量反复出现的理由主导偏好、残差变化很小"的场景。弱约束版 ReCouPLe-IC 只要求对齐分量的差异盖过残差差异——用 \(S(A\succ B)=\frac{\exp(\mathrm{diff}_{r_\parallel})}{\exp(\mathrm{diff}_{r_\parallel})+\exp(\mathrm{diff}_{r_\perp})}\) 做软竞争并配一个总奖励的 BCE 正则防模式塌缩,适合"多种理由都能解释比较、残差变化不可忽略"的嘈杂场景。这种"一硬一软"让方法能按数据特性自适应。

4. 奖励比例正则:堵住"全塌进因果子空间"的捷径。 如果不加约束,模型可能把所有奖励都塞进 \(r_\parallel\) 让正交约束形同虚设。比例正则 \(L_{ratio}=\mathrm{ReLU}\!\left(\frac{|r_\parallel|}{|r_\parallel|+|r_\perp|+\epsilon}-\alpha\right)\) 把因果分量占总幅值的比例压在阈值 \(\alpha\) 以下,保证残差分量始终承载真实的任务信息而非被挤空。最终目标是 \(L_{ReCouPLe}=L_{reason}+\lambda_{ratio}L_{ratio}+\lambda_{eq}L_{eq}\)(EC)或 \(+\lambda_{ineq}L_{ineq}\)(IC)。

实验关键数据

主实验表格

ManiSkill 因果混淆套件(RQ1,奖励准确率,3 seed 平均,OOD=颜色互换):

方法 2-task ID Pick/Place 2-task OOD Pick/Place 4-task OOD Pick/Push/Place/Pull
BT(单任务) 0.980/1.000 0.540/0.830 0.540/0.987/0.830/0.867
BT-Multi 0.953/1.000 0.600/0.820 0.707/1.000/0.840/0.907
RFP(理由辅助损失) 0.940/1.000 0.620/0.800 0.700/0.980/0.807/0.913
ReCouPLe-EC 0.993/1.000 0.820/0.940 0.773/1.000/0.880/0.860
ReCouPLe-IC 0.967/1.000 0.633/0.807 0.600/1.000/0.807/0.867

Meta-World 跨任务迁移(RQ2,奖励准确率,3 seed):

方法 Push Push-Wall Pick-Place-Wall 新任务 Pick-Place
BT-Multi 0.873 0.893 0.577 0.547
RFP 0.870 0.900 0.647 0.553
ReCouPLe-EC 0.863 0.843 0.650 0.663
ReCouPLe-IC 0.893 0.823 0.657 0.627

消融实验表格

ManiSkill 平均奖励准确率(3 seed):

变体 2-task ID 2-task OOD 4-task ID 4-task OOD
ReCouPLe(完整) 0.995 0.872 1.000 0.878
− 一致性约束 0.980 0.726 0.977 0.745
− 一致性 − 比例正则 0.987 0.727 0.990 0.730

关键发现

  • OOD 才见真章:所有方法在 ID 上几乎饱和,但颜色互换后纯偏好基线大跌;ReCouPLe-EC 在 OOD 上奖励准确率最高可达基线的约 1.5×,下游策略成功率在新任务上约 2×。
  • EC 强约束适合"单一因果特征主导"的 ManiSkill(残差几乎不变);IC 弱约束适合"理由多样、轨迹带不同最优度噪声"的 Meta-World——EC 的严格等式会误罚合理的无关差异。
  • 消融证明两根支柱缺一不可:去掉一致性约束 OOD 从 0.872 掉到 0.726,再去掉比例正则继续恶化;ID 几乎不受影响,说明它们专治分布偏移。
  • 图像输入更脆弱:在原始视觉输入下基线 OOD 准确率惨跌,ReCouPLe 4-task 仍达 ≥0.96,验证对视觉干扰特征的鲁棒性。
  • 迁移有可组合性:作者观察到 Pick-Place-Wall − (Push-Wall − Push) ≃ Pick-Place,理由对齐子空间像可加减的语义向量,支撑零样本迁移。

亮点与洞察

  • 用"一句话理由"补足偏好的 1-bit 信息瓶颈,且把理由当几何投影轴而非额外条件输入,思路干净、可解释。
  • 冻结 LM + 仅训练轨迹编码器,无需微调语言模型、无需预定义特征向量(这是相对 PFP/Holk 的关键解放),共享语言编码器天然保证跨任务语义一致。
  • EC/IC 双变体把"理由是否单一主导"这件事变成可选的约束力度,工程上很实用。

局限与展望

  • 依赖理由的质量与可得性:实验里 Meta-World 的理由是用真值奖励的成分优势 softmax 合成的、ManiSkill 是固定模板("因为更大"),真实人类自由理由的噪声/模糊性未充分检验。
  • 线性内积奖励形式虽借非线性编码器表达复杂结构,但单方向投影对"多个因果特征同时起作用"的偏好可能不够(一条 \(\psi\) 只表征一个方向)。
  • 规模与领域:仅在 ManiSkill/Meta-World 机器人操作上验证,是否迁移到 LLM-RLHF、长程任务、真人偏好仍待探索。
  • 比例阈值 \(\alpha\)、各 \(\lambda\) 需调,EC 在嘈杂数据上会过度惩罚——选 EC 还是 IC 需先判断数据特性。

相关工作与启发

  • PbRL 与因果混淆:Tien 2023 指出奖励模型爱抓虚假特征,本文是直接的对症下药;与主动查询(信息增益 Bıyık 2019、体积移除 Sadigh 2017)这类"挑更有信息的问题"思路互补——它换的是"反馈类型"而非"查询策略"。
  • 特征级偏好(PFP, Peng 2024 / Holk 2024):都想注入因果结构但依赖预定义特征向量;本文用自由文本嵌入取代之,去掉特征工程瓶颈并换来跨任务迁移。
  • 语言辅助机器人学习(Yang 2024 比较式语言、Cui 2023 实时纠错):多把语言当条件输入,本文把语言当"解释偏好的因果轴",定位更细。
  • 启发:把"解释"显式建模成表征空间里的可投影方向、并用正交分解强制因果归因,这套机制有望迁移到 LLM 偏好对齐——把人类批注的"为什么更好"变成可约束的奖励几何,而不只是更多的成对标签。

评分

  • 新颖性: ⭐⭐⭐⭐ 把自然语言理由形式化为投影轴 + 正交分解奖励,是对 PbRL 因果混淆的一个干净且少有人走的角度。
  • 实验充分度: ⭐⭐⭐⭐ ManiSkill/Meta-World 双套件覆盖 OOD 鲁棒与跨任务迁移、含状态与图像输入、消融到位;但理由为合成、未上真人偏好与更大规模。
  • 写作质量: ⭐⭐⭐⭐ 动机(红蓝箱例子)、几何图示与损失推导清晰,EC/IC 适用边界讲得明白。
  • 价值: ⭐⭐⭐⭐ 轻量、不微调 LM、可解释,对 RLHF/机器人奖励建模有直接借鉴意义。