Causally Robust Reward Learning from Reason-Augmented Preference Feedback¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=wviOOX5JVn
代码: https://github.com/mj-hwang/ReCouPLe
领域: reinforcement_learning
关键词: 偏好学习, 奖励建模, 因果混淆, 自然语言理由, 正交投影, 任务迁移

一句话总结¶

ReCouPLe 用一句自然语言理由（如"因为它避免了碰撞"）当作嵌入空间里的投影轴，把轨迹表征拆成"理由对齐"和"理由正交"两部分、只让偏好由对齐分量解释，从而剥离与偏好虚假相关的干扰特征，在分布偏移和跨任务零样本迁移上显著超过纯二元偏好基线。

研究背景与动机¶

领域现状：基于偏好的强化学习（PbRL）让人对两条轨迹做二选一比较来代替手工奖励，已是 RLHF / 机器人奖励塑形的主流范式（Christiano 2017、Sadigh 2017、Bıyık 2019）。
现有痛点：一次二元比较只携带至多 1 bit 信息，奖励模型可以用观测空间里任何与偏好"恰好共现"的特征来解释标签。当训练集里干扰特征（如颜色）和真正的因果特征（如尺寸）完美相关时，模型会抄近路抓住颜色，测试时颜色一换就崩——经典的"因果 Goodhart"与奖励误判。
核心矛盾：二元偏好"易给但欠表达"，自由语言"富表达但欠约束"；前者信息太稀疏导致因果不可辨识，后者本身模糊需要额外模态来锚定。
本文目标：在不微调语言模型、不额外采集偏好的前提下，注入恰好缺失的那一点因果信号，让奖励模型抗分布偏移并能零样本迁移到语义相关的新任务。
核心 idea：【理由即因果方向】 一句简短理由恰好点明了"用户因为哪个特征而偏好"，把该理由的语言嵌入当作投影轴，强迫偏好只能由沿这条轴的分量来解释，干扰特征被挤进正交残差里且不许参与偏好判断。

方法详解¶

整体框架¶

ReCouPLe 把单任务 PbRL 推广到多任务设定：奖励被建模为轨迹表征 \(\phi(\tau)\) 与冻结任务嵌入 \(\theta=\mathrm{LM}(\ell_{task})\) 的内积 \(r(\tau,\ell_{task})=\phi(\tau)^\top\theta\)，唯一可训练的是轨迹编码器 \(\phi\)。给定理由嵌入 \(\psi=\mathrm{LM}(\ell_{reason})\)，框架把 \(\phi(\tau)\) 沿 \(\psi\) 正交分解为理由对齐与理由正交两块，再用三项损失逼着"偏好只由对齐分量解释、正交分量保持中立但仍承载任务信息"。

flowchart LR
    A["轨迹对 τA, τB"] --> B["轨迹编码器 φ (可训练)"]
    R["理由 ℓreason"] --> LM1["冻结LM → ψ"]
    T["任务描述 ℓtask"] --> LM2["冻结LM → θ"]
    B --> C["沿 ψ 正交投影"]
    LM1 --> C
    C --> D["φ∥ 理由对齐"]
    C --> E["φ⊥ 理由正交"]
    D --> F["r∥ = φ∥ᵀθ 因果分量"]
    E --> G["r⊥ = φ⊥ᵀθ 残差分量"]
    F --> L1["Reason loss: 偏好只由 r∥ 解释"]
    G --> L2["一致性约束: r⊥ 不解释偏好"]
    F --> L3["比例正则: 防止塌缩到因果子空间"]
    G --> L3

关键设计¶

1. 沿理由轴的正交分解：把因果信号从轨迹表征里"切"出来。 这是整套方法的几何核心。冻结语言编码器把理由映射成向量 \(\psi\)，再把轨迹嵌入投影到 \(\psi\) 上得到平行分量 \(\phi_\parallel(\tau)=\frac{\phi(\tau)^\top\psi}{\|\psi\|_2^2}\psi\)，剩下的就是正交分量 \(\phi_\perp(\tau)=\phi(\tau)-\phi_\parallel(\tau)\)，二者满足 \(\phi_\parallel^\top\phi_\perp=0\)。对应地奖励也分成 \(r_\parallel=\phi_\parallel^\top\theta\)（理由显式背书的因果部分）和 \(r_\perp=\phi_\perp^\top\theta\)（理由没顾及但任务相关的残差，如塑形奖励、领域先验）。由于"避免碰撞""更快完成"这类理由会跨任务复现，同一条 \(\psi\) 方向被反复复用，这正是后面跨任务迁移的根基。

2. Reason loss：让偏好"只许"用因果分量来解释。 在 Bradley-Terry 模型里，只拿 \(r_\parallel\) 算偏好概率并最小化 BCE：\(L_{reason}=-\mathbb{E}[y\log P_{r_\parallel}(\tau_A\succ\tau_B)+(1-y)\log(1-P_{r_\parallel}(\tau_A\succ\tau_B))]\)。这一项把"解释偏好的权力"完全收归到理由对齐方向，等价于显式告诉模型"用户就是因为这个特征而选 A"，从源头堵死它去抓颜色这类共现干扰。

3. 正交一致性约束：把残差分量摁成"对偏好中立"，并给出 EC/IC 两种力度。 光让 \(r_\parallel\) 负责还不够，得防止 \(r_\perp\) 偷偷夹带偏好信号。强约束版 ReCouPLe-EC 直接要求每个比较对的残差相等 \(L_{eq}=(r_\perp(\tau_A)-r_\perp(\tau_B))^2\)，适合"少量反复出现的理由主导偏好、残差变化很小"的场景。弱约束版 ReCouPLe-IC 只要求对齐分量的差异盖过残差差异——用 \(S(A\succ B)=\frac{\exp(\mathrm{diff}_{r_\parallel})}{\exp(\mathrm{diff}_{r_\parallel})+\exp(\mathrm{diff}_{r_\perp})}\) 做软竞争并配一个总奖励的 BCE 正则防模式塌缩，适合"多种理由都能解释比较、残差变化不可忽略"的嘈杂场景。这种"一硬一软"让方法能按数据特性自适应。

4. 奖励比例正则：堵住"全塌进因果子空间"的捷径。 如果不加约束，模型可能把所有奖励都塞进 \(r_\parallel\) 让正交约束形同虚设。比例正则 \(L_{ratio}=\mathrm{ReLU}\!\left(\frac{|r_\parallel|}{|r_\parallel|+|r_\perp|+\epsilon}-\alpha\right)\) 把因果分量占总幅值的比例压在阈值 \(\alpha\) 以下，保证残差分量始终承载真实的任务信息而非被挤空。最终目标是 \(L_{ReCouPLe}=L_{reason}+\lambda_{ratio}L_{ratio}+\lambda_{eq}L_{eq}\)（EC）或 \(+\lambda_{ineq}L_{ineq}\)（IC）。

实验关键数据¶

主实验表格¶

ManiSkill 因果混淆套件（RQ1，奖励准确率，3 seed 平均，OOD=颜色互换）：

方法	2-task ID Pick/Place	2-task OOD Pick/Place	4-task OOD Pick/Push/Place/Pull
BT（单任务）	0.980/1.000	0.540/0.830	0.540/0.987/0.830/0.867
BT-Multi	0.953/1.000	0.600/0.820	0.707/1.000/0.840/0.907
RFP（理由辅助损失）	0.940/1.000	0.620/0.800	0.700/0.980/0.807/0.913
ReCouPLe-EC	0.993/1.000	0.820/0.940	0.773/1.000/0.880/0.860
ReCouPLe-IC	0.967/1.000	0.633/0.807	0.600/1.000/0.807/0.867

Meta-World 跨任务迁移（RQ2，奖励准确率，3 seed）：

方法	Push	Push-Wall	Pick-Place-Wall	新任务 Pick-Place
BT-Multi	0.873	0.893	0.577	0.547
RFP	0.870	0.900	0.647	0.553
ReCouPLe-EC	0.863	0.843	0.650	0.663
ReCouPLe-IC	0.893	0.823	0.657	0.627

消融实验表格¶

ManiSkill 平均奖励准确率（3 seed）：

变体	2-task ID	2-task OOD	4-task ID	4-task OOD
ReCouPLe（完整）	0.995	0.872	1.000	0.878
− 一致性约束	0.980	0.726	0.977	0.745
− 一致性 − 比例正则	0.987	0.727	0.990	0.730

关键发现¶

OOD 才见真章：所有方法在 ID 上几乎饱和，但颜色互换后纯偏好基线大跌；ReCouPLe-EC 在 OOD 上奖励准确率最高可达基线的约 1.5×，下游策略成功率在新任务上约 2×。
EC 强约束适合"单一因果特征主导"的 ManiSkill（残差几乎不变）；IC 弱约束适合"理由多样、轨迹带不同最优度噪声"的 Meta-World——EC 的严格等式会误罚合理的无关差异。
消融证明两根支柱缺一不可：去掉一致性约束 OOD 从 0.872 掉到 0.726，再去掉比例正则继续恶化；ID 几乎不受影响，说明它们专治分布偏移。
图像输入更脆弱：在原始视觉输入下基线 OOD 准确率惨跌，ReCouPLe 4-task 仍达 ≥0.96，验证对视觉干扰特征的鲁棒性。
迁移有可组合性：作者观察到 Pick-Place-Wall − (Push-Wall − Push) ≃ Pick-Place，理由对齐子空间像可加减的语义向量，支撑零样本迁移。

亮点与洞察¶

用"一句话理由"补足偏好的 1-bit 信息瓶颈，且把理由当几何投影轴而非额外条件输入，思路干净、可解释。
冻结 LM + 仅训练轨迹编码器，无需微调语言模型、无需预定义特征向量（这是相对 PFP/Holk 的关键解放），共享语言编码器天然保证跨任务语义一致。
EC/IC 双变体把"理由是否单一主导"这件事变成可选的约束力度，工程上很实用。

局限与展望¶

依赖理由的质量与可得性：实验里 Meta-World 的理由是用真值奖励的成分优势 softmax 合成的、ManiSkill 是固定模板（"因为更大"），真实人类自由理由的噪声/模糊性未充分检验。
线性内积奖励形式虽借非线性编码器表达复杂结构，但单方向投影对"多个因果特征同时起作用"的偏好可能不够（一条 \(\psi\) 只表征一个方向）。
规模与领域：仅在 ManiSkill/Meta-World 机器人操作上验证，是否迁移到 LLM-RLHF、长程任务、真人偏好仍待探索。
比例阈值 \(\alpha\)、各 \(\lambda\) 需调，EC 在嘈杂数据上会过度惩罚——选 EC 还是 IC 需先判断数据特性。

评分¶

新颖性: ⭐⭐⭐⭐ 把自然语言理由形式化为投影轴 + 正交分解奖励，是对 PbRL 因果混淆的一个干净且少有人走的角度。
实验充分度: ⭐⭐⭐⭐ ManiSkill/Meta-World 双套件覆盖 OOD 鲁棒与跨任务迁移、含状态与图像输入、消融到位；但理由为合成、未上真人偏好与更大规模。
写作质量: ⭐⭐⭐⭐ 动机（红蓝箱例子）、几何图示与损失推导清晰，EC/IC 适用边界讲得明白。
价值: ⭐⭐⭐⭐ 轻量、不微调 LM、可解释，对 RLHF/机器人奖励建模有直接借鉴意义。