CLARIFY: Contrastive Preference Reinforcement Learning for Untangling Ambiguous Queries¶

会议: ICML 2025
arXiv: 2506.00388
代码: 无
领域: 自监督学习
关键词: 偏好强化学习, 对比学习, 模糊查询, 轨迹嵌入, 离线RL

一句话总结¶

提出 CLARIFY 方法，通过对比学习构建融合偏好信息的轨迹嵌入空间，利用拒绝采样选择更清晰可区分的偏好查询，从而提升离线 PbRL 在非理想反馈下的标注效率和策略性能。

研究背景与动机¶

偏好强化学习（PbRL）通过人类对轨迹片段对的偏好比较来推断奖励函数，避免了显式奖励工程的复杂性。然而，当两个轨迹片段高度相似时，人类难以给出明确的偏好判断，导致模糊查询（ambiguous queries）问题。这一问题不仅降低了标注效率，还限制了 PbRL 在实际场景中的应用。

现有方法的核心矛盾在于：大多数 PbRL 方法（如 PEBBLE、PT、OPRL 等）要么忽略了模糊查询的存在，要么仅在在线设置中解决该问题（如 Mu et al., 2024），无法直接迁移到离线场景。离线 PbRL 中数据固定、无法与环境交互，如何在有限的偏好预算内最大化选择"清晰可区分"的查询对，成为关键瓶颈。

本文的切入角度是：利用对比学习将偏好信息编码到轨迹嵌入空间中，使得"清晰可区分"的片段在嵌入空间中距离远，"模糊"的片段距离近。基于这一嵌入空间，通过拒绝采样策略选择更多无歧义的查询，从而提升标注效率。核心 idea：用对比学习建模偏好结构，在嵌入空间中通过距离区分查询的清晰度，再用拒绝采样筛选高质量查询。

方法详解¶

整体框架¶

CLARIFY 分为两个阶段： 1. 表示学习阶段：使用对比学习训练轨迹编码器 \(z = f_\phi(\tau)\)，将轨迹映射到固定维度的嵌入空间，同时融合偏好信息（清晰/模糊标签）。 2. 查询选择阶段：基于学到的嵌入空间，通过拒绝采样选择嵌入距离较大（即更清晰可区分）的查询对，送给人类标注。

具体流程为：先随机采样一批查询预训练编码器和奖励模型 → 基于嵌入空间选择新查询 → 更新偏好数据集和奖励模型 → 重新训练嵌入 → 最终用 IQL 等离线 RL 算法训练策略。

关键设计¶

Ambiguity Loss \(\mathcal{L}_{\text{amb}}\)：核心思路是最大化清晰可区分片段对的嵌入距离，同时最小化模糊片段对的嵌入距离。对于偏好数据集中标记为 \(p \in \{0, 1\}\) 的"清晰"查询，拉远两个片段的嵌入；对于 \(p = \text{no\_cop}\) 的"模糊"查询，拉近两个片段的嵌入。设计动机是直接实现"清晰远、模糊近"的嵌入空间目标。但仅用此损失会导致过拟合和表示坍塌（模糊片段映射到同一点）。
Quadrilateral Loss \(\mathcal{L}_{\text{quad}}\)：为解决 \(\mathcal{L}_{\text{amb}}\) 单独使用的问题，引入四边形损失建模偏好关系。对于两组清晰查询 \((\sigma_+, \sigma_-)\) 和 \((\sigma_+', \sigma_-')\)，鼓励"好"片段之间 \((z_+, z_+')\) 和"差"片段之间 \((z_-, z_-')\) 的距离小于跨组距离 \((z_+, z_-')\) 等。关键公式为最小化：\(-\mathbb{E}[\ell(z^+, z^{-\prime}) + \ell(z^{+\prime}, z^-) - \ell(z^+, z^{+\prime}) - \ell(z^-, z^{-\prime})]\)。通过配对使用查询，训练数据从 \(O(n)\) 扩展到 \(O(n^2)\)，缓解小样本过拟合问题，同时作为正则化防止表示坍塌。
拒绝采样查询选择：计算查询对的嵌入距离 \(d_{\text{emb}}\)，估计清晰和模糊查询的密度函数 \(\rho_{\text{clr}}\) 和 \(\rho_{\text{amb}}\)，构造加权密度 \(\rho(d) = 0.5(\rho_1 + \rho_2)\)，其中 \(\rho_1\) 基于差值、\(\rho_2\) 基于比值。最终的采样分布 \(q(d) = p(d) \cdot \rho(d)\) 提高了选择清晰查询的概率。设计动机是不仅选择距离最大的查询（那样会降低多样性），而是在保持多样性的同时增大清晰查询的比例。

损失函数 / 训练策略¶

总损失为四项加权和：

\[\mathcal{L} = \mathcal{L}_{\text{recon}} + \lambda_{\text{amb}}\mathcal{L}_{\text{amb}} + \lambda_{\text{quad}}\mathcal{L}_{\text{quad}} + \lambda_{\text{norm}}\mathcal{L}_{\text{norm}}\]

其中 \(\mathcal{L}_{\text{recon}}\) 是基于 Bi-directional Decision Transformer 的重建损失，\(\mathcal{L}_{\text{norm}}\) 约束嵌入的 L2 范数接近 1 以稳定训练。嵌入距离的连续分布被离散化为 \(n_{\text{bin}}\) 个区间以处理拒绝采样。

实验关键数据¶

主实验¶

在 Metaworld 和 DMControl 总共 9 个任务上，比较 CLARIFY 与 MR、OPRL、PT、OPPO、LiRE 等基线方法：

任务	指标	CLARIFY	之前 SOTA (OPRL/LiRE)	提升
dial-turn (ε=0.5)	成功率	77.50 ± 7.37	57.33 ± 25.02 (OPRL)	+20.17
drawer-open (ε=0.5)	成功率	83.50 ± 7.40	72.67 ± 2.87 (OPRL)	+10.83
handle-pull-side (ε=0.5)	成功率	95.00 ± 1.22	89.75 ± 6.07 (PT)	+5.25
walker-walk (ε=0.5)	回报	796.34 ± 12.87	789.18 ± 28.77 (LiRE)	+7.16
cheetah-run (ε=0.5)	回报	617.31 ± 14.43	553.61 ± 43.16 (LiRE)	+63.70
dial-turn (ε=0.7)	成功率	79.40 ± 3.83	63.40 ± 9.46 (OPRL)	+16.00
walker-walk (ε=0.7)	回报	816.54 ± 11.08	795.02 ± 22.80 (LiRE)	+21.52

消融实验¶

配置	dial-turn	sweep-into	说明
无 \(\mathcal{L}_{\text{amb}}\)，无 \(\mathcal{L}_{\text{quad}}\)	63.20 ± 4.79	40.00 ± 11.29	等同 OPRL
有 \(\mathcal{L}_{\text{amb}}\)，无 \(\mathcal{L}_{\text{quad}}\)	69.00 ± 11.20	52.80 ± 17.01	不稳定，易过拟合
无 \(\mathcal{L}_{\text{amb}}\)，有 \(\mathcal{L}_{\text{quad}}\)	71.25 ± 8.81	62.20 ± 4.92	收敛较慢
两者均有（CLARIFY）	77.50 ± 3.01	68.00 ± 3.19	最佳且最稳定

关键发现¶

查询清晰度：CLARIFY 在 skip rate ε=0.5 下，dial-turn 的清晰查询比例达 76.33%，远高于 MR (46.95%)、OPRL (31.67%) 和 PT (43.90%)。
人类实验验证：在 walker-walk 真人标注实验中，CLARIFY 回报 420.75 vs OPRL 265.91，查询清晰度 63.33% vs 53.33%，标注准确率 87.08% vs 66.67%。
查询效率：即使仅有 100 个查询，CLARIFY 也显著优于 MR (dial-turn: 59.50 vs 49.50)。
密度直接选择（选最清晰的查询）反而效果差，因为缺乏多样性；拒绝采样的方式兼顾了清晰度和多样性。

亮点与洞察¶

将 PbRL 中长期被忽视的"模糊查询"问题形式化，并提供了系统解决方案
四边形损失的设计非常巧妙：利用查询配对将样本量从 O(n) 扩展到 O(n²)，同时建模偏好的全局结构
理论保证扎实（Proposition 5.1 的 margin 分离和 Proposition 5.2 的凸可分性）
嵌入空间的 t-SNE 可视化直观展示了方法的有效性
真人实验与模拟实验结果一致，增强了方法的可信度

局限与展望¶

目前仅在离线 PbRL 中验证，在线场景的扩展尚未探讨
嵌入训练依赖 BDT 架构，对不同任务的适应性有待考察
拒绝采样中密度估计的离散化引入了额外超参数 \(n_{\text{bin}}\)
人类实验规模较小（每轮仅 20 或 100 个反馈），大规模人类反馈场景下的表现未知
可考虑将此方法应用于 LLM 对齐（RLHF）中的偏好数据筛选

评分¶

新颖性: ⭐⭐⭐⭐ — 四边形损失和拒绝采样查询选择的组合设计新颖
实验充分度: ⭐⭐⭐⭐ — 9 个任务、模拟+真人实验、充分的消融
写作质量: ⭐⭐⭐⭐ — 结构清晰，理论分析和实验安排合理
价值: ⭐⭐⭐⭐ — 解决了 PbRL 的实际痛点，有 RLHF 应用前景