跳转至

Preference is More Than Comparisons: Rethinking Dueling Bandits with Augmented Human Feedback

会议: AAAI 2026
arXiv: 2511.09047
代码: COLA-Laboratory/IPEA-HF
领域: 推荐系统 / 偏好学习
关键词: Dueling Bandits, 偏好引出, 人类反馈增强, 置信界, 多目标优化

一句话总结

提出一种基于增强人类反馈的无模型Dueling Bandit框架IPEA-HF,通过增强置信界(Augmented Confidence Bounds)集成上下文相似性和依赖关系来校准不确定性,在推荐、多目标优化和LLM响应优化等多个基准上表现优异。

研究背景与动机

交互式偏好引出(IPE)的效率瓶颈

在推荐系统、多目标优化、LLM响应优化等个性化系统中,获取用户偏好需要大量人力。交互式偏好引出(Interactive Preference Elicitation, IPE)通过选择性地查询用户来减少负担。Dueling Bandit (DB) 作为基于成对比较的在线决策框架,是IPE的理论基础。

核心问题:当人类反馈稀疏时,DB框架效率低下。现有方法主要通过两种途径解决:

参数化奖励模型(如Bradley-Terry模型):假设过于刚性,容易模型误指定,无法处理非传递性偏好

候选分区(如聚类方法):假设候选项可以清楚地分成可区分的子集,但现实中通常不可验证

被忽视的视角:反馈增强

作者提出了一个关键洞察——人类偏好不仅仅是孤立的成对比较,还受到上下文信息和潜在依赖关系的影响。DB框架独立处理每次反馈是效率低下的根源。通过增强反馈(利用上下文相似性和依赖关系),可以在不依赖参数化假设的前提下提升效率。

三个核心研究问题

  • RQ1:如何在无模型设定下整合增强人类反馈?
  • RQ2:增强反馈是否总能提升效率,还是可能带来退化?
  • RQ3:DB框架能否超越成对比较,纳入更丰富的反馈形式?

方法详解

整体框架

IPEA-HF的算法流程包含四个核心组件:

  1. AugConfidenceBound:基于增强观测计算置信界
  2. DuelingBanditAlgo:基于置信界进行候选对选择(支持RUCB/DTS等策略)
  3. DependencyExtract:从上下文空间中提取依赖关系
  4. FeedbackAug:基于观测结果和依赖关系增强反馈

关键设计

1. 增强置信界(Augmented Confidence Bounds)

功能:将相关观测(来自相似候选对的比较结果)纳入置信界估计。

核心思路:对于候选对\((a_i, a_j)\),令\(n^d_{i,j}(t)\)为直接比较次数,\(n^r_{i,j}(t)\)为相关观测次数,总观测\(n_{i,j}(t) = n^d_{i,j}(t) + n^r_{i,j}(t)\)。增强UCB/LCB为:

\[\hat{u}_{i,j}=\hat{p}_{i,j}+\frac{1}{\eta}\sqrt{\frac{\alpha\ln t}{n_{i,j}(t)}}, \quad \hat{l}_{i,j}=\hat{p}_{i,j}-\frac{1}{\eta}\sqrt{\frac{\alpha\ln t}{n_{i,j}(t)}}\]

其中\(\eta = (n^d_{i,j}+\sum_{k}w^k_{i,j})/n_{i,j}\)\(w^k_{i,j}\in[0,1]\)为依赖权重。

设计动机:当\(n^r_{i,j}=0\)时(无增强),公式退化为标准DB的置信界。相关观测\(X^k_{i,j}\sim\text{Bernoulli}(w^k_{i,j}p_{i,j})\),其中依赖权重\(w^k_{i,j}\)控制了相关观测的可靠程度。

集中性质(Theorem 3.1):在\(\alpha>0.5\)条件下,以\(1-\delta\)的概率,对所有足够大的\(t\)和所有候选对,真实偏好概率\(p_{i,j}\)都包含在增强置信区间中。

2. 校准阈值与多因素权衡

功能:定量分析何时增强反馈有利、何时有害。

核心发现:增强反馈有效的条件为:

\[w^r_{i,j} > \eta n_{i,j}(t)\left(\sqrt{1+\frac{1}{n_{i,j}(t)}}-1\right)\]
  • \(w^r_{i,j}=1\)时,相关观测等价于直接观测,置信区间收缩
  • \(w^r_{i,j}=0\)时,置信区间反而扩大
  • 随着直接观测增多,相关观测的边际贡献递减

设计动机:这解答了RQ2——增强反馈的效果取决于依赖强度,弱依赖可能带来退化。这为实践提供了何时利用、如何校准增强反馈的指导。

3. 与现有方法的统一视角

功能:证明增强置信界是多种DB方法的统一框架。

与分区方法的关系:分区方法是特殊情况——组内\(w^r_{i,j}=1\)(完全依赖),组间不共享。

与参数化奖励估计的关系:结构化奖励方法中的Mahalanobis范数置信界\(\|x_i-x_j\|_{V^{-1}}\)在方向权重降低(高相关观测)时收窄,与本文机制一致。但结构化方法缺乏形式化的集中性质保证。

损失函数 / 训练策略

样本复杂度(Theorem 3.2)

\[P(\exists t, i,j\in\mathcal{A}, n_{i,j}(t) > C(\delta) \lor D^w_{i,j}\ln t) < \delta\]

其中\(D^w_{i,j} = \frac{4\alpha}{\min_r w^r_{i,j}{}^2 \min\{\Delta_i^2, \Delta_j^2\}}\)

权衡:强依赖减少直接观测需求,但弱依赖增大系数\(D^w_{i,j}\)

遗憾分析(Theorem 3.3)

假设双向依赖,\(C\)个软聚类,累积遗憾界为:

\[\mathcal{O}\left(\frac{1}{\min_{i,j,r}w^r_{i,j}}\hat{K}^2\log T\right), \quad \hat{K}=\max\{C,K_1,\dots,K_C\}\]

包含分区方法\(\mathcal{O}(C^2\log T)\)作为\(w^r_{i,j}\equiv 1\)的特殊情况。

计算设计

  • 依赖提取:构建相似性图(基于Gower/欧几里得距离),用图分区得到候选组
  • 反馈增强:每轮比较后,通过LLM或用户对相关对的依赖条件进行标注

实验关键数据

主实验

推荐任务(Sushi/Car Preference,2000轮交互)

算法 类型 Sushi最终遗憾 Car最终遗憾 说明
RUCB 无上下文 中高 中高 基础DB
DTS 无上下文 中等 中等 随机策略
MaxInP 参数化 BT模型
COLSTIM 参数化 收敛问题
VACDB 参数化 持续增长 探索不足
IPEA-RUCB 增强 最低 最低 本文
IPEA-DTS 增强 次低 次低 本文

参数化方法因模型误指定表现差,VACDB甚至遗憾持续增长(探索失败)。

多目标优化(DTLZ7,200轮交互)

IPEA-RUCB在大候选集(\(100^2\)对)+稀疏反馈下优势明显。参数化方法虽然稍好于无上下文DB,但存在重复查询同一小子集的问题(过度利用、探索不足)。

LLM响应优化(Anthropic H-H数据集)

DTS和IPEA-DTS表现最佳(随机策略更适合LLM场景)。IPEA-DTS通过利用跨prompt的增强反馈进一步超越标准DTS。参数化方法因768维特征空间的计算开销大而效率低。

消融实验

配置 说明 效果
无增强(标准DB) 仅使用直接观测 基线
增强+相似性图 利用上下文相似性 提升样本效率
增强+LLM标注依赖 额外的依赖权重估计 进一步提升
不同\(\alpha\) 置信参数敏感性 \(\alpha=0.1\)最佳

关键发现

  1. 无模型>参数化:在推荐场景中,无上下文DB一致优于参数化DB,后者因模型误指定受害
  2. 增强反馈的价值取决于场景:推荐场景收益大(特征空间低维、相似性有意义),LLM场景收益已有但受限于跨prompt可比性
  3. 确定性 vs 随机策略:IPEA-RUCB在稀疏反馈的多目标任务更好,IPEA-DTS在LLM任务更好
  4. 查询多样性是关键指标:通过查询频率分析,IPEA方法实现了更好的探索-利用平衡

亮点与洞察

  1. 理论贡献扎实:三个定理(集中性质、样本复杂度、遗憾界)提供了可证明的效率保证,且揭示了显式的多因素权衡
  2. 统一视角:将分区方法和参数化方法都纳入增强置信界的统一框架,深化了对DB方法论的理解
  3. 校准阈值有实用价值:明确给出了"何时增强有益/有害"的判断条件
  4. 超越成对比较:框架可以整合特征级比较、专家示范、LLM推理信号等更丰富的反馈形式,为IPE提供更灵活的基础
  5. 跨领域验证:推荐、多目标优化、LLM的三个完全不同的应用场景

局限与展望

  1. 依赖权重的估计:目前通过LLM标注获得\(w^k_{i,j}\),可能引入噪声,虽然理论上鲁棒但实际效果受限
  2. 双向依赖假设:遗憾分析需要双向依赖(对称关系),非对称依赖的分析留空
  3. 候选数扩展性:在\(K\)很大时(如数千候选),相似性图构建和依赖标注的开销值得关注
  4. 与RLHF的关系:框架与DPO/RLHF有概念联系,但未直接展示如何集成到现代LLM训练流程
  5. 可以探索主动学习策略来选择最有价值的增强标注

相关工作与启发

  • RUCB (Zoghi et al. 2014):DB框架的理论基础,本文直接扩展其集中性质
  • DTS (Wu & Liu 2016):随机策略DB,本文也基于其实现了IPEA-DTS
  • DPO (Rafailov et al. 2023):将偏好学习简化为分类问题,但假设静态参数化奖励
  • PBEMO (Huang et al. 2024):基于分区的多目标DB,本文将其统一为特殊情况
  • 启发:无模型方法的回归——在偏好学习中,减少对模型假设的依赖可能是更鲁棒的路径

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (增强置信界的统一框架+多因素权衡分析+超越成对比较的视角)
  • 实验充分度: ⭐⭐⭐⭐ (三个不同领域的基准,但每个领域的数据集较少)
  • 写作质量: ⭐⭐⭐⭐ (理论部分严谨,但论文较长,初读有一定门槛)
  • 价值: ⭐⭐⭐⭐⭐ (理论+实践兼备,统一框架有深远意义)