Preference is More Than Comparisons: Rethinking Dueling Bandits with Augmented Human Feedback¶
会议: AAAI 2026
arXiv: 2511.09047
代码: COLA-Laboratory/IPEA-HF
领域: 推荐系统 / 偏好学习
关键词: Dueling Bandits, 偏好引出, 人类反馈增强, 置信界, 多目标优化
一句话总结¶
提出一种基于增强人类反馈的无模型Dueling Bandit框架IPEA-HF,通过增强置信界(Augmented Confidence Bounds)集成上下文相似性和依赖关系来校准不确定性,在推荐、多目标优化和LLM响应优化等多个基准上表现优异。
研究背景与动机¶
交互式偏好引出(IPE)的效率瓶颈¶
在推荐系统、多目标优化、LLM响应优化等个性化系统中,获取用户偏好需要大量人力。交互式偏好引出(Interactive Preference Elicitation, IPE)通过选择性地查询用户来减少负担。Dueling Bandit (DB) 作为基于成对比较的在线决策框架,是IPE的理论基础。
核心问题:当人类反馈稀疏时,DB框架效率低下。现有方法主要通过两种途径解决:
参数化奖励模型(如Bradley-Terry模型):假设过于刚性,容易模型误指定,无法处理非传递性偏好
候选分区(如聚类方法):假设候选项可以清楚地分成可区分的子集,但现实中通常不可验证
被忽视的视角:反馈增强¶
作者提出了一个关键洞察——人类偏好不仅仅是孤立的成对比较,还受到上下文信息和潜在依赖关系的影响。DB框架独立处理每次反馈是效率低下的根源。通过增强反馈(利用上下文相似性和依赖关系),可以在不依赖参数化假设的前提下提升效率。
三个核心研究问题¶
- RQ1:如何在无模型设定下整合增强人类反馈?
- RQ2:增强反馈是否总能提升效率,还是可能带来退化?
- RQ3:DB框架能否超越成对比较,纳入更丰富的反馈形式?
方法详解¶
整体框架¶
IPEA-HF的算法流程包含四个核心组件:
- AugConfidenceBound:基于增强观测计算置信界
- DuelingBanditAlgo:基于置信界进行候选对选择(支持RUCB/DTS等策略)
- DependencyExtract:从上下文空间中提取依赖关系
- FeedbackAug:基于观测结果和依赖关系增强反馈
关键设计¶
1. 增强置信界(Augmented Confidence Bounds)¶
功能:将相关观测(来自相似候选对的比较结果)纳入置信界估计。
核心思路:对于候选对\((a_i, a_j)\),令\(n^d_{i,j}(t)\)为直接比较次数,\(n^r_{i,j}(t)\)为相关观测次数,总观测\(n_{i,j}(t) = n^d_{i,j}(t) + n^r_{i,j}(t)\)。增强UCB/LCB为:
其中\(\eta = (n^d_{i,j}+\sum_{k}w^k_{i,j})/n_{i,j}\),\(w^k_{i,j}\in[0,1]\)为依赖权重。
设计动机:当\(n^r_{i,j}=0\)时(无增强),公式退化为标准DB的置信界。相关观测\(X^k_{i,j}\sim\text{Bernoulli}(w^k_{i,j}p_{i,j})\),其中依赖权重\(w^k_{i,j}\)控制了相关观测的可靠程度。
集中性质(Theorem 3.1):在\(\alpha>0.5\)条件下,以\(1-\delta\)的概率,对所有足够大的\(t\)和所有候选对,真实偏好概率\(p_{i,j}\)都包含在增强置信区间中。
2. 校准阈值与多因素权衡¶
功能:定量分析何时增强反馈有利、何时有害。
核心发现:增强反馈有效的条件为:
- \(w^r_{i,j}=1\)时,相关观测等价于直接观测,置信区间收缩
- \(w^r_{i,j}=0\)时,置信区间反而扩大
- 随着直接观测增多,相关观测的边际贡献递减
设计动机:这解答了RQ2——增强反馈的效果取决于依赖强度,弱依赖可能带来退化。这为实践提供了何时利用、如何校准增强反馈的指导。
3. 与现有方法的统一视角¶
功能:证明增强置信界是多种DB方法的统一框架。
与分区方法的关系:分区方法是特殊情况——组内\(w^r_{i,j}=1\)(完全依赖),组间不共享。
与参数化奖励估计的关系:结构化奖励方法中的Mahalanobis范数置信界\(\|x_i-x_j\|_{V^{-1}}\)在方向权重降低(高相关观测)时收窄,与本文机制一致。但结构化方法缺乏形式化的集中性质保证。
损失函数 / 训练策略¶
样本复杂度(Theorem 3.2)¶
其中\(D^w_{i,j} = \frac{4\alpha}{\min_r w^r_{i,j}{}^2 \min\{\Delta_i^2, \Delta_j^2\}}\)。
权衡:强依赖减少直接观测需求,但弱依赖增大系数\(D^w_{i,j}\)。
遗憾分析(Theorem 3.3)¶
假设双向依赖,\(C\)个软聚类,累积遗憾界为:
包含分区方法\(\mathcal{O}(C^2\log T)\)作为\(w^r_{i,j}\equiv 1\)的特殊情况。
计算设计¶
- 依赖提取:构建相似性图(基于Gower/欧几里得距离),用图分区得到候选组
- 反馈增强:每轮比较后,通过LLM或用户对相关对的依赖条件进行标注
实验关键数据¶
主实验¶
推荐任务(Sushi/Car Preference,2000轮交互)¶
| 算法 | 类型 | Sushi最终遗憾 | Car最终遗憾 | 说明 |
|---|---|---|---|---|
| RUCB | 无上下文 | 中高 | 中高 | 基础DB |
| DTS | 无上下文 | 中等 | 中等 | 随机策略 |
| MaxInP | 参数化 | 高 | 高 | BT模型 |
| COLSTIM | 参数化 | 高 | 高 | 收敛问题 |
| VACDB | 参数化 | 持续增长 | 高 | 探索不足 |
| IPEA-RUCB | 增强 | 最低 | 最低 | 本文 |
| IPEA-DTS | 增强 | 次低 | 次低 | 本文 |
参数化方法因模型误指定表现差,VACDB甚至遗憾持续增长(探索失败)。
多目标优化(DTLZ7,200轮交互)¶
IPEA-RUCB在大候选集(\(100^2\)对)+稀疏反馈下优势明显。参数化方法虽然稍好于无上下文DB,但存在重复查询同一小子集的问题(过度利用、探索不足)。
LLM响应优化(Anthropic H-H数据集)¶
DTS和IPEA-DTS表现最佳(随机策略更适合LLM场景)。IPEA-DTS通过利用跨prompt的增强反馈进一步超越标准DTS。参数化方法因768维特征空间的计算开销大而效率低。
消融实验¶
| 配置 | 说明 | 效果 |
|---|---|---|
| 无增强(标准DB) | 仅使用直接观测 | 基线 |
| 增强+相似性图 | 利用上下文相似性 | 提升样本效率 |
| 增强+LLM标注依赖 | 额外的依赖权重估计 | 进一步提升 |
| 不同\(\alpha\)值 | 置信参数敏感性 | \(\alpha=0.1\)最佳 |
关键发现¶
- 无模型>参数化:在推荐场景中,无上下文DB一致优于参数化DB,后者因模型误指定受害
- 增强反馈的价值取决于场景:推荐场景收益大(特征空间低维、相似性有意义),LLM场景收益已有但受限于跨prompt可比性
- 确定性 vs 随机策略:IPEA-RUCB在稀疏反馈的多目标任务更好,IPEA-DTS在LLM任务更好
- 查询多样性是关键指标:通过查询频率分析,IPEA方法实现了更好的探索-利用平衡
亮点与洞察¶
- 理论贡献扎实:三个定理(集中性质、样本复杂度、遗憾界)提供了可证明的效率保证,且揭示了显式的多因素权衡
- 统一视角:将分区方法和参数化方法都纳入增强置信界的统一框架,深化了对DB方法论的理解
- 校准阈值有实用价值:明确给出了"何时增强有益/有害"的判断条件
- 超越成对比较:框架可以整合特征级比较、专家示范、LLM推理信号等更丰富的反馈形式,为IPE提供更灵活的基础
- 跨领域验证:推荐、多目标优化、LLM的三个完全不同的应用场景
局限与展望¶
- 依赖权重的估计:目前通过LLM标注获得\(w^k_{i,j}\),可能引入噪声,虽然理论上鲁棒但实际效果受限
- 双向依赖假设:遗憾分析需要双向依赖(对称关系),非对称依赖的分析留空
- 候选数扩展性:在\(K\)很大时(如数千候选),相似性图构建和依赖标注的开销值得关注
- 与RLHF的关系:框架与DPO/RLHF有概念联系,但未直接展示如何集成到现代LLM训练流程
- 可以探索主动学习策略来选择最有价值的增强标注
相关工作与启发¶
- RUCB (Zoghi et al. 2014):DB框架的理论基础,本文直接扩展其集中性质
- DTS (Wu & Liu 2016):随机策略DB,本文也基于其实现了IPEA-DTS
- DPO (Rafailov et al. 2023):将偏好学习简化为分类问题,但假设静态参数化奖励
- PBEMO (Huang et al. 2024):基于分区的多目标DB,本文将其统一为特殊情况
- 启发:无模型方法的回归——在偏好学习中,减少对模型假设的依赖可能是更鲁棒的路径
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (增强置信界的统一框架+多因素权衡分析+超越成对比较的视角)
- 实验充分度: ⭐⭐⭐⭐ (三个不同领域的基准,但每个领域的数据集较少)
- 写作质量: ⭐⭐⭐⭐ (理论部分严谨,但论文较长,初读有一定门槛)
- 价值: ⭐⭐⭐⭐⭐ (理论+实践兼备,统一框架有深远意义)