Preference is More Than Comparisons: Rethinking Dueling Bandits with Augmented Human Feedback¶

会议: AAAI 2026
arXiv: 2511.09047
代码: COLA-Laboratory/IPEA-HF
领域: 推荐系统 / 偏好学习
关键词: Dueling Bandits, 偏好引出, 人类反馈增强, 置信界, 多目标优化

一句话总结¶

提出一种基于增强人类反馈的无模型Dueling Bandit框架IPEA-HF，通过增强置信界（Augmented Confidence Bounds）集成上下文相似性和依赖关系来校准不确定性，在推荐、多目标优化和LLM响应优化等多个基准上表现优异。

研究背景与动机¶

交互式偏好引出（IPE）的效率瓶颈¶

在推荐系统、多目标优化、LLM响应优化等个性化系统中，获取用户偏好需要大量人力。交互式偏好引出（Interactive Preference Elicitation, IPE）通过选择性地查询用户来减少负担。Dueling Bandit (DB) 作为基于成对比较的在线决策框架，是IPE的理论基础。

核心问题：当人类反馈稀疏时，DB框架效率低下。现有方法主要通过两种途径解决：

参数化奖励模型（如Bradley-Terry模型）：假设过于刚性，容易模型误指定，无法处理非传递性偏好

候选分区（如聚类方法）：假设候选项可以清楚地分成可区分的子集，但现实中通常不可验证

被忽视的视角：反馈增强¶

作者提出了一个关键洞察——人类偏好不仅仅是孤立的成对比较，还受到上下文信息和潜在依赖关系的影响。DB框架独立处理每次反馈是效率低下的根源。通过增强反馈（利用上下文相似性和依赖关系），可以在不依赖参数化假设的前提下提升效率。

三个核心研究问题¶

RQ1：如何在无模型设定下整合增强人类反馈？
RQ2：增强反馈是否总能提升效率，还是可能带来退化？
RQ3：DB框架能否超越成对比较，纳入更丰富的反馈形式？

方法详解¶

整体框架¶

IPEA-HF的算法流程包含四个核心组件：

AugConfidenceBound：基于增强观测计算置信界
DuelingBanditAlgo：基于置信界进行候选对选择（支持RUCB/DTS等策略）
DependencyExtract：从上下文空间中提取依赖关系
FeedbackAug：基于观测结果和依赖关系增强反馈

关键设计¶

1. 增强置信界（Augmented Confidence Bounds）¶

功能：将相关观测（来自相似候选对的比较结果）纳入置信界估计。

核心思路：对于候选对\((a_i, a_j)\)，令\(n^d_{i,j}(t)\)为直接比较次数，\(n^r_{i,j}(t)\)为相关观测次数，总观测\(n_{i,j}(t) = n^d_{i,j}(t) + n^r_{i,j}(t)\)。增强UCB/LCB为：

\[\hat{u}_{i,j}=\hat{p}_{i,j}+\frac{1}{\eta}\sqrt{\frac{\alpha\ln t}{n_{i,j}(t)}}, \quad \hat{l}_{i,j}=\hat{p}_{i,j}-\frac{1}{\eta}\sqrt{\frac{\alpha\ln t}{n_{i,j}(t)}}\]

其中\(\eta = (n^d_{i,j}+\sum_{k}w^k_{i,j})/n_{i,j}\)，\(w^k_{i,j}\in[0,1]\)为依赖权重。

设计动机：当\(n^r_{i,j}=0\)时（无增强），公式退化为标准DB的置信界。相关观测\(X^k_{i,j}\sim\text{Bernoulli}(w^k_{i,j}p_{i,j})\)，其中依赖权重\(w^k_{i,j}\)控制了相关观测的可靠程度。

集中性质（Theorem 3.1）：在\(\alpha>0.5\)条件下，以\(1-\delta\)的概率，对所有足够大的\(t\)和所有候选对，真实偏好概率\(p_{i,j}\)都包含在增强置信区间中。

2. 校准阈值与多因素权衡¶

功能：定量分析何时增强反馈有利、何时有害。

核心发现：增强反馈有效的条件为：

\[w^r_{i,j} > \eta n_{i,j}(t)\left(\sqrt{1+\frac{1}{n_{i,j}(t)}}-1\right)\]

\(w^r_{i,j}=1\)时，相关观测等价于直接观测，置信区间收缩
\(w^r_{i,j}=0\)时，置信区间反而扩大
随着直接观测增多，相关观测的边际贡献递减

设计动机：这解答了RQ2——增强反馈的效果取决于依赖强度，弱依赖可能带来退化。这为实践提供了何时利用、如何校准增强反馈的指导。

3. 与现有方法的统一视角¶

功能：证明增强置信界是多种DB方法的统一框架。

与分区方法的关系：分区方法是特殊情况——组内\(w^r_{i,j}=1\)（完全依赖），组间不共享。

与参数化奖励估计的关系：结构化奖励方法中的Mahalanobis范数置信界\(\|x_i-x_j\|_{V^{-1}}\)在方向权重降低（高相关观测）时收窄，与本文机制一致。但结构化方法缺乏形式化的集中性质保证。

损失函数 / 训练策略¶

样本复杂度（Theorem 3.2）¶

\[P(\exists t, i,j\in\mathcal{A}, n_{i,j}(t) > C(\delta) \lor D^w_{i,j}\ln t) < \delta\]

其中\(D^w_{i,j} = \frac{4\alpha}{\min_r w^r_{i,j}{}^2 \min\{\Delta_i^2, \Delta_j^2\}}\)。

权衡：强依赖减少直接观测需求，但弱依赖增大系数\(D^w_{i,j}\)。

遗憾分析（Theorem 3.3）¶

假设双向依赖，\(C\)个软聚类，累积遗憾界为：

\[\mathcal{O}\left(\frac{1}{\min_{i,j,r}w^r_{i,j}}\hat{K}^2\log T\right), \quad \hat{K}=\max\{C,K_1,\dots,K_C\}\]

包含分区方法\(\mathcal{O}(C^2\log T)\)作为\(w^r_{i,j}\equiv 1\)的特殊情况。

计算设计¶

依赖提取：构建相似性图（基于Gower/欧几里得距离），用图分区得到候选组
反馈增强：每轮比较后，通过LLM或用户对相关对的依赖条件进行标注

实验关键数据¶

主实验¶

多目标优化（DTLZ7，200轮交互）¶

IPEA-RUCB在大候选集（\(100^2\)对）+稀疏反馈下优势明显。参数化方法虽然稍好于无上下文DB，但存在重复查询同一小子集的问题（过度利用、探索不足）。

LLM响应优化（Anthropic H-H数据集）¶

DTS和IPEA-DTS表现最佳（随机策略更适合LLM场景）。IPEA-DTS通过利用跨prompt的增强反馈进一步超越标准DTS。参数化方法因768维特征空间的计算开销大而效率低。

消融实验¶

配置	说明	效果
无增强（标准DB）	仅使用直接观测	基线
增强+相似性图	利用上下文相似性	提升样本效率
增强+LLM标注依赖	额外的依赖权重估计	进一步提升
不同\(\alpha\)值	置信参数敏感性	\(\alpha=0.1\)最佳

关键发现¶

无模型>参数化：在推荐场景中，无上下文DB一致优于参数化DB，后者因模型误指定受害
增强反馈的价值取决于场景：推荐场景收益大（特征空间低维、相似性有意义），LLM场景收益已有但受限于跨prompt可比性
确定性 vs 随机策略：IPEA-RUCB在稀疏反馈的多目标任务更好，IPEA-DTS在LLM任务更好
查询多样性是关键指标：通过查询频率分析，IPEA方法实现了更好的探索-利用平衡

亮点与洞察¶

理论贡献扎实：三个定理（集中性质、样本复杂度、遗憾界）提供了可证明的效率保证，且揭示了显式的多因素权衡
统一视角：将分区方法和参数化方法都纳入增强置信界的统一框架，深化了对DB方法论的理解
校准阈值有实用价值：明确给出了"何时增强有益/有害"的判断条件
超越成对比较：框架可以整合特征级比较、专家示范、LLM推理信号等更丰富的反馈形式，为IPE提供更灵活的基础
跨领域验证：推荐、多目标优化、LLM的三个完全不同的应用场景

局限与展望¶

依赖权重的估计：目前通过LLM标注获得\(w^k_{i,j}\)，可能引入噪声，虽然理论上鲁棒但实际效果受限
双向依赖假设：遗憾分析需要双向依赖（对称关系），非对称依赖的分析留空
候选数扩展性：在\(K\)很大时（如数千候选），相似性图构建和依赖标注的开销值得关注
与RLHF的关系：框架与DPO/RLHF有概念联系，但未直接展示如何集成到现代LLM训练流程
可以探索主动学习策略来选择最有价值的增强标注

评分¶

新颖性: ⭐⭐⭐⭐⭐ （增强置信界的统一框架+多因素权衡分析+超越成对比较的视角）
实验充分度: ⭐⭐⭐⭐ （三个不同领域的基准，但每个领域的数据集较少）
写作质量: ⭐⭐⭐⭐ （理论部分严谨，但论文较长，初读有一定门槛）
价值: ⭐⭐⭐⭐⭐ （理论+实践兼备，统一框架有深远意义）

Preference is More Than Comparisons: Rethinking Dueling Bandits with Augmented Human Feedback¶

一句话总结¶

研究背景与动机¶

交互式偏好引出（IPE）的效率瓶颈¶

被忽视的视角：反馈增强¶

三个核心研究问题¶

方法详解¶

整体框架¶

关键设计¶

1. 增强置信界（Augmented Confidence Bounds）¶

2. 校准阈值与多因素权衡¶

3. 与现有方法的统一视角¶

损失函数 / 训练策略¶

样本复杂度（Theorem 3.2）¶

遗憾分析（Theorem 3.3）¶

计算设计¶

实验关键数据¶

主实验¶

推荐任务（Sushi/Car Preference，2000轮交互）¶

多目标优化（DTLZ7，200轮交互）¶

LLM响应优化（Anthropic H-H数据集）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

算法	类型	Sushi最终遗憾	Car最终遗憾	说明
RUCB	无上下文	中高	中高	基础DB
DTS	无上下文	中等	中等	随机策略
MaxInP	参数化	高	高	BT模型
COLSTIM	参数化	高	高	收敛问题
VACDB	参数化	持续增长	高	探索不足
IPEA-RUCB	增强	最低	最低	本文
IPEA-DTS	增强	次低	次低	本文

Preference is More Than Comparisons: Rethinking Dueling Bandits with Augmented Human Feedback¶

一句话总结¶

研究背景与动机¶

交互式偏好引出（IPE）的效率瓶颈¶

被忽视的视角：反馈增强¶

三个核心研究问题¶

方法详解¶

整体框架¶

关键设计¶

1. 增强置信界（Augmented Confidence Bounds）¶

2. 校准阈值与多因素权衡¶

3. 与现有方法的统一视角¶

损失函数 / 训练策略¶

样本复杂度（Theorem 3.2）¶

遗憾分析（Theorem 3.3）¶

计算设计¶

实验关键数据¶

主实验¶

推荐任务（Sushi/Car Preference，2000轮交互）¶

多目标优化（DTLZ7，200轮交互）¶

LLM响应优化（Anthropic H-H数据集）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶