Bipartite Ranking From Multiple Labels: On Loss Versus Label Aggregation¶
会议: ICML2025
arXiv: 2504.11284
代码: 无
领域: 其他/学习理论
关键词: bipartite ranking, AUC, 多标签排序, loss aggregation, label aggregation, Pareto最优, 标签独裁
一句话总结¶
本文从理论上分析了多标签二部排序(bipartite ranking)中两种聚合策略——损失聚合(loss aggregation)与标签聚合(label aggregation)——的Bayes最优解,揭示了损失聚合会产生"标签独裁"(label dictatorship)现象(某一标签因边际偏斜度而主导排序),而标签聚合能更均衡地对待所有标签。
研究背景与动机¶
- 二部排序(Bipartite Ranking) 是监督学习的基础问题,目标是学习一个评分函数 \(f: \mathcal{X} \to \mathbb{R}\),使正例排在负例之上,以最大化 AUC(ROC曲线下面积)。
- 传统设定假设只有单个二值标签,但实际中常存在多个二值标签(如信息检索中的相关性标注与点击率、医学诊断中多位专家的意见、推荐系统中点击概率与多样性)。
- 面对多标签,如何产生单一的、合理的排序?文献中主流有两种做法:
- 损失聚合(Loss Aggregation, LoA):将各标签的 AUC 目标加权求和并优化。
- 标签聚合(Label Aggregation, LaA):先将多个标签合并成一个聚合标签(如求和),再在聚合标签上优化多部 AUC。
- 两者虽已在实践中被广泛使用,但缺乏理论分析指导应该如何选择。本文填补了这一空白。
方法详解¶
问题形式化¶
给定 \(K\) 个二值标签 \((\mathsf{Y}^{(1)}, \ldots, \mathsf{Y}^{(K)}) \in \{0,1\}^K\),联合分布 \(D^{\text{jnt}}\),每个标签的条件概率为 \(\eta^{(k)}(x) = P(\mathsf{Y}^{(k)}=1 \mid \mathsf{X}=x)\),边际先验为 \(\pi^{(k)} = P(\mathsf{Y}^{(k)}=1)\)。
损失聚合(Loss Aggregation)¶
Bayes最优解(Proposition 5.2):最优评分函数等价于按以下加权排序:
关键观察:即使权重均匀(\(a_k = 1\)),最优解仍依赖于边际类先验 \(\pi^{(k)}\),偏斜越严重的标签权重越大(\(1/[\pi^{(k)}(1-\pi^{(k)})]\) 在 \(\pi^{(k)}\) 远离 0.5 时急剧增大)。
标签聚合(Label Aggregation)¶
先聚合标签 \(\bar{\mathsf{Y}} = \sum_k \mathsf{Y}^{(k)}\),再优化多部AUC:
当代价设为 \(c_{\bar{y}\bar{y}'} = |\bar{y} - \bar{y}'| \cdot \mathbf{1}(\bar{y} > \bar{y}')\) 时,Bayes最优解(Proposition 5.4):
关键优势:最优解是各标签条件概率的等权求和,不依赖 \(\pi^{(k)}\),天然避免标签独裁。
"标签独裁"现象(Label Dictatorship)¶
对确定性标签情形(\(\eta^{(k)}(x) \in \{0,1\}\)),Proposition 6.1 揭示:
- 若 \(\alpha^{(1)} = a_1/[\pi^{(1)}(1-\pi^{(1)})] > \alpha^{(2)}\),则排序完全由标签1决定;
- 若反之则完全由标签2决定。
这意味着边际分布偏斜的标签会"劫持"整个排序——即使两个标签的条件质量相同。而标签聚合对 \((1,0)\) 和 \((0,1)\) 不施加偏序,避免了此问题。
实验关键数据¶
合成数据实验¶
| 设置 | 方法 | \(\Delta_{\text{AUC}}\)(越低越好) |
|---|---|---|
| \(\pi^{(2)}\) 偏斜增大 | Loss Aggregation | 随偏斜度显著增大 |
| \(\pi^{(2)}\) 偏斜增大 | Label Aggregation | 始终保持较低 |
- 随着标签2的偏斜度增加,损失聚合的两个标签AUC差距急剧增大(独裁现象),标签聚合则保持稳定均衡。
Banking 数据集(UCI)¶
| 目标函数 | AUC mortgage↑ | AUC loan↑ | Diff AUC↓ | Min AUC↑ |
|---|---|---|---|---|
| AUC(mortgage) | 0.637 | 0.523 | 0.113 | 0.523 |
| AUC(loan) | 0.550 | 0.573 | 0.023 | 0.550 |
| AUC_LaA | 0.616 | 0.562 | 0.054 | 0.562 |
| AUC_LoA(1,1) | 0.626 | 0.555 | 0.071 | 0.555 |
- 标签聚合在 Min AUC 上最优(0.562),差异值最低(0.054),更均衡。
MSLR Web30k 数据集¶
| 目标函数 | AUC Click↑ | AUC Rel↑ | Diff AUC↓ | Min AUC↑ |
|---|---|---|---|---|
| AUC(Click) | 0.74 | 0.61 | 0.13 | 0.61 |
| AUC(Rel) | 0.70 | 0.67 | 0.03 | 0.67 |
| AUC_LaA | 0.73 | 0.68 | 0.05 | 0.68 |
| AUC_LoA | 0.73 | 0.67 | 0.06 | 0.67 |
- 标签聚合 Pareto 支配损失聚合(等权),Min AUC 0.68 > 0.67。
HelpSteer 数据集¶
- 固定第一标签为 coherence(最均衡),变化第二标签(不同偏斜度)。
- 损失聚合的每标签AUC差异在所有设置下均高于标签聚合。
亮点与洞察¶
- 理论贡献扎实:首次完整刻画了两种聚合方式的 Bayes 最优解形式,清晰揭示隐藏在损失聚合中的 \(\pi^{(k)}\) 依赖。
- "标签独裁"概念精准:直观地用偏序图展示了损失聚合如何在 \((1,0)\) 与 \((0,1)\) 之间强加全局偏好(红色箭头 vs 标签聚合的无序关系)。
- 实用指导价值高:对于有多个标签源的排序场景(信息检索、推荐系统、医学诊断),建议采用标签聚合 + 线性代价 \(c = |y - y'|\)。
- 代价函数的选择至关重要:均匀代价 \(c=1\) 的标签聚合不保证 Pareto 最优(Proposition 5.3),而线性代价 \(c=|y-y'|\) 则可(Proposition 5.4)。
局限与展望¶
- 仅处理二值标签:虽然聚合后的标签是多值的,但起始标签限制为 \(\{0,1\}\),未扩展到连续评级。
- 未提出新算法:偏理论分析,实验直接用已有的 AUC 优化方法(逻辑/hinge 代理损失)。
- 未探索直接最大化 Min AUC:作者自己提到这是有趣的未来方向。
- 标签间的权重控制有限:标签聚合的 \(\sum \eta^{(k)}\) 默认等权,若需非均匀权重则需额外设计代价函数。
- 可扩展性讨论不足:当 \(K\) 较大时,聚合标签的取值范围 \(\{0,\ldots,K\}\) 增大,实际效果未充分验证。
相关工作与启发¶
- 多目标排序:Svore et al. (2011) 开创多标签排序范式;Carmel et al. (2020) 提出标签聚合在搜索中的应用。
- 多部AUC理论:Uematsu & Lee (2015) 给出多部 AUC 的 Bayes 最优解条件(scale condition),本文直接利用其结果。
- Pareto最优与线性标量化:Ruchte & Grabocka (2021) 证明线性标量化的最优解是 Pareto 最优的,但本文揭示 Pareto 最优不意味着实用。
- 公平性关联:Min AUC 指标与公平学习中的最坏类表现(Sagawa et al., 2020)有思想类比。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统分析两种聚合策略的理论差异,标签独裁概念新颖
- 实验充分度: ⭐⭐⭐⭐ — 合成+3个真实数据集,覆盖不同偏斜度
- 写作质量: ⭐⭐⭐⭐⭐ — 定义-命题-证明-实验一气呵成,图表直观
- 价值: ⭐⭐⭐⭐ — 对多标签排序的实践选择提供了理论指导