Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information¶
会议: ICML 2026
arXiv: 2510.01499
代码: 无
领域: 多智能体
关键词: LLM聚合, 多智能体推理, 信息聚合, 贝叶斯最优, 无监督标注
一句话总结¶
本文提出两种利用高阶信息的 LLM 回答聚合算法——基于一阶准确率信息的 Optimal Weight (OW) 和基于二阶相关性信息的 Inverse Surprising Popularity (ISP),在不需要标签的条件下证明性优于多数投票,并在 UltraFeedback、MMLU 和医疗健康数据集上验证了一致的提升。
研究背景与动机¶
领域现状:多智能体 LLM 推理(如 LLM debate、LLM council)已广泛使用,在聚合多个模型回答时,绝大多数工作直接采用多数投票 (Majority Voting, MV) 作为标准聚合策略。
现有痛点:MV 是一种"零阶"方法,仅依赖原始回答的频次,完全忽略了不同 LLM 之间的能力异质性(有的模型准确率 90%、有的只有 60%)和回答之间的相关性。这意味着一个弱模型和一个强模型在投票中拥有相同权重,且当多个弱模型犯相同错误时容易误导最终结果。
核心矛盾:要利用模型准确率(一阶信息)来加权需要大量带标签数据来估计准确率,但在自动标注、预测市场等无监督场景中根本没有标签;而经典的 Surprisingly Popular (SP) 方法虽然利用了二阶相关性信息且不需要标签,但在 LLM 场景下反而不如 MV——因为 LLM 不像人类群体那样存在系统性偏差,SP 所利用的信号反而起了反效果。
本文目标:设计不依赖标签、利用高阶信息的聚合算法,在理论上可证地优于 MV。
切入角度:作者观察到随机打乱选项顺序后,联合分布具备对称结构(所有错误选项等概率),这种结构允许推导出闭式最优解。同时 SP 失败的原因在于其"放大偏差"的方向恰好与 LLM 场景相反,反转 SP 的计算方向即可纠正。
核心 idea:用准确率的逆 sigmoid 函数作为最优权重实现贝叶斯最优聚合;在没有标签时,将 SP 的预测方向反转(从"反事实"视角计算分数)来利用二阶信息超越 MV。
方法详解¶
整体框架¶
这篇论文要解决的是:当 \(N\) 个 LLM 对一道 \(K\) 选项的选择题各自给出回答 \(a_1, \ldots, a_N\) 后,怎么把它们聚合成一个比多数投票更准的答案。整套方法先做一步预处理——对每个问题随机打乱选项顺序,让正确答案之外的所有错误选项在统计上等概率出现,从而让回答的联合分布具备一种对称结构,正是这个结构让后面的最优解能写成闭式。聚合时按手头有什么信息分三档走:知道每个模型准确率就用 OW 做贝叶斯最优加权;一个标签都没有就用只依赖回答间相关性的 ISP,或者先用 ISP/拟合估出准确率再回到 OW(即 OW-I / OW-L)。最后把选出的答案按逆置换映射回原始选项顺序输出。
关键设计¶
1. Optimal Weight(OW):在已知准确率时把加权投票做到贝叶斯最优
多数投票最大的毛病是给所有模型同样的话语权,一个 90% 准确率的强模型和一个 60% 的弱模型投票等权,几个弱模型一起犯错就能带偏结果。OW 的做法是给第 \(i\) 个 agent 赋予权重 \(\omega_i = \sigma_K^{-1}(x_i)\)——其中 \(x_i\) 是它的准确率,\(\sigma_K(x) = e^x / (K-1+e^x)\) 是把 logistic 推广到 \(K\) 类的广义 sigmoid——然后按 \(f_{OW} = \arg\max_s \sum_i \sigma_K^{-1}(x_i) \cdot \mathbb{1}\{a_i = s\}\) 选票数最高的选项。关键不在"准确率越高权重越大"这个直觉,而在于:在随机打乱引出的对称信息结构下,这组逆 sigmoid 权重恰好是后验概率最大化的充要解,是所有可能聚合器(不限于线性加权)里的贝叶斯最优,而非众多加权方案中碰巧不错的一个。两个推论也随之而来:\(K=2\) 时它退化成 logistic 的逆,与 Bradley-Terry 模型对上号;当所有 agent 同质(准确率相同)时它又退化回 MV——这说明 MV 只有在 self-consistency 这种"同一模型多次采样"的特例下才是最优的。
2. Inverse Surprising Popularity(ISP):没有标签时靠回答间的相关性反超多数投票
OW 虽好但需要准确率,而自动标注、预测市场这类场景根本没有标签。经典的 Surprisingly Popular(SP)方法本来能在无标签下利用二阶相关性信息 \(\mathbb{P}(A_i|A_j)\),可在 LLM 上它反而不如 MV——因为 SP 赖以工作的前提是人群有"系统性低估正确答案"的偏差,而 LLM 群体没有这种偏差,SP 放大的信号方向就反了。ISP 的修法是把 SP 的预测方向整个反转:SP 算的是每个 agent "预测别人会怎么回答",ISP 算的是"假如别的 agent 给了一个反事实的回答,我会怎么预测",分数写成 \(S_{ISP}(s,i) = \frac{1}{N-1}\sum_{j \neq i} \frac{1}{K-1}\sum_{a \neq a_j} \mathbb{P}(A_i=s|A_j=a)\),再用优势函数 \(Adv_{ISP}(s) = \sum_i \mathbb{1}\{a_i=s\} - \sum_i S_{ISP}(s,i)\) 取最大的选项。用反事实条件概率代替真实条件概率,等于让预测分数偏向错误选项,反过来就把正确答案的优势放大了。论文给出了链式不等式 \(\mathbb{E}[Adv_{ISP}(s^*)] \geq \mathbb{E}[Adv_{MV}(s^*)] \geq \mathbb{E}[Adv_{SP}(s^*)]\),正好解释了为什么 ISP 强于 MV、而 MV 又强于原版 SP。
3. OW-L / OW-I:用二阶信息把准确率估出来,桥接回一阶最优框架
ISP 能无标签工作但只用到了二阶信息,而真正的贝叶斯最优 OW 还是需要准确率。这两个变体就是在没有标签时把缺的准确率补出来,再回到 OW:OW-L 通过最小化经验条件概率与理论条件概率之间的均方误差,反解出各 agent 的准确率 \(\hat{x}_1, \ldots, \hat{x}_N\);OW-I 则更直接,拿 ISP 的聚合结果当伪标签,统计每个 agent 与伪标签的一致率作为准确率估计。两者估出 \(\hat{x}_i\) 后都代回权重公式 \(\sigma_K^{-1}(\hat{x}_i)\) 做聚合。这样就把"无标签可用的二阶信息"转化成了"OW 需要的一阶最优权重",实验里两个变体在真实数据上表现几乎一致,且都比直接用 ISP 更好。
实验关键数据¶
主实验(模拟数据)¶
| 方法 | \(K=2\) | \(K=4\) | \(K=6\) | \(K=8\) | \(K=10\) |
|---|---|---|---|---|---|
| MV | 85.13% | 92.64% | 94.22% | 94.85% | 95.54% |
| SP | 79.94% | 90.52% | 92.68% | 93.66% | 94.40% |
| Single Best | 90.34% | 89.94% | 90.31% | 89.95% | 90.05% |
| ISP (本文) | 90.48% | 94.45% | 95.78% | 96.23% | 96.49% |
| OPT (clairvoyant) | 91.37% | 94.94% | 96.05% | 96.46% | 96.81% |
真实数据集实验(4 个强模型)¶
| 方法 | UltraFeedback | MMLU | ARMMAN |
|---|---|---|---|
| MV | 72.21% | 89.32% | 85.24% |
| ISP | 73.26% | 90.01% | 85.78% |
| OW-L | 73.66% | 90.37% | 85.78% |
| OW-I | 73.66% | 90.37% | 85.78% |
| Single Best (oracle) | 73.14% | 91.02% | 85.32% |
关键发现¶
- ISP 在所有 \(K\) 值下均优于 MV,且两者差距随 \(K\) 增大而缩小(\(\Theta(1/K)\)),与理论预测一致
- 在 16 种模型组合中,OW-L 在 97.92% 的情况下优于 MV,绝对提升最高达 14.20%;MV 在所有组合中从未取得最佳
- 假设检验 t-statistic 分别为 12.53(UltraFeedback)、23.39(MMLU)和 3.22(ARMMAN),p-value 均 < 0.001,提升在统计上显著
- 在"强干扰项"子集(MMLU-hard,至少两个模型选了相同错误选项)上,OW-L/OW-I 比 MV 提升超过 7%(17.23% → 24.79%),说明高阶信息在困难场景下更有价值
亮点与洞察¶
- 逆 sigmoid 权重的贝叶斯最优性:看似简单的加权方案 \(\omega_i = \sigma_K^{-1}(x_i)\) 实际上是所有可能聚合器中的最优解(不限于线性),这为 Bradley-Terry 模型在 RLHF 中的使用提供了理论背书。这个结论非常优雅且可直接应用
- 反转 SP 的反直觉设计:经典 SP 在人类群体中有效但在 LLM 中失败,作者深入分析了原因(LLM 缺少人类的系统性偏差),然后将方向反转得到 ISP,这种"诊断失败原因→针对性修改"的思路值得借鉴
- 二阶信息桥接一阶最优:OW-L/OW-I 将"无标签可用的二阶信息"转化为"需要标签的一阶最优权重",这种间接利用信息层级的思路可以迁移到其他无监督聚合场景
局限与展望¶
- 理论分析依赖条件独立假设(给定正确答案后各 LLM 独立),虽然实验表明在违反假设时仍有效,但缺乏正式的鲁棒性界
- 所有模型对同一问题使用相同的全局权重,未考虑不同问题类型上模型能力的差异(如某模型擅长数学但不擅长语言理解),prompt-specific 权重是明确的改进方向
- 仅处理封闭选择题(\(K\) 个选项),对开放式生成任务的扩展尚不明确
- 位置偏差的理论假设(LLM 不受选项顺序影响)在弱模型上不完全成立,虽然实验中不需要去偏就有效,但对弱模型的理论保证有待加强
相关工作与启发¶
- Surprising Popularity (Prelec et al., 2017):经典的基于二阶信息的聚合方法,但作者证明在 LLM 场景下 SP 劣于 MV,ISP 是对 SP 的针对性改进
- Bradley-Terry 模型:Corollary 3.2 建立了 OW 与 BT 模型的联系,为 RLHF 中 BT 模型的有效性提供了理论支持
- Self-Consistency (Wang et al., 2022):Corollary 3.3 证明了当 agent 同质时 MV 即最优,即 self-consistency 场景下无需更复杂的聚合
- 启发:该框架可直接作为多 LLM 系统中 MV 的 drop-in 替代品,且计算开销仅为 CPU 级别的几秒钟,适用于 API 调用场景