Designing Rules to Pick a Rule: Aggregation by Consistency¶

会议: ICLR2026
OpenReview: xxsacQ3tdb
代码: 待确认
领域: 学习理论 / 社会选择 / 排名聚合
关键词: 排名聚合, 社会选择, 规则选择, 一致性, 公理化分析

一句话总结¶

面对一大堆各有优劣的排名聚合规则（Borda、plurality、veto……）却不知道该用哪个的难题，本文提出"挑规则的规则"（RPR）这一全新框架，并给出一个具体方案 AbC——把投票者随机对半分两组，谁在两组上算出的排名最一致就选谁，从而无需事先承诺任何公理或生成模型，就能为每份数据自动挑出最合适的聚合规则。

研究背景与动机¶

领域现状：把多个评估者（人类标注者、benchmark、评审）给出的排名/打分聚合成一个总排名，是 AI 里反复出现的基础问题——RLHF 把人类偏好聚合成 reward model，constitutional AI 把多条原则的排名聚合，评估 AI agent 时把多个 benchmark 当作"评估者"聚合，同行评审把多位 reviewer 的排序聚合成录用决定。社会选择和统计学已经造出了海量聚合方法，每个都有自己漂亮的性质，但也都有自己的软肋。

现有痛点：不同方法在同一份数据上可能给出天差地别的总排名，直接影响最终结果——RLHF 和 agent 评估中都观察到过"选错方法导致结果与评估者意见相悖"的现象。可问题是，到底怎么判断一个聚合方法"好不好"、该用哪个？现有两条路都有硬伤。

核心矛盾：第一条是公理化路线——先选定若干希望满足的公理，再设计满足它们的规则；但 Arrow、Gibbard-Satterthwaite 等著名不可能定理证明了一些基本公理本就互相矛盾，"理想规则"根本不存在，而即便公理可同时满足，也常有多个规则都满足、选哪个又变得任意。第二条是统计路线——把排名看成对某个客观真值的含噪估计（Plackett-Luce、Mallows 等噪声模型），选最大化数据似然的排名；但它假设存在唯一 ground truth，这在 AI 对齐这类"合理的意见分歧"场景里根本站不住，而且很多有良好性质的投票规则压根不是任何噪声模型的 MLE，直接被这条路线排除在外。

本文目标：换一个问法——既然规则多、又没有先验的优选依据，那么在给定场景下，如何挑出该用哪个规则？也就是：什么才是一个好的"规则选择规则"（Rule Picking Rule, RPR）？

切入角度：作者注意到，"挑规则"而非"挑排名"本身就有三重好处：① 可解释性更强——能形式化地说明为什么没采用其他规则；② 不同（都合理的）规则适配不同场景，RPR 提供了有原则的取舍方式；③ 框架可以从任意规则集合里挑，新规则随时能并入。而判断规则好坏的抓手，作者锁定在一致性——如果把数据收集过程重做一遍，好规则应该给出相近的结果。

核心 idea：把投票者随机分成两半当作"过程重做了一次"，挑出在两半上输出最一致（分歧最小）的那个规则——用一致性作为质量的代理，绕开"承诺公理"和"假设真值"两道坎。

方法详解¶

整体框架¶

本文要解决的不是"输出哪个排名"，而是上一层的"该用哪个聚合规则"。作者先把这个元问题形式化为 RPR：给定一组候选规则 \(F\)（每个规则是一个把投票档案映射成排名的社会福利函数 SWF）和一份投票档案 \(\sigma\)，RPR 是一个函数 \(Z(F,\sigma)\subseteq F\)，从候选里挑出（可能不止一个）适合当前数据的规则。候选规则集合就相当于机器学习里的假设类，框架对它不加任何限制。

在这个框架下，作者实例化出 AbC（Aggregation by Consistency）。它的运转极其朴素：把全体投票者均匀随机地分到两组 \(N_1,N_2\)，分别得到两个子档案 \(\sigma^{(1)},\sigma^{(2)}\)，把每个候选规则在两个子档案上各跑一遍，量出两个输出排名之间的分歧（用带平局的 Kendall-Tau 距离），最后选期望分歧最小的那个规则：

\[\text{AbC}(F,\sigma)=\arg\min_{f\in F}\ \mathbb{E}\big[\,\text{KT}\big(f(\sigma^{(1)}),\,f(\sigma^{(2)})\big)\,\big],\]

期望取在随机对半分上。关键之处在于，这个算法对规则的输入/输出类型完全不可知——它只需要一个能比较两个输出的"分歧度量"，所以排名、打分、approval set 都能用，输出可以是总排名、单一胜者、reward 函数。本文聚焦"输出总排名"这一具体情形做分析与实验。框架图给出 AbC 的核心算法流程：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["投票档案 σ<br/>+ 候选规则集 F"] --> B["随机对半分<br/>把投票者分入 N₁ / N₂"]
    B --> C["每个候选规则 f<br/>在两半各算一个排名<br/>f(σ⁽¹⁾) 与 f(σ⁽²⁾)"]
    C --> D["带平局的 Kendall-Tau<br/>量两输出的分歧"]
    D -->|重复多次取均值| B
    D --> E["选期望分歧最小的规则<br/>AbC(F,σ)"]
    E --> F["用选中的规则聚合 σ<br/>得到总排名"]

关键设计¶

1. RPR 框架：把问题从"挑排名"抬高到"挑规则"

以往文献几乎都在"挑一个聚合排名"，本文的第一层创新是把决策对象上移一层，明确地"挑一个规则"。形式上，SWF 是把档案 \(\sigma\in L(A)^n\) 映成一个弱排名（允许平局，这样能在不破坏中立性/匿名性的前提下返回单一排名）；RPR 则是 \(Z(F,\sigma)\subseteq F\)，从候选规则里选子集，平局时再用一个 tie-breaking 顺序定下唯一规则。这个抬升带来的好处不是修辞——它让"为什么不用别的规则"变成可形式化论证的对象，让"不同场景配不同规则"有了统一接口，也让候选集合可以像假设类一样随时扩充。框架对候选集不设限：你可以只放某噪声模型的 MLE，也可以只放满足某些公理的投票规则，于是后面公理化路线和统计路线的好处都能被"借"回来。

2. 一致性即质量：AbC 用随机对半分逼近"过程重做一遍"

挑规则需要一个质量信号，AbC 选的是一致性——若数据收集重来一次，好规则应给出相近结果。难点在于现实中往往只有一份数据、没法真的重做。AbC 的巧思是把现有投票者均匀随机对半分，两半各自当作过程的一份独立拷贝，谁在两半上输出最一致就选谁。这个直觉有坚实的统计支撑：作者借 MVUE（最小方差无偏估计）论证——一个随机变量的方差等于它两份 i.i.d. 拷贝之差平方的期望的一半，所以"两份数据上差异期望最小的估计量"恰好就是方差最小的那个。把无偏性诠释成"任何可接受规则都该满足的基本约束"（通过把候选限制在中立且匿名的规则来实现），最一致的规则就对应到 MVUE。这一原理还和同行评审（两个评审 panel 的分歧被视为质量缺陷）、聚类的稳定性选模型、RLHF 对鲁棒性的诉求一脉相承。一个附带好处是：如果某个生成模型确实近似了数据，它的 MLE 在随机分裂下分歧最低，AbC 就会自动选中它，于是统计路线的好处被无痛纳入。

3. 带平局的 Kendall-Tau 距离与部分排名加权

要量"两个输出排名有多不一致"，本文用带平局的 Kendall-Tau。对任意一对候选 \(a,b\)，\(D^{a,b}_{r_1,r_2}\) 指示两排名是否对 \(a,b\) 的相对次序产生严格分歧，\(T^{a,b}_{r_1,r_2}\) 指示是否至少有一方把 \(a,b\) 判为平局，则

\[\text{KT}(r_1,r_2)=\sum_{\{a,b\}:a\neq b}\Big(D^{a,b}_{r_1,r_2}+\tfrac{1}{2}T^{a,b}_{r_1,r_2}\Big).\]

平局项是作者特意加的：标准 KT 只算严格分歧，那样一个"永远把所有候选判平局"的规则会拿到满分一致性，纯属耍赖；引入按 \(\tfrac12\) 加权的平局项（灵感来自 Kendall's Tau-b）正是为了惩罚这种"装糊涂"的不决断。对部分排名（每个投票者只排一个子集 \(A_i\)，这在同行评审、RLHF 里很常见），不同候选在分裂两侧被评估的次数会不均；作者改用加权 KT，按某个候选在分裂中被多均匀地代表来设它的权重——某候选若几乎所有评估都落在同一侧，对它的分歧就该少惩罚，因为另一侧本就缺乏判断它的信息。

4. 公理化分析：AbC 满足什么、不满足什么，以及不可能性

作者为 RPR 定义了一组自然公理并证明 AbC 的行为。反转对称性：把每个投票者的排名整体翻转，RPR 选出的规则也该对应翻转（plurality 的反转是 veto，Borda 自反），AbC 满足。plurality-shuffling 一致性（PSC）：若把每个排名中第 2 到第 \(m\) 位均匀打乱（信号全集中在最顶端），合理的 RPR 应只选对这些位置一视同仁的 plurality；作者证明一大类"福利最大化型"RPR（\(Z(F,\sigma)=\arg\max_f u(\sigma,f(\sigma))\)）统统违反 PSC，而 AbC 满足它（Theorem 1）。代价是 AbC 不满足并集一致性（UC）和单调性保持，但作者给出不可能性结果证明这两者各自与 AbC 满足的某条公理互不相容（任何匿名 RPR 都无法同时满足反转对称、PSC、UC；也无法同时满足反转对称与保持单调性），说明 AbC 的"失"是理论上无法避免的取舍。另一方面，Theorem 2 表明只要把候选规则都限制为满足某性质的 SWF，AbC 就保持匿名性、中立性，以及 Smith 准则、Condorcet 一致、多数胜者、unanimity 等社会选择经典公理——这正是 RPR 框架"借回公理化路线好处"的体现。

5. 计算复杂度与可行实现：硬，但能采样近似

当候选集是全体位置打分规则 \(F_S\) 时，作者定义 PERFPOS 问题：给定一个对半分，是否存在某个打分向量 \(s\) 使两半输出完全一致（\(\text{KT}=0\)）？Theorem 3 用 3SAT 归约证明 PERFPOS 是 NP-完全的——从 3CNF 公式构造两个半档案，让变量对应的候选对强制相邻打分差"够小或够大"（对应 True/False），子句对应的候选对保证"当且仅当该赋值满足公式时才能达到完全一致"。这还意味着最小分歧任意乘性因子都难近似（能近似就能判 0）。但实践中 AbC 完全可高效跑：用蒙特卡洛采样估期望分歧（多次随机分裂取均值），即便候选无穷（全体打分规则）也能用优化/学习去找最小化 \(\text{KT}\) 的打分向量——作者比较了 SGD 和模拟退火，发现模拟退火既能找到分歧更低的向量、又比 SGD 省算力，故实验主用模拟退火。

实验关键数据¶

主实验：一致性确实是质量的好代理¶

在 Mallows 与 Plackett-Luce 两个噪声模型抽取的部分排名上，作者画出"各 SWF 到 ground truth 的 KT 距离（误差）"对"各 SWF 在分裂两半间的 KT 距离（不一致）"的 log-log 图，二者呈清晰正相关；且两种分布下，模型的 MLE（分别是 Kemeny 与 PL MLE）在两个轴上都最优——既最贴近真值、分裂间又最一致。由于 AbC 选分裂分歧最小者，它在面对来自该模型的数据时就会选中其 MLE，从而获得统计路线的好处。

评估场景	AbC 的结论	与既有实践对比
合成数据（Mallows / Plackett-Luce）	选中模型的 MLE（Kemeny / PL MLE）	印证"一致性≈质量"的 MVUE 直觉
政治选举（25 场，IRV 实选）	21/25 存在某规则可达零分歧，但每场的最优规则不同；IRV 偶尔最差	证实"不同场景配不同规则"，AbC 可逐场可靠选出一致规则
F1 赛车（每场比赛当一个投票者）	历史上两次打分规则改动都提升了一致性	AbC 可用来评估规则改动的影响
ALMA 望远镜项目评审	给 Borda 加 outlier rejection（Trimmed Borda）反而增大分歧	推翻 ALMA 曾考虑的修改方案

打分数据上的发现：均值比最大值更一致¶

在 Kerzendorf et al. (2020) 的天文学同行评审打分数据上，作者对各"打分→排名"聚合函数跑 1000 次随机分裂，量平均 KT 距离：

聚合函数	算术均值	Min	Max	中位数	几何均值
KT 距离（1000 次分裂）	0.364 ± 0.001	0.444 ± 0.001	0.409 ± 0.001	0.371 ± 0.001	0.369 ± 0.001

尽管同行评审实践中常优先看"最高分"的项目（Nierstrasz, 2000），AbC 显示均值类函数给出的结果更一致（算术均值 0.364 明显低于 Max 的 0.409），对评审实践是一个反直觉但有数据支撑的提示。

关键发现¶

一致性与误差正相关是全文的实验基石：在有 ground truth 的合成数据上验证后，才有底气把"分裂一致性"当作无真值场景下的质量代理。
"没有放之四海皆准的规则"被实测坐实：25 场选举里最优规则各不相同，正是 RPR/AbC"逐场挑规则"价值所在；用单一固定规则（如 IRV）有时恰是最差选择。
AbC 可当"规则改动的体检工具"：F1 的规则改动被判为改善、ALMA 的 Trimmed Borda 被判为恶化、同行评审"重最大值"被判不如"重均值"——都是直接可落地的治理建议。
该方法的一个实现还拿下了 IJCAI 2024 第二届计算社会选择竞赛四个获胜方案之一（该赛用隐藏福利函数打分），佐证 AbC 在一般场景下也表现良好。

亮点与洞察¶

把"挑排名"抬到"挑规则"这一层视角转换本身就很漂亮：它让"为什么不用别的规则"变成可形式化论证的对象，并把公理化与统计两条对立路线的好处都收编进同一个框架（限制候选集即可继承公理、最一致即自动选中 MLE）。
用随机对半分模拟"过程重做一遍"是极其朴素却普适的工程化手段——无需任何生成模型、无需真值，靠重采样就把"一致性"这个抽象质量信号算了出来，且对输入/输出类型完全不可知，排名/打分/单胜者/reward 函数通用。
MVUE 视角给一致性原理提供了统计学正名：方差=两份 i.i.d. 拷贝之差的期望的一半，于是"分裂间最一致"严格对应"最小方差"，这条桥把一个看似启发式的做法接到了经典估计理论上。
平局项的设计很见功力：若不惩罚平局，"全判平局"会骗到满分一致性——一个细节就堵住了度量被钻空子的漏洞，这种思路可迁移到任何"用一致性/稳定性当质量代理"的场景。
用 NP-完全性诚实地标出"精确求解很难"，再用蒙特卡洛+模拟退火给出实用近似，理论与可落地性兼顾。

局限与展望¶

作者把投票者的排名当作固定输入处理，没有考虑投票者的策略性行为；一旦投票者会操纵，"在历史数据上跑 AbC 评估规则改动"的有效性就会打折，这是明确指出的未来方向。
AbC 不满足 UC 与单调性保持——虽然作者用不可能性结果说明这是理论上无法回避的取舍，但在某些应用里这两条性质可能恰恰是用户最在意的，届时 AbC 未必是合适选择。
全文公理分析与主要实验都聚焦"输出总排名 + Kendall-Tau 距离"这一具体情形；换成 NDCG（重视榜首）、Jaccard（输出固定大小子集）等其他距离/输出格式时，AbC 的公理性质如何尚属开放问题（附录有初步定性实验，但理论分析待补）。
PERFPOS 的 NP-完全性意味着在大规模、候选为全体打分规则时，近似解的质量依赖优化器（模拟退火）的好坏，缺乏最优性保证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把决策对象从"排名"抬到"规则"、提出 RPR 框架并用随机分裂一致性实例化，是一个干净而原创的视角。
实验充分度: ⭐⭐⭐⭐ 合成模型验证 + 选举/F1/同行评审/望远镜评审多域真实数据，覆盖广且能落地，唯多为定性结论、缺与更多 baseline 的定量对照。
写作质量: ⭐⭐⭐⭐⭐ 动机层层递进、公理与不可能性结果叙述清晰、用 Example 和算法框把直觉讲透。
价值: ⭐⭐⭐⭐⭐ 直击 RLHF/评审/agent 评估等场景"该用哪个聚合规则"的真实痛点，并能当作评估规则改动的实用工具。