跳转至

Decision Aggregation under Quantal Response

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=VtN1z92lvu
代码: 待确认
领域: 学习理论 / 信息聚合 / 有限理性
关键词: 决策聚合, 量化响应, 有限理性, 多数投票, 极小极大遗憾

一句话总结

本文在量化响应(quantal response)刻画的有限理性下研究如何聚合 \(n\) 个专家的二元决策,证明当群体理性低于一个依赖群体规模的阈值 \(g(n)\) 时,朴素的多数投票就是极小极大意义下最鲁棒的聚合器,而且有限理性的群体竟能反超完全理性的群体——因为决策中的随机性会把确定性行为里丢失的弱信号编码进来;并用 LLM 的温度参数作为天然的"理性旋钮"在实证上验证了这一点。

研究背景与动机

领域现状:信息聚合(把多个专家的判断合成一个集体决策)是集体智慧的核心问题,经典做法(鲁棒预测聚合、Condorcet 陪审团定理等)几乎都假设专家是完全理性的——拿到信号后做精确的贝叶斯推断、再取期望效用最大的动作。在不知道信号联合分布("信号结构")的情况下,研究者用"最坏情况遗憾"(worst-case regret)来评价聚合器:相比一个知道一切的全知聚合器,你最多差多少。

现有痛点:现实里的专家几乎从不完全理性。人会有认知偏差、判断带噪声;而把这套理论搬到 AI 上时,LLM 通过温度参数天生就在做随机选择——温度越高输出越随机。完全理性的假设既不符合人,也不符合机。已有工作要么聚焦完全理性,要么聚焦对抗性专家,缺一个能把"有限理性"系统纳入鲁棒聚合框架的分析。

核心矛盾:直觉上,"不那么理性"应该是坏事——单个 John(凭直觉、有时反着下注)的平均效用(0.43)就低于完全理性的 Mia(0.5)。但论文给出一个反直觉的观察:一群 John 经过聚合后效用能升到 0.51,反超一群永远 0.5 的 Mia。个体的"犯错"在群体层面反而注入了信息。问题是:在不知道信号结构的现实约束下,这种优势还守得住吗?该用什么聚合器去兑现它?

本文目标:在量化响应建模的有限理性、且信号条件独立同分布(c.i.i.d.)的设定下,回答两个子问题——(1) 不知道信号结构时,什么聚合器在最坏情况下最优?(2) 有限理性到底是不是能在群体里压过完全理性,能压过的话是何条件?

切入角度:用 McKelvey-Palfrey 的量化响应函数 \(\psi_\lambda\) 把"理性程度"压缩成一个标量参数 \(\lambda\),再把聚合写成一个对信号结构的极小极大遗憾优化。关键洞察是:有限理性会规整(regularize)可能的报告结构空间,把那些偏爱复杂、非单调聚合器的极端结构抹平,从而让简单的多数投票脱颖而出。

核心 idea:把有限理性参数化为 \(\psi_\lambda\),在极小极大遗憾框架下证明"理性够低 → 多数投票最优 + 有限理性反超完全理性",并指出 LLM 的温度 \(t\) 就是 \(1/\lambda\),让理论可被 LLM 实证。

方法详解

整体框架

设状态 \(\omega\in\{0,1\}\) 有已知先验 \(\mu=\Pr[\omega=1]\)。一个决策者(DM)面对 \(n\) 个匿名专家,专家 \(i\) 观察到私有信号 \(S_i\),信号在给定 \(\omega\) 时条件独立同分布(c.i.i.d.)。专家不上报后验,而是上报一个二元决策 \(X_i\in\{0,1\}\),决策按量化响应函数生成。DM 只能看到"有多少人报 1",即 \(X=\sum_i X_i\),并据此用一个聚合器 \(f:\{0,\dots,n\}\to[0,1]\) 给出对状态的猜测(\(f(x)\) 是看到 \(x\) 个 1 时猜 \(\omega=1\) 的概率)。

效用是"猜对得 1、猜错得 \(-1\)",DM 与专家目标一致,因此专家没有策略性谎报的动机(这区别于博弈论里那套异质效用、策略投票的研究)。评价标准是极小极大遗憾:相比知道真实报告结构 \(\hat\theta\) 的全知聚合器,DM 在最坏的 \(\hat\theta\) 下能差多少。整篇论文要解的就是

\[\mathrm{opt}_{\hat\Theta}\in\arg\min_f\ \max_{\hat\theta\in\hat\Theta}\ R(f,\hat\theta),\qquad R(f,\hat\theta)=U(\mathrm{opt}_{\hat\theta},\hat\theta)-U(f,\hat\theta).\]

难点在于信号结构空间是无穷维、不可直接优化。整条主线是:用一个几何上的维度约简把这个无穷维问题压成三参数问题,再在三参数空间里证明多数投票的最优性阈值与有限理性优势,最后用 LLM 温度实证。

关键设计

1. 量化响应:把"理性程度"写成一个可调温度的逻辑斯蒂选择

经典聚合里专家是非黑即白的贝叶斯最优者,这既不真实也让"理性多少"无法量化。本文借用 McKelvey-Palfrey 的量化响应函数把决策随机化:设专家看到信号后买入(\(X=1\))相对卖出的期望效用差为 \(v=E[u(1,\omega)\mid S]\in[-1,1]\),则买入概率为

\[\varphi_\lambda(v)=\frac{e^{\lambda v}}{e^{-\lambda v}+e^{\lambda v}}=\frac{1}{1+e^{-2\lambda v}}.\]

把后验 \(p=\Pr[\omega=1\mid S_i]\) 代入(\(v=2p-1\)),得到以后验为自变量的响应 \(\psi_\lambda(p)=\dfrac{1}{1+e^{2\lambda(1-2p)}}\)。参数 \(\lambda\) 就是"理性旋钮":\(\lambda=0\) 时纯随机(掷硬币),\(\lambda\to\infty\) 时退化为确定性阈值规则(后验过半就报 1)。这个形式与 LLM 输出层的带温度 softmax 结构完全一致——若把内部 logit 视为期望效用,理性 \(\lambda\) 就数学等价于逆温度 \(1/t\)。这一步既给了"有限理性"一个干净的标量刻画,也为后面用 LLM 当实验对象埋好了接口。

2. 极小极大遗憾框架:全知聚合器作标尺,鲁棒聚合器抗未知

DM 不知道信号结构,无法直接最大化效用,所以本文引入两层对象。理想的全知聚合器 \(\mathrm{opt}_{\hat\theta}\) 知道真实报告结构,按 \(\Pr_{\hat\theta}[\omega=1\mid X=x]\) 是否过半来决策,是不可达的上界。现实的鲁棒聚合器则最小化与全知者的最坏差距 \(R(f,\hat\theta)\)。把问题写成极小极大形式后,"哪个聚合器最优"就变成一个有良定义的优化问题,而不再依赖对具体场景的猜测。这一设计的价值在于:它让"不知道信号结构"这个现实约束变成可分析的数学对象,也让"多数投票是否最优"成为一个能被证明或证伪的命题。

3. 三信号维度约简:核心几何引理把无穷维压成三参数

直接在所有 c.i.i.d. 信号结构上做极小极大优化是无穷维、不可解的。本文的关键技术贡献是一个几何约简:由于专家的报告只依赖其后验 \(s\in[0,1]\),可以把每个后验编码成 \(\mathbb{R}^3\) 中一条曲线上的点,所有合法的报告结构恰好构成这条曲线的凸包。论文证明了一条关键引理——曲线上任意四点都不共面;结合 Carathéodory 定理(\(\mathbb{R}^3\) 中凸包里的点最多由 3+1 个顶点表出,配合无四点共面可收紧到 3 个),任何报告结构都能由至多三个后验 \(\{0,p,1\}\) 的信号结构等价表示。于是无穷维优化坍缩成一个可处理的三参数空间,后续所有定理才得以推进。这是全文从"想法"走到"可证"的枢纽。

4. 主定理:多数投票的最优性阈值 \(g(n)\) 与有限理性优势

在三参数空间里,论文证明了两个结论。其一是多数投票的最优性:当 \(\lambda\le g(n)\) 时,多数投票 \(f^{\mathrm{maj}}\)(过半报 1 则猜 1,恰好一半则掷硬币)就是极小极大最优的鲁棒聚合器。阈值 \(g(n)\) 被定义为某个对所有 \(q_0,q_1\) 都成立的不等式所允许的最大 \(\lambda\),直觉上 \(\lambda\) 越小、报告越随机,报告结构空间被"规整"得越平滑,复杂的非单调聚合器就失去了用武之地,简单的多数票反而最稳。证明路径是先建立两两最优性(对任意一对对称结构,多数票最小化其合并遗憾),再升级为全局极小极大最优。特别地 \(n\le 2\)\(g(n)=\infty\),即任意有限 \(\lambda\) 多数票都最优。

其二是有限理性优势:单专家(\(n=1\))时完全理性最好,但只要 \(n\ge 2\),就存在信号结构 \(\theta^*\) 和有限 \(\lambda^*\),使得有限理性的最优效用严格超过完全理性;当 \(n>2\) 时,这个超越甚至无需精巧聚合器、多数投票就够。证明是构造性的:设计一个 \(\theta^*\) 让完全理性专家全体一致报 0、效用卡死在 0.5;换成有限 \(\lambda^*\) 后报告变随机,这种"噪声"虽乱却含信息,使聚合器能拿到严格大于 0.5 的效用。配套的数值实验还显示最坏遗憾随 \(\lambda\)U 形——适度的"噪声/不理性"优于一味追求完美理性;但群体较大(如 \(n=5\))且理性很高时,更复杂的聚合器会反超多数票(即 \(g(n)\) 是充分而非必要条件)。

损失函数 / 训练策略

本文是纯理论 + 实证分析论文,无训练目标。实证侧用 gpt-4o-mini,通过温度 \(t\in\{0,0.5,1\}\) 模拟不同理性 \(\lambda\),对同一 query 独立采样多份回答来模拟 c.i.i.d. 专家,再用多数/众数投票聚合。

实验关键数据

主实验

两组实证研究,均用 gpt-4o-mini,温度对应理性旋钮,验证理论的两个预测:LLM 是否服从量化响应、以及"群体规模 × 理性"如何影响聚合。

研究 任务 设置 关键结论
贝叶斯决策 球-盒后验推断(Phillips-Edwards 范式) 400 场景 × 20 次重复,\(t\in\{0,0.5,1\}\),逻辑回归拟合 \(\lambda\) 温度升高 \(\lambda\) 下降:\(t=0\)\(\lambda\to\infty\)\(t=0.5\)\(\lambda=13.25\)\(t=1.0\)\(\lambda=8.93\)\(z\) 远超 ±1.96,\(p\approx0\)),确认 LLM 服从量化响应
多选问答 MathQA 数学多选 500 题 × 20 回答,众数投票 \(f^{\mathrm{plu}}\),1000 次自助重采样,\(n\in\{1,3,5\}\) \(n\ge3\) 时高温聚合更准,复现"有限理性优势"

消融 / 分析

配置 现象 说明
\(n=1\),低温 \(t=0\) 效用/准确率最高 单专家时随机性纯属有害,确定性最好
\(n=1\),高温 \(t\ge0.5\) 略降 单个随机专家不如单个确定专家
\(n=3,5\),高温 \(t=0.5/1\) 反而升高 多专家时随机性提供信息多样性,聚合后更优
random-follow 规则 ≤ 多数投票 等价于 \(n=1\) 多数票,始终不优于更大群体的多数票

两组研究中:贝叶斯任务的期望效用约在 0.85–0.865 区间(具体数值以原文 Figure 3 为准),MathQA 准确率约在 0.815–0.85 区间;二者呈现同一模式——增大 \(n\) 普遍提升聚合表现,\(n=1\) 时升温有害、\(n\ge3\) 时升温有益。

关键发现

  • 群体规模是开关:随机性(高温/低 \(\lambda\))对个体是负担、对群体是财富——\(n\) 从 1 增到 3 时,温度的效应直接从"有害"翻转成"有益",与理论里 \(g(n)\) 随群体变化的预测吻合。
  • 温度 = 逆理性:逻辑回归拟合出的 \(\lambda\) 随温度单调下降,定量坐实了 \(\lambda\leftrightarrow 1/t\) 的对应,使 LLM 成为检验有限理性理论的理想实验台。
  • 适度而非极致:最坏遗憾的 U 形曲线说明存在一个最优的中等理性水平,盲目追求确定性(\(t=0\))在群体设定下反而吃亏。

亮点与洞察

  • "犯错有信息"的反直觉结论被严格化:把民间智慧"群体的随机性能挖出深层真相"落成可证定理——完全理性专家会一致地丢掉弱信号,而有限理性的抖动恰好把这些弱信号泄露给了聚合器。
  • 维度约简是真正的硬核:把无穷维信号结构空间通过"曲线无四点共面 + Carathéodory"压到三个后验 \(\{0,p,1\}\),这一几何论证既漂亮又是全部定理的地基,是可迁移到其它鲁棒聚合问题的方法论。
  • 量化响应 ≡ 带温度 softmax:这个结构等价把数十年的行为经济学(McKelvey-Palfrey QRE)和现代 LLM 采样接到了一起,让"温度调多少"第一次有了集体决策理论意义上的最优解释——对 AI 集成、self-consistency 投票有直接启发。
  • 多数投票的再正名:在有限理性区间,最朴素的多数票就是极小极大最优,无需复杂加权,这对工程上"要不要上花哨聚合器"是一条干净的指导。

局限与展望

  • c.i.i.d. 假设偏强:现实专家间常有相关性、甚至对抗性,本文忽略了信号依赖;作者建议未来用基于图的聚合方法处理信号相关。
  • 同质理性:模型假设所有专家共享同一个 \(\lambda\),没考虑群体内理性异质(有人很理性、有人很随机混在一起),这在真实人群/混合模型集成里很常见。
  • 二元状态 + 共同效用:状态被限制为二元、且所有人效用一致(无策略性谎报);扩展到多状态、异质/对抗效用会显著改变结论。
  • 实证规模有限:只用了 gpt-4o-mini 与两类任务,\(n\) 仅取到 5,期望效用差距(约 0.85→0.865)较小;更大群体、更多模型、更难任务(如医疗诊断)上的稳健性仍待验证。

相关工作与启发

  • vs 经典鲁棒聚合(Arieli et al. 2018/2023;De Oliveira et al. 2021;Levy & Razin 2022):他们在完全理性/未知相关性下求鲁棒聚合,本文首次把量化响应的有限理性纳入同一极小极大框架,并用几何约简证明"三信号足矣",进而揭示有限理性的悖论性收益。
  • vs 量化响应均衡(QRE)与策略投票(McKelvey-Palfrey;Goeree et al.;Han et al. 2023):那条线聚焦异质、依赖结果的效用下的策略操纵,本文是共同目标、无策略动机的诚实聚合,关心的是集体智慧机制本身而非博弈均衡。
  • vs LLM 温度研究(Renze & Guven 2024;Zhu et al. 2024 等):以往多研究单个 LLM 的温度对精度/创造力的影响,本文把温度正式接到 QR 理论与聚合语境,论证适度随机性能提升群体决策准确率,为 ensemble / self-consistency 提供理论依据。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把有限理性、极小极大鲁棒聚合、LLM 温度三者用一个量化响应参数串起来,并给出"有限理性反超完全理性"的反直觉定理
  • 实验充分度: ⭐⭐⭐⭐ 两组实证扎实地验证了理论预测,但模型/任务/群体规模都偏小,效用差距不大
  • 写作质量: ⭐⭐⭐⭐⭐ 从 Mia/John 的故事引入,叙事清晰,理论与实证衔接自然
  • 价值: ⭐⭐⭐⭐ 对集体智慧、AI 集成与 self-consistency 投票有概念性与实践性的双重启发