Decision Aggregation under Quantal Response¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=VtN1z92lvu
代码: 待确认
领域: 学习理论 / 信息聚合 / 有限理性
关键词: 决策聚合, 量化响应, 有限理性, 多数投票, 极小极大遗憾

一句话总结¶

本文在量化响应（quantal response）刻画的有限理性下研究如何聚合 \(n\) 个专家的二元决策，证明当群体理性低于一个依赖群体规模的阈值 \(g(n)\) 时，朴素的多数投票就是极小极大意义下最鲁棒的聚合器，而且有限理性的群体竟能反超完全理性的群体——因为决策中的随机性会把确定性行为里丢失的弱信号编码进来；并用 LLM 的温度参数作为天然的"理性旋钮"在实证上验证了这一点。

研究背景与动机¶

领域现状：信息聚合（把多个专家的判断合成一个集体决策）是集体智慧的核心问题，经典做法（鲁棒预测聚合、Condorcet 陪审团定理等）几乎都假设专家是完全理性的——拿到信号后做精确的贝叶斯推断、再取期望效用最大的动作。在不知道信号联合分布（"信号结构"）的情况下，研究者用"最坏情况遗憾"（worst-case regret）来评价聚合器：相比一个知道一切的全知聚合器，你最多差多少。

现有痛点：现实里的专家几乎从不完全理性。人会有认知偏差、判断带噪声；而把这套理论搬到 AI 上时，LLM 通过温度参数天生就在做随机选择——温度越高输出越随机。完全理性的假设既不符合人，也不符合机。已有工作要么聚焦完全理性，要么聚焦对抗性专家，缺一个能把"有限理性"系统纳入鲁棒聚合框架的分析。

核心矛盾：直觉上，"不那么理性"应该是坏事——单个 John（凭直觉、有时反着下注）的平均效用（0.43）就低于完全理性的 Mia（0.5）。但论文给出一个反直觉的观察：一群 John 经过聚合后效用能升到 0.51，反超一群永远 0.5 的 Mia。个体的"犯错"在群体层面反而注入了信息。问题是：在不知道信号结构的现实约束下，这种优势还守得住吗？该用什么聚合器去兑现它？

本文目标：在量化响应建模的有限理性、且信号条件独立同分布（c.i.i.d.）的设定下，回答两个子问题——(1) 不知道信号结构时，什么聚合器在最坏情况下最优？(2) 有限理性到底是不是能在群体里压过完全理性，能压过的话是何条件？

切入角度：用 McKelvey-Palfrey 的量化响应函数 \(\psi_\lambda\) 把"理性程度"压缩成一个标量参数 \(\lambda\)，再把聚合写成一个对信号结构的极小极大遗憾优化。关键洞察是：有限理性会规整（regularize）可能的报告结构空间，把那些偏爱复杂、非单调聚合器的极端结构抹平，从而让简单的多数投票脱颖而出。

核心 idea：把有限理性参数化为 \(\psi_\lambda\)，在极小极大遗憾框架下证明"理性够低 → 多数投票最优 + 有限理性反超完全理性"，并指出 LLM 的温度 \(t\) 就是 \(1/\lambda\)，让理论可被 LLM 实证。

方法详解¶

整体框架¶

设状态 \(\omega\in\{0,1\}\) 有已知先验 \(\mu=\Pr[\omega=1]\)。一个决策者（DM）面对 \(n\) 个匿名专家，专家 \(i\) 观察到私有信号 \(S_i\)，信号在给定 \(\omega\) 时条件独立同分布（c.i.i.d.）。专家不上报后验，而是上报一个二元决策 \(X_i\in\{0,1\}\)，决策按量化响应函数生成。DM 只能看到"有多少人报 1"，即 \(X=\sum_i X_i\)，并据此用一个聚合器 \(f:\{0,\dots,n\}\to[0,1]\) 给出对状态的猜测（\(f(x)\) 是看到 \(x\) 个 1 时猜 \(\omega=1\) 的概率）。

效用是"猜对得 1、猜错得 \(-1\)"，DM 与专家目标一致，因此专家没有策略性谎报的动机（这区别于博弈论里那套异质效用、策略投票的研究）。评价标准是极小极大遗憾：相比知道真实报告结构 \(\hat\theta\) 的全知聚合器，DM 在最坏的 \(\hat\theta\) 下能差多少。整篇论文要解的就是

\[\mathrm{opt}_{\hat\Theta}\in\arg\min_f\ \max_{\hat\theta\in\hat\Theta}\ R(f,\hat\theta),\qquad R(f,\hat\theta)=U(\mathrm{opt}_{\hat\theta},\hat\theta)-U(f,\hat\theta).\]

难点在于信号结构空间是无穷维、不可直接优化。整条主线是：用一个几何上的维度约简把这个无穷维问题压成三参数问题，再在三参数空间里证明多数投票的最优性阈值与有限理性优势，最后用 LLM 温度实证。

关键设计¶

1. 量化响应：把"理性程度"写成一个可调温度的逻辑斯蒂选择

经典聚合里专家是非黑即白的贝叶斯最优者，这既不真实也让"理性多少"无法量化。本文借用 McKelvey-Palfrey 的量化响应函数把决策随机化：设专家看到信号后买入（\(X=1\)）相对卖出的期望效用差为 \(v=E[u(1,\omega)\mid S]\in[-1,1]\)，则买入概率为

\[\varphi_\lambda(v)=\frac{e^{\lambda v}}{e^{-\lambda v}+e^{\lambda v}}=\frac{1}{1+e^{-2\lambda v}}.\]

把后验 \(p=\Pr[\omega=1\mid S_i]\) 代入（\(v=2p-1\)），得到以后验为自变量的响应 \(\psi_\lambda(p)=\dfrac{1}{1+e^{2\lambda(1-2p)}}\)。参数 \(\lambda\) 就是"理性旋钮"：\(\lambda=0\) 时纯随机（掷硬币），\(\lambda\to\infty\) 时退化为确定性阈值规则（后验过半就报 1）。这个形式与 LLM 输出层的带温度 softmax 结构完全一致——若把内部 logit 视为期望效用，理性 \(\lambda\) 就数学等价于逆温度 \(1/t\)。这一步既给了"有限理性"一个干净的标量刻画，也为后面用 LLM 当实验对象埋好了接口。

2. 极小极大遗憾框架：全知聚合器作标尺，鲁棒聚合器抗未知

DM 不知道信号结构，无法直接最大化效用，所以本文引入两层对象。理想的全知聚合器 \(\mathrm{opt}_{\hat\theta}\) 知道真实报告结构，按 \(\Pr_{\hat\theta}[\omega=1\mid X=x]\) 是否过半来决策，是不可达的上界。现实的鲁棒聚合器则最小化与全知者的最坏差距 \(R(f,\hat\theta)\)。把问题写成极小极大形式后，"哪个聚合器最优"就变成一个有良定义的优化问题，而不再依赖对具体场景的猜测。这一设计的价值在于：它让"不知道信号结构"这个现实约束变成可分析的数学对象，也让"多数投票是否最优"成为一个能被证明或证伪的命题。

3. 三信号维度约简：核心几何引理把无穷维压成三参数

直接在所有 c.i.i.d. 信号结构上做极小极大优化是无穷维、不可解的。本文的关键技术贡献是一个几何约简：由于专家的报告只依赖其后验 \(s\in[0,1]\)，可以把每个后验编码成 \(\mathbb{R}^3\) 中一条曲线上的点，所有合法的报告结构恰好构成这条曲线的凸包。论文证明了一条关键引理——曲线上任意四点都不共面；结合 Carathéodory 定理（\(\mathbb{R}^3\) 中凸包里的点最多由 3+1 个顶点表出，配合无四点共面可收紧到 3 个），任何报告结构都能由至多三个后验 \(\{0,p,1\}\) 的信号结构等价表示。于是无穷维优化坍缩成一个可处理的三参数空间，后续所有定理才得以推进。这是全文从"想法"走到"可证"的枢纽。

4. 主定理：多数投票的最优性阈值 \(g(n)\) 与有限理性优势

在三参数空间里，论文证明了两个结论。其一是多数投票的最优性：当 \(\lambda\le g(n)\) 时，多数投票 \(f^{\mathrm{maj}}\)（过半报 1 则猜 1，恰好一半则掷硬币）就是极小极大最优的鲁棒聚合器。阈值 \(g(n)\) 被定义为某个对所有 \(q_0,q_1\) 都成立的不等式所允许的最大 \(\lambda\)，直觉上 \(\lambda\) 越小、报告越随机，报告结构空间被"规整"得越平滑，复杂的非单调聚合器就失去了用武之地，简单的多数票反而最稳。证明路径是先建立两两最优性（对任意一对对称结构，多数票最小化其合并遗憾），再升级为全局极小极大最优。特别地 \(n\le 2\) 时 \(g(n)=\infty\)，即任意有限 \(\lambda\) 多数票都最优。

其二是有限理性优势：单专家（\(n=1\)）时完全理性最好，但只要 \(n\ge 2\)，就存在信号结构 \(\theta^*\) 和有限 \(\lambda^*\)，使得有限理性的最优效用严格超过完全理性；当 \(n>2\) 时，这个超越甚至无需精巧聚合器、多数投票就够。证明是构造性的：设计一个 \(\theta^*\) 让完全理性专家全体一致报 0、效用卡死在 0.5；换成有限 \(\lambda^*\) 后报告变随机，这种"噪声"虽乱却含信息，使聚合器能拿到严格大于 0.5 的效用。配套的数值实验还显示最坏遗憾随 \(\lambda\) 呈 U 形——适度的"噪声/不理性"优于一味追求完美理性；但群体较大（如 \(n=5\)）且理性很高时，更复杂的聚合器会反超多数票（即 \(g(n)\) 是充分而非必要条件）。

损失函数 / 训练策略¶

本文是纯理论 + 实证分析论文，无训练目标。实证侧用 gpt-4o-mini，通过温度 \(t\in\{0,0.5,1\}\) 模拟不同理性 \(\lambda\)，对同一 query 独立采样多份回答来模拟 c.i.i.d. 专家，再用多数/众数投票聚合。

实验关键数据¶

主实验¶

两组实证研究，均用 gpt-4o-mini，温度对应理性旋钮，验证理论的两个预测：LLM 是否服从量化响应、以及"群体规模 × 理性"如何影响聚合。

研究	任务	设置	关键结论
贝叶斯决策	球-盒后验推断（Phillips-Edwards 范式）	400 场景 × 20 次重复，\(t\in\{0,0.5,1\}\)，逻辑回归拟合 \(\lambda\)	温度升高 \(\lambda\) 下降：\(t=0\) 时 \(\lambda\to\infty\)，\(t=0.5\) 时 \(\lambda=13.25\)，\(t=1.0\) 时 \(\lambda=8.93\)（\(z\) 远超 ±1.96，\(p\approx0\)），确认 LLM 服从量化响应
多选问答	MathQA 数学多选	500 题 × 20 回答，众数投票 \(f^{\mathrm{plu}}\)，1000 次自助重采样，\(n\in\{1,3,5\}\)	\(n\ge3\) 时高温聚合更准，复现"有限理性优势"

消融 / 分析¶

配置	现象	说明
\(n=1\)，低温 \(t=0\)	效用/准确率最高	单专家时随机性纯属有害，确定性最好
\(n=1\)，高温 \(t\ge0.5\)	略降	单个随机专家不如单个确定专家
\(n=3,5\)，高温 \(t=0.5/1\)	反而升高	多专家时随机性提供信息多样性，聚合后更优
random-follow 规则	≤ 多数投票	等价于 \(n=1\) 多数票，始终不优于更大群体的多数票

两组研究中：贝叶斯任务的期望效用约在 0.85–0.865 区间（具体数值以原文 Figure 3 为准），MathQA 准确率约在 0.815–0.85 区间；二者呈现同一模式——增大 \(n\) 普遍提升聚合表现，\(n=1\) 时升温有害、\(n\ge3\) 时升温有益。

关键发现¶

群体规模是开关：随机性（高温/低 \(\lambda\)）对个体是负担、对群体是财富——\(n\) 从 1 增到 3 时，温度的效应直接从"有害"翻转成"有益"，与理论里 \(g(n)\) 随群体变化的预测吻合。
温度 = 逆理性：逻辑回归拟合出的 \(\lambda\) 随温度单调下降，定量坐实了 \(\lambda\leftrightarrow 1/t\) 的对应，使 LLM 成为检验有限理性理论的理想实验台。
适度而非极致：最坏遗憾的 U 形曲线说明存在一个最优的中等理性水平，盲目追求确定性（\(t=0\)）在群体设定下反而吃亏。

亮点与洞察¶

"犯错有信息"的反直觉结论被严格化：把民间智慧"群体的随机性能挖出深层真相"落成可证定理——完全理性专家会一致地丢掉弱信号，而有限理性的抖动恰好把这些弱信号泄露给了聚合器。
维度约简是真正的硬核：把无穷维信号结构空间通过"曲线无四点共面 + Carathéodory"压到三个后验 \(\{0,p,1\}\)，这一几何论证既漂亮又是全部定理的地基，是可迁移到其它鲁棒聚合问题的方法论。
量化响应 ≡ 带温度 softmax：这个结构等价把数十年的行为经济学（McKelvey-Palfrey QRE）和现代 LLM 采样接到了一起，让"温度调多少"第一次有了集体决策理论意义上的最优解释——对 AI 集成、self-consistency 投票有直接启发。
多数投票的再正名：在有限理性区间，最朴素的多数票就是极小极大最优，无需复杂加权，这对工程上"要不要上花哨聚合器"是一条干净的指导。

局限与展望¶

c.i.i.d. 假设偏强：现实专家间常有相关性、甚至对抗性，本文忽略了信号依赖；作者建议未来用基于图的聚合方法处理信号相关。
同质理性：模型假设所有专家共享同一个 \(\lambda\)，没考虑群体内理性异质（有人很理性、有人很随机混在一起），这在真实人群/混合模型集成里很常见。
二元状态 + 共同效用：状态被限制为二元、且所有人效用一致（无策略性谎报）；扩展到多状态、异质/对抗效用会显著改变结论。
实证规模有限：只用了 gpt-4o-mini 与两类任务，\(n\) 仅取到 5，期望效用差距（约 0.85→0.865）较小；更大群体、更多模型、更难任务（如医疗诊断）上的稳健性仍待验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把有限理性、极小极大鲁棒聚合、LLM 温度三者用一个量化响应参数串起来，并给出"有限理性反超完全理性"的反直觉定理
实验充分度: ⭐⭐⭐⭐ 两组实证扎实地验证了理论预测，但模型/任务/群体规模都偏小，效用差距不大
写作质量: ⭐⭐⭐⭐⭐ 从 Mia/John 的故事引入，叙事清晰，理论与实证衔接自然
价值: ⭐⭐⭐⭐ 对集体智慧、AI 集成与 self-consistency 投票有概念性与实践性的双重启发