Enough Coin Flips Can Make LLMs Act Bayesian¶

会议: ACL 2025
arXiv: 2503.04722
代码: 有（项目页面）
领域: LLM/NLP
关键词: 贝叶斯推理, In-Context Learning, 概率估计, 先验偏差, 注意力机制

一句话总结¶

通过抛硬币这一受控随机过程，系统研究LLM是否在in-context learning中执行贝叶斯推理，发现LLM通常具有偏置先验，但随着上下文证据增加会以近似贝叶斯更新的方式修正后验估计，偏差主要源于校准不良的先验而非错误的更新机制。

研究背景与动机¶

领域现状: 大型语言模型通过in-context learning (ICL)展现出强大的少样本学习能力，已有理论工作（Xie et al. 2021等）认为ICL可能在隐式执行贝叶斯推理，但由于大多数任务中真实后验不可知，这一假设难以直接验证。

现有痛点: (1) 已有研究使用的任务（问答、语言建模等）后验分布未知，无法精确评估模型推理是否符合贝叶斯规范；(2) 受控理论研究依赖于对模型架构或数据域的强假设，难以推广到预训练LLM；(3) 尚不清楚LLM的测试时行为是模式匹配还是结构化概率推理。

核心矛盾: ICL的成功与贝叶斯推理的联系在直觉上合理，但在实证上缺乏直接证据——我们需要一个真实后验可精确计算的受控环境来验证。

本文目标: 预训练LLM在序列证据下是否真正执行贝叶斯后验更新？其偏差来源是先验校准问题还是更新机制缺陷？

切入角度: 使用有偏硬币抛掷作为受控随机过程——二项分布+Beta先验的共轭系统使所有贝叶斯量都可精确计算，从而直接对比LLM的预测与理论后验。

核心 idea: 通过可精确计算后验的硬币抛掷实验，直接验证LLM在ICL中以近贝叶斯方式更新先验。

方法详解¶

整体框架¶

设计一系列受控实验：(1) 提取LLM对硬币抛掷结果的先验分布（零样本设置）；(2) 通过显式偏置指令测试先验更新；(3) 通过ICL提供有偏硬币序列，对比模型预测与贝叶斯后验的total variation distance (TVD)；(4) 构造动态偏置切换场景（前50次θ₁=0.75，后50次θ₂=0.25），分析"在线"贝叶斯更新行为；(5) 分析注意力权重与更新质量的关系。

关键设计¶

先验提取与偏置分析
- 功能: 量化LLM对抛硬币结果的内在先验
- 核心思路: 用50种不同的prompt变体（如"I flipped a coin and it landed on"）查询模型，提取归一化logit值作为对"heads"概率的先验估计；再通过显式偏置陈述（如"coins land on heads X% of the time"）测试先验能否被更新
- 设计动机: 理解LLM的起始偏差是评估其贝叶斯行为的前提——如果先验严重偏差而更新机制正确，与先验正确而更新错误是完全不同的诊断
ICL序列下的后验估计
- 功能: 评估LLM是否随ICL证据累积而收敛到正确后验
- 核心思路: 提供不同长度（3到100个样本）的有偏硬币序列作为ICL示例，对比模型预测分布与理论Beta后验分布之间的TVD
- 设计动机: 如果LLM执行贝叶斯更新，随证据增加TVD应趋向零；如果只是模式匹配，收敛模式会有质的不同
带衰减因子的贝叶斯滤波拟合
- 功能: 精确刻画LLM的更新行为并量化其"记忆时间窗"
- 核心思路: 在动态偏置切换场景中，用指数衰减因子γ修正贝叶斯更新 \(\alpha \leftarrow \gamma\alpha + I(H)\)，通过L-BFGS-B优化每个模型的最佳γ值；γ<1表示模型更倾向"局部贝叶斯更新"，对近期证据赋予更大权重
- 设计动机: 经典贝叶斯滤波（γ=1）无法完全解释LLM行为，引入γ参数发现模型执行的是"近视贝叶斯"更新，且γ值因模型架构而异

损失函数 / 训练策略¶

本文为分析性研究，不涉及模型训练。核心评估指标为total variation distance (TVD)：

\[\delta(p^*, \hat{p}_{\mathcal{M}}) = \frac{1}{2} \sum_{o \in \Omega} |p^*(o) - \hat{p}_{\mathcal{M}}(o)|\]

通过提取模型logits并归一化到定义的输出空间 \(\Omega = \{\text{heads}, \text{tails}\}\) 上来获取模型预测分布。

实验关键数据¶

主实验¶

不同模型在有偏硬币ICL任务中的最佳拟合γ值：

模型	Best-Fit γ	含义
Llama3.1-8B	0.8807	接近经典贝叶斯，长时间窗
Llama3.1-8B-Instruct	0.4655	更局部更新，短时间窗
Phi-2	0.8781	接近经典贝叶斯
Mistral-7B	0.6903	中等时间窗
Mistral-7B-Instruct	0.9107	例外——指令微调后更接近经典贝叶斯
Gemma-2-2B	0.4910	较短时间窗
Gemma-2-2B-Instruct	0.3087	最局部的更新
OLMoE-1B-7B	0.3268	较短时间窗

消融实验¶

关键贝叶斯行为特性验证：

实验设置	关键发现
显式偏置指令（非Instruct模型）	忽略指令，始终输出~60-80%偏向heads
显式偏置指令（Instruct模型）	略有改善，极端偏置（0%/100%）表现最好
模型大小缩放（Pythia 70M→12B）	模型大小对先验质量和ICL效果无显著影响
ICL样本数量	3个样本即显著改善TVD，但100个仍不能完全消除先验偏差
注意力权重 vs 后验质量	两者几乎无相关性（R=0.02, p=0.48）

关键发现¶

所有模型都有偏向heads的先验: 可能与tokenization结构有关——"tails"在某些模型中需要两个token编码
显式指令不如ICL示例有效: 非Instruct模型几乎完全忽略偏置指令，Instruct模型也仅在极端值处改善
ICL整体符合贝叶斯后验更新: 偏差主要来自先验校准不良，而非更新机制错误
模型执行"近视贝叶斯": 拟合的γ<1表明模型对近期证据更敏感，等效于有限时间窗的贝叶斯更新
Instruct微调降低γ值: 指令微调使模型更"健忘"，更愿意在新证据面前切换行为
注意力幅度与更新质量无关: 推翻了先前认为attention直接调控贝叶斯更新的假设
模型缩放对贝叶斯行为影响有限: 更大模型不一定更好地执行概率推理

亮点与洞察¶

实验设计非常巧妙——利用二项/Beta共轭系统使所有贝叶斯量可精确计算
"近视贝叶斯"（γ<1）的发现为ICL在长上下文中的loss偏高提供了自然解释
指令微调降低γ值这一发现有深远意义——暗示Instruct模型更倾向"局部适应"而非"全局积累"
注意力幅度与更新质量不相关的发现挑战了先前的理论解释

局限与展望¶

仅评估离散二元输出（heads/tails），未扩展到连续分布或更高维随机过程
无法应用于闭源模型（需要logits访问）
硬币抛掷过于简化，在更复杂的NLP任务中贝叶斯行为是否仍成立有待验证
先验偏差的来源未深入追踪——是训练数据中"heads"出现频率更高还是其他原因？
未探讨思维链(CoT)提示对贝叶斯行为的影响

评分¶

新颖性: 4/5 — 受控实验设计巧妙，"近视贝叶斯"发现新颖
技术深度: 4/5 — 贝叶斯理论框架严谨，多维度实证分析
实验充分度: 4/5 — 多模型、多缩放、注意力分析全面
实用性: 3/5 — 以理论洞察为主，对实际应用启发间接
综合评分: 4/5