Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?¶
会议: ACL2025
arXiv: 2505.21003
代码: 未公开
领域: LLM/NLP
关键词: 不确定性量化, 上下文学习, many-shot ICL, 认知不确定性, 长上下文
一句话总结¶
本文系统研究了长上下文 ICL 中增加示例数量对 LLM 预测不确定性的影响,通过不确定性分解揭示性能提升主要源于认知不确定性(EU)的降低,并从残差流投影角度解释了不确定性减少的内部机制。
研究背景与动机¶
长上下文 ICL 兴起:近年来长上下文技术(continued fine-tuning、position extrapolation、创新架构如 Mamba)使 LLM 能处理数百甚至数千个 ICL 示例(many-shot ICL),为免微调适应提供新范式。
现有研究偏重性能:已有工作(Agarwal et al. 2024; Jiang et al. 2024)主要关注更多示例带来的准确率提升,对生成结果的可信度和可靠性研究不足。
可信度是关键缺口:在高风险应用场景中(医疗、金融),仅有高性能不够,还需要知道模型"有多确信"——即不确定性量化(UQ)。
不确定性分解提供新视角:将总不确定性(TU)分解为认知不确定性(EU,源于模型知识不足)和偶然不确定性(AU,源于数据固有随机性),可以揭示 ICL 提升背后的机制。
内部机制尚不清楚:尽管观察到更多示例改善了性能,但模型内部如何实现这一改进(逐层置信度如何演化)仍是黑箱。
核心研究问题:(RQ1) 更多示例能否降低不确定性?(RQ2) 从不确定性分解角度看性能提升源自何处?(RQ3) 不确定性降低的内部机制是什么?
方法详解¶
整体框架¶
论文构建了一个面向 many-shot ICL 的不确定性量化与分解框架(Fig.3),包含三个核心模块:
- 预测分布构建:通过多组 demonstration set(L 组)和多次解码采样(每组 m 次),构建 L×|Y| 的概率矩阵 A,捕获来自示例集和模型配置的不确定性。
- 熵计算(TU):对概率矩阵做归一化后计算熵,作为总不确定性的度量。
- 不确定性分解(EU/AU):基于 Bayesian ICL 框架(Ling et al. 2024),将 ICL 视为将示例映射为潜在概念 β 的过程,利用互信息分解出 EU 和 AU。
关键设计¶
- 预测分布:聚焦分类和多选 QA 任务,利用 categorical 输出的天然优势——每个标签 y∈Y 对应预定义类别,概率 P_y 可直接从 logits 获取。
- 不确定性分解公式:
- TU = H(σ(Σ[A_{j,:}])),即所有 demonstration set 聚合后的熵
- EU = (1/L) Σ H(σ(A_{j,:})),即各 set 内部熵的均值
- AU = TU - EU,即互信息 I(y, β|Θ)
- 残差流投影:将每一层的残差表示通过 unembedding 矩阵 W_U 投影到词表空间,可视化各层对候选答案的置信度演化。
训练/实验策略¶
- 使用 beam search 生成 10 个候选输出,温度 0.7
- 迭代 6 组不同的 demonstration set 分解 EU/AU
- 模型权重以 float16 加载,运行在 8×80GB A100 GPU 上
- 评估指标:AUROC(UQ 质量)、Exact Match(准确率)
实验关键数据¶
表1:不确定性变化的微观分析(Llama-3.1-8B)¶
| 数据集 | 8-shot ΔU↓/↑ | 32-shot ΔU↓/↑ | 128-shot ΔU↓/↑ | 128-shot ΔAcc |
|---|---|---|---|---|
| AG News | 66.8%↓ / 30.5%↑ | 88.6%↓ / 10.8%↑ | 90.8%↓ / 8.7%↑ | +15.8 |
| SST-2 | 71.7%↓ / 20.3%↑ | 86.6%↓ / 9.4%↑ | 92.1%↓ / 5.6%↑ | +7.9 |
| CommonsenseQA | 62.2%↓ / 26.2%↑ | 69.0%↓ / 17.8%↑ | 81.2%↓ / 16.6%↑ | +5.2 |
| LD5 (Hard) | 58.4%↓ / 33.2%↑ | 73.6%↓ / 24.4%↑ | 83.8%↓ / 13.1%↑ | +10.8 |
| LD7 (Hard) | 48.4%↓ / 48.8%↑ | 59.2%↓ / 38.0%↑ | 83.3%↓ / 15.3%↑ | +12.3 |
表2:Logit 差距与最大 logit(CommonsenseQA)¶
| 模型 | 4-shot | 32-shot | 64-shot | 128-shot |
|---|---|---|---|---|
| Llama-3.1-8B | 2.86 / 24.98 | 2.75 / 27.03 | 2.55 / 27.66 | 2.53 / 28.01 |
| Mistral-7B-v0.2 | 2.78 / 17.14 | 2.24 / 19.60 | 2.57 / 20.38 | 2.75 / 20.84 |
| Qwen1.5-7B | 3.51 / 29.11 | 3.62 / 30.49 | 3.73 / 30.97 | 3.76 / 30.94 |
关键发现¶
- TU 持续下降:随着 shot 数增加,easy mode 快速收敛到低不确定性状态,hard mode 在数百 shot 后才显著下降。
- EU 是 TU 下降主因:初始 EU 占 TU 大部分,增加示例主要通过注入任务知识降低 EU。
- Hard mode 的 AU 干扰:复杂任务中更长输入引入噪声使 AU 上升,部分抵消 EU 下降。
- "ICL sink" 现象:Qwen1.5-7B 在 hard mode 出现少量 shot 与多 shot 置信度相当的异常。
- 模型规模效应:14B/32B 模型整体不确定性更低,many-shot 优势依然显著。
- 内部机制:many-shot ICL 使正确答案 logit 集中度更高,正确与干扰项的 logit 差距放大,通过 Softmax 的指数敏感性将正确概率推向 1。
亮点与洞察¶
- 不确定性分解视角新颖:首次系统研究 many-shot ICL 下的不确定性演化,将性能提升归因为 EU 降低而非简单的更多信息。
- 信息量 vs 上下文长度:去重复实验证明仅重复相同示例 N 次无法降低 EU,真正有效的是信息多样性。
- 残差流可视化直观:Case study 清晰展示 4-shot 下置信度剧烈波动,而 128-shot 下正确答案从约第 22 层起稳定保持最高概率。
- 实用建议明确:实际应用中推荐选择较大 k 值,同时提升性能和可靠性。
局限与展望¶
- 未覆盖开放式生成任务:仅聚焦分类和 MCQA,对摘要、翻译等自由生成场景缺乏可靠 UQ 技术。
- 未探索 CoT/推理 ICL:Chain-of-Thought 等推理范式的不确定性属性未研究,现有 UQ 方法难以捕获逻辑复杂度。
- 极端 shot 数受限:受开源 LLM 上下文长度和计算开销限制,未测试数千 shot 的极端场景。
- 模型选择有限:仅测试 3 个 7-8B 基座模型,缺少 GPT-4 等闭源模型和更大规模模型的系统对比。
- AU 定义依赖假设:将 AU 等价于关于 β 的互信息依赖 Bayesian ICL 框架成立的前提,实际 LLM 是否精确匹配该假设存疑。
相关工作与启发¶
vs Ling et al. (2024) 的不确定性分解框架¶
Ling et al. 提出了 ICL 不确定性分解的 Bayesian 框架,但仅关注 few-shot 场景。本文将此框架扩展到 many-shot/长上下文 ICL,发现 EU 降低的趋势在大量示例下更加显著,且在 hard mode 中 AU 的干扰效应是新发现。
vs Agarwal et al. (2024) 的 many-shot ICL¶
Agarwal et al. 在 Gemini 1.5 Pro 上证明 many-shot prompting 带来显著性能提升,但仅关注准确率。本文补充了可信度维度——性能提升伴随着不确定性降低,且二者具有强相关性,为 many-shot ICL 的可靠性提供了理论支撑。
vs Bertsch et al. (2024) 的长上下文 ICL 属性研究¶
Bertsch et al. 研究了示例检索和顺序的影响,本文则从不确定性视角提供了互补发现:示例数量的信息多样性比排列顺序更重要。
评分¶
- 新颖性: 7/10 — 首次系统研究 many-shot ICL 不确定性,视角新颖,但方法基于已有 UQ 框架的直接扩展
- 实验充分度: 7/10 — 3 个模型 × 6 个数据集 × 多 shot 数,有消融和可视化,但缺少闭源模型和生成任务
- 写作质量: 8/10 — 结构清晰,三个 RQ 层层递进,可视化丰富
- 价值: 7/10 — 填补了 many-shot ICL 可信度研究的空白,结论实用但不算颠覆性