Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?¶

会议: ACL2025
arXiv: 2505.21003
代码: 未公开
领域: LLM/NLP
关键词: 不确定性量化, 上下文学习, many-shot ICL, 认知不确定性, 长上下文

一句话总结¶

本文系统研究了长上下文 ICL 中增加示例数量对 LLM 预测不确定性的影响，通过不确定性分解揭示性能提升主要源于认知不确定性（EU）的降低，并从残差流投影角度解释了不确定性减少的内部机制。

研究背景与动机¶

长上下文 ICL 兴起：近年来长上下文技术（continued fine-tuning、position extrapolation、创新架构如 Mamba）使 LLM 能处理数百甚至数千个 ICL 示例（many-shot ICL），为免微调适应提供新范式。

现有研究偏重性能：已有工作（Agarwal et al. 2024; Jiang et al. 2024）主要关注更多示例带来的准确率提升，对生成结果的可信度和可靠性研究不足。

可信度是关键缺口：在高风险应用场景中（医疗、金融），仅有高性能不够，还需要知道模型"有多确信"——即不确定性量化（UQ）。

不确定性分解提供新视角：将总不确定性（TU）分解为认知不确定性（EU，源于模型知识不足）和偶然不确定性（AU，源于数据固有随机性），可以揭示 ICL 提升背后的机制。

内部机制尚不清楚：尽管观察到更多示例改善了性能，但模型内部如何实现这一改进（逐层置信度如何演化）仍是黑箱。

核心研究问题：(RQ1) 更多示例能否降低不确定性？(RQ2) 从不确定性分解角度看性能提升源自何处？(RQ3) 不确定性降低的内部机制是什么？

方法详解¶

整体框架¶

论文构建了一个面向 many-shot ICL 的不确定性量化与分解框架（Fig.3），包含三个核心模块：

预测分布构建：通过多组 demonstration set（L 组）和多次解码采样（每组 m 次），构建 L×|Y| 的概率矩阵 A，捕获来自示例集和模型配置的不确定性。
熵计算（TU）：对概率矩阵做归一化后计算熵，作为总不确定性的度量。
不确定性分解（EU/AU）：基于 Bayesian ICL 框架（Ling et al. 2024），将 ICL 视为将示例映射为潜在概念 β 的过程，利用互信息分解出 EU 和 AU。

关键设计¶

预测分布：聚焦分类和多选 QA 任务，利用 categorical 输出的天然优势——每个标签 y∈Y 对应预定义类别，概率 P_y 可直接从 logits 获取。
不确定性分解公式：
- TU = H(σ(Σ[A_{j,:}]))，即所有 demonstration set 聚合后的熵
- EU = (1/L) Σ H(σ(A_{j,:}))，即各 set 内部熵的均值
- AU = TU - EU，即互信息 I(y, β|Θ)
残差流投影：将每一层的残差表示通过 unembedding 矩阵 W_U 投影到词表空间，可视化各层对候选答案的置信度演化。

训练/实验策略¶

使用 beam search 生成 10 个候选输出，温度 0.7
迭代 6 组不同的 demonstration set 分解 EU/AU
模型权重以 float16 加载，运行在 8×80GB A100 GPU 上
评估指标：AUROC（UQ 质量）、Exact Match（准确率）

实验关键数据¶

表1：不确定性变化的微观分析（Llama-3.1-8B）¶

数据集	8-shot ΔU↓/↑	32-shot ΔU↓/↑	128-shot ΔU↓/↑	128-shot ΔAcc
AG News	66.8%↓ / 30.5%↑	88.6%↓ / 10.8%↑	90.8%↓ / 8.7%↑	+15.8
SST-2	71.7%↓ / 20.3%↑	86.6%↓ / 9.4%↑	92.1%↓ / 5.6%↑	+7.9
CommonsenseQA	62.2%↓ / 26.2%↑	69.0%↓ / 17.8%↑	81.2%↓ / 16.6%↑	+5.2
LD5 (Hard)	58.4%↓ / 33.2%↑	73.6%↓ / 24.4%↑	83.8%↓ / 13.1%↑	+10.8
LD7 (Hard)	48.4%↓ / 48.8%↑	59.2%↓ / 38.0%↑	83.3%↓ / 15.3%↑	+12.3

表2：Logit 差距与最大 logit（CommonsenseQA）¶

模型	4-shot	32-shot	64-shot	128-shot
Llama-3.1-8B	2.86 / 24.98	2.75 / 27.03	2.55 / 27.66	2.53 / 28.01
Mistral-7B-v0.2	2.78 / 17.14	2.24 / 19.60	2.57 / 20.38	2.75 / 20.84
Qwen1.5-7B	3.51 / 29.11	3.62 / 30.49	3.73 / 30.97	3.76 / 30.94

关键发现¶

TU 持续下降：随着 shot 数增加，easy mode 快速收敛到低不确定性状态，hard mode 在数百 shot 后才显著下降。
EU 是 TU 下降主因：初始 EU 占 TU 大部分，增加示例主要通过注入任务知识降低 EU。
Hard mode 的 AU 干扰：复杂任务中更长输入引入噪声使 AU 上升，部分抵消 EU 下降。
"ICL sink" 现象：Qwen1.5-7B 在 hard mode 出现少量 shot 与多 shot 置信度相当的异常。
模型规模效应：14B/32B 模型整体不确定性更低，many-shot 优势依然显著。
内部机制：many-shot ICL 使正确答案 logit 集中度更高，正确与干扰项的 logit 差距放大，通过 Softmax 的指数敏感性将正确概率推向 1。

亮点与洞察¶

不确定性分解视角新颖：首次系统研究 many-shot ICL 下的不确定性演化，将性能提升归因为 EU 降低而非简单的更多信息。
信息量 vs 上下文长度：去重复实验证明仅重复相同示例 N 次无法降低 EU，真正有效的是信息多样性。
残差流可视化直观：Case study 清晰展示 4-shot 下置信度剧烈波动，而 128-shot 下正确答案从约第 22 层起稳定保持最高概率。
实用建议明确：实际应用中推荐选择较大 k 值，同时提升性能和可靠性。

局限与展望¶

未覆盖开放式生成任务：仅聚焦分类和 MCQA，对摘要、翻译等自由生成场景缺乏可靠 UQ 技术。
未探索 CoT/推理 ICL：Chain-of-Thought 等推理范式的不确定性属性未研究，现有 UQ 方法难以捕获逻辑复杂度。
极端 shot 数受限：受开源 LLM 上下文长度和计算开销限制，未测试数千 shot 的极端场景。
模型选择有限：仅测试 3 个 7-8B 基座模型，缺少 GPT-4 等闭源模型和更大规模模型的系统对比。
AU 定义依赖假设：将 AU 等价于关于 β 的互信息依赖 Bayesian ICL 框架成立的前提，实际 LLM 是否精确匹配该假设存疑。

评分¶

新颖性: 7/10 — 首次系统研究 many-shot ICL 不确定性，视角新颖，但方法基于已有 UQ 框架的直接扩展
实验充分度: 7/10 — 3 个模型 × 6 个数据集 × 多 shot 数，有消融和可视化，但缺少闭源模型和生成任务
写作质量: 8/10 — 结构清晰，三个 RQ 层层递进，可视化丰富
价值: 7/10 — 填补了 many-shot ICL 可信度研究的空白，结论实用但不算颠覆性

Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

训练/实验策略¶

实验关键数据¶

表1：不确定性变化的微观分析（Llama-3.1-8B）¶

表2：Logit 差距与最大 logit（CommonsenseQA）¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

vs Ling et al. (2024) 的不确定性分解框架¶

vs Agarwal et al. (2024) 的 many-shot ICL¶

vs Bertsch et al. (2024) 的长上下文 ICL 属性研究¶

评分¶

Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

训练/实验策略¶

实验关键数据¶

表1：不确定性变化的微观分析（Llama-3.1-8B）¶

表2：Logit 差距与最大 logit（CommonsenseQA）¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

vs Ling et al. (2024) 的不确定性分解框架¶

vs Agarwal et al. (2024) 的 many-shot ICL¶

vs Bertsch et al. (2024) 的长上下文 ICL 属性研究¶

评分¶

相关论文¶