Context Attribution with Multi-Armed Bandit Optimization¶

会议: ACL 2026 (Findings)
arXiv: 2506.19977
代码: https://github.com/pd90506/camab
领域: 信息检索 / 可解释性
关键词: 上下文归因, 多臂赌博机, Thompson采样, 检索增强生成, 查询效率

一句话总结¶

本文提出 CAMAB，将 RAG 中的上下文归因（识别哪些上下文片段对生成答案有贡献）建模为组合多臂赌博机（CMAB）问题，使用线性 Thompson 采样自适应地探索上下文子集空间，在 HotpotQA、CNN/DM、TyDi QA 上比 SHAP 和 ContextCite 减少最多 30% 的模型查询次数同时匹配或超越归因质量。

研究背景与动机¶

领域现状：RAG 增强了 LLM 的事实准确性，但验证生成答案确实基于检索上下文仍然困难。LLM 经常产生幻觉或混入无根据信息，需要精确归因哪些上下文片段对答案有贡献。

现有痛点：(1) 训练模型显式引用上下文的方法无法保证引用确实反映了推理依据；(2) SHAP 和 ContextCite 等后验扰动方法需要大量模型查询（均匀采样或完整特征选择），计算成本在长上下文场景中不可接受；(3) 在预算严格受限时，现有方法性能急剧下降。

核心矛盾：精确归因需要测试大量上下文子集组合，但 LLM 推理成本高，查询预算有限。均匀采样是浪费的——很多测试的子集信息量很低。

本文目标：在有限查询预算内实现高质量的段级别上下文归因。

切入角度：将归因问题转化为 CMAB——每个上下文片段是一个"臂"，选择子集是一个"动作"，用 Thompson 采样自适应地优先探索信息量大的子集。

核心 idea：用线性 Thompson 采样在上下文子集的指数级空间中高效探索，利用贝叶斯后验估计自适应地平衡探索与利用，比均匀随机扰动更快地收敛到高质量归因。

方法详解¶

整体框架¶

CAMAB 将上下文 \(C = \{s_1, ..., s_N\}\) 的 \(N\) 个片段作为赌博机的基础臂。每轮迭代：(1) 从后验分布采样权重向量；(2) 选择正权重片段构成子集；(3) 用该子集查询 LLM 获取奖励（目标响应的平均 log 概率）；(4) 贝叶斯更新后验。如此循环直到耗尽查询预算，最终以后验均值作为各片段的归因得分。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["上下文 C = N 个片段<br/>每个片段视为一个基础臂"] --> B["组合超臂表示<br/>子集 → (N+1) 维二值包含向量 x"]
    B --> C
    subgraph LOOP["线性 Thompson 采样（迭代至耗尽预算 T_max）"]
        direction TB
        C["从权重后验采样向量 w"] --> D["选正权重片段构成子集 S"]
        D --> E["基于 token log-probability 的奖励<br/>V(S)=原始响应 token 平均 log 概率"]
        E --> F["贝叶斯更新后验<br/>精度矩阵 B_t 累积片段共选统计"]
    end
    F -->|未达预算| C
    F -->|耗尽预算| G["后验均值 → 各片段归因得分"]

关键设计¶

1. 基于 token log-probability 的奖励函数：用模型内部信号直接度量子集支持度

归因的核心是判断"某个上下文子集能多好地支撑住原始响应"，文本匹配等外部指标无法捕捉这种因果支持关系。CAMAB 给定子集 \(S\) 后定义奖励 \(V(S) = \frac{1}{T}\sum_{t=1}^{T}\log P_M(r_t|Q, S, r_1,...,r_{t-1})\)，即在该子集条件下原始响应 token 的平均 log 概率。这是模型内部对支持程度的直接度量——子集越能支撑响应，token 概率越高、奖励越大。由于只需要 log-probability 接口，该奖励对开源模型和黑盒 API 模型同样适用。

2. 线性 Thompson 采样（LinTS）：用贝叶斯后验把探索花在信息量大的子集上

SHAP 的均匀采样会把大量预算浪费在低信息子集上，预算一紧性能就崩。CAMAB 假设奖励服从线性结构 \(V(S) = \mathbf{w}^\top \mathbf{x} + \epsilon\)（\(\mathbf{x}\) 是片段的二值包含向量），并维护权重的高斯后验 \(\mathcal{N}(\hat{\boldsymbol{\mu}}_t, \mathbf{B}_t^{-1})\)；每轮从后验采样一组权重、选出正权重片段构成子集、查询 LLM 拿到奖励、再贝叶斯更新后验。这种自适应采样让算法在指数级子集空间里更快锁定重要片段，是探索效率最高的赌博机策略之一，相比 SHAP 均匀采样和 ContextCite 的 Lasso 回归在小预算下优势明显。

3. 组合超臂表示：把指数级子集空间压成可处理的线性形式

直接在 \(2^N\) 个子集中搜索不可行，必须有一种紧凑编码。CAMAB 把每个子集表示为 \((N+1)\) 维二值向量（第一维是偏置项），线性假设据此把组合问题分解为各片段边际贡献的估计。关键在于精度矩阵 \(\mathbf{B}_t\)：它在迭代中积累片段的共选统计，非对角元素隐式捕获片段间的替代性与互补性。线性假设虽然简化了高阶交互，但精度矩阵的相关结构部分补偿了这一限制，使方法在大幅降维的同时仍能反映片段间的相互作用。

损失函数 / 训练策略¶

CAMAB 是推理时方法，不涉及模型训练。算法在给定查询预算 \(T_{max}\) 内迭代运行。先验设为 \(\mathbf{w} \sim \mathcal{N}(\hat{\boldsymbol{\mu}}_0, \sigma_p^2 \mathbf{I})\)，噪声方差 \(\sigma^2\) 为超参数。\(O(N^3)\) 的后验更新相比 LLM 推理开销可忽略。

实验关键数据¶

主实验¶

LLaMA-3.1-8B 上归因性能（查询预算 40）

数据集	指标	CAMAB	SHAP	ContextCite	Random
HotpotQA	Log-P Drop@5 ↑	0.717	0.648	0.632	0.103
HotpotQA	BERTScore@5 ↓	0.407	0.453	0.496	0.703
CNN/DM	Log-P Drop@5 ↑	1.129	1.041	1.025	0.389
TyDi QA	Log-P Drop@5 ↑	0.893	0.872	0.631	0.373

消融实验¶

查询预算	CAMAB BERTScore@1	SHAP	ContextCite
20	0.525	0.668	0.605
40	0.509	0.562	0.601
60	0.511	0.527	0.598

与人工标注的对齐（HotpotQA, 200 样本）

方法	P@1	AUROC	AP
CAMAB	0.780	0.855	0.688
SHAP	0.680	0.806	0.598
Random	0.055	0.516	0.162

关键发现¶

CAMAB 在预算 40 时已超过 SHAP 在预算 60 时的表现，采样效率提升约 30%
在极低预算（20）时优势最大——SHAP 性能急剧下降，CAMAB 仍保持高保真度
CNN/DM 上差距较小（~1%），因为新闻摘要的头部偏置让所有方法都能快速收敛
与人工标注的金标准支持事实高度对齐（P@1=0.780, AUROC=0.855）
精度矩阵的相关结构确实能捕获片段间交互——同主题片段聚类显示替代性

亮点与洞察¶

问题形式化精妙——将归因转化为 CMAB 是自然且有效的框架迁移
LinTS 的自适应探索是关键——不是"更多探索"而是"更聪明的探索"带来了效率提升
仅需 log-probability 接口，适用于黑盒 API，实用性强

局限与展望¶

线性假设可能遗漏强交互效应（如两个片段联合才有意义的情况）
需要 token-level log-probability 接口，非所有 API 都提供
在高噪声或高歧义场景中可能收敛到次优解
未来可探索非线性 bandit 或注意力引导的初始化策略

评分¶

新颖性: ⭐⭐⭐⭐ CMAB 形式化是巧妙的问题重构，但线性 Thompson 采样本身是已有算法
实验充分度: ⭐⭐⭐⭐ 三个数据集、两个模型、多预算对比，加人工标注验证
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，算法描述简洁
价值: ⭐⭐⭐⭐ 为 RAG 归因提供了高效实用的方案