Aligning What LLMs Do and Say: Towards Self-Consistent Explanations¶

会议: ACL 2026 Findings
arXiv: 2506.07523
代码: GitHub
领域: 可解释性
关键词: 自一致性, 特征归因, 解释忠实性, DPO优化, 归因对齐

一句话总结¶

构建大规模Post-hoc Self-Consistency Bank（PSCB，85K决策×428K解释），量化LLM答案与其解释之间的特征归因差距，并通过DPO优化在不损害准确率的前提下提升解释的归因一致性。

研究背景与动机¶

领域现状：LLM常被要求生成自然语言解释来说明其答案，但这些post-hoc解释往往与实际驱动答案的输入特征不一致——解释说的和模型做的不一样。

现有痛点：(1) 现有忠实性度量方法（如反事实干预）计算成本极高，难以大规模应用；(2) CC-SHAP等方法仅评估了约100个样本，结论可靠性受限；(3) 没有人展示过如何改善这种归因不一致。

核心矛盾：LLM的解释可能流畅合理但"答非所问"——解释关注的输入特征与实际驱动答案的特征不同，这对可信AI构成根本威胁。

本文目标：(1) 大规模量化答案与解释之间的归因一致性；(2) 提出改善方法。

切入角度：对每个QA决策和其多个解释分别计算特征归因向量，比较两者的对齐度。用DPO在归因偏好数据上微调以改善一致性。

核心 idea：Spearman秩相关比余弦相似度更能区分高低质量解释；基于归因偏好的DPO优化能有效提升自一致性且跨域泛化。

方法详解¶

整体框架¶

PSCB构建流程：(1) 对QA决策计算特征归因向量；(2) 对每个决策生成K个多样化解释，分别计算归因向量；(3) 用对齐函数度量决策与解释的归因一致性；(4) 选取最好和最差解释构建偏好对，用DPO优化。前两步共同填充 PSCB 这一基准库，后两步基于库中数据做对齐度量与偏好优化。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["多选 QA 输入"] --> SUB
    subgraph SUB["Post-hoc Self-Consistency Bank (PSCB)"]
        direction TB
        B["决策<br/>LLM 生成答案 + 输入归因向量 (LIME / LIG)"]
        C["解释<br/>温度采样生成 K 个解释，各算归因向量"]
        B --> C
    end
    SUB --> D["Spearman 秩相关对齐<br/>比较决策与解释的归因向量"]
    D --> E["构造偏好对<br/>最高分 chosen / 最低分 rejected"]
    E --> F["DPO 微调"]
    F --> G["自一致 LLM"]

关键设计¶

1. Post-hoc Self-Consistency Bank (PSCB)：把评估规模从百样本撑到十万级

此前 CC-SHAP 等工作仅能在约 100 个样本上评估归因一致性，样本太少使结论的可靠性受限，也无法支撑系统性研究。PSCB 把规模撑到 85K 决策 × 每个 5 个解释 = 428K 解释-归因对，并同时用 LIME 和 Layer Integrated Gradients (LIG) 两种归因方法、覆盖 4 个 QA 数据集和 2 个 LLM，为后续的大规模量化与 DPO 优化提供归因增强的基准。

2. Spearman 秩相关作为对齐度量：比余弦相似度更能分辨好坏解释

余弦相似度在区分好坏解释时分布高度重叠、区分力很弱，因为它受归因量纲影响。本文改用 Spearman 秩相关 \(CC_{sp} = 1 - \frac{6\sum(r(\phi_i^{dec}) - r(\phi_i^{exp}))^2}{m(m^2-1)}\)，只看决策向量与解释向量在特征优先级上的一致性而不受量纲干扰，因此能把不同质量的解释清晰分离。

3. 基于归因偏好的 DPO 优化：不损害准确率地提升自一致性

SFT 在同样数据上学不到归因偏好的微妙差异，效果较差。本文改用偏好学习：从 PSCB 中取自一致性最高的解释作为 chosen、最低的作为 rejected 构造偏好对，再用 DPO 微调 LLM，使模型在保持任务准确率的同时偏向产出与决策归因更一致的解释。

损失函数 / 训练策略¶

使用标准DPO目标函数，训练在PSCB的偏好对上进行。解释通过温度采样生成（p=0.9, T=0.7），每个决策5个解释，取最好和最差构建偏好对。

实验关键数据¶

主实验¶

模型	数据集	CC-Sp(优化前)	CC-Sp(DPO后)	准确率变化
LLaMA3.1-8B	ECQA	18.47(mean)	显著提升	不降
LLaMA3.2-3B	ECQA	9.75(mean)	显著提升	不降

消融实验¶

配置	关键指标	说明
DPO vs SFT	DPO显著优于SFT	SFT无法学到归因偏好
LIME vs LIG	提升不跨方法泛化	不同归因方法捕获不同维度
跨域泛化	有效	ECQA训练的改善泛化到ARC等
正确vs错误答案	正交	自一致性与准确率基本无关

关键发现¶

自一致性与准确率基本正交——解释不一致的答案也可能正确，一致的也可能错误
Spearman秩相关的区分力显著优于余弦相似度
DPO优化带来的自一致性提升能跨域泛化，但不跨归因方法
不同归因方法（LIME vs LIG）捕获本质不同的输入相关性概念

亮点与洞察¶

"自一致性与准确率正交"是重要发现——准确的模型不一定给出忠实的解释
揭示了一个实用的矛盾：DPO可以提升LIME-based一致性但不提升LIG-based，说明"忠实解释"本身是多维概念
PSCB作为大规模资源对可解释性社区有长期价值

局限与展望¶

仅在选择题QA上验证，开放生成任务的适用性未知
LIME和LIG各有局限，更先进的归因方法可能得出不同结论
自一致性仍是忠实性的代理指标，不等同于真实的决策过程可解释
未来可扩展到更大模型和更多任务类型

评分¶

新颖性: ⭐⭐⭐⭐⭐ 归因偏好DPO优化是全新方向
实验充分度: ⭐⭐⭐⭐ 大规模benchmark、跨域泛化、DPO vs SFT对比
写作质量: ⭐⭐⭐⭐ 形式化严谨，实验设计清晰
价值: ⭐⭐⭐⭐⭐ 对LLM可解释性和可信AI有深远影响