跳转至

Aligning What LLMs Do and Say: Towards Self-Consistent Explanations

会议: ACL 2026 Findings
arXiv: 2506.07523
代码: GitHub
领域: 可解释性
关键词: 自一致性, 特征归因, 解释忠实性, DPO优化, 归因对齐

一句话总结

构建大规模Post-hoc Self-Consistency Bank(PSCB,85K决策×428K解释),量化LLM答案与其解释之间的特征归因差距,并通过DPO优化在不损害准确率的前提下提升解释的归因一致性。

研究背景与动机

领域现状:LLM常被要求生成自然语言解释来说明其答案,但这些post-hoc解释往往与实际驱动答案的输入特征不一致——解释说的和模型做的不一样。

现有痛点:(1) 现有忠实性度量方法(如反事实干预)计算成本极高,难以大规模应用;(2) CC-SHAP等方法仅评估了约100个样本,结论可靠性受限;(3) 没有人展示过如何改善这种归因不一致。

核心矛盾:LLM的解释可能流畅合理但"答非所问"——解释关注的输入特征与实际驱动答案的特征不同,这对可信AI构成根本威胁。

本文目标:(1) 大规模量化答案与解释之间的归因一致性;(2) 提出改善方法。

切入角度:对每个QA决策和其多个解释分别计算特征归因向量,比较两者的对齐度。用DPO在归因偏好数据上微调以改善一致性。

核心 idea:Spearman秩相关比余弦相似度更能区分高低质量解释;基于归因偏好的DPO优化能有效提升自一致性且跨域泛化。

方法详解

整体框架

PSCB构建流程:(1) 对QA决策计算特征归因向量;(2) 对每个决策生成K个多样化解释,分别计算归因向量;(3) 用对齐函数度量决策与解释的归因一致性;(4) 选取最好和最差解释构建偏好对,用DPO优化。前两步共同填充 PSCB 这一基准库,后两步基于库中数据做对齐度量与偏好优化。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["多选 QA 输入"] --> SUB
    subgraph SUB["Post-hoc Self-Consistency Bank (PSCB)"]
        direction TB
        B["决策<br/>LLM 生成答案 + 输入归因向量 (LIME / LIG)"]
        C["解释<br/>温度采样生成 K 个解释,各算归因向量"]
        B --> C
    end
    SUB --> D["Spearman 秩相关对齐<br/>比较决策与解释的归因向量"]
    D --> E["构造偏好对<br/>最高分 chosen / 最低分 rejected"]
    E --> F["DPO 微调"]
    F --> G["自一致 LLM"]

关键设计

1. Post-hoc Self-Consistency Bank (PSCB):把评估规模从百样本撑到十万级

此前 CC-SHAP 等工作仅能在约 100 个样本上评估归因一致性,样本太少使结论的可靠性受限,也无法支撑系统性研究。PSCB 把规模撑到 85K 决策 × 每个 5 个解释 = 428K 解释-归因对,并同时用 LIME 和 Layer Integrated Gradients (LIG) 两种归因方法、覆盖 4 个 QA 数据集和 2 个 LLM,为后续的大规模量化与 DPO 优化提供归因增强的基准。

2. Spearman 秩相关作为对齐度量:比余弦相似度更能分辨好坏解释

余弦相似度在区分好坏解释时分布高度重叠、区分力很弱,因为它受归因量纲影响。本文改用 Spearman 秩相关 \(CC_{sp} = 1 - \frac{6\sum(r(\phi_i^{dec}) - r(\phi_i^{exp}))^2}{m(m^2-1)}\),只看决策向量与解释向量在特征优先级上的一致性而不受量纲干扰,因此能把不同质量的解释清晰分离。

3. 基于归因偏好的 DPO 优化:不损害准确率地提升自一致性

SFT 在同样数据上学不到归因偏好的微妙差异,效果较差。本文改用偏好学习:从 PSCB 中取自一致性最高的解释作为 chosen、最低的作为 rejected 构造偏好对,再用 DPO 微调 LLM,使模型在保持任务准确率的同时偏向产出与决策归因更一致的解释。

损失函数 / 训练策略

使用标准DPO目标函数,训练在PSCB的偏好对上进行。解释通过温度采样生成(p=0.9, T=0.7),每个决策5个解释,取最好和最差构建偏好对。

实验关键数据

主实验

模型 数据集 CC-Sp(优化前) CC-Sp(DPO后) 准确率变化
LLaMA3.1-8B ECQA 18.47(mean) 显著提升 不降
LLaMA3.2-3B ECQA 9.75(mean) 显著提升 不降

消融实验

配置 关键指标 说明
DPO vs SFT DPO显著优于SFT SFT无法学到归因偏好
LIME vs LIG 提升不跨方法泛化 不同归因方法捕获不同维度
跨域泛化 有效 ECQA训练的改善泛化到ARC等
正确vs错误答案 正交 自一致性与准确率基本无关

关键发现

  • 自一致性与准确率基本正交——解释不一致的答案也可能正确,一致的也可能错误
  • Spearman秩相关的区分力显著优于余弦相似度
  • DPO优化带来的自一致性提升能跨域泛化,但不跨归因方法
  • 不同归因方法(LIME vs LIG)捕获本质不同的输入相关性概念

亮点与洞察

  • "自一致性与准确率正交"是重要发现——准确的模型不一定给出忠实的解释
  • 揭示了一个实用的矛盾:DPO可以提升LIME-based一致性但不提升LIG-based,说明"忠实解释"本身是多维概念
  • PSCB作为大规模资源对可解释性社区有长期价值

局限与展望

  • 仅在选择题QA上验证,开放生成任务的适用性未知
  • LIME和LIG各有局限,更先进的归因方法可能得出不同结论
  • 自一致性仍是忠实性的代理指标,不等同于真实的决策过程可解释
  • 未来可扩展到更大模型和更多任务类型

相关工作与启发

  • vs CC-SHAP: 将评估规模从100个样本扩大到85K,并首次展示改善方法
  • vs 反事实干预方法: 用归因向量比较代替昂贵的反事实测试,大幅降低成本
  • vs RLHF: 将偏好学习从"人类偏好"扩展到"归因一致性偏好",是alignment的新维度

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 归因偏好DPO优化是全新方向
  • 实验充分度: ⭐⭐⭐⭐ 大规模benchmark、跨域泛化、DPO vs SFT对比
  • 写作质量: ⭐⭐⭐⭐ 形式化严谨,实验设计清晰
  • 价值: ⭐⭐⭐⭐⭐ 对LLM可解释性和可信AI有深远影响