SemGrad: Gradients w.r.t. Semantics-Preserving Embeddings Tell LLM Uncertainty¶
会议: ICML 2026
arXiv: 2605.04638
代码: https://github.com/mingdali6717/SemGrad (有)
领域: LLM 安全 / 不确定性量化 / 幻觉检测
关键词: 自由生成 UQ, 语义梯度, 语义保留分, 单前向+反向, 多有效答案
一句话总结¶
SemGrad 首次把"基于梯度"的不确定性量化搬到 LLM 自由生成场景——用语义保留分 (SPS) 找到能编码输入语义的隐藏态,把对它们求出的对数似然梯度范数当作 LLM 自信度的度量,无需采样、单次反向即可在 3 个 QA 数据集上击败 11 个 SOTA baseline,特别在多有效答案的 TruthfulQA 上比 SAR 高 3.27 AUROC。
研究背景与动机¶
领域现状:LLM 在医疗、教育、金融场景部署越来越广,但幻觉问题让"它对自己答案有多自信"成了刚需。SOTA UQ 方法(Semantic Entropy / SAR / Semantic Density 等)都走"采样 + 跨样本语义聚类"路线:对同一 query 采 \(K\) 次输出,再算分布散度。
现有痛点:(i) 采样方法 cost \(K\times\) generation,方差大且慢,部署成本高;(ii) 分类任务里成熟的"参数梯度范数"UQ 假设单 ground truth label,等价于 Dirac 分布,公式 \(\nabla_\theta\log p(y^\star|x)=0\) 在最优处成立——但自然语言天生有 aleatoric uncertainty(多有效答案),梯度即便在最优 \(\theta^\star\) 也不为零,参数梯度范数会把"任务本身的随机性"误读成"模型不确信"。
核心矛盾:自由生成里 aleatoric(任务固有随机性)与 epistemic(模型缺知识)混在一起,参数空间的梯度无法解耦;而采样方法又太贵。
本文目标:(1) 提出第一个真正适合自由生成的 gradient-based UQ;(2) 让它在多有效答案场景仍有效;(3) 保持"单次前向 + 单次反向"的高效率。
切入角度:作者从语言学直觉出发——"如果模型真的懂这个 query,那么对 query 的语义保留扰动 \(\boldsymbol{x}+\Delta\boldsymbol{x}\) 不应该改变输出分布"。这种局部稳定性可以用"对语义保留 embedding 的梯度范数"来量化,与 ground truth 分布是单峰还是多峰无关。
核心 idea:把梯度从"参数空间"挪到"语义空间"——找到能保留输入语义的中间隐藏态 \(\boldsymbol{h}_E\),用 \(\|\nabla_{\boldsymbol{h}_E}\log p(\hat{\boldsymbol{y}}|\boldsymbol{x};\boldsymbol{h}_E)\|\) 作为不确定性度量。
方法详解¶
整体框架¶
推理时单次前向得到答案 \(\hat{\boldsymbol{y}}\) 和所有隐藏态;选取语义保留 token \(t^\star\) 在深层一半(\(L/2+1\) 到 \(L-1\))的隐藏态拼成 \(\boldsymbol{h}^\uparrow_{t^\star}\);对 entropy-weighted log-likelihood \(\sum_t\omega_t\log p(\hat{y}_t|\hat{y}_{<t},\boldsymbol{x};\boldsymbol{h}^\uparrow_{t^\star})\) 反传一次,取 \(\ell_1\) 范数除以维度即得 SemGrad;再用平均 token entropy \(\bar\omega\) 做插值把参数梯度 ParaGrad 和 SemGrad 融合得 HybridGrad。整套流程一次前向 + 一次反向,无需采样。
关键设计¶
-
语义保留分 (SPS) 与语义保留 token \(t^\star\):
- 功能:识别"哪个 token 位置 / 哪些层的隐藏态最能编码输入语义"。
- 核心思路:对每条 query 用 GPT 生成 \(K\) 个语义等价 paraphrase;计算 within-paraphrase 相似度 \(S_{w/i}^{l,t}\) 与 across-query 相似度 \(S_{a/c}^{l,t}\),差值 \(\mathrm{SPS}=S_{w/i}-S_{a/c}\) 高即代表此 token / 层把同义输入拉近、把不同义输入推开。实验发现:(i) 每个模型存在一个稳定的 \(t^\star\)(LLaMA-3.1 是
<|start_header_id|>,Qwen3 是<|im_start|>,Mistral-Nemo 是最后一个 user token)跨数据集一致;(ii) 高 SPS 集中在深层一半,低层主要是 lexical 特征;(iii) 高 SPS 区是个 band 而非单点,所以最终取深层一半隐藏态拼起来。 - 设计动机:梯度计算位置直接决定 UQ 性能;不能随便选最后一层(主要给下一 token 解码用,不再被后续注意)也不能选低层(lexical 主导);SPS 给出可量化、数据驱动的选取准则。
-
熵加权的语义梯度 SemGrad:
- 功能:把"输出对语义扰动有多敏感"压成一个标量分数。
- 核心思路:定义 \(S_{\text{SemGrad}}=\frac{1}{|\boldsymbol{h}^\uparrow_{t^\star}|}\|\nabla_{\boldsymbol{h}^\uparrow_{t^\star}}\sum_{t=1}^T\omega_t\log p(\hat{y}_t|\hat{y}_{<t},\boldsymbol{x};\boldsymbol{h}^\uparrow_{t^\star})\|_1\),其中 \(\omega_t=H(p(y_t|\hat{y}_{<t},\boldsymbol{x}))\) 是当 step 的 token 熵,作为系数从计算图中 detach。低熵 token(stopword / 子词)权重小,高熵 token(关键事实词)权重大。
- 设计动机:自由生成里 token 贡献不均,把所有 token 同权对待会被冗余词稀释;熵权重不需要第三方模型就能 cheap 地刻画 token 重要性。理论上 \(\|\nabla_{\boldsymbol{h}_E}\log p\|\approx 0\) 仅成立于"模型对该输入贴近真分布"的情形,不依赖 ground truth 分布形状,因此在 multi-answer 场景仍有效。
-
HybridGrad:语义梯度 × 参数梯度自适应融合:
- 功能:在 single-answer 场景借参数梯度的数值稳定性,在 multi-answer 场景靠 SemGrad 的理论稳健性。
- 核心思路:\(S_{\text{HybridGrad}}=(1-e^{-\bar\omega})S_{\text{SemGrad}}+e^{-\bar\omega}S_{\text{ParaGrad}}\),其中 \(\bar\omega=\frac{1}{T}\sum_t\omega_t\) 是平均 token 熵(近似 sequence-level entropy)。低熵 → 偏 ParaGrad(任务确定,参数梯度可靠);高熵 → 偏 SemGrad(任务多解,语义梯度更靠谱)。ParaGrad 是 SemGrad 的"参数版":把 \(\nabla_{\boldsymbol{h}_E}\) 换成 \(\nabla_{\boldsymbol{W}_{\text{head}}}\) 并加同样熵权。
- 设计动机:单 ground-truth 设定下参数梯度直接对应训练目标,数值最稳;但一旦多答案就不稳。用 \(\bar\omega\) 作为"输入到底有多 aleatoric"的代理,动态切换,避免硬选其一。
损失函数 / 训练策略¶
方法纯推理时,无训练;唯一离线步骤是在小开发集上跑一次 SPS 扫描确定 \(t^\star\)。
实验关键数据¶
主实验¶
3 个 LLM × 3 个 QA 数据集(SciQ、TriviaQA 单答案 + TruthfulQA 多答案),用 BEM 评测答案正确性,UQ 性能用 AUROC:
| 方法 | SciQ avg | TriviaQ avg | TruthfulQ avg | Overall avg |
|---|---|---|---|---|
| SAR (前 SOTA, 采样) | 74.86 | 84.13 | 66.99 | 75.33 |
| ExGrad (参数梯度) | 74.33 | 83.37 | 64.06 | 73.92 |
| ParaGrad (本文 baseline) | 75.02 | 84.81 | 66.95 | 75.59 |
| SemGrad | 74.50 | 82.50 | 70.25 | 75.75 |
| HybridGrad | 75.35 | 83.90 | 70.53 | 76.59 |
在多答案 TruthfulQA 上 SemGrad 比 SAR 高 +3.27、比 ExGrad 高 +6.82、比 ParaGrad 高 +3.30 AUROC。
消融实验¶
| 配置 | TruthfulQA AUROC (LLaMA) | 说明 |
|---|---|---|
| Full SemGrad(深半层 + \(t^\star\) + \(\ell_1\) + entropy weight) | 69.42 | 默认 |
| \(\ell_2\) 替代 \(\ell_1\) | 69.42 | 几乎无差 |
| 去掉 \(\omega_t\) entropy 权 | 68.98 | TriviaQA 掉 3.4 点更明显 |
| 仅最后一层 (\(L-1\)) | 68.13 | band > 单层 |
| token 改为 last input token | 69.07 | \(t^\star\) > last |
| 用低 SPS 隐藏态 | 显著下降 | SPS-AUROC 强正相关 |
关键发现¶
- SPS 与 AUROC 强正相关:SPS 高的隐藏态做 SemGrad 性能就高;SPS 低的(早期层 / 错位 token)几乎抓不到不确定性。直接验证了"梯度真的需要在语义空间求"。
- SemGrad 多答案场景碾压参数梯度:TruthfulQA 上参数梯度因任务的 aleatoric 性失效,SemGrad 的理论独立性带来质变提升。
- HybridGrad 是最稳的全能选手:把语义 + 参数两路自适应融合后,在 9 个 (model, dataset) 组合里平均 AUROC 最高且最稳定。
- 效率优势明显:表 3 显示 SemGrad/HybridGrad 单 example 运行时间比采样基线快一个数量级;论文承认当前实现因 PyTorch grad 限制必须对所有 token 求梯度,仍有大量优化空间。
亮点与洞察¶
- 第一个真正适合 LLM 自由生成的 gradient UQ:跳出"采样 + 聚类"主流,证明梯度路线在多答案场景同样有效甚至更优,给 UQ 社区开辟了新方向。
- SPS 是个可独立成 tool 的副产品:用 paraphrase 一致性差分定位"语义编码 token",对 mechanistic interpretability、probing、representation engineering 都有直接价值。
- 熵权重 token 重要性:用 cheap 的 token-level entropy 替代昂贵的第三方模型给 token 打分(如 MARS、SAR 的 importance score),是个值得推广的轻量化技巧。
- 自适应融合范式:用 \(\bar\omega\) 当 aleatoric 指标在 SemGrad ↔ ParaGrad 之间插值,思路通用——任何"两种估计器各擅长一个 regime"的场景都可借鉴。
局限与展望¶
- 仅 white-box 可用(需要梯度 + 隐藏态),闭源 API 无效。
- 主要在 short-answer claim-level QA 上验证,long-form 输出里梯度信号可能被大量低信息 token 稀释。
- 当前实现一次性算所有 token 的隐藏态梯度,显存与时间都被框架约束撑大;作者指出其实理论上只需对几个位置算,工程优化空间大。
- \(t^\star\) 仍需在新模型上重新做 SPS 扫描,未给出"零样本"自动确定方案;不同 chat template 引入的特殊 token 影响显著。
相关工作与启发¶
- vs Semantic Entropy / SAR / Semantic Density: 采样路线靠跨样本聚类捕捉"分布散度";SemGrad 单次反向就解决,且天然处理多答案;TruthfulQA 上证明前者会被 aleatoric 噪音淹没。
- vs ExGrad / ParaGrad: 分类任务的参数梯度路线;本文揭示其在 multi-answer 上失效的理论原因(Dirac 假设破裂),并提出 SemGrad 弥补。
- vs INSIDE / Self-Consistency / P(True): 内部状态或自我打分类方法;SemGrad 给出更原则化的"语义稳定性"指标。
- 可迁移启发:把"梯度从参数空间挪到表示空间"的视角对很多 LLM 内部诊断任务(OOD 检测、置信度校准、prompt sensitivity 分析)都有用;SPS 这套"paraphrase 一致性差分"也可以用来定位模型的"语义瓶颈层"。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把梯度 UQ 从分类时代推进到自由生成时代,且首次把多答案场景的失效原因讲清楚。
- 实验充分度: ⭐⭐⭐⭐ 3 模型 × 3 数据集 + 11 个 baseline + 3 维度消融 + SPS 与 AUROC 相关性曲线,覆盖到位;缺少 long-form 与 OOD 域外验证。
- 写作质量: ⭐⭐⭐⭐ 公式推导清晰、动机讲得透彻;图 1 直观、图 3 SPS-AUROC 散点很有说服力。
- 价值: ⭐⭐⭐⭐⭐ 在多答案 QA 上 +3 点 AUROC 且单次反向,部署成本远低于采样路线,对幻觉检测落地实际意义大。