Harnessing Reasoning Trajectories for Hallucination Detection via Answer-agreement Representation Shaping¶

会议: ICML 2026
arXiv: 2601.17467
代码: https://github.com/radiolab-ntu/ars_icml2026 (有)
领域: 大推理模型幻觉检测 / 反事实表示学习
关键词: 大推理模型, 幻觉检测, 潜空间扰动, 反事实答案, 对比表示塑形

一句话总结¶

本文针对大推理模型（LRM）的幻觉检测提出 ARS：不在文本层扰动 reasoning trace，而是直接在 trace 末端的潜表示上施加小扰动并续解码得到反事实答案，再用"答案是否一致"作为标签训一个轻量 contrastive 头来塑形 trace-conditioned answer embedding，使后续 embedding-based detector 把幻觉与真实回答分得更开（TruthfulQA 上 AUROC \(66.85\to 86.64\)）。

研究背景与动机¶

领域现状：LRM（Qwen3、DeepSeek-R1 等）先生成长 reasoning trace 再产出答案。常见幻觉检测方法分四类：(i) 基于 logit/perplexity 的不确定性；(ii) 基于多次采样的一致性（Semantic Entropy、SelfCKGPT）；(iii) 让模型口头报告置信度；(iv) 用 embedding-based probe（CCS、HaloScope、EigenScore）从内部状态分类。

现有痛点：直接拿 reasoning trace 当信号在实证上效果不增反减——作者用 Qwen3-8B 在 TruthfulQA 上对比"有/无 trace"两种 representation，发现 trace 反而会掩盖 answer-level 幻觉信号（图 1）。原因有二：(1) 同一答案可由多条 trace 支持，trace 的表面形式变化巨大，detector 容易过拟到风格而非答案有效性；(2) 幻觉本质是 answer-level 性质，但 trace 横跨大量 token 和层，无关风格变化淹没了真信号。

核心矛盾：trace 里确实藏着关于答案稳定性的信号——直觉是"真答案在内部表征上稳定，幻觉答案脆弱，小扰动就会换答案"——但常规 embedding 既包含这个稳定性信号也包含大量风格噪声，无法被 detector 直接利用。

本文目标：(1) 从 trace 中提炼出 answer-centric 的稳定性信号；(2) 把这个信号注入到 trace-conditioned answer embedding 里，让下游任意 embedding-based detector 都能直接受益；(3) 不依赖人工 hallucination 标注、不在推理阶段做多次采样。

切入角度：把 trace 看成给定 context，关注 trace 结束、答案开始的那一刻——也就是 reasoning trace 末 token 在倒数第二层的 hidden state \(\boldsymbol h\)。这是模型"已经看完所有 reasoning，但还没开始锁定答案"的状态，对它做小扰动续解码得到的反事实答案，能最干净地反映"模型当前对答案的承诺有多强"。

核心 idea：用潜空间扰动制造反事实答案 → 用"反事实是否与原答案一致"做对比标签 → 训一个 lightweight projection 把稳定性信号显式塑形进 embedding 里。

方法详解¶

整体框架¶

冻结 LRM \(\pi_\theta\)。给一条 \((\boldsymbol x, \boldsymbol r, \boldsymbol a)\)（prompt / trace / answer）：

取 trace 末 token 的倒数第二层 hidden state \(\boldsymbol h = \boldsymbol h_L(\boldsymbol x\oplus\boldsymbol r)\)。
采样 \(M\) 个高斯扰动 \(\boldsymbol\delta_j\sim\mathcal N(0,\sigma^2\boldsymbol I)\)，从 \(\boldsymbol h + \boldsymbol\delta_j\) 续解码得到反事实答案 \(\tilde{\boldsymbol a}_j\) 及其 embedding \(\tilde{\boldsymbol u}_j\)。
用 LLM-as-judge 判定 \(\text{Agr}(\boldsymbol a, \tilde{\boldsymbol a}_j)\in\{0,1\}\)，把 \(\tilde{\boldsymbol u}_j\) 分到一致集 \(\mathcal U^+\) 或不一致集 \(\mathcal U^-\)。
训练轻量线性映射 \(g_\phi: \mathbb R^d\to\mathbb R^k\)（无 bias 的 single linear projection）使 \(\boldsymbol z = g_\phi(\boldsymbol u)\) 把 \(\mathcal U^+\) 拉近、\(\mathcal U^-\) 推远（InfoNCE 形式）。

测试时：对新样本只跑一次 forward，取 \(\boldsymbol u\)，过 \(g_\phi\) 得 \(\boldsymbol z\)，喂任意 embedding-based detector（CCS、Probing、HaloScope、EigenScore）做二分类。

关键设计¶

潜空间在 trace 边界的扰动 → 反事实答案:
- 功能：用最小代价制造"模型在当前内部状态下可能产出的其它答案"，把多次采样的成本从推理时转移到一次性训练。
- 核心思路：\(\tilde{\boldsymbol h}=\boldsymbol h + \boldsymbol\delta,\ \boldsymbol\delta\sim\mathcal N(0,\sigma^2\boldsymbol I)\)，然后 \(\tilde{\boldsymbol a}=\text{Decode}_\theta(\boldsymbol x\oplus\boldsymbol r;\tilde{\boldsymbol h})\)。扰动位置故意选 trace 末 / 答案前 这一交界——文章解释：在 trace 中部扰动会让后续 reasoning 形式整体重写，扰动效应被 trace style 主导而非 answer 改变；在答案中部扰动则后续 token 受已生成 answer token 强约束，只能做局部编辑无法翻转语义。trace 边界是模型已完整吸收 reasoning 但尚未提交答案的"最大答案自由度"位置。
- 设计动机：以前的方法要么在 text 空间扰动 trace（删词/换序/paraphrase），那需要 careful 设计且常常改变语义；要么走 multi-sample 输出空间，推理代价 \(\times M\)。直接在潜空间动手既廉价又是模型自身决策几何的扰动，不需任何文本设计。
答案一致性作为自动监督信号:
- 功能：用零人工标注的方式得到 contrastive pair。
- 核心思路：对每个原样本 \((\boldsymbol x, \boldsymbol r, \boldsymbol a)\) 产 \(M\) 个 \(\tilde{\boldsymbol a}_j\)，用 \(\text{Agr}\)（可用文本相似度或 LLM-as-judge 实例化）划分。注意 \(\text{Agr}\) 不需要真值 \(y\)——只判反事实答案与原答案是否等价。\(\mathcal U^+=\{\tilde{\boldsymbol u}_j: \text{Agr}=1\}\) 收集"小扰动下仍指向同一答案的内部状态"；\(\mathcal U^-=\{\tilde{\boldsymbol u}_j:\text{Agr}=0\}\) 收集"小扰动就翻车的内部状态"。直觉：幻觉样本的 \(\mathcal U^-\) 通常更大（稳定性 margin 小），真实样本的 \(\mathcal U^+\) 占主导。
- 设计动机：把模型自身的决策稳定性蒸馏成训练信号，且不需要 hallucination ground truth——这让 ARS 可以无监督地训练（搭 CCS 时整套链路 zero supervision），同时也兼容有监督 Probing。
InfoNCE 风格的塑形目标:
- 功能：用对比 loss 把 stability 信号显式编码进 \(\boldsymbol z\) 几何里。
- 核心思路：以原答案的 \(\boldsymbol z = g_\phi(\boldsymbol u)\) 为 anchor，正例 \(\tilde{\boldsymbol z}^+ \sim g_\phi(\mathcal U^+)\)，负例集合 \(\mathcal Z^- = g_\phi(\mathcal U^-)\)，loss \(\mathcal L_{\text{ARS}}=-\frac{\text{sim}(\boldsymbol z,\tilde{\boldsymbol z}^+)}{\tau}+\log\sum_{\tilde{\boldsymbol z}'\in\{\tilde{\boldsymbol z}^+\}\cup\mathcal Z^-}\exp(\frac{\text{sim}(\boldsymbol z,\tilde{\boldsymbol z}')}{\tau})\)，其中 sim 是 cosine。映射 \(g_\phi\) 只是无 bias 的 single linear projection——极轻量。理论上 Proposition 4.2 给出 \(\Pr(\hat y\neq y)\leq C(1-\eta_\phi)+e_\alpha\)，把检测错误率上界拆成"答案稳定性是否能区分真假"\(e_\alpha\) 和"塑形是否成功分离正负对"\(1-\eta_\phi\) 两项；优化 \(\mathcal L_{\text{ARS}}\) 直接收紧第二项。
- 设计动机：把"幻觉=不稳定"这个直觉从需要 multi-sample 推理（如 Semantic Entropy）变成可一次性 forward 的几何属性，且 plug-and-play 兼容现有 detector，不必修改下游模型。

损失函数 / 训练策略¶

\(\mathcal L_{\text{ARS}}\) 如上；Adam，lr \(1\text{e-}4\)，weight decay \(1\text{e-}5\)，cosine decay，batch 128。
\(g_\phi\) 实现为 single linear projection；输入是 LRM 倒数第二层最后一个 answer token 的 embedding（按 Azaria & Mitchell 2023 约定）。
超参 \(\sigma, k, \tau, M\)、训练层在 100 样本 validation split 上选；TruthfulQA 用 25% 测试。

实验关键数据¶

主实验¶

模型	数据集	Detector	Vanilla AUROC	ARS-Shaped AUROC	提升
Qwen3-8B	TruthfulQA	CCS	66.85	86.64	\(+19.79\)
Qwen3-8B	TriviaQA	CCS	59.24	88.54	\(+29.30\)
Qwen3-8B	GSM8K	CCS	57.98	90.37	\(+32.39\)
Qwen3-8B	MATH-500	CCS	55.64	78.66	\(+23.02\)
Qwen3-8B	TruthfulQA	Probing	78.66	83.66	\(+5.00\)
Qwen3-8B	MATH-500	Probing	67.03	78.17	\(+11.14\)
DeepSeek-R1-Distill-Llama-8B	TriviaQA	CCS	63.99	88.86	\(+24.87\)
DeepSeek-R1-Distill-Llama-8B	MATH-500	CCS	54.44	86.38	\(+31.94\)

数据集	模型	ARS	TSV (Park 2025)	G-Detector (Zhang 2026)	Semantic Entropy
TruthfulQA	Qwen3-8B	86.64	77.08	71.86	65.60
TriviaQA	Qwen3-8B	91.62 (Probing)	89.67	90.52	58.37
GSM8K	Qwen3-8B	90.37	83.15	83.78	72.51
MATH-500	Qwen3-8B	78.66	63.12	57.67	56.13

消融实验¶

配置	TruthfulQA AUROC	说明
ARS (trace-boundary intervention)	86.64	默认
trace 中部扰动	显著下降	答案改变与 trace 风格变化纠缠
答案中部扰动	显著下降	后续 token 受 answer 强约束，只做表层编辑
文本删词 (10–90%)	全面差于 ARS	文本扰动设计敏感
文本 mask / paraphrase	同上	同上
跨数据集（GSM8K→TriviaQA）	87.80	接近 in-domain 91.62，强迁移
Qwen3-14B（更大模型）	77.47 (vs TSV 73.41, G-Det 69.89)	scale 后仍领先

关键发现¶

trace 边界是唯一对的扰动点：消融把 mid-trace / mid-answer / 文本扰动都跑了，trace 末肯定胜出——这给"如何使用 reasoning trace"提供了一个非显然的实践经验。
CCS（无监督）+ ARS 反而比 Probing（有监督）+ ARS 更强：在 TruthfulQA 和 GSM8K 上 CCS-ARS 都超过 Probing-ARS，说明塑形过的 embedding 已经足够分离，反而是无监督 CCS 把它最大化利用了，这意味着 ARS 让"有标签 vs 无标签"的差距大幅缩小。
强跨域迁移：GSM8K 训的 \(g_\phi\) 在 TriviaQA 上仍能拿 87.80，说明 ARS 捕获的是与数据集无关的稳定性几何，而非过拟合表层风格。
scale 友好：14B 模型上仍稳定超越最强 baseline (TSV/G-Detector)。
inference 零额外采样：与 Semantic Entropy / SelfCKGPT 需要 \(M\) 次 forward 不同，ARS 测试只需一次 forward + 线性投影，工业部署极友好。

亮点与洞察¶

潜空间扰动取代文本扰动：直接对 hidden state 加小高斯噪声然后续解码，绕开了所有 text perturbation 的语义/格式设计问题，是一个非常 clean 的 trick，可以迁移到任何"研究输入空间 vs 答案空间的稳定性"任务。
训练时扰动 / 推理时干净：把多次采样的代价 amortize 到训练阶段，推理时只走一次 forward 拿到塑形过的 embedding——这种 "expensive train / cheap test" pattern 在大模型部署语境下尤其值得复用。
答案一致性即自监督：\(\text{Agr}\) 完全可由模型自己判，零人工标注；这让 ARS 在新领域/新模型上几乎零冷启动成本。
理论与算法严格对齐：Proposition 4.2 把对比 loss 优化的 \(\eta_\phi\) 与检测错误上界直接挂钩，这种"loss 直接对应可证 bound"的范式在表示学习里很难得。
trace 边界这一锚点的物理直觉：作者解释为"模型完整吸收 reasoning 但尚未承诺答案"的状态，非常符合人类对 deliberation 的直觉。

局限与展望¶

\(\text{Agr}\) 用 LLM-as-judge 实现，质量依赖判断模型；若 judge 自己也有幻觉，contrastive pair 会被污染（论文用 Qwen3-32B 做 judge 部分缓解但未消融 judge 选择）。
高斯各向同性扰动可能不是最优——不同方向上模型敏感度差异巨大，未来可考虑沿主成分方向或 Fisher 信息方向自适应扰动。
主要 benchmark 是 QA/数学，对长文本生成（如 long-form summarization）下的幻觉是否仍能精准检测尚未验证。
\(g_\phi\) 是 single linear projection，能力上限可能不高；当 LRM 内部表征已经几何坍缩时（例如 RLHF 后），线性投影未必能恢复 stability 信号。
论文 placement 在 causal_inference 文件夹下并不贴切（核心是反事实但任务属于 trustworthy LLM），未来重分类时建议挪到 hallucination/llm_reasoning 子领域。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "潜空间扰动 + 答案一致性 contrastive 塑形"在幻觉检测里是首次提出且非常自然
实验充分度: ⭐⭐⭐⭐ 4 数据集 × 2 主模型 + 14B 扩展 + 跨域迁移 + 4 种下游 detector + 多种扰动位置消融
写作质量: ⭐⭐⭐⭐ trace 边界的物理直觉讲透，方法图清晰，理论与算法关联明确
价值: ⭐⭐⭐⭐⭐ 推理时零开销、零人工标注、跨域强迁移、即插即用，工业部署立即可用