Lyapunov Probes for Hallucination Detection in Large Foundation Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 多模态VLM / 幻觉检测
关键词: 幻觉检测, Lyapunov 稳定性, 动力系统, 探针网络, 知识边界

一句话总结¶

把 (M)LLM 看成在表示空间里演化的高维动力系统、把"幻觉"重新定义为"输入落在稳定平衡点附近还是不稳定的知识边界区域"，用一个带 Lyapunov 单调衰减约束的轻量探针网络（吃多层隐状态 + 扰动信息）来判别，AUPRC 在多个 LLM/MLLM 上稳定超过普通探针 4–8%。

研究背景与动机¶

领域现状：幻觉检测目前主要分两派——外部验证（把输出和知识库比对）和内部特征（在隐状态或 token 概率上训分类器，logit 平坦度、多次生成一致性、提示模型自评置信度等）。

现有痛点：外部方法需要持续更新、覆盖面有限且昂贵的事实库；内部方法则缺乏理论根基，本质上是把幻觉检测当成"标准二分类 / 模式识别"，能拟合表面统计模式，却答不出幻觉到底为什么、在哪里发生。

核心矛盾：现有方法把幻觉当成随机分布的错误来分类，但作者主张幻觉其实是系统性现象——它集中出现在"可靠知识区"和"不确定区"之间的过渡地带，是表示空间里"表征不稳定"的体现。缺了这层机理刻画，探针学到的只是数据集相关的伪特征，跨域就崩。

本文目标：给幻觉检测找一个有理论根基、能解释"何处/何故"的框架，并落成一个实际可训练、可跨域迁移的探针。

切入角度：借动力系统稳定性理论，把 (M)LLM 的逐层前向计算看成一个动力系统 \(\mathcal{F}: \mathbb{R}^d \to \mathbb{R}^d\)，隐状态随层演化 \(h^{(l+1)}=\mathcal{F}^{(l)}(h^{(l)})\)。事实性知识对应吸引子 / 稳定平衡点（小扰动下输出仍保持事实一致），幻觉对应不稳定点（微小扰动就让输出剧烈漂移）。

核心 idea：用 Lyapunov 稳定性理论刻画知识边界——定义探针函数 \(V(h,\delta)\) 估计"该表示在扰动下仍保持事实正确"的概率，并强制它随扰动幅度单调衰减；这样判别幻觉就从"区分事实/非事实输出"变成"判断输入落在稳定区还是不稳定边界区"。

方法详解¶

整体框架¶

方法要解决的是：给定一个 (M)LLM 的某次输出，判断它是否落在"幻觉易发"的不稳定区。整体转法是——先把表示空间按稳定性划成三个区，再训一个轻量探针网络去拟合 Lyapunov 函数 \(V(h,\delta)\)：探针同时吃多层隐状态 \(\{h_l\}_{l\in\mathcal{L}}\) 和显式扰动强度 \(\delta\)，输出 \([0,1]\) 的事实性置信度（越接近 1 越稳定/越可信）。训练时除了普通的事实性监督（BCE），还额外加一条 Lyapunov 约束损失，逼着置信度在扰动增大时单调下降——这正是稳定平衡点的标志。推理时，扰动设为 0 拿到 \(V_0=V(h,0)\) 作为该输入的事实性打分，低于阈值就让模型 abstain（拒答），从而把幻觉挡在生成之前。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["(M)LLM 前向<br/>抽浅/中/深三层隐状态"] --> B["多尺度扰动<br/>语义扰动 + 表示扰动"]
    A --> C["动力系统建模<br/>三区划分 SK/SU/B"]
    B --> D["Lyapunov 探针网络<br/>HiddenProcessor + Classifier"]
    C --> D
    D --> E["两阶段训练<br/>BCE + Lyapunov 约束损失"]
    E -->|推理 δ=0 取 V₀| F["事实性置信度<br/>低于阈值则拒答"]

关键设计¶

1. 动力系统建模与三区划分：把"判事实"改成"判稳定性"

针对"现有方法缺机理、把幻觉当随机错误分类"这个痛点，作者把表示空间显式切成三块：稳定已知区 (SK)——输入有扎实的参数知识支撑，表示 \(h=\text{Encoder}(x)\) 满足对任意 \(\|\delta\|<\epsilon_0\) 有 \(\|\mathcal{F}(h+\delta)-\mathcal{F}(h)\|<\epsilon\)，输出稳健一致；稳定未知区 (SU)——超出模型知识范围，但模型在小扰动下仍稳定地输出"不知道 / 拒答"；不稳定知识边界区 (B)——夹在两者之间、稳定性脆弱，小扰动就让响应突变，幻觉绝大多数发生在这里。这套划分把检测目标从"输出文本对不对"重定义成"输入处在稳定区还是不稳定边界"，给后续的探针提供了明确的优化标的。

2. Lyapunov 探针网络：多层隐状态融合的轻量判别器

为把上面的抽象判据落地，探针把多层原始隐状态和扰动强度拼接后送入网络：

\[V(h,\delta)=\text{Classifier}\big(\text{HiddenProcessor}(\{h_l\}_{l\in\mathcal{L}};\delta)\big)\]

其中 HiddenProcessor 是一个 Transformer，用自注意力捕捉层间依赖，后接 2 层特征投影；Classifier 是 3 层 MLP，末端 sigmoid 输出 \([0,1]\) 置信度。关键之处在于多层信号聚合：作者选浅、中、深三层——浅层富含语义/句法信息、中层提供最强的事实判别信号、深层越来越反映输出生成过程。三层互补的融合比任何单层探针都更可靠，且无需为不同架构手调"该取哪一层"。

3. Lyapunov 约束损失：用导数符号强制置信度单调衰减

普通探针只学到"判别模式"，无法保证真的捕捉到稳定性结构。作者在 BCE 之外加一条显式的稳定性约束。总损失为 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{BCE}}+\lambda\mathcal{L}_{\text{Lyapunov}}\)。其中 BCE 在无扰动样本上监督事实正确性：\(\mathcal{L}_{\text{BCE}}=-\mathbb{E}[y\log V_0+(1-y)\log(1-V_0)]\)，\(V_0=V(h,0)\)，\(y\in\{0,1\}\) 表示模型能否正确回答——这让 \(V\) 在稳定平衡点处取峰。Lyapunov 约束损失则惩罚导数非负的情况：

\[\mathcal{L}_{\text{Lyapunov}}=\mathbb{E}_{h,\delta}\Big[\max\Big(0,\tfrac{\partial V(h,\delta)}{\partial\delta}\Big)\Big]\]

它强制 \(\partial V(h,\delta)/\partial\|\delta\|<0\)，即扰动越大、预测的事实性置信度必须越低。这正是稳定平衡点"偏离即衰减"的 Lyapunov 条件，把"稳定性"从理论判据变成可微的训练信号，使探针学到的是机理而非表面相关性（消融显示去掉它掉 3–5 点）。

4. 多尺度扰动 + 两阶段训练：让稳定性转变变得"可观测"

要让探针看见稳定性如何随扰动崩塌，需要系统地把表示推过知识边界。作者用两类扰动：语义扰动（同词性替换、插随机 token、调整句法结构，测试核心事实在语言变化下稳不稳）和表示扰动（直接往隐状态注入高斯噪声，模拟内部表示的随机波动）。对每个输入构造一串幅度递增的扰动 \(\delta_1,\dots,\delta_K\)，并用余弦相似度量化扰动幅度 \(\delta=1-\cos(h,h_\delta)\)，在"让稳定性转变可见"和"保留原始语义"之间取平衡。训练分两阶段：先只用 BCE 学会区分事实/非事实，再逐步加大 \(\lambda\) 引入 Lyapunov 约束、强制单调衰减——这种 warm-up 式调度保证优化稳定，同时把期望的稳定性性质刻进探针。

损失函数 / 训练策略¶

总目标 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{BCE}}+\lambda\mathcal{L}_{\text{Lyapunov}}\)；两阶段训练（阶段一仅 BCE、阶段二渐增 \(\lambda\)）。采用 80/20 训练/验证划分、贪心解码、多随机种子。⚠️ 三个隐状态层的具体层号、\(\lambda\) 的取值范围与扰动步数 \(K\) 原文未在正文给出确切数值，以原文/附录为准。

实验关键数据¶

主实验（LLM，AUPRC↑）¶

在四个 LLM 上对比基于概率/自评的基线和不带稳定性约束的普通 Probe（节选 Llama-3-8B 与 Falcon-7B）：

模型	方法	TriviaQA	PopQA	CoQA	MMLU
Llama-3-8B	Seq. Prob.	70.72	27.02	50.35	57.48
Llama-3-8B	Probe	78.82	60.77	80.67	79.26
Llama-3-8B	Ours	86.46	67.08	81.28	80.00
Falcon-7B	Probe	63.27	60.48	65.36	24.79
Falcon-7B	Ours	65.52	61.23	66.03	25.11

平均比普通探针高 6.2%、比概率类基线高 18.5%；在需要事实准确性的任务上稳定取得 4–8% 提升（TriviaQA 上 Llama-3-8B +7.1%）。

MLLM 实验（AUPRC↑）¶

模型	方法	POPE	TextVQA	VizWiz	MME
LLaVA-1.5	Probe	98.08	85.89	77.02	93.61
LLaVA-1.5	Ours	99.13	89.02	83.18	95.18
Qwen-2.5-VL	Probe	98.41	95.61	84.04	96.32
Qwen-2.5-VL	Ours	99.00	96.98	85.17	97.57

平均比基础探针高 2.1%；POPE 已近饱和（仅 +0.8%），但在 VizWiz 这类真实低质量图像上增益最大（平均 +3.6%，LLaVA 在 VizWiz 上 +6.2%）。

消融实验（TriviaQA，AUPRC↑）¶

配置	Llama-2-7B	Llama-3-8B	Qwen-3-4B	Falcon-7B
w/o 扰动数据	82.41	82.35	79.92	65.65
w/o 两阶段训练	82.00	84.80	80.58	64.27
w/o 多层隐状态	77.34	82.16	77.59	60.50
w/o Lyapunov 约束损失	78.13	82.86	74.19	62.48
完整模型	83.09	86.46	79.47	65.52

关键发现¶

多层隐状态最关键：去掉后掉点最多（Llama-2-7B 从 83.09 → 77.34）；单层探针最优深度随架构而变，但多层融合比最佳单层还高 1.8–4.8 个百分点。
Lyapunov 约束损失贡献第二：去掉掉 3–5 点，证明显式单调衰减确实让探针超出普通监督学习。
稳定性是真学到的、不是拟合：图 4 显示完整探针置信度随扰动幅度（0→1）平滑单调下降（Qwen-3-4B 0.80→0.50，Llama-3-8B 0.69→0.48），而普通探针中段会乱跳——确认其满足 Lyapunov 条件。
跨域迁移强：仅在 TriviaQA 训练、直接测 CoQA/PopQA，跨域探针比概率基线高 20–30 个百分点，与同域探针差距仅 5–16 点，印证"知识边界的不稳定性是跨任务通用规律"。
稳定性信号集中在中后层：深层（15–32）普遍优于浅层（0–5）。
⚠️ 两阶段训练对部分模型增益很小（Qwen-3-4B 去掉反而略升），作者归因为架构相关的最优训练策略，并非所有模型都需要。

亮点与洞察¶

视角重构本身就是最大贡献：把"判事实"改成"判表示稳定性"，让幻觉检测第一次有了"何处/何故"的机理解释，而不只是刷分类器。这种把动力系统/Lyapunov 理论引到 LLM 认知层面的做法很可迁移。
用导数符号当损失很巧妙：\(\max(0,\partial V/\partial\delta)\) 把抽象的"单调衰减稳定性"变成一行可微正则，几乎零额外成本就把理论性质刻进网络。
跨域近乎不掉点是这套机理假设最有力的证据：如果探针只是拟合数据集伪特征，跨域应该崩，而它没崩，说明知识边界的不稳定性确实是模型层面的普遍结构。
轻量、与基座解耦：探针只读隐状态、不动基座，可即插即用到不同 (M)LLM。

局限与展望¶

需要标注的可答/不可答标签训练探针（\(y\in\{0,1\}\)），落到全新领域仍要一批监督数据，虽然跨域迁移缓解了这点。
扰动构造较启发式：语义+高斯噪声两类扰动、幅度用 \(1-\cos\) 度量，扰动步数与强度区间属超参，正文未充分给出敏感性分析。
POPE 等已饱和的基准提升有限，方法的价值主要体现在真实噪声/开放事实 QA 场景。
⚠️ 自定义指标 AUPRC 在类不平衡下合理，但跨任务绝对值不可直接横比（CoQA 因上下文连贯天然增益小，不代表方法弱）。
可改进：把三区划分的边界 \(B\) 显式参数化、或把 Lyapunov 函数从置信度推广到向量场，或许能给出更精细的"幻觉风险地图"。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把动力系统/Lyapunov 稳定性引入幻觉检测、重定义问题，视角确实新。
实验充分度: ⭐⭐⭐⭐ 覆盖 6 个 (M)LLM、8 个基准 + 跨域 + 单调性验证，较充分；但缺扰动超参敏感性、\(\lambda\)/层号等细节。
写作质量: ⭐⭐⭐⭐ 理论框架讲得清楚，三区划分与损失推导逻辑顺；部分实现细节散在附录。
价值: ⭐⭐⭐⭐ 轻量即插即用 + 跨域稳，幻觉检测落地有实用价值，机理视角也有启发性。