Lyapunov Probes for Hallucination Detection in Large Foundation Models¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 多模态VLM / 幻觉检测
关键词: 幻觉检测, Lyapunov 稳定性, 动力系统, 探针网络, 知识边界
一句话总结¶
把 (M)LLM 看成在表示空间里演化的高维动力系统、把"幻觉"重新定义为"输入落在稳定平衡点附近还是不稳定的知识边界区域",用一个带 Lyapunov 单调衰减约束的轻量探针网络(吃多层隐状态 + 扰动信息)来判别,AUPRC 在多个 LLM/MLLM 上稳定超过普通探针 4–8%。
研究背景与动机¶
领域现状:幻觉检测目前主要分两派——外部验证(把输出和知识库比对)和内部特征(在隐状态或 token 概率上训分类器,logit 平坦度、多次生成一致性、提示模型自评置信度等)。
现有痛点:外部方法需要持续更新、覆盖面有限且昂贵的事实库;内部方法则缺乏理论根基,本质上是把幻觉检测当成"标准二分类 / 模式识别",能拟合表面统计模式,却答不出幻觉到底为什么、在哪里发生。
核心矛盾:现有方法把幻觉当成随机分布的错误来分类,但作者主张幻觉其实是系统性现象——它集中出现在"可靠知识区"和"不确定区"之间的过渡地带,是表示空间里"表征不稳定"的体现。缺了这层机理刻画,探针学到的只是数据集相关的伪特征,跨域就崩。
本文目标:给幻觉检测找一个有理论根基、能解释"何处/何故"的框架,并落成一个实际可训练、可跨域迁移的探针。
切入角度:借动力系统稳定性理论,把 (M)LLM 的逐层前向计算看成一个动力系统 \(\mathcal{F}: \mathbb{R}^d \to \mathbb{R}^d\),隐状态随层演化 \(h^{(l+1)}=\mathcal{F}^{(l)}(h^{(l)})\)。事实性知识对应吸引子 / 稳定平衡点(小扰动下输出仍保持事实一致),幻觉对应不稳定点(微小扰动就让输出剧烈漂移)。
核心 idea:用 Lyapunov 稳定性理论刻画知识边界——定义探针函数 \(V(h,\delta)\) 估计"该表示在扰动下仍保持事实正确"的概率,并强制它随扰动幅度单调衰减;这样判别幻觉就从"区分事实/非事实输出"变成"判断输入落在稳定区还是不稳定边界区"。
方法详解¶
整体框架¶
方法要解决的是:给定一个 (M)LLM 的某次输出,判断它是否落在"幻觉易发"的不稳定区。整体转法是——先把表示空间按稳定性划成三个区,再训一个轻量探针网络去拟合 Lyapunov 函数 \(V(h,\delta)\):探针同时吃多层隐状态 \(\{h_l\}_{l\in\mathcal{L}}\) 和显式扰动强度 \(\delta\),输出 \([0,1]\) 的事实性置信度(越接近 1 越稳定/越可信)。训练时除了普通的事实性监督(BCE),还额外加一条 Lyapunov 约束损失,逼着置信度在扰动增大时单调下降——这正是稳定平衡点的标志。推理时,扰动设为 0 拿到 \(V_0=V(h,0)\) 作为该输入的事实性打分,低于阈值就让模型 abstain(拒答),从而把幻觉挡在生成之前。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["(M)LLM 前向<br/>抽浅/中/深三层隐状态"] --> B["多尺度扰动<br/>语义扰动 + 表示扰动"]
A --> C["动力系统建模<br/>三区划分 SK/SU/B"]
B --> D["Lyapunov 探针网络<br/>HiddenProcessor + Classifier"]
C --> D
D --> E["两阶段训练<br/>BCE + Lyapunov 约束损失"]
E -->|推理 δ=0 取 V₀| F["事实性置信度<br/>低于阈值则拒答"]
关键设计¶
1. 动力系统建模与三区划分:把"判事实"改成"判稳定性"
针对"现有方法缺机理、把幻觉当随机错误分类"这个痛点,作者把表示空间显式切成三块:稳定已知区 (SK)——输入有扎实的参数知识支撑,表示 \(h=\text{Encoder}(x)\) 满足对任意 \(\|\delta\|<\epsilon_0\) 有 \(\|\mathcal{F}(h+\delta)-\mathcal{F}(h)\|<\epsilon\),输出稳健一致;稳定未知区 (SU)——超出模型知识范围,但模型在小扰动下仍稳定地输出"不知道 / 拒答";不稳定知识边界区 (B)——夹在两者之间、稳定性脆弱,小扰动就让响应突变,幻觉绝大多数发生在这里。这套划分把检测目标从"输出文本对不对"重定义成"输入处在稳定区还是不稳定边界",给后续的探针提供了明确的优化标的。
2. Lyapunov 探针网络:多层隐状态融合的轻量判别器
为把上面的抽象判据落地,探针把多层原始隐状态和扰动强度拼接后送入网络:
其中 HiddenProcessor 是一个 Transformer,用自注意力捕捉层间依赖,后接 2 层特征投影;Classifier 是 3 层 MLP,末端 sigmoid 输出 \([0,1]\) 置信度。关键之处在于多层信号聚合:作者选浅、中、深三层——浅层富含语义/句法信息、中层提供最强的事实判别信号、深层越来越反映输出生成过程。三层互补的融合比任何单层探针都更可靠,且无需为不同架构手调"该取哪一层"。
3. Lyapunov 约束损失:用导数符号强制置信度单调衰减
普通探针只学到"判别模式",无法保证真的捕捉到稳定性结构。作者在 BCE 之外加一条显式的稳定性约束。总损失为 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{BCE}}+\lambda\mathcal{L}_{\text{Lyapunov}}\)。其中 BCE 在无扰动样本上监督事实正确性:\(\mathcal{L}_{\text{BCE}}=-\mathbb{E}[y\log V_0+(1-y)\log(1-V_0)]\),\(V_0=V(h,0)\),\(y\in\{0,1\}\) 表示模型能否正确回答——这让 \(V\) 在稳定平衡点处取峰。Lyapunov 约束损失则惩罚导数非负的情况:
它强制 \(\partial V(h,\delta)/\partial\|\delta\|<0\),即扰动越大、预测的事实性置信度必须越低。这正是稳定平衡点"偏离即衰减"的 Lyapunov 条件,把"稳定性"从理论判据变成可微的训练信号,使探针学到的是机理而非表面相关性(消融显示去掉它掉 3–5 点)。
4. 多尺度扰动 + 两阶段训练:让稳定性转变变得"可观测"
要让探针看见稳定性如何随扰动崩塌,需要系统地把表示推过知识边界。作者用两类扰动:语义扰动(同词性替换、插随机 token、调整句法结构,测试核心事实在语言变化下稳不稳)和表示扰动(直接往隐状态注入高斯噪声,模拟内部表示的随机波动)。对每个输入构造一串幅度递增的扰动 \(\delta_1,\dots,\delta_K\),并用余弦相似度量化扰动幅度 \(\delta=1-\cos(h,h_\delta)\),在"让稳定性转变可见"和"保留原始语义"之间取平衡。训练分两阶段:先只用 BCE 学会区分事实/非事实,再逐步加大 \(\lambda\) 引入 Lyapunov 约束、强制单调衰减——这种 warm-up 式调度保证优化稳定,同时把期望的稳定性性质刻进探针。
损失函数 / 训练策略¶
总目标 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{BCE}}+\lambda\mathcal{L}_{\text{Lyapunov}}\);两阶段训练(阶段一仅 BCE、阶段二渐增 \(\lambda\))。采用 80/20 训练/验证划分、贪心解码、多随机种子。⚠️ 三个隐状态层的具体层号、\(\lambda\) 的取值范围与扰动步数 \(K\) 原文未在正文给出确切数值,以原文/附录为准。
实验关键数据¶
主实验(LLM,AUPRC↑)¶
在四个 LLM 上对比基于概率/自评的基线和不带稳定性约束的普通 Probe(节选 Llama-3-8B 与 Falcon-7B):
| 模型 | 方法 | TriviaQA | PopQA | CoQA | MMLU |
|---|---|---|---|---|---|
| Llama-3-8B | Seq. Prob. | 70.72 | 27.02 | 50.35 | 57.48 |
| Llama-3-8B | Probe | 78.82 | 60.77 | 80.67 | 79.26 |
| Llama-3-8B | Ours | 86.46 | 67.08 | 81.28 | 80.00 |
| Falcon-7B | Probe | 63.27 | 60.48 | 65.36 | 24.79 |
| Falcon-7B | Ours | 65.52 | 61.23 | 66.03 | 25.11 |
平均比普通探针高 6.2%、比概率类基线高 18.5%;在需要事实准确性的任务上稳定取得 4–8% 提升(TriviaQA 上 Llama-3-8B +7.1%)。
MLLM 实验(AUPRC↑)¶
| 模型 | 方法 | POPE | TextVQA | VizWiz | MME |
|---|---|---|---|---|---|
| LLaVA-1.5 | Probe | 98.08 | 85.89 | 77.02 | 93.61 |
| LLaVA-1.5 | Ours | 99.13 | 89.02 | 83.18 | 95.18 |
| Qwen-2.5-VL | Probe | 98.41 | 95.61 | 84.04 | 96.32 |
| Qwen-2.5-VL | Ours | 99.00 | 96.98 | 85.17 | 97.57 |
平均比基础探针高 2.1%;POPE 已近饱和(仅 +0.8%),但在 VizWiz 这类真实低质量图像上增益最大(平均 +3.6%,LLaVA 在 VizWiz 上 +6.2%)。
消融实验(TriviaQA,AUPRC↑)¶
| 配置 | Llama-2-7B | Llama-3-8B | Qwen-3-4B | Falcon-7B |
|---|---|---|---|---|
| w/o 扰动数据 | 82.41 | 82.35 | 79.92 | 65.65 |
| w/o 两阶段训练 | 82.00 | 84.80 | 80.58 | 64.27 |
| w/o 多层隐状态 | 77.34 | 82.16 | 77.59 | 60.50 |
| w/o Lyapunov 约束损失 | 78.13 | 82.86 | 74.19 | 62.48 |
| 完整模型 | 83.09 | 86.46 | 79.47 | 65.52 |
关键发现¶
- 多层隐状态最关键:去掉后掉点最多(Llama-2-7B 从 83.09 → 77.34);单层探针最优深度随架构而变,但多层融合比最佳单层还高 1.8–4.8 个百分点。
- Lyapunov 约束损失贡献第二:去掉掉 3–5 点,证明显式单调衰减确实让探针超出普通监督学习。
- 稳定性是真学到的、不是拟合:图 4 显示完整探针置信度随扰动幅度(0→1)平滑单调下降(Qwen-3-4B 0.80→0.50,Llama-3-8B 0.69→0.48),而普通探针中段会乱跳——确认其满足 Lyapunov 条件。
- 跨域迁移强:仅在 TriviaQA 训练、直接测 CoQA/PopQA,跨域探针比概率基线高 20–30 个百分点,与同域探针差距仅 5–16 点,印证"知识边界的不稳定性是跨任务通用规律"。
- 稳定性信号集中在中后层:深层(15–32)普遍优于浅层(0–5)。
- ⚠️ 两阶段训练对部分模型增益很小(Qwen-3-4B 去掉反而略升),作者归因为架构相关的最优训练策略,并非所有模型都需要。
亮点与洞察¶
- 视角重构本身就是最大贡献:把"判事实"改成"判表示稳定性",让幻觉检测第一次有了"何处/何故"的机理解释,而不只是刷分类器。这种把动力系统/Lyapunov 理论引到 LLM 认知层面的做法很可迁移。
- 用导数符号当损失很巧妙:\(\max(0,\partial V/\partial\delta)\) 把抽象的"单调衰减稳定性"变成一行可微正则,几乎零额外成本就把理论性质刻进网络。
- 跨域近乎不掉点是这套机理假设最有力的证据:如果探针只是拟合数据集伪特征,跨域应该崩,而它没崩,说明知识边界的不稳定性确实是模型层面的普遍结构。
- 轻量、与基座解耦:探针只读隐状态、不动基座,可即插即用到不同 (M)LLM。
局限与展望¶
- 需要标注的可答/不可答标签训练探针(\(y\in\{0,1\}\)),落到全新领域仍要一批监督数据,虽然跨域迁移缓解了这点。
- 扰动构造较启发式:语义+高斯噪声两类扰动、幅度用 \(1-\cos\) 度量,扰动步数与强度区间属超参,正文未充分给出敏感性分析。
- POPE 等已饱和的基准提升有限,方法的价值主要体现在真实噪声/开放事实 QA 场景。
- ⚠️ 自定义指标 AUPRC 在类不平衡下合理,但跨任务绝对值不可直接横比(CoQA 因上下文连贯天然增益小,不代表方法弱)。
- 可改进:把三区划分的边界 \(B\) 显式参数化、或把 Lyapunov 函数从置信度推广到向量场,或许能给出更精细的"幻觉风险地图"。
相关工作与启发¶
- vs 概率/自评类基线(Verbalized / Surrogate / Seq. Prob.): 它们靠 token 概率平坦度或提示自评,本文靠隐状态稳定性;前者把幻觉当模式识别、易过自信,后者有理论根基且跨域稳,AUPRC 高出 18.5%。
- vs 普通监督探针(Probe): 同样训隐状态分类器,但本文加了 Lyapunov 单调衰减约束 + 多层融合 + 多尺度扰动;普通探针中段非单调、是表面拟合,本文平均高 6.2% 且跨域差距小很多。
- vs HaloScope 等子空间方法: 它们做激活协方差特征分解/找幻觉子空间,本文不找方向而是刻画"扰动下的稳定性",把表征稳定性与事实可靠性理论挂钩。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把动力系统/Lyapunov 稳定性引入幻觉检测、重定义问题,视角确实新。
- 实验充分度: ⭐⭐⭐⭐ 覆盖 6 个 (M)LLM、8 个基准 + 跨域 + 单调性验证,较充分;但缺扰动超参敏感性、\(\lambda\)/层号等细节。
- 写作质量: ⭐⭐⭐⭐ 理论框架讲得清楚,三区划分与损失推导逻辑顺;部分实现细节散在附录。
- 价值: ⭐⭐⭐⭐ 轻量即插即用 + 跨域稳,幻觉检测落地有实用价值,机理视角也有启发性。