Old Habits Die Hard: How Conversational History Geometrically Traps LLMs¶

会议: ICML 2026
arXiv: 2603.03308
代码: https://github.com/technion-cs-nlp/OldHabitsDieHard
领域: LLM安全 / 机制可解释性 / 对话行为分析
关键词: 对话历史, 行为持续性, 马尔可夫链, 几何陷阱, 拒绝 / 谄媚 / 幻觉

一句话总结¶

History-Echoes 框架用"马尔可夫链状态一致性"和"潜空间几何角度"两套视角分析 LLM 对话历史的 carryover 效应，发现两者 Spearman 相关 0.78——一旦某种行为（幻觉/谄媚/拒绝）出现，模型就被困在潜空间该状态对应区域里，难以跳出；其中"拒绝"陷阱最强，"幻觉"最弱，且话题不连贯时陷阱会消解。

研究背景与动机¶

领域现状：LLM 表现出多种状态依赖行为——不期望的（幻觉、谄媚）和期望的（拒绝）；prior work 已记录这些现象，但它们在多轮对话里如何持续、如何被表示缺乏统一框架。已有的安全轨迹 / 生成难度研究都是孤立看单一现象，没人把"持续概率"和"内部几何"联系起来。

现有痛点：单从黑盒（输出层）或白盒（隐藏态）单独看都不够——黑盒看不出机理（为什么持续？），白盒缺少行为层验证（这个几何模式真对应外部行为吗？）。

核心矛盾：要解释为什么"前面拒绝过的模型后面更容易拒绝"，需要同时证明"行为层确实持续"和"内部几何确实有结构上的对应"，两者还要相关——否则要么是统计错觉要么是 cherry-picked 几何。

本文目标：（1）定量化测量行为 carryover；（2）从潜空间几何上揭示其机制；（3）证明两套视角强相关，给出对"behavioral persistence ≈ geometric trap"的双重证据。

切入角度：把每一轮对话状态二元化（行为出现 / 不出现），用一阶马尔可夫链建模；同时在潜空间用 Gram-Schmidt 构造 \(\mathcal{H}_{\phi^+}, \mathcal{H}_{\phi^-}\) 的正交基，测两组激活的角度分离；预测这两个角度（黑盒持续率 vs 白盒几何角）正相关。

核心 idea：行为持续不是孤立的输出层现象，而是潜空间"两个相态区域被大角度分开 + 转换需跨大旋转 + 旋转往往不完全"——模型被几何性地困在原状态。

方法详解¶

整体框架¶

History-Echoes 双视角： 1. 概率视角（黑盒）：把对话状态序列建模为 2 状态马尔可夫链 \(\mathbf{T}\)，用 \(\text{Tr}(\mathbf{T}) = P(s_{\phi^+}|s_{\phi^+}) + P(s_{\phi^-}|s_{\phi^-})\) 量化持续性；无 carryover 时 \(\text{Tr}=1\)，\(\text{Tr}>1\) 表示状态自循环偏好 2. 几何视角（白盒）：对每种现象，分别收集 \(\phi^+, \phi^-\) 状态的隐藏态集合 \(\mathcal{H}_{\phi^\pm}\)，Gram-Schmidt 构造两个二维子空间的正交基；两个 signature： - \(\theta_{\text{ref}}\)：两状态子空间的角度分离（越大越远） - rotation incompleteness：跨状态转换时实际旋转的角度（越不完整说明被原状态拽得越紧）

数据构造：对每个数据集（TriviaQA、NaturalQA、SORRY-Bench、Do-Not-Answer、SycophancyEval），用 Qwen3-Embedding 嵌入 QA 对后按 nearest-neighbor 排序得到 \(D_{\text{consistent}}\)（话题连贯），随机打乱得 \(D_{\text{inconsistent}}\)；从中采 20 轮对话，每对话 100 条。

关键设计¶

二状态马尔可夫链 + trace 度量持续性:
- 功能：黑盒量化任意现象的对话间持续效应
- 核心思路：每轮分类是否出现现象 \(\phi\)（字符串匹配 + 人工验证错误率 6.5%）；估计转移矩阵 \(T_{ij} = P(s_j|s_i)\)；\(\text{Tr}(\mathbf{T}) = 1 + \lambda_2\)（\(\lambda_2\) 是次特征值），\(\lambda_2\) 越大混合时间越长（持续效应越强）
- 设计动机：trace 是个直观的标量摘要，且不需要访问模型内部，适用于闭源模型；与高阶马尔可夫的扩展直接（论文附录有验证）
Gram-Schmidt 正交基 + \(\theta_{\text{ref}}\) 几何角:
- 功能：在潜空间度量"两个相态相距多远"
- 核心思路：对每个数据集，分别取若干 \(\phi^+\) 隐藏态和 \(\phi^-\) 隐藏态，Gram-Schmidt 得各自二维子空间的正交基；定义 \(\theta_{\text{ref}}\) 为两子空间间的主夹角；同时定义"转换不完整度"——每次实际跨状态转换时，潜空间旋转角与 \(\theta_{\text{ref}}\) 的差
- 设计动机：单一隐藏态方向不稳定（噪声大），二维子空间更鲁棒；正交基让"角度"有清晰定义；\(\theta_{\text{ref}}\) 大 + 旋转不完整 = 模型卡在两状态之间
跨视角相关性验证（核心实证）:
- 功能：把黑盒指标和白盒指标在多模型 × 多数据集上相关，证明两套观察对应同一底层机制
- 核心思路：在 3 模型 × 6 数据集（18 组合）上同时计算 \(\text{Tr}(\mathbf{T})\) 和 \(\theta_{\text{ref}}\)，做 Spearman 相关
- 设计动机：相关性是双重证据——既排除"trace 高是统计噪声"，也排除"\(\theta_{\text{ref}}\) 大是几何巧合"

实验关键数据¶

行为持续性（trace，跨三模型平均）¶

现象	NaturalQA	TriviaQA	Sorry	DoNotAns	S-pos	S-neg	均值
Tr(T)	1.13	1.12	1.57	1.59	1.33	1.14	1.31

所有现象 \(\text{Tr} > 1\)；refusal 数据集 trace 最高（≈1.6），说明拒绝的 carryover 最强。

几何角分离 \(\theta_{\text{ref}}\)（度）¶

模型	NaturalQA	TriviaQA	Sorry	DoNotAns	S-pos	S-neg
LLaMA-3.1-8B	11.3	13.1	66.5	54.3	14.6	28.2
Qwen-8B	11.7	6.4	46.4	38.6	22.5	22.6
GPT-OSS-20B	9.6	13.9	42.7	34.0	27.8	23.6

Refusal 数据集 \(\theta_{\text{ref}}\) 30–66°远大于幻觉的 6–14°——几何上 refusal 状态被显著分开。

双视角相关性¶

跨 3 模型 × 6 数据集 = 18 个 (trace, \(\theta_{\text{ref}}\)) 点，Spearman 相关 = 0.78——强正相关，验证"trace 高 ↔ 几何角大"。

话题连贯性消解陷阱¶

数据集	\(D_{\text{consistent}}\) trace	\(D_{\text{inconsistent}}\) trace	差
Sorry	1.57	1.18	−0.39
Do-not-answer	1.59	1.20	−0.39
S-neg	1.14	1.05	−0.09

打乱话题让 trace 显著降，几何角 \(\theta_{\text{ref}}\) 也跟着降——验证"几何陷阱"依赖话题连贯性，这也呼应了 adversarial jailbreak 通常注入无关 token 打破上下文的策略。

闭源模型验证¶

GPT-5 和 Claude-Opus-4.5 上单独跑黑盒（trace），模式与开源模型一致；说明 trace 是个通用诊断指标，可用于推断闭源模型的内在 carryover。

关键发现¶

不同现象 carryover 强度有序：refusal > sycophancy > hallucination，且这个序在 trace 和 \(\theta_{\text{ref}}\) 两套视角上完全一致
refusal 最强源于"单方向"：与 Arditi et al. 2024 发现的 refusal 由单一表示方向调控吻合——清晰定义的现象在几何上更分离，所以陷阱也最深
hallucination 最弱：可能因为幻觉是宽泛的失败模式合集（事实错 / 凭空编 / 不一致），潜空间没有统一子空间
不连贯对话拆解陷阱：实操上意味着"切换话题"可能是个解锁碳被困模型的简单办法

亮点与洞察¶

黑盒 + 白盒双重视角强相关：把行为统计和潜空间几何首次系统连接起来，得到"behavioral persistence = geometric trap"的双重证据；这种"两端验证"的方法论可迁移到任何 LLM 行为研究
三现象的统一处理：把幻觉、谄媚、拒绝（一个失败两个保守）放在同一框架下，发现 carryover 强度顺序与"现象清晰度"对应；这暗示"清晰可识别 = 几何分离 = 难逃"，是个新启示
闭源模型可诊断：trace 不需要内部访问，提供了对 GPT-5 / Claude 等闭源模型行为持续性的间接诊断手段——这在 LLM 治理上有实际价值
对 jailbreak 的几何解释：jailbreak 常通过注入无关 token 打破对话连贯，本文发现这正好降低 carryover；给出了 jailbreak 有效性的潜在几何机制

局限性 / 可改进方向¶

现象检测用字符串匹配（错误率 6.5%）——对幻觉的细分（事实错 vs 凭空编 vs 推理错）粒度不够，可能稀释信号
一阶马尔可夫假设可能简化太多，长程依赖未充分建模（论文附录扩到高阶但主结论仍基于一阶）
模型规模偏小（4–20B），更大模型的几何陷阱模式可能不同
几何角 \(\theta_{\text{ref}}\) 是层级聚合的（论文未说具体哪层），不同层可能有差异
仅观察了"once-trapped-stay-trapped"，没探索如何主动 de-trap（除了打乱话题这种被动方式）

评分¶

新颖性: ⭐⭐⭐⭐ 双视角统一框架是新的，但马尔可夫链 + 几何分离单独都不新
实验充分度: ⭐⭐⭐⭐⭐ 3 模型 × 6 数据集 × 3 现象 + 一致 / 不一致对照 + 闭源验证 + 高阶马尔可夫附录，覆盖到位
写作质量: ⭐⭐⭐⭐ 概念引入清晰，Figure 1 直观；几何部分推导可以更细
价值: ⭐⭐⭐⭐ 对 LLM 多轮安全、jailbreak 机理、对话部署都有实践启发；为机制可解释性 + 行为分析的结合提供了模板